{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 1000,
  "global_step": 480000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0833333333333333e-05,
      "grad_norm": 72.30984497070312,
      "learning_rate": 1.4999999999999998e-06,
      "loss": 4.6362,
      "step": 10
    },
    {
      "epoch": 4.1666666666666665e-05,
      "grad_norm": 43.39924621582031,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 4.7534,
      "step": 20
    },
    {
      "epoch": 6.25e-05,
      "grad_norm": 25.454833984375,
      "learning_rate": 4.499999999999999e-06,
      "loss": 4.2635,
      "step": 30
    },
    {
      "epoch": 8.333333333333333e-05,
      "grad_norm": 11.522808074951172,
      "learning_rate": 5.999999999999999e-06,
      "loss": 4.0512,
      "step": 40
    },
    {
      "epoch": 0.00010416666666666667,
      "grad_norm": 10.744834899902344,
      "learning_rate": 7.499999999999999e-06,
      "loss": 4.0242,
      "step": 50
    },
    {
      "epoch": 0.000125,
      "grad_norm": 12.436250686645508,
      "learning_rate": 8.999999999999999e-06,
      "loss": 3.9856,
      "step": 60
    },
    {
      "epoch": 0.00014583333333333335,
      "grad_norm": 9.33090877532959,
      "learning_rate": 1.05e-05,
      "loss": 3.9412,
      "step": 70
    },
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 9.470664024353027,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 3.7701,
      "step": 80
    },
    {
      "epoch": 0.0001875,
      "grad_norm": 8.887207984924316,
      "learning_rate": 1.3499999999999998e-05,
      "loss": 3.8407,
      "step": 90
    },
    {
      "epoch": 0.00020833333333333335,
      "grad_norm": 9.093425750732422,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 3.8341,
      "step": 100
    },
    {
      "epoch": 0.00022916666666666666,
      "grad_norm": 9.388822555541992,
      "learning_rate": 1.6499999999999998e-05,
      "loss": 3.7681,
      "step": 110
    },
    {
      "epoch": 0.00025,
      "grad_norm": 9.139527320861816,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 3.7638,
      "step": 120
    },
    {
      "epoch": 0.0002708333333333333,
      "grad_norm": 10.380029678344727,
      "learning_rate": 1.95e-05,
      "loss": 3.6063,
      "step": 130
    },
    {
      "epoch": 0.0002916666666666667,
      "grad_norm": 8.378033638000488,
      "learning_rate": 2.1e-05,
      "loss": 3.8099,
      "step": 140
    },
    {
      "epoch": 0.0003125,
      "grad_norm": 8.30606460571289,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 3.7955,
      "step": 150
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 8.55068588256836,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 3.9299,
      "step": 160
    },
    {
      "epoch": 0.0003541666666666667,
      "grad_norm": 8.874679565429688,
      "learning_rate": 2.55e-05,
      "loss": 3.9055,
      "step": 170
    },
    {
      "epoch": 0.000375,
      "grad_norm": 8.68818187713623,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 3.7679,
      "step": 180
    },
    {
      "epoch": 0.0003958333333333333,
      "grad_norm": 9.060141563415527,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 3.9537,
      "step": 190
    },
    {
      "epoch": 0.0004166666666666667,
      "grad_norm": 7.768223285675049,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.081,
      "step": 200
    },
    {
      "epoch": 0.0004375,
      "grad_norm": 9.661088943481445,
      "learning_rate": 3.149999999999999e-05,
      "loss": 3.6679,
      "step": 210
    },
    {
      "epoch": 0.0004583333333333333,
      "grad_norm": 8.670785903930664,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 3.6722,
      "step": 220
    },
    {
      "epoch": 0.00047916666666666664,
      "grad_norm": 8.841680526733398,
      "learning_rate": 3.45e-05,
      "loss": 4.0071,
      "step": 230
    },
    {
      "epoch": 0.0005,
      "grad_norm": 8.377537727355957,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 3.8653,
      "step": 240
    },
    {
      "epoch": 0.0005208333333333333,
      "grad_norm": 8.805062294006348,
      "learning_rate": 3.75e-05,
      "loss": 3.89,
      "step": 250
    },
    {
      "epoch": 0.0005416666666666666,
      "grad_norm": 9.115482330322266,
      "learning_rate": 3.9e-05,
      "loss": 3.8735,
      "step": 260
    },
    {
      "epoch": 0.0005625,
      "grad_norm": 7.9752020835876465,
      "learning_rate": 4.05e-05,
      "loss": 3.9496,
      "step": 270
    },
    {
      "epoch": 0.0005833333333333334,
      "grad_norm": 26.57411766052246,
      "learning_rate": 4.2e-05,
      "loss": 3.8666,
      "step": 280
    },
    {
      "epoch": 0.0006041666666666667,
      "grad_norm": 8.844355583190918,
      "learning_rate": 4.3499999999999993e-05,
      "loss": 3.8451,
      "step": 290
    },
    {
      "epoch": 0.000625,
      "grad_norm": 9.102392196655273,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 3.9638,
      "step": 300
    },
    {
      "epoch": 0.0006458333333333333,
      "grad_norm": 9.72409725189209,
      "learning_rate": 4.65e-05,
      "loss": 3.9015,
      "step": 310
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 8.495112419128418,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 3.8293,
      "step": 320
    },
    {
      "epoch": 0.0006875,
      "grad_norm": 8.365047454833984,
      "learning_rate": 4.95e-05,
      "loss": 4.0059,
      "step": 330
    },
    {
      "epoch": 0.0007083333333333334,
      "grad_norm": 8.578908920288086,
      "learning_rate": 5.1e-05,
      "loss": 4.0075,
      "step": 340
    },
    {
      "epoch": 0.0007291666666666667,
      "grad_norm": 9.944293022155762,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 3.9852,
      "step": 350
    },
    {
      "epoch": 0.00075,
      "grad_norm": 14.476977348327637,
      "learning_rate": 5.399999999999999e-05,
      "loss": 3.9953,
      "step": 360
    },
    {
      "epoch": 0.0007708333333333333,
      "grad_norm": 7.384346961975098,
      "learning_rate": 5.5499999999999994e-05,
      "loss": 4.1331,
      "step": 370
    },
    {
      "epoch": 0.0007916666666666666,
      "grad_norm": 7.144724369049072,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 4.0553,
      "step": 380
    },
    {
      "epoch": 0.0008125,
      "grad_norm": 8.460814476013184,
      "learning_rate": 5.85e-05,
      "loss": 3.9728,
      "step": 390
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 7.570359706878662,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 3.9749,
      "step": 400
    },
    {
      "epoch": 0.0008541666666666667,
      "grad_norm": 7.638940811157227,
      "learning_rate": 6.149999999999999e-05,
      "loss": 3.9499,
      "step": 410
    },
    {
      "epoch": 0.000875,
      "grad_norm": 8.055388450622559,
      "learning_rate": 6.299999999999999e-05,
      "loss": 3.9046,
      "step": 420
    },
    {
      "epoch": 0.0008958333333333333,
      "grad_norm": 8.467719078063965,
      "learning_rate": 6.45e-05,
      "loss": 3.9881,
      "step": 430
    },
    {
      "epoch": 0.0009166666666666666,
      "grad_norm": 7.504207134246826,
      "learning_rate": 6.599999999999999e-05,
      "loss": 3.7445,
      "step": 440
    },
    {
      "epoch": 0.0009375,
      "grad_norm": 7.900864124298096,
      "learning_rate": 6.75e-05,
      "loss": 3.9676,
      "step": 450
    },
    {
      "epoch": 0.0009583333333333333,
      "grad_norm": 7.512757301330566,
      "learning_rate": 6.9e-05,
      "loss": 3.9274,
      "step": 460
    },
    {
      "epoch": 0.0009791666666666666,
      "grad_norm": 8.282113075256348,
      "learning_rate": 7.049999999999999e-05,
      "loss": 3.9609,
      "step": 470
    },
    {
      "epoch": 0.001,
      "grad_norm": 8.420802116394043,
      "learning_rate": 7.199999999999999e-05,
      "loss": 4.0627,
      "step": 480
    },
    {
      "epoch": 0.0010208333333333332,
      "grad_norm": 7.593632698059082,
      "learning_rate": 7.35e-05,
      "loss": 4.0947,
      "step": 490
    },
    {
      "epoch": 0.0010416666666666667,
      "grad_norm": 11.078756332397461,
      "learning_rate": 7.5e-05,
      "loss": 4.124,
      "step": 500
    },
    {
      "epoch": 0.0010625,
      "grad_norm": 7.512997150421143,
      "learning_rate": 7.649999999999999e-05,
      "loss": 4.1271,
      "step": 510
    },
    {
      "epoch": 0.0010833333333333333,
      "grad_norm": 7.458708763122559,
      "learning_rate": 7.8e-05,
      "loss": 4.1664,
      "step": 520
    },
    {
      "epoch": 0.0011041666666666667,
      "grad_norm": 8.266947746276855,
      "learning_rate": 7.95e-05,
      "loss": 3.988,
      "step": 530
    },
    {
      "epoch": 0.001125,
      "grad_norm": 6.832077503204346,
      "learning_rate": 8.1e-05,
      "loss": 4.0083,
      "step": 540
    },
    {
      "epoch": 0.0011458333333333333,
      "grad_norm": 8.074117660522461,
      "learning_rate": 8.25e-05,
      "loss": 3.9871,
      "step": 550
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 7.828391075134277,
      "learning_rate": 8.4e-05,
      "loss": 4.0638,
      "step": 560
    },
    {
      "epoch": 0.0011875,
      "grad_norm": 6.66693639755249,
      "learning_rate": 8.549999999999999e-05,
      "loss": 4.1068,
      "step": 570
    },
    {
      "epoch": 0.0012083333333333334,
      "grad_norm": 7.4058451652526855,
      "learning_rate": 8.699999999999999e-05,
      "loss": 4.1472,
      "step": 580
    },
    {
      "epoch": 0.0012291666666666666,
      "grad_norm": 6.447504997253418,
      "learning_rate": 8.849999999999998e-05,
      "loss": 4.1803,
      "step": 590
    },
    {
      "epoch": 0.00125,
      "grad_norm": 6.868984222412109,
      "learning_rate": 8.999999999999999e-05,
      "loss": 4.1833,
      "step": 600
    },
    {
      "epoch": 0.0012708333333333332,
      "grad_norm": 7.469628810882568,
      "learning_rate": 9.149999999999999e-05,
      "loss": 3.997,
      "step": 610
    },
    {
      "epoch": 0.0012916666666666667,
      "grad_norm": 7.446576118469238,
      "learning_rate": 9.3e-05,
      "loss": 4.0621,
      "step": 620
    },
    {
      "epoch": 0.0013125,
      "grad_norm": 6.583703517913818,
      "learning_rate": 9.449999999999999e-05,
      "loss": 3.7418,
      "step": 630
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 7.008555889129639,
      "learning_rate": 9.599999999999999e-05,
      "loss": 4.2412,
      "step": 640
    },
    {
      "epoch": 0.0013541666666666667,
      "grad_norm": 6.855893611907959,
      "learning_rate": 9.75e-05,
      "loss": 4.0182,
      "step": 650
    },
    {
      "epoch": 0.001375,
      "grad_norm": 6.767462253570557,
      "learning_rate": 9.9e-05,
      "loss": 4.0323,
      "step": 660
    },
    {
      "epoch": 0.0013958333333333333,
      "grad_norm": 7.122180938720703,
      "learning_rate": 0.0001005,
      "loss": 4.1828,
      "step": 670
    },
    {
      "epoch": 0.0014166666666666668,
      "grad_norm": 7.559014320373535,
      "learning_rate": 0.000102,
      "loss": 4.2654,
      "step": 680
    },
    {
      "epoch": 0.0014375,
      "grad_norm": 7.402278423309326,
      "learning_rate": 0.00010349999999999998,
      "loss": 4.0653,
      "step": 690
    },
    {
      "epoch": 0.0014583333333333334,
      "grad_norm": 7.495516300201416,
      "learning_rate": 0.00010499999999999999,
      "loss": 4.1093,
      "step": 700
    },
    {
      "epoch": 0.0014791666666666666,
      "grad_norm": 7.716014385223389,
      "learning_rate": 0.00010649999999999999,
      "loss": 4.0907,
      "step": 710
    },
    {
      "epoch": 0.0015,
      "grad_norm": 6.417787551879883,
      "learning_rate": 0.00010799999999999998,
      "loss": 4.1496,
      "step": 720
    },
    {
      "epoch": 0.0015208333333333332,
      "grad_norm": 7.113967418670654,
      "learning_rate": 0.00010949999999999999,
      "loss": 3.9912,
      "step": 730
    },
    {
      "epoch": 0.0015416666666666667,
      "grad_norm": 7.464141845703125,
      "learning_rate": 0.00011099999999999999,
      "loss": 4.324,
      "step": 740
    },
    {
      "epoch": 0.0015625,
      "grad_norm": 7.239601135253906,
      "learning_rate": 0.0001125,
      "loss": 4.0583,
      "step": 750
    },
    {
      "epoch": 0.0015833333333333333,
      "grad_norm": 6.802314758300781,
      "learning_rate": 0.00011399999999999999,
      "loss": 4.2864,
      "step": 760
    },
    {
      "epoch": 0.0016041666666666667,
      "grad_norm": 7.551130771636963,
      "learning_rate": 0.00011549999999999999,
      "loss": 4.2444,
      "step": 770
    },
    {
      "epoch": 0.001625,
      "grad_norm": 6.192543983459473,
      "learning_rate": 0.000117,
      "loss": 4.1148,
      "step": 780
    },
    {
      "epoch": 0.0016458333333333333,
      "grad_norm": 6.214901924133301,
      "learning_rate": 0.0001185,
      "loss": 4.267,
      "step": 790
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 6.298749923706055,
      "learning_rate": 0.00011999999999999999,
      "loss": 4.2748,
      "step": 800
    },
    {
      "epoch": 0.0016875,
      "grad_norm": 8.027308464050293,
      "learning_rate": 0.0001215,
      "loss": 4.2321,
      "step": 810
    },
    {
      "epoch": 0.0017083333333333334,
      "grad_norm": 7.212855815887451,
      "learning_rate": 0.00012299999999999998,
      "loss": 4.1312,
      "step": 820
    },
    {
      "epoch": 0.0017291666666666666,
      "grad_norm": 5.833057403564453,
      "learning_rate": 0.0001245,
      "loss": 4.1164,
      "step": 830
    },
    {
      "epoch": 0.00175,
      "grad_norm": 6.693961143493652,
      "learning_rate": 0.00012599999999999997,
      "loss": 4.1212,
      "step": 840
    },
    {
      "epoch": 0.0017708333333333332,
      "grad_norm": 6.602572441101074,
      "learning_rate": 0.00012749999999999998,
      "loss": 4.2671,
      "step": 850
    },
    {
      "epoch": 0.0017916666666666667,
      "grad_norm": 7.414997100830078,
      "learning_rate": 0.000129,
      "loss": 4.2936,
      "step": 860
    },
    {
      "epoch": 0.0018125,
      "grad_norm": 6.57988977432251,
      "learning_rate": 0.0001305,
      "loss": 4.3051,
      "step": 870
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 6.314211845397949,
      "learning_rate": 0.00013199999999999998,
      "loss": 4.1805,
      "step": 880
    },
    {
      "epoch": 0.0018541666666666667,
      "grad_norm": 6.339169025421143,
      "learning_rate": 0.0001335,
      "loss": 4.2891,
      "step": 890
    },
    {
      "epoch": 0.001875,
      "grad_norm": 7.959092617034912,
      "learning_rate": 0.000135,
      "loss": 4.5654,
      "step": 900
    },
    {
      "epoch": 0.0018958333333333334,
      "grad_norm": 6.965707302093506,
      "learning_rate": 0.00013649999999999998,
      "loss": 4.3315,
      "step": 910
    },
    {
      "epoch": 0.0019166666666666666,
      "grad_norm": 5.952490329742432,
      "learning_rate": 0.000138,
      "loss": 4.303,
      "step": 920
    },
    {
      "epoch": 0.0019375,
      "grad_norm": 6.211842060089111,
      "learning_rate": 0.0001395,
      "loss": 4.3614,
      "step": 930
    },
    {
      "epoch": 0.001958333333333333,
      "grad_norm": 6.245978832244873,
      "learning_rate": 0.00014099999999999998,
      "loss": 4.3687,
      "step": 940
    },
    {
      "epoch": 0.001979166666666667,
      "grad_norm": 5.797205924987793,
      "learning_rate": 0.0001425,
      "loss": 4.262,
      "step": 950
    },
    {
      "epoch": 0.002,
      "grad_norm": 6.119781970977783,
      "learning_rate": 0.00014399999999999998,
      "loss": 4.3656,
      "step": 960
    },
    {
      "epoch": 0.0020208333333333332,
      "grad_norm": 5.630598068237305,
      "learning_rate": 0.00014549999999999999,
      "loss": 4.2912,
      "step": 970
    },
    {
      "epoch": 0.0020416666666666665,
      "grad_norm": 5.147586822509766,
      "learning_rate": 0.000147,
      "loss": 4.4391,
      "step": 980
    },
    {
      "epoch": 0.0020625,
      "grad_norm": 5.880343914031982,
      "learning_rate": 0.00014849999999999998,
      "loss": 4.3448,
      "step": 990
    },
    {
      "epoch": 0.0020833333333333333,
      "grad_norm": 6.231303691864014,
      "learning_rate": 0.00015,
      "loss": 4.2931,
      "step": 1000
    },
    {
      "epoch": 0.0020833333333333333,
      "eval_loss": 3.9822170734405518,
      "eval_runtime": 7.1793,
      "eval_samples_per_second": 1.393,
      "eval_steps_per_second": 0.418,
      "step": 1000
    },
    {
      "epoch": 0.0021041666666666665,
      "grad_norm": 5.031039237976074,
      "learning_rate": 0.0001515,
      "loss": 4.3137,
      "step": 1010
    },
    {
      "epoch": 0.002125,
      "grad_norm": 5.0938239097595215,
      "learning_rate": 0.00015299999999999998,
      "loss": 4.6988,
      "step": 1020
    },
    {
      "epoch": 0.0021458333333333334,
      "grad_norm": 7.057599067687988,
      "learning_rate": 0.0001545,
      "loss": 4.3946,
      "step": 1030
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 7.040401935577393,
      "learning_rate": 0.000156,
      "loss": 4.3351,
      "step": 1040
    },
    {
      "epoch": 0.0021875,
      "grad_norm": 5.97184944152832,
      "learning_rate": 0.00015749999999999998,
      "loss": 4.4893,
      "step": 1050
    },
    {
      "epoch": 0.0022083333333333334,
      "grad_norm": 5.729983329772949,
      "learning_rate": 0.000159,
      "loss": 4.391,
      "step": 1060
    },
    {
      "epoch": 0.0022291666666666666,
      "grad_norm": 4.702611923217773,
      "learning_rate": 0.0001605,
      "loss": 4.2053,
      "step": 1070
    },
    {
      "epoch": 0.00225,
      "grad_norm": 5.516280174255371,
      "learning_rate": 0.000162,
      "loss": 4.2621,
      "step": 1080
    },
    {
      "epoch": 0.0022708333333333335,
      "grad_norm": 5.9881510734558105,
      "learning_rate": 0.0001635,
      "loss": 4.5511,
      "step": 1090
    },
    {
      "epoch": 0.0022916666666666667,
      "grad_norm": 5.046294212341309,
      "learning_rate": 0.000165,
      "loss": 4.4357,
      "step": 1100
    },
    {
      "epoch": 0.0023125,
      "grad_norm": 5.59683084487915,
      "learning_rate": 0.0001665,
      "loss": 4.4017,
      "step": 1110
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 6.558043479919434,
      "learning_rate": 0.000168,
      "loss": 4.4758,
      "step": 1120
    },
    {
      "epoch": 0.0023541666666666667,
      "grad_norm": 5.032658576965332,
      "learning_rate": 0.00016949999999999997,
      "loss": 4.4411,
      "step": 1130
    },
    {
      "epoch": 0.002375,
      "grad_norm": 4.9206743240356445,
      "learning_rate": 0.00017099999999999998,
      "loss": 4.4983,
      "step": 1140
    },
    {
      "epoch": 0.002395833333333333,
      "grad_norm": 5.244015693664551,
      "learning_rate": 0.00017249999999999996,
      "loss": 4.4288,
      "step": 1150
    },
    {
      "epoch": 0.002416666666666667,
      "grad_norm": 5.557680130004883,
      "learning_rate": 0.00017399999999999997,
      "loss": 4.3337,
      "step": 1160
    },
    {
      "epoch": 0.0024375,
      "grad_norm": 5.586058616638184,
      "learning_rate": 0.00017549999999999998,
      "loss": 4.5884,
      "step": 1170
    },
    {
      "epoch": 0.002458333333333333,
      "grad_norm": 4.653756141662598,
      "learning_rate": 0.00017699999999999997,
      "loss": 4.4028,
      "step": 1180
    },
    {
      "epoch": 0.002479166666666667,
      "grad_norm": 6.020007133483887,
      "learning_rate": 0.00017849999999999997,
      "loss": 4.3349,
      "step": 1190
    },
    {
      "epoch": 0.0025,
      "grad_norm": 5.008302211761475,
      "learning_rate": 0.00017999999999999998,
      "loss": 4.6222,
      "step": 1200
    },
    {
      "epoch": 0.0025208333333333333,
      "grad_norm": 5.649862289428711,
      "learning_rate": 0.00018149999999999997,
      "loss": 4.5357,
      "step": 1210
    },
    {
      "epoch": 0.0025416666666666665,
      "grad_norm": 5.899333953857422,
      "learning_rate": 0.00018299999999999998,
      "loss": 4.3867,
      "step": 1220
    },
    {
      "epoch": 0.0025625,
      "grad_norm": 4.642279148101807,
      "learning_rate": 0.00018449999999999999,
      "loss": 4.4507,
      "step": 1230
    },
    {
      "epoch": 0.0025833333333333333,
      "grad_norm": 5.131576061248779,
      "learning_rate": 0.000186,
      "loss": 4.8947,
      "step": 1240
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 6.041022777557373,
      "learning_rate": 0.00018749999999999998,
      "loss": 4.4326,
      "step": 1250
    },
    {
      "epoch": 0.002625,
      "grad_norm": 5.180535316467285,
      "learning_rate": 0.00018899999999999999,
      "loss": 4.4545,
      "step": 1260
    },
    {
      "epoch": 0.0026458333333333334,
      "grad_norm": 4.8881731033325195,
      "learning_rate": 0.0001905,
      "loss": 4.5259,
      "step": 1270
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 5.538400173187256,
      "learning_rate": 0.00019199999999999998,
      "loss": 4.4665,
      "step": 1280
    },
    {
      "epoch": 0.0026875,
      "grad_norm": 5.7096476554870605,
      "learning_rate": 0.0001935,
      "loss": 4.5202,
      "step": 1290
    },
    {
      "epoch": 0.0027083333333333334,
      "grad_norm": 5.058865070343018,
      "learning_rate": 0.000195,
      "loss": 4.5582,
      "step": 1300
    },
    {
      "epoch": 0.0027291666666666666,
      "grad_norm": 4.714669227600098,
      "learning_rate": 0.00019649999999999998,
      "loss": 4.797,
      "step": 1310
    },
    {
      "epoch": 0.00275,
      "grad_norm": 4.8738555908203125,
      "learning_rate": 0.000198,
      "loss": 4.5302,
      "step": 1320
    },
    {
      "epoch": 0.0027708333333333335,
      "grad_norm": 4.213856220245361,
      "learning_rate": 0.0001995,
      "loss": 4.5888,
      "step": 1330
    },
    {
      "epoch": 0.0027916666666666667,
      "grad_norm": 4.1929521560668945,
      "learning_rate": 0.000201,
      "loss": 4.7641,
      "step": 1340
    },
    {
      "epoch": 0.0028125,
      "grad_norm": 5.6435980796813965,
      "learning_rate": 0.0002025,
      "loss": 4.4763,
      "step": 1350
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 5.029745101928711,
      "learning_rate": 0.000204,
      "loss": 4.6572,
      "step": 1360
    },
    {
      "epoch": 0.0028541666666666667,
      "grad_norm": 4.285599708557129,
      "learning_rate": 0.0002055,
      "loss": 4.4564,
      "step": 1370
    },
    {
      "epoch": 0.002875,
      "grad_norm": 4.392772197723389,
      "learning_rate": 0.00020699999999999996,
      "loss": 4.3789,
      "step": 1380
    },
    {
      "epoch": 0.002895833333333333,
      "grad_norm": 4.572149276733398,
      "learning_rate": 0.00020849999999999997,
      "loss": 4.5087,
      "step": 1390
    },
    {
      "epoch": 0.002916666666666667,
      "grad_norm": 5.087859153747559,
      "learning_rate": 0.00020999999999999998,
      "loss": 4.4816,
      "step": 1400
    },
    {
      "epoch": 0.0029375,
      "grad_norm": 6.126087188720703,
      "learning_rate": 0.00021149999999999996,
      "loss": 4.5625,
      "step": 1410
    },
    {
      "epoch": 0.002958333333333333,
      "grad_norm": 4.393908500671387,
      "learning_rate": 0.00021299999999999997,
      "loss": 4.4602,
      "step": 1420
    },
    {
      "epoch": 0.002979166666666667,
      "grad_norm": 4.440651893615723,
      "learning_rate": 0.00021449999999999998,
      "loss": 4.4232,
      "step": 1430
    },
    {
      "epoch": 0.003,
      "grad_norm": 3.8705708980560303,
      "learning_rate": 0.00021599999999999996,
      "loss": 4.5933,
      "step": 1440
    },
    {
      "epoch": 0.0030208333333333333,
      "grad_norm": 3.875251531600952,
      "learning_rate": 0.00021749999999999997,
      "loss": 4.4553,
      "step": 1450
    },
    {
      "epoch": 0.0030416666666666665,
      "grad_norm": 5.365112781524658,
      "learning_rate": 0.00021899999999999998,
      "loss": 4.5981,
      "step": 1460
    },
    {
      "epoch": 0.0030625,
      "grad_norm": 5.116417407989502,
      "learning_rate": 0.00022049999999999997,
      "loss": 4.6007,
      "step": 1470
    },
    {
      "epoch": 0.0030833333333333333,
      "grad_norm": 4.655697822570801,
      "learning_rate": 0.00022199999999999998,
      "loss": 4.6949,
      "step": 1480
    },
    {
      "epoch": 0.0031041666666666665,
      "grad_norm": 4.6232709884643555,
      "learning_rate": 0.00022349999999999998,
      "loss": 4.5882,
      "step": 1490
    },
    {
      "epoch": 0.003125,
      "grad_norm": 4.1446075439453125,
      "learning_rate": 0.000225,
      "loss": 4.6162,
      "step": 1500
    },
    {
      "epoch": 0.0031458333333333334,
      "grad_norm": 4.1264328956604,
      "learning_rate": 0.00022649999999999998,
      "loss": 4.6351,
      "step": 1510
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 4.003993034362793,
      "learning_rate": 0.00022799999999999999,
      "loss": 4.639,
      "step": 1520
    },
    {
      "epoch": 0.0031875,
      "grad_norm": 4.1348443031311035,
      "learning_rate": 0.0002295,
      "loss": 4.5429,
      "step": 1530
    },
    {
      "epoch": 0.0032083333333333334,
      "grad_norm": 4.360715389251709,
      "learning_rate": 0.00023099999999999998,
      "loss": 4.4646,
      "step": 1540
    },
    {
      "epoch": 0.0032291666666666666,
      "grad_norm": 6.416584491729736,
      "learning_rate": 0.00023249999999999999,
      "loss": 4.6218,
      "step": 1550
    },
    {
      "epoch": 0.00325,
      "grad_norm": 4.803150177001953,
      "learning_rate": 0.000234,
      "loss": 4.583,
      "step": 1560
    },
    {
      "epoch": 0.0032708333333333335,
      "grad_norm": 3.6953909397125244,
      "learning_rate": 0.00023549999999999998,
      "loss": 4.6158,
      "step": 1570
    },
    {
      "epoch": 0.0032916666666666667,
      "grad_norm": 4.403478622436523,
      "learning_rate": 0.000237,
      "loss": 4.5994,
      "step": 1580
    },
    {
      "epoch": 0.0033125,
      "grad_norm": 5.163620948791504,
      "learning_rate": 0.0002385,
      "loss": 4.5736,
      "step": 1590
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 4.951747894287109,
      "learning_rate": 0.00023999999999999998,
      "loss": 4.606,
      "step": 1600
    },
    {
      "epoch": 0.0033541666666666668,
      "grad_norm": 3.9518027305603027,
      "learning_rate": 0.0002415,
      "loss": 4.7844,
      "step": 1610
    },
    {
      "epoch": 0.003375,
      "grad_norm": 4.403641700744629,
      "learning_rate": 0.000243,
      "loss": 4.5685,
      "step": 1620
    },
    {
      "epoch": 0.003395833333333333,
      "grad_norm": 4.345798969268799,
      "learning_rate": 0.0002445,
      "loss": 4.6184,
      "step": 1630
    },
    {
      "epoch": 0.003416666666666667,
      "grad_norm": 5.981644153594971,
      "learning_rate": 0.00024599999999999996,
      "loss": 4.6469,
      "step": 1640
    },
    {
      "epoch": 0.0034375,
      "grad_norm": 7.6500678062438965,
      "learning_rate": 0.00024749999999999994,
      "loss": 4.6957,
      "step": 1650
    },
    {
      "epoch": 0.0034583333333333332,
      "grad_norm": 3.946864128112793,
      "learning_rate": 0.000249,
      "loss": 4.5278,
      "step": 1660
    },
    {
      "epoch": 0.003479166666666667,
      "grad_norm": 3.901472568511963,
      "learning_rate": 0.00025049999999999996,
      "loss": 4.5398,
      "step": 1670
    },
    {
      "epoch": 0.0035,
      "grad_norm": 4.204629898071289,
      "learning_rate": 0.00025199999999999995,
      "loss": 4.6382,
      "step": 1680
    },
    {
      "epoch": 0.0035208333333333333,
      "grad_norm": 3.877797842025757,
      "learning_rate": 0.0002535,
      "loss": 4.64,
      "step": 1690
    },
    {
      "epoch": 0.0035416666666666665,
      "grad_norm": 4.1104350090026855,
      "learning_rate": 0.00025499999999999996,
      "loss": 4.8009,
      "step": 1700
    },
    {
      "epoch": 0.0035625,
      "grad_norm": 3.7294509410858154,
      "learning_rate": 0.00025649999999999995,
      "loss": 4.7148,
      "step": 1710
    },
    {
      "epoch": 0.0035833333333333333,
      "grad_norm": 3.8876123428344727,
      "learning_rate": 0.000258,
      "loss": 4.7095,
      "step": 1720
    },
    {
      "epoch": 0.0036041666666666665,
      "grad_norm": 4.074104309082031,
      "learning_rate": 0.00025949999999999997,
      "loss": 4.6914,
      "step": 1730
    },
    {
      "epoch": 0.003625,
      "grad_norm": 4.077747344970703,
      "learning_rate": 0.000261,
      "loss": 4.7172,
      "step": 1740
    },
    {
      "epoch": 0.0036458333333333334,
      "grad_norm": 3.6589715480804443,
      "learning_rate": 0.0002625,
      "loss": 4.6625,
      "step": 1750
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 4.828677654266357,
      "learning_rate": 0.00026399999999999997,
      "loss": 4.7178,
      "step": 1760
    },
    {
      "epoch": 0.0036875,
      "grad_norm": 3.5758824348449707,
      "learning_rate": 0.0002655,
      "loss": 4.6466,
      "step": 1770
    },
    {
      "epoch": 0.0037083333333333334,
      "grad_norm": 3.6370849609375,
      "learning_rate": 0.000267,
      "loss": 4.7954,
      "step": 1780
    },
    {
      "epoch": 0.0037291666666666667,
      "grad_norm": 5.135190963745117,
      "learning_rate": 0.00026849999999999997,
      "loss": 4.759,
      "step": 1790
    },
    {
      "epoch": 0.00375,
      "grad_norm": 21.43021583557129,
      "learning_rate": 0.00027,
      "loss": 4.4977,
      "step": 1800
    },
    {
      "epoch": 0.0037708333333333335,
      "grad_norm": 3.8730733394622803,
      "learning_rate": 0.0002715,
      "loss": 4.6727,
      "step": 1810
    },
    {
      "epoch": 0.0037916666666666667,
      "grad_norm": 3.9357032775878906,
      "learning_rate": 0.00027299999999999997,
      "loss": 4.7058,
      "step": 1820
    },
    {
      "epoch": 0.0038125,
      "grad_norm": 3.9217560291290283,
      "learning_rate": 0.0002745,
      "loss": 4.5795,
      "step": 1830
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 3.9691879749298096,
      "learning_rate": 0.000276,
      "loss": 4.9091,
      "step": 1840
    },
    {
      "epoch": 0.0038541666666666668,
      "grad_norm": 3.9948923587799072,
      "learning_rate": 0.00027749999999999997,
      "loss": 4.9818,
      "step": 1850
    },
    {
      "epoch": 0.003875,
      "grad_norm": 3.8103668689727783,
      "learning_rate": 0.000279,
      "loss": 4.6854,
      "step": 1860
    },
    {
      "epoch": 0.003895833333333333,
      "grad_norm": 3.425532341003418,
      "learning_rate": 0.0002805,
      "loss": 4.7476,
      "step": 1870
    },
    {
      "epoch": 0.003916666666666666,
      "grad_norm": 3.7278032302856445,
      "learning_rate": 0.00028199999999999997,
      "loss": 4.6555,
      "step": 1880
    },
    {
      "epoch": 0.0039375,
      "grad_norm": 3.6411898136138916,
      "learning_rate": 0.00028349999999999995,
      "loss": 4.8416,
      "step": 1890
    },
    {
      "epoch": 0.003958333333333334,
      "grad_norm": 4.3443803787231445,
      "learning_rate": 0.000285,
      "loss": 4.6291,
      "step": 1900
    },
    {
      "epoch": 0.0039791666666666664,
      "grad_norm": 5.520480632781982,
      "learning_rate": 0.00028649999999999997,
      "loss": 4.6982,
      "step": 1910
    },
    {
      "epoch": 0.004,
      "grad_norm": 3.971456527709961,
      "learning_rate": 0.00028799999999999995,
      "loss": 4.7955,
      "step": 1920
    },
    {
      "epoch": 0.004020833333333334,
      "grad_norm": 4.788872718811035,
      "learning_rate": 0.0002895,
      "loss": 4.7559,
      "step": 1930
    },
    {
      "epoch": 0.0040416666666666665,
      "grad_norm": 3.554487466812134,
      "learning_rate": 0.00029099999999999997,
      "loss": 4.6953,
      "step": 1940
    },
    {
      "epoch": 0.0040625,
      "grad_norm": 3.7328543663024902,
      "learning_rate": 0.00029249999999999995,
      "loss": 4.7601,
      "step": 1950
    },
    {
      "epoch": 0.004083333333333333,
      "grad_norm": 3.768280029296875,
      "learning_rate": 0.000294,
      "loss": 4.8781,
      "step": 1960
    },
    {
      "epoch": 0.0041041666666666666,
      "grad_norm": 3.682710886001587,
      "learning_rate": 0.00029549999999999997,
      "loss": 4.6616,
      "step": 1970
    },
    {
      "epoch": 0.004125,
      "grad_norm": 3.4131979942321777,
      "learning_rate": 0.00029699999999999996,
      "loss": 4.7468,
      "step": 1980
    },
    {
      "epoch": 0.004145833333333333,
      "grad_norm": 2.9489829540252686,
      "learning_rate": 0.0002985,
      "loss": 4.7388,
      "step": 1990
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 3.4618802070617676,
      "learning_rate": 0.0003,
      "loss": 4.6323,
      "step": 2000
    },
    {
      "epoch": 0.004166666666666667,
      "eval_loss": 4.467380523681641,
      "eval_runtime": 6.7966,
      "eval_samples_per_second": 1.471,
      "eval_steps_per_second": 0.441,
      "step": 2000
    },
    {
      "epoch": 0.0041875,
      "grad_norm": 3.524467945098877,
      "learning_rate": 0.00029999999967602963,
      "loss": 4.6095,
      "step": 2010
    },
    {
      "epoch": 0.004208333333333333,
      "grad_norm": 3.87937331199646,
      "learning_rate": 0.0002999999987041187,
      "loss": 4.6849,
      "step": 2020
    },
    {
      "epoch": 0.004229166666666667,
      "grad_norm": 3.078120231628418,
      "learning_rate": 0.00029999999708426716,
      "loss": 4.6757,
      "step": 2030
    },
    {
      "epoch": 0.00425,
      "grad_norm": 3.0640640258789062,
      "learning_rate": 0.000299999994816475,
      "loss": 4.8361,
      "step": 2040
    },
    {
      "epoch": 0.004270833333333333,
      "grad_norm": 3.039214611053467,
      "learning_rate": 0.0002999999919007422,
      "loss": 4.8795,
      "step": 2050
    },
    {
      "epoch": 0.004291666666666667,
      "grad_norm": 3.9450783729553223,
      "learning_rate": 0.00029999998833706883,
      "loss": 4.8777,
      "step": 2060
    },
    {
      "epoch": 0.0043125,
      "grad_norm": 3.191396951675415,
      "learning_rate": 0.0002999999841254549,
      "loss": 4.8823,
      "step": 2070
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 3.312746047973633,
      "learning_rate": 0.0002999999792659004,
      "loss": 4.7732,
      "step": 2080
    },
    {
      "epoch": 0.004354166666666667,
      "grad_norm": 3.1489720344543457,
      "learning_rate": 0.00029999997375840536,
      "loss": 4.7233,
      "step": 2090
    },
    {
      "epoch": 0.004375,
      "grad_norm": 5.933261871337891,
      "learning_rate": 0.0002999999676029699,
      "loss": 4.9599,
      "step": 2100
    },
    {
      "epoch": 0.004395833333333333,
      "grad_norm": 2.830186605453491,
      "learning_rate": 0.00029999996079959376,
      "loss": 4.7366,
      "step": 2110
    },
    {
      "epoch": 0.004416666666666667,
      "grad_norm": 3.1795709133148193,
      "learning_rate": 0.0002999999533482773,
      "loss": 4.6978,
      "step": 2120
    },
    {
      "epoch": 0.0044375,
      "grad_norm": 4.214395999908447,
      "learning_rate": 0.0002999999452490204,
      "loss": 4.7972,
      "step": 2130
    },
    {
      "epoch": 0.004458333333333333,
      "grad_norm": 3.7726480960845947,
      "learning_rate": 0.0002999999365018231,
      "loss": 4.687,
      "step": 2140
    },
    {
      "epoch": 0.004479166666666667,
      "grad_norm": 3.113906145095825,
      "learning_rate": 0.00029999992710668543,
      "loss": 4.6225,
      "step": 2150
    },
    {
      "epoch": 0.0045,
      "grad_norm": 3.6494369506835938,
      "learning_rate": 0.00029999991706360747,
      "loss": 4.8344,
      "step": 2160
    },
    {
      "epoch": 0.004520833333333333,
      "grad_norm": 3.4305975437164307,
      "learning_rate": 0.0002999999063725892,
      "loss": 4.7016,
      "step": 2170
    },
    {
      "epoch": 0.004541666666666667,
      "grad_norm": 3.0014517307281494,
      "learning_rate": 0.00029999989503363077,
      "loss": 4.7891,
      "step": 2180
    },
    {
      "epoch": 0.0045625,
      "grad_norm": 3.4340953826904297,
      "learning_rate": 0.00029999988304673216,
      "loss": 4.8309,
      "step": 2190
    },
    {
      "epoch": 0.004583333333333333,
      "grad_norm": 3.1064703464508057,
      "learning_rate": 0.0002999998704118934,
      "loss": 4.7645,
      "step": 2200
    },
    {
      "epoch": 0.004604166666666667,
      "grad_norm": 2.796605110168457,
      "learning_rate": 0.0002999998571291146,
      "loss": 4.8528,
      "step": 2210
    },
    {
      "epoch": 0.004625,
      "grad_norm": 3.094402551651001,
      "learning_rate": 0.0002999998431983958,
      "loss": 4.8479,
      "step": 2220
    },
    {
      "epoch": 0.004645833333333333,
      "grad_norm": 3.2179505825042725,
      "learning_rate": 0.000299999828619737,
      "loss": 4.7349,
      "step": 2230
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 3.0531139373779297,
      "learning_rate": 0.00029999981339313834,
      "loss": 4.6615,
      "step": 2240
    },
    {
      "epoch": 0.0046875,
      "grad_norm": 2.759168863296509,
      "learning_rate": 0.00029999979751859984,
      "loss": 4.6116,
      "step": 2250
    },
    {
      "epoch": 0.0047083333333333335,
      "grad_norm": 3.1646828651428223,
      "learning_rate": 0.00029999978099612163,
      "loss": 4.8091,
      "step": 2260
    },
    {
      "epoch": 0.004729166666666666,
      "grad_norm": 2.982754707336426,
      "learning_rate": 0.0002999997638257037,
      "loss": 4.9553,
      "step": 2270
    },
    {
      "epoch": 0.00475,
      "grad_norm": 3.250642776489258,
      "learning_rate": 0.0002999997460073462,
      "loss": 4.758,
      "step": 2280
    },
    {
      "epoch": 0.0047708333333333335,
      "grad_norm": 2.9630751609802246,
      "learning_rate": 0.0002999997275410492,
      "loss": 4.7784,
      "step": 2290
    },
    {
      "epoch": 0.004791666666666666,
      "grad_norm": 2.5499603748321533,
      "learning_rate": 0.00029999970842681267,
      "loss": 4.6798,
      "step": 2300
    },
    {
      "epoch": 0.0048125,
      "grad_norm": 2.6475372314453125,
      "learning_rate": 0.00029999968866463683,
      "loss": 4.6834,
      "step": 2310
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 3.334268093109131,
      "learning_rate": 0.00029999966825452166,
      "loss": 4.9033,
      "step": 2320
    },
    {
      "epoch": 0.004854166666666666,
      "grad_norm": 3.1841652393341064,
      "learning_rate": 0.00029999964719646733,
      "loss": 5.0019,
      "step": 2330
    },
    {
      "epoch": 0.004875,
      "grad_norm": 3.9162397384643555,
      "learning_rate": 0.00029999962549047394,
      "loss": 4.8134,
      "step": 2340
    },
    {
      "epoch": 0.004895833333333334,
      "grad_norm": 2.920504093170166,
      "learning_rate": 0.0002999996031365415,
      "loss": 4.8182,
      "step": 2350
    },
    {
      "epoch": 0.004916666666666666,
      "grad_norm": 2.979100227355957,
      "learning_rate": 0.00029999958013467013,
      "loss": 4.663,
      "step": 2360
    },
    {
      "epoch": 0.0049375,
      "grad_norm": 3.143378973007202,
      "learning_rate": 0.00029999955648485994,
      "loss": 4.9331,
      "step": 2370
    },
    {
      "epoch": 0.004958333333333334,
      "grad_norm": 3.3254528045654297,
      "learning_rate": 0.00029999953218711107,
      "loss": 4.9061,
      "step": 2380
    },
    {
      "epoch": 0.0049791666666666665,
      "grad_norm": 3.236928701400757,
      "learning_rate": 0.0002999995072414236,
      "loss": 4.6271,
      "step": 2390
    },
    {
      "epoch": 0.005,
      "grad_norm": 3.072103261947632,
      "learning_rate": 0.0002999994816477976,
      "loss": 4.7917,
      "step": 2400
    },
    {
      "epoch": 0.005020833333333334,
      "grad_norm": 3.163804531097412,
      "learning_rate": 0.00029999945540623324,
      "loss": 4.585,
      "step": 2410
    },
    {
      "epoch": 0.0050416666666666665,
      "grad_norm": 2.929180860519409,
      "learning_rate": 0.00029999942851673063,
      "loss": 4.6721,
      "step": 2420
    },
    {
      "epoch": 0.0050625,
      "grad_norm": 2.6005892753601074,
      "learning_rate": 0.0002999994009792898,
      "loss": 4.7363,
      "step": 2430
    },
    {
      "epoch": 0.005083333333333333,
      "grad_norm": 2.528057098388672,
      "learning_rate": 0.000299999372793911,
      "loss": 4.6635,
      "step": 2440
    },
    {
      "epoch": 0.005104166666666667,
      "grad_norm": 3.520029306411743,
      "learning_rate": 0.00029999934396059423,
      "loss": 4.7375,
      "step": 2450
    },
    {
      "epoch": 0.005125,
      "grad_norm": 3.1823692321777344,
      "learning_rate": 0.0002999993144793397,
      "loss": 4.7445,
      "step": 2460
    },
    {
      "epoch": 0.005145833333333333,
      "grad_norm": 2.8145086765289307,
      "learning_rate": 0.0002999992843501475,
      "loss": 4.859,
      "step": 2470
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 2.724212884902954,
      "learning_rate": 0.00029999925357301774,
      "loss": 4.7805,
      "step": 2480
    },
    {
      "epoch": 0.0051875,
      "grad_norm": 3.243037700653076,
      "learning_rate": 0.0002999992221479506,
      "loss": 4.6684,
      "step": 2490
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 3.037104606628418,
      "learning_rate": 0.0002999991900749462,
      "loss": 4.7466,
      "step": 2500
    },
    {
      "epoch": 0.005229166666666667,
      "grad_norm": 2.6642866134643555,
      "learning_rate": 0.0002999991573540047,
      "loss": 4.6711,
      "step": 2510
    },
    {
      "epoch": 0.00525,
      "grad_norm": 3.29400634765625,
      "learning_rate": 0.0002999991239851261,
      "loss": 4.9002,
      "step": 2520
    },
    {
      "epoch": 0.005270833333333333,
      "grad_norm": 2.5401949882507324,
      "learning_rate": 0.00029999908996831075,
      "loss": 4.6889,
      "step": 2530
    },
    {
      "epoch": 0.005291666666666667,
      "grad_norm": 3.0200791358947754,
      "learning_rate": 0.0002999990553035587,
      "loss": 4.9027,
      "step": 2540
    },
    {
      "epoch": 0.0053125,
      "grad_norm": 2.7665793895721436,
      "learning_rate": 0.00029999901999087014,
      "loss": 4.7309,
      "step": 2550
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 2.9416825771331787,
      "learning_rate": 0.0002999989840302451,
      "loss": 4.9535,
      "step": 2560
    },
    {
      "epoch": 0.005354166666666667,
      "grad_norm": 2.802717924118042,
      "learning_rate": 0.00029999894742168385,
      "loss": 4.739,
      "step": 2570
    },
    {
      "epoch": 0.005375,
      "grad_norm": 2.7210137844085693,
      "learning_rate": 0.0002999989101651866,
      "loss": 4.8105,
      "step": 2580
    },
    {
      "epoch": 0.005395833333333333,
      "grad_norm": 2.8693127632141113,
      "learning_rate": 0.0002999988722607533,
      "loss": 4.6744,
      "step": 2590
    },
    {
      "epoch": 0.005416666666666667,
      "grad_norm": 3.189426898956299,
      "learning_rate": 0.00029999883370838434,
      "loss": 4.7162,
      "step": 2600
    },
    {
      "epoch": 0.0054375,
      "grad_norm": 2.6488404273986816,
      "learning_rate": 0.00029999879450807977,
      "loss": 4.4945,
      "step": 2610
    },
    {
      "epoch": 0.005458333333333333,
      "grad_norm": 3.1278092861175537,
      "learning_rate": 0.00029999875465983977,
      "loss": 4.8947,
      "step": 2620
    },
    {
      "epoch": 0.005479166666666667,
      "grad_norm": 3.0618393421173096,
      "learning_rate": 0.00029999871416366456,
      "loss": 4.6612,
      "step": 2630
    },
    {
      "epoch": 0.0055,
      "grad_norm": 2.6376914978027344,
      "learning_rate": 0.00029999867301955425,
      "loss": 4.5213,
      "step": 2640
    },
    {
      "epoch": 0.005520833333333333,
      "grad_norm": 3.163667678833008,
      "learning_rate": 0.000299998631227509,
      "loss": 4.7869,
      "step": 2650
    },
    {
      "epoch": 0.005541666666666667,
      "grad_norm": 2.7409684658050537,
      "learning_rate": 0.0002999985887875291,
      "loss": 4.8047,
      "step": 2660
    },
    {
      "epoch": 0.0055625,
      "grad_norm": 2.809227466583252,
      "learning_rate": 0.00029999854569961467,
      "loss": 4.7237,
      "step": 2670
    },
    {
      "epoch": 0.005583333333333333,
      "grad_norm": 3.4752252101898193,
      "learning_rate": 0.00029999850196376585,
      "loss": 4.6758,
      "step": 2680
    },
    {
      "epoch": 0.005604166666666667,
      "grad_norm": 2.797304391860962,
      "learning_rate": 0.0002999984575799829,
      "loss": 4.6956,
      "step": 2690
    },
    {
      "epoch": 0.005625,
      "grad_norm": 3.042003631591797,
      "learning_rate": 0.000299998412548266,
      "loss": 4.7431,
      "step": 2700
    },
    {
      "epoch": 0.005645833333333333,
      "grad_norm": 4.04894495010376,
      "learning_rate": 0.0002999983668686153,
      "loss": 5.0306,
      "step": 2710
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 2.815772771835327,
      "learning_rate": 0.00029999832054103105,
      "loss": 4.624,
      "step": 2720
    },
    {
      "epoch": 0.0056875,
      "grad_norm": 2.3265905380249023,
      "learning_rate": 0.00029999827356551345,
      "loss": 4.6952,
      "step": 2730
    },
    {
      "epoch": 0.0057083333333333335,
      "grad_norm": 2.90450382232666,
      "learning_rate": 0.0002999982259420627,
      "loss": 4.7371,
      "step": 2740
    },
    {
      "epoch": 0.005729166666666666,
      "grad_norm": 2.381319046020508,
      "learning_rate": 0.00029999817767067895,
      "loss": 4.9529,
      "step": 2750
    },
    {
      "epoch": 0.00575,
      "grad_norm": 2.411179542541504,
      "learning_rate": 0.0002999981287513624,
      "loss": 4.7171,
      "step": 2760
    },
    {
      "epoch": 0.0057708333333333335,
      "grad_norm": 2.5033042430877686,
      "learning_rate": 0.00029999807918411336,
      "loss": 4.7417,
      "step": 2770
    },
    {
      "epoch": 0.005791666666666666,
      "grad_norm": 2.4140655994415283,
      "learning_rate": 0.00029999802896893196,
      "loss": 4.8785,
      "step": 2780
    },
    {
      "epoch": 0.0058125,
      "grad_norm": 2.646815061569214,
      "learning_rate": 0.0002999979781058185,
      "loss": 4.7825,
      "step": 2790
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 2.661003589630127,
      "learning_rate": 0.0002999979265947731,
      "loss": 4.5329,
      "step": 2800
    },
    {
      "epoch": 0.005854166666666666,
      "grad_norm": 2.830850124359131,
      "learning_rate": 0.00029999787443579605,
      "loss": 4.5827,
      "step": 2810
    },
    {
      "epoch": 0.005875,
      "grad_norm": 2.8512561321258545,
      "learning_rate": 0.0002999978216288876,
      "loss": 4.5471,
      "step": 2820
    },
    {
      "epoch": 0.005895833333333334,
      "grad_norm": 5.137013912200928,
      "learning_rate": 0.00029999776817404784,
      "loss": 4.6019,
      "step": 2830
    },
    {
      "epoch": 0.005916666666666666,
      "grad_norm": 2.5119104385375977,
      "learning_rate": 0.0002999977140712772,
      "loss": 4.5746,
      "step": 2840
    },
    {
      "epoch": 0.0059375,
      "grad_norm": 2.7273268699645996,
      "learning_rate": 0.0002999976593205757,
      "loss": 4.8322,
      "step": 2850
    },
    {
      "epoch": 0.005958333333333334,
      "grad_norm": 2.7076849937438965,
      "learning_rate": 0.00029999760392194374,
      "loss": 4.708,
      "step": 2860
    },
    {
      "epoch": 0.0059791666666666665,
      "grad_norm": 2.3286805152893066,
      "learning_rate": 0.0002999975478753815,
      "loss": 4.8606,
      "step": 2870
    },
    {
      "epoch": 0.006,
      "grad_norm": 2.394669771194458,
      "learning_rate": 0.00029999749118088924,
      "loss": 4.6458,
      "step": 2880
    },
    {
      "epoch": 0.006020833333333334,
      "grad_norm": 2.734353542327881,
      "learning_rate": 0.0002999974338384672,
      "loss": 4.7239,
      "step": 2890
    },
    {
      "epoch": 0.0060416666666666665,
      "grad_norm": 2.8757357597351074,
      "learning_rate": 0.0002999973758481156,
      "loss": 4.652,
      "step": 2900
    },
    {
      "epoch": 0.0060625,
      "grad_norm": 2.827497720718384,
      "learning_rate": 0.00029999731720983466,
      "loss": 4.8028,
      "step": 2910
    },
    {
      "epoch": 0.006083333333333333,
      "grad_norm": 2.5296759605407715,
      "learning_rate": 0.00029999725792362477,
      "loss": 4.7169,
      "step": 2920
    },
    {
      "epoch": 0.006104166666666667,
      "grad_norm": 2.4406192302703857,
      "learning_rate": 0.000299997197989486,
      "loss": 4.8468,
      "step": 2930
    },
    {
      "epoch": 0.006125,
      "grad_norm": 2.292508363723755,
      "learning_rate": 0.0002999971374074188,
      "loss": 4.9125,
      "step": 2940
    },
    {
      "epoch": 0.006145833333333333,
      "grad_norm": 2.6473827362060547,
      "learning_rate": 0.0002999970761774233,
      "loss": 4.7585,
      "step": 2950
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 2.242663860321045,
      "learning_rate": 0.0002999970142994998,
      "loss": 4.7679,
      "step": 2960
    },
    {
      "epoch": 0.0061875,
      "grad_norm": 2.4494786262512207,
      "learning_rate": 0.0002999969517736486,
      "loss": 4.8343,
      "step": 2970
    },
    {
      "epoch": 0.006208333333333333,
      "grad_norm": 2.570941209793091,
      "learning_rate": 0.0002999968885998699,
      "loss": 4.8221,
      "step": 2980
    },
    {
      "epoch": 0.006229166666666667,
      "grad_norm": 2.8567349910736084,
      "learning_rate": 0.000299996824778164,
      "loss": 4.822,
      "step": 2990
    },
    {
      "epoch": 0.00625,
      "grad_norm": 2.441291093826294,
      "learning_rate": 0.00029999676030853127,
      "loss": 4.745,
      "step": 3000
    },
    {
      "epoch": 0.00625,
      "eval_loss": 4.469309329986572,
      "eval_runtime": 7.1985,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 3000
    },
    {
      "epoch": 0.006270833333333333,
      "grad_norm": 2.999237060546875,
      "learning_rate": 0.00029999669519097187,
      "loss": 4.8971,
      "step": 3010
    },
    {
      "epoch": 0.006291666666666667,
      "grad_norm": 2.489542245864868,
      "learning_rate": 0.0002999966294254861,
      "loss": 4.7175,
      "step": 3020
    },
    {
      "epoch": 0.0063125,
      "grad_norm": 2.5110721588134766,
      "learning_rate": 0.00029999656301207426,
      "loss": 4.7079,
      "step": 3030
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 2.4531166553497314,
      "learning_rate": 0.0002999964959507367,
      "loss": 4.7702,
      "step": 3040
    },
    {
      "epoch": 0.006354166666666667,
      "grad_norm": 2.3689372539520264,
      "learning_rate": 0.00029999642824147355,
      "loss": 4.7032,
      "step": 3050
    },
    {
      "epoch": 0.006375,
      "grad_norm": 2.560412883758545,
      "learning_rate": 0.00029999635988428526,
      "loss": 4.8422,
      "step": 3060
    },
    {
      "epoch": 0.006395833333333333,
      "grad_norm": 2.471053123474121,
      "learning_rate": 0.0002999962908791721,
      "loss": 4.6687,
      "step": 3070
    },
    {
      "epoch": 0.006416666666666667,
      "grad_norm": 2.639650344848633,
      "learning_rate": 0.0002999962212261343,
      "loss": 4.6596,
      "step": 3080
    },
    {
      "epoch": 0.0064375,
      "grad_norm": 2.6973609924316406,
      "learning_rate": 0.0002999961509251722,
      "loss": 4.685,
      "step": 3090
    },
    {
      "epoch": 0.006458333333333333,
      "grad_norm": 2.558102607727051,
      "learning_rate": 0.0002999960799762861,
      "loss": 4.7348,
      "step": 3100
    },
    {
      "epoch": 0.006479166666666667,
      "grad_norm": 2.1990294456481934,
      "learning_rate": 0.00029999600837947633,
      "loss": 4.7135,
      "step": 3110
    },
    {
      "epoch": 0.0065,
      "grad_norm": 2.332051992416382,
      "learning_rate": 0.00029999593613474313,
      "loss": 4.5778,
      "step": 3120
    },
    {
      "epoch": 0.006520833333333333,
      "grad_norm": 2.2291595935821533,
      "learning_rate": 0.00029999586324208687,
      "loss": 4.9202,
      "step": 3130
    },
    {
      "epoch": 0.006541666666666667,
      "grad_norm": 8.123775482177734,
      "learning_rate": 0.0002999957897015079,
      "loss": 4.7778,
      "step": 3140
    },
    {
      "epoch": 0.0065625,
      "grad_norm": 2.4289495944976807,
      "learning_rate": 0.00029999571551300643,
      "loss": 4.8257,
      "step": 3150
    },
    {
      "epoch": 0.006583333333333333,
      "grad_norm": 2.497603416442871,
      "learning_rate": 0.0002999956406765829,
      "loss": 4.699,
      "step": 3160
    },
    {
      "epoch": 0.006604166666666667,
      "grad_norm": 2.4054861068725586,
      "learning_rate": 0.0002999955651922376,
      "loss": 4.845,
      "step": 3170
    },
    {
      "epoch": 0.006625,
      "grad_norm": 3.015570878982544,
      "learning_rate": 0.00029999548905997075,
      "loss": 4.7863,
      "step": 3180
    },
    {
      "epoch": 0.0066458333333333335,
      "grad_norm": 2.9588029384613037,
      "learning_rate": 0.00029999541227978275,
      "loss": 4.835,
      "step": 3190
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 2.309570789337158,
      "learning_rate": 0.00029999533485167395,
      "loss": 4.8484,
      "step": 3200
    },
    {
      "epoch": 0.0066875,
      "grad_norm": 2.3180196285247803,
      "learning_rate": 0.0002999952567756447,
      "loss": 4.5756,
      "step": 3210
    },
    {
      "epoch": 0.0067083333333333335,
      "grad_norm": 2.3718690872192383,
      "learning_rate": 0.00029999517805169535,
      "loss": 4.7115,
      "step": 3220
    },
    {
      "epoch": 0.006729166666666666,
      "grad_norm": 2.5580198764801025,
      "learning_rate": 0.00029999509867982614,
      "loss": 4.6182,
      "step": 3230
    },
    {
      "epoch": 0.00675,
      "grad_norm": 2.366874933242798,
      "learning_rate": 0.00029999501866003755,
      "loss": 4.7927,
      "step": 3240
    },
    {
      "epoch": 0.0067708333333333336,
      "grad_norm": 2.6945154666900635,
      "learning_rate": 0.00029999493799232974,
      "loss": 4.7646,
      "step": 3250
    },
    {
      "epoch": 0.006791666666666666,
      "grad_norm": 2.2974445819854736,
      "learning_rate": 0.00029999485667670325,
      "loss": 4.6627,
      "step": 3260
    },
    {
      "epoch": 0.0068125,
      "grad_norm": 2.661454916000366,
      "learning_rate": 0.00029999477471315836,
      "loss": 4.8079,
      "step": 3270
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 2.860738754272461,
      "learning_rate": 0.00029999469210169533,
      "loss": 4.6101,
      "step": 3280
    },
    {
      "epoch": 0.006854166666666666,
      "grad_norm": 2.2665297985076904,
      "learning_rate": 0.0002999946088423147,
      "loss": 4.6649,
      "step": 3290
    },
    {
      "epoch": 0.006875,
      "grad_norm": 2.4566023349761963,
      "learning_rate": 0.0002999945249350167,
      "loss": 4.5439,
      "step": 3300
    },
    {
      "epoch": 0.006895833333333334,
      "grad_norm": 2.09816575050354,
      "learning_rate": 0.00029999444037980173,
      "loss": 4.6535,
      "step": 3310
    },
    {
      "epoch": 0.0069166666666666664,
      "grad_norm": 2.2968833446502686,
      "learning_rate": 0.0002999943551766701,
      "loss": 4.7506,
      "step": 3320
    },
    {
      "epoch": 0.0069375,
      "grad_norm": 2.238382577896118,
      "learning_rate": 0.0002999942693256223,
      "loss": 4.9227,
      "step": 3330
    },
    {
      "epoch": 0.006958333333333334,
      "grad_norm": 2.021542549133301,
      "learning_rate": 0.00029999418282665864,
      "loss": 4.7095,
      "step": 3340
    },
    {
      "epoch": 0.0069791666666666665,
      "grad_norm": 2.571986198425293,
      "learning_rate": 0.00029999409567977935,
      "loss": 4.7655,
      "step": 3350
    },
    {
      "epoch": 0.007,
      "grad_norm": 2.058351993560791,
      "learning_rate": 0.0002999940078849851,
      "loss": 4.6232,
      "step": 3360
    },
    {
      "epoch": 0.007020833333333333,
      "grad_norm": 2.108693838119507,
      "learning_rate": 0.000299993919442276,
      "loss": 4.9417,
      "step": 3370
    },
    {
      "epoch": 0.0070416666666666666,
      "grad_norm": 2.2884488105773926,
      "learning_rate": 0.0002999938303516526,
      "loss": 4.6725,
      "step": 3380
    },
    {
      "epoch": 0.0070625,
      "grad_norm": 2.5578453540802,
      "learning_rate": 0.0002999937406131152,
      "loss": 4.8767,
      "step": 3390
    },
    {
      "epoch": 0.007083333333333333,
      "grad_norm": 5.844796180725098,
      "learning_rate": 0.00029999365022666415,
      "loss": 4.9021,
      "step": 3400
    },
    {
      "epoch": 0.007104166666666667,
      "grad_norm": 2.2757790088653564,
      "learning_rate": 0.00029999355919229997,
      "loss": 4.6521,
      "step": 3410
    },
    {
      "epoch": 0.007125,
      "grad_norm": 2.2431516647338867,
      "learning_rate": 0.00029999346751002296,
      "loss": 4.7444,
      "step": 3420
    },
    {
      "epoch": 0.007145833333333333,
      "grad_norm": 2.8764073848724365,
      "learning_rate": 0.00029999337517983357,
      "loss": 4.9064,
      "step": 3430
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 2.4240214824676514,
      "learning_rate": 0.00029999328220173217,
      "loss": 4.7529,
      "step": 3440
    },
    {
      "epoch": 0.0071875,
      "grad_norm": 3.266601800918579,
      "learning_rate": 0.0002999931885757192,
      "loss": 4.6259,
      "step": 3450
    },
    {
      "epoch": 0.007208333333333333,
      "grad_norm": 3.493248701095581,
      "learning_rate": 0.0002999930943017949,
      "loss": 4.8602,
      "step": 3460
    },
    {
      "epoch": 0.007229166666666667,
      "grad_norm": 2.318207263946533,
      "learning_rate": 0.00029999299937995993,
      "loss": 4.9437,
      "step": 3470
    },
    {
      "epoch": 0.00725,
      "grad_norm": 2.688427448272705,
      "learning_rate": 0.0002999929038102145,
      "loss": 4.6041,
      "step": 3480
    },
    {
      "epoch": 0.007270833333333333,
      "grad_norm": 2.131814479827881,
      "learning_rate": 0.00029999280759255913,
      "loss": 4.6799,
      "step": 3490
    },
    {
      "epoch": 0.007291666666666667,
      "grad_norm": 2.425356149673462,
      "learning_rate": 0.0002999927107269942,
      "loss": 4.6647,
      "step": 3500
    },
    {
      "epoch": 0.0073125,
      "grad_norm": 2.804504871368408,
      "learning_rate": 0.0002999926132135202,
      "loss": 4.7881,
      "step": 3510
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 2.4663820266723633,
      "learning_rate": 0.00029999251505213734,
      "loss": 4.9701,
      "step": 3520
    },
    {
      "epoch": 0.007354166666666667,
      "grad_norm": 2.1049773693084717,
      "learning_rate": 0.00029999241624284624,
      "loss": 4.7233,
      "step": 3530
    },
    {
      "epoch": 0.007375,
      "grad_norm": 2.652825117111206,
      "learning_rate": 0.0002999923167856473,
      "loss": 4.862,
      "step": 3540
    },
    {
      "epoch": 0.007395833333333333,
      "grad_norm": 2.1273770332336426,
      "learning_rate": 0.0002999922166805409,
      "loss": 4.8671,
      "step": 3550
    },
    {
      "epoch": 0.007416666666666667,
      "grad_norm": 2.081533670425415,
      "learning_rate": 0.0002999921159275275,
      "loss": 4.6506,
      "step": 3560
    },
    {
      "epoch": 0.0074375,
      "grad_norm": 2.744823694229126,
      "learning_rate": 0.0002999920145266076,
      "loss": 4.6684,
      "step": 3570
    },
    {
      "epoch": 0.007458333333333333,
      "grad_norm": 2.118974208831787,
      "learning_rate": 0.0002999919124777815,
      "loss": 4.9051,
      "step": 3580
    },
    {
      "epoch": 0.007479166666666667,
      "grad_norm": 2.3674285411834717,
      "learning_rate": 0.00029999180978104966,
      "loss": 4.5109,
      "step": 3590
    },
    {
      "epoch": 0.0075,
      "grad_norm": 2.67281436920166,
      "learning_rate": 0.00029999170643641267,
      "loss": 4.7543,
      "step": 3600
    },
    {
      "epoch": 0.007520833333333333,
      "grad_norm": 2.207345724105835,
      "learning_rate": 0.0002999916024438708,
      "loss": 4.9053,
      "step": 3610
    },
    {
      "epoch": 0.007541666666666667,
      "grad_norm": 2.337115526199341,
      "learning_rate": 0.0002999914978034246,
      "loss": 4.72,
      "step": 3620
    },
    {
      "epoch": 0.0075625,
      "grad_norm": 2.5493221282958984,
      "learning_rate": 0.0002999913925150746,
      "loss": 4.5912,
      "step": 3630
    },
    {
      "epoch": 0.007583333333333333,
      "grad_norm": 2.104827404022217,
      "learning_rate": 0.000299991286578821,
      "loss": 4.7698,
      "step": 3640
    },
    {
      "epoch": 0.007604166666666667,
      "grad_norm": 2.214447259902954,
      "learning_rate": 0.0002999911799946645,
      "loss": 4.73,
      "step": 3650
    },
    {
      "epoch": 0.007625,
      "grad_norm": 3.0962371826171875,
      "learning_rate": 0.00029999107276260545,
      "loss": 4.7512,
      "step": 3660
    },
    {
      "epoch": 0.0076458333333333335,
      "grad_norm": 2.117231607437134,
      "learning_rate": 0.00029999096488264436,
      "loss": 4.8568,
      "step": 3670
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.9215530157089233,
      "learning_rate": 0.00029999085635478166,
      "loss": 4.7391,
      "step": 3680
    },
    {
      "epoch": 0.0076875,
      "grad_norm": 1.9816547632217407,
      "learning_rate": 0.0002999907471790178,
      "loss": 4.6255,
      "step": 3690
    },
    {
      "epoch": 0.0077083333333333335,
      "grad_norm": 2.5596678256988525,
      "learning_rate": 0.0002999906373553533,
      "loss": 4.5637,
      "step": 3700
    },
    {
      "epoch": 0.007729166666666666,
      "grad_norm": 2.12043833732605,
      "learning_rate": 0.00029999052688378864,
      "loss": 4.9536,
      "step": 3710
    },
    {
      "epoch": 0.00775,
      "grad_norm": 1.8555866479873657,
      "learning_rate": 0.00029999041576432426,
      "loss": 4.6694,
      "step": 3720
    },
    {
      "epoch": 0.007770833333333334,
      "grad_norm": 2.2754642963409424,
      "learning_rate": 0.00029999030399696067,
      "loss": 4.6087,
      "step": 3730
    },
    {
      "epoch": 0.007791666666666666,
      "grad_norm": 1.974445104598999,
      "learning_rate": 0.0002999901915816983,
      "loss": 4.8996,
      "step": 3740
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 1.9257758855819702,
      "learning_rate": 0.0002999900785185377,
      "loss": 4.7802,
      "step": 3750
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 2.399200201034546,
      "learning_rate": 0.0002999899648074793,
      "loss": 4.8414,
      "step": 3760
    },
    {
      "epoch": 0.007854166666666667,
      "grad_norm": 2.412830114364624,
      "learning_rate": 0.00029998985044852363,
      "loss": 4.6331,
      "step": 3770
    },
    {
      "epoch": 0.007875,
      "grad_norm": 1.8404016494750977,
      "learning_rate": 0.0002999897354416712,
      "loss": 4.9539,
      "step": 3780
    },
    {
      "epoch": 0.007895833333333333,
      "grad_norm": 2.518465995788574,
      "learning_rate": 0.0002999896197869225,
      "loss": 4.5676,
      "step": 3790
    },
    {
      "epoch": 0.007916666666666667,
      "grad_norm": 2.88847279548645,
      "learning_rate": 0.000299989503484278,
      "loss": 4.7166,
      "step": 3800
    },
    {
      "epoch": 0.0079375,
      "grad_norm": 1.8526413440704346,
      "learning_rate": 0.0002999893865337382,
      "loss": 4.8161,
      "step": 3810
    },
    {
      "epoch": 0.007958333333333333,
      "grad_norm": 2.552133083343506,
      "learning_rate": 0.00029998926893530357,
      "loss": 4.7586,
      "step": 3820
    },
    {
      "epoch": 0.007979166666666667,
      "grad_norm": 2.316253662109375,
      "learning_rate": 0.0002999891506889747,
      "loss": 4.857,
      "step": 3830
    },
    {
      "epoch": 0.008,
      "grad_norm": 2.1376612186431885,
      "learning_rate": 0.0002999890317947521,
      "loss": 4.7977,
      "step": 3840
    },
    {
      "epoch": 0.008020833333333333,
      "grad_norm": 2.035183906555176,
      "learning_rate": 0.0002999889122526363,
      "loss": 4.7292,
      "step": 3850
    },
    {
      "epoch": 0.008041666666666667,
      "grad_norm": 2.575136423110962,
      "learning_rate": 0.00029998879206262767,
      "loss": 4.6237,
      "step": 3860
    },
    {
      "epoch": 0.0080625,
      "grad_norm": 2.0930182933807373,
      "learning_rate": 0.0002999886712247269,
      "loss": 4.7463,
      "step": 3870
    },
    {
      "epoch": 0.008083333333333333,
      "grad_norm": 2.0804014205932617,
      "learning_rate": 0.0002999885497389344,
      "loss": 4.5807,
      "step": 3880
    },
    {
      "epoch": 0.008104166666666668,
      "grad_norm": 2.652919054031372,
      "learning_rate": 0.00029998842760525074,
      "loss": 4.7837,
      "step": 3890
    },
    {
      "epoch": 0.008125,
      "grad_norm": 2.176280975341797,
      "learning_rate": 0.00029998830482367645,
      "loss": 4.6387,
      "step": 3900
    },
    {
      "epoch": 0.008145833333333333,
      "grad_norm": 2.1041502952575684,
      "learning_rate": 0.00029998818139421204,
      "loss": 4.6652,
      "step": 3910
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 2.1568620204925537,
      "learning_rate": 0.0002999880573168581,
      "loss": 4.6601,
      "step": 3920
    },
    {
      "epoch": 0.0081875,
      "grad_norm": 2.515547752380371,
      "learning_rate": 0.00029998793259161503,
      "loss": 4.8007,
      "step": 3930
    },
    {
      "epoch": 0.008208333333333333,
      "grad_norm": 2.2426846027374268,
      "learning_rate": 0.00029998780721848356,
      "loss": 4.7261,
      "step": 3940
    },
    {
      "epoch": 0.008229166666666666,
      "grad_norm": 2.3350307941436768,
      "learning_rate": 0.00029998768119746404,
      "loss": 4.7227,
      "step": 3950
    },
    {
      "epoch": 0.00825,
      "grad_norm": 2.060218095779419,
      "learning_rate": 0.0002999875545285572,
      "loss": 4.6853,
      "step": 3960
    },
    {
      "epoch": 0.008270833333333333,
      "grad_norm": 2.3475098609924316,
      "learning_rate": 0.0002999874272117634,
      "loss": 4.846,
      "step": 3970
    },
    {
      "epoch": 0.008291666666666666,
      "grad_norm": 1.7171950340270996,
      "learning_rate": 0.0002999872992470833,
      "loss": 4.9784,
      "step": 3980
    },
    {
      "epoch": 0.0083125,
      "grad_norm": 2.0663797855377197,
      "learning_rate": 0.0002999871706345175,
      "loss": 4.6863,
      "step": 3990
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 3.717083215713501,
      "learning_rate": 0.0002999870413740665,
      "loss": 4.8921,
      "step": 4000
    },
    {
      "epoch": 0.008333333333333333,
      "eval_loss": 4.371918678283691,
      "eval_runtime": 7.243,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 4000
    },
    {
      "epoch": 0.008354166666666666,
      "grad_norm": 1.860185980796814,
      "learning_rate": 0.00029998691146573077,
      "loss": 4.6742,
      "step": 4010
    },
    {
      "epoch": 0.008375,
      "grad_norm": 2.045302629470825,
      "learning_rate": 0.000299986780909511,
      "loss": 4.8299,
      "step": 4020
    },
    {
      "epoch": 0.008395833333333333,
      "grad_norm": 2.7099947929382324,
      "learning_rate": 0.00029998664970540766,
      "loss": 4.8115,
      "step": 4030
    },
    {
      "epoch": 0.008416666666666666,
      "grad_norm": 2.1633553504943848,
      "learning_rate": 0.0002999865178534214,
      "loss": 4.8009,
      "step": 4040
    },
    {
      "epoch": 0.0084375,
      "grad_norm": 2.16690993309021,
      "learning_rate": 0.0002999863853535528,
      "loss": 4.9239,
      "step": 4050
    },
    {
      "epoch": 0.008458333333333333,
      "grad_norm": 2.089411497116089,
      "learning_rate": 0.00029998625220580233,
      "loss": 4.7145,
      "step": 4060
    },
    {
      "epoch": 0.008479166666666666,
      "grad_norm": 2.182863712310791,
      "learning_rate": 0.00029998611841017064,
      "loss": 4.6233,
      "step": 4070
    },
    {
      "epoch": 0.0085,
      "grad_norm": 2.162574052810669,
      "learning_rate": 0.00029998598396665827,
      "loss": 4.5445,
      "step": 4080
    },
    {
      "epoch": 0.008520833333333333,
      "grad_norm": 2.541872501373291,
      "learning_rate": 0.0002999858488752658,
      "loss": 4.6505,
      "step": 4090
    },
    {
      "epoch": 0.008541666666666666,
      "grad_norm": 2.0415091514587402,
      "learning_rate": 0.00029998571313599384,
      "loss": 4.8202,
      "step": 4100
    },
    {
      "epoch": 0.0085625,
      "grad_norm": 1.9105896949768066,
      "learning_rate": 0.000299985576748843,
      "loss": 4.6031,
      "step": 4110
    },
    {
      "epoch": 0.008583333333333333,
      "grad_norm": 2.4376935958862305,
      "learning_rate": 0.0002999854397138138,
      "loss": 4.6262,
      "step": 4120
    },
    {
      "epoch": 0.008604166666666666,
      "grad_norm": 2.544755220413208,
      "learning_rate": 0.0002999853020309069,
      "loss": 4.7855,
      "step": 4130
    },
    {
      "epoch": 0.008625,
      "grad_norm": 1.990532398223877,
      "learning_rate": 0.00029998516370012286,
      "loss": 4.7719,
      "step": 4140
    },
    {
      "epoch": 0.008645833333333333,
      "grad_norm": 2.656129837036133,
      "learning_rate": 0.00029998502472146224,
      "loss": 4.5599,
      "step": 4150
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 2.113368511199951,
      "learning_rate": 0.00029998488509492573,
      "loss": 4.7837,
      "step": 4160
    },
    {
      "epoch": 0.0086875,
      "grad_norm": 2.5761077404022217,
      "learning_rate": 0.00029998474482051385,
      "loss": 4.7097,
      "step": 4170
    },
    {
      "epoch": 0.008708333333333334,
      "grad_norm": 2.447443723678589,
      "learning_rate": 0.00029998460389822726,
      "loss": 4.5924,
      "step": 4180
    },
    {
      "epoch": 0.008729166666666666,
      "grad_norm": 2.9276657104492188,
      "learning_rate": 0.00029998446232806656,
      "loss": 4.5829,
      "step": 4190
    },
    {
      "epoch": 0.00875,
      "grad_norm": 2.3022756576538086,
      "learning_rate": 0.00029998432011003233,
      "loss": 4.8168,
      "step": 4200
    },
    {
      "epoch": 0.008770833333333334,
      "grad_norm": 1.8951671123504639,
      "learning_rate": 0.0002999841772441252,
      "loss": 4.6614,
      "step": 4210
    },
    {
      "epoch": 0.008791666666666666,
      "grad_norm": 2.0262503623962402,
      "learning_rate": 0.00029998403373034577,
      "loss": 4.852,
      "step": 4220
    },
    {
      "epoch": 0.0088125,
      "grad_norm": 2.260713815689087,
      "learning_rate": 0.0002999838895686947,
      "loss": 4.6504,
      "step": 4230
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 1.9098751544952393,
      "learning_rate": 0.00029998374475917266,
      "loss": 4.735,
      "step": 4240
    },
    {
      "epoch": 0.008854166666666666,
      "grad_norm": 2.807671308517456,
      "learning_rate": 0.0002999835993017801,
      "loss": 4.5756,
      "step": 4250
    },
    {
      "epoch": 0.008875,
      "grad_norm": 2.0927464962005615,
      "learning_rate": 0.00029998345319651783,
      "loss": 4.5389,
      "step": 4260
    },
    {
      "epoch": 0.008895833333333334,
      "grad_norm": 2.0016465187072754,
      "learning_rate": 0.00029998330644338643,
      "loss": 4.6855,
      "step": 4270
    },
    {
      "epoch": 0.008916666666666666,
      "grad_norm": 1.7873095273971558,
      "learning_rate": 0.00029998315904238644,
      "loss": 4.5678,
      "step": 4280
    },
    {
      "epoch": 0.0089375,
      "grad_norm": 1.9266844987869263,
      "learning_rate": 0.0002999830109935187,
      "loss": 4.69,
      "step": 4290
    },
    {
      "epoch": 0.008958333333333334,
      "grad_norm": 1.9386889934539795,
      "learning_rate": 0.0002999828622967836,
      "loss": 4.8345,
      "step": 4300
    },
    {
      "epoch": 0.008979166666666667,
      "grad_norm": 2.2984671592712402,
      "learning_rate": 0.0002999827129521819,
      "loss": 4.7099,
      "step": 4310
    },
    {
      "epoch": 0.009,
      "grad_norm": 1.8765830993652344,
      "learning_rate": 0.0002999825629597143,
      "loss": 4.5455,
      "step": 4320
    },
    {
      "epoch": 0.009020833333333334,
      "grad_norm": 1.806646466255188,
      "learning_rate": 0.00029998241231938134,
      "loss": 4.9266,
      "step": 4330
    },
    {
      "epoch": 0.009041666666666667,
      "grad_norm": 2.123478651046753,
      "learning_rate": 0.00029998226103118377,
      "loss": 4.7036,
      "step": 4340
    },
    {
      "epoch": 0.0090625,
      "grad_norm": 2.154632806777954,
      "learning_rate": 0.00029998210909512217,
      "loss": 4.7492,
      "step": 4350
    },
    {
      "epoch": 0.009083333333333334,
      "grad_norm": 2.267730236053467,
      "learning_rate": 0.0002999819565111973,
      "loss": 4.7509,
      "step": 4360
    },
    {
      "epoch": 0.009104166666666667,
      "grad_norm": 1.9067233800888062,
      "learning_rate": 0.00029998180327940973,
      "loss": 4.5373,
      "step": 4370
    },
    {
      "epoch": 0.009125,
      "grad_norm": 2.59965181350708,
      "learning_rate": 0.00029998164939976004,
      "loss": 4.7556,
      "step": 4380
    },
    {
      "epoch": 0.009145833333333334,
      "grad_norm": 2.006458282470703,
      "learning_rate": 0.0002999814948722491,
      "loss": 4.8237,
      "step": 4390
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 2.084200382232666,
      "learning_rate": 0.0002999813396968774,
      "loss": 4.815,
      "step": 4400
    },
    {
      "epoch": 0.0091875,
      "grad_norm": 1.8590222597122192,
      "learning_rate": 0.0002999811838736457,
      "loss": 4.582,
      "step": 4410
    },
    {
      "epoch": 0.009208333333333334,
      "grad_norm": 1.8801357746124268,
      "learning_rate": 0.0002999810274025546,
      "loss": 4.7323,
      "step": 4420
    },
    {
      "epoch": 0.009229166666666667,
      "grad_norm": 2.2345774173736572,
      "learning_rate": 0.0002999808702836049,
      "loss": 4.7095,
      "step": 4430
    },
    {
      "epoch": 0.00925,
      "grad_norm": 1.8880746364593506,
      "learning_rate": 0.00029998071251679723,
      "loss": 4.7296,
      "step": 4440
    },
    {
      "epoch": 0.009270833333333334,
      "grad_norm": 1.8924635648727417,
      "learning_rate": 0.00029998055410213216,
      "loss": 4.5535,
      "step": 4450
    },
    {
      "epoch": 0.009291666666666667,
      "grad_norm": 2.13043212890625,
      "learning_rate": 0.00029998039503961055,
      "loss": 4.7223,
      "step": 4460
    },
    {
      "epoch": 0.0093125,
      "grad_norm": 2.032947540283203,
      "learning_rate": 0.0002999802353292329,
      "loss": 4.7315,
      "step": 4470
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 1.8243474960327148,
      "learning_rate": 0.0002999800749710001,
      "loss": 4.6323,
      "step": 4480
    },
    {
      "epoch": 0.009354166666666667,
      "grad_norm": 1.9149446487426758,
      "learning_rate": 0.00029997991396491267,
      "loss": 4.3688,
      "step": 4490
    },
    {
      "epoch": 0.009375,
      "grad_norm": 3.807281255722046,
      "learning_rate": 0.0002999797523109714,
      "loss": 4.7134,
      "step": 4500
    },
    {
      "epoch": 0.009395833333333334,
      "grad_norm": 2.0601694583892822,
      "learning_rate": 0.000299979590009177,
      "loss": 4.6035,
      "step": 4510
    },
    {
      "epoch": 0.009416666666666667,
      "grad_norm": 1.8397910594940186,
      "learning_rate": 0.0002999794270595301,
      "loss": 4.8749,
      "step": 4520
    },
    {
      "epoch": 0.0094375,
      "grad_norm": 2.093397617340088,
      "learning_rate": 0.0002999792634620314,
      "loss": 4.6636,
      "step": 4530
    },
    {
      "epoch": 0.009458333333333332,
      "grad_norm": 1.9860254526138306,
      "learning_rate": 0.0002999790992166817,
      "loss": 4.6317,
      "step": 4540
    },
    {
      "epoch": 0.009479166666666667,
      "grad_norm": 2.3162105083465576,
      "learning_rate": 0.00029997893432348165,
      "loss": 4.7374,
      "step": 4550
    },
    {
      "epoch": 0.0095,
      "grad_norm": 2.0077357292175293,
      "learning_rate": 0.00029997876878243204,
      "loss": 4.7712,
      "step": 4560
    },
    {
      "epoch": 0.009520833333333333,
      "grad_norm": 1.973188042640686,
      "learning_rate": 0.00029997860259353346,
      "loss": 4.7055,
      "step": 4570
    },
    {
      "epoch": 0.009541666666666667,
      "grad_norm": 1.8401384353637695,
      "learning_rate": 0.00029997843575678667,
      "loss": 4.5843,
      "step": 4580
    },
    {
      "epoch": 0.0095625,
      "grad_norm": 1.6659295558929443,
      "learning_rate": 0.0002999782682721924,
      "loss": 4.6253,
      "step": 4590
    },
    {
      "epoch": 0.009583333333333333,
      "grad_norm": 1.9177343845367432,
      "learning_rate": 0.00029997810013975137,
      "loss": 4.632,
      "step": 4600
    },
    {
      "epoch": 0.009604166666666667,
      "grad_norm": 1.974279761314392,
      "learning_rate": 0.0002999779313594643,
      "loss": 4.6401,
      "step": 4610
    },
    {
      "epoch": 0.009625,
      "grad_norm": 1.918813943862915,
      "learning_rate": 0.000299977761931332,
      "loss": 4.8618,
      "step": 4620
    },
    {
      "epoch": 0.009645833333333333,
      "grad_norm": 2.0167384147644043,
      "learning_rate": 0.0002999775918553551,
      "loss": 4.5334,
      "step": 4630
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 1.9444470405578613,
      "learning_rate": 0.0002999774211315343,
      "loss": 4.6961,
      "step": 4640
    },
    {
      "epoch": 0.0096875,
      "grad_norm": 1.9111844301223755,
      "learning_rate": 0.0002999772497598705,
      "loss": 4.5213,
      "step": 4650
    },
    {
      "epoch": 0.009708333333333333,
      "grad_norm": 2.176206350326538,
      "learning_rate": 0.0002999770777403643,
      "loss": 4.5744,
      "step": 4660
    },
    {
      "epoch": 0.009729166666666667,
      "grad_norm": 2.2942256927490234,
      "learning_rate": 0.0002999769050730165,
      "loss": 4.6063,
      "step": 4670
    },
    {
      "epoch": 0.00975,
      "grad_norm": 2.147552490234375,
      "learning_rate": 0.00029997673175782786,
      "loss": 4.5745,
      "step": 4680
    },
    {
      "epoch": 0.009770833333333333,
      "grad_norm": 2.1792988777160645,
      "learning_rate": 0.00029997655779479904,
      "loss": 4.6417,
      "step": 4690
    },
    {
      "epoch": 0.009791666666666667,
      "grad_norm": 2.180354356765747,
      "learning_rate": 0.00029997638318393096,
      "loss": 4.5251,
      "step": 4700
    },
    {
      "epoch": 0.0098125,
      "grad_norm": 2.0558910369873047,
      "learning_rate": 0.00029997620792522416,
      "loss": 4.7398,
      "step": 4710
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 2.2742855548858643,
      "learning_rate": 0.00029997603201867957,
      "loss": 4.7461,
      "step": 4720
    },
    {
      "epoch": 0.009854166666666667,
      "grad_norm": 1.9065358638763428,
      "learning_rate": 0.00029997585546429783,
      "loss": 4.4732,
      "step": 4730
    },
    {
      "epoch": 0.009875,
      "grad_norm": 2.000734806060791,
      "learning_rate": 0.0002999756782620798,
      "loss": 4.4921,
      "step": 4740
    },
    {
      "epoch": 0.009895833333333333,
      "grad_norm": 2.0390305519104004,
      "learning_rate": 0.00029997550041202623,
      "loss": 4.6031,
      "step": 4750
    },
    {
      "epoch": 0.009916666666666667,
      "grad_norm": 2.091383457183838,
      "learning_rate": 0.00029997532191413783,
      "loss": 4.5686,
      "step": 4760
    },
    {
      "epoch": 0.0099375,
      "grad_norm": 1.7189278602600098,
      "learning_rate": 0.0002999751427684154,
      "loss": 4.4515,
      "step": 4770
    },
    {
      "epoch": 0.009958333333333333,
      "grad_norm": 1.8527876138687134,
      "learning_rate": 0.00029997496297485974,
      "loss": 4.4194,
      "step": 4780
    },
    {
      "epoch": 0.009979166666666667,
      "grad_norm": 1.6673545837402344,
      "learning_rate": 0.00029997478253347156,
      "loss": 4.5687,
      "step": 4790
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.928183913230896,
      "learning_rate": 0.0002999746014442517,
      "loss": 4.7175,
      "step": 4800
    },
    {
      "epoch": 0.010020833333333333,
      "grad_norm": 2.0277395248413086,
      "learning_rate": 0.0002999744197072009,
      "loss": 4.5986,
      "step": 4810
    },
    {
      "epoch": 0.010041666666666667,
      "grad_norm": 1.877587080001831,
      "learning_rate": 0.00029997423732232005,
      "loss": 4.8425,
      "step": 4820
    },
    {
      "epoch": 0.0100625,
      "grad_norm": 1.8019872903823853,
      "learning_rate": 0.0002999740542896098,
      "loss": 4.7958,
      "step": 4830
    },
    {
      "epoch": 0.010083333333333333,
      "grad_norm": 2.504856586456299,
      "learning_rate": 0.00029997387060907104,
      "loss": 4.395,
      "step": 4840
    },
    {
      "epoch": 0.010104166666666666,
      "grad_norm": 1.9762957096099854,
      "learning_rate": 0.0002999736862807045,
      "loss": 4.5283,
      "step": 4850
    },
    {
      "epoch": 0.010125,
      "grad_norm": 1.9347907304763794,
      "learning_rate": 0.000299973501304511,
      "loss": 4.5843,
      "step": 4860
    },
    {
      "epoch": 0.010145833333333333,
      "grad_norm": 2.016169786453247,
      "learning_rate": 0.00029997331568049133,
      "loss": 4.4864,
      "step": 4870
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 1.868204116821289,
      "learning_rate": 0.0002999731294086463,
      "loss": 4.6204,
      "step": 4880
    },
    {
      "epoch": 0.0101875,
      "grad_norm": 2.093165159225464,
      "learning_rate": 0.0002999729424889767,
      "loss": 4.645,
      "step": 4890
    },
    {
      "epoch": 0.010208333333333333,
      "grad_norm": 1.7758326530456543,
      "learning_rate": 0.00029997275492148337,
      "loss": 4.5955,
      "step": 4900
    },
    {
      "epoch": 0.010229166666666666,
      "grad_norm": 1.7833948135375977,
      "learning_rate": 0.0002999725667061671,
      "loss": 4.5305,
      "step": 4910
    },
    {
      "epoch": 0.01025,
      "grad_norm": 1.8527768850326538,
      "learning_rate": 0.00029997237784302875,
      "loss": 4.5744,
      "step": 4920
    },
    {
      "epoch": 0.010270833333333333,
      "grad_norm": 1.8644964694976807,
      "learning_rate": 0.0002999721883320691,
      "loss": 4.782,
      "step": 4930
    },
    {
      "epoch": 0.010291666666666666,
      "grad_norm": 1.7060147523880005,
      "learning_rate": 0.0002999719981732889,
      "loss": 4.5625,
      "step": 4940
    },
    {
      "epoch": 0.0103125,
      "grad_norm": 1.6157724857330322,
      "learning_rate": 0.000299971807366689,
      "loss": 4.6881,
      "step": 4950
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 1.8475068807601929,
      "learning_rate": 0.0002999716159122703,
      "loss": 4.6443,
      "step": 4960
    },
    {
      "epoch": 0.010354166666666666,
      "grad_norm": 1.9008185863494873,
      "learning_rate": 0.00029997142381003357,
      "loss": 4.5338,
      "step": 4970
    },
    {
      "epoch": 0.010375,
      "grad_norm": 1.8529689311981201,
      "learning_rate": 0.00029997123105997964,
      "loss": 4.6964,
      "step": 4980
    },
    {
      "epoch": 0.010395833333333333,
      "grad_norm": 2.077200412750244,
      "learning_rate": 0.00029997103766210944,
      "loss": 4.5936,
      "step": 4990
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 1.9200677871704102,
      "learning_rate": 0.0002999708436164236,
      "loss": 4.8514,
      "step": 5000
    },
    {
      "epoch": 0.010416666666666666,
      "eval_loss": 4.375879764556885,
      "eval_runtime": 7.2139,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 5000
    },
    {
      "epoch": 0.0104375,
      "grad_norm": 1.880748987197876,
      "learning_rate": 0.00029997064892292314,
      "loss": 4.687,
      "step": 5010
    },
    {
      "epoch": 0.010458333333333333,
      "grad_norm": 2.0628836154937744,
      "learning_rate": 0.00029997045358160884,
      "loss": 4.6738,
      "step": 5020
    },
    {
      "epoch": 0.010479166666666666,
      "grad_norm": 1.7429420948028564,
      "learning_rate": 0.0002999702575924815,
      "loss": 4.6356,
      "step": 5030
    },
    {
      "epoch": 0.0105,
      "grad_norm": 1.962754249572754,
      "learning_rate": 0.00029997006095554204,
      "loss": 4.6512,
      "step": 5040
    },
    {
      "epoch": 0.010520833333333333,
      "grad_norm": 1.6863089799880981,
      "learning_rate": 0.0002999698636707913,
      "loss": 4.6045,
      "step": 5050
    },
    {
      "epoch": 0.010541666666666666,
      "grad_norm": 1.9734266996383667,
      "learning_rate": 0.0002999696657382301,
      "loss": 4.7555,
      "step": 5060
    },
    {
      "epoch": 0.0105625,
      "grad_norm": 2.018331527709961,
      "learning_rate": 0.0002999694671578593,
      "loss": 4.6641,
      "step": 5070
    },
    {
      "epoch": 0.010583333333333333,
      "grad_norm": 1.6316781044006348,
      "learning_rate": 0.00029996926792967977,
      "loss": 4.8582,
      "step": 5080
    },
    {
      "epoch": 0.010604166666666666,
      "grad_norm": 3.043034315109253,
      "learning_rate": 0.0002999690680536924,
      "loss": 4.6347,
      "step": 5090
    },
    {
      "epoch": 0.010625,
      "grad_norm": 2.034467935562134,
      "learning_rate": 0.000299968867529898,
      "loss": 4.8491,
      "step": 5100
    },
    {
      "epoch": 0.010645833333333334,
      "grad_norm": 1.8581929206848145,
      "learning_rate": 0.0002999686663582974,
      "loss": 4.684,
      "step": 5110
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.6975523233413696,
      "learning_rate": 0.0002999684645388915,
      "loss": 4.585,
      "step": 5120
    },
    {
      "epoch": 0.0106875,
      "grad_norm": 1.8900691270828247,
      "learning_rate": 0.00029996826207168126,
      "loss": 4.8004,
      "step": 5130
    },
    {
      "epoch": 0.010708333333333334,
      "grad_norm": 1.9721845388412476,
      "learning_rate": 0.0002999680589566675,
      "loss": 4.8249,
      "step": 5140
    },
    {
      "epoch": 0.010729166666666666,
      "grad_norm": 1.9755020141601562,
      "learning_rate": 0.00029996785519385106,
      "loss": 4.7241,
      "step": 5150
    },
    {
      "epoch": 0.01075,
      "grad_norm": 1.8990800380706787,
      "learning_rate": 0.00029996765078323285,
      "loss": 4.5876,
      "step": 5160
    },
    {
      "epoch": 0.010770833333333334,
      "grad_norm": 2.1722168922424316,
      "learning_rate": 0.00029996744572481377,
      "loss": 4.5509,
      "step": 5170
    },
    {
      "epoch": 0.010791666666666666,
      "grad_norm": 1.8151071071624756,
      "learning_rate": 0.0002999672400185947,
      "loss": 4.7729,
      "step": 5180
    },
    {
      "epoch": 0.0108125,
      "grad_norm": 2.1735289096832275,
      "learning_rate": 0.00029996703366457644,
      "loss": 4.7009,
      "step": 5190
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 1.902274489402771,
      "learning_rate": 0.00029996682666276,
      "loss": 4.6205,
      "step": 5200
    },
    {
      "epoch": 0.010854166666666666,
      "grad_norm": 1.7058459520339966,
      "learning_rate": 0.0002999666190131462,
      "loss": 4.9358,
      "step": 5210
    },
    {
      "epoch": 0.010875,
      "grad_norm": 1.8833844661712646,
      "learning_rate": 0.000299966410715736,
      "loss": 4.6695,
      "step": 5220
    },
    {
      "epoch": 0.010895833333333334,
      "grad_norm": 2.3139636516571045,
      "learning_rate": 0.0002999662017705303,
      "loss": 4.4879,
      "step": 5230
    },
    {
      "epoch": 0.010916666666666667,
      "grad_norm": 2.2252237796783447,
      "learning_rate": 0.0002999659921775299,
      "loss": 4.715,
      "step": 5240
    },
    {
      "epoch": 0.0109375,
      "grad_norm": 2.0890510082244873,
      "learning_rate": 0.0002999657819367358,
      "loss": 4.6095,
      "step": 5250
    },
    {
      "epoch": 0.010958333333333334,
      "grad_norm": 1.9406194686889648,
      "learning_rate": 0.0002999655710481489,
      "loss": 4.5186,
      "step": 5260
    },
    {
      "epoch": 0.010979166666666667,
      "grad_norm": 1.7795528173446655,
      "learning_rate": 0.0002999653595117701,
      "loss": 4.6464,
      "step": 5270
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.8515169620513916,
      "learning_rate": 0.0002999651473276003,
      "loss": 4.6361,
      "step": 5280
    },
    {
      "epoch": 0.011020833333333334,
      "grad_norm": 1.8575308322906494,
      "learning_rate": 0.0002999649344956404,
      "loss": 4.8516,
      "step": 5290
    },
    {
      "epoch": 0.011041666666666667,
      "grad_norm": 1.9697237014770508,
      "learning_rate": 0.0002999647210158913,
      "loss": 4.792,
      "step": 5300
    },
    {
      "epoch": 0.0110625,
      "grad_norm": 1.7132389545440674,
      "learning_rate": 0.00029996450688835405,
      "loss": 4.5838,
      "step": 5310
    },
    {
      "epoch": 0.011083333333333334,
      "grad_norm": 1.8339883089065552,
      "learning_rate": 0.00029996429211302946,
      "loss": 4.6801,
      "step": 5320
    },
    {
      "epoch": 0.011104166666666667,
      "grad_norm": 1.728528618812561,
      "learning_rate": 0.00029996407668991847,
      "loss": 4.7159,
      "step": 5330
    },
    {
      "epoch": 0.011125,
      "grad_norm": 1.707406759262085,
      "learning_rate": 0.00029996386061902205,
      "loss": 4.7695,
      "step": 5340
    },
    {
      "epoch": 0.011145833333333334,
      "grad_norm": 1.9322313070297241,
      "learning_rate": 0.00029996364390034113,
      "loss": 4.6092,
      "step": 5350
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 1.7448986768722534,
      "learning_rate": 0.0002999634265338766,
      "loss": 4.4415,
      "step": 5360
    },
    {
      "epoch": 0.0111875,
      "grad_norm": 1.7040554285049438,
      "learning_rate": 0.00029996320851962945,
      "loss": 4.6083,
      "step": 5370
    },
    {
      "epoch": 0.011208333333333334,
      "grad_norm": 1.790853500366211,
      "learning_rate": 0.00029996298985760053,
      "loss": 4.525,
      "step": 5380
    },
    {
      "epoch": 0.011229166666666667,
      "grad_norm": 1.9114516973495483,
      "learning_rate": 0.00029996277054779096,
      "loss": 4.5022,
      "step": 5390
    },
    {
      "epoch": 0.01125,
      "grad_norm": 1.635379433631897,
      "learning_rate": 0.0002999625505902015,
      "loss": 4.5863,
      "step": 5400
    },
    {
      "epoch": 0.011270833333333334,
      "grad_norm": 1.9940447807312012,
      "learning_rate": 0.0002999623299848332,
      "loss": 4.6997,
      "step": 5410
    },
    {
      "epoch": 0.011291666666666667,
      "grad_norm": 1.8213332891464233,
      "learning_rate": 0.00029996210873168704,
      "loss": 4.6709,
      "step": 5420
    },
    {
      "epoch": 0.0113125,
      "grad_norm": 1.8224831819534302,
      "learning_rate": 0.0002999618868307639,
      "loss": 4.3834,
      "step": 5430
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 1.756797194480896,
      "learning_rate": 0.00029996166428206475,
      "loss": 4.7086,
      "step": 5440
    },
    {
      "epoch": 0.011354166666666667,
      "grad_norm": 1.8771953582763672,
      "learning_rate": 0.0002999614410855906,
      "loss": 4.5878,
      "step": 5450
    },
    {
      "epoch": 0.011375,
      "grad_norm": 1.851184606552124,
      "learning_rate": 0.0002999612172413423,
      "loss": 4.533,
      "step": 5460
    },
    {
      "epoch": 0.011395833333333332,
      "grad_norm": 2.00260066986084,
      "learning_rate": 0.000299960992749321,
      "loss": 4.7005,
      "step": 5470
    },
    {
      "epoch": 0.011416666666666667,
      "grad_norm": 3.015681505203247,
      "learning_rate": 0.00029996076760952753,
      "loss": 4.336,
      "step": 5480
    },
    {
      "epoch": 0.0114375,
      "grad_norm": 1.8343778848648071,
      "learning_rate": 0.0002999605418219629,
      "loss": 4.7226,
      "step": 5490
    },
    {
      "epoch": 0.011458333333333333,
      "grad_norm": 1.7843356132507324,
      "learning_rate": 0.00029996031538662805,
      "loss": 4.7796,
      "step": 5500
    },
    {
      "epoch": 0.011479166666666667,
      "grad_norm": 1.7879985570907593,
      "learning_rate": 0.00029996008830352405,
      "loss": 4.6148,
      "step": 5510
    },
    {
      "epoch": 0.0115,
      "grad_norm": 1.8777046203613281,
      "learning_rate": 0.00029995986057265186,
      "loss": 4.4714,
      "step": 5520
    },
    {
      "epoch": 0.011520833333333333,
      "grad_norm": 1.8722240924835205,
      "learning_rate": 0.00029995963219401234,
      "loss": 4.8158,
      "step": 5530
    },
    {
      "epoch": 0.011541666666666667,
      "grad_norm": 2.234778642654419,
      "learning_rate": 0.0002999594031676066,
      "loss": 4.5033,
      "step": 5540
    },
    {
      "epoch": 0.0115625,
      "grad_norm": 1.924190878868103,
      "learning_rate": 0.00029995917349343563,
      "loss": 4.6206,
      "step": 5550
    },
    {
      "epoch": 0.011583333333333333,
      "grad_norm": 1.7916951179504395,
      "learning_rate": 0.0002999589431715004,
      "loss": 4.534,
      "step": 5560
    },
    {
      "epoch": 0.011604166666666667,
      "grad_norm": 1.8556138277053833,
      "learning_rate": 0.00029995871220180184,
      "loss": 4.5268,
      "step": 5570
    },
    {
      "epoch": 0.011625,
      "grad_norm": 2.086292028427124,
      "learning_rate": 0.000299958480584341,
      "loss": 4.6165,
      "step": 5580
    },
    {
      "epoch": 0.011645833333333333,
      "grad_norm": 1.729223608970642,
      "learning_rate": 0.0002999582483191189,
      "loss": 4.7166,
      "step": 5590
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 5.054166316986084,
      "learning_rate": 0.0002999580154061365,
      "loss": 4.7629,
      "step": 5600
    },
    {
      "epoch": 0.0116875,
      "grad_norm": 1.80246901512146,
      "learning_rate": 0.0002999577818453949,
      "loss": 4.4828,
      "step": 5610
    },
    {
      "epoch": 0.011708333333333333,
      "grad_norm": 1.893829584121704,
      "learning_rate": 0.000299957547636895,
      "loss": 4.3664,
      "step": 5620
    },
    {
      "epoch": 0.011729166666666667,
      "grad_norm": 1.6833834648132324,
      "learning_rate": 0.00029995731278063787,
      "loss": 4.5935,
      "step": 5630
    },
    {
      "epoch": 0.01175,
      "grad_norm": 1.7475380897521973,
      "learning_rate": 0.00029995707727662445,
      "loss": 4.6206,
      "step": 5640
    },
    {
      "epoch": 0.011770833333333333,
      "grad_norm": 1.8308979272842407,
      "learning_rate": 0.00029995684112485584,
      "loss": 4.6967,
      "step": 5650
    },
    {
      "epoch": 0.011791666666666667,
      "grad_norm": 1.6749387979507446,
      "learning_rate": 0.00029995660432533303,
      "loss": 4.6147,
      "step": 5660
    },
    {
      "epoch": 0.0118125,
      "grad_norm": 2.0551319122314453,
      "learning_rate": 0.0002999563668780571,
      "loss": 4.5481,
      "step": 5670
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 1.6664180755615234,
      "learning_rate": 0.000299956128783029,
      "loss": 4.7425,
      "step": 5680
    },
    {
      "epoch": 0.011854166666666667,
      "grad_norm": 1.5733801126480103,
      "learning_rate": 0.0002999558900402497,
      "loss": 4.7676,
      "step": 5690
    },
    {
      "epoch": 0.011875,
      "grad_norm": 1.585997462272644,
      "learning_rate": 0.00029995565064972043,
      "loss": 4.5791,
      "step": 5700
    },
    {
      "epoch": 0.011895833333333333,
      "grad_norm": 1.786232590675354,
      "learning_rate": 0.000299955410611442,
      "loss": 4.5256,
      "step": 5710
    },
    {
      "epoch": 0.011916666666666667,
      "grad_norm": 1.6459928750991821,
      "learning_rate": 0.0002999551699254156,
      "loss": 4.5337,
      "step": 5720
    },
    {
      "epoch": 0.0119375,
      "grad_norm": 1.857580542564392,
      "learning_rate": 0.00029995492859164223,
      "loss": 4.5615,
      "step": 5730
    },
    {
      "epoch": 0.011958333333333333,
      "grad_norm": 1.7921793460845947,
      "learning_rate": 0.000299954686610123,
      "loss": 4.5025,
      "step": 5740
    },
    {
      "epoch": 0.011979166666666667,
      "grad_norm": 5.629027843475342,
      "learning_rate": 0.00029995444398085876,
      "loss": 4.8386,
      "step": 5750
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.8622534275054932,
      "learning_rate": 0.0002999542007038507,
      "loss": 4.7001,
      "step": 5760
    },
    {
      "epoch": 0.012020833333333333,
      "grad_norm": 1.700332760810852,
      "learning_rate": 0.0002999539567790999,
      "loss": 4.579,
      "step": 5770
    },
    {
      "epoch": 0.012041666666666668,
      "grad_norm": 1.8963967561721802,
      "learning_rate": 0.00029995371220660727,
      "loss": 4.5185,
      "step": 5780
    },
    {
      "epoch": 0.0120625,
      "grad_norm": 1.7316770553588867,
      "learning_rate": 0.00029995346698637404,
      "loss": 4.4653,
      "step": 5790
    },
    {
      "epoch": 0.012083333333333333,
      "grad_norm": 1.9303194284439087,
      "learning_rate": 0.0002999532211184012,
      "loss": 4.6124,
      "step": 5800
    },
    {
      "epoch": 0.012104166666666666,
      "grad_norm": 1.7704291343688965,
      "learning_rate": 0.00029995297460268976,
      "loss": 4.6268,
      "step": 5810
    },
    {
      "epoch": 0.012125,
      "grad_norm": 1.846645712852478,
      "learning_rate": 0.0002999527274392408,
      "loss": 4.5135,
      "step": 5820
    },
    {
      "epoch": 0.012145833333333333,
      "grad_norm": 1.6955413818359375,
      "learning_rate": 0.00029995247962805546,
      "loss": 4.5277,
      "step": 5830
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 1.8925772905349731,
      "learning_rate": 0.0002999522311691347,
      "loss": 4.5655,
      "step": 5840
    },
    {
      "epoch": 0.0121875,
      "grad_norm": 1.8090225458145142,
      "learning_rate": 0.00029995198206247975,
      "loss": 4.7109,
      "step": 5850
    },
    {
      "epoch": 0.012208333333333333,
      "grad_norm": 2.1513261795043945,
      "learning_rate": 0.00029995173230809157,
      "loss": 4.5708,
      "step": 5860
    },
    {
      "epoch": 0.012229166666666666,
      "grad_norm": 1.6373944282531738,
      "learning_rate": 0.0002999514819059712,
      "loss": 4.7976,
      "step": 5870
    },
    {
      "epoch": 0.01225,
      "grad_norm": 1.7683182954788208,
      "learning_rate": 0.0002999512308561198,
      "loss": 4.8148,
      "step": 5880
    },
    {
      "epoch": 0.012270833333333333,
      "grad_norm": 1.744763970375061,
      "learning_rate": 0.0002999509791585385,
      "loss": 4.6702,
      "step": 5890
    },
    {
      "epoch": 0.012291666666666666,
      "grad_norm": 1.6632403135299683,
      "learning_rate": 0.00029995072681322825,
      "loss": 4.7159,
      "step": 5900
    },
    {
      "epoch": 0.0123125,
      "grad_norm": 1.8810020685195923,
      "learning_rate": 0.0002999504738201903,
      "loss": 4.5042,
      "step": 5910
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 1.8923534154891968,
      "learning_rate": 0.0002999502201794256,
      "loss": 4.6848,
      "step": 5920
    },
    {
      "epoch": 0.012354166666666666,
      "grad_norm": 1.7583833932876587,
      "learning_rate": 0.00029994996589093525,
      "loss": 4.7363,
      "step": 5930
    },
    {
      "epoch": 0.012375,
      "grad_norm": 1.5712623596191406,
      "learning_rate": 0.0002999497109547205,
      "loss": 4.6448,
      "step": 5940
    },
    {
      "epoch": 0.012395833333333333,
      "grad_norm": 1.7114585638046265,
      "learning_rate": 0.0002999494553707823,
      "loss": 4.4665,
      "step": 5950
    },
    {
      "epoch": 0.012416666666666666,
      "grad_norm": 1.7152578830718994,
      "learning_rate": 0.00029994919913912184,
      "loss": 4.8478,
      "step": 5960
    },
    {
      "epoch": 0.0124375,
      "grad_norm": 1.8155323266983032,
      "learning_rate": 0.00029994894225974014,
      "loss": 4.6337,
      "step": 5970
    },
    {
      "epoch": 0.012458333333333333,
      "grad_norm": 1.6584042310714722,
      "learning_rate": 0.0002999486847326384,
      "loss": 4.7571,
      "step": 5980
    },
    {
      "epoch": 0.012479166666666666,
      "grad_norm": 1.964835286140442,
      "learning_rate": 0.0002999484265578177,
      "loss": 4.5958,
      "step": 5990
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.7497987747192383,
      "learning_rate": 0.00029994816773527914,
      "loss": 4.4932,
      "step": 6000
    },
    {
      "epoch": 0.0125,
      "eval_loss": 4.343306064605713,
      "eval_runtime": 7.2781,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 6000
    },
    {
      "epoch": 0.012520833333333333,
      "grad_norm": 1.5862493515014648,
      "learning_rate": 0.0002999479082650239,
      "loss": 4.6763,
      "step": 6010
    },
    {
      "epoch": 0.012541666666666666,
      "grad_norm": 1.7224276065826416,
      "learning_rate": 0.00029994764814705296,
      "loss": 4.9125,
      "step": 6020
    },
    {
      "epoch": 0.0125625,
      "grad_norm": 1.8953874111175537,
      "learning_rate": 0.0002999473873813676,
      "loss": 4.6001,
      "step": 6030
    },
    {
      "epoch": 0.012583333333333334,
      "grad_norm": 1.8871862888336182,
      "learning_rate": 0.00029994712596796886,
      "loss": 4.5082,
      "step": 6040
    },
    {
      "epoch": 0.012604166666666666,
      "grad_norm": 1.609435796737671,
      "learning_rate": 0.0002999468639068579,
      "loss": 4.4565,
      "step": 6050
    },
    {
      "epoch": 0.012625,
      "grad_norm": 1.7548683881759644,
      "learning_rate": 0.0002999466011980358,
      "loss": 4.6089,
      "step": 6060
    },
    {
      "epoch": 0.012645833333333334,
      "grad_norm": 1.864040732383728,
      "learning_rate": 0.00029994633784150373,
      "loss": 4.4457,
      "step": 6070
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.932321548461914,
      "learning_rate": 0.0002999460738372629,
      "loss": 4.5402,
      "step": 6080
    },
    {
      "epoch": 0.0126875,
      "grad_norm": 1.6118669509887695,
      "learning_rate": 0.0002999458091853143,
      "loss": 4.5872,
      "step": 6090
    },
    {
      "epoch": 0.012708333333333334,
      "grad_norm": 2.115590810775757,
      "learning_rate": 0.00029994554388565925,
      "loss": 4.502,
      "step": 6100
    },
    {
      "epoch": 0.012729166666666666,
      "grad_norm": 1.8790029287338257,
      "learning_rate": 0.00029994527793829876,
      "loss": 4.8068,
      "step": 6110
    },
    {
      "epoch": 0.01275,
      "grad_norm": 1.6840760707855225,
      "learning_rate": 0.00029994501134323405,
      "loss": 4.7024,
      "step": 6120
    },
    {
      "epoch": 0.012770833333333334,
      "grad_norm": 1.7837920188903809,
      "learning_rate": 0.0002999447441004662,
      "loss": 4.4503,
      "step": 6130
    },
    {
      "epoch": 0.012791666666666666,
      "grad_norm": 1.6238808631896973,
      "learning_rate": 0.0002999444762099964,
      "loss": 4.6333,
      "step": 6140
    },
    {
      "epoch": 0.0128125,
      "grad_norm": 1.6908464431762695,
      "learning_rate": 0.0002999442076718258,
      "loss": 4.5571,
      "step": 6150
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 1.5811498165130615,
      "learning_rate": 0.00029994393848595567,
      "loss": 4.7302,
      "step": 6160
    },
    {
      "epoch": 0.012854166666666667,
      "grad_norm": 1.8481216430664062,
      "learning_rate": 0.000299943668652387,
      "loss": 4.6277,
      "step": 6170
    },
    {
      "epoch": 0.012875,
      "grad_norm": 1.6521834135055542,
      "learning_rate": 0.00029994339817112107,
      "loss": 4.5867,
      "step": 6180
    },
    {
      "epoch": 0.012895833333333334,
      "grad_norm": 1.7356517314910889,
      "learning_rate": 0.000299943127042159,
      "loss": 4.645,
      "step": 6190
    },
    {
      "epoch": 0.012916666666666667,
      "grad_norm": 1.8240635395050049,
      "learning_rate": 0.00029994285526550196,
      "loss": 4.5029,
      "step": 6200
    },
    {
      "epoch": 0.0129375,
      "grad_norm": 1.7659449577331543,
      "learning_rate": 0.00029994258284115114,
      "loss": 4.4502,
      "step": 6210
    },
    {
      "epoch": 0.012958333333333334,
      "grad_norm": 1.8841503858566284,
      "learning_rate": 0.0002999423097691077,
      "loss": 4.6271,
      "step": 6220
    },
    {
      "epoch": 0.012979166666666667,
      "grad_norm": 1.8032429218292236,
      "learning_rate": 0.0002999420360493729,
      "loss": 4.4741,
      "step": 6230
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.6646758317947388,
      "learning_rate": 0.0002999417616819478,
      "loss": 4.6819,
      "step": 6240
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 2.0148918628692627,
      "learning_rate": 0.00029994148666683364,
      "loss": 4.7422,
      "step": 6250
    },
    {
      "epoch": 0.013041666666666667,
      "grad_norm": 2.1707763671875,
      "learning_rate": 0.00029994121100403154,
      "loss": 4.6721,
      "step": 6260
    },
    {
      "epoch": 0.0130625,
      "grad_norm": 1.7452915906906128,
      "learning_rate": 0.0002999409346935429,
      "loss": 4.5718,
      "step": 6270
    },
    {
      "epoch": 0.013083333333333334,
      "grad_norm": 1.7616541385650635,
      "learning_rate": 0.00029994065773536867,
      "loss": 4.7119,
      "step": 6280
    },
    {
      "epoch": 0.013104166666666667,
      "grad_norm": 1.831023931503296,
      "learning_rate": 0.00029994038012951023,
      "loss": 4.6791,
      "step": 6290
    },
    {
      "epoch": 0.013125,
      "grad_norm": 1.4808820486068726,
      "learning_rate": 0.00029994010187596866,
      "loss": 4.6502,
      "step": 6300
    },
    {
      "epoch": 0.013145833333333334,
      "grad_norm": 1.8750035762786865,
      "learning_rate": 0.0002999398229747452,
      "loss": 4.475,
      "step": 6310
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 1.7257252931594849,
      "learning_rate": 0.00029993954342584105,
      "loss": 4.6187,
      "step": 6320
    },
    {
      "epoch": 0.0131875,
      "grad_norm": 1.7412323951721191,
      "learning_rate": 0.0002999392632292574,
      "loss": 4.5898,
      "step": 6330
    },
    {
      "epoch": 0.013208333333333334,
      "grad_norm": 2.162046194076538,
      "learning_rate": 0.00029993898238499554,
      "loss": 4.4596,
      "step": 6340
    },
    {
      "epoch": 0.013229166666666667,
      "grad_norm": 1.6416289806365967,
      "learning_rate": 0.00029993870089305657,
      "loss": 4.5681,
      "step": 6350
    },
    {
      "epoch": 0.01325,
      "grad_norm": 1.6784371137619019,
      "learning_rate": 0.0002999384187534418,
      "loss": 4.7858,
      "step": 6360
    },
    {
      "epoch": 0.013270833333333334,
      "grad_norm": 1.7132481336593628,
      "learning_rate": 0.00029993813596615237,
      "loss": 4.5907,
      "step": 6370
    },
    {
      "epoch": 0.013291666666666667,
      "grad_norm": 1.6141513586044312,
      "learning_rate": 0.00029993785253118954,
      "loss": 4.7043,
      "step": 6380
    },
    {
      "epoch": 0.0133125,
      "grad_norm": 1.9626539945602417,
      "learning_rate": 0.00029993756844855457,
      "loss": 4.9273,
      "step": 6390
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 1.6210455894470215,
      "learning_rate": 0.00029993728371824867,
      "loss": 4.5691,
      "step": 6400
    },
    {
      "epoch": 0.013354166666666667,
      "grad_norm": 1.5852930545806885,
      "learning_rate": 0.000299936998340273,
      "loss": 4.7471,
      "step": 6410
    },
    {
      "epoch": 0.013375,
      "grad_norm": 1.9101225137710571,
      "learning_rate": 0.0002999367123146289,
      "loss": 4.4794,
      "step": 6420
    },
    {
      "epoch": 0.013395833333333333,
      "grad_norm": 1.671764850616455,
      "learning_rate": 0.00029993642564131754,
      "loss": 4.5489,
      "step": 6430
    },
    {
      "epoch": 0.013416666666666667,
      "grad_norm": 1.7400389909744263,
      "learning_rate": 0.00029993613832034015,
      "loss": 4.5487,
      "step": 6440
    },
    {
      "epoch": 0.0134375,
      "grad_norm": 1.8759310245513916,
      "learning_rate": 0.000299935850351698,
      "loss": 4.5138,
      "step": 6450
    },
    {
      "epoch": 0.013458333333333333,
      "grad_norm": 1.6006391048431396,
      "learning_rate": 0.00029993556173539234,
      "loss": 4.2667,
      "step": 6460
    },
    {
      "epoch": 0.013479166666666667,
      "grad_norm": 1.620606541633606,
      "learning_rate": 0.00029993527247142436,
      "loss": 4.6746,
      "step": 6470
    },
    {
      "epoch": 0.0135,
      "grad_norm": 1.7718349695205688,
      "learning_rate": 0.0002999349825597954,
      "loss": 4.5494,
      "step": 6480
    },
    {
      "epoch": 0.013520833333333333,
      "grad_norm": 1.4947748184204102,
      "learning_rate": 0.0002999346920005066,
      "loss": 4.622,
      "step": 6490
    },
    {
      "epoch": 0.013541666666666667,
      "grad_norm": 2.093627691268921,
      "learning_rate": 0.00029993440079355933,
      "loss": 4.5425,
      "step": 6500
    },
    {
      "epoch": 0.0135625,
      "grad_norm": 1.6925548315048218,
      "learning_rate": 0.00029993410893895477,
      "loss": 4.4982,
      "step": 6510
    },
    {
      "epoch": 0.013583333333333333,
      "grad_norm": 1.9189412593841553,
      "learning_rate": 0.00029993381643669424,
      "loss": 4.623,
      "step": 6520
    },
    {
      "epoch": 0.013604166666666667,
      "grad_norm": 1.5739227533340454,
      "learning_rate": 0.000299933523286779,
      "loss": 4.2855,
      "step": 6530
    },
    {
      "epoch": 0.013625,
      "grad_norm": 1.8022102117538452,
      "learning_rate": 0.00029993322948921024,
      "loss": 4.5683,
      "step": 6540
    },
    {
      "epoch": 0.013645833333333333,
      "grad_norm": 2.106825113296509,
      "learning_rate": 0.00029993293504398927,
      "loss": 4.6433,
      "step": 6550
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 1.7931315898895264,
      "learning_rate": 0.00029993263995111737,
      "loss": 4.4878,
      "step": 6560
    },
    {
      "epoch": 0.0136875,
      "grad_norm": 1.7516502141952515,
      "learning_rate": 0.00029993234421059583,
      "loss": 4.4045,
      "step": 6570
    },
    {
      "epoch": 0.013708333333333333,
      "grad_norm": 1.590372920036316,
      "learning_rate": 0.00029993204782242586,
      "loss": 4.7018,
      "step": 6580
    },
    {
      "epoch": 0.013729166666666667,
      "grad_norm": 1.7563281059265137,
      "learning_rate": 0.00029993175078660885,
      "loss": 4.5787,
      "step": 6590
    },
    {
      "epoch": 0.01375,
      "grad_norm": 1.5200430154800415,
      "learning_rate": 0.000299931453103146,
      "loss": 4.638,
      "step": 6600
    },
    {
      "epoch": 0.013770833333333333,
      "grad_norm": 1.7653471231460571,
      "learning_rate": 0.00029993115477203864,
      "loss": 4.5975,
      "step": 6610
    },
    {
      "epoch": 0.013791666666666667,
      "grad_norm": 1.7055213451385498,
      "learning_rate": 0.000299930855793288,
      "loss": 4.7373,
      "step": 6620
    },
    {
      "epoch": 0.0138125,
      "grad_norm": 1.7733871936798096,
      "learning_rate": 0.0002999305561668955,
      "loss": 4.7018,
      "step": 6630
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 1.9126720428466797,
      "learning_rate": 0.00029993025589286225,
      "loss": 4.579,
      "step": 6640
    },
    {
      "epoch": 0.013854166666666667,
      "grad_norm": 1.6362152099609375,
      "learning_rate": 0.0002999299549711897,
      "loss": 4.5795,
      "step": 6650
    },
    {
      "epoch": 0.013875,
      "grad_norm": 1.6092289686203003,
      "learning_rate": 0.00029992965340187904,
      "loss": 4.5455,
      "step": 6660
    },
    {
      "epoch": 0.013895833333333333,
      "grad_norm": 1.798980712890625,
      "learning_rate": 0.00029992935118493166,
      "loss": 4.5629,
      "step": 6670
    },
    {
      "epoch": 0.013916666666666667,
      "grad_norm": 1.7576731443405151,
      "learning_rate": 0.00029992904832034875,
      "loss": 4.4379,
      "step": 6680
    },
    {
      "epoch": 0.0139375,
      "grad_norm": 1.6157708168029785,
      "learning_rate": 0.0002999287448081318,
      "loss": 4.3314,
      "step": 6690
    },
    {
      "epoch": 0.013958333333333333,
      "grad_norm": 1.7489964962005615,
      "learning_rate": 0.00029992844064828195,
      "loss": 4.4414,
      "step": 6700
    },
    {
      "epoch": 0.013979166666666668,
      "grad_norm": 1.6166045665740967,
      "learning_rate": 0.00029992813584080066,
      "loss": 4.4979,
      "step": 6710
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.5836999416351318,
      "learning_rate": 0.0002999278303856891,
      "loss": 4.5116,
      "step": 6720
    },
    {
      "epoch": 0.014020833333333333,
      "grad_norm": 1.5964713096618652,
      "learning_rate": 0.00029992752428294867,
      "loss": 4.4476,
      "step": 6730
    },
    {
      "epoch": 0.014041666666666666,
      "grad_norm": 1.7275522947311401,
      "learning_rate": 0.0002999272175325807,
      "loss": 4.5283,
      "step": 6740
    },
    {
      "epoch": 0.0140625,
      "grad_norm": 1.9472754001617432,
      "learning_rate": 0.00029992691013458646,
      "loss": 4.4366,
      "step": 6750
    },
    {
      "epoch": 0.014083333333333333,
      "grad_norm": 1.6594988107681274,
      "learning_rate": 0.0002999266020889674,
      "loss": 4.712,
      "step": 6760
    },
    {
      "epoch": 0.014104166666666666,
      "grad_norm": 1.6486018896102905,
      "learning_rate": 0.00029992629339572465,
      "loss": 4.5538,
      "step": 6770
    },
    {
      "epoch": 0.014125,
      "grad_norm": 1.780419945716858,
      "learning_rate": 0.0002999259840548597,
      "loss": 4.4459,
      "step": 6780
    },
    {
      "epoch": 0.014145833333333333,
      "grad_norm": 1.4307348728179932,
      "learning_rate": 0.0002999256740663739,
      "loss": 4.5737,
      "step": 6790
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 1.7422229051589966,
      "learning_rate": 0.00029992536343026845,
      "loss": 4.4587,
      "step": 6800
    },
    {
      "epoch": 0.0141875,
      "grad_norm": 1.7759181261062622,
      "learning_rate": 0.00029992505214654477,
      "loss": 4.5429,
      "step": 6810
    },
    {
      "epoch": 0.014208333333333333,
      "grad_norm": 1.8844412565231323,
      "learning_rate": 0.00029992474021520426,
      "loss": 4.6304,
      "step": 6820
    },
    {
      "epoch": 0.014229166666666666,
      "grad_norm": 2.141817808151245,
      "learning_rate": 0.0002999244276362482,
      "loss": 4.4277,
      "step": 6830
    },
    {
      "epoch": 0.01425,
      "grad_norm": 2.0512447357177734,
      "learning_rate": 0.000299924114409678,
      "loss": 4.5409,
      "step": 6840
    },
    {
      "epoch": 0.014270833333333333,
      "grad_norm": 1.4624145030975342,
      "learning_rate": 0.0002999238005354949,
      "loss": 4.5417,
      "step": 6850
    },
    {
      "epoch": 0.014291666666666666,
      "grad_norm": 1.4608659744262695,
      "learning_rate": 0.0002999234860137004,
      "loss": 4.4643,
      "step": 6860
    },
    {
      "epoch": 0.0143125,
      "grad_norm": 1.6996729373931885,
      "learning_rate": 0.0002999231708442957,
      "loss": 4.5832,
      "step": 6870
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 1.6368396282196045,
      "learning_rate": 0.0002999228550272823,
      "loss": 4.6733,
      "step": 6880
    },
    {
      "epoch": 0.014354166666666666,
      "grad_norm": 1.5103609561920166,
      "learning_rate": 0.0002999225385626615,
      "loss": 4.785,
      "step": 6890
    },
    {
      "epoch": 0.014375,
      "grad_norm": 1.7803462743759155,
      "learning_rate": 0.0002999222214504347,
      "loss": 4.5342,
      "step": 6900
    },
    {
      "epoch": 0.014395833333333333,
      "grad_norm": 1.4328055381774902,
      "learning_rate": 0.00029992190369060323,
      "loss": 4.5348,
      "step": 6910
    },
    {
      "epoch": 0.014416666666666666,
      "grad_norm": 1.6084232330322266,
      "learning_rate": 0.0002999215852831685,
      "loss": 4.5267,
      "step": 6920
    },
    {
      "epoch": 0.0144375,
      "grad_norm": 1.7157152891159058,
      "learning_rate": 0.0002999212662281318,
      "loss": 4.559,
      "step": 6930
    },
    {
      "epoch": 0.014458333333333333,
      "grad_norm": 1.6120373010635376,
      "learning_rate": 0.00029992094652549455,
      "loss": 4.3619,
      "step": 6940
    },
    {
      "epoch": 0.014479166666666666,
      "grad_norm": 1.6454626321792603,
      "learning_rate": 0.00029992062617525825,
      "loss": 4.5807,
      "step": 6950
    },
    {
      "epoch": 0.0145,
      "grad_norm": 1.5793544054031372,
      "learning_rate": 0.00029992030517742415,
      "loss": 4.5347,
      "step": 6960
    },
    {
      "epoch": 0.014520833333333334,
      "grad_norm": 1.62068510055542,
      "learning_rate": 0.00029991998353199364,
      "loss": 4.4832,
      "step": 6970
    },
    {
      "epoch": 0.014541666666666666,
      "grad_norm": 1.9900435209274292,
      "learning_rate": 0.0002999196612389682,
      "loss": 4.5752,
      "step": 6980
    },
    {
      "epoch": 0.0145625,
      "grad_norm": 1.5775957107543945,
      "learning_rate": 0.00029991933829834913,
      "loss": 4.4791,
      "step": 6990
    },
    {
      "epoch": 0.014583333333333334,
      "grad_norm": 1.7493163347244263,
      "learning_rate": 0.0002999190147101379,
      "loss": 4.3918,
      "step": 7000
    },
    {
      "epoch": 0.014583333333333334,
      "eval_loss": 4.291099548339844,
      "eval_runtime": 7.2941,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 7000
    },
    {
      "epoch": 0.014604166666666666,
      "grad_norm": 1.733186960220337,
      "learning_rate": 0.0002999186904743358,
      "loss": 4.5086,
      "step": 7010
    },
    {
      "epoch": 0.014625,
      "grad_norm": 1.6440653800964355,
      "learning_rate": 0.00029991836559094433,
      "loss": 4.3833,
      "step": 7020
    },
    {
      "epoch": 0.014645833333333334,
      "grad_norm": 1.7889440059661865,
      "learning_rate": 0.00029991804005996493,
      "loss": 4.5782,
      "step": 7030
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 1.6248856782913208,
      "learning_rate": 0.00029991771388139884,
      "loss": 4.3802,
      "step": 7040
    },
    {
      "epoch": 0.0146875,
      "grad_norm": 1.6299437284469604,
      "learning_rate": 0.00029991738705524763,
      "loss": 4.8472,
      "step": 7050
    },
    {
      "epoch": 0.014708333333333334,
      "grad_norm": 1.576027512550354,
      "learning_rate": 0.0002999170595815126,
      "loss": 4.4724,
      "step": 7060
    },
    {
      "epoch": 0.014729166666666666,
      "grad_norm": 1.7137442827224731,
      "learning_rate": 0.00029991673146019526,
      "loss": 4.4635,
      "step": 7070
    },
    {
      "epoch": 0.01475,
      "grad_norm": 1.822823405265808,
      "learning_rate": 0.000299916402691297,
      "loss": 4.7394,
      "step": 7080
    },
    {
      "epoch": 0.014770833333333334,
      "grad_norm": 1.5416463613510132,
      "learning_rate": 0.00029991607327481916,
      "loss": 4.4516,
      "step": 7090
    },
    {
      "epoch": 0.014791666666666667,
      "grad_norm": 1.5617011785507202,
      "learning_rate": 0.00029991574321076327,
      "loss": 4.475,
      "step": 7100
    },
    {
      "epoch": 0.0148125,
      "grad_norm": 1.8846673965454102,
      "learning_rate": 0.00029991541249913066,
      "loss": 4.6864,
      "step": 7110
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 1.7089747190475464,
      "learning_rate": 0.00029991508113992284,
      "loss": 4.5182,
      "step": 7120
    },
    {
      "epoch": 0.014854166666666667,
      "grad_norm": 1.7375640869140625,
      "learning_rate": 0.00029991474913314124,
      "loss": 4.5628,
      "step": 7130
    },
    {
      "epoch": 0.014875,
      "grad_norm": 1.7227230072021484,
      "learning_rate": 0.0002999144164787872,
      "loss": 4.3918,
      "step": 7140
    },
    {
      "epoch": 0.014895833333333334,
      "grad_norm": 1.809424638748169,
      "learning_rate": 0.0002999140831768623,
      "loss": 4.5804,
      "step": 7150
    },
    {
      "epoch": 0.014916666666666667,
      "grad_norm": 1.8948291540145874,
      "learning_rate": 0.0002999137492273678,
      "loss": 4.5285,
      "step": 7160
    },
    {
      "epoch": 0.0149375,
      "grad_norm": 1.5736355781555176,
      "learning_rate": 0.0002999134146303053,
      "loss": 4.4968,
      "step": 7170
    },
    {
      "epoch": 0.014958333333333334,
      "grad_norm": 1.6720424890518188,
      "learning_rate": 0.0002999130793856762,
      "loss": 4.2731,
      "step": 7180
    },
    {
      "epoch": 0.014979166666666667,
      "grad_norm": 1.5773578882217407,
      "learning_rate": 0.0002999127434934819,
      "loss": 4.6078,
      "step": 7190
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.3918664455413818,
      "learning_rate": 0.00029991240695372397,
      "loss": 4.5659,
      "step": 7200
    },
    {
      "epoch": 0.015020833333333334,
      "grad_norm": 1.4347132444381714,
      "learning_rate": 0.0002999120697664037,
      "loss": 4.6157,
      "step": 7210
    },
    {
      "epoch": 0.015041666666666667,
      "grad_norm": 2.205124616622925,
      "learning_rate": 0.00029991173193152264,
      "loss": 4.5428,
      "step": 7220
    },
    {
      "epoch": 0.0150625,
      "grad_norm": 1.5429195165634155,
      "learning_rate": 0.0002999113934490822,
      "loss": 4.5485,
      "step": 7230
    },
    {
      "epoch": 0.015083333333333334,
      "grad_norm": 1.561380386352539,
      "learning_rate": 0.000299911054319084,
      "loss": 4.4166,
      "step": 7240
    },
    {
      "epoch": 0.015104166666666667,
      "grad_norm": 2.141749620437622,
      "learning_rate": 0.0002999107145415293,
      "loss": 4.4075,
      "step": 7250
    },
    {
      "epoch": 0.015125,
      "grad_norm": 1.6830999851226807,
      "learning_rate": 0.00029991037411641967,
      "loss": 4.3929,
      "step": 7260
    },
    {
      "epoch": 0.015145833333333334,
      "grad_norm": 1.6625947952270508,
      "learning_rate": 0.00029991003304375655,
      "loss": 4.4161,
      "step": 7270
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 1.5332239866256714,
      "learning_rate": 0.00029990969132354144,
      "loss": 4.3812,
      "step": 7280
    },
    {
      "epoch": 0.0151875,
      "grad_norm": 1.6926686763763428,
      "learning_rate": 0.0002999093489557758,
      "loss": 4.5153,
      "step": 7290
    },
    {
      "epoch": 0.015208333333333334,
      "grad_norm": 1.5825833082199097,
      "learning_rate": 0.0002999090059404611,
      "loss": 4.3916,
      "step": 7300
    },
    {
      "epoch": 0.015229166666666667,
      "grad_norm": 1.6418477296829224,
      "learning_rate": 0.0002999086622775988,
      "loss": 4.4864,
      "step": 7310
    },
    {
      "epoch": 0.01525,
      "grad_norm": 1.8218705654144287,
      "learning_rate": 0.0002999083179671905,
      "loss": 4.4464,
      "step": 7320
    },
    {
      "epoch": 0.015270833333333334,
      "grad_norm": 1.581039309501648,
      "learning_rate": 0.00029990797300923755,
      "loss": 4.4472,
      "step": 7330
    },
    {
      "epoch": 0.015291666666666667,
      "grad_norm": 1.6232751607894897,
      "learning_rate": 0.00029990762740374145,
      "loss": 4.551,
      "step": 7340
    },
    {
      "epoch": 0.0153125,
      "grad_norm": 1.7138580083847046,
      "learning_rate": 0.0002999072811507038,
      "loss": 4.5271,
      "step": 7350
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 1.5997507572174072,
      "learning_rate": 0.000299906934250126,
      "loss": 4.6093,
      "step": 7360
    },
    {
      "epoch": 0.015354166666666667,
      "grad_norm": 1.6167078018188477,
      "learning_rate": 0.0002999065867020097,
      "loss": 4.4154,
      "step": 7370
    },
    {
      "epoch": 0.015375,
      "grad_norm": 1.6644450426101685,
      "learning_rate": 0.0002999062385063561,
      "loss": 4.3409,
      "step": 7380
    },
    {
      "epoch": 0.015395833333333333,
      "grad_norm": 1.6819965839385986,
      "learning_rate": 0.000299905889663167,
      "loss": 4.5914,
      "step": 7390
    },
    {
      "epoch": 0.015416666666666667,
      "grad_norm": 1.5725282430648804,
      "learning_rate": 0.00029990554017244377,
      "loss": 4.6502,
      "step": 7400
    },
    {
      "epoch": 0.0154375,
      "grad_norm": 1.4063953161239624,
      "learning_rate": 0.0002999051900341879,
      "loss": 4.446,
      "step": 7410
    },
    {
      "epoch": 0.015458333333333333,
      "grad_norm": 1.7738105058670044,
      "learning_rate": 0.000299904839248401,
      "loss": 4.4403,
      "step": 7420
    },
    {
      "epoch": 0.015479166666666667,
      "grad_norm": 1.6741559505462646,
      "learning_rate": 0.00029990448781508453,
      "loss": 4.6644,
      "step": 7430
    },
    {
      "epoch": 0.0155,
      "grad_norm": 1.9091640710830688,
      "learning_rate": 0.00029990413573424,
      "loss": 4.53,
      "step": 7440
    },
    {
      "epoch": 0.015520833333333333,
      "grad_norm": 1.6049522161483765,
      "learning_rate": 0.00029990378300586893,
      "loss": 4.5557,
      "step": 7450
    },
    {
      "epoch": 0.015541666666666667,
      "grad_norm": 1.680769681930542,
      "learning_rate": 0.0002999034296299729,
      "loss": 4.5349,
      "step": 7460
    },
    {
      "epoch": 0.0155625,
      "grad_norm": 1.6392019987106323,
      "learning_rate": 0.00029990307560655326,
      "loss": 4.6951,
      "step": 7470
    },
    {
      "epoch": 0.015583333333333333,
      "grad_norm": 1.5787066221237183,
      "learning_rate": 0.00029990272093561183,
      "loss": 4.5466,
      "step": 7480
    },
    {
      "epoch": 0.015604166666666667,
      "grad_norm": 1.7649284601211548,
      "learning_rate": 0.0002999023656171499,
      "loss": 4.5351,
      "step": 7490
    },
    {
      "epoch": 0.015625,
      "grad_norm": 1.4956051111221313,
      "learning_rate": 0.0002999020096511691,
      "loss": 4.3899,
      "step": 7500
    },
    {
      "epoch": 0.015645833333333335,
      "grad_norm": 1.660574197769165,
      "learning_rate": 0.0002999016530376709,
      "loss": 4.4523,
      "step": 7510
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 1.5930721759796143,
      "learning_rate": 0.00029990129577665695,
      "loss": 4.5816,
      "step": 7520
    },
    {
      "epoch": 0.0156875,
      "grad_norm": 1.5210710763931274,
      "learning_rate": 0.0002999009378681287,
      "loss": 4.6826,
      "step": 7530
    },
    {
      "epoch": 0.015708333333333335,
      "grad_norm": 2.372009515762329,
      "learning_rate": 0.0002999005793120878,
      "loss": 4.4457,
      "step": 7540
    },
    {
      "epoch": 0.015729166666666666,
      "grad_norm": 1.6792103052139282,
      "learning_rate": 0.0002999002201085357,
      "loss": 4.5816,
      "step": 7550
    },
    {
      "epoch": 0.01575,
      "grad_norm": 1.8811019659042358,
      "learning_rate": 0.000299899860257474,
      "loss": 4.534,
      "step": 7560
    },
    {
      "epoch": 0.015770833333333335,
      "grad_norm": 1.8396334648132324,
      "learning_rate": 0.0002998994997589042,
      "loss": 4.6035,
      "step": 7570
    },
    {
      "epoch": 0.015791666666666666,
      "grad_norm": 1.557248830795288,
      "learning_rate": 0.00029989913861282793,
      "loss": 4.6468,
      "step": 7580
    },
    {
      "epoch": 0.0158125,
      "grad_norm": 1.60796320438385,
      "learning_rate": 0.0002998987768192467,
      "loss": 4.6443,
      "step": 7590
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 1.5110317468643188,
      "learning_rate": 0.0002998984143781621,
      "loss": 4.4824,
      "step": 7600
    },
    {
      "epoch": 0.015854166666666666,
      "grad_norm": 1.6289390325546265,
      "learning_rate": 0.0002998980512895756,
      "loss": 4.5791,
      "step": 7610
    },
    {
      "epoch": 0.015875,
      "grad_norm": 1.7205893993377686,
      "learning_rate": 0.00029989768755348895,
      "loss": 4.7077,
      "step": 7620
    },
    {
      "epoch": 0.015895833333333335,
      "grad_norm": 1.6309586763381958,
      "learning_rate": 0.0002998973231699036,
      "loss": 4.5114,
      "step": 7630
    },
    {
      "epoch": 0.015916666666666666,
      "grad_norm": 1.6682499647140503,
      "learning_rate": 0.0002998969581388211,
      "loss": 4.6229,
      "step": 7640
    },
    {
      "epoch": 0.0159375,
      "grad_norm": 1.769347906112671,
      "learning_rate": 0.00029989659246024315,
      "loss": 4.5047,
      "step": 7650
    },
    {
      "epoch": 0.015958333333333335,
      "grad_norm": 1.6362088918685913,
      "learning_rate": 0.0002998962261341712,
      "loss": 4.5836,
      "step": 7660
    },
    {
      "epoch": 0.015979166666666666,
      "grad_norm": 1.5255850553512573,
      "learning_rate": 0.0002998958591606069,
      "loss": 4.556,
      "step": 7670
    },
    {
      "epoch": 0.016,
      "grad_norm": 2.0020949840545654,
      "learning_rate": 0.0002998954915395519,
      "loss": 4.6949,
      "step": 7680
    },
    {
      "epoch": 0.016020833333333335,
      "grad_norm": 1.6101588010787964,
      "learning_rate": 0.0002998951232710076,
      "loss": 4.346,
      "step": 7690
    },
    {
      "epoch": 0.016041666666666666,
      "grad_norm": 1.7547807693481445,
      "learning_rate": 0.0002998947543549757,
      "loss": 4.545,
      "step": 7700
    },
    {
      "epoch": 0.0160625,
      "grad_norm": 1.7679572105407715,
      "learning_rate": 0.00029989438479145785,
      "loss": 4.5707,
      "step": 7710
    },
    {
      "epoch": 0.016083333333333335,
      "grad_norm": 1.406898856163025,
      "learning_rate": 0.0002998940145804556,
      "loss": 4.5881,
      "step": 7720
    },
    {
      "epoch": 0.016104166666666666,
      "grad_norm": 1.441040277481079,
      "learning_rate": 0.0002998936437219705,
      "loss": 4.5316,
      "step": 7730
    },
    {
      "epoch": 0.016125,
      "grad_norm": 1.6654303073883057,
      "learning_rate": 0.0002998932722160042,
      "loss": 4.5215,
      "step": 7740
    },
    {
      "epoch": 0.016145833333333335,
      "grad_norm": 1.7646359205245972,
      "learning_rate": 0.0002998929000625583,
      "loss": 4.5403,
      "step": 7750
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 1.8489084243774414,
      "learning_rate": 0.0002998925272616344,
      "loss": 4.5833,
      "step": 7760
    },
    {
      "epoch": 0.0161875,
      "grad_norm": 1.5471532344818115,
      "learning_rate": 0.00029989215381323413,
      "loss": 4.4691,
      "step": 7770
    },
    {
      "epoch": 0.016208333333333335,
      "grad_norm": 1.630629062652588,
      "learning_rate": 0.0002998917797173591,
      "loss": 4.3845,
      "step": 7780
    },
    {
      "epoch": 0.016229166666666666,
      "grad_norm": 1.6103514432907104,
      "learning_rate": 0.00029989140497401086,
      "loss": 4.595,
      "step": 7790
    },
    {
      "epoch": 0.01625,
      "grad_norm": 1.4607750177383423,
      "learning_rate": 0.0002998910295831911,
      "loss": 4.7252,
      "step": 7800
    },
    {
      "epoch": 0.016270833333333335,
      "grad_norm": 1.7061089277267456,
      "learning_rate": 0.00029989065354490144,
      "loss": 4.6087,
      "step": 7810
    },
    {
      "epoch": 0.016291666666666666,
      "grad_norm": 1.5422239303588867,
      "learning_rate": 0.00029989027685914344,
      "loss": 4.5039,
      "step": 7820
    },
    {
      "epoch": 0.0163125,
      "grad_norm": 1.5121514797210693,
      "learning_rate": 0.0002998898995259188,
      "loss": 4.5148,
      "step": 7830
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 1.5304101705551147,
      "learning_rate": 0.00029988952154522917,
      "loss": 4.3755,
      "step": 7840
    },
    {
      "epoch": 0.016354166666666666,
      "grad_norm": 1.7448559999465942,
      "learning_rate": 0.0002998891429170761,
      "loss": 4.6045,
      "step": 7850
    },
    {
      "epoch": 0.016375,
      "grad_norm": 1.6875749826431274,
      "learning_rate": 0.00029988876364146126,
      "loss": 4.4713,
      "step": 7860
    },
    {
      "epoch": 0.01639583333333333,
      "grad_norm": 1.6121026277542114,
      "learning_rate": 0.00029988838371838633,
      "loss": 4.5021,
      "step": 7870
    },
    {
      "epoch": 0.016416666666666666,
      "grad_norm": 2.133589506149292,
      "learning_rate": 0.0002998880031478528,
      "loss": 4.3038,
      "step": 7880
    },
    {
      "epoch": 0.0164375,
      "grad_norm": 1.670841097831726,
      "learning_rate": 0.0002998876219298625,
      "loss": 4.5309,
      "step": 7890
    },
    {
      "epoch": 0.016458333333333332,
      "grad_norm": 1.6555126905441284,
      "learning_rate": 0.00029988724006441706,
      "loss": 4.7578,
      "step": 7900
    },
    {
      "epoch": 0.016479166666666666,
      "grad_norm": 1.9825767278671265,
      "learning_rate": 0.00029988685755151805,
      "loss": 4.5611,
      "step": 7910
    },
    {
      "epoch": 0.0165,
      "grad_norm": 1.6744407415390015,
      "learning_rate": 0.00029988647439116705,
      "loss": 4.5143,
      "step": 7920
    },
    {
      "epoch": 0.016520833333333332,
      "grad_norm": 1.551903247833252,
      "learning_rate": 0.0002998860905833659,
      "loss": 4.8018,
      "step": 7930
    },
    {
      "epoch": 0.016541666666666666,
      "grad_norm": 1.588118076324463,
      "learning_rate": 0.0002998857061281161,
      "loss": 4.565,
      "step": 7940
    },
    {
      "epoch": 0.0165625,
      "grad_norm": 1.580694317817688,
      "learning_rate": 0.00029988532102541947,
      "loss": 4.7013,
      "step": 7950
    },
    {
      "epoch": 0.016583333333333332,
      "grad_norm": 1.7493711709976196,
      "learning_rate": 0.0002998849352752775,
      "loss": 4.3535,
      "step": 7960
    },
    {
      "epoch": 0.016604166666666666,
      "grad_norm": 1.601949691772461,
      "learning_rate": 0.000299884548877692,
      "loss": 4.4825,
      "step": 7970
    },
    {
      "epoch": 0.016625,
      "grad_norm": 1.7439861297607422,
      "learning_rate": 0.00029988416183266456,
      "loss": 4.5521,
      "step": 7980
    },
    {
      "epoch": 0.016645833333333332,
      "grad_norm": 1.7477623224258423,
      "learning_rate": 0.00029988377414019685,
      "loss": 4.7094,
      "step": 7990
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 1.4698903560638428,
      "learning_rate": 0.00029988338580029056,
      "loss": 4.6039,
      "step": 8000
    },
    {
      "epoch": 0.016666666666666666,
      "eval_loss": 4.258225917816162,
      "eval_runtime": 7.3106,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 8000
    },
    {
      "epoch": 0.0166875,
      "grad_norm": 1.5234676599502563,
      "learning_rate": 0.0002998829968129474,
      "loss": 4.5257,
      "step": 8010
    },
    {
      "epoch": 0.016708333333333332,
      "grad_norm": 1.5489355325698853,
      "learning_rate": 0.00029988260717816903,
      "loss": 4.4428,
      "step": 8020
    },
    {
      "epoch": 0.016729166666666666,
      "grad_norm": 1.7714189291000366,
      "learning_rate": 0.00029988221689595705,
      "loss": 4.441,
      "step": 8030
    },
    {
      "epoch": 0.01675,
      "grad_norm": 1.8129026889801025,
      "learning_rate": 0.00029988182596631325,
      "loss": 4.6508,
      "step": 8040
    },
    {
      "epoch": 0.016770833333333332,
      "grad_norm": 1.5347944498062134,
      "learning_rate": 0.00029988143438923937,
      "loss": 4.6201,
      "step": 8050
    },
    {
      "epoch": 0.016791666666666667,
      "grad_norm": 1.6734461784362793,
      "learning_rate": 0.000299881042164737,
      "loss": 4.5592,
      "step": 8060
    },
    {
      "epoch": 0.0168125,
      "grad_norm": 1.5387099981307983,
      "learning_rate": 0.00029988064929280776,
      "loss": 4.6801,
      "step": 8070
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 1.6834598779678345,
      "learning_rate": 0.00029988025577345345,
      "loss": 4.5106,
      "step": 8080
    },
    {
      "epoch": 0.016854166666666667,
      "grad_norm": 1.5010924339294434,
      "learning_rate": 0.00029987986160667584,
      "loss": 4.4398,
      "step": 8090
    },
    {
      "epoch": 0.016875,
      "grad_norm": 1.701898217201233,
      "learning_rate": 0.00029987946679247655,
      "loss": 4.6757,
      "step": 8100
    },
    {
      "epoch": 0.016895833333333332,
      "grad_norm": 1.5452719926834106,
      "learning_rate": 0.00029987907133085726,
      "loss": 4.3361,
      "step": 8110
    },
    {
      "epoch": 0.016916666666666667,
      "grad_norm": 1.593867301940918,
      "learning_rate": 0.0002998786752218197,
      "loss": 4.3908,
      "step": 8120
    },
    {
      "epoch": 0.0169375,
      "grad_norm": 1.3860251903533936,
      "learning_rate": 0.0002998782784653656,
      "loss": 4.5299,
      "step": 8130
    },
    {
      "epoch": 0.016958333333333332,
      "grad_norm": 1.7700490951538086,
      "learning_rate": 0.00029987788106149664,
      "loss": 4.4589,
      "step": 8140
    },
    {
      "epoch": 0.016979166666666667,
      "grad_norm": 1.6126387119293213,
      "learning_rate": 0.0002998774830102146,
      "loss": 4.5045,
      "step": 8150
    },
    {
      "epoch": 0.017,
      "grad_norm": 1.6459680795669556,
      "learning_rate": 0.00029987708431152113,
      "loss": 4.5246,
      "step": 8160
    },
    {
      "epoch": 0.017020833333333332,
      "grad_norm": 1.613340973854065,
      "learning_rate": 0.000299876684965418,
      "loss": 4.4891,
      "step": 8170
    },
    {
      "epoch": 0.017041666666666667,
      "grad_norm": 1.596698522567749,
      "learning_rate": 0.0002998762849719069,
      "loss": 4.4546,
      "step": 8180
    },
    {
      "epoch": 0.0170625,
      "grad_norm": 1.7564796209335327,
      "learning_rate": 0.0002998758843309896,
      "loss": 4.5372,
      "step": 8190
    },
    {
      "epoch": 0.017083333333333332,
      "grad_norm": 1.5265957117080688,
      "learning_rate": 0.0002998754830426678,
      "loss": 4.3537,
      "step": 8200
    },
    {
      "epoch": 0.017104166666666667,
      "grad_norm": 1.6509883403778076,
      "learning_rate": 0.00029987508110694317,
      "loss": 4.4384,
      "step": 8210
    },
    {
      "epoch": 0.017125,
      "grad_norm": 1.5105656385421753,
      "learning_rate": 0.00029987467852381764,
      "loss": 4.3767,
      "step": 8220
    },
    {
      "epoch": 0.017145833333333332,
      "grad_norm": 1.5356494188308716,
      "learning_rate": 0.0002998742752932927,
      "loss": 4.5853,
      "step": 8230
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 1.710846185684204,
      "learning_rate": 0.0002998738714153703,
      "loss": 4.7518,
      "step": 8240
    },
    {
      "epoch": 0.0171875,
      "grad_norm": 1.5390743017196655,
      "learning_rate": 0.00029987346689005204,
      "loss": 4.4863,
      "step": 8250
    },
    {
      "epoch": 0.017208333333333332,
      "grad_norm": 1.5074803829193115,
      "learning_rate": 0.00029987306171733977,
      "loss": 4.6099,
      "step": 8260
    },
    {
      "epoch": 0.017229166666666667,
      "grad_norm": 1.5088932514190674,
      "learning_rate": 0.0002998726558972352,
      "loss": 4.4341,
      "step": 8270
    },
    {
      "epoch": 0.01725,
      "grad_norm": 1.3983368873596191,
      "learning_rate": 0.00029987224942974006,
      "loss": 4.7398,
      "step": 8280
    },
    {
      "epoch": 0.017270833333333332,
      "grad_norm": 1.4639183282852173,
      "learning_rate": 0.0002998718423148561,
      "loss": 4.7252,
      "step": 8290
    },
    {
      "epoch": 0.017291666666666667,
      "grad_norm": 1.5617430210113525,
      "learning_rate": 0.00029987143455258516,
      "loss": 4.653,
      "step": 8300
    },
    {
      "epoch": 0.0173125,
      "grad_norm": 1.816887617111206,
      "learning_rate": 0.0002998710261429289,
      "loss": 4.57,
      "step": 8310
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 1.6321210861206055,
      "learning_rate": 0.00029987061708588916,
      "loss": 4.6475,
      "step": 8320
    },
    {
      "epoch": 0.017354166666666667,
      "grad_norm": 1.9194014072418213,
      "learning_rate": 0.00029987020738146767,
      "loss": 4.3501,
      "step": 8330
    },
    {
      "epoch": 0.017375,
      "grad_norm": 1.642738699913025,
      "learning_rate": 0.0002998697970296662,
      "loss": 4.497,
      "step": 8340
    },
    {
      "epoch": 0.017395833333333333,
      "grad_norm": 1.591579556465149,
      "learning_rate": 0.0002998693860304865,
      "loss": 4.5156,
      "step": 8350
    },
    {
      "epoch": 0.017416666666666667,
      "grad_norm": 1.7241630554199219,
      "learning_rate": 0.00029986897438393043,
      "loss": 4.4977,
      "step": 8360
    },
    {
      "epoch": 0.0174375,
      "grad_norm": 1.6791541576385498,
      "learning_rate": 0.0002998685620899997,
      "loss": 4.3494,
      "step": 8370
    },
    {
      "epoch": 0.017458333333333333,
      "grad_norm": 1.5723501443862915,
      "learning_rate": 0.0002998681491486961,
      "loss": 4.363,
      "step": 8380
    },
    {
      "epoch": 0.017479166666666667,
      "grad_norm": 1.6245486736297607,
      "learning_rate": 0.0002998677355600214,
      "loss": 4.5499,
      "step": 8390
    },
    {
      "epoch": 0.0175,
      "grad_norm": 1.5565109252929688,
      "learning_rate": 0.0002998673213239774,
      "loss": 4.6288,
      "step": 8400
    },
    {
      "epoch": 0.017520833333333333,
      "grad_norm": 1.6789277791976929,
      "learning_rate": 0.0002998669064405659,
      "loss": 4.3451,
      "step": 8410
    },
    {
      "epoch": 0.017541666666666667,
      "grad_norm": 1.4922070503234863,
      "learning_rate": 0.0002998664909097887,
      "loss": 4.5316,
      "step": 8420
    },
    {
      "epoch": 0.0175625,
      "grad_norm": 1.4715524911880493,
      "learning_rate": 0.0002998660747316476,
      "loss": 4.462,
      "step": 8430
    },
    {
      "epoch": 0.017583333333333333,
      "grad_norm": 1.5738581418991089,
      "learning_rate": 0.00029986565790614435,
      "loss": 4.6821,
      "step": 8440
    },
    {
      "epoch": 0.017604166666666667,
      "grad_norm": 1.41326105594635,
      "learning_rate": 0.0002998652404332808,
      "loss": 4.4287,
      "step": 8450
    },
    {
      "epoch": 0.017625,
      "grad_norm": 1.586006760597229,
      "learning_rate": 0.0002998648223130587,
      "loss": 4.6689,
      "step": 8460
    },
    {
      "epoch": 0.017645833333333333,
      "grad_norm": 1.4626508951187134,
      "learning_rate": 0.0002998644035454799,
      "loss": 4.4486,
      "step": 8470
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 1.6373370885849,
      "learning_rate": 0.0002998639841305462,
      "loss": 4.6037,
      "step": 8480
    },
    {
      "epoch": 0.0176875,
      "grad_norm": 1.3254393339157104,
      "learning_rate": 0.0002998635640682594,
      "loss": 4.5999,
      "step": 8490
    },
    {
      "epoch": 0.017708333333333333,
      "grad_norm": 1.472373604774475,
      "learning_rate": 0.00029986314335862135,
      "loss": 4.7522,
      "step": 8500
    },
    {
      "epoch": 0.017729166666666667,
      "grad_norm": 1.4549247026443481,
      "learning_rate": 0.0002998627220016338,
      "loss": 4.6637,
      "step": 8510
    },
    {
      "epoch": 0.01775,
      "grad_norm": 1.5155181884765625,
      "learning_rate": 0.0002998622999972987,
      "loss": 4.6841,
      "step": 8520
    },
    {
      "epoch": 0.017770833333333333,
      "grad_norm": 1.7330279350280762,
      "learning_rate": 0.00029986187734561766,
      "loss": 4.4963,
      "step": 8530
    },
    {
      "epoch": 0.017791666666666667,
      "grad_norm": 1.7434836626052856,
      "learning_rate": 0.0002998614540465927,
      "loss": 4.45,
      "step": 8540
    },
    {
      "epoch": 0.0178125,
      "grad_norm": 1.8711789846420288,
      "learning_rate": 0.0002998610301002256,
      "loss": 4.6995,
      "step": 8550
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 1.3743016719818115,
      "learning_rate": 0.0002998606055065181,
      "loss": 4.4104,
      "step": 8560
    },
    {
      "epoch": 0.017854166666666667,
      "grad_norm": 1.6506664752960205,
      "learning_rate": 0.00029986018026547214,
      "loss": 4.5236,
      "step": 8570
    },
    {
      "epoch": 0.017875,
      "grad_norm": 1.9488072395324707,
      "learning_rate": 0.0002998597543770895,
      "loss": 4.5095,
      "step": 8580
    },
    {
      "epoch": 0.017895833333333333,
      "grad_norm": 1.577695608139038,
      "learning_rate": 0.0002998593278413721,
      "loss": 4.2518,
      "step": 8590
    },
    {
      "epoch": 0.017916666666666668,
      "grad_norm": 1.5612846612930298,
      "learning_rate": 0.00029985890065832165,
      "loss": 4.5881,
      "step": 8600
    },
    {
      "epoch": 0.0179375,
      "grad_norm": 1.5550800561904907,
      "learning_rate": 0.0002998584728279401,
      "loss": 4.2573,
      "step": 8610
    },
    {
      "epoch": 0.017958333333333333,
      "grad_norm": 1.4526644945144653,
      "learning_rate": 0.0002998580443502293,
      "loss": 4.4211,
      "step": 8620
    },
    {
      "epoch": 0.017979166666666668,
      "grad_norm": 1.4840829372406006,
      "learning_rate": 0.00029985761522519094,
      "loss": 4.5554,
      "step": 8630
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.8809486627578735,
      "learning_rate": 0.00029985718545282714,
      "loss": 4.5236,
      "step": 8640
    },
    {
      "epoch": 0.018020833333333333,
      "grad_norm": 1.6056928634643555,
      "learning_rate": 0.00029985675503313956,
      "loss": 4.4921,
      "step": 8650
    },
    {
      "epoch": 0.018041666666666668,
      "grad_norm": 1.511771321296692,
      "learning_rate": 0.0002998563239661301,
      "loss": 4.483,
      "step": 8660
    },
    {
      "epoch": 0.0180625,
      "grad_norm": 1.4905940294265747,
      "learning_rate": 0.0002998558922518007,
      "loss": 4.2914,
      "step": 8670
    },
    {
      "epoch": 0.018083333333333333,
      "grad_norm": 1.3526586294174194,
      "learning_rate": 0.0002998554598901531,
      "loss": 4.4425,
      "step": 8680
    },
    {
      "epoch": 0.018104166666666668,
      "grad_norm": 1.401474952697754,
      "learning_rate": 0.00029985502688118925,
      "loss": 4.4854,
      "step": 8690
    },
    {
      "epoch": 0.018125,
      "grad_norm": 1.42372727394104,
      "learning_rate": 0.000299854593224911,
      "loss": 4.5205,
      "step": 8700
    },
    {
      "epoch": 0.018145833333333333,
      "grad_norm": 1.5310355424880981,
      "learning_rate": 0.00029985415892132023,
      "loss": 4.4587,
      "step": 8710
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 1.5029640197753906,
      "learning_rate": 0.0002998537239704188,
      "loss": 4.6737,
      "step": 8720
    },
    {
      "epoch": 0.0181875,
      "grad_norm": 1.3767125606536865,
      "learning_rate": 0.0002998532883722086,
      "loss": 4.5652,
      "step": 8730
    },
    {
      "epoch": 0.018208333333333333,
      "grad_norm": 1.3933689594268799,
      "learning_rate": 0.0002998528521266915,
      "loss": 4.3465,
      "step": 8740
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 1.665571689605713,
      "learning_rate": 0.0002998524152338694,
      "loss": 4.4849,
      "step": 8750
    },
    {
      "epoch": 0.01825,
      "grad_norm": 1.476885437965393,
      "learning_rate": 0.00029985197769374423,
      "loss": 4.6783,
      "step": 8760
    },
    {
      "epoch": 0.018270833333333333,
      "grad_norm": 1.6219263076782227,
      "learning_rate": 0.0002998515395063177,
      "loss": 4.5516,
      "step": 8770
    },
    {
      "epoch": 0.018291666666666668,
      "grad_norm": 1.5174368619918823,
      "learning_rate": 0.000299851100671592,
      "loss": 4.4635,
      "step": 8780
    },
    {
      "epoch": 0.0183125,
      "grad_norm": 1.3965137004852295,
      "learning_rate": 0.0002998506611895688,
      "loss": 4.5526,
      "step": 8790
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.524012565612793,
      "learning_rate": 0.00029985022106025,
      "loss": 4.5737,
      "step": 8800
    },
    {
      "epoch": 0.018354166666666668,
      "grad_norm": 1.4400150775909424,
      "learning_rate": 0.0002998497802836376,
      "loss": 4.492,
      "step": 8810
    },
    {
      "epoch": 0.018375,
      "grad_norm": 1.4764918088912964,
      "learning_rate": 0.00029984933885973355,
      "loss": 4.5017,
      "step": 8820
    },
    {
      "epoch": 0.018395833333333333,
      "grad_norm": 1.4209271669387817,
      "learning_rate": 0.00029984889678853955,
      "loss": 4.6308,
      "step": 8830
    },
    {
      "epoch": 0.018416666666666668,
      "grad_norm": 1.8364061117172241,
      "learning_rate": 0.00029984845407005767,
      "loss": 4.3544,
      "step": 8840
    },
    {
      "epoch": 0.0184375,
      "grad_norm": 1.7293081283569336,
      "learning_rate": 0.00029984801070428974,
      "loss": 4.4027,
      "step": 8850
    },
    {
      "epoch": 0.018458333333333334,
      "grad_norm": 1.5196388959884644,
      "learning_rate": 0.00029984756669123783,
      "loss": 4.5602,
      "step": 8860
    },
    {
      "epoch": 0.018479166666666668,
      "grad_norm": 1.647445559501648,
      "learning_rate": 0.00029984712203090367,
      "loss": 4.6565,
      "step": 8870
    },
    {
      "epoch": 0.0185,
      "grad_norm": 1.4277700185775757,
      "learning_rate": 0.0002998466767232892,
      "loss": 4.3517,
      "step": 8880
    },
    {
      "epoch": 0.018520833333333334,
      "grad_norm": 1.751023769378662,
      "learning_rate": 0.0002998462307683965,
      "loss": 4.7006,
      "step": 8890
    },
    {
      "epoch": 0.018541666666666668,
      "grad_norm": 1.4517592191696167,
      "learning_rate": 0.00029984578416622737,
      "loss": 4.5086,
      "step": 8900
    },
    {
      "epoch": 0.0185625,
      "grad_norm": 1.7684165239334106,
      "learning_rate": 0.0002998453369167838,
      "loss": 4.4851,
      "step": 8910
    },
    {
      "epoch": 0.018583333333333334,
      "grad_norm": 1.3902877569198608,
      "learning_rate": 0.0002998448890200676,
      "loss": 4.5835,
      "step": 8920
    },
    {
      "epoch": 0.018604166666666668,
      "grad_norm": 5.411523818969727,
      "learning_rate": 0.0002998444404760808,
      "loss": 4.3757,
      "step": 8930
    },
    {
      "epoch": 0.018625,
      "grad_norm": 1.702921986579895,
      "learning_rate": 0.0002998439912848254,
      "loss": 4.5359,
      "step": 8940
    },
    {
      "epoch": 0.018645833333333334,
      "grad_norm": 1.8582403659820557,
      "learning_rate": 0.0002998435414463032,
      "loss": 4.571,
      "step": 8950
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.4538702964782715,
      "learning_rate": 0.00029984309096051624,
      "loss": 4.5839,
      "step": 8960
    },
    {
      "epoch": 0.0186875,
      "grad_norm": 1.55698823928833,
      "learning_rate": 0.0002998426398274665,
      "loss": 4.4609,
      "step": 8970
    },
    {
      "epoch": 0.018708333333333334,
      "grad_norm": 1.4836549758911133,
      "learning_rate": 0.0002998421880471558,
      "loss": 4.6612,
      "step": 8980
    },
    {
      "epoch": 0.01872916666666667,
      "grad_norm": 1.4820512533187866,
      "learning_rate": 0.00029984173561958615,
      "loss": 4.4143,
      "step": 8990
    },
    {
      "epoch": 0.01875,
      "grad_norm": 1.484844446182251,
      "learning_rate": 0.0002998412825447595,
      "loss": 4.5943,
      "step": 9000
    },
    {
      "epoch": 0.01875,
      "eval_loss": 4.245399475097656,
      "eval_runtime": 7.2698,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 9000
    },
    {
      "epoch": 0.018770833333333334,
      "grad_norm": 1.4234728813171387,
      "learning_rate": 0.00029984082882267786,
      "loss": 4.3454,
      "step": 9010
    },
    {
      "epoch": 0.01879166666666667,
      "grad_norm": 1.576370358467102,
      "learning_rate": 0.00029984037445334317,
      "loss": 4.6544,
      "step": 9020
    },
    {
      "epoch": 0.0188125,
      "grad_norm": 1.4150755405426025,
      "learning_rate": 0.0002998399194367574,
      "loss": 4.5563,
      "step": 9030
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 1.6939258575439453,
      "learning_rate": 0.0002998394637729224,
      "loss": 4.5585,
      "step": 9040
    },
    {
      "epoch": 0.01885416666666667,
      "grad_norm": 1.5716959238052368,
      "learning_rate": 0.00029983900746184027,
      "loss": 4.4191,
      "step": 9050
    },
    {
      "epoch": 0.018875,
      "grad_norm": 1.6368725299835205,
      "learning_rate": 0.00029983855050351297,
      "loss": 4.5762,
      "step": 9060
    },
    {
      "epoch": 0.018895833333333334,
      "grad_norm": 1.4968342781066895,
      "learning_rate": 0.0002998380928979424,
      "loss": 4.4986,
      "step": 9070
    },
    {
      "epoch": 0.018916666666666665,
      "grad_norm": 1.5928698778152466,
      "learning_rate": 0.00029983763464513057,
      "loss": 4.3192,
      "step": 9080
    },
    {
      "epoch": 0.0189375,
      "grad_norm": 1.453258752822876,
      "learning_rate": 0.00029983717574507947,
      "loss": 4.5515,
      "step": 9090
    },
    {
      "epoch": 0.018958333333333334,
      "grad_norm": 1.5227662324905396,
      "learning_rate": 0.0002998367161977911,
      "loss": 4.514,
      "step": 9100
    },
    {
      "epoch": 0.018979166666666665,
      "grad_norm": 1.5648900270462036,
      "learning_rate": 0.0002998362560032674,
      "loss": 4.625,
      "step": 9110
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.815232515335083,
      "learning_rate": 0.00029983579516151045,
      "loss": 4.5842,
      "step": 9120
    },
    {
      "epoch": 0.019020833333333334,
      "grad_norm": 1.6579138040542603,
      "learning_rate": 0.0002998353336725221,
      "loss": 4.5053,
      "step": 9130
    },
    {
      "epoch": 0.019041666666666665,
      "grad_norm": 1.3359026908874512,
      "learning_rate": 0.00029983487153630446,
      "loss": 4.429,
      "step": 9140
    },
    {
      "epoch": 0.0190625,
      "grad_norm": 1.4765799045562744,
      "learning_rate": 0.00029983440875285943,
      "loss": 4.4404,
      "step": 9150
    },
    {
      "epoch": 0.019083333333333334,
      "grad_norm": 1.4123939275741577,
      "learning_rate": 0.0002998339453221891,
      "loss": 4.4606,
      "step": 9160
    },
    {
      "epoch": 0.019104166666666665,
      "grad_norm": 1.6416432857513428,
      "learning_rate": 0.0002998334812442955,
      "loss": 4.4171,
      "step": 9170
    },
    {
      "epoch": 0.019125,
      "grad_norm": 1.3226823806762695,
      "learning_rate": 0.00029983301651918045,
      "loss": 4.555,
      "step": 9180
    },
    {
      "epoch": 0.019145833333333334,
      "grad_norm": 1.6177080869674683,
      "learning_rate": 0.0002998325511468462,
      "loss": 4.3771,
      "step": 9190
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 1.672072172164917,
      "learning_rate": 0.0002998320851272945,
      "loss": 4.6366,
      "step": 9200
    },
    {
      "epoch": 0.0191875,
      "grad_norm": 1.560390591621399,
      "learning_rate": 0.0002998316184605276,
      "loss": 4.3092,
      "step": 9210
    },
    {
      "epoch": 0.019208333333333334,
      "grad_norm": 1.5642778873443604,
      "learning_rate": 0.0002998311511465474,
      "loss": 4.5944,
      "step": 9220
    },
    {
      "epoch": 0.019229166666666665,
      "grad_norm": 1.5361634492874146,
      "learning_rate": 0.0002998306831853559,
      "loss": 4.5277,
      "step": 9230
    },
    {
      "epoch": 0.01925,
      "grad_norm": 1.654390573501587,
      "learning_rate": 0.00029983021457695517,
      "loss": 4.5785,
      "step": 9240
    },
    {
      "epoch": 0.019270833333333334,
      "grad_norm": 1.5140780210494995,
      "learning_rate": 0.0002998297453213472,
      "loss": 4.4876,
      "step": 9250
    },
    {
      "epoch": 0.019291666666666665,
      "grad_norm": 1.4505112171173096,
      "learning_rate": 0.0002998292754185341,
      "loss": 4.6846,
      "step": 9260
    },
    {
      "epoch": 0.0193125,
      "grad_norm": 1.4668712615966797,
      "learning_rate": 0.0002998288048685178,
      "loss": 4.5053,
      "step": 9270
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 1.4515141248703003,
      "learning_rate": 0.00029982833367130036,
      "loss": 4.4977,
      "step": 9280
    },
    {
      "epoch": 0.019354166666666665,
      "grad_norm": 1.4675971269607544,
      "learning_rate": 0.00029982786182688385,
      "loss": 4.5187,
      "step": 9290
    },
    {
      "epoch": 0.019375,
      "grad_norm": 1.5672998428344727,
      "learning_rate": 0.00029982738933527026,
      "loss": 4.4916,
      "step": 9300
    },
    {
      "epoch": 0.019395833333333334,
      "grad_norm": 1.4234833717346191,
      "learning_rate": 0.0002998269161964617,
      "loss": 4.5641,
      "step": 9310
    },
    {
      "epoch": 0.019416666666666665,
      "grad_norm": 1.4077231884002686,
      "learning_rate": 0.00029982644241046004,
      "loss": 4.3494,
      "step": 9320
    },
    {
      "epoch": 0.0194375,
      "grad_norm": 1.4651756286621094,
      "learning_rate": 0.00029982596797726755,
      "loss": 4.5319,
      "step": 9330
    },
    {
      "epoch": 0.019458333333333334,
      "grad_norm": 1.6238594055175781,
      "learning_rate": 0.0002998254928968862,
      "loss": 4.622,
      "step": 9340
    },
    {
      "epoch": 0.019479166666666665,
      "grad_norm": 1.632447361946106,
      "learning_rate": 0.000299825017169318,
      "loss": 4.4093,
      "step": 9350
    },
    {
      "epoch": 0.0195,
      "grad_norm": 1.8377765417099,
      "learning_rate": 0.000299824540794565,
      "loss": 4.3679,
      "step": 9360
    },
    {
      "epoch": 0.019520833333333334,
      "grad_norm": 1.3901159763336182,
      "learning_rate": 0.00029982406377262934,
      "loss": 4.6888,
      "step": 9370
    },
    {
      "epoch": 0.019541666666666666,
      "grad_norm": 1.377830147743225,
      "learning_rate": 0.000299823586103513,
      "loss": 4.5814,
      "step": 9380
    },
    {
      "epoch": 0.0195625,
      "grad_norm": 1.388564944267273,
      "learning_rate": 0.0002998231077872181,
      "loss": 4.5593,
      "step": 9390
    },
    {
      "epoch": 0.019583333333333335,
      "grad_norm": 1.654648780822754,
      "learning_rate": 0.00029982262882374664,
      "loss": 4.519,
      "step": 9400
    },
    {
      "epoch": 0.019604166666666666,
      "grad_norm": 1.45375657081604,
      "learning_rate": 0.00029982214921310074,
      "loss": 4.5663,
      "step": 9410
    },
    {
      "epoch": 0.019625,
      "grad_norm": 1.4529832601547241,
      "learning_rate": 0.0002998216689552825,
      "loss": 4.4427,
      "step": 9420
    },
    {
      "epoch": 0.019645833333333335,
      "grad_norm": 1.5830522775650024,
      "learning_rate": 0.0002998211880502939,
      "loss": 4.5785,
      "step": 9430
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.3074651956558228,
      "learning_rate": 0.00029982070649813713,
      "loss": 4.4838,
      "step": 9440
    },
    {
      "epoch": 0.0196875,
      "grad_norm": 1.4656428098678589,
      "learning_rate": 0.0002998202242988141,
      "loss": 4.4596,
      "step": 9450
    },
    {
      "epoch": 0.019708333333333335,
      "grad_norm": 2.2488210201263428,
      "learning_rate": 0.0002998197414523271,
      "loss": 4.3508,
      "step": 9460
    },
    {
      "epoch": 0.019729166666666666,
      "grad_norm": 1.3972091674804688,
      "learning_rate": 0.0002998192579586781,
      "loss": 4.4425,
      "step": 9470
    },
    {
      "epoch": 0.01975,
      "grad_norm": 1.4719213247299194,
      "learning_rate": 0.00029981877381786925,
      "loss": 4.3214,
      "step": 9480
    },
    {
      "epoch": 0.019770833333333335,
      "grad_norm": 1.4995723962783813,
      "learning_rate": 0.00029981828902990253,
      "loss": 4.4809,
      "step": 9490
    },
    {
      "epoch": 0.019791666666666666,
      "grad_norm": 1.4162664413452148,
      "learning_rate": 0.0002998178035947801,
      "loss": 4.4941,
      "step": 9500
    },
    {
      "epoch": 0.0198125,
      "grad_norm": 1.5184212923049927,
      "learning_rate": 0.0002998173175125041,
      "loss": 4.5341,
      "step": 9510
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 1.4049586057662964,
      "learning_rate": 0.00029981683078307656,
      "loss": 4.5046,
      "step": 9520
    },
    {
      "epoch": 0.019854166666666666,
      "grad_norm": 1.350757122039795,
      "learning_rate": 0.00029981634340649964,
      "loss": 4.5976,
      "step": 9530
    },
    {
      "epoch": 0.019875,
      "grad_norm": 1.4648033380508423,
      "learning_rate": 0.0002998158553827754,
      "loss": 4.4033,
      "step": 9540
    },
    {
      "epoch": 0.019895833333333335,
      "grad_norm": 1.409317970275879,
      "learning_rate": 0.000299815366711906,
      "loss": 4.5632,
      "step": 9550
    },
    {
      "epoch": 0.019916666666666666,
      "grad_norm": 1.592547059059143,
      "learning_rate": 0.0002998148773938935,
      "loss": 4.4992,
      "step": 9560
    },
    {
      "epoch": 0.0199375,
      "grad_norm": 1.6905585527420044,
      "learning_rate": 0.00029981438742874,
      "loss": 4.3692,
      "step": 9570
    },
    {
      "epoch": 0.019958333333333335,
      "grad_norm": 1.566006064414978,
      "learning_rate": 0.00029981389681644767,
      "loss": 4.5584,
      "step": 9580
    },
    {
      "epoch": 0.019979166666666666,
      "grad_norm": 1.2510781288146973,
      "learning_rate": 0.0002998134055570186,
      "loss": 4.2256,
      "step": 9590
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4739089012145996,
      "learning_rate": 0.0002998129136504549,
      "loss": 4.3977,
      "step": 9600
    },
    {
      "epoch": 0.020020833333333335,
      "grad_norm": 1.4620705842971802,
      "learning_rate": 0.00029981242109675875,
      "loss": 4.3839,
      "step": 9610
    },
    {
      "epoch": 0.020041666666666666,
      "grad_norm": 1.4609490633010864,
      "learning_rate": 0.0002998119278959322,
      "loss": 4.4714,
      "step": 9620
    },
    {
      "epoch": 0.0200625,
      "grad_norm": 1.6868358850479126,
      "learning_rate": 0.0002998114340479775,
      "loss": 4.4905,
      "step": 9630
    },
    {
      "epoch": 0.020083333333333335,
      "grad_norm": 1.5819897651672363,
      "learning_rate": 0.0002998109395528966,
      "loss": 4.5099,
      "step": 9640
    },
    {
      "epoch": 0.020104166666666666,
      "grad_norm": 1.3376529216766357,
      "learning_rate": 0.00029981044441069186,
      "loss": 4.3751,
      "step": 9650
    },
    {
      "epoch": 0.020125,
      "grad_norm": 1.4427456855773926,
      "learning_rate": 0.00029980994862136516,
      "loss": 4.498,
      "step": 9660
    },
    {
      "epoch": 0.020145833333333335,
      "grad_norm": 1.539823293685913,
      "learning_rate": 0.0002998094521849189,
      "loss": 4.5641,
      "step": 9670
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 1.729658842086792,
      "learning_rate": 0.00029980895510135503,
      "loss": 4.5713,
      "step": 9680
    },
    {
      "epoch": 0.0201875,
      "grad_norm": 1.4567530155181885,
      "learning_rate": 0.0002998084573706758,
      "loss": 4.5901,
      "step": 9690
    },
    {
      "epoch": 0.02020833333333333,
      "grad_norm": 1.4292327165603638,
      "learning_rate": 0.00029980795899288334,
      "loss": 4.6343,
      "step": 9700
    },
    {
      "epoch": 0.020229166666666666,
      "grad_norm": 1.436784267425537,
      "learning_rate": 0.0002998074599679798,
      "loss": 4.4099,
      "step": 9710
    },
    {
      "epoch": 0.02025,
      "grad_norm": 1.3214048147201538,
      "learning_rate": 0.0002998069602959673,
      "loss": 4.401,
      "step": 9720
    },
    {
      "epoch": 0.02027083333333333,
      "grad_norm": 1.4638034105300903,
      "learning_rate": 0.00029980645997684807,
      "loss": 4.4024,
      "step": 9730
    },
    {
      "epoch": 0.020291666666666666,
      "grad_norm": 1.4365391731262207,
      "learning_rate": 0.0002998059590106242,
      "loss": 4.5416,
      "step": 9740
    },
    {
      "epoch": 0.0203125,
      "grad_norm": 1.4607340097427368,
      "learning_rate": 0.0002998054573972979,
      "loss": 4.513,
      "step": 9750
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 1.2468645572662354,
      "learning_rate": 0.00029980495513687126,
      "loss": 4.6226,
      "step": 9760
    },
    {
      "epoch": 0.020354166666666666,
      "grad_norm": 1.4476081132888794,
      "learning_rate": 0.0002998044522293466,
      "loss": 4.4123,
      "step": 9770
    },
    {
      "epoch": 0.020375,
      "grad_norm": 1.4741140604019165,
      "learning_rate": 0.000299803948674726,
      "loss": 4.508,
      "step": 9780
    },
    {
      "epoch": 0.020395833333333332,
      "grad_norm": 1.2857065200805664,
      "learning_rate": 0.0002998034444730116,
      "loss": 4.4278,
      "step": 9790
    },
    {
      "epoch": 0.020416666666666666,
      "grad_norm": 1.4971323013305664,
      "learning_rate": 0.0002998029396242056,
      "loss": 4.3469,
      "step": 9800
    },
    {
      "epoch": 0.0204375,
      "grad_norm": 1.4334101676940918,
      "learning_rate": 0.00029980243412831023,
      "loss": 4.4414,
      "step": 9810
    },
    {
      "epoch": 0.020458333333333332,
      "grad_norm": 1.3683226108551025,
      "learning_rate": 0.0002998019279853276,
      "loss": 4.4434,
      "step": 9820
    },
    {
      "epoch": 0.020479166666666666,
      "grad_norm": 1.3434208631515503,
      "learning_rate": 0.00029980142119526,
      "loss": 4.5804,
      "step": 9830
    },
    {
      "epoch": 0.0205,
      "grad_norm": 1.6207586526870728,
      "learning_rate": 0.0002998009137581095,
      "loss": 4.3312,
      "step": 9840
    },
    {
      "epoch": 0.020520833333333332,
      "grad_norm": 1.3306294679641724,
      "learning_rate": 0.0002998004056738784,
      "loss": 4.4675,
      "step": 9850
    },
    {
      "epoch": 0.020541666666666666,
      "grad_norm": 1.6917532682418823,
      "learning_rate": 0.0002997998969425688,
      "loss": 4.5589,
      "step": 9860
    },
    {
      "epoch": 0.0205625,
      "grad_norm": 1.3277949094772339,
      "learning_rate": 0.00029979938756418296,
      "loss": 4.5516,
      "step": 9870
    },
    {
      "epoch": 0.020583333333333332,
      "grad_norm": 1.3842660188674927,
      "learning_rate": 0.00029979887753872305,
      "loss": 4.4128,
      "step": 9880
    },
    {
      "epoch": 0.020604166666666666,
      "grad_norm": 1.5191513299942017,
      "learning_rate": 0.0002997983668661913,
      "loss": 4.5359,
      "step": 9890
    },
    {
      "epoch": 0.020625,
      "grad_norm": 1.445454478263855,
      "learning_rate": 0.0002997978555465899,
      "loss": 4.4583,
      "step": 9900
    },
    {
      "epoch": 0.020645833333333332,
      "grad_norm": 1.438018560409546,
      "learning_rate": 0.000299797343579921,
      "loss": 4.5071,
      "step": 9910
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 1.6038542985916138,
      "learning_rate": 0.0002997968309661869,
      "loss": 4.519,
      "step": 9920
    },
    {
      "epoch": 0.0206875,
      "grad_norm": 1.5368642807006836,
      "learning_rate": 0.00029979631770538984,
      "loss": 4.5905,
      "step": 9930
    },
    {
      "epoch": 0.020708333333333332,
      "grad_norm": 1.4171314239501953,
      "learning_rate": 0.0002997958037975319,
      "loss": 4.376,
      "step": 9940
    },
    {
      "epoch": 0.020729166666666667,
      "grad_norm": 1.4776575565338135,
      "learning_rate": 0.0002997952892426154,
      "loss": 4.5188,
      "step": 9950
    },
    {
      "epoch": 0.02075,
      "grad_norm": 2.3713200092315674,
      "learning_rate": 0.0002997947740406426,
      "loss": 4.1643,
      "step": 9960
    },
    {
      "epoch": 0.020770833333333332,
      "grad_norm": 1.5145361423492432,
      "learning_rate": 0.00029979425819161564,
      "loss": 4.6076,
      "step": 9970
    },
    {
      "epoch": 0.020791666666666667,
      "grad_norm": 1.582953691482544,
      "learning_rate": 0.00029979374169553677,
      "loss": 4.6212,
      "step": 9980
    },
    {
      "epoch": 0.0208125,
      "grad_norm": 1.4100843667984009,
      "learning_rate": 0.0002997932245524082,
      "loss": 4.5609,
      "step": 9990
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 1.491456389427185,
      "learning_rate": 0.00029979270676223224,
      "loss": 4.3709,
      "step": 10000
    },
    {
      "epoch": 0.020833333333333332,
      "eval_loss": 4.199437141418457,
      "eval_runtime": 7.2887,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.412,
      "step": 10000
    },
    {
      "epoch": 0.020854166666666667,
      "grad_norm": 1.315453052520752,
      "learning_rate": 0.0002997921883250111,
      "loss": 4.419,
      "step": 10010
    },
    {
      "epoch": 0.020875,
      "grad_norm": 1.5291799306869507,
      "learning_rate": 0.0002997916692407469,
      "loss": 4.4952,
      "step": 10020
    },
    {
      "epoch": 0.020895833333333332,
      "grad_norm": 1.4500510692596436,
      "learning_rate": 0.0002997911495094421,
      "loss": 4.4117,
      "step": 10030
    },
    {
      "epoch": 0.020916666666666667,
      "grad_norm": 1.5259491205215454,
      "learning_rate": 0.0002997906291310987,
      "loss": 4.5706,
      "step": 10040
    },
    {
      "epoch": 0.0209375,
      "grad_norm": 1.4339942932128906,
      "learning_rate": 0.0002997901081057192,
      "loss": 4.6113,
      "step": 10050
    },
    {
      "epoch": 0.020958333333333332,
      "grad_norm": 1.811784267425537,
      "learning_rate": 0.00029978958643330563,
      "loss": 4.4792,
      "step": 10060
    },
    {
      "epoch": 0.020979166666666667,
      "grad_norm": 1.5204286575317383,
      "learning_rate": 0.00029978906411386034,
      "loss": 4.3991,
      "step": 10070
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.4935702085494995,
      "learning_rate": 0.00029978854114738563,
      "loss": 4.3677,
      "step": 10080
    },
    {
      "epoch": 0.021020833333333332,
      "grad_norm": 1.4401435852050781,
      "learning_rate": 0.0002997880175338837,
      "loss": 4.4745,
      "step": 10090
    },
    {
      "epoch": 0.021041666666666667,
      "grad_norm": 2.0059046745300293,
      "learning_rate": 0.0002997874932733568,
      "loss": 4.5632,
      "step": 10100
    },
    {
      "epoch": 0.0210625,
      "grad_norm": 1.546924352645874,
      "learning_rate": 0.00029978696836580727,
      "loss": 4.5637,
      "step": 10110
    },
    {
      "epoch": 0.021083333333333332,
      "grad_norm": 1.432808518409729,
      "learning_rate": 0.0002997864428112373,
      "loss": 4.4837,
      "step": 10120
    },
    {
      "epoch": 0.021104166666666667,
      "grad_norm": 1.4485350847244263,
      "learning_rate": 0.00029978591660964913,
      "loss": 4.3678,
      "step": 10130
    },
    {
      "epoch": 0.021125,
      "grad_norm": 1.446065068244934,
      "learning_rate": 0.00029978538976104517,
      "loss": 4.5115,
      "step": 10140
    },
    {
      "epoch": 0.021145833333333332,
      "grad_norm": 1.4411007165908813,
      "learning_rate": 0.00029978486226542756,
      "loss": 4.6351,
      "step": 10150
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 1.9090945720672607,
      "learning_rate": 0.0002997843341227987,
      "loss": 4.4948,
      "step": 10160
    },
    {
      "epoch": 0.0211875,
      "grad_norm": 1.488181471824646,
      "learning_rate": 0.00029978380533316075,
      "loss": 4.5444,
      "step": 10170
    },
    {
      "epoch": 0.021208333333333333,
      "grad_norm": 1.5479463338851929,
      "learning_rate": 0.00029978327589651605,
      "loss": 4.5068,
      "step": 10180
    },
    {
      "epoch": 0.021229166666666667,
      "grad_norm": 1.476609468460083,
      "learning_rate": 0.00029978274581286693,
      "loss": 4.4756,
      "step": 10190
    },
    {
      "epoch": 0.02125,
      "grad_norm": 1.2753688097000122,
      "learning_rate": 0.00029978221508221556,
      "loss": 4.4696,
      "step": 10200
    },
    {
      "epoch": 0.021270833333333333,
      "grad_norm": 1.636330246925354,
      "learning_rate": 0.00029978168370456437,
      "loss": 4.4781,
      "step": 10210
    },
    {
      "epoch": 0.021291666666666667,
      "grad_norm": 1.3743497133255005,
      "learning_rate": 0.0002997811516799156,
      "loss": 4.7182,
      "step": 10220
    },
    {
      "epoch": 0.0213125,
      "grad_norm": 1.4792221784591675,
      "learning_rate": 0.0002997806190082715,
      "loss": 4.7041,
      "step": 10230
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.5153268575668335,
      "learning_rate": 0.00029978008568963446,
      "loss": 4.4499,
      "step": 10240
    },
    {
      "epoch": 0.021354166666666667,
      "grad_norm": 1.4116051197052002,
      "learning_rate": 0.0002997795517240067,
      "loss": 4.4822,
      "step": 10250
    },
    {
      "epoch": 0.021375,
      "grad_norm": 1.3488608598709106,
      "learning_rate": 0.0002997790171113906,
      "loss": 4.5499,
      "step": 10260
    },
    {
      "epoch": 0.021395833333333333,
      "grad_norm": 1.397539734840393,
      "learning_rate": 0.0002997784818517884,
      "loss": 4.4184,
      "step": 10270
    },
    {
      "epoch": 0.021416666666666667,
      "grad_norm": 1.3717244863510132,
      "learning_rate": 0.00029977794594520247,
      "loss": 4.5523,
      "step": 10280
    },
    {
      "epoch": 0.0214375,
      "grad_norm": 1.3993176221847534,
      "learning_rate": 0.00029977740939163505,
      "loss": 4.5159,
      "step": 10290
    },
    {
      "epoch": 0.021458333333333333,
      "grad_norm": 1.412079095840454,
      "learning_rate": 0.0002997768721910886,
      "loss": 4.438,
      "step": 10300
    },
    {
      "epoch": 0.021479166666666667,
      "grad_norm": 1.4689128398895264,
      "learning_rate": 0.0002997763343435653,
      "loss": 4.4244,
      "step": 10310
    },
    {
      "epoch": 0.0215,
      "grad_norm": 1.648923635482788,
      "learning_rate": 0.0002997757958490675,
      "loss": 4.3631,
      "step": 10320
    },
    {
      "epoch": 0.021520833333333333,
      "grad_norm": 1.3503025770187378,
      "learning_rate": 0.0002997752567075975,
      "loss": 4.4257,
      "step": 10330
    },
    {
      "epoch": 0.021541666666666667,
      "grad_norm": 1.5139949321746826,
      "learning_rate": 0.0002997747169191577,
      "loss": 4.3634,
      "step": 10340
    },
    {
      "epoch": 0.0215625,
      "grad_norm": 1.3967763185501099,
      "learning_rate": 0.0002997741764837505,
      "loss": 4.3448,
      "step": 10350
    },
    {
      "epoch": 0.021583333333333333,
      "grad_norm": 1.463993787765503,
      "learning_rate": 0.0002997736354013781,
      "loss": 4.3635,
      "step": 10360
    },
    {
      "epoch": 0.021604166666666667,
      "grad_norm": 1.5703750848770142,
      "learning_rate": 0.00029977309367204286,
      "loss": 4.5199,
      "step": 10370
    },
    {
      "epoch": 0.021625,
      "grad_norm": 1.4133498668670654,
      "learning_rate": 0.00029977255129574713,
      "loss": 4.4667,
      "step": 10380
    },
    {
      "epoch": 0.021645833333333333,
      "grad_norm": 1.452866554260254,
      "learning_rate": 0.0002997720082724933,
      "loss": 4.5191,
      "step": 10390
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 1.5476658344268799,
      "learning_rate": 0.0002997714646022836,
      "loss": 4.3731,
      "step": 10400
    },
    {
      "epoch": 0.0216875,
      "grad_norm": 1.389286756515503,
      "learning_rate": 0.00029977092028512055,
      "loss": 4.4,
      "step": 10410
    },
    {
      "epoch": 0.021708333333333333,
      "grad_norm": 1.542091727256775,
      "learning_rate": 0.00029977037532100635,
      "loss": 4.3487,
      "step": 10420
    },
    {
      "epoch": 0.021729166666666667,
      "grad_norm": 1.5017027854919434,
      "learning_rate": 0.0002997698297099434,
      "loss": 4.3799,
      "step": 10430
    },
    {
      "epoch": 0.02175,
      "grad_norm": 1.602484941482544,
      "learning_rate": 0.0002997692834519341,
      "loss": 4.3698,
      "step": 10440
    },
    {
      "epoch": 0.021770833333333333,
      "grad_norm": 1.3856755495071411,
      "learning_rate": 0.0002997687365469808,
      "loss": 4.5086,
      "step": 10450
    },
    {
      "epoch": 0.021791666666666668,
      "grad_norm": 1.4292032718658447,
      "learning_rate": 0.0002997681889950858,
      "loss": 4.3274,
      "step": 10460
    },
    {
      "epoch": 0.0218125,
      "grad_norm": 1.687811255455017,
      "learning_rate": 0.00029976764079625156,
      "loss": 4.6389,
      "step": 10470
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 1.59780752658844,
      "learning_rate": 0.0002997670919504803,
      "loss": 4.3541,
      "step": 10480
    },
    {
      "epoch": 0.021854166666666668,
      "grad_norm": 1.3667123317718506,
      "learning_rate": 0.0002997665424577746,
      "loss": 4.641,
      "step": 10490
    },
    {
      "epoch": 0.021875,
      "grad_norm": 1.6715589761734009,
      "learning_rate": 0.00029976599231813664,
      "loss": 4.486,
      "step": 10500
    },
    {
      "epoch": 0.021895833333333333,
      "grad_norm": 1.516653299331665,
      "learning_rate": 0.0002997654415315689,
      "loss": 4.7494,
      "step": 10510
    },
    {
      "epoch": 0.021916666666666668,
      "grad_norm": 1.3894319534301758,
      "learning_rate": 0.00029976489009807375,
      "loss": 4.5279,
      "step": 10520
    },
    {
      "epoch": 0.0219375,
      "grad_norm": 1.6464868783950806,
      "learning_rate": 0.0002997643380176535,
      "loss": 4.363,
      "step": 10530
    },
    {
      "epoch": 0.021958333333333333,
      "grad_norm": 1.5233433246612549,
      "learning_rate": 0.0002997637852903107,
      "loss": 4.5043,
      "step": 10540
    },
    {
      "epoch": 0.021979166666666668,
      "grad_norm": 1.4702192544937134,
      "learning_rate": 0.0002997632319160475,
      "loss": 4.3177,
      "step": 10550
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.6253024339675903,
      "learning_rate": 0.00029976267789486646,
      "loss": 4.3733,
      "step": 10560
    },
    {
      "epoch": 0.022020833333333333,
      "grad_norm": 1.3082114458084106,
      "learning_rate": 0.00029976212322676995,
      "loss": 4.5007,
      "step": 10570
    },
    {
      "epoch": 0.022041666666666668,
      "grad_norm": 1.3745638132095337,
      "learning_rate": 0.0002997615679117604,
      "loss": 4.3368,
      "step": 10580
    },
    {
      "epoch": 0.0220625,
      "grad_norm": 1.3538333177566528,
      "learning_rate": 0.00029976101194984005,
      "loss": 4.4458,
      "step": 10590
    },
    {
      "epoch": 0.022083333333333333,
      "grad_norm": 1.6253547668457031,
      "learning_rate": 0.0002997604553410114,
      "loss": 4.5185,
      "step": 10600
    },
    {
      "epoch": 0.022104166666666668,
      "grad_norm": 1.4574238061904907,
      "learning_rate": 0.00029975989808527696,
      "loss": 4.6556,
      "step": 10610
    },
    {
      "epoch": 0.022125,
      "grad_norm": 1.356960654258728,
      "learning_rate": 0.000299759340182639,
      "loss": 4.7514,
      "step": 10620
    },
    {
      "epoch": 0.022145833333333333,
      "grad_norm": 1.4903663396835327,
      "learning_rate": 0.00029975878163309995,
      "loss": 4.3172,
      "step": 10630
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 1.4218635559082031,
      "learning_rate": 0.00029975822243666225,
      "loss": 4.5076,
      "step": 10640
    },
    {
      "epoch": 0.0221875,
      "grad_norm": 1.376814365386963,
      "learning_rate": 0.00029975766259332835,
      "loss": 4.6046,
      "step": 10650
    },
    {
      "epoch": 0.022208333333333333,
      "grad_norm": 1.4761062860488892,
      "learning_rate": 0.0002997571021031006,
      "loss": 4.4068,
      "step": 10660
    },
    {
      "epoch": 0.022229166666666668,
      "grad_norm": 1.4776701927185059,
      "learning_rate": 0.00029975654096598146,
      "loss": 4.4417,
      "step": 10670
    },
    {
      "epoch": 0.02225,
      "grad_norm": 1.3580182790756226,
      "learning_rate": 0.00029975597918197326,
      "loss": 4.3856,
      "step": 10680
    },
    {
      "epoch": 0.022270833333333333,
      "grad_norm": 1.2832309007644653,
      "learning_rate": 0.0002997554167510786,
      "loss": 4.4174,
      "step": 10690
    },
    {
      "epoch": 0.022291666666666668,
      "grad_norm": 1.4423283338546753,
      "learning_rate": 0.00029975485367329975,
      "loss": 4.6256,
      "step": 10700
    },
    {
      "epoch": 0.0223125,
      "grad_norm": 1.5477797985076904,
      "learning_rate": 0.00029975428994863927,
      "loss": 4.344,
      "step": 10710
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.4284577369689941,
      "learning_rate": 0.0002997537255770995,
      "loss": 4.3025,
      "step": 10720
    },
    {
      "epoch": 0.022354166666666668,
      "grad_norm": 1.3080941438674927,
      "learning_rate": 0.00029975316055868293,
      "loss": 4.576,
      "step": 10730
    },
    {
      "epoch": 0.022375,
      "grad_norm": 1.6144275665283203,
      "learning_rate": 0.00029975259489339195,
      "loss": 4.5284,
      "step": 10740
    },
    {
      "epoch": 0.022395833333333334,
      "grad_norm": 1.3988910913467407,
      "learning_rate": 0.00029975202858122904,
      "loss": 4.5506,
      "step": 10750
    },
    {
      "epoch": 0.022416666666666668,
      "grad_norm": 1.2876642942428589,
      "learning_rate": 0.0002997514616221967,
      "loss": 4.5143,
      "step": 10760
    },
    {
      "epoch": 0.0224375,
      "grad_norm": 1.3492300510406494,
      "learning_rate": 0.0002997508940162973,
      "loss": 4.3812,
      "step": 10770
    },
    {
      "epoch": 0.022458333333333334,
      "grad_norm": 1.3332992792129517,
      "learning_rate": 0.0002997503257635333,
      "loss": 4.3303,
      "step": 10780
    },
    {
      "epoch": 0.022479166666666668,
      "grad_norm": 1.3571696281433105,
      "learning_rate": 0.00029974975686390714,
      "loss": 4.2592,
      "step": 10790
    },
    {
      "epoch": 0.0225,
      "grad_norm": 1.4062799215316772,
      "learning_rate": 0.0002997491873174213,
      "loss": 4.4105,
      "step": 10800
    },
    {
      "epoch": 0.022520833333333334,
      "grad_norm": 1.6160368919372559,
      "learning_rate": 0.0002997486171240783,
      "loss": 4.3255,
      "step": 10810
    },
    {
      "epoch": 0.022541666666666668,
      "grad_norm": 1.3164817094802856,
      "learning_rate": 0.0002997480462838805,
      "loss": 4.5004,
      "step": 10820
    },
    {
      "epoch": 0.0225625,
      "grad_norm": 1.4033821821212769,
      "learning_rate": 0.0002997474747968305,
      "loss": 4.453,
      "step": 10830
    },
    {
      "epoch": 0.022583333333333334,
      "grad_norm": 1.3561285734176636,
      "learning_rate": 0.00029974690266293055,
      "loss": 4.5823,
      "step": 10840
    },
    {
      "epoch": 0.022604166666666668,
      "grad_norm": 1.344856858253479,
      "learning_rate": 0.0002997463298821834,
      "loss": 4.513,
      "step": 10850
    },
    {
      "epoch": 0.022625,
      "grad_norm": 1.5908715724945068,
      "learning_rate": 0.00029974575645459127,
      "loss": 4.3313,
      "step": 10860
    },
    {
      "epoch": 0.022645833333333334,
      "grad_norm": 1.3350920677185059,
      "learning_rate": 0.0002997451823801568,
      "loss": 4.4325,
      "step": 10870
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 1.54139244556427,
      "learning_rate": 0.00029974460765888237,
      "loss": 4.4512,
      "step": 10880
    },
    {
      "epoch": 0.0226875,
      "grad_norm": 1.3542869091033936,
      "learning_rate": 0.00029974403229077054,
      "loss": 4.389,
      "step": 10890
    },
    {
      "epoch": 0.022708333333333334,
      "grad_norm": 1.3938615322113037,
      "learning_rate": 0.00029974345627582376,
      "loss": 4.3776,
      "step": 10900
    },
    {
      "epoch": 0.02272916666666667,
      "grad_norm": 1.342226505279541,
      "learning_rate": 0.0002997428796140445,
      "loss": 4.3439,
      "step": 10910
    },
    {
      "epoch": 0.02275,
      "grad_norm": 1.3304333686828613,
      "learning_rate": 0.0002997423023054353,
      "loss": 4.3649,
      "step": 10920
    },
    {
      "epoch": 0.022770833333333334,
      "grad_norm": 1.3607860803604126,
      "learning_rate": 0.0002997417243499986,
      "loss": 4.5195,
      "step": 10930
    },
    {
      "epoch": 0.022791666666666665,
      "grad_norm": 1.432868242263794,
      "learning_rate": 0.000299741145747737,
      "loss": 4.3959,
      "step": 10940
    },
    {
      "epoch": 0.0228125,
      "grad_norm": 1.5305231809616089,
      "learning_rate": 0.00029974056649865284,
      "loss": 4.7558,
      "step": 10950
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 1.3305981159210205,
      "learning_rate": 0.0002997399866027487,
      "loss": 4.5477,
      "step": 10960
    },
    {
      "epoch": 0.022854166666666665,
      "grad_norm": 1.493471622467041,
      "learning_rate": 0.0002997394060600271,
      "loss": 4.4973,
      "step": 10970
    },
    {
      "epoch": 0.022875,
      "grad_norm": 1.4828966856002808,
      "learning_rate": 0.00029973882487049057,
      "loss": 4.5264,
      "step": 10980
    },
    {
      "epoch": 0.022895833333333334,
      "grad_norm": 1.420624017715454,
      "learning_rate": 0.0002997382430341416,
      "loss": 4.3592,
      "step": 10990
    },
    {
      "epoch": 0.022916666666666665,
      "grad_norm": 1.5312331914901733,
      "learning_rate": 0.0002997376605509826,
      "loss": 4.1869,
      "step": 11000
    },
    {
      "epoch": 0.022916666666666665,
      "eval_loss": 4.18387508392334,
      "eval_runtime": 7.3288,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 11000
    },
    {
      "epoch": 0.0229375,
      "grad_norm": 1.4259618520736694,
      "learning_rate": 0.0002997370774210163,
      "loss": 4.4641,
      "step": 11010
    },
    {
      "epoch": 0.022958333333333334,
      "grad_norm": 1.442307472229004,
      "learning_rate": 0.000299736493644245,
      "loss": 4.382,
      "step": 11020
    },
    {
      "epoch": 0.022979166666666665,
      "grad_norm": 1.3409496545791626,
      "learning_rate": 0.00029973590922067133,
      "loss": 4.384,
      "step": 11030
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.3781484365463257,
      "learning_rate": 0.00029973532415029783,
      "loss": 4.7028,
      "step": 11040
    },
    {
      "epoch": 0.023020833333333334,
      "grad_norm": 1.7470147609710693,
      "learning_rate": 0.000299734738433127,
      "loss": 4.334,
      "step": 11050
    },
    {
      "epoch": 0.023041666666666665,
      "grad_norm": 1.6524384021759033,
      "learning_rate": 0.00029973415206916137,
      "loss": 4.4997,
      "step": 11060
    },
    {
      "epoch": 0.0230625,
      "grad_norm": 1.2491765022277832,
      "learning_rate": 0.00029973356505840344,
      "loss": 4.5084,
      "step": 11070
    },
    {
      "epoch": 0.023083333333333334,
      "grad_norm": 1.3606383800506592,
      "learning_rate": 0.0002997329774008558,
      "loss": 4.503,
      "step": 11080
    },
    {
      "epoch": 0.023104166666666665,
      "grad_norm": 1.390550971031189,
      "learning_rate": 0.000299732389096521,
      "loss": 4.4635,
      "step": 11090
    },
    {
      "epoch": 0.023125,
      "grad_norm": 1.5336365699768066,
      "learning_rate": 0.00029973180014540145,
      "loss": 4.3651,
      "step": 11100
    },
    {
      "epoch": 0.023145833333333334,
      "grad_norm": 1.5998696088790894,
      "learning_rate": 0.0002997312105474999,
      "loss": 4.3955,
      "step": 11110
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 1.4336520433425903,
      "learning_rate": 0.0002997306203028187,
      "loss": 4.629,
      "step": 11120
    },
    {
      "epoch": 0.0231875,
      "grad_norm": 1.450948715209961,
      "learning_rate": 0.00029973002941136056,
      "loss": 4.2886,
      "step": 11130
    },
    {
      "epoch": 0.023208333333333334,
      "grad_norm": 1.2646843194961548,
      "learning_rate": 0.00029972943787312794,
      "loss": 4.3818,
      "step": 11140
    },
    {
      "epoch": 0.023229166666666665,
      "grad_norm": 1.3358041048049927,
      "learning_rate": 0.0002997288456881234,
      "loss": 4.3664,
      "step": 11150
    },
    {
      "epoch": 0.02325,
      "grad_norm": 1.3207173347473145,
      "learning_rate": 0.0002997282528563495,
      "loss": 4.6291,
      "step": 11160
    },
    {
      "epoch": 0.023270833333333334,
      "grad_norm": 1.3753677606582642,
      "learning_rate": 0.0002997276593778089,
      "loss": 4.3182,
      "step": 11170
    },
    {
      "epoch": 0.023291666666666665,
      "grad_norm": 1.2457292079925537,
      "learning_rate": 0.00029972706525250393,
      "loss": 4.4387,
      "step": 11180
    },
    {
      "epoch": 0.0233125,
      "grad_norm": 1.5433965921401978,
      "learning_rate": 0.00029972647048043743,
      "loss": 4.4147,
      "step": 11190
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 1.4192073345184326,
      "learning_rate": 0.0002997258750616118,
      "loss": 4.3015,
      "step": 11200
    },
    {
      "epoch": 0.023354166666666665,
      "grad_norm": 1.4259909391403198,
      "learning_rate": 0.00029972527899602966,
      "loss": 4.4502,
      "step": 11210
    },
    {
      "epoch": 0.023375,
      "grad_norm": 1.2863633632659912,
      "learning_rate": 0.00029972468228369354,
      "loss": 4.6726,
      "step": 11220
    },
    {
      "epoch": 0.023395833333333334,
      "grad_norm": 1.4566844701766968,
      "learning_rate": 0.0002997240849246061,
      "loss": 4.557,
      "step": 11230
    },
    {
      "epoch": 0.023416666666666665,
      "grad_norm": 1.3949918746948242,
      "learning_rate": 0.00029972348691876985,
      "loss": 4.6585,
      "step": 11240
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 1.350077748298645,
      "learning_rate": 0.0002997228882661874,
      "loss": 4.4605,
      "step": 11250
    },
    {
      "epoch": 0.023458333333333335,
      "grad_norm": 1.4905840158462524,
      "learning_rate": 0.0002997222889668614,
      "loss": 4.4899,
      "step": 11260
    },
    {
      "epoch": 0.023479166666666666,
      "grad_norm": 1.3400520086288452,
      "learning_rate": 0.00029972168902079433,
      "loss": 4.3429,
      "step": 11270
    },
    {
      "epoch": 0.0235,
      "grad_norm": 1.4137665033340454,
      "learning_rate": 0.0002997210884279888,
      "loss": 4.4868,
      "step": 11280
    },
    {
      "epoch": 0.023520833333333335,
      "grad_norm": 1.358670949935913,
      "learning_rate": 0.00029972048718844747,
      "loss": 4.4871,
      "step": 11290
    },
    {
      "epoch": 0.023541666666666666,
      "grad_norm": 1.4742379188537598,
      "learning_rate": 0.00029971988530217293,
      "loss": 4.6136,
      "step": 11300
    },
    {
      "epoch": 0.0235625,
      "grad_norm": 1.3896291255950928,
      "learning_rate": 0.00029971928276916767,
      "loss": 4.5295,
      "step": 11310
    },
    {
      "epoch": 0.023583333333333335,
      "grad_norm": 1.3327534198760986,
      "learning_rate": 0.00029971867958943446,
      "loss": 4.4929,
      "step": 11320
    },
    {
      "epoch": 0.023604166666666666,
      "grad_norm": 1.3114184141159058,
      "learning_rate": 0.00029971807576297573,
      "loss": 4.4528,
      "step": 11330
    },
    {
      "epoch": 0.023625,
      "grad_norm": 1.454304814338684,
      "learning_rate": 0.00029971747128979426,
      "loss": 4.5031,
      "step": 11340
    },
    {
      "epoch": 0.023645833333333335,
      "grad_norm": 1.4458268880844116,
      "learning_rate": 0.0002997168661698925,
      "loss": 4.1777,
      "step": 11350
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 1.3305755853652954,
      "learning_rate": 0.00029971626040327316,
      "loss": 4.4862,
      "step": 11360
    },
    {
      "epoch": 0.0236875,
      "grad_norm": 1.2684025764465332,
      "learning_rate": 0.00029971565398993885,
      "loss": 4.561,
      "step": 11370
    },
    {
      "epoch": 0.023708333333333335,
      "grad_norm": 1.561545491218567,
      "learning_rate": 0.0002997150469298922,
      "loss": 4.5589,
      "step": 11380
    },
    {
      "epoch": 0.023729166666666666,
      "grad_norm": 1.350152850151062,
      "learning_rate": 0.00029971443922313575,
      "loss": 4.7643,
      "step": 11390
    },
    {
      "epoch": 0.02375,
      "grad_norm": 1.5279088020324707,
      "learning_rate": 0.0002997138308696722,
      "loss": 4.5883,
      "step": 11400
    },
    {
      "epoch": 0.023770833333333335,
      "grad_norm": 1.6919341087341309,
      "learning_rate": 0.00029971322186950417,
      "loss": 4.4482,
      "step": 11410
    },
    {
      "epoch": 0.023791666666666666,
      "grad_norm": 1.5241938829421997,
      "learning_rate": 0.0002997126122226343,
      "loss": 4.3791,
      "step": 11420
    },
    {
      "epoch": 0.0238125,
      "grad_norm": 1.4238741397857666,
      "learning_rate": 0.0002997120019290652,
      "loss": 4.4014,
      "step": 11430
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 1.3430858850479126,
      "learning_rate": 0.00029971139098879953,
      "loss": 4.3874,
      "step": 11440
    },
    {
      "epoch": 0.023854166666666666,
      "grad_norm": 1.5028990507125854,
      "learning_rate": 0.00029971077940183985,
      "loss": 4.1978,
      "step": 11450
    },
    {
      "epoch": 0.023875,
      "grad_norm": 1.344576120376587,
      "learning_rate": 0.0002997101671681889,
      "loss": 4.5644,
      "step": 11460
    },
    {
      "epoch": 0.023895833333333335,
      "grad_norm": 1.4097559452056885,
      "learning_rate": 0.0002997095542878493,
      "loss": 4.5379,
      "step": 11470
    },
    {
      "epoch": 0.023916666666666666,
      "grad_norm": 1.4123345613479614,
      "learning_rate": 0.0002997089407608237,
      "loss": 4.4216,
      "step": 11480
    },
    {
      "epoch": 0.0239375,
      "grad_norm": 2.2484066486358643,
      "learning_rate": 0.0002997083265871147,
      "loss": 4.6151,
      "step": 11490
    },
    {
      "epoch": 0.023958333333333335,
      "grad_norm": 1.49696683883667,
      "learning_rate": 0.00029970771176672495,
      "loss": 4.4618,
      "step": 11500
    },
    {
      "epoch": 0.023979166666666666,
      "grad_norm": 1.3852128982543945,
      "learning_rate": 0.00029970709629965724,
      "loss": 4.4425,
      "step": 11510
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.3693690299987793,
      "learning_rate": 0.0002997064801859141,
      "loss": 4.3424,
      "step": 11520
    },
    {
      "epoch": 0.024020833333333335,
      "grad_norm": 1.4039123058319092,
      "learning_rate": 0.00029970586342549814,
      "loss": 4.5182,
      "step": 11530
    },
    {
      "epoch": 0.024041666666666666,
      "grad_norm": 1.2844442129135132,
      "learning_rate": 0.00029970524601841223,
      "loss": 4.5169,
      "step": 11540
    },
    {
      "epoch": 0.0240625,
      "grad_norm": 1.296909213066101,
      "learning_rate": 0.0002997046279646588,
      "loss": 4.39,
      "step": 11550
    },
    {
      "epoch": 0.024083333333333335,
      "grad_norm": 1.4386626482009888,
      "learning_rate": 0.0002997040092642407,
      "loss": 4.4994,
      "step": 11560
    },
    {
      "epoch": 0.024104166666666666,
      "grad_norm": 1.3801718950271606,
      "learning_rate": 0.00029970338991716053,
      "loss": 4.6291,
      "step": 11570
    },
    {
      "epoch": 0.024125,
      "grad_norm": 1.4008971452713013,
      "learning_rate": 0.00029970276992342097,
      "loss": 4.4383,
      "step": 11580
    },
    {
      "epoch": 0.02414583333333333,
      "grad_norm": 1.455108880996704,
      "learning_rate": 0.0002997021492830247,
      "loss": 4.5731,
      "step": 11590
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 1.5638543367385864,
      "learning_rate": 0.0002997015279959744,
      "loss": 4.3618,
      "step": 11600
    },
    {
      "epoch": 0.0241875,
      "grad_norm": 1.4792066812515259,
      "learning_rate": 0.00029970090606227276,
      "loss": 4.5564,
      "step": 11610
    },
    {
      "epoch": 0.02420833333333333,
      "grad_norm": 1.629796028137207,
      "learning_rate": 0.0002997002834819225,
      "loss": 4.2967,
      "step": 11620
    },
    {
      "epoch": 0.024229166666666666,
      "grad_norm": 1.2191938161849976,
      "learning_rate": 0.0002996996602549262,
      "loss": 4.5652,
      "step": 11630
    },
    {
      "epoch": 0.02425,
      "grad_norm": 1.6497697830200195,
      "learning_rate": 0.00029969903638128666,
      "loss": 4.3987,
      "step": 11640
    },
    {
      "epoch": 0.024270833333333332,
      "grad_norm": 1.224295735359192,
      "learning_rate": 0.0002996984118610065,
      "loss": 4.6434,
      "step": 11650
    },
    {
      "epoch": 0.024291666666666666,
      "grad_norm": 1.5329006910324097,
      "learning_rate": 0.0002996977866940885,
      "loss": 4.4994,
      "step": 11660
    },
    {
      "epoch": 0.0243125,
      "grad_norm": 1.5610793828964233,
      "learning_rate": 0.00029969716088053527,
      "loss": 4.1567,
      "step": 11670
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 1.303263545036316,
      "learning_rate": 0.0002996965344203496,
      "loss": 4.5472,
      "step": 11680
    },
    {
      "epoch": 0.024354166666666666,
      "grad_norm": 1.3605271577835083,
      "learning_rate": 0.00029969590731353414,
      "loss": 4.4855,
      "step": 11690
    },
    {
      "epoch": 0.024375,
      "grad_norm": 1.2642337083816528,
      "learning_rate": 0.00029969527956009165,
      "loss": 4.3132,
      "step": 11700
    },
    {
      "epoch": 0.024395833333333332,
      "grad_norm": 1.35260808467865,
      "learning_rate": 0.00029969465116002475,
      "loss": 4.3725,
      "step": 11710
    },
    {
      "epoch": 0.024416666666666666,
      "grad_norm": 1.3679038286209106,
      "learning_rate": 0.00029969402211333626,
      "loss": 4.6489,
      "step": 11720
    },
    {
      "epoch": 0.0244375,
      "grad_norm": 1.210033655166626,
      "learning_rate": 0.00029969339242002884,
      "loss": 4.3822,
      "step": 11730
    },
    {
      "epoch": 0.024458333333333332,
      "grad_norm": 1.508026123046875,
      "learning_rate": 0.0002996927620801052,
      "loss": 4.415,
      "step": 11740
    },
    {
      "epoch": 0.024479166666666666,
      "grad_norm": 1.4346668720245361,
      "learning_rate": 0.0002996921310935681,
      "loss": 4.4773,
      "step": 11750
    },
    {
      "epoch": 0.0245,
      "grad_norm": 1.3136683702468872,
      "learning_rate": 0.00029969149946042017,
      "loss": 4.5728,
      "step": 11760
    },
    {
      "epoch": 0.024520833333333332,
      "grad_norm": 1.2883296012878418,
      "learning_rate": 0.00029969086718066427,
      "loss": 4.3503,
      "step": 11770
    },
    {
      "epoch": 0.024541666666666666,
      "grad_norm": 1.4019185304641724,
      "learning_rate": 0.0002996902342543031,
      "loss": 4.2695,
      "step": 11780
    },
    {
      "epoch": 0.0245625,
      "grad_norm": 1.2166763544082642,
      "learning_rate": 0.0002996896006813393,
      "loss": 4.4519,
      "step": 11790
    },
    {
      "epoch": 0.024583333333333332,
      "grad_norm": 1.3453668355941772,
      "learning_rate": 0.00029968896646177573,
      "loss": 4.3642,
      "step": 11800
    },
    {
      "epoch": 0.024604166666666667,
      "grad_norm": 1.3480808734893799,
      "learning_rate": 0.0002996883315956151,
      "loss": 4.5906,
      "step": 11810
    },
    {
      "epoch": 0.024625,
      "grad_norm": 1.799957275390625,
      "learning_rate": 0.00029968769608286006,
      "loss": 4.3107,
      "step": 11820
    },
    {
      "epoch": 0.024645833333333332,
      "grad_norm": 1.5664259195327759,
      "learning_rate": 0.00029968705992351345,
      "loss": 4.3294,
      "step": 11830
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 1.386430263519287,
      "learning_rate": 0.00029968642311757805,
      "loss": 4.376,
      "step": 11840
    },
    {
      "epoch": 0.0246875,
      "grad_norm": 1.3192578554153442,
      "learning_rate": 0.0002996857856650565,
      "loss": 4.388,
      "step": 11850
    },
    {
      "epoch": 0.024708333333333332,
      "grad_norm": 1.3031487464904785,
      "learning_rate": 0.00029968514756595165,
      "loss": 4.2962,
      "step": 11860
    },
    {
      "epoch": 0.024729166666666667,
      "grad_norm": 1.2587755918502808,
      "learning_rate": 0.0002996845088202661,
      "loss": 4.2887,
      "step": 11870
    },
    {
      "epoch": 0.02475,
      "grad_norm": 1.9997315406799316,
      "learning_rate": 0.0002996838694280028,
      "loss": 4.4297,
      "step": 11880
    },
    {
      "epoch": 0.024770833333333332,
      "grad_norm": 1.4380322694778442,
      "learning_rate": 0.0002996832293891644,
      "loss": 4.3694,
      "step": 11890
    },
    {
      "epoch": 0.024791666666666667,
      "grad_norm": 1.3585397005081177,
      "learning_rate": 0.0002996825887037538,
      "loss": 4.4131,
      "step": 11900
    },
    {
      "epoch": 0.0248125,
      "grad_norm": 1.4498605728149414,
      "learning_rate": 0.0002996819473717736,
      "loss": 4.3667,
      "step": 11910
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 1.452592134475708,
      "learning_rate": 0.0002996813053932266,
      "loss": 4.402,
      "step": 11920
    },
    {
      "epoch": 0.024854166666666667,
      "grad_norm": 1.4902269840240479,
      "learning_rate": 0.0002996806627681156,
      "loss": 4.541,
      "step": 11930
    },
    {
      "epoch": 0.024875,
      "grad_norm": 1.322265863418579,
      "learning_rate": 0.00029968001949644344,
      "loss": 4.5029,
      "step": 11940
    },
    {
      "epoch": 0.024895833333333332,
      "grad_norm": 1.3922654390335083,
      "learning_rate": 0.0002996793755782128,
      "loss": 4.2724,
      "step": 11950
    },
    {
      "epoch": 0.024916666666666667,
      "grad_norm": 1.2767577171325684,
      "learning_rate": 0.0002996787310134265,
      "loss": 4.5679,
      "step": 11960
    },
    {
      "epoch": 0.0249375,
      "grad_norm": 1.4094887971878052,
      "learning_rate": 0.0002996780858020874,
      "loss": 4.4121,
      "step": 11970
    },
    {
      "epoch": 0.024958333333333332,
      "grad_norm": 1.4338908195495605,
      "learning_rate": 0.00029967743994419813,
      "loss": 4.5366,
      "step": 11980
    },
    {
      "epoch": 0.024979166666666667,
      "grad_norm": 1.3690680265426636,
      "learning_rate": 0.00029967679343976167,
      "loss": 4.4015,
      "step": 11990
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.4863914251327515,
      "learning_rate": 0.0002996761462887806,
      "loss": 4.4256,
      "step": 12000
    },
    {
      "epoch": 0.025,
      "eval_loss": 4.176994800567627,
      "eval_runtime": 7.3357,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 12000
    },
    {
      "epoch": 0.025020833333333332,
      "grad_norm": 1.3861801624298096,
      "learning_rate": 0.0002996754984912579,
      "loss": 4.4485,
      "step": 12010
    },
    {
      "epoch": 0.025041666666666667,
      "grad_norm": 1.3440543413162231,
      "learning_rate": 0.00029967485004719625,
      "loss": 4.6245,
      "step": 12020
    },
    {
      "epoch": 0.0250625,
      "grad_norm": 1.451515555381775,
      "learning_rate": 0.0002996742009565985,
      "loss": 4.3589,
      "step": 12030
    },
    {
      "epoch": 0.025083333333333332,
      "grad_norm": 1.2445727586746216,
      "learning_rate": 0.00029967355121946745,
      "loss": 4.486,
      "step": 12040
    },
    {
      "epoch": 0.025104166666666667,
      "grad_norm": 1.3446043729782104,
      "learning_rate": 0.0002996729008358059,
      "loss": 4.31,
      "step": 12050
    },
    {
      "epoch": 0.025125,
      "grad_norm": 1.711991786956787,
      "learning_rate": 0.0002996722498056167,
      "loss": 4.6388,
      "step": 12060
    },
    {
      "epoch": 0.025145833333333333,
      "grad_norm": 1.3347861766815186,
      "learning_rate": 0.0002996715981289026,
      "loss": 4.4139,
      "step": 12070
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 1.2810158729553223,
      "learning_rate": 0.0002996709458056664,
      "loss": 4.4993,
      "step": 12080
    },
    {
      "epoch": 0.0251875,
      "grad_norm": 1.4627491235733032,
      "learning_rate": 0.000299670292835911,
      "loss": 4.4716,
      "step": 12090
    },
    {
      "epoch": 0.025208333333333333,
      "grad_norm": 1.2960684299468994,
      "learning_rate": 0.00029966963921963915,
      "loss": 4.1417,
      "step": 12100
    },
    {
      "epoch": 0.025229166666666667,
      "grad_norm": 1.4896221160888672,
      "learning_rate": 0.00029966898495685377,
      "loss": 4.5488,
      "step": 12110
    },
    {
      "epoch": 0.02525,
      "grad_norm": 1.43924081325531,
      "learning_rate": 0.00029966833004755754,
      "loss": 4.5365,
      "step": 12120
    },
    {
      "epoch": 0.025270833333333333,
      "grad_norm": 1.37383234500885,
      "learning_rate": 0.0002996676744917534,
      "loss": 4.5529,
      "step": 12130
    },
    {
      "epoch": 0.025291666666666667,
      "grad_norm": 1.3591349124908447,
      "learning_rate": 0.00029966701828944417,
      "loss": 4.3333,
      "step": 12140
    },
    {
      "epoch": 0.0253125,
      "grad_norm": 1.3568298816680908,
      "learning_rate": 0.0002996663614406326,
      "loss": 4.517,
      "step": 12150
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 1.4047307968139648,
      "learning_rate": 0.0002996657039453216,
      "loss": 4.6299,
      "step": 12160
    },
    {
      "epoch": 0.025354166666666667,
      "grad_norm": 1.3251887559890747,
      "learning_rate": 0.00029966504580351404,
      "loss": 4.2294,
      "step": 12170
    },
    {
      "epoch": 0.025375,
      "grad_norm": 1.3581455945968628,
      "learning_rate": 0.00029966438701521273,
      "loss": 4.5467,
      "step": 12180
    },
    {
      "epoch": 0.025395833333333333,
      "grad_norm": 1.31038236618042,
      "learning_rate": 0.00029966372758042053,
      "loss": 4.628,
      "step": 12190
    },
    {
      "epoch": 0.025416666666666667,
      "grad_norm": 1.5428617000579834,
      "learning_rate": 0.0002996630674991402,
      "loss": 4.6172,
      "step": 12200
    },
    {
      "epoch": 0.0254375,
      "grad_norm": 1.2021740674972534,
      "learning_rate": 0.0002996624067713747,
      "loss": 4.6466,
      "step": 12210
    },
    {
      "epoch": 0.025458333333333333,
      "grad_norm": 1.2722885608673096,
      "learning_rate": 0.00029966174539712684,
      "loss": 4.3486,
      "step": 12220
    },
    {
      "epoch": 0.025479166666666667,
      "grad_norm": 1.4789702892303467,
      "learning_rate": 0.0002996610833763995,
      "loss": 4.6109,
      "step": 12230
    },
    {
      "epoch": 0.0255,
      "grad_norm": 1.3154041767120361,
      "learning_rate": 0.00029966042070919544,
      "loss": 4.5781,
      "step": 12240
    },
    {
      "epoch": 0.025520833333333333,
      "grad_norm": 1.3087068796157837,
      "learning_rate": 0.0002996597573955177,
      "loss": 4.4791,
      "step": 12250
    },
    {
      "epoch": 0.025541666666666667,
      "grad_norm": 1.4472886323928833,
      "learning_rate": 0.000299659093435369,
      "loss": 4.4721,
      "step": 12260
    },
    {
      "epoch": 0.0255625,
      "grad_norm": 1.4622855186462402,
      "learning_rate": 0.00029965842882875225,
      "loss": 4.4664,
      "step": 12270
    },
    {
      "epoch": 0.025583333333333333,
      "grad_norm": 1.2961280345916748,
      "learning_rate": 0.0002996577635756703,
      "loss": 4.5974,
      "step": 12280
    },
    {
      "epoch": 0.025604166666666667,
      "grad_norm": 1.3730071783065796,
      "learning_rate": 0.00029965709767612613,
      "loss": 4.3669,
      "step": 12290
    },
    {
      "epoch": 0.025625,
      "grad_norm": 1.3111478090286255,
      "learning_rate": 0.00029965643113012247,
      "loss": 4.3253,
      "step": 12300
    },
    {
      "epoch": 0.025645833333333333,
      "grad_norm": 1.367872714996338,
      "learning_rate": 0.00029965576393766233,
      "loss": 4.5241,
      "step": 12310
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.2707812786102295,
      "learning_rate": 0.00029965509609874844,
      "loss": 4.4616,
      "step": 12320
    },
    {
      "epoch": 0.0256875,
      "grad_norm": 1.398738145828247,
      "learning_rate": 0.00029965442761338383,
      "loss": 4.4381,
      "step": 12330
    },
    {
      "epoch": 0.025708333333333333,
      "grad_norm": 1.3347108364105225,
      "learning_rate": 0.0002996537584815713,
      "loss": 4.4501,
      "step": 12340
    },
    {
      "epoch": 0.025729166666666668,
      "grad_norm": 1.2721917629241943,
      "learning_rate": 0.0002996530887033138,
      "loss": 4.4755,
      "step": 12350
    },
    {
      "epoch": 0.02575,
      "grad_norm": 1.2906244993209839,
      "learning_rate": 0.0002996524182786142,
      "loss": 4.3942,
      "step": 12360
    },
    {
      "epoch": 0.025770833333333333,
      "grad_norm": 1.443489670753479,
      "learning_rate": 0.00029965174720747537,
      "loss": 4.401,
      "step": 12370
    },
    {
      "epoch": 0.025791666666666668,
      "grad_norm": 1.3749892711639404,
      "learning_rate": 0.0002996510754899002,
      "loss": 4.4911,
      "step": 12380
    },
    {
      "epoch": 0.0258125,
      "grad_norm": 1.4015235900878906,
      "learning_rate": 0.00029965040312589166,
      "loss": 4.5679,
      "step": 12390
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 1.3557474613189697,
      "learning_rate": 0.0002996497301154526,
      "loss": 4.4455,
      "step": 12400
    },
    {
      "epoch": 0.025854166666666668,
      "grad_norm": 1.431818962097168,
      "learning_rate": 0.00029964905645858594,
      "loss": 4.4944,
      "step": 12410
    },
    {
      "epoch": 0.025875,
      "grad_norm": 1.356909990310669,
      "learning_rate": 0.0002996483821552946,
      "loss": 4.3015,
      "step": 12420
    },
    {
      "epoch": 0.025895833333333333,
      "grad_norm": 1.478089451789856,
      "learning_rate": 0.0002996477072055815,
      "loss": 4.1645,
      "step": 12430
    },
    {
      "epoch": 0.025916666666666668,
      "grad_norm": 1.3039525747299194,
      "learning_rate": 0.00029964703160944954,
      "loss": 4.5306,
      "step": 12440
    },
    {
      "epoch": 0.0259375,
      "grad_norm": 1.3875752687454224,
      "learning_rate": 0.0002996463553669016,
      "loss": 4.5679,
      "step": 12450
    },
    {
      "epoch": 0.025958333333333333,
      "grad_norm": 1.3691132068634033,
      "learning_rate": 0.00029964567847794063,
      "loss": 4.3759,
      "step": 12460
    },
    {
      "epoch": 0.025979166666666668,
      "grad_norm": 1.7207021713256836,
      "learning_rate": 0.0002996450009425696,
      "loss": 4.4908,
      "step": 12470
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.6833901405334473,
      "learning_rate": 0.0002996443227607914,
      "loss": 4.4915,
      "step": 12480
    },
    {
      "epoch": 0.026020833333333333,
      "grad_norm": 1.2873862981796265,
      "learning_rate": 0.00029964364393260894,
      "loss": 4.3763,
      "step": 12490
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 1.3594491481781006,
      "learning_rate": 0.0002996429644580252,
      "loss": 4.6242,
      "step": 12500
    },
    {
      "epoch": 0.0260625,
      "grad_norm": 1.3434958457946777,
      "learning_rate": 0.00029964228433704303,
      "loss": 4.4742,
      "step": 12510
    },
    {
      "epoch": 0.026083333333333333,
      "grad_norm": 1.1616032123565674,
      "learning_rate": 0.00029964160356966545,
      "loss": 4.3955,
      "step": 12520
    },
    {
      "epoch": 0.026104166666666668,
      "grad_norm": 1.3304221630096436,
      "learning_rate": 0.00029964092215589537,
      "loss": 4.4756,
      "step": 12530
    },
    {
      "epoch": 0.026125,
      "grad_norm": 1.3895140886306763,
      "learning_rate": 0.00029964024009573577,
      "loss": 4.4543,
      "step": 12540
    },
    {
      "epoch": 0.026145833333333333,
      "grad_norm": 1.3742660284042358,
      "learning_rate": 0.00029963955738918953,
      "loss": 4.4277,
      "step": 12550
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 1.3465828895568848,
      "learning_rate": 0.0002996388740362597,
      "loss": 4.435,
      "step": 12560
    },
    {
      "epoch": 0.0261875,
      "grad_norm": 2.2809336185455322,
      "learning_rate": 0.0002996381900369491,
      "loss": 4.6078,
      "step": 12570
    },
    {
      "epoch": 0.026208333333333333,
      "grad_norm": 1.500111699104309,
      "learning_rate": 0.00029963750539126075,
      "loss": 4.6259,
      "step": 12580
    },
    {
      "epoch": 0.026229166666666668,
      "grad_norm": 1.3758498430252075,
      "learning_rate": 0.00029963682009919763,
      "loss": 4.2576,
      "step": 12590
    },
    {
      "epoch": 0.02625,
      "grad_norm": 1.4233254194259644,
      "learning_rate": 0.0002996361341607627,
      "loss": 4.3604,
      "step": 12600
    },
    {
      "epoch": 0.026270833333333334,
      "grad_norm": 1.5722143650054932,
      "learning_rate": 0.00029963544757595885,
      "loss": 4.4352,
      "step": 12610
    },
    {
      "epoch": 0.026291666666666668,
      "grad_norm": 1.374873161315918,
      "learning_rate": 0.0002996347603447891,
      "loss": 4.4051,
      "step": 12620
    },
    {
      "epoch": 0.0263125,
      "grad_norm": 1.429284930229187,
      "learning_rate": 0.00029963407246725644,
      "loss": 4.409,
      "step": 12630
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 1.574069857597351,
      "learning_rate": 0.0002996333839433638,
      "loss": 4.3606,
      "step": 12640
    },
    {
      "epoch": 0.026354166666666668,
      "grad_norm": 1.3836214542388916,
      "learning_rate": 0.0002996326947731142,
      "loss": 4.4117,
      "step": 12650
    },
    {
      "epoch": 0.026375,
      "grad_norm": 1.4407374858856201,
      "learning_rate": 0.00029963200495651055,
      "loss": 4.3701,
      "step": 12660
    },
    {
      "epoch": 0.026395833333333334,
      "grad_norm": 1.2188349962234497,
      "learning_rate": 0.0002996313144935559,
      "loss": 4.4931,
      "step": 12670
    },
    {
      "epoch": 0.026416666666666668,
      "grad_norm": 1.4384649991989136,
      "learning_rate": 0.0002996306233842532,
      "loss": 4.4457,
      "step": 12680
    },
    {
      "epoch": 0.0264375,
      "grad_norm": 1.3036916255950928,
      "learning_rate": 0.0002996299316286054,
      "loss": 4.4818,
      "step": 12690
    },
    {
      "epoch": 0.026458333333333334,
      "grad_norm": 1.2991466522216797,
      "learning_rate": 0.0002996292392266155,
      "loss": 4.3622,
      "step": 12700
    },
    {
      "epoch": 0.026479166666666668,
      "grad_norm": 1.2240358591079712,
      "learning_rate": 0.0002996285461782866,
      "loss": 4.5479,
      "step": 12710
    },
    {
      "epoch": 0.0265,
      "grad_norm": 1.4656215906143188,
      "learning_rate": 0.00029962785248362157,
      "loss": 4.2501,
      "step": 12720
    },
    {
      "epoch": 0.026520833333333334,
      "grad_norm": 1.2805771827697754,
      "learning_rate": 0.0002996271581426234,
      "loss": 4.4666,
      "step": 12730
    },
    {
      "epoch": 0.02654166666666667,
      "grad_norm": 1.3042733669281006,
      "learning_rate": 0.0002996264631552952,
      "loss": 4.4482,
      "step": 12740
    },
    {
      "epoch": 0.0265625,
      "grad_norm": 1.3558961153030396,
      "learning_rate": 0.0002996257675216399,
      "loss": 4.3777,
      "step": 12750
    },
    {
      "epoch": 0.026583333333333334,
      "grad_norm": 1.4601954221725464,
      "learning_rate": 0.00029962507124166044,
      "loss": 4.2217,
      "step": 12760
    },
    {
      "epoch": 0.02660416666666667,
      "grad_norm": 1.2605245113372803,
      "learning_rate": 0.00029962437431536,
      "loss": 4.3691,
      "step": 12770
    },
    {
      "epoch": 0.026625,
      "grad_norm": 1.4918314218521118,
      "learning_rate": 0.00029962367674274144,
      "loss": 4.4274,
      "step": 12780
    },
    {
      "epoch": 0.026645833333333334,
      "grad_norm": 1.2690140008926392,
      "learning_rate": 0.00029962297852380776,
      "loss": 4.2312,
      "step": 12790
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 1.189989447593689,
      "learning_rate": 0.0002996222796585621,
      "loss": 4.455,
      "step": 12800
    },
    {
      "epoch": 0.0266875,
      "grad_norm": 1.2026609182357788,
      "learning_rate": 0.0002996215801470074,
      "loss": 4.4424,
      "step": 12810
    },
    {
      "epoch": 0.026708333333333334,
      "grad_norm": 1.321839690208435,
      "learning_rate": 0.0002996208799891467,
      "loss": 4.3095,
      "step": 12820
    },
    {
      "epoch": 0.026729166666666665,
      "grad_norm": 1.335353136062622,
      "learning_rate": 0.00029962017918498305,
      "loss": 4.4218,
      "step": 12830
    },
    {
      "epoch": 0.02675,
      "grad_norm": 1.4673935174942017,
      "learning_rate": 0.0002996194777345194,
      "loss": 4.4124,
      "step": 12840
    },
    {
      "epoch": 0.026770833333333334,
      "grad_norm": 1.4060876369476318,
      "learning_rate": 0.0002996187756377589,
      "loss": 4.5202,
      "step": 12850
    },
    {
      "epoch": 0.026791666666666665,
      "grad_norm": 1.3523672819137573,
      "learning_rate": 0.00029961807289470446,
      "loss": 4.4954,
      "step": 12860
    },
    {
      "epoch": 0.0268125,
      "grad_norm": 1.322693943977356,
      "learning_rate": 0.00029961736950535916,
      "loss": 4.5405,
      "step": 12870
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 1.5324389934539795,
      "learning_rate": 0.0002996166654697261,
      "loss": 4.4596,
      "step": 12880
    },
    {
      "epoch": 0.026854166666666665,
      "grad_norm": 1.3944363594055176,
      "learning_rate": 0.00029961596078780824,
      "loss": 4.3626,
      "step": 12890
    },
    {
      "epoch": 0.026875,
      "grad_norm": 1.3524936437606812,
      "learning_rate": 0.00029961525545960864,
      "loss": 4.2862,
      "step": 12900
    },
    {
      "epoch": 0.026895833333333334,
      "grad_norm": 1.3651233911514282,
      "learning_rate": 0.0002996145494851303,
      "loss": 4.2835,
      "step": 12910
    },
    {
      "epoch": 0.026916666666666665,
      "grad_norm": 1.4410617351531982,
      "learning_rate": 0.00029961384286437644,
      "loss": 4.1406,
      "step": 12920
    },
    {
      "epoch": 0.0269375,
      "grad_norm": 1.2232688665390015,
      "learning_rate": 0.0002996131355973499,
      "loss": 4.3842,
      "step": 12930
    },
    {
      "epoch": 0.026958333333333334,
      "grad_norm": 1.3025485277175903,
      "learning_rate": 0.00029961242768405396,
      "loss": 4.2408,
      "step": 12940
    },
    {
      "epoch": 0.026979166666666665,
      "grad_norm": 1.3623590469360352,
      "learning_rate": 0.00029961171912449143,
      "loss": 4.4049,
      "step": 12950
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.3774023056030273,
      "learning_rate": 0.0002996110099186655,
      "loss": 4.561,
      "step": 12960
    },
    {
      "epoch": 0.027020833333333334,
      "grad_norm": 1.2991564273834229,
      "learning_rate": 0.00029961030006657934,
      "loss": 4.3835,
      "step": 12970
    },
    {
      "epoch": 0.027041666666666665,
      "grad_norm": 1.3089269399642944,
      "learning_rate": 0.0002996095895682358,
      "loss": 4.4532,
      "step": 12980
    },
    {
      "epoch": 0.0270625,
      "grad_norm": 1.4281734228134155,
      "learning_rate": 0.0002996088784236381,
      "loss": 4.3352,
      "step": 12990
    },
    {
      "epoch": 0.027083333333333334,
      "grad_norm": 1.3645761013031006,
      "learning_rate": 0.00029960816663278925,
      "loss": 4.5704,
      "step": 13000
    },
    {
      "epoch": 0.027083333333333334,
      "eval_loss": 4.1493144035339355,
      "eval_runtime": 7.3166,
      "eval_samples_per_second": 1.367,
      "eval_steps_per_second": 0.41,
      "step": 13000
    },
    {
      "epoch": 0.027104166666666665,
      "grad_norm": 1.2666234970092773,
      "learning_rate": 0.0002996074541956923,
      "loss": 4.3962,
      "step": 13010
    },
    {
      "epoch": 0.027125,
      "grad_norm": 1.2403662204742432,
      "learning_rate": 0.0002996067411123504,
      "loss": 4.2744,
      "step": 13020
    },
    {
      "epoch": 0.027145833333333334,
      "grad_norm": 1.434752106666565,
      "learning_rate": 0.00029960602738276663,
      "loss": 4.475,
      "step": 13030
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 1.3133149147033691,
      "learning_rate": 0.00029960531300694403,
      "loss": 4.4236,
      "step": 13040
    },
    {
      "epoch": 0.0271875,
      "grad_norm": 1.4776990413665771,
      "learning_rate": 0.00029960459798488565,
      "loss": 4.5154,
      "step": 13050
    },
    {
      "epoch": 0.027208333333333334,
      "grad_norm": 1.2863134145736694,
      "learning_rate": 0.0002996038823165947,
      "loss": 4.4139,
      "step": 13060
    },
    {
      "epoch": 0.027229166666666665,
      "grad_norm": 1.4480019807815552,
      "learning_rate": 0.00029960316600207413,
      "loss": 4.5862,
      "step": 13070
    },
    {
      "epoch": 0.02725,
      "grad_norm": 1.2743295431137085,
      "learning_rate": 0.0002996024490413271,
      "loss": 4.3751,
      "step": 13080
    },
    {
      "epoch": 0.027270833333333334,
      "grad_norm": 1.5297363996505737,
      "learning_rate": 0.00029960173143435675,
      "loss": 4.4722,
      "step": 13090
    },
    {
      "epoch": 0.027291666666666665,
      "grad_norm": 1.1884021759033203,
      "learning_rate": 0.0002996010131811661,
      "loss": 4.5362,
      "step": 13100
    },
    {
      "epoch": 0.0273125,
      "grad_norm": 1.1558446884155273,
      "learning_rate": 0.0002996002942817583,
      "loss": 4.6336,
      "step": 13110
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 1.2493159770965576,
      "learning_rate": 0.00029959957473613645,
      "loss": 4.47,
      "step": 13120
    },
    {
      "epoch": 0.027354166666666666,
      "grad_norm": 1.2786012887954712,
      "learning_rate": 0.00029959885454430363,
      "loss": 4.5317,
      "step": 13130
    },
    {
      "epoch": 0.027375,
      "grad_norm": 1.2824885845184326,
      "learning_rate": 0.000299598133706263,
      "loss": 4.3857,
      "step": 13140
    },
    {
      "epoch": 0.027395833333333335,
      "grad_norm": 1.2470561265945435,
      "learning_rate": 0.00029959741222201767,
      "loss": 4.4536,
      "step": 13150
    },
    {
      "epoch": 0.027416666666666666,
      "grad_norm": 1.4550762176513672,
      "learning_rate": 0.0002995966900915707,
      "loss": 4.311,
      "step": 13160
    },
    {
      "epoch": 0.0274375,
      "grad_norm": 1.2572375535964966,
      "learning_rate": 0.0002995959673149252,
      "loss": 4.4477,
      "step": 13170
    },
    {
      "epoch": 0.027458333333333335,
      "grad_norm": 1.2621054649353027,
      "learning_rate": 0.0002995952438920844,
      "loss": 4.3087,
      "step": 13180
    },
    {
      "epoch": 0.027479166666666666,
      "grad_norm": 1.221152424812317,
      "learning_rate": 0.0002995945198230514,
      "loss": 4.685,
      "step": 13190
    },
    {
      "epoch": 0.0275,
      "grad_norm": 1.323447585105896,
      "learning_rate": 0.0002995937951078292,
      "loss": 4.3581,
      "step": 13200
    },
    {
      "epoch": 0.027520833333333335,
      "grad_norm": 1.343018651008606,
      "learning_rate": 0.00029959306974642106,
      "loss": 4.3847,
      "step": 13210
    },
    {
      "epoch": 0.027541666666666666,
      "grad_norm": 1.411410927772522,
      "learning_rate": 0.00029959234373883004,
      "loss": 4.5443,
      "step": 13220
    },
    {
      "epoch": 0.0275625,
      "grad_norm": 1.3323813676834106,
      "learning_rate": 0.00029959161708505936,
      "loss": 4.5186,
      "step": 13230
    },
    {
      "epoch": 0.027583333333333335,
      "grad_norm": 1.2951723337173462,
      "learning_rate": 0.00029959088978511204,
      "loss": 4.6137,
      "step": 13240
    },
    {
      "epoch": 0.027604166666666666,
      "grad_norm": 1.326614260673523,
      "learning_rate": 0.00029959016183899134,
      "loss": 4.5402,
      "step": 13250
    },
    {
      "epoch": 0.027625,
      "grad_norm": 1.322170615196228,
      "learning_rate": 0.00029958943324670035,
      "loss": 4.1536,
      "step": 13260
    },
    {
      "epoch": 0.027645833333333335,
      "grad_norm": 1.2743245363235474,
      "learning_rate": 0.00029958870400824216,
      "loss": 4.5796,
      "step": 13270
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 1.222991943359375,
      "learning_rate": 0.00029958797412362,
      "loss": 4.4512,
      "step": 13280
    },
    {
      "epoch": 0.0276875,
      "grad_norm": 1.3410794734954834,
      "learning_rate": 0.0002995872435928371,
      "loss": 4.5367,
      "step": 13290
    },
    {
      "epoch": 0.027708333333333335,
      "grad_norm": 1.2963687181472778,
      "learning_rate": 0.00029958651241589646,
      "loss": 4.2718,
      "step": 13300
    },
    {
      "epoch": 0.027729166666666666,
      "grad_norm": 1.2875608205795288,
      "learning_rate": 0.0002995857805928012,
      "loss": 4.3274,
      "step": 13310
    },
    {
      "epoch": 0.02775,
      "grad_norm": 1.3222898244857788,
      "learning_rate": 0.00029958504812355473,
      "loss": 4.4296,
      "step": 13320
    },
    {
      "epoch": 0.027770833333333335,
      "grad_norm": 1.4451054334640503,
      "learning_rate": 0.00029958431500815995,
      "loss": 4.4317,
      "step": 13330
    },
    {
      "epoch": 0.027791666666666666,
      "grad_norm": 1.1901315450668335,
      "learning_rate": 0.0002995835812466202,
      "loss": 4.5544,
      "step": 13340
    },
    {
      "epoch": 0.0278125,
      "grad_norm": 1.4462589025497437,
      "learning_rate": 0.0002995828468389386,
      "loss": 4.4981,
      "step": 13350
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 1.3461079597473145,
      "learning_rate": 0.0002995821117851183,
      "loss": 4.5215,
      "step": 13360
    },
    {
      "epoch": 0.027854166666666666,
      "grad_norm": 1.4736827611923218,
      "learning_rate": 0.00029958137608516246,
      "loss": 4.4139,
      "step": 13370
    },
    {
      "epoch": 0.027875,
      "grad_norm": 1.2201629877090454,
      "learning_rate": 0.00029958063973907424,
      "loss": 4.4539,
      "step": 13380
    },
    {
      "epoch": 0.027895833333333335,
      "grad_norm": 1.2469544410705566,
      "learning_rate": 0.00029957990274685694,
      "loss": 4.289,
      "step": 13390
    },
    {
      "epoch": 0.027916666666666666,
      "grad_norm": 1.2621151208877563,
      "learning_rate": 0.0002995791651085136,
      "loss": 4.2811,
      "step": 13400
    },
    {
      "epoch": 0.0279375,
      "grad_norm": 1.1616758108139038,
      "learning_rate": 0.00029957842682404757,
      "loss": 4.5535,
      "step": 13410
    },
    {
      "epoch": 0.027958333333333335,
      "grad_norm": 1.2718795537948608,
      "learning_rate": 0.0002995776878934619,
      "loss": 4.4124,
      "step": 13420
    },
    {
      "epoch": 0.027979166666666666,
      "grad_norm": 1.275055170059204,
      "learning_rate": 0.0002995769483167598,
      "loss": 4.5277,
      "step": 13430
    },
    {
      "epoch": 0.028,
      "grad_norm": 1.2896703481674194,
      "learning_rate": 0.0002995762080939445,
      "loss": 4.4044,
      "step": 13440
    },
    {
      "epoch": 0.02802083333333333,
      "grad_norm": 1.4547781944274902,
      "learning_rate": 0.0002995754672250192,
      "loss": 4.6936,
      "step": 13450
    },
    {
      "epoch": 0.028041666666666666,
      "grad_norm": 1.5931153297424316,
      "learning_rate": 0.0002995747257099871,
      "loss": 4.4777,
      "step": 13460
    },
    {
      "epoch": 0.0280625,
      "grad_norm": 1.1687531471252441,
      "learning_rate": 0.00029957398354885133,
      "loss": 4.4162,
      "step": 13470
    },
    {
      "epoch": 0.02808333333333333,
      "grad_norm": 1.315378189086914,
      "learning_rate": 0.0002995732407416152,
      "loss": 4.3599,
      "step": 13480
    },
    {
      "epoch": 0.028104166666666666,
      "grad_norm": 1.370220422744751,
      "learning_rate": 0.0002995724972882819,
      "loss": 4.3577,
      "step": 13490
    },
    {
      "epoch": 0.028125,
      "grad_norm": 1.2918747663497925,
      "learning_rate": 0.0002995717531888546,
      "loss": 4.3584,
      "step": 13500
    },
    {
      "epoch": 0.02814583333333333,
      "grad_norm": 1.3258496522903442,
      "learning_rate": 0.0002995710084433365,
      "loss": 4.4975,
      "step": 13510
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 1.3072278499603271,
      "learning_rate": 0.0002995702630517309,
      "loss": 4.3579,
      "step": 13520
    },
    {
      "epoch": 0.0281875,
      "grad_norm": 1.4076626300811768,
      "learning_rate": 0.0002995695170140409,
      "loss": 4.3515,
      "step": 13530
    },
    {
      "epoch": 0.028208333333333332,
      "grad_norm": 1.2870529890060425,
      "learning_rate": 0.00029956877033026984,
      "loss": 4.2354,
      "step": 13540
    },
    {
      "epoch": 0.028229166666666666,
      "grad_norm": 1.3197294473648071,
      "learning_rate": 0.0002995680230004209,
      "loss": 4.4601,
      "step": 13550
    },
    {
      "epoch": 0.02825,
      "grad_norm": 1.6209028959274292,
      "learning_rate": 0.0002995672750244973,
      "loss": 4.3998,
      "step": 13560
    },
    {
      "epoch": 0.028270833333333332,
      "grad_norm": 1.4794155359268188,
      "learning_rate": 0.00029956652640250223,
      "loss": 4.3068,
      "step": 13570
    },
    {
      "epoch": 0.028291666666666666,
      "grad_norm": 1.2091902494430542,
      "learning_rate": 0.000299565777134439,
      "loss": 4.4788,
      "step": 13580
    },
    {
      "epoch": 0.0283125,
      "grad_norm": 1.319093942642212,
      "learning_rate": 0.0002995650272203108,
      "loss": 4.3708,
      "step": 13590
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 1.4193148612976074,
      "learning_rate": 0.0002995642766601209,
      "loss": 4.2144,
      "step": 13600
    },
    {
      "epoch": 0.028354166666666666,
      "grad_norm": 1.1614099740982056,
      "learning_rate": 0.00029956352545387256,
      "loss": 4.3614,
      "step": 13610
    },
    {
      "epoch": 0.028375,
      "grad_norm": 1.3038926124572754,
      "learning_rate": 0.000299562773601569,
      "loss": 4.3489,
      "step": 13620
    },
    {
      "epoch": 0.028395833333333332,
      "grad_norm": 1.3212283849716187,
      "learning_rate": 0.0002995620211032134,
      "loss": 4.5205,
      "step": 13630
    },
    {
      "epoch": 0.028416666666666666,
      "grad_norm": 1.3012675046920776,
      "learning_rate": 0.00029956126795880906,
      "loss": 4.4395,
      "step": 13640
    },
    {
      "epoch": 0.0284375,
      "grad_norm": 1.2812570333480835,
      "learning_rate": 0.00029956051416835924,
      "loss": 4.467,
      "step": 13650
    },
    {
      "epoch": 0.028458333333333332,
      "grad_norm": 1.3245604038238525,
      "learning_rate": 0.00029955975973186723,
      "loss": 4.4231,
      "step": 13660
    },
    {
      "epoch": 0.028479166666666667,
      "grad_norm": 1.3690067529678345,
      "learning_rate": 0.0002995590046493363,
      "loss": 4.3391,
      "step": 13670
    },
    {
      "epoch": 0.0285,
      "grad_norm": 1.2730932235717773,
      "learning_rate": 0.0002995582489207696,
      "loss": 4.4289,
      "step": 13680
    },
    {
      "epoch": 0.028520833333333332,
      "grad_norm": 1.8148484230041504,
      "learning_rate": 0.0002995574925461705,
      "loss": 4.4334,
      "step": 13690
    },
    {
      "epoch": 0.028541666666666667,
      "grad_norm": 1.1947942972183228,
      "learning_rate": 0.0002995567355255422,
      "loss": 4.3979,
      "step": 13700
    },
    {
      "epoch": 0.0285625,
      "grad_norm": 1.2333475351333618,
      "learning_rate": 0.00029955597785888806,
      "loss": 4.3963,
      "step": 13710
    },
    {
      "epoch": 0.028583333333333332,
      "grad_norm": 1.3527613878250122,
      "learning_rate": 0.00029955521954621125,
      "loss": 4.3859,
      "step": 13720
    },
    {
      "epoch": 0.028604166666666667,
      "grad_norm": 1.3997234106063843,
      "learning_rate": 0.00029955446058751507,
      "loss": 4.1727,
      "step": 13730
    },
    {
      "epoch": 0.028625,
      "grad_norm": 1.2319999933242798,
      "learning_rate": 0.0002995537009828028,
      "loss": 4.5374,
      "step": 13740
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 1.4702941179275513,
      "learning_rate": 0.0002995529407320778,
      "loss": 4.2842,
      "step": 13750
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 1.287992238998413,
      "learning_rate": 0.0002995521798353433,
      "loss": 4.5661,
      "step": 13760
    },
    {
      "epoch": 0.0286875,
      "grad_norm": 1.4155888557434082,
      "learning_rate": 0.0002995514182926026,
      "loss": 4.6325,
      "step": 13770
    },
    {
      "epoch": 0.028708333333333332,
      "grad_norm": 1.3008203506469727,
      "learning_rate": 0.0002995506561038589,
      "loss": 4.4079,
      "step": 13780
    },
    {
      "epoch": 0.028729166666666667,
      "grad_norm": 1.1625415086746216,
      "learning_rate": 0.00029954989326911555,
      "loss": 4.5086,
      "step": 13790
    },
    {
      "epoch": 0.02875,
      "grad_norm": 1.4974333047866821,
      "learning_rate": 0.00029954912978837593,
      "loss": 4.5026,
      "step": 13800
    },
    {
      "epoch": 0.028770833333333332,
      "grad_norm": 1.3226205110549927,
      "learning_rate": 0.00029954836566164323,
      "loss": 4.2605,
      "step": 13810
    },
    {
      "epoch": 0.028791666666666667,
      "grad_norm": 1.8207899332046509,
      "learning_rate": 0.00029954760088892076,
      "loss": 4.2816,
      "step": 13820
    },
    {
      "epoch": 0.0288125,
      "grad_norm": 1.1612448692321777,
      "learning_rate": 0.0002995468354702119,
      "loss": 4.4497,
      "step": 13830
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 1.2421478033065796,
      "learning_rate": 0.0002995460694055199,
      "loss": 4.5027,
      "step": 13840
    },
    {
      "epoch": 0.028854166666666667,
      "grad_norm": 1.3666911125183105,
      "learning_rate": 0.00029954530269484805,
      "loss": 4.5257,
      "step": 13850
    },
    {
      "epoch": 0.028875,
      "grad_norm": 1.327392578125,
      "learning_rate": 0.00029954453533819966,
      "loss": 4.3586,
      "step": 13860
    },
    {
      "epoch": 0.028895833333333332,
      "grad_norm": 1.3711150884628296,
      "learning_rate": 0.0002995437673355781,
      "loss": 4.1944,
      "step": 13870
    },
    {
      "epoch": 0.028916666666666667,
      "grad_norm": 1.8659204244613647,
      "learning_rate": 0.0002995429986869867,
      "loss": 4.3338,
      "step": 13880
    },
    {
      "epoch": 0.0289375,
      "grad_norm": 1.3593071699142456,
      "learning_rate": 0.0002995422293924287,
      "loss": 4.4643,
      "step": 13890
    },
    {
      "epoch": 0.028958333333333332,
      "grad_norm": 1.1821775436401367,
      "learning_rate": 0.0002995414594519074,
      "loss": 4.5423,
      "step": 13900
    },
    {
      "epoch": 0.028979166666666667,
      "grad_norm": 1.3729276657104492,
      "learning_rate": 0.0002995406888654263,
      "loss": 4.4504,
      "step": 13910
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.2915633916854858,
      "learning_rate": 0.00029953991763298856,
      "loss": 4.3284,
      "step": 13920
    },
    {
      "epoch": 0.029020833333333333,
      "grad_norm": 1.1642980575561523,
      "learning_rate": 0.00029953914575459755,
      "loss": 4.4648,
      "step": 13930
    },
    {
      "epoch": 0.029041666666666667,
      "grad_norm": 1.3381197452545166,
      "learning_rate": 0.00029953837323025667,
      "loss": 4.5662,
      "step": 13940
    },
    {
      "epoch": 0.0290625,
      "grad_norm": 1.157099723815918,
      "learning_rate": 0.00029953760005996916,
      "loss": 4.5018,
      "step": 13950
    },
    {
      "epoch": 0.029083333333333333,
      "grad_norm": 1.4199779033660889,
      "learning_rate": 0.0002995368262437384,
      "loss": 4.4489,
      "step": 13960
    },
    {
      "epoch": 0.029104166666666667,
      "grad_norm": 1.4204902648925781,
      "learning_rate": 0.00029953605178156784,
      "loss": 4.5488,
      "step": 13970
    },
    {
      "epoch": 0.029125,
      "grad_norm": 1.4391546249389648,
      "learning_rate": 0.00029953527667346064,
      "loss": 4.4892,
      "step": 13980
    },
    {
      "epoch": 0.029145833333333333,
      "grad_norm": 1.2671923637390137,
      "learning_rate": 0.00029953450091942026,
      "loss": 4.6053,
      "step": 13990
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 1.2792809009552002,
      "learning_rate": 0.00029953372451945,
      "loss": 4.5747,
      "step": 14000
    },
    {
      "epoch": 0.029166666666666667,
      "eval_loss": 4.157000541687012,
      "eval_runtime": 7.2816,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 14000
    },
    {
      "epoch": 0.0291875,
      "grad_norm": 1.3192323446273804,
      "learning_rate": 0.00029953294747355326,
      "loss": 4.5457,
      "step": 14010
    },
    {
      "epoch": 0.029208333333333333,
      "grad_norm": 1.275876760482788,
      "learning_rate": 0.00029953216978173335,
      "loss": 4.4186,
      "step": 14020
    },
    {
      "epoch": 0.029229166666666667,
      "grad_norm": 1.119795799255371,
      "learning_rate": 0.0002995313914439937,
      "loss": 4.5616,
      "step": 14030
    },
    {
      "epoch": 0.02925,
      "grad_norm": 1.2607086896896362,
      "learning_rate": 0.00029953061246033765,
      "loss": 4.3074,
      "step": 14040
    },
    {
      "epoch": 0.029270833333333333,
      "grad_norm": 1.2783787250518799,
      "learning_rate": 0.0002995298328307685,
      "loss": 4.4184,
      "step": 14050
    },
    {
      "epoch": 0.029291666666666667,
      "grad_norm": 1.1704925298690796,
      "learning_rate": 0.0002995290525552897,
      "loss": 4.4363,
      "step": 14060
    },
    {
      "epoch": 0.0293125,
      "grad_norm": 1.2410873174667358,
      "learning_rate": 0.0002995282716339045,
      "loss": 4.3477,
      "step": 14070
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 1.3027440309524536,
      "learning_rate": 0.0002995274900666164,
      "loss": 4.3595,
      "step": 14080
    },
    {
      "epoch": 0.029354166666666667,
      "grad_norm": 1.2218456268310547,
      "learning_rate": 0.00029952670785342875,
      "loss": 4.3866,
      "step": 14090
    },
    {
      "epoch": 0.029375,
      "grad_norm": 1.2768791913986206,
      "learning_rate": 0.0002995259249943449,
      "loss": 4.4171,
      "step": 14100
    },
    {
      "epoch": 0.029395833333333333,
      "grad_norm": 1.2593799829483032,
      "learning_rate": 0.0002995251414893682,
      "loss": 4.4312,
      "step": 14110
    },
    {
      "epoch": 0.029416666666666667,
      "grad_norm": 1.2845313549041748,
      "learning_rate": 0.0002995243573385021,
      "loss": 4.5099,
      "step": 14120
    },
    {
      "epoch": 0.0294375,
      "grad_norm": 1.2688523530960083,
      "learning_rate": 0.00029952357254175,
      "loss": 4.4016,
      "step": 14130
    },
    {
      "epoch": 0.029458333333333333,
      "grad_norm": 1.3239070177078247,
      "learning_rate": 0.0002995227870991152,
      "loss": 4.378,
      "step": 14140
    },
    {
      "epoch": 0.029479166666666667,
      "grad_norm": 1.237166166305542,
      "learning_rate": 0.00029952200101060114,
      "loss": 4.3475,
      "step": 14150
    },
    {
      "epoch": 0.0295,
      "grad_norm": 1.3517409563064575,
      "learning_rate": 0.00029952121427621127,
      "loss": 4.4868,
      "step": 14160
    },
    {
      "epoch": 0.029520833333333333,
      "grad_norm": 1.2078849077224731,
      "learning_rate": 0.0002995204268959489,
      "loss": 4.4296,
      "step": 14170
    },
    {
      "epoch": 0.029541666666666667,
      "grad_norm": 1.3740627765655518,
      "learning_rate": 0.00029951963886981744,
      "loss": 4.3672,
      "step": 14180
    },
    {
      "epoch": 0.0295625,
      "grad_norm": 1.3685754537582397,
      "learning_rate": 0.0002995188501978204,
      "loss": 4.5125,
      "step": 14190
    },
    {
      "epoch": 0.029583333333333333,
      "grad_norm": 1.3272954225540161,
      "learning_rate": 0.0002995180608799611,
      "loss": 4.2866,
      "step": 14200
    },
    {
      "epoch": 0.029604166666666668,
      "grad_norm": 1.369449257850647,
      "learning_rate": 0.0002995172709162429,
      "loss": 4.4141,
      "step": 14210
    },
    {
      "epoch": 0.029625,
      "grad_norm": 1.2254729270935059,
      "learning_rate": 0.0002995164803066693,
      "loss": 4.7062,
      "step": 14220
    },
    {
      "epoch": 0.029645833333333333,
      "grad_norm": 1.8109142780303955,
      "learning_rate": 0.0002995156890512437,
      "loss": 4.3692,
      "step": 14230
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 1.2896908521652222,
      "learning_rate": 0.0002995148971499695,
      "loss": 4.7886,
      "step": 14240
    },
    {
      "epoch": 0.0296875,
      "grad_norm": 1.2273492813110352,
      "learning_rate": 0.00029951410460285016,
      "loss": 4.6169,
      "step": 14250
    },
    {
      "epoch": 0.029708333333333333,
      "grad_norm": 1.2598861455917358,
      "learning_rate": 0.00029951331140988904,
      "loss": 4.42,
      "step": 14260
    },
    {
      "epoch": 0.029729166666666668,
      "grad_norm": 1.3576138019561768,
      "learning_rate": 0.0002995125175710896,
      "loss": 4.3231,
      "step": 14270
    },
    {
      "epoch": 0.02975,
      "grad_norm": 1.1702440977096558,
      "learning_rate": 0.00029951172308645527,
      "loss": 4.3327,
      "step": 14280
    },
    {
      "epoch": 0.029770833333333333,
      "grad_norm": 1.2667378187179565,
      "learning_rate": 0.00029951092795598946,
      "loss": 4.4944,
      "step": 14290
    },
    {
      "epoch": 0.029791666666666668,
      "grad_norm": 1.2763251066207886,
      "learning_rate": 0.00029951013217969564,
      "loss": 4.4072,
      "step": 14300
    },
    {
      "epoch": 0.0298125,
      "grad_norm": 1.3570075035095215,
      "learning_rate": 0.00029950933575757717,
      "loss": 4.4791,
      "step": 14310
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 1.2715904712677002,
      "learning_rate": 0.00029950853868963764,
      "loss": 4.3564,
      "step": 14320
    },
    {
      "epoch": 0.029854166666666668,
      "grad_norm": 1.3428186178207397,
      "learning_rate": 0.00029950774097588033,
      "loss": 4.3106,
      "step": 14330
    },
    {
      "epoch": 0.029875,
      "grad_norm": 1.3734650611877441,
      "learning_rate": 0.0002995069426163088,
      "loss": 4.2868,
      "step": 14340
    },
    {
      "epoch": 0.029895833333333333,
      "grad_norm": 1.3556841611862183,
      "learning_rate": 0.00029950614361092643,
      "loss": 4.5572,
      "step": 14350
    },
    {
      "epoch": 0.029916666666666668,
      "grad_norm": 1.3190503120422363,
      "learning_rate": 0.00029950534395973676,
      "loss": 4.3681,
      "step": 14360
    },
    {
      "epoch": 0.0299375,
      "grad_norm": 1.222019910812378,
      "learning_rate": 0.0002995045436627431,
      "loss": 4.4045,
      "step": 14370
    },
    {
      "epoch": 0.029958333333333333,
      "grad_norm": 1.1693676710128784,
      "learning_rate": 0.0002995037427199491,
      "loss": 4.3936,
      "step": 14380
    },
    {
      "epoch": 0.029979166666666668,
      "grad_norm": 1.3326648473739624,
      "learning_rate": 0.00029950294113135795,
      "loss": 4.4645,
      "step": 14390
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1879372596740723,
      "learning_rate": 0.00029950213889697334,
      "loss": 4.51,
      "step": 14400
    },
    {
      "epoch": 0.030020833333333333,
      "grad_norm": 1.1976838111877441,
      "learning_rate": 0.0002995013360167987,
      "loss": 4.5131,
      "step": 14410
    },
    {
      "epoch": 0.030041666666666668,
      "grad_norm": 1.2695047855377197,
      "learning_rate": 0.00029950053249083746,
      "loss": 4.4024,
      "step": 14420
    },
    {
      "epoch": 0.0300625,
      "grad_norm": 1.262426733970642,
      "learning_rate": 0.0002994997283190931,
      "loss": 4.3151,
      "step": 14430
    },
    {
      "epoch": 0.030083333333333333,
      "grad_norm": 1.223875641822815,
      "learning_rate": 0.0002994989235015691,
      "loss": 4.361,
      "step": 14440
    },
    {
      "epoch": 0.030104166666666668,
      "grad_norm": 1.2560384273529053,
      "learning_rate": 0.00029949811803826887,
      "loss": 4.2745,
      "step": 14450
    },
    {
      "epoch": 0.030125,
      "grad_norm": 1.3633493185043335,
      "learning_rate": 0.000299497311929196,
      "loss": 4.2531,
      "step": 14460
    },
    {
      "epoch": 0.030145833333333334,
      "grad_norm": 1.151828646659851,
      "learning_rate": 0.0002994965051743539,
      "loss": 4.3864,
      "step": 14470
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 1.473568081855774,
      "learning_rate": 0.00029949569777374606,
      "loss": 4.4748,
      "step": 14480
    },
    {
      "epoch": 0.0301875,
      "grad_norm": 1.4128378629684448,
      "learning_rate": 0.00029949488972737595,
      "loss": 4.494,
      "step": 14490
    },
    {
      "epoch": 0.030208333333333334,
      "grad_norm": 1.266989827156067,
      "learning_rate": 0.0002994940810352472,
      "loss": 4.4465,
      "step": 14500
    },
    {
      "epoch": 0.030229166666666668,
      "grad_norm": 1.1673697233200073,
      "learning_rate": 0.0002994932716973631,
      "loss": 4.1866,
      "step": 14510
    },
    {
      "epoch": 0.03025,
      "grad_norm": 1.2536290884017944,
      "learning_rate": 0.00029949246171372725,
      "loss": 4.3918,
      "step": 14520
    },
    {
      "epoch": 0.030270833333333334,
      "grad_norm": 1.1953155994415283,
      "learning_rate": 0.00029949165108434316,
      "loss": 4.4415,
      "step": 14530
    },
    {
      "epoch": 0.030291666666666668,
      "grad_norm": 1.3327285051345825,
      "learning_rate": 0.00029949083980921427,
      "loss": 4.4111,
      "step": 14540
    },
    {
      "epoch": 0.0303125,
      "grad_norm": 1.2712759971618652,
      "learning_rate": 0.0002994900278883441,
      "loss": 4.3594,
      "step": 14550
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 1.3399466276168823,
      "learning_rate": 0.00029948921532173625,
      "loss": 4.437,
      "step": 14560
    },
    {
      "epoch": 0.030354166666666668,
      "grad_norm": 1.2806459665298462,
      "learning_rate": 0.0002994884021093942,
      "loss": 4.5321,
      "step": 14570
    },
    {
      "epoch": 0.030375,
      "grad_norm": 1.217353105545044,
      "learning_rate": 0.0002994875882513214,
      "loss": 4.4642,
      "step": 14580
    },
    {
      "epoch": 0.030395833333333334,
      "grad_norm": 1.8975988626480103,
      "learning_rate": 0.0002994867737475213,
      "loss": 4.2415,
      "step": 14590
    },
    {
      "epoch": 0.030416666666666668,
      "grad_norm": 1.1227291822433472,
      "learning_rate": 0.0002994859585979976,
      "loss": 4.54,
      "step": 14600
    },
    {
      "epoch": 0.0304375,
      "grad_norm": 1.589377760887146,
      "learning_rate": 0.00029948514280275367,
      "loss": 4.4365,
      "step": 14610
    },
    {
      "epoch": 0.030458333333333334,
      "grad_norm": 1.2203203439712524,
      "learning_rate": 0.00029948432636179315,
      "loss": 4.3976,
      "step": 14620
    },
    {
      "epoch": 0.03047916666666667,
      "grad_norm": 1.2403090000152588,
      "learning_rate": 0.00029948350927511944,
      "loss": 4.6199,
      "step": 14630
    },
    {
      "epoch": 0.0305,
      "grad_norm": 1.1661124229431152,
      "learning_rate": 0.0002994826915427362,
      "loss": 4.5027,
      "step": 14640
    },
    {
      "epoch": 0.030520833333333334,
      "grad_norm": 1.2706246376037598,
      "learning_rate": 0.0002994818731646469,
      "loss": 4.3563,
      "step": 14650
    },
    {
      "epoch": 0.03054166666666667,
      "grad_norm": 1.2129379510879517,
      "learning_rate": 0.0002994810541408551,
      "loss": 4.4122,
      "step": 14660
    },
    {
      "epoch": 0.0305625,
      "grad_norm": 1.2635976076126099,
      "learning_rate": 0.0002994802344713643,
      "loss": 4.33,
      "step": 14670
    },
    {
      "epoch": 0.030583333333333334,
      "grad_norm": 1.3929482698440552,
      "learning_rate": 0.00029947941415617795,
      "loss": 4.2572,
      "step": 14680
    },
    {
      "epoch": 0.030604166666666665,
      "grad_norm": 1.2941887378692627,
      "learning_rate": 0.00029947859319529984,
      "loss": 4.1495,
      "step": 14690
    },
    {
      "epoch": 0.030625,
      "grad_norm": 1.3504433631896973,
      "learning_rate": 0.00029947777158873326,
      "loss": 4.4901,
      "step": 14700
    },
    {
      "epoch": 0.030645833333333334,
      "grad_norm": 1.3057150840759277,
      "learning_rate": 0.00029947694933648195,
      "loss": 4.4628,
      "step": 14710
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 1.0662927627563477,
      "learning_rate": 0.00029947612643854937,
      "loss": 4.5329,
      "step": 14720
    },
    {
      "epoch": 0.0306875,
      "grad_norm": 1.394528865814209,
      "learning_rate": 0.0002994753028949391,
      "loss": 4.3836,
      "step": 14730
    },
    {
      "epoch": 0.030708333333333334,
      "grad_norm": 1.652701735496521,
      "learning_rate": 0.0002994744787056547,
      "loss": 4.4333,
      "step": 14740
    },
    {
      "epoch": 0.030729166666666665,
      "grad_norm": 1.273600697517395,
      "learning_rate": 0.0002994736538706997,
      "loss": 4.3945,
      "step": 14750
    },
    {
      "epoch": 0.03075,
      "grad_norm": 1.230666995048523,
      "learning_rate": 0.0002994728283900776,
      "loss": 4.5941,
      "step": 14760
    },
    {
      "epoch": 0.030770833333333334,
      "grad_norm": 1.26962411403656,
      "learning_rate": 0.0002994720022637922,
      "loss": 4.3563,
      "step": 14770
    },
    {
      "epoch": 0.030791666666666665,
      "grad_norm": 1.2861251831054688,
      "learning_rate": 0.0002994711754918468,
      "loss": 4.4022,
      "step": 14780
    },
    {
      "epoch": 0.0308125,
      "grad_norm": 1.3384746313095093,
      "learning_rate": 0.00029947034807424513,
      "loss": 4.4858,
      "step": 14790
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 1.2316361665725708,
      "learning_rate": 0.0002994695200109907,
      "loss": 4.6134,
      "step": 14800
    },
    {
      "epoch": 0.030854166666666665,
      "grad_norm": 1.4349339008331299,
      "learning_rate": 0.00029946869130208713,
      "loss": 4.1562,
      "step": 14810
    },
    {
      "epoch": 0.030875,
      "grad_norm": 1.2031832933425903,
      "learning_rate": 0.00029946786194753796,
      "loss": 4.3371,
      "step": 14820
    },
    {
      "epoch": 0.030895833333333334,
      "grad_norm": 1.230909824371338,
      "learning_rate": 0.0002994670319473468,
      "loss": 4.4479,
      "step": 14830
    },
    {
      "epoch": 0.030916666666666665,
      "grad_norm": 1.2581838369369507,
      "learning_rate": 0.00029946620130151725,
      "loss": 4.2582,
      "step": 14840
    },
    {
      "epoch": 0.0309375,
      "grad_norm": 1.274564266204834,
      "learning_rate": 0.0002994653700100528,
      "loss": 4.5932,
      "step": 14850
    },
    {
      "epoch": 0.030958333333333334,
      "grad_norm": 1.2700483798980713,
      "learning_rate": 0.00029946453807295717,
      "loss": 4.3519,
      "step": 14860
    },
    {
      "epoch": 0.030979166666666665,
      "grad_norm": 1.1748499870300293,
      "learning_rate": 0.00029946370549023386,
      "loss": 4.3824,
      "step": 14870
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.3003973960876465,
      "learning_rate": 0.00029946287226188654,
      "loss": 4.5353,
      "step": 14880
    },
    {
      "epoch": 0.031020833333333334,
      "grad_norm": 1.209887981414795,
      "learning_rate": 0.00029946203838791883,
      "loss": 4.5436,
      "step": 14890
    },
    {
      "epoch": 0.031041666666666665,
      "grad_norm": 1.2659399509429932,
      "learning_rate": 0.0002994612038683342,
      "loss": 4.463,
      "step": 14900
    },
    {
      "epoch": 0.0310625,
      "grad_norm": 1.3087103366851807,
      "learning_rate": 0.0002994603687031363,
      "loss": 4.4442,
      "step": 14910
    },
    {
      "epoch": 0.031083333333333334,
      "grad_norm": 1.2804867029190063,
      "learning_rate": 0.0002994595328923288,
      "loss": 4.5104,
      "step": 14920
    },
    {
      "epoch": 0.031104166666666665,
      "grad_norm": 1.35648512840271,
      "learning_rate": 0.00029945869643591534,
      "loss": 4.274,
      "step": 14930
    },
    {
      "epoch": 0.031125,
      "grad_norm": 1.3036009073257446,
      "learning_rate": 0.00029945785933389944,
      "loss": 4.4795,
      "step": 14940
    },
    {
      "epoch": 0.031145833333333334,
      "grad_norm": 1.2743955850601196,
      "learning_rate": 0.0002994570215862847,
      "loss": 4.2461,
      "step": 14950
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 1.2680809497833252,
      "learning_rate": 0.00029945618319307483,
      "loss": 4.469,
      "step": 14960
    },
    {
      "epoch": 0.0311875,
      "grad_norm": 1.2244648933410645,
      "learning_rate": 0.00029945534415427334,
      "loss": 4.4861,
      "step": 14970
    },
    {
      "epoch": 0.031208333333333334,
      "grad_norm": 1.4321621656417847,
      "learning_rate": 0.000299454504469884,
      "loss": 4.5059,
      "step": 14980
    },
    {
      "epoch": 0.031229166666666665,
      "grad_norm": 1.294592261314392,
      "learning_rate": 0.0002994536641399103,
      "loss": 4.4672,
      "step": 14990
    },
    {
      "epoch": 0.03125,
      "grad_norm": 1.1212379932403564,
      "learning_rate": 0.000299452823164356,
      "loss": 4.3402,
      "step": 15000
    },
    {
      "epoch": 0.03125,
      "eval_loss": 4.139269828796387,
      "eval_runtime": 7.3117,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 15000
    },
    {
      "epoch": 0.03127083333333333,
      "grad_norm": 1.2952005863189697,
      "learning_rate": 0.00029945198154322463,
      "loss": 4.5353,
      "step": 15010
    },
    {
      "epoch": 0.03129166666666667,
      "grad_norm": 1.2224962711334229,
      "learning_rate": 0.00029945113927651985,
      "loss": 4.4304,
      "step": 15020
    },
    {
      "epoch": 0.0313125,
      "grad_norm": 1.3476285934448242,
      "learning_rate": 0.00029945029636424525,
      "loss": 4.4235,
      "step": 15030
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 1.444172739982605,
      "learning_rate": 0.0002994494528064046,
      "loss": 4.3047,
      "step": 15040
    },
    {
      "epoch": 0.03135416666666667,
      "grad_norm": 1.2670780420303345,
      "learning_rate": 0.0002994486086030015,
      "loss": 4.2637,
      "step": 15050
    },
    {
      "epoch": 0.031375,
      "grad_norm": 1.2429300546646118,
      "learning_rate": 0.0002994477637540395,
      "loss": 4.29,
      "step": 15060
    },
    {
      "epoch": 0.03139583333333333,
      "grad_norm": 1.1847587823867798,
      "learning_rate": 0.00029944691825952227,
      "loss": 4.319,
      "step": 15070
    },
    {
      "epoch": 0.03141666666666667,
      "grad_norm": 1.257643461227417,
      "learning_rate": 0.0002994460721194536,
      "loss": 4.5232,
      "step": 15080
    },
    {
      "epoch": 0.0314375,
      "grad_norm": 1.2036175727844238,
      "learning_rate": 0.00029944522533383706,
      "loss": 4.5123,
      "step": 15090
    },
    {
      "epoch": 0.03145833333333333,
      "grad_norm": 1.2721202373504639,
      "learning_rate": 0.0002994443779026762,
      "loss": 4.2509,
      "step": 15100
    },
    {
      "epoch": 0.03147916666666667,
      "grad_norm": 1.5317810773849487,
      "learning_rate": 0.0002994435298259749,
      "loss": 4.3639,
      "step": 15110
    },
    {
      "epoch": 0.0315,
      "grad_norm": 1.4536546468734741,
      "learning_rate": 0.00029944268110373664,
      "loss": 4.2759,
      "step": 15120
    },
    {
      "epoch": 0.03152083333333333,
      "grad_norm": 1.1615856885910034,
      "learning_rate": 0.00029944183173596516,
      "loss": 4.5035,
      "step": 15130
    },
    {
      "epoch": 0.03154166666666667,
      "grad_norm": 1.2387964725494385,
      "learning_rate": 0.00029944098172266415,
      "loss": 4.33,
      "step": 15140
    },
    {
      "epoch": 0.0315625,
      "grad_norm": 1.24073326587677,
      "learning_rate": 0.00029944013106383724,
      "loss": 4.4875,
      "step": 15150
    },
    {
      "epoch": 0.03158333333333333,
      "grad_norm": 1.5204461812973022,
      "learning_rate": 0.00029943927975948807,
      "loss": 4.3052,
      "step": 15160
    },
    {
      "epoch": 0.03160416666666667,
      "grad_norm": 1.5283499956130981,
      "learning_rate": 0.00029943842780962037,
      "loss": 4.2972,
      "step": 15170
    },
    {
      "epoch": 0.031625,
      "grad_norm": 1.492442011833191,
      "learning_rate": 0.00029943757521423784,
      "loss": 4.5024,
      "step": 15180
    },
    {
      "epoch": 0.03164583333333333,
      "grad_norm": 1.2258594036102295,
      "learning_rate": 0.00029943672197334416,
      "loss": 4.5553,
      "step": 15190
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 1.0828858613967896,
      "learning_rate": 0.00029943586808694295,
      "loss": 4.3639,
      "step": 15200
    },
    {
      "epoch": 0.0316875,
      "grad_norm": 1.3063210248947144,
      "learning_rate": 0.000299435013555038,
      "loss": 4.3978,
      "step": 15210
    },
    {
      "epoch": 0.03170833333333333,
      "grad_norm": 1.3359094858169556,
      "learning_rate": 0.00029943415837763285,
      "loss": 4.2767,
      "step": 15220
    },
    {
      "epoch": 0.03172916666666667,
      "grad_norm": 1.3537296056747437,
      "learning_rate": 0.0002994333025547313,
      "loss": 4.3188,
      "step": 15230
    },
    {
      "epoch": 0.03175,
      "grad_norm": 1.279741883277893,
      "learning_rate": 0.0002994324460863371,
      "loss": 4.3279,
      "step": 15240
    },
    {
      "epoch": 0.03177083333333333,
      "grad_norm": 1.4011186361312866,
      "learning_rate": 0.00029943158897245383,
      "loss": 4.3538,
      "step": 15250
    },
    {
      "epoch": 0.03179166666666667,
      "grad_norm": 1.2080820798873901,
      "learning_rate": 0.0002994307312130853,
      "loss": 4.2315,
      "step": 15260
    },
    {
      "epoch": 0.0318125,
      "grad_norm": 1.3423727750778198,
      "learning_rate": 0.0002994298728082351,
      "loss": 4.3835,
      "step": 15270
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 1.2670079469680786,
      "learning_rate": 0.00029942901375790707,
      "loss": 4.4368,
      "step": 15280
    },
    {
      "epoch": 0.03185416666666667,
      "grad_norm": 1.2542078495025635,
      "learning_rate": 0.0002994281540621048,
      "loss": 4.4043,
      "step": 15290
    },
    {
      "epoch": 0.031875,
      "grad_norm": 1.258004903793335,
      "learning_rate": 0.00029942729372083206,
      "loss": 4.3871,
      "step": 15300
    },
    {
      "epoch": 0.03189583333333333,
      "grad_norm": 1.1989566087722778,
      "learning_rate": 0.0002994264327340925,
      "loss": 4.5079,
      "step": 15310
    },
    {
      "epoch": 0.03191666666666667,
      "grad_norm": 1.2934435606002808,
      "learning_rate": 0.00029942557110189,
      "loss": 4.4232,
      "step": 15320
    },
    {
      "epoch": 0.0319375,
      "grad_norm": 1.202153205871582,
      "learning_rate": 0.0002994247088242281,
      "loss": 4.3689,
      "step": 15330
    },
    {
      "epoch": 0.03195833333333333,
      "grad_norm": 1.338619351387024,
      "learning_rate": 0.00029942384590111066,
      "loss": 4.3878,
      "step": 15340
    },
    {
      "epoch": 0.03197916666666667,
      "grad_norm": 1.2396502494812012,
      "learning_rate": 0.0002994229823325413,
      "loss": 4.5388,
      "step": 15350
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.1954617500305176,
      "learning_rate": 0.00029942211811852384,
      "loss": 4.425,
      "step": 15360
    },
    {
      "epoch": 0.03202083333333333,
      "grad_norm": 1.2096474170684814,
      "learning_rate": 0.00029942125325906196,
      "loss": 4.4776,
      "step": 15370
    },
    {
      "epoch": 0.03204166666666667,
      "grad_norm": 1.220327615737915,
      "learning_rate": 0.0002994203877541594,
      "loss": 4.3774,
      "step": 15380
    },
    {
      "epoch": 0.0320625,
      "grad_norm": 1.4187228679656982,
      "learning_rate": 0.0002994195216038199,
      "loss": 4.352,
      "step": 15390
    },
    {
      "epoch": 0.03208333333333333,
      "grad_norm": 1.1927146911621094,
      "learning_rate": 0.0002994186548080473,
      "loss": 4.7025,
      "step": 15400
    },
    {
      "epoch": 0.03210416666666667,
      "grad_norm": 1.368342638015747,
      "learning_rate": 0.0002994177873668451,
      "loss": 4.3689,
      "step": 15410
    },
    {
      "epoch": 0.032125,
      "grad_norm": 1.2656097412109375,
      "learning_rate": 0.00029941691928021737,
      "loss": 4.556,
      "step": 15420
    },
    {
      "epoch": 0.03214583333333333,
      "grad_norm": 1.2569005489349365,
      "learning_rate": 0.0002994160505481676,
      "loss": 4.3916,
      "step": 15430
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 1.395741581916809,
      "learning_rate": 0.0002994151811706996,
      "loss": 4.3723,
      "step": 15440
    },
    {
      "epoch": 0.0321875,
      "grad_norm": 1.2955752611160278,
      "learning_rate": 0.0002994143111478172,
      "loss": 4.3462,
      "step": 15450
    },
    {
      "epoch": 0.03220833333333333,
      "grad_norm": 1.4400666952133179,
      "learning_rate": 0.00029941344047952417,
      "loss": 4.4956,
      "step": 15460
    },
    {
      "epoch": 0.03222916666666667,
      "grad_norm": 1.2641409635543823,
      "learning_rate": 0.0002994125691658242,
      "loss": 4.4077,
      "step": 15470
    },
    {
      "epoch": 0.03225,
      "grad_norm": 1.1454299688339233,
      "learning_rate": 0.00029941169720672104,
      "loss": 4.4644,
      "step": 15480
    },
    {
      "epoch": 0.03227083333333333,
      "grad_norm": 1.2600795030593872,
      "learning_rate": 0.0002994108246022185,
      "loss": 4.2742,
      "step": 15490
    },
    {
      "epoch": 0.03229166666666667,
      "grad_norm": 1.2229149341583252,
      "learning_rate": 0.0002994099513523204,
      "loss": 4.3769,
      "step": 15500
    },
    {
      "epoch": 0.0323125,
      "grad_norm": 1.2657173871994019,
      "learning_rate": 0.0002994090774570303,
      "loss": 4.3666,
      "step": 15510
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 1.158278465270996,
      "learning_rate": 0.0002994082029163522,
      "loss": 4.5696,
      "step": 15520
    },
    {
      "epoch": 0.03235416666666667,
      "grad_norm": 1.2785437107086182,
      "learning_rate": 0.00029940732773028986,
      "loss": 4.3062,
      "step": 15530
    },
    {
      "epoch": 0.032375,
      "grad_norm": 1.2963221073150635,
      "learning_rate": 0.00029940645189884696,
      "loss": 4.4314,
      "step": 15540
    },
    {
      "epoch": 0.03239583333333333,
      "grad_norm": 1.248721957206726,
      "learning_rate": 0.0002994055754220273,
      "loss": 4.4348,
      "step": 15550
    },
    {
      "epoch": 0.03241666666666667,
      "grad_norm": 1.192111849784851,
      "learning_rate": 0.00029940469829983475,
      "loss": 4.261,
      "step": 15560
    },
    {
      "epoch": 0.0324375,
      "grad_norm": 1.2966467142105103,
      "learning_rate": 0.000299403820532273,
      "loss": 4.3447,
      "step": 15570
    },
    {
      "epoch": 0.03245833333333333,
      "grad_norm": 1.4320106506347656,
      "learning_rate": 0.0002994029421193459,
      "loss": 4.2736,
      "step": 15580
    },
    {
      "epoch": 0.03247916666666667,
      "grad_norm": 1.3498507738113403,
      "learning_rate": 0.00029940206306105723,
      "loss": 4.4399,
      "step": 15590
    },
    {
      "epoch": 0.0325,
      "grad_norm": 1.3539913892745972,
      "learning_rate": 0.00029940118335741077,
      "loss": 4.3585,
      "step": 15600
    },
    {
      "epoch": 0.03252083333333333,
      "grad_norm": 1.2908902168273926,
      "learning_rate": 0.0002994003030084103,
      "loss": 4.2793,
      "step": 15610
    },
    {
      "epoch": 0.03254166666666667,
      "grad_norm": 1.422677993774414,
      "learning_rate": 0.0002993994220140597,
      "loss": 4.5026,
      "step": 15620
    },
    {
      "epoch": 0.0325625,
      "grad_norm": 1.1832740306854248,
      "learning_rate": 0.00029939854037436275,
      "loss": 4.241,
      "step": 15630
    },
    {
      "epoch": 0.03258333333333333,
      "grad_norm": 1.2755697965621948,
      "learning_rate": 0.00029939765808932324,
      "loss": 4.3136,
      "step": 15640
    },
    {
      "epoch": 0.03260416666666666,
      "grad_norm": 1.8099842071533203,
      "learning_rate": 0.00029939677515894496,
      "loss": 4.5166,
      "step": 15650
    },
    {
      "epoch": 0.032625,
      "grad_norm": 1.2435001134872437,
      "learning_rate": 0.00029939589158323177,
      "loss": 4.2655,
      "step": 15660
    },
    {
      "epoch": 0.03264583333333333,
      "grad_norm": 1.371048092842102,
      "learning_rate": 0.00029939500736218745,
      "loss": 4.353,
      "step": 15670
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 1.2482115030288696,
      "learning_rate": 0.0002993941224958158,
      "loss": 4.5721,
      "step": 15680
    },
    {
      "epoch": 0.0326875,
      "grad_norm": 1.2913028001785278,
      "learning_rate": 0.0002993932369841207,
      "loss": 4.4021,
      "step": 15690
    },
    {
      "epoch": 0.03270833333333333,
      "grad_norm": 1.2540500164031982,
      "learning_rate": 0.000299392350827106,
      "loss": 4.3341,
      "step": 15700
    },
    {
      "epoch": 0.03272916666666666,
      "grad_norm": 1.2138996124267578,
      "learning_rate": 0.00029939146402477545,
      "loss": 4.4917,
      "step": 15710
    },
    {
      "epoch": 0.03275,
      "grad_norm": 1.1979618072509766,
      "learning_rate": 0.0002993905765771329,
      "loss": 4.4744,
      "step": 15720
    },
    {
      "epoch": 0.03277083333333333,
      "grad_norm": 1.3081485033035278,
      "learning_rate": 0.00029938968848418216,
      "loss": 4.3695,
      "step": 15730
    },
    {
      "epoch": 0.03279166666666666,
      "grad_norm": 1.2497369050979614,
      "learning_rate": 0.00029938879974592713,
      "loss": 4.4458,
      "step": 15740
    },
    {
      "epoch": 0.0328125,
      "grad_norm": 1.2955435514450073,
      "learning_rate": 0.0002993879103623716,
      "loss": 4.3296,
      "step": 15750
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 1.2079832553863525,
      "learning_rate": 0.00029938702033351945,
      "loss": 4.2678,
      "step": 15760
    },
    {
      "epoch": 0.03285416666666666,
      "grad_norm": 1.3185724020004272,
      "learning_rate": 0.0002993861296593745,
      "loss": 4.4529,
      "step": 15770
    },
    {
      "epoch": 0.032875,
      "grad_norm": 1.2635647058486938,
      "learning_rate": 0.0002993852383399406,
      "loss": 4.435,
      "step": 15780
    },
    {
      "epoch": 0.03289583333333333,
      "grad_norm": 1.369642734527588,
      "learning_rate": 0.00029938434637522156,
      "loss": 4.3548,
      "step": 15790
    },
    {
      "epoch": 0.032916666666666664,
      "grad_norm": 1.2226158380508423,
      "learning_rate": 0.0002993834537652213,
      "loss": 4.377,
      "step": 15800
    },
    {
      "epoch": 0.0329375,
      "grad_norm": 1.1832948923110962,
      "learning_rate": 0.0002993825605099437,
      "loss": 4.3391,
      "step": 15810
    },
    {
      "epoch": 0.03295833333333333,
      "grad_norm": 1.504050374031067,
      "learning_rate": 0.0002993816666093925,
      "loss": 4.3913,
      "step": 15820
    },
    {
      "epoch": 0.032979166666666664,
      "grad_norm": 1.2150261402130127,
      "learning_rate": 0.0002993807720635717,
      "loss": 4.448,
      "step": 15830
    },
    {
      "epoch": 0.033,
      "grad_norm": 1.1488275527954102,
      "learning_rate": 0.000299379876872485,
      "loss": 4.3307,
      "step": 15840
    },
    {
      "epoch": 0.03302083333333333,
      "grad_norm": 1.1823506355285645,
      "learning_rate": 0.00029937898103613643,
      "loss": 4.3256,
      "step": 15850
    },
    {
      "epoch": 0.033041666666666664,
      "grad_norm": 1.212604284286499,
      "learning_rate": 0.0002993780845545298,
      "loss": 4.2405,
      "step": 15860
    },
    {
      "epoch": 0.0330625,
      "grad_norm": 1.306907057762146,
      "learning_rate": 0.00029937718742766896,
      "loss": 4.3884,
      "step": 15870
    },
    {
      "epoch": 0.03308333333333333,
      "grad_norm": 1.1950645446777344,
      "learning_rate": 0.00029937628965555775,
      "loss": 4.599,
      "step": 15880
    },
    {
      "epoch": 0.033104166666666664,
      "grad_norm": 1.3325066566467285,
      "learning_rate": 0.0002993753912382001,
      "loss": 4.348,
      "step": 15890
    },
    {
      "epoch": 0.033125,
      "grad_norm": 1.2382898330688477,
      "learning_rate": 0.00029937449217559996,
      "loss": 4.4526,
      "step": 15900
    },
    {
      "epoch": 0.03314583333333333,
      "grad_norm": 1.2610024213790894,
      "learning_rate": 0.00029937359246776107,
      "loss": 4.3262,
      "step": 15910
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 1.3008395433425903,
      "learning_rate": 0.0002993726921146874,
      "loss": 4.3808,
      "step": 15920
    },
    {
      "epoch": 0.0331875,
      "grad_norm": 1.1627432107925415,
      "learning_rate": 0.00029937179111638284,
      "loss": 4.4459,
      "step": 15930
    },
    {
      "epoch": 0.03320833333333333,
      "grad_norm": 1.3605328798294067,
      "learning_rate": 0.0002993708894728513,
      "loss": 4.291,
      "step": 15940
    },
    {
      "epoch": 0.033229166666666664,
      "grad_norm": 1.2709983587265015,
      "learning_rate": 0.0002993699871840966,
      "loss": 4.2693,
      "step": 15950
    },
    {
      "epoch": 0.03325,
      "grad_norm": 1.3100436925888062,
      "learning_rate": 0.00029936908425012273,
      "loss": 4.3469,
      "step": 15960
    },
    {
      "epoch": 0.03327083333333333,
      "grad_norm": 1.1649459600448608,
      "learning_rate": 0.00029936818067093345,
      "loss": 4.3666,
      "step": 15970
    },
    {
      "epoch": 0.033291666666666664,
      "grad_norm": 1.4704633951187134,
      "learning_rate": 0.0002993672764465328,
      "loss": 4.7101,
      "step": 15980
    },
    {
      "epoch": 0.0333125,
      "grad_norm": 1.3335926532745361,
      "learning_rate": 0.00029936637157692463,
      "loss": 4.3284,
      "step": 15990
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 1.1844719648361206,
      "learning_rate": 0.0002993654660621129,
      "loss": 4.1566,
      "step": 16000
    },
    {
      "epoch": 0.03333333333333333,
      "eval_loss": 4.108994483947754,
      "eval_runtime": 7.3739,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 16000
    },
    {
      "epoch": 0.033354166666666664,
      "grad_norm": 1.2405248880386353,
      "learning_rate": 0.00029936455990210145,
      "loss": 4.4738,
      "step": 16010
    },
    {
      "epoch": 0.033375,
      "grad_norm": 1.2555723190307617,
      "learning_rate": 0.00029936365309689425,
      "loss": 4.3489,
      "step": 16020
    },
    {
      "epoch": 0.03339583333333333,
      "grad_norm": 1.2431946992874146,
      "learning_rate": 0.00029936274564649513,
      "loss": 4.178,
      "step": 16030
    },
    {
      "epoch": 0.033416666666666664,
      "grad_norm": 1.1608806848526,
      "learning_rate": 0.0002993618375509081,
      "loss": 4.3377,
      "step": 16040
    },
    {
      "epoch": 0.0334375,
      "grad_norm": 1.285544991493225,
      "learning_rate": 0.00029936092881013707,
      "loss": 4.3862,
      "step": 16050
    },
    {
      "epoch": 0.03345833333333333,
      "grad_norm": 1.234615445137024,
      "learning_rate": 0.0002993600194241859,
      "loss": 4.4659,
      "step": 16060
    },
    {
      "epoch": 0.033479166666666664,
      "grad_norm": 1.2832932472229004,
      "learning_rate": 0.00029935910939305865,
      "loss": 4.3656,
      "step": 16070
    },
    {
      "epoch": 0.0335,
      "grad_norm": 1.255663514137268,
      "learning_rate": 0.0002993581987167591,
      "loss": 4.399,
      "step": 16080
    },
    {
      "epoch": 0.03352083333333333,
      "grad_norm": 1.1410335302352905,
      "learning_rate": 0.0002993572873952913,
      "loss": 4.4054,
      "step": 16090
    },
    {
      "epoch": 0.033541666666666664,
      "grad_norm": 1.21611487865448,
      "learning_rate": 0.0002993563754286591,
      "loss": 4.5564,
      "step": 16100
    },
    {
      "epoch": 0.0335625,
      "grad_norm": 1.2552090883255005,
      "learning_rate": 0.0002993554628168665,
      "loss": 4.5389,
      "step": 16110
    },
    {
      "epoch": 0.03358333333333333,
      "grad_norm": 1.177178144454956,
      "learning_rate": 0.00029935454955991737,
      "loss": 4.3951,
      "step": 16120
    },
    {
      "epoch": 0.033604166666666664,
      "grad_norm": 1.2507662773132324,
      "learning_rate": 0.0002993536356578158,
      "loss": 4.3488,
      "step": 16130
    },
    {
      "epoch": 0.033625,
      "grad_norm": 1.3544950485229492,
      "learning_rate": 0.00029935272111056554,
      "loss": 4.2798,
      "step": 16140
    },
    {
      "epoch": 0.03364583333333333,
      "grad_norm": 1.2738404273986816,
      "learning_rate": 0.00029935180591817074,
      "loss": 4.5158,
      "step": 16150
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.1747055053710938,
      "learning_rate": 0.00029935089008063516,
      "loss": 4.4949,
      "step": 16160
    },
    {
      "epoch": 0.0336875,
      "grad_norm": 1.366796612739563,
      "learning_rate": 0.0002993499735979629,
      "loss": 4.2933,
      "step": 16170
    },
    {
      "epoch": 0.03370833333333333,
      "grad_norm": 1.2627289295196533,
      "learning_rate": 0.00029934905647015784,
      "loss": 4.3767,
      "step": 16180
    },
    {
      "epoch": 0.033729166666666664,
      "grad_norm": 1.3650602102279663,
      "learning_rate": 0.000299348138697224,
      "loss": 4.3655,
      "step": 16190
    },
    {
      "epoch": 0.03375,
      "grad_norm": 1.2402609586715698,
      "learning_rate": 0.00029934722027916534,
      "loss": 4.6256,
      "step": 16200
    },
    {
      "epoch": 0.03377083333333333,
      "grad_norm": 1.187427282333374,
      "learning_rate": 0.0002993463012159858,
      "loss": 4.346,
      "step": 16210
    },
    {
      "epoch": 0.033791666666666664,
      "grad_norm": 1.2012635469436646,
      "learning_rate": 0.00029934538150768933,
      "loss": 4.2662,
      "step": 16220
    },
    {
      "epoch": 0.0338125,
      "grad_norm": 1.1807470321655273,
      "learning_rate": 0.0002993444611542799,
      "loss": 4.412,
      "step": 16230
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 1.265864372253418,
      "learning_rate": 0.0002993435401557616,
      "loss": 4.3485,
      "step": 16240
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 1.3019064664840698,
      "learning_rate": 0.00029934261851213823,
      "loss": 4.2854,
      "step": 16250
    },
    {
      "epoch": 0.033875,
      "grad_norm": 1.3641793727874756,
      "learning_rate": 0.0002993416962234139,
      "loss": 4.3901,
      "step": 16260
    },
    {
      "epoch": 0.03389583333333333,
      "grad_norm": 3.9343104362487793,
      "learning_rate": 0.00029934077328959256,
      "loss": 4.5031,
      "step": 16270
    },
    {
      "epoch": 0.033916666666666664,
      "grad_norm": 1.3521982431411743,
      "learning_rate": 0.0002993398497106782,
      "loss": 4.5066,
      "step": 16280
    },
    {
      "epoch": 0.0339375,
      "grad_norm": 1.1310585737228394,
      "learning_rate": 0.0002993389254866748,
      "loss": 4.3761,
      "step": 16290
    },
    {
      "epoch": 0.03395833333333333,
      "grad_norm": 1.2128604650497437,
      "learning_rate": 0.0002993380006175863,
      "loss": 4.5057,
      "step": 16300
    },
    {
      "epoch": 0.033979166666666664,
      "grad_norm": 1.1521892547607422,
      "learning_rate": 0.0002993370751034168,
      "loss": 4.3363,
      "step": 16310
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.2336444854736328,
      "learning_rate": 0.00029933614894417024,
      "loss": 4.4062,
      "step": 16320
    },
    {
      "epoch": 0.034020833333333333,
      "grad_norm": 1.557005763053894,
      "learning_rate": 0.00029933522213985064,
      "loss": 4.4451,
      "step": 16330
    },
    {
      "epoch": 0.034041666666666665,
      "grad_norm": 1.1552037000656128,
      "learning_rate": 0.000299334294690462,
      "loss": 4.294,
      "step": 16340
    },
    {
      "epoch": 0.0340625,
      "grad_norm": 1.2531607151031494,
      "learning_rate": 0.00029933336659600826,
      "loss": 4.5158,
      "step": 16350
    },
    {
      "epoch": 0.034083333333333334,
      "grad_norm": 1.1217498779296875,
      "learning_rate": 0.00029933243785649355,
      "loss": 4.3856,
      "step": 16360
    },
    {
      "epoch": 0.034104166666666665,
      "grad_norm": 1.352968454360962,
      "learning_rate": 0.00029933150847192175,
      "loss": 4.4132,
      "step": 16370
    },
    {
      "epoch": 0.034125,
      "grad_norm": 1.3104281425476074,
      "learning_rate": 0.000299330578442297,
      "loss": 4.138,
      "step": 16380
    },
    {
      "epoch": 0.034145833333333334,
      "grad_norm": 1.2084983587265015,
      "learning_rate": 0.00029932964776762327,
      "loss": 4.4189,
      "step": 16390
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 1.5697073936462402,
      "learning_rate": 0.0002993287164479045,
      "loss": 4.2922,
      "step": 16400
    },
    {
      "epoch": 0.0341875,
      "grad_norm": 1.3194876909255981,
      "learning_rate": 0.0002993277844831449,
      "loss": 4.308,
      "step": 16410
    },
    {
      "epoch": 0.034208333333333334,
      "grad_norm": 1.2992380857467651,
      "learning_rate": 0.00029932685187334827,
      "loss": 4.4713,
      "step": 16420
    },
    {
      "epoch": 0.034229166666666665,
      "grad_norm": 1.2062042951583862,
      "learning_rate": 0.0002993259186185188,
      "loss": 4.3374,
      "step": 16430
    },
    {
      "epoch": 0.03425,
      "grad_norm": 1.2798969745635986,
      "learning_rate": 0.0002993249847186604,
      "loss": 4.5414,
      "step": 16440
    },
    {
      "epoch": 0.034270833333333334,
      "grad_norm": 1.2153148651123047,
      "learning_rate": 0.00029932405017377725,
      "loss": 4.4646,
      "step": 16450
    },
    {
      "epoch": 0.034291666666666665,
      "grad_norm": 1.2167377471923828,
      "learning_rate": 0.0002993231149838733,
      "loss": 4.3657,
      "step": 16460
    },
    {
      "epoch": 0.0343125,
      "grad_norm": 1.3399244546890259,
      "learning_rate": 0.0002993221791489526,
      "loss": 4.4129,
      "step": 16470
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 1.1818623542785645,
      "learning_rate": 0.0002993212426690191,
      "loss": 4.2097,
      "step": 16480
    },
    {
      "epoch": 0.034354166666666665,
      "grad_norm": 1.250964879989624,
      "learning_rate": 0.0002993203055440771,
      "loss": 4.3477,
      "step": 16490
    },
    {
      "epoch": 0.034375,
      "grad_norm": 1.18773353099823,
      "learning_rate": 0.00029931936777413036,
      "loss": 4.2843,
      "step": 16500
    },
    {
      "epoch": 0.034395833333333334,
      "grad_norm": 1.1584649085998535,
      "learning_rate": 0.0002993184293591831,
      "loss": 4.4089,
      "step": 16510
    },
    {
      "epoch": 0.034416666666666665,
      "grad_norm": 1.2838643789291382,
      "learning_rate": 0.0002993174902992393,
      "loss": 4.5502,
      "step": 16520
    },
    {
      "epoch": 0.0344375,
      "grad_norm": 1.1702426671981812,
      "learning_rate": 0.0002993165505943031,
      "loss": 4.5666,
      "step": 16530
    },
    {
      "epoch": 0.034458333333333334,
      "grad_norm": 1.13502836227417,
      "learning_rate": 0.0002993156102443785,
      "loss": 4.3504,
      "step": 16540
    },
    {
      "epoch": 0.034479166666666665,
      "grad_norm": 1.2059311866760254,
      "learning_rate": 0.0002993146692494695,
      "loss": 4.4797,
      "step": 16550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 1.5365092754364014,
      "learning_rate": 0.0002993137276095803,
      "loss": 4.4314,
      "step": 16560
    },
    {
      "epoch": 0.034520833333333334,
      "grad_norm": 1.136417031288147,
      "learning_rate": 0.00029931278532471485,
      "loss": 4.44,
      "step": 16570
    },
    {
      "epoch": 0.034541666666666665,
      "grad_norm": 1.2328823804855347,
      "learning_rate": 0.0002993118423948773,
      "loss": 4.4905,
      "step": 16580
    },
    {
      "epoch": 0.0345625,
      "grad_norm": 1.1557430028915405,
      "learning_rate": 0.0002993108988200717,
      "loss": 4.4381,
      "step": 16590
    },
    {
      "epoch": 0.034583333333333334,
      "grad_norm": 1.1218316555023193,
      "learning_rate": 0.0002993099546003021,
      "loss": 4.3973,
      "step": 16600
    },
    {
      "epoch": 0.034604166666666665,
      "grad_norm": 1.171187400817871,
      "learning_rate": 0.0002993090097355726,
      "loss": 4.3969,
      "step": 16610
    },
    {
      "epoch": 0.034625,
      "grad_norm": 1.2730131149291992,
      "learning_rate": 0.0002993080642258873,
      "loss": 4.3503,
      "step": 16620
    },
    {
      "epoch": 0.034645833333333334,
      "grad_norm": 1.1717913150787354,
      "learning_rate": 0.0002993071180712502,
      "loss": 4.2405,
      "step": 16630
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 1.213324785232544,
      "learning_rate": 0.0002993061712716655,
      "loss": 4.4277,
      "step": 16640
    },
    {
      "epoch": 0.0346875,
      "grad_norm": 1.0790677070617676,
      "learning_rate": 0.00029930522382713725,
      "loss": 4.466,
      "step": 16650
    },
    {
      "epoch": 0.034708333333333334,
      "grad_norm": 1.1400972604751587,
      "learning_rate": 0.00029930427573766953,
      "loss": 4.4395,
      "step": 16660
    },
    {
      "epoch": 0.034729166666666665,
      "grad_norm": 1.5964299440383911,
      "learning_rate": 0.00029930332700326643,
      "loss": 4.5765,
      "step": 16670
    },
    {
      "epoch": 0.03475,
      "grad_norm": 1.2929264307022095,
      "learning_rate": 0.000299302377623932,
      "loss": 4.2311,
      "step": 16680
    },
    {
      "epoch": 0.034770833333333334,
      "grad_norm": 1.2149028778076172,
      "learning_rate": 0.0002993014275996705,
      "loss": 4.5657,
      "step": 16690
    },
    {
      "epoch": 0.034791666666666665,
      "grad_norm": 1.1634401082992554,
      "learning_rate": 0.00029930047693048584,
      "loss": 4.2985,
      "step": 16700
    },
    {
      "epoch": 0.0348125,
      "grad_norm": 1.3936920166015625,
      "learning_rate": 0.0002992995256163823,
      "loss": 4.4567,
      "step": 16710
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 1.1811652183532715,
      "learning_rate": 0.00029929857365736383,
      "loss": 4.3643,
      "step": 16720
    },
    {
      "epoch": 0.034854166666666665,
      "grad_norm": 1.2344591617584229,
      "learning_rate": 0.00029929762105343466,
      "loss": 4.4603,
      "step": 16730
    },
    {
      "epoch": 0.034875,
      "grad_norm": 1.3112740516662598,
      "learning_rate": 0.0002992966678045988,
      "loss": 4.2673,
      "step": 16740
    },
    {
      "epoch": 0.034895833333333334,
      "grad_norm": 1.1384539604187012,
      "learning_rate": 0.00029929571391086054,
      "loss": 4.265,
      "step": 16750
    },
    {
      "epoch": 0.034916666666666665,
      "grad_norm": 1.2671514749526978,
      "learning_rate": 0.00029929475937222376,
      "loss": 4.3422,
      "step": 16760
    },
    {
      "epoch": 0.0349375,
      "grad_norm": 1.2172396183013916,
      "learning_rate": 0.0002992938041886928,
      "loss": 4.2644,
      "step": 16770
    },
    {
      "epoch": 0.034958333333333334,
      "grad_norm": 1.2215949296951294,
      "learning_rate": 0.0002992928483602717,
      "loss": 4.2567,
      "step": 16780
    },
    {
      "epoch": 0.034979166666666665,
      "grad_norm": 1.195967674255371,
      "learning_rate": 0.0002992918918869646,
      "loss": 4.3417,
      "step": 16790
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.1653695106506348,
      "learning_rate": 0.0002992909347687756,
      "loss": 4.5243,
      "step": 16800
    },
    {
      "epoch": 0.035020833333333334,
      "grad_norm": 1.2538822889328003,
      "learning_rate": 0.0002992899770057088,
      "loss": 4.3116,
      "step": 16810
    },
    {
      "epoch": 0.035041666666666665,
      "grad_norm": 1.3729352951049805,
      "learning_rate": 0.00029928901859776845,
      "loss": 4.327,
      "step": 16820
    },
    {
      "epoch": 0.0350625,
      "grad_norm": 1.4664502143859863,
      "learning_rate": 0.00029928805954495863,
      "loss": 4.6736,
      "step": 16830
    },
    {
      "epoch": 0.035083333333333334,
      "grad_norm": 1.2190289497375488,
      "learning_rate": 0.00029928709984728346,
      "loss": 4.4639,
      "step": 16840
    },
    {
      "epoch": 0.035104166666666665,
      "grad_norm": 1.052549123764038,
      "learning_rate": 0.00029928613950474717,
      "loss": 4.5028,
      "step": 16850
    },
    {
      "epoch": 0.035125,
      "grad_norm": 1.737870454788208,
      "learning_rate": 0.0002992851785173538,
      "loss": 4.2895,
      "step": 16860
    },
    {
      "epoch": 0.035145833333333334,
      "grad_norm": 1.38358473777771,
      "learning_rate": 0.00029928421688510756,
      "loss": 4.2061,
      "step": 16870
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 1.1646093130111694,
      "learning_rate": 0.00029928325460801264,
      "loss": 4.4195,
      "step": 16880
    },
    {
      "epoch": 0.0351875,
      "grad_norm": 1.344579815864563,
      "learning_rate": 0.0002992822916860731,
      "loss": 4.4969,
      "step": 16890
    },
    {
      "epoch": 0.035208333333333335,
      "grad_norm": 1.2199878692626953,
      "learning_rate": 0.0002992813281192931,
      "loss": 4.3896,
      "step": 16900
    },
    {
      "epoch": 0.035229166666666666,
      "grad_norm": 1.266737699508667,
      "learning_rate": 0.0002992803639076769,
      "loss": 4.3133,
      "step": 16910
    },
    {
      "epoch": 0.03525,
      "grad_norm": 1.1551216840744019,
      "learning_rate": 0.00029927939905122864,
      "loss": 4.4975,
      "step": 16920
    },
    {
      "epoch": 0.035270833333333335,
      "grad_norm": 1.5802397727966309,
      "learning_rate": 0.00029927843354995244,
      "loss": 4.516,
      "step": 16930
    },
    {
      "epoch": 0.035291666666666666,
      "grad_norm": 1.4782520532608032,
      "learning_rate": 0.0002992774674038525,
      "loss": 4.3461,
      "step": 16940
    },
    {
      "epoch": 0.0353125,
      "grad_norm": 1.100403904914856,
      "learning_rate": 0.000299276500612933,
      "loss": 4.3488,
      "step": 16950
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 1.1452490091323853,
      "learning_rate": 0.00029927553317719814,
      "loss": 4.5313,
      "step": 16960
    },
    {
      "epoch": 0.035354166666666666,
      "grad_norm": 1.1495885848999023,
      "learning_rate": 0.000299274565096652,
      "loss": 4.2637,
      "step": 16970
    },
    {
      "epoch": 0.035375,
      "grad_norm": 1.2029649019241333,
      "learning_rate": 0.0002992735963712988,
      "loss": 4.4363,
      "step": 16980
    },
    {
      "epoch": 0.035395833333333335,
      "grad_norm": 1.2220786809921265,
      "learning_rate": 0.00029927262700114285,
      "loss": 4.358,
      "step": 16990
    },
    {
      "epoch": 0.035416666666666666,
      "grad_norm": 1.271266222000122,
      "learning_rate": 0.0002992716569861882,
      "loss": 4.3037,
      "step": 17000
    },
    {
      "epoch": 0.035416666666666666,
      "eval_loss": 4.1316819190979,
      "eval_runtime": 7.3411,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 17000
    },
    {
      "epoch": 0.0354375,
      "grad_norm": 1.4076021909713745,
      "learning_rate": 0.00029927068632643907,
      "loss": 4.5191,
      "step": 17010
    },
    {
      "epoch": 0.035458333333333335,
      "grad_norm": 1.3631138801574707,
      "learning_rate": 0.0002992697150218996,
      "loss": 4.4672,
      "step": 17020
    },
    {
      "epoch": 0.035479166666666666,
      "grad_norm": 1.1744632720947266,
      "learning_rate": 0.0002992687430725741,
      "loss": 4.4493,
      "step": 17030
    },
    {
      "epoch": 0.0355,
      "grad_norm": 1.3287570476531982,
      "learning_rate": 0.0002992677704784667,
      "loss": 4.3547,
      "step": 17040
    },
    {
      "epoch": 0.035520833333333335,
      "grad_norm": 1.1818288564682007,
      "learning_rate": 0.00029926679723958166,
      "loss": 4.4935,
      "step": 17050
    },
    {
      "epoch": 0.035541666666666666,
      "grad_norm": 1.3226979970932007,
      "learning_rate": 0.0002992658233559231,
      "loss": 4.2706,
      "step": 17060
    },
    {
      "epoch": 0.0355625,
      "grad_norm": 1.2458198070526123,
      "learning_rate": 0.0002992648488274953,
      "loss": 4.4231,
      "step": 17070
    },
    {
      "epoch": 0.035583333333333335,
      "grad_norm": 1.1593989133834839,
      "learning_rate": 0.00029926387365430246,
      "loss": 4.4187,
      "step": 17080
    },
    {
      "epoch": 0.035604166666666666,
      "grad_norm": 1.128191590309143,
      "learning_rate": 0.0002992628978363487,
      "loss": 4.344,
      "step": 17090
    },
    {
      "epoch": 0.035625,
      "grad_norm": 1.0647540092468262,
      "learning_rate": 0.0002992619213736383,
      "loss": 4.2287,
      "step": 17100
    },
    {
      "epoch": 0.035645833333333335,
      "grad_norm": 1.2475441694259644,
      "learning_rate": 0.0002992609442661755,
      "loss": 4.4862,
      "step": 17110
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 1.218963384628296,
      "learning_rate": 0.0002992599665139645,
      "loss": 4.1932,
      "step": 17120
    },
    {
      "epoch": 0.0356875,
      "grad_norm": 1.2543104887008667,
      "learning_rate": 0.0002992589881170096,
      "loss": 4.4862,
      "step": 17130
    },
    {
      "epoch": 0.035708333333333335,
      "grad_norm": 1.307312250137329,
      "learning_rate": 0.0002992580090753149,
      "loss": 4.3412,
      "step": 17140
    },
    {
      "epoch": 0.035729166666666666,
      "grad_norm": 1.1285580396652222,
      "learning_rate": 0.00029925702938888465,
      "loss": 4.3584,
      "step": 17150
    },
    {
      "epoch": 0.03575,
      "grad_norm": 1.113040566444397,
      "learning_rate": 0.00029925604905772313,
      "loss": 4.3827,
      "step": 17160
    },
    {
      "epoch": 0.035770833333333335,
      "grad_norm": 1.2446551322937012,
      "learning_rate": 0.0002992550680818345,
      "loss": 4.3127,
      "step": 17170
    },
    {
      "epoch": 0.035791666666666666,
      "grad_norm": 1.2360275983810425,
      "learning_rate": 0.00029925408646122316,
      "loss": 4.323,
      "step": 17180
    },
    {
      "epoch": 0.0358125,
      "grad_norm": 1.1813933849334717,
      "learning_rate": 0.0002992531041958932,
      "loss": 4.3504,
      "step": 17190
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 1.1845214366912842,
      "learning_rate": 0.0002992521212858489,
      "loss": 4.3191,
      "step": 17200
    },
    {
      "epoch": 0.035854166666666666,
      "grad_norm": 1.2294275760650635,
      "learning_rate": 0.00029925113773109454,
      "loss": 4.4243,
      "step": 17210
    },
    {
      "epoch": 0.035875,
      "grad_norm": 1.2468750476837158,
      "learning_rate": 0.00029925015353163433,
      "loss": 4.3406,
      "step": 17220
    },
    {
      "epoch": 0.035895833333333335,
      "grad_norm": 1.3280391693115234,
      "learning_rate": 0.0002992491686874725,
      "loss": 4.2994,
      "step": 17230
    },
    {
      "epoch": 0.035916666666666666,
      "grad_norm": 1.25509512424469,
      "learning_rate": 0.0002992481831986134,
      "loss": 4.4249,
      "step": 17240
    },
    {
      "epoch": 0.0359375,
      "grad_norm": 1.33401358127594,
      "learning_rate": 0.0002992471970650612,
      "loss": 4.2656,
      "step": 17250
    },
    {
      "epoch": 0.035958333333333335,
      "grad_norm": 1.2587084770202637,
      "learning_rate": 0.00029924621028682016,
      "loss": 4.4271,
      "step": 17260
    },
    {
      "epoch": 0.035979166666666666,
      "grad_norm": 2.190483331680298,
      "learning_rate": 0.00029924522286389456,
      "loss": 4.6287,
      "step": 17270
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.2107043266296387,
      "learning_rate": 0.0002992442347962887,
      "loss": 4.3991,
      "step": 17280
    },
    {
      "epoch": 0.036020833333333335,
      "grad_norm": 1.3216819763183594,
      "learning_rate": 0.00029924324608400683,
      "loss": 4.3591,
      "step": 17290
    },
    {
      "epoch": 0.036041666666666666,
      "grad_norm": 1.2278451919555664,
      "learning_rate": 0.0002992422567270532,
      "loss": 4.4803,
      "step": 17300
    },
    {
      "epoch": 0.0360625,
      "grad_norm": 1.2235130071640015,
      "learning_rate": 0.0002992412667254321,
      "loss": 4.6021,
      "step": 17310
    },
    {
      "epoch": 0.036083333333333335,
      "grad_norm": 1.2192285060882568,
      "learning_rate": 0.0002992402760791478,
      "loss": 4.477,
      "step": 17320
    },
    {
      "epoch": 0.036104166666666666,
      "grad_norm": 1.088355541229248,
      "learning_rate": 0.0002992392847882046,
      "loss": 4.2411,
      "step": 17330
    },
    {
      "epoch": 0.036125,
      "grad_norm": 1.3786053657531738,
      "learning_rate": 0.00029923829285260676,
      "loss": 4.4321,
      "step": 17340
    },
    {
      "epoch": 0.036145833333333335,
      "grad_norm": 1.3406254053115845,
      "learning_rate": 0.0002992373002723585,
      "loss": 4.3639,
      "step": 17350
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 1.2843174934387207,
      "learning_rate": 0.0002992363070474642,
      "loss": 4.3072,
      "step": 17360
    },
    {
      "epoch": 0.0361875,
      "grad_norm": 1.2620772123336792,
      "learning_rate": 0.00029923531317792816,
      "loss": 4.4326,
      "step": 17370
    },
    {
      "epoch": 0.036208333333333335,
      "grad_norm": 1.3182429075241089,
      "learning_rate": 0.0002992343186637547,
      "loss": 4.5362,
      "step": 17380
    },
    {
      "epoch": 0.036229166666666666,
      "grad_norm": 1.1050193309783936,
      "learning_rate": 0.0002992333235049479,
      "loss": 4.4113,
      "step": 17390
    },
    {
      "epoch": 0.03625,
      "grad_norm": 1.2483259439468384,
      "learning_rate": 0.0002992323277015123,
      "loss": 4.1997,
      "step": 17400
    },
    {
      "epoch": 0.036270833333333335,
      "grad_norm": 1.2176344394683838,
      "learning_rate": 0.00029923133125345214,
      "loss": 4.4211,
      "step": 17410
    },
    {
      "epoch": 0.036291666666666667,
      "grad_norm": 1.3319900035858154,
      "learning_rate": 0.00029923033416077164,
      "loss": 4.3181,
      "step": 17420
    },
    {
      "epoch": 0.0363125,
      "grad_norm": 1.156937837600708,
      "learning_rate": 0.0002992293364234752,
      "loss": 4.3383,
      "step": 17430
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 1.2386410236358643,
      "learning_rate": 0.00029922833804156714,
      "loss": 4.2886,
      "step": 17440
    },
    {
      "epoch": 0.03635416666666667,
      "grad_norm": 1.2421329021453857,
      "learning_rate": 0.00029922733901505165,
      "loss": 4.3262,
      "step": 17450
    },
    {
      "epoch": 0.036375,
      "grad_norm": 1.1866248846054077,
      "learning_rate": 0.00029922633934393315,
      "loss": 4.5188,
      "step": 17460
    },
    {
      "epoch": 0.036395833333333336,
      "grad_norm": 1.1087329387664795,
      "learning_rate": 0.00029922533902821595,
      "loss": 4.371,
      "step": 17470
    },
    {
      "epoch": 0.03641666666666667,
      "grad_norm": 1.1386672258377075,
      "learning_rate": 0.0002992243380679043,
      "loss": 4.6183,
      "step": 17480
    },
    {
      "epoch": 0.0364375,
      "grad_norm": 1.375122308731079,
      "learning_rate": 0.0002992233364630026,
      "loss": 4.4047,
      "step": 17490
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 1.4124908447265625,
      "learning_rate": 0.0002992223342135152,
      "loss": 4.1328,
      "step": 17500
    },
    {
      "epoch": 0.03647916666666667,
      "grad_norm": 1.1383414268493652,
      "learning_rate": 0.00029922133131944634,
      "loss": 4.3435,
      "step": 17510
    },
    {
      "epoch": 0.0365,
      "grad_norm": 1.2391809225082397,
      "learning_rate": 0.0002992203277808004,
      "loss": 4.4012,
      "step": 17520
    },
    {
      "epoch": 0.036520833333333336,
      "grad_norm": 1.5858088731765747,
      "learning_rate": 0.0002992193235975817,
      "loss": 4.3364,
      "step": 17530
    },
    {
      "epoch": 0.03654166666666667,
      "grad_norm": 1.0991331338882446,
      "learning_rate": 0.0002992183187697946,
      "loss": 4.4101,
      "step": 17540
    },
    {
      "epoch": 0.0365625,
      "grad_norm": 1.288130521774292,
      "learning_rate": 0.00029921731329744344,
      "loss": 4.4003,
      "step": 17550
    },
    {
      "epoch": 0.036583333333333336,
      "grad_norm": 1.1878198385238647,
      "learning_rate": 0.0002992163071805325,
      "loss": 4.3259,
      "step": 17560
    },
    {
      "epoch": 0.03660416666666667,
      "grad_norm": 1.218316674232483,
      "learning_rate": 0.0002992153004190662,
      "loss": 4.3281,
      "step": 17570
    },
    {
      "epoch": 0.036625,
      "grad_norm": 1.2242708206176758,
      "learning_rate": 0.0002992142930130489,
      "loss": 4.1696,
      "step": 17580
    },
    {
      "epoch": 0.036645833333333336,
      "grad_norm": 1.3278411626815796,
      "learning_rate": 0.000299213284962485,
      "loss": 4.3938,
      "step": 17590
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 1.1627627611160278,
      "learning_rate": 0.0002992122762673786,
      "loss": 4.3209,
      "step": 17600
    },
    {
      "epoch": 0.0366875,
      "grad_norm": 1.2091610431671143,
      "learning_rate": 0.00029921126692773433,
      "loss": 4.2448,
      "step": 17610
    },
    {
      "epoch": 0.036708333333333336,
      "grad_norm": 1.055958867073059,
      "learning_rate": 0.0002992102569435564,
      "loss": 4.3063,
      "step": 17620
    },
    {
      "epoch": 0.03672916666666667,
      "grad_norm": 1.2153962850570679,
      "learning_rate": 0.00029920924631484926,
      "loss": 4.1566,
      "step": 17630
    },
    {
      "epoch": 0.03675,
      "grad_norm": 1.3160591125488281,
      "learning_rate": 0.00029920823504161716,
      "loss": 4.4074,
      "step": 17640
    },
    {
      "epoch": 0.036770833333333336,
      "grad_norm": 1.2329195737838745,
      "learning_rate": 0.0002992072231238646,
      "loss": 4.1625,
      "step": 17650
    },
    {
      "epoch": 0.03679166666666667,
      "grad_norm": 1.4651271104812622,
      "learning_rate": 0.00029920621056159593,
      "loss": 4.5641,
      "step": 17660
    },
    {
      "epoch": 0.0368125,
      "grad_norm": 1.198044776916504,
      "learning_rate": 0.00029920519735481547,
      "loss": 4.3061,
      "step": 17670
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 1.199957251548767,
      "learning_rate": 0.0002992041835035276,
      "loss": 4.3962,
      "step": 17680
    },
    {
      "epoch": 0.03685416666666667,
      "grad_norm": 1.2641741037368774,
      "learning_rate": 0.0002992031690077367,
      "loss": 4.5894,
      "step": 17690
    },
    {
      "epoch": 0.036875,
      "grad_norm": 1.1318551301956177,
      "learning_rate": 0.0002992021538674472,
      "loss": 4.5945,
      "step": 17700
    },
    {
      "epoch": 0.036895833333333336,
      "grad_norm": 1.2154901027679443,
      "learning_rate": 0.00029920113808266344,
      "loss": 4.3567,
      "step": 17710
    },
    {
      "epoch": 0.03691666666666667,
      "grad_norm": 1.2396245002746582,
      "learning_rate": 0.00029920012165338984,
      "loss": 4.2323,
      "step": 17720
    },
    {
      "epoch": 0.0369375,
      "grad_norm": 1.1214193105697632,
      "learning_rate": 0.00029919910457963076,
      "loss": 4.545,
      "step": 17730
    },
    {
      "epoch": 0.036958333333333336,
      "grad_norm": 1.3022278547286987,
      "learning_rate": 0.0002991980868613906,
      "loss": 4.3341,
      "step": 17740
    },
    {
      "epoch": 0.03697916666666667,
      "grad_norm": 1.0844917297363281,
      "learning_rate": 0.00029919706849867376,
      "loss": 4.3993,
      "step": 17750
    },
    {
      "epoch": 0.037,
      "grad_norm": 1.0533931255340576,
      "learning_rate": 0.0002991960494914846,
      "loss": 4.3585,
      "step": 17760
    },
    {
      "epoch": 0.037020833333333336,
      "grad_norm": 1.368529200553894,
      "learning_rate": 0.00029919502983982764,
      "loss": 4.3767,
      "step": 17770
    },
    {
      "epoch": 0.03704166666666667,
      "grad_norm": 1.0891022682189941,
      "learning_rate": 0.00029919400954370716,
      "loss": 4.4468,
      "step": 17780
    },
    {
      "epoch": 0.0370625,
      "grad_norm": 1.2446939945220947,
      "learning_rate": 0.00029919298860312763,
      "loss": 4.3772,
      "step": 17790
    },
    {
      "epoch": 0.037083333333333336,
      "grad_norm": 1.1972607374191284,
      "learning_rate": 0.00029919196701809345,
      "loss": 4.4419,
      "step": 17800
    },
    {
      "epoch": 0.03710416666666667,
      "grad_norm": 1.2169078588485718,
      "learning_rate": 0.000299190944788609,
      "loss": 4.4325,
      "step": 17810
    },
    {
      "epoch": 0.037125,
      "grad_norm": 1.2494182586669922,
      "learning_rate": 0.00029918992191467876,
      "loss": 4.1877,
      "step": 17820
    },
    {
      "epoch": 0.037145833333333336,
      "grad_norm": 1.174208641052246,
      "learning_rate": 0.0002991888983963071,
      "loss": 4.376,
      "step": 17830
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 1.3509533405303955,
      "learning_rate": 0.00029918787423349844,
      "loss": 4.1348,
      "step": 17840
    },
    {
      "epoch": 0.0371875,
      "grad_norm": 1.2409560680389404,
      "learning_rate": 0.00029918684942625726,
      "loss": 4.3163,
      "step": 17850
    },
    {
      "epoch": 0.037208333333333336,
      "grad_norm": 1.1599769592285156,
      "learning_rate": 0.0002991858239745879,
      "loss": 4.4366,
      "step": 17860
    },
    {
      "epoch": 0.03722916666666667,
      "grad_norm": 1.2661783695220947,
      "learning_rate": 0.00029918479787849475,
      "loss": 4.42,
      "step": 17870
    },
    {
      "epoch": 0.03725,
      "grad_norm": 1.7333236932754517,
      "learning_rate": 0.0002991837711379825,
      "loss": 4.3928,
      "step": 17880
    },
    {
      "epoch": 0.037270833333333336,
      "grad_norm": 1.435289740562439,
      "learning_rate": 0.0002991827437530553,
      "loss": 4.4674,
      "step": 17890
    },
    {
      "epoch": 0.03729166666666667,
      "grad_norm": 1.2237722873687744,
      "learning_rate": 0.0002991817157237177,
      "loss": 4.3552,
      "step": 17900
    },
    {
      "epoch": 0.0373125,
      "grad_norm": 1.2303694486618042,
      "learning_rate": 0.0002991806870499741,
      "loss": 4.3576,
      "step": 17910
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 1.3383978605270386,
      "learning_rate": 0.0002991796577318291,
      "loss": 4.5011,
      "step": 17920
    },
    {
      "epoch": 0.03735416666666667,
      "grad_norm": 1.0992090702056885,
      "learning_rate": 0.00029917862776928695,
      "loss": 4.3843,
      "step": 17930
    },
    {
      "epoch": 0.037375,
      "grad_norm": 1.0585112571716309,
      "learning_rate": 0.0002991775971623522,
      "loss": 4.5588,
      "step": 17940
    },
    {
      "epoch": 0.037395833333333336,
      "grad_norm": 1.3149210214614868,
      "learning_rate": 0.00029917656591102926,
      "loss": 4.4855,
      "step": 17950
    },
    {
      "epoch": 0.03741666666666667,
      "grad_norm": 1.256264090538025,
      "learning_rate": 0.00029917553401532257,
      "loss": 4.3537,
      "step": 17960
    },
    {
      "epoch": 0.0374375,
      "grad_norm": 1.22676682472229,
      "learning_rate": 0.0002991745014752367,
      "loss": 4.5545,
      "step": 17970
    },
    {
      "epoch": 0.03745833333333334,
      "grad_norm": 1.3096084594726562,
      "learning_rate": 0.00029917346829077597,
      "loss": 4.2916,
      "step": 17980
    },
    {
      "epoch": 0.03747916666666667,
      "grad_norm": 1.273959755897522,
      "learning_rate": 0.000299172434461945,
      "loss": 4.4621,
      "step": 17990
    },
    {
      "epoch": 0.0375,
      "grad_norm": 1.209441065788269,
      "learning_rate": 0.00029917139998874805,
      "loss": 4.2857,
      "step": 18000
    },
    {
      "epoch": 0.0375,
      "eval_loss": 4.109327793121338,
      "eval_runtime": 7.3015,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 18000
    },
    {
      "epoch": 0.03752083333333334,
      "grad_norm": 1.1686809062957764,
      "learning_rate": 0.0002991703648711897,
      "loss": 4.4411,
      "step": 18010
    },
    {
      "epoch": 0.03754166666666667,
      "grad_norm": 1.1858059167861938,
      "learning_rate": 0.0002991693291092745,
      "loss": 4.349,
      "step": 18020
    },
    {
      "epoch": 0.0375625,
      "grad_norm": 1.3579158782958984,
      "learning_rate": 0.00029916829270300674,
      "loss": 4.3499,
      "step": 18030
    },
    {
      "epoch": 0.03758333333333334,
      "grad_norm": 1.2979434728622437,
      "learning_rate": 0.0002991672556523911,
      "loss": 4.3893,
      "step": 18040
    },
    {
      "epoch": 0.03760416666666667,
      "grad_norm": 1.1796209812164307,
      "learning_rate": 0.0002991662179574319,
      "loss": 4.373,
      "step": 18050
    },
    {
      "epoch": 0.037625,
      "grad_norm": 1.2326956987380981,
      "learning_rate": 0.00029916517961813373,
      "loss": 4.3087,
      "step": 18060
    },
    {
      "epoch": 0.03764583333333334,
      "grad_norm": 1.2366676330566406,
      "learning_rate": 0.000299164140634501,
      "loss": 4.4445,
      "step": 18070
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 1.2704623937606812,
      "learning_rate": 0.0002991631010065382,
      "loss": 4.3959,
      "step": 18080
    },
    {
      "epoch": 0.0376875,
      "grad_norm": 1.1540926694869995,
      "learning_rate": 0.0002991620607342499,
      "loss": 4.3146,
      "step": 18090
    },
    {
      "epoch": 0.03770833333333334,
      "grad_norm": 1.0376015901565552,
      "learning_rate": 0.0002991610198176405,
      "loss": 4.2308,
      "step": 18100
    },
    {
      "epoch": 0.03772916666666667,
      "grad_norm": 1.2082470655441284,
      "learning_rate": 0.0002991599782567146,
      "loss": 4.5137,
      "step": 18110
    },
    {
      "epoch": 0.03775,
      "grad_norm": 1.1496365070343018,
      "learning_rate": 0.0002991589360514765,
      "loss": 4.374,
      "step": 18120
    },
    {
      "epoch": 0.03777083333333333,
      "grad_norm": 1.2052077054977417,
      "learning_rate": 0.00029915789320193097,
      "loss": 4.4299,
      "step": 18130
    },
    {
      "epoch": 0.03779166666666667,
      "grad_norm": 1.0782430171966553,
      "learning_rate": 0.00029915684970808234,
      "loss": 4.4902,
      "step": 18140
    },
    {
      "epoch": 0.0378125,
      "grad_norm": 1.4758602380752563,
      "learning_rate": 0.00029915580556993514,
      "loss": 4.2825,
      "step": 18150
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 1.3093180656433105,
      "learning_rate": 0.0002991547607874939,
      "loss": 4.2674,
      "step": 18160
    },
    {
      "epoch": 0.03785416666666667,
      "grad_norm": 1.1940808296203613,
      "learning_rate": 0.00029915371536076317,
      "loss": 4.2301,
      "step": 18170
    },
    {
      "epoch": 0.037875,
      "grad_norm": 1.3110904693603516,
      "learning_rate": 0.0002991526692897474,
      "loss": 4.4817,
      "step": 18180
    },
    {
      "epoch": 0.03789583333333333,
      "grad_norm": 1.2211334705352783,
      "learning_rate": 0.00029915162257445114,
      "loss": 4.522,
      "step": 18190
    },
    {
      "epoch": 0.03791666666666667,
      "grad_norm": 1.154475212097168,
      "learning_rate": 0.0002991505752148789,
      "loss": 4.5372,
      "step": 18200
    },
    {
      "epoch": 0.0379375,
      "grad_norm": 1.2893133163452148,
      "learning_rate": 0.0002991495272110352,
      "loss": 4.5916,
      "step": 18210
    },
    {
      "epoch": 0.03795833333333333,
      "grad_norm": 1.1810121536254883,
      "learning_rate": 0.00029914847856292464,
      "loss": 4.3182,
      "step": 18220
    },
    {
      "epoch": 0.03797916666666667,
      "grad_norm": 1.6919666528701782,
      "learning_rate": 0.00029914742927055166,
      "loss": 4.4951,
      "step": 18230
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.2990378141403198,
      "learning_rate": 0.0002991463793339208,
      "loss": 4.3202,
      "step": 18240
    },
    {
      "epoch": 0.03802083333333333,
      "grad_norm": 1.3924623727798462,
      "learning_rate": 0.00029914532875303663,
      "loss": 4.2215,
      "step": 18250
    },
    {
      "epoch": 0.03804166666666667,
      "grad_norm": 1.4703490734100342,
      "learning_rate": 0.0002991442775279037,
      "loss": 4.3665,
      "step": 18260
    },
    {
      "epoch": 0.0380625,
      "grad_norm": 1.134948492050171,
      "learning_rate": 0.0002991432256585265,
      "loss": 4.2673,
      "step": 18270
    },
    {
      "epoch": 0.03808333333333333,
      "grad_norm": 1.1180585622787476,
      "learning_rate": 0.0002991421731449096,
      "loss": 4.2885,
      "step": 18280
    },
    {
      "epoch": 0.03810416666666667,
      "grad_norm": 1.233959674835205,
      "learning_rate": 0.00029914111998705756,
      "loss": 4.3532,
      "step": 18290
    },
    {
      "epoch": 0.038125,
      "grad_norm": 1.4428855180740356,
      "learning_rate": 0.0002991400661849749,
      "loss": 4.3895,
      "step": 18300
    },
    {
      "epoch": 0.03814583333333333,
      "grad_norm": 1.1289912462234497,
      "learning_rate": 0.0002991390117386662,
      "loss": 4.3151,
      "step": 18310
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 1.2055385112762451,
      "learning_rate": 0.000299137956648136,
      "loss": 4.3264,
      "step": 18320
    },
    {
      "epoch": 0.0381875,
      "grad_norm": 1.336637020111084,
      "learning_rate": 0.00029913690091338884,
      "loss": 4.3956,
      "step": 18330
    },
    {
      "epoch": 0.03820833333333333,
      "grad_norm": 1.1579020023345947,
      "learning_rate": 0.0002991358445344294,
      "loss": 4.3844,
      "step": 18340
    },
    {
      "epoch": 0.03822916666666667,
      "grad_norm": 1.1039440631866455,
      "learning_rate": 0.000299134787511262,
      "loss": 4.4348,
      "step": 18350
    },
    {
      "epoch": 0.03825,
      "grad_norm": 1.0991781949996948,
      "learning_rate": 0.0002991337298438914,
      "loss": 4.5184,
      "step": 18360
    },
    {
      "epoch": 0.03827083333333333,
      "grad_norm": 1.1666945219039917,
      "learning_rate": 0.0002991326715323222,
      "loss": 4.296,
      "step": 18370
    },
    {
      "epoch": 0.03829166666666667,
      "grad_norm": 1.2498761415481567,
      "learning_rate": 0.00029913161257655877,
      "loss": 4.4082,
      "step": 18380
    },
    {
      "epoch": 0.0383125,
      "grad_norm": 1.1349095106124878,
      "learning_rate": 0.00029913055297660585,
      "loss": 4.4506,
      "step": 18390
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 1.1565234661102295,
      "learning_rate": 0.000299129492732468,
      "loss": 4.3567,
      "step": 18400
    },
    {
      "epoch": 0.03835416666666667,
      "grad_norm": 1.1877514123916626,
      "learning_rate": 0.00029912843184414975,
      "loss": 4.388,
      "step": 18410
    },
    {
      "epoch": 0.038375,
      "grad_norm": 1.1827796697616577,
      "learning_rate": 0.00029912737031165563,
      "loss": 4.5218,
      "step": 18420
    },
    {
      "epoch": 0.03839583333333333,
      "grad_norm": 1.078006625175476,
      "learning_rate": 0.00029912630813499043,
      "loss": 4.4931,
      "step": 18430
    },
    {
      "epoch": 0.03841666666666667,
      "grad_norm": 1.2077968120574951,
      "learning_rate": 0.00029912524531415855,
      "loss": 4.2726,
      "step": 18440
    },
    {
      "epoch": 0.0384375,
      "grad_norm": 1.4459151029586792,
      "learning_rate": 0.00029912418184916464,
      "loss": 4.3813,
      "step": 18450
    },
    {
      "epoch": 0.03845833333333333,
      "grad_norm": 1.2380893230438232,
      "learning_rate": 0.00029912311774001326,
      "loss": 4.3158,
      "step": 18460
    },
    {
      "epoch": 0.03847916666666667,
      "grad_norm": 1.1035674810409546,
      "learning_rate": 0.00029912205298670907,
      "loss": 4.4638,
      "step": 18470
    },
    {
      "epoch": 0.0385,
      "grad_norm": 1.1122013330459595,
      "learning_rate": 0.0002991209875892566,
      "loss": 4.4304,
      "step": 18480
    },
    {
      "epoch": 0.03852083333333333,
      "grad_norm": 1.3519171476364136,
      "learning_rate": 0.0002991199215476606,
      "loss": 4.4387,
      "step": 18490
    },
    {
      "epoch": 0.03854166666666667,
      "grad_norm": 1.2838516235351562,
      "learning_rate": 0.00029911885486192546,
      "loss": 4.4951,
      "step": 18500
    },
    {
      "epoch": 0.0385625,
      "grad_norm": 1.202341914176941,
      "learning_rate": 0.0002991177875320559,
      "loss": 4.3168,
      "step": 18510
    },
    {
      "epoch": 0.03858333333333333,
      "grad_norm": 1.229298710823059,
      "learning_rate": 0.00029911671955805657,
      "loss": 4.2498,
      "step": 18520
    },
    {
      "epoch": 0.03860416666666667,
      "grad_norm": 1.1324540376663208,
      "learning_rate": 0.000299115650939932,
      "loss": 4.4174,
      "step": 18530
    },
    {
      "epoch": 0.038625,
      "grad_norm": 1.2475435733795166,
      "learning_rate": 0.0002991145816776869,
      "loss": 4.4258,
      "step": 18540
    },
    {
      "epoch": 0.03864583333333333,
      "grad_norm": 1.3582208156585693,
      "learning_rate": 0.0002991135117713257,
      "loss": 4.2602,
      "step": 18550
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 1.1508049964904785,
      "learning_rate": 0.0002991124412208533,
      "loss": 4.5625,
      "step": 18560
    },
    {
      "epoch": 0.0386875,
      "grad_norm": 1.1954092979431152,
      "learning_rate": 0.00029911137002627407,
      "loss": 4.406,
      "step": 18570
    },
    {
      "epoch": 0.03870833333333333,
      "grad_norm": 1.1723824739456177,
      "learning_rate": 0.0002991102981875928,
      "loss": 4.2079,
      "step": 18580
    },
    {
      "epoch": 0.03872916666666667,
      "grad_norm": 1.1106681823730469,
      "learning_rate": 0.00029910922570481404,
      "loss": 4.4069,
      "step": 18590
    },
    {
      "epoch": 0.03875,
      "grad_norm": 1.1569477319717407,
      "learning_rate": 0.00029910815257794244,
      "loss": 4.228,
      "step": 18600
    },
    {
      "epoch": 0.03877083333333333,
      "grad_norm": 1.260250210762024,
      "learning_rate": 0.00029910707880698265,
      "loss": 4.2662,
      "step": 18610
    },
    {
      "epoch": 0.03879166666666667,
      "grad_norm": 1.3018441200256348,
      "learning_rate": 0.00029910600439193933,
      "loss": 4.3621,
      "step": 18620
    },
    {
      "epoch": 0.0388125,
      "grad_norm": 1.2806776762008667,
      "learning_rate": 0.00029910492933281704,
      "loss": 4.2833,
      "step": 18630
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 1.3115187883377075,
      "learning_rate": 0.0002991038536296205,
      "loss": 4.3403,
      "step": 18640
    },
    {
      "epoch": 0.03885416666666667,
      "grad_norm": 1.2195416688919067,
      "learning_rate": 0.00029910277728235435,
      "loss": 4.226,
      "step": 18650
    },
    {
      "epoch": 0.038875,
      "grad_norm": 1.16803777217865,
      "learning_rate": 0.0002991017002910232,
      "loss": 4.2383,
      "step": 18660
    },
    {
      "epoch": 0.03889583333333333,
      "grad_norm": 1.2113239765167236,
      "learning_rate": 0.0002991006226556317,
      "loss": 4.2807,
      "step": 18670
    },
    {
      "epoch": 0.03891666666666667,
      "grad_norm": 1.1360459327697754,
      "learning_rate": 0.0002990995443761846,
      "loss": 4.4748,
      "step": 18680
    },
    {
      "epoch": 0.0389375,
      "grad_norm": 1.085089087486267,
      "learning_rate": 0.00029909846545268646,
      "loss": 4.5093,
      "step": 18690
    },
    {
      "epoch": 0.03895833333333333,
      "grad_norm": 1.253764033317566,
      "learning_rate": 0.00029909738588514194,
      "loss": 4.3998,
      "step": 18700
    },
    {
      "epoch": 0.03897916666666667,
      "grad_norm": 1.9067673683166504,
      "learning_rate": 0.0002990963056735557,
      "loss": 4.6528,
      "step": 18710
    },
    {
      "epoch": 0.039,
      "grad_norm": 1.1166828870773315,
      "learning_rate": 0.00029909522481793254,
      "loss": 4.2852,
      "step": 18720
    },
    {
      "epoch": 0.03902083333333333,
      "grad_norm": 1.2224358320236206,
      "learning_rate": 0.00029909414331827697,
      "loss": 4.3851,
      "step": 18730
    },
    {
      "epoch": 0.03904166666666667,
      "grad_norm": 1.1280579566955566,
      "learning_rate": 0.00029909306117459366,
      "loss": 4.2734,
      "step": 18740
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 1.1078646183013916,
      "learning_rate": 0.0002990919783868874,
      "loss": 4.4017,
      "step": 18750
    },
    {
      "epoch": 0.03908333333333333,
      "grad_norm": 1.0468027591705322,
      "learning_rate": 0.0002990908949551628,
      "loss": 4.4898,
      "step": 18760
    },
    {
      "epoch": 0.03910416666666667,
      "grad_norm": 1.2083992958068848,
      "learning_rate": 0.00029908981087942453,
      "loss": 4.4409,
      "step": 18770
    },
    {
      "epoch": 0.039125,
      "grad_norm": 1.1495260000228882,
      "learning_rate": 0.0002990887261596773,
      "loss": 4.4154,
      "step": 18780
    },
    {
      "epoch": 0.03914583333333333,
      "grad_norm": 1.2654244899749756,
      "learning_rate": 0.0002990876407959258,
      "loss": 4.3419,
      "step": 18790
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 1.1878571510314941,
      "learning_rate": 0.0002990865547881747,
      "loss": 4.5873,
      "step": 18800
    },
    {
      "epoch": 0.0391875,
      "grad_norm": 1.2075369358062744,
      "learning_rate": 0.00029908546813642864,
      "loss": 4.405,
      "step": 18810
    },
    {
      "epoch": 0.03920833333333333,
      "grad_norm": 1.065600037574768,
      "learning_rate": 0.0002990843808406925,
      "loss": 4.2918,
      "step": 18820
    },
    {
      "epoch": 0.03922916666666667,
      "grad_norm": 1.1694815158843994,
      "learning_rate": 0.00029908329290097074,
      "loss": 4.3288,
      "step": 18830
    },
    {
      "epoch": 0.03925,
      "grad_norm": 1.1384897232055664,
      "learning_rate": 0.0002990822043172682,
      "loss": 4.4088,
      "step": 18840
    },
    {
      "epoch": 0.03927083333333333,
      "grad_norm": 1.1195528507232666,
      "learning_rate": 0.00029908111508958953,
      "loss": 4.3535,
      "step": 18850
    },
    {
      "epoch": 0.03929166666666667,
      "grad_norm": 1.2932136058807373,
      "learning_rate": 0.00029908002521793946,
      "loss": 4.3996,
      "step": 18860
    },
    {
      "epoch": 0.0393125,
      "grad_norm": 1.1042951345443726,
      "learning_rate": 0.0002990789347023227,
      "loss": 4.5219,
      "step": 18870
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 1.1018887758255005,
      "learning_rate": 0.000299077843542744,
      "loss": 4.448,
      "step": 18880
    },
    {
      "epoch": 0.03935416666666667,
      "grad_norm": 1.2263437509536743,
      "learning_rate": 0.00029907675173920795,
      "loss": 4.3799,
      "step": 18890
    },
    {
      "epoch": 0.039375,
      "grad_norm": 1.2258422374725342,
      "learning_rate": 0.0002990756592917193,
      "loss": 4.2339,
      "step": 18900
    },
    {
      "epoch": 0.03939583333333333,
      "grad_norm": 1.1609818935394287,
      "learning_rate": 0.00029907456620028287,
      "loss": 4.3629,
      "step": 18910
    },
    {
      "epoch": 0.03941666666666667,
      "grad_norm": 1.264746069908142,
      "learning_rate": 0.00029907347246490337,
      "loss": 4.1976,
      "step": 18920
    },
    {
      "epoch": 0.0394375,
      "grad_norm": 1.0811727046966553,
      "learning_rate": 0.0002990723780855854,
      "loss": 4.4534,
      "step": 18930
    },
    {
      "epoch": 0.03945833333333333,
      "grad_norm": 1.1809169054031372,
      "learning_rate": 0.00029907128306233386,
      "loss": 4.4307,
      "step": 18940
    },
    {
      "epoch": 0.03947916666666667,
      "grad_norm": 1.247642993927002,
      "learning_rate": 0.0002990701873951533,
      "loss": 4.3993,
      "step": 18950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 1.203440546989441,
      "learning_rate": 0.00029906909108404857,
      "loss": 4.249,
      "step": 18960
    },
    {
      "epoch": 0.03952083333333333,
      "grad_norm": 1.0638445615768433,
      "learning_rate": 0.00029906799412902436,
      "loss": 4.4173,
      "step": 18970
    },
    {
      "epoch": 0.03954166666666667,
      "grad_norm": 1.1380038261413574,
      "learning_rate": 0.0002990668965300854,
      "loss": 4.4292,
      "step": 18980
    },
    {
      "epoch": 0.0395625,
      "grad_norm": 1.230584740638733,
      "learning_rate": 0.0002990657982872365,
      "loss": 4.3546,
      "step": 18990
    },
    {
      "epoch": 0.03958333333333333,
      "grad_norm": 1.1751034259796143,
      "learning_rate": 0.0002990646994004823,
      "loss": 4.2942,
      "step": 19000
    },
    {
      "epoch": 0.03958333333333333,
      "eval_loss": 4.091631889343262,
      "eval_runtime": 7.3204,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 19000
    },
    {
      "epoch": 0.03960416666666667,
      "grad_norm": 1.2247583866119385,
      "learning_rate": 0.00029906359986982766,
      "loss": 4.5756,
      "step": 19010
    },
    {
      "epoch": 0.039625,
      "grad_norm": 1.1827137470245361,
      "learning_rate": 0.0002990624996952772,
      "loss": 4.4205,
      "step": 19020
    },
    {
      "epoch": 0.03964583333333333,
      "grad_norm": 1.236419439315796,
      "learning_rate": 0.0002990613988768358,
      "loss": 4.2768,
      "step": 19030
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 1.170981526374817,
      "learning_rate": 0.00029906029741450814,
      "loss": 4.4082,
      "step": 19040
    },
    {
      "epoch": 0.0396875,
      "grad_norm": 1.1756092309951782,
      "learning_rate": 0.000299059195308299,
      "loss": 4.3833,
      "step": 19050
    },
    {
      "epoch": 0.03970833333333333,
      "grad_norm": 1.2155672311782837,
      "learning_rate": 0.00029905809255821315,
      "loss": 4.3354,
      "step": 19060
    },
    {
      "epoch": 0.03972916666666667,
      "grad_norm": 1.14662504196167,
      "learning_rate": 0.0002990569891642553,
      "loss": 4.2692,
      "step": 19070
    },
    {
      "epoch": 0.03975,
      "grad_norm": 1.4079704284667969,
      "learning_rate": 0.0002990558851264303,
      "loss": 4.3216,
      "step": 19080
    },
    {
      "epoch": 0.03977083333333333,
      "grad_norm": 1.1184340715408325,
      "learning_rate": 0.0002990547804447429,
      "loss": 4.3453,
      "step": 19090
    },
    {
      "epoch": 0.03979166666666667,
      "grad_norm": 1.1622086763381958,
      "learning_rate": 0.00029905367511919777,
      "loss": 4.3715,
      "step": 19100
    },
    {
      "epoch": 0.0398125,
      "grad_norm": 1.0915623903274536,
      "learning_rate": 0.00029905256914979984,
      "loss": 4.4804,
      "step": 19110
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 1.207761287689209,
      "learning_rate": 0.00029905146253655376,
      "loss": 4.2969,
      "step": 19120
    },
    {
      "epoch": 0.03985416666666667,
      "grad_norm": 1.1591283082962036,
      "learning_rate": 0.0002990503552794644,
      "loss": 4.3992,
      "step": 19130
    },
    {
      "epoch": 0.039875,
      "grad_norm": 1.1566882133483887,
      "learning_rate": 0.00029904924737853645,
      "loss": 4.3746,
      "step": 19140
    },
    {
      "epoch": 0.03989583333333333,
      "grad_norm": 1.1057250499725342,
      "learning_rate": 0.0002990481388337748,
      "loss": 4.4183,
      "step": 19150
    },
    {
      "epoch": 0.03991666666666667,
      "grad_norm": 1.464131474494934,
      "learning_rate": 0.0002990470296451842,
      "loss": 4.4179,
      "step": 19160
    },
    {
      "epoch": 0.0399375,
      "grad_norm": 1.4487720727920532,
      "learning_rate": 0.00029904591981276936,
      "loss": 4.2067,
      "step": 19170
    },
    {
      "epoch": 0.03995833333333333,
      "grad_norm": 1.5387014150619507,
      "learning_rate": 0.0002990448093365352,
      "loss": 4.362,
      "step": 19180
    },
    {
      "epoch": 0.03997916666666667,
      "grad_norm": 1.3289446830749512,
      "learning_rate": 0.00029904369821648645,
      "loss": 4.3764,
      "step": 19190
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1327738761901855,
      "learning_rate": 0.0002990425864526279,
      "loss": 4.2151,
      "step": 19200
    },
    {
      "epoch": 0.04002083333333333,
      "grad_norm": 1.2836663722991943,
      "learning_rate": 0.00029904147404496436,
      "loss": 4.3726,
      "step": 19210
    },
    {
      "epoch": 0.04004166666666667,
      "grad_norm": 1.0339264869689941,
      "learning_rate": 0.00029904036099350065,
      "loss": 4.5309,
      "step": 19220
    },
    {
      "epoch": 0.0400625,
      "grad_norm": 1.0612010955810547,
      "learning_rate": 0.00029903924729824164,
      "loss": 4.2234,
      "step": 19230
    },
    {
      "epoch": 0.04008333333333333,
      "grad_norm": 1.2322415113449097,
      "learning_rate": 0.000299038132959192,
      "loss": 4.3628,
      "step": 19240
    },
    {
      "epoch": 0.04010416666666667,
      "grad_norm": 1.1739201545715332,
      "learning_rate": 0.00029903701797635667,
      "loss": 4.2763,
      "step": 19250
    },
    {
      "epoch": 0.040125,
      "grad_norm": 1.2078802585601807,
      "learning_rate": 0.00029903590234974035,
      "loss": 4.293,
      "step": 19260
    },
    {
      "epoch": 0.04014583333333333,
      "grad_norm": 1.083694338798523,
      "learning_rate": 0.000299034786079348,
      "loss": 4.6127,
      "step": 19270
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 1.1409143209457397,
      "learning_rate": 0.0002990336691651843,
      "loss": 4.3633,
      "step": 19280
    },
    {
      "epoch": 0.0401875,
      "grad_norm": 1.1589165925979614,
      "learning_rate": 0.0002990325516072542,
      "loss": 4.4282,
      "step": 19290
    },
    {
      "epoch": 0.04020833333333333,
      "grad_norm": 1.1086130142211914,
      "learning_rate": 0.0002990314334055625,
      "loss": 4.2865,
      "step": 19300
    },
    {
      "epoch": 0.04022916666666667,
      "grad_norm": 1.1835739612579346,
      "learning_rate": 0.0002990303145601139,
      "loss": 4.3362,
      "step": 19310
    },
    {
      "epoch": 0.04025,
      "grad_norm": 1.188841462135315,
      "learning_rate": 0.0002990291950709134,
      "loss": 4.3515,
      "step": 19320
    },
    {
      "epoch": 0.04027083333333333,
      "grad_norm": 1.0866159200668335,
      "learning_rate": 0.0002990280749379657,
      "loss": 4.2219,
      "step": 19330
    },
    {
      "epoch": 0.04029166666666667,
      "grad_norm": 1.1954374313354492,
      "learning_rate": 0.0002990269541612757,
      "loss": 4.0982,
      "step": 19340
    },
    {
      "epoch": 0.0403125,
      "grad_norm": 1.2414971590042114,
      "learning_rate": 0.0002990258327408483,
      "loss": 4.4221,
      "step": 19350
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 1.2144140005111694,
      "learning_rate": 0.0002990247106766883,
      "loss": 4.4356,
      "step": 19360
    },
    {
      "epoch": 0.04035416666666667,
      "grad_norm": 1.0682883262634277,
      "learning_rate": 0.00029902358796880053,
      "loss": 4.4365,
      "step": 19370
    },
    {
      "epoch": 0.040375,
      "grad_norm": 1.1491695642471313,
      "learning_rate": 0.0002990224646171898,
      "loss": 4.3427,
      "step": 19380
    },
    {
      "epoch": 0.04039583333333333,
      "grad_norm": 1.3085416555404663,
      "learning_rate": 0.0002990213406218611,
      "loss": 4.3435,
      "step": 19390
    },
    {
      "epoch": 0.04041666666666666,
      "grad_norm": 1.2606213092803955,
      "learning_rate": 0.00029902021598281913,
      "loss": 4.5942,
      "step": 19400
    },
    {
      "epoch": 0.0404375,
      "grad_norm": 1.178377389907837,
      "learning_rate": 0.00029901909070006885,
      "loss": 4.3829,
      "step": 19410
    },
    {
      "epoch": 0.04045833333333333,
      "grad_norm": 1.2569924592971802,
      "learning_rate": 0.00029901796477361506,
      "loss": 4.365,
      "step": 19420
    },
    {
      "epoch": 0.04047916666666666,
      "grad_norm": 1.0833160877227783,
      "learning_rate": 0.0002990168382034626,
      "loss": 4.4246,
      "step": 19430
    },
    {
      "epoch": 0.0405,
      "grad_norm": 1.106088399887085,
      "learning_rate": 0.0002990157109896165,
      "loss": 4.3972,
      "step": 19440
    },
    {
      "epoch": 0.04052083333333333,
      "grad_norm": 1.238485336303711,
      "learning_rate": 0.0002990145831320814,
      "loss": 4.2984,
      "step": 19450
    },
    {
      "epoch": 0.04054166666666666,
      "grad_norm": 1.112119197845459,
      "learning_rate": 0.0002990134546308623,
      "loss": 4.4324,
      "step": 19460
    },
    {
      "epoch": 0.0405625,
      "grad_norm": 1.1298913955688477,
      "learning_rate": 0.00029901232548596417,
      "loss": 4.4349,
      "step": 19470
    },
    {
      "epoch": 0.04058333333333333,
      "grad_norm": 1.2340649366378784,
      "learning_rate": 0.00029901119569739163,
      "loss": 4.2838,
      "step": 19480
    },
    {
      "epoch": 0.04060416666666666,
      "grad_norm": 1.1674089431762695,
      "learning_rate": 0.0002990100652651498,
      "loss": 4.4418,
      "step": 19490
    },
    {
      "epoch": 0.040625,
      "grad_norm": 1.1275626420974731,
      "learning_rate": 0.00029900893418924345,
      "loss": 4.2772,
      "step": 19500
    },
    {
      "epoch": 0.04064583333333333,
      "grad_norm": 1.1651880741119385,
      "learning_rate": 0.00029900780246967746,
      "loss": 4.2631,
      "step": 19510
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 1.1380025148391724,
      "learning_rate": 0.0002990066701064568,
      "loss": 4.4571,
      "step": 19520
    },
    {
      "epoch": 0.0406875,
      "grad_norm": 1.335920810699463,
      "learning_rate": 0.00029900553709958624,
      "loss": 4.3786,
      "step": 19530
    },
    {
      "epoch": 0.04070833333333333,
      "grad_norm": 1.1133239269256592,
      "learning_rate": 0.0002990044034490708,
      "loss": 4.5057,
      "step": 19540
    },
    {
      "epoch": 0.040729166666666664,
      "grad_norm": 1.3412086963653564,
      "learning_rate": 0.00029900326915491526,
      "loss": 4.2844,
      "step": 19550
    },
    {
      "epoch": 0.04075,
      "grad_norm": 1.0567724704742432,
      "learning_rate": 0.0002990021342171246,
      "loss": 4.2835,
      "step": 19560
    },
    {
      "epoch": 0.04077083333333333,
      "grad_norm": 1.1045657396316528,
      "learning_rate": 0.0002990009986357037,
      "loss": 4.4153,
      "step": 19570
    },
    {
      "epoch": 0.040791666666666664,
      "grad_norm": 1.1639456748962402,
      "learning_rate": 0.0002989998624106575,
      "loss": 4.2157,
      "step": 19580
    },
    {
      "epoch": 0.0408125,
      "grad_norm": 1.146287202835083,
      "learning_rate": 0.0002989987255419908,
      "loss": 4.3122,
      "step": 19590
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 1.2246578931808472,
      "learning_rate": 0.00029899758802970865,
      "loss": 4.5382,
      "step": 19600
    },
    {
      "epoch": 0.040854166666666664,
      "grad_norm": 0.9873015880584717,
      "learning_rate": 0.0002989964498738159,
      "loss": 4.3332,
      "step": 19610
    },
    {
      "epoch": 0.040875,
      "grad_norm": 1.1540783643722534,
      "learning_rate": 0.00029899531107431743,
      "loss": 4.2816,
      "step": 19620
    },
    {
      "epoch": 0.04089583333333333,
      "grad_norm": 1.2855654954910278,
      "learning_rate": 0.0002989941716312182,
      "loss": 4.5024,
      "step": 19630
    },
    {
      "epoch": 0.040916666666666664,
      "grad_norm": 1.0948725938796997,
      "learning_rate": 0.00029899303154452307,
      "loss": 4.3181,
      "step": 19640
    },
    {
      "epoch": 0.0409375,
      "grad_norm": 1.176546573638916,
      "learning_rate": 0.0002989918908142371,
      "loss": 4.2673,
      "step": 19650
    },
    {
      "epoch": 0.04095833333333333,
      "grad_norm": 1.1415001153945923,
      "learning_rate": 0.00029899074944036514,
      "loss": 4.5523,
      "step": 19660
    },
    {
      "epoch": 0.040979166666666664,
      "grad_norm": 1.5268785953521729,
      "learning_rate": 0.00029898960742291204,
      "loss": 4.2885,
      "step": 19670
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.3028219938278198,
      "learning_rate": 0.0002989884647618829,
      "loss": 4.5202,
      "step": 19680
    },
    {
      "epoch": 0.04102083333333333,
      "grad_norm": 1.149733543395996,
      "learning_rate": 0.0002989873214572825,
      "loss": 4.3195,
      "step": 19690
    },
    {
      "epoch": 0.041041666666666664,
      "grad_norm": 1.1975443363189697,
      "learning_rate": 0.00029898617750911586,
      "loss": 4.4677,
      "step": 19700
    },
    {
      "epoch": 0.0410625,
      "grad_norm": 1.3101012706756592,
      "learning_rate": 0.00029898503291738793,
      "loss": 4.3828,
      "step": 19710
    },
    {
      "epoch": 0.04108333333333333,
      "grad_norm": 1.1386089324951172,
      "learning_rate": 0.0002989838876821036,
      "loss": 4.2676,
      "step": 19720
    },
    {
      "epoch": 0.041104166666666664,
      "grad_norm": 1.148334264755249,
      "learning_rate": 0.0002989827418032679,
      "loss": 4.3209,
      "step": 19730
    },
    {
      "epoch": 0.041125,
      "grad_norm": 1.1641572713851929,
      "learning_rate": 0.0002989815952808857,
      "loss": 4.4267,
      "step": 19740
    },
    {
      "epoch": 0.04114583333333333,
      "grad_norm": 1.328702449798584,
      "learning_rate": 0.0002989804481149619,
      "loss": 4.3446,
      "step": 19750
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 1.1976920366287231,
      "learning_rate": 0.0002989793003055016,
      "loss": 4.2906,
      "step": 19760
    },
    {
      "epoch": 0.0411875,
      "grad_norm": 1.130843162536621,
      "learning_rate": 0.0002989781518525097,
      "loss": 4.322,
      "step": 19770
    },
    {
      "epoch": 0.04120833333333333,
      "grad_norm": 1.0347020626068115,
      "learning_rate": 0.00029897700275599115,
      "loss": 4.3012,
      "step": 19780
    },
    {
      "epoch": 0.041229166666666664,
      "grad_norm": 1.1069016456604004,
      "learning_rate": 0.00029897585301595094,
      "loss": 4.2588,
      "step": 19790
    },
    {
      "epoch": 0.04125,
      "grad_norm": 3.19963002204895,
      "learning_rate": 0.00029897470263239397,
      "loss": 4.3516,
      "step": 19800
    },
    {
      "epoch": 0.04127083333333333,
      "grad_norm": 1.389952301979065,
      "learning_rate": 0.0002989735516053253,
      "loss": 4.3055,
      "step": 19810
    },
    {
      "epoch": 0.041291666666666664,
      "grad_norm": 1.155773401260376,
      "learning_rate": 0.0002989723999347498,
      "loss": 4.3952,
      "step": 19820
    },
    {
      "epoch": 0.0413125,
      "grad_norm": 1.0806649923324585,
      "learning_rate": 0.00029897124762067254,
      "loss": 4.3798,
      "step": 19830
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 1.1822589635849,
      "learning_rate": 0.00029897009466309845,
      "loss": 4.4415,
      "step": 19840
    },
    {
      "epoch": 0.041354166666666664,
      "grad_norm": 1.1517832279205322,
      "learning_rate": 0.0002989689410620325,
      "loss": 4.4219,
      "step": 19850
    },
    {
      "epoch": 0.041375,
      "grad_norm": 1.0205605030059814,
      "learning_rate": 0.0002989677868174797,
      "loss": 4.2026,
      "step": 19860
    },
    {
      "epoch": 0.04139583333333333,
      "grad_norm": 1.2666263580322266,
      "learning_rate": 0.00029896663192944503,
      "loss": 4.1518,
      "step": 19870
    },
    {
      "epoch": 0.041416666666666664,
      "grad_norm": 1.151714563369751,
      "learning_rate": 0.00029896547639793347,
      "loss": 4.237,
      "step": 19880
    },
    {
      "epoch": 0.0414375,
      "grad_norm": 1.2195494174957275,
      "learning_rate": 0.00029896432022295,
      "loss": 4.2241,
      "step": 19890
    },
    {
      "epoch": 0.04145833333333333,
      "grad_norm": 1.1495176553726196,
      "learning_rate": 0.0002989631634044997,
      "loss": 4.4008,
      "step": 19900
    },
    {
      "epoch": 0.041479166666666664,
      "grad_norm": 1.1416528224945068,
      "learning_rate": 0.0002989620059425874,
      "loss": 4.2188,
      "step": 19910
    },
    {
      "epoch": 0.0415,
      "grad_norm": 1.6568495035171509,
      "learning_rate": 0.00029896084783721826,
      "loss": 4.3305,
      "step": 19920
    },
    {
      "epoch": 0.04152083333333333,
      "grad_norm": 1.1918147802352905,
      "learning_rate": 0.00029895968908839725,
      "loss": 4.1713,
      "step": 19930
    },
    {
      "epoch": 0.041541666666666664,
      "grad_norm": 1.5764776468276978,
      "learning_rate": 0.0002989585296961293,
      "loss": 4.4511,
      "step": 19940
    },
    {
      "epoch": 0.0415625,
      "grad_norm": 2.283480167388916,
      "learning_rate": 0.0002989573696604194,
      "loss": 4.306,
      "step": 19950
    },
    {
      "epoch": 0.04158333333333333,
      "grad_norm": 1.1256239414215088,
      "learning_rate": 0.00029895620898127273,
      "loss": 4.456,
      "step": 19960
    },
    {
      "epoch": 0.041604166666666664,
      "grad_norm": 1.088352918624878,
      "learning_rate": 0.00029895504765869416,
      "loss": 4.1872,
      "step": 19970
    },
    {
      "epoch": 0.041625,
      "grad_norm": 1.0395742654800415,
      "learning_rate": 0.00029895388569268875,
      "loss": 4.4819,
      "step": 19980
    },
    {
      "epoch": 0.04164583333333333,
      "grad_norm": 1.202374815940857,
      "learning_rate": 0.0002989527230832615,
      "loss": 4.4237,
      "step": 19990
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 1.2209720611572266,
      "learning_rate": 0.0002989515598304175,
      "loss": 4.5122,
      "step": 20000
    },
    {
      "epoch": 0.041666666666666664,
      "eval_loss": 4.07907247543335,
      "eval_runtime": 7.3508,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.408,
      "step": 20000
    },
    {
      "epoch": 0.0416875,
      "grad_norm": 1.1662685871124268,
      "learning_rate": 0.0002989503959341616,
      "loss": 4.2204,
      "step": 20010
    },
    {
      "epoch": 0.04170833333333333,
      "grad_norm": 1.0816326141357422,
      "learning_rate": 0.00029894923139449906,
      "loss": 4.364,
      "step": 20020
    },
    {
      "epoch": 0.041729166666666664,
      "grad_norm": 1.194786787033081,
      "learning_rate": 0.00029894806621143477,
      "loss": 4.4009,
      "step": 20030
    },
    {
      "epoch": 0.04175,
      "grad_norm": 1.1393605470657349,
      "learning_rate": 0.00029894690038497374,
      "loss": 4.3272,
      "step": 20040
    },
    {
      "epoch": 0.04177083333333333,
      "grad_norm": 1.1240553855895996,
      "learning_rate": 0.0002989457339151211,
      "loss": 4.1812,
      "step": 20050
    },
    {
      "epoch": 0.041791666666666664,
      "grad_norm": 1.1082435846328735,
      "learning_rate": 0.00029894456680188184,
      "loss": 4.5165,
      "step": 20060
    },
    {
      "epoch": 0.0418125,
      "grad_norm": 1.15396249294281,
      "learning_rate": 0.000298943399045261,
      "loss": 4.2629,
      "step": 20070
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 1.0219355821609497,
      "learning_rate": 0.00029894223064526364,
      "loss": 4.3075,
      "step": 20080
    },
    {
      "epoch": 0.041854166666666665,
      "grad_norm": 1.1632267236709595,
      "learning_rate": 0.0002989410616018948,
      "loss": 4.3142,
      "step": 20090
    },
    {
      "epoch": 0.041875,
      "grad_norm": 1.1026333570480347,
      "learning_rate": 0.00029893989191515953,
      "loss": 4.3492,
      "step": 20100
    },
    {
      "epoch": 0.041895833333333334,
      "grad_norm": 1.0139786005020142,
      "learning_rate": 0.0002989387215850629,
      "loss": 4.3669,
      "step": 20110
    },
    {
      "epoch": 0.041916666666666665,
      "grad_norm": 1.091005563735962,
      "learning_rate": 0.00029893755061160995,
      "loss": 4.4406,
      "step": 20120
    },
    {
      "epoch": 0.0419375,
      "grad_norm": 1.1358908414840698,
      "learning_rate": 0.0002989363789948057,
      "loss": 4.467,
      "step": 20130
    },
    {
      "epoch": 0.041958333333333334,
      "grad_norm": 1.1857950687408447,
      "learning_rate": 0.0002989352067346553,
      "loss": 4.3253,
      "step": 20140
    },
    {
      "epoch": 0.041979166666666665,
      "grad_norm": 1.2924827337265015,
      "learning_rate": 0.0002989340338311637,
      "loss": 4.3527,
      "step": 20150
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.1516966819763184,
      "learning_rate": 0.0002989328602843361,
      "loss": 4.3217,
      "step": 20160
    },
    {
      "epoch": 0.042020833333333334,
      "grad_norm": 1.2511963844299316,
      "learning_rate": 0.00029893168609417735,
      "loss": 4.2543,
      "step": 20170
    },
    {
      "epoch": 0.042041666666666665,
      "grad_norm": 1.1862870454788208,
      "learning_rate": 0.0002989305112606928,
      "loss": 4.3673,
      "step": 20180
    },
    {
      "epoch": 0.0420625,
      "grad_norm": 1.0516972541809082,
      "learning_rate": 0.0002989293357838874,
      "loss": 4.3644,
      "step": 20190
    },
    {
      "epoch": 0.042083333333333334,
      "grad_norm": 1.0205401182174683,
      "learning_rate": 0.0002989281596637661,
      "loss": 4.4063,
      "step": 20200
    },
    {
      "epoch": 0.042104166666666665,
      "grad_norm": 1.1704161167144775,
      "learning_rate": 0.0002989269829003342,
      "loss": 4.1046,
      "step": 20210
    },
    {
      "epoch": 0.042125,
      "grad_norm": 2.014078378677368,
      "learning_rate": 0.00029892580549359664,
      "loss": 4.4369,
      "step": 20220
    },
    {
      "epoch": 0.042145833333333334,
      "grad_norm": 1.120641827583313,
      "learning_rate": 0.00029892462744355853,
      "loss": 4.2281,
      "step": 20230
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 1.241942286491394,
      "learning_rate": 0.00029892344875022506,
      "loss": 4.3536,
      "step": 20240
    },
    {
      "epoch": 0.0421875,
      "grad_norm": 1.145839810371399,
      "learning_rate": 0.0002989222694136012,
      "loss": 4.2744,
      "step": 20250
    },
    {
      "epoch": 0.042208333333333334,
      "grad_norm": 1.1415443420410156,
      "learning_rate": 0.00029892108943369207,
      "loss": 4.4,
      "step": 20260
    },
    {
      "epoch": 0.042229166666666665,
      "grad_norm": 1.1894835233688354,
      "learning_rate": 0.0002989199088105028,
      "loss": 4.3782,
      "step": 20270
    },
    {
      "epoch": 0.04225,
      "grad_norm": 1.123206377029419,
      "learning_rate": 0.00029891872754403843,
      "loss": 4.4378,
      "step": 20280
    },
    {
      "epoch": 0.042270833333333334,
      "grad_norm": 1.0762773752212524,
      "learning_rate": 0.0002989175456343041,
      "loss": 4.3355,
      "step": 20290
    },
    {
      "epoch": 0.042291666666666665,
      "grad_norm": 1.0674810409545898,
      "learning_rate": 0.00029891636308130497,
      "loss": 4.3275,
      "step": 20300
    },
    {
      "epoch": 0.0423125,
      "grad_norm": 1.1904913187026978,
      "learning_rate": 0.0002989151798850461,
      "loss": 4.3257,
      "step": 20310
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 1.1390447616577148,
      "learning_rate": 0.00029891399604553255,
      "loss": 4.2423,
      "step": 20320
    },
    {
      "epoch": 0.042354166666666665,
      "grad_norm": 1.1458660364151,
      "learning_rate": 0.00029891281156276954,
      "loss": 4.3111,
      "step": 20330
    },
    {
      "epoch": 0.042375,
      "grad_norm": 1.118164300918579,
      "learning_rate": 0.0002989116264367621,
      "loss": 4.3057,
      "step": 20340
    },
    {
      "epoch": 0.042395833333333334,
      "grad_norm": 1.1039575338363647,
      "learning_rate": 0.00029891044066751533,
      "loss": 4.3324,
      "step": 20350
    },
    {
      "epoch": 0.042416666666666665,
      "grad_norm": 1.3056159019470215,
      "learning_rate": 0.00029890925425503443,
      "loss": 4.3829,
      "step": 20360
    },
    {
      "epoch": 0.0424375,
      "grad_norm": 1.196787714958191,
      "learning_rate": 0.0002989080671993245,
      "loss": 4.2224,
      "step": 20370
    },
    {
      "epoch": 0.042458333333333334,
      "grad_norm": 1.2283146381378174,
      "learning_rate": 0.0002989068795003907,
      "loss": 4.3169,
      "step": 20380
    },
    {
      "epoch": 0.042479166666666665,
      "grad_norm": 1.1005268096923828,
      "learning_rate": 0.0002989056911582381,
      "loss": 4.3486,
      "step": 20390
    },
    {
      "epoch": 0.0425,
      "grad_norm": 1.0951062440872192,
      "learning_rate": 0.0002989045021728718,
      "loss": 4.531,
      "step": 20400
    },
    {
      "epoch": 0.042520833333333334,
      "grad_norm": 1.1299301385879517,
      "learning_rate": 0.000298903312544297,
      "loss": 4.3091,
      "step": 20410
    },
    {
      "epoch": 0.042541666666666665,
      "grad_norm": 1.206860899925232,
      "learning_rate": 0.0002989021222725189,
      "loss": 4.2343,
      "step": 20420
    },
    {
      "epoch": 0.0425625,
      "grad_norm": 0.995380699634552,
      "learning_rate": 0.0002989009313575426,
      "loss": 4.3179,
      "step": 20430
    },
    {
      "epoch": 0.042583333333333334,
      "grad_norm": 1.6645894050598145,
      "learning_rate": 0.00029889973979937306,
      "loss": 4.4336,
      "step": 20440
    },
    {
      "epoch": 0.042604166666666665,
      "grad_norm": 1.2383195161819458,
      "learning_rate": 0.0002988985475980157,
      "loss": 4.3216,
      "step": 20450
    },
    {
      "epoch": 0.042625,
      "grad_norm": 1.9123948812484741,
      "learning_rate": 0.0002988973547534755,
      "loss": 4.4158,
      "step": 20460
    },
    {
      "epoch": 0.042645833333333334,
      "grad_norm": 1.180119514465332,
      "learning_rate": 0.00029889616126575774,
      "loss": 4.3337,
      "step": 20470
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 1.170904278755188,
      "learning_rate": 0.00029889496713486743,
      "loss": 4.1901,
      "step": 20480
    },
    {
      "epoch": 0.0426875,
      "grad_norm": 1.1004371643066406,
      "learning_rate": 0.0002988937723608098,
      "loss": 4.2071,
      "step": 20490
    },
    {
      "epoch": 0.042708333333333334,
      "grad_norm": 1.2413743734359741,
      "learning_rate": 0.00029889257694359005,
      "loss": 4.2622,
      "step": 20500
    },
    {
      "epoch": 0.042729166666666665,
      "grad_norm": 1.1272553205490112,
      "learning_rate": 0.0002988913808832133,
      "loss": 4.3231,
      "step": 20510
    },
    {
      "epoch": 0.04275,
      "grad_norm": 1.1023114919662476,
      "learning_rate": 0.00029889018417968464,
      "loss": 4.4103,
      "step": 20520
    },
    {
      "epoch": 0.042770833333333334,
      "grad_norm": 1.1146187782287598,
      "learning_rate": 0.0002988889868330094,
      "loss": 4.1969,
      "step": 20530
    },
    {
      "epoch": 0.042791666666666665,
      "grad_norm": 1.1456211805343628,
      "learning_rate": 0.00029888778884319266,
      "loss": 4.48,
      "step": 20540
    },
    {
      "epoch": 0.0428125,
      "grad_norm": 1.1055982112884521,
      "learning_rate": 0.0002988865902102396,
      "loss": 4.2387,
      "step": 20550
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 1.145200490951538,
      "learning_rate": 0.0002988853909341554,
      "loss": 4.291,
      "step": 20560
    },
    {
      "epoch": 0.042854166666666665,
      "grad_norm": 1.2671921253204346,
      "learning_rate": 0.00029888419101494526,
      "loss": 4.4221,
      "step": 20570
    },
    {
      "epoch": 0.042875,
      "grad_norm": 1.2118008136749268,
      "learning_rate": 0.0002988829904526143,
      "loss": 4.2487,
      "step": 20580
    },
    {
      "epoch": 0.042895833333333334,
      "grad_norm": 1.0822166204452515,
      "learning_rate": 0.0002988817892471678,
      "loss": 4.2307,
      "step": 20590
    },
    {
      "epoch": 0.042916666666666665,
      "grad_norm": 1.08693528175354,
      "learning_rate": 0.00029888058739861094,
      "loss": 4.3002,
      "step": 20600
    },
    {
      "epoch": 0.0429375,
      "grad_norm": 1.114232063293457,
      "learning_rate": 0.0002988793849069488,
      "loss": 4.475,
      "step": 20610
    },
    {
      "epoch": 0.042958333333333334,
      "grad_norm": 1.3136980533599854,
      "learning_rate": 0.00029887818177218664,
      "loss": 4.4138,
      "step": 20620
    },
    {
      "epoch": 0.042979166666666666,
      "grad_norm": 1.1438874006271362,
      "learning_rate": 0.00029887697799432973,
      "loss": 4.3974,
      "step": 20630
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.1260720491409302,
      "learning_rate": 0.0002988757735733831,
      "loss": 4.4054,
      "step": 20640
    },
    {
      "epoch": 0.043020833333333335,
      "grad_norm": 1.0830142498016357,
      "learning_rate": 0.0002988745685093522,
      "loss": 4.2871,
      "step": 20650
    },
    {
      "epoch": 0.043041666666666666,
      "grad_norm": 1.0605560541152954,
      "learning_rate": 0.000298873362802242,
      "loss": 4.2046,
      "step": 20660
    },
    {
      "epoch": 0.0430625,
      "grad_norm": 1.1496624946594238,
      "learning_rate": 0.00029887215645205785,
      "loss": 4.1934,
      "step": 20670
    },
    {
      "epoch": 0.043083333333333335,
      "grad_norm": 1.1113896369934082,
      "learning_rate": 0.00029887094945880483,
      "loss": 4.2638,
      "step": 20680
    },
    {
      "epoch": 0.043104166666666666,
      "grad_norm": 1.1887362003326416,
      "learning_rate": 0.0002988697418224883,
      "loss": 4.5177,
      "step": 20690
    },
    {
      "epoch": 0.043125,
      "grad_norm": 1.1624417304992676,
      "learning_rate": 0.0002988685335431134,
      "loss": 4.2213,
      "step": 20700
    },
    {
      "epoch": 0.043145833333333335,
      "grad_norm": 1.1454780101776123,
      "learning_rate": 0.00029886732462068534,
      "loss": 4.3715,
      "step": 20710
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 1.1251112222671509,
      "learning_rate": 0.0002988661150552094,
      "loss": 4.3063,
      "step": 20720
    },
    {
      "epoch": 0.0431875,
      "grad_norm": 1.0714269876480103,
      "learning_rate": 0.00029886490484669077,
      "loss": 4.1939,
      "step": 20730
    },
    {
      "epoch": 0.043208333333333335,
      "grad_norm": 1.1500836610794067,
      "learning_rate": 0.00029886369399513465,
      "loss": 4.2475,
      "step": 20740
    },
    {
      "epoch": 0.043229166666666666,
      "grad_norm": 0.9788324236869812,
      "learning_rate": 0.0002988624825005463,
      "loss": 4.4879,
      "step": 20750
    },
    {
      "epoch": 0.04325,
      "grad_norm": 1.2956818342208862,
      "learning_rate": 0.000298861270362931,
      "loss": 4.3382,
      "step": 20760
    },
    {
      "epoch": 0.043270833333333335,
      "grad_norm": 1.3053628206253052,
      "learning_rate": 0.0002988600575822938,
      "loss": 4.2829,
      "step": 20770
    },
    {
      "epoch": 0.043291666666666666,
      "grad_norm": 1.1049634218215942,
      "learning_rate": 0.0002988588441586402,
      "loss": 4.2112,
      "step": 20780
    },
    {
      "epoch": 0.0433125,
      "grad_norm": 1.0727611780166626,
      "learning_rate": 0.00029885763009197526,
      "loss": 4.4045,
      "step": 20790
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 1.3529525995254517,
      "learning_rate": 0.0002988564153823043,
      "loss": 4.3265,
      "step": 20800
    },
    {
      "epoch": 0.043354166666666666,
      "grad_norm": 1.051331639289856,
      "learning_rate": 0.00029885520002963256,
      "loss": 4.4172,
      "step": 20810
    },
    {
      "epoch": 0.043375,
      "grad_norm": 1.1555856466293335,
      "learning_rate": 0.0002988539840339653,
      "loss": 4.2836,
      "step": 20820
    },
    {
      "epoch": 0.043395833333333335,
      "grad_norm": 1.0373860597610474,
      "learning_rate": 0.0002988527673953077,
      "loss": 4.3568,
      "step": 20830
    },
    {
      "epoch": 0.043416666666666666,
      "grad_norm": 1.0914050340652466,
      "learning_rate": 0.00029885155011366506,
      "loss": 4.3063,
      "step": 20840
    },
    {
      "epoch": 0.0434375,
      "grad_norm": 1.0596576929092407,
      "learning_rate": 0.00029885033218904263,
      "loss": 4.5109,
      "step": 20850
    },
    {
      "epoch": 0.043458333333333335,
      "grad_norm": 1.0437413454055786,
      "learning_rate": 0.00029884911362144576,
      "loss": 4.3269,
      "step": 20860
    },
    {
      "epoch": 0.043479166666666666,
      "grad_norm": 1.165886640548706,
      "learning_rate": 0.0002988478944108796,
      "loss": 4.318,
      "step": 20870
    },
    {
      "epoch": 0.0435,
      "grad_norm": 1.086997628211975,
      "learning_rate": 0.0002988466745573494,
      "loss": 4.3089,
      "step": 20880
    },
    {
      "epoch": 0.043520833333333335,
      "grad_norm": 1.2520946264266968,
      "learning_rate": 0.00029884545406086053,
      "loss": 4.4148,
      "step": 20890
    },
    {
      "epoch": 0.043541666666666666,
      "grad_norm": 1.1061209440231323,
      "learning_rate": 0.0002988442329214182,
      "loss": 4.2896,
      "step": 20900
    },
    {
      "epoch": 0.0435625,
      "grad_norm": 1.1018092632293701,
      "learning_rate": 0.00029884301113902777,
      "loss": 4.245,
      "step": 20910
    },
    {
      "epoch": 0.043583333333333335,
      "grad_norm": 1.2088507413864136,
      "learning_rate": 0.00029884178871369434,
      "loss": 4.1658,
      "step": 20920
    },
    {
      "epoch": 0.043604166666666666,
      "grad_norm": 1.2352114915847778,
      "learning_rate": 0.0002988405656454234,
      "loss": 4.5022,
      "step": 20930
    },
    {
      "epoch": 0.043625,
      "grad_norm": 0.9992795586585999,
      "learning_rate": 0.00029883934193422005,
      "loss": 4.3577,
      "step": 20940
    },
    {
      "epoch": 0.043645833333333335,
      "grad_norm": 1.237205147743225,
      "learning_rate": 0.0002988381175800897,
      "loss": 4.2503,
      "step": 20950
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 1.4524099826812744,
      "learning_rate": 0.0002988368925830376,
      "loss": 4.509,
      "step": 20960
    },
    {
      "epoch": 0.0436875,
      "grad_norm": 1.173349380493164,
      "learning_rate": 0.00029883566694306903,
      "loss": 4.4426,
      "step": 20970
    },
    {
      "epoch": 0.043708333333333335,
      "grad_norm": 1.1472736597061157,
      "learning_rate": 0.00029883444066018927,
      "loss": 4.2674,
      "step": 20980
    },
    {
      "epoch": 0.043729166666666666,
      "grad_norm": 1.2033336162567139,
      "learning_rate": 0.0002988332137344037,
      "loss": 4.4604,
      "step": 20990
    },
    {
      "epoch": 0.04375,
      "grad_norm": 1.3082460165023804,
      "learning_rate": 0.00029883198616571745,
      "loss": 4.1701,
      "step": 21000
    },
    {
      "epoch": 0.04375,
      "eval_loss": 4.093545913696289,
      "eval_runtime": 7.3508,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.408,
      "step": 21000
    },
    {
      "epoch": 0.043770833333333335,
      "grad_norm": 1.1226552724838257,
      "learning_rate": 0.000298830757954136,
      "loss": 4.455,
      "step": 21010
    },
    {
      "epoch": 0.043791666666666666,
      "grad_norm": 1.0253485441207886,
      "learning_rate": 0.0002988295290996646,
      "loss": 4.2799,
      "step": 21020
    },
    {
      "epoch": 0.0438125,
      "grad_norm": 1.1109280586242676,
      "learning_rate": 0.0002988282996023085,
      "loss": 4.5674,
      "step": 21030
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 1.1974858045578003,
      "learning_rate": 0.00029882706946207313,
      "loss": 4.3285,
      "step": 21040
    },
    {
      "epoch": 0.043854166666666666,
      "grad_norm": 1.3248389959335327,
      "learning_rate": 0.0002988258386789637,
      "loss": 4.3961,
      "step": 21050
    },
    {
      "epoch": 0.043875,
      "grad_norm": 1.1780484914779663,
      "learning_rate": 0.00029882460725298547,
      "loss": 4.1461,
      "step": 21060
    },
    {
      "epoch": 0.043895833333333335,
      "grad_norm": 1.1703118085861206,
      "learning_rate": 0.00029882337518414393,
      "loss": 4.409,
      "step": 21070
    },
    {
      "epoch": 0.043916666666666666,
      "grad_norm": 1.0699650049209595,
      "learning_rate": 0.00029882214247244434,
      "loss": 4.3607,
      "step": 21080
    },
    {
      "epoch": 0.0439375,
      "grad_norm": 1.1482560634613037,
      "learning_rate": 0.00029882090911789196,
      "loss": 4.3063,
      "step": 21090
    },
    {
      "epoch": 0.043958333333333335,
      "grad_norm": 1.1886258125305176,
      "learning_rate": 0.0002988196751204922,
      "loss": 4.2813,
      "step": 21100
    },
    {
      "epoch": 0.043979166666666666,
      "grad_norm": 2.280128002166748,
      "learning_rate": 0.0002988184404802503,
      "loss": 4.4358,
      "step": 21110
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.0934257507324219,
      "learning_rate": 0.0002988172051971717,
      "loss": 4.3039,
      "step": 21120
    },
    {
      "epoch": 0.044020833333333335,
      "grad_norm": 1.1142499446868896,
      "learning_rate": 0.0002988159692712616,
      "loss": 4.3505,
      "step": 21130
    },
    {
      "epoch": 0.044041666666666666,
      "grad_norm": 1.1277744770050049,
      "learning_rate": 0.00029881473270252544,
      "loss": 4.2739,
      "step": 21140
    },
    {
      "epoch": 0.0440625,
      "grad_norm": 1.1313860416412354,
      "learning_rate": 0.00029881349549096855,
      "loss": 4.3129,
      "step": 21150
    },
    {
      "epoch": 0.044083333333333335,
      "grad_norm": 1.1599700450897217,
      "learning_rate": 0.0002988122576365963,
      "loss": 4.4016,
      "step": 21160
    },
    {
      "epoch": 0.044104166666666667,
      "grad_norm": 0.9873988628387451,
      "learning_rate": 0.00029881101913941397,
      "loss": 4.3507,
      "step": 21170
    },
    {
      "epoch": 0.044125,
      "grad_norm": 1.0794130563735962,
      "learning_rate": 0.00029880977999942695,
      "loss": 4.3066,
      "step": 21180
    },
    {
      "epoch": 0.044145833333333336,
      "grad_norm": 1.1216182708740234,
      "learning_rate": 0.0002988085402166406,
      "loss": 4.3277,
      "step": 21190
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 1.1409162282943726,
      "learning_rate": 0.0002988072997910602,
      "loss": 4.3294,
      "step": 21200
    },
    {
      "epoch": 0.0441875,
      "grad_norm": 1.17918062210083,
      "learning_rate": 0.0002988060587226912,
      "loss": 4.1884,
      "step": 21210
    },
    {
      "epoch": 0.044208333333333336,
      "grad_norm": 1.1061019897460938,
      "learning_rate": 0.00029880481701153894,
      "loss": 4.399,
      "step": 21220
    },
    {
      "epoch": 0.04422916666666667,
      "grad_norm": 1.2666597366333008,
      "learning_rate": 0.00029880357465760876,
      "loss": 4.3063,
      "step": 21230
    },
    {
      "epoch": 0.04425,
      "grad_norm": 1.0586191415786743,
      "learning_rate": 0.000298802331660906,
      "loss": 4.3562,
      "step": 21240
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 1.1598877906799316,
      "learning_rate": 0.00029880108802143613,
      "loss": 4.1349,
      "step": 21250
    },
    {
      "epoch": 0.04429166666666667,
      "grad_norm": 1.0449193716049194,
      "learning_rate": 0.00029879984373920446,
      "loss": 4.3452,
      "step": 21260
    },
    {
      "epoch": 0.0443125,
      "grad_norm": 1.2657122611999512,
      "learning_rate": 0.0002987985988142163,
      "loss": 4.43,
      "step": 21270
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 1.1641993522644043,
      "learning_rate": 0.00029879735324647716,
      "loss": 4.3107,
      "step": 21280
    },
    {
      "epoch": 0.04435416666666667,
      "grad_norm": 1.4815236330032349,
      "learning_rate": 0.0002987961070359923,
      "loss": 4.3004,
      "step": 21290
    },
    {
      "epoch": 0.044375,
      "grad_norm": 1.1612635850906372,
      "learning_rate": 0.0002987948601827672,
      "loss": 4.2415,
      "step": 21300
    },
    {
      "epoch": 0.044395833333333336,
      "grad_norm": 1.1653392314910889,
      "learning_rate": 0.00029879361268680716,
      "loss": 4.3026,
      "step": 21310
    },
    {
      "epoch": 0.04441666666666667,
      "grad_norm": 1.1225649118423462,
      "learning_rate": 0.00029879236454811764,
      "loss": 4.426,
      "step": 21320
    },
    {
      "epoch": 0.0444375,
      "grad_norm": 1.1496500968933105,
      "learning_rate": 0.000298791115766704,
      "loss": 4.4731,
      "step": 21330
    },
    {
      "epoch": 0.044458333333333336,
      "grad_norm": 1.217761516571045,
      "learning_rate": 0.00029878986634257167,
      "loss": 4.0639,
      "step": 21340
    },
    {
      "epoch": 0.04447916666666667,
      "grad_norm": 1.130358338356018,
      "learning_rate": 0.00029878861627572595,
      "loss": 4.2721,
      "step": 21350
    },
    {
      "epoch": 0.0445,
      "grad_norm": 1.2250854969024658,
      "learning_rate": 0.0002987873655661723,
      "loss": 4.1958,
      "step": 21360
    },
    {
      "epoch": 0.044520833333333336,
      "grad_norm": 1.1680322885513306,
      "learning_rate": 0.00029878611421391615,
      "loss": 4.299,
      "step": 21370
    },
    {
      "epoch": 0.04454166666666667,
      "grad_norm": 1.0503038167953491,
      "learning_rate": 0.0002987848622189629,
      "loss": 4.2235,
      "step": 21380
    },
    {
      "epoch": 0.0445625,
      "grad_norm": 1.099147915840149,
      "learning_rate": 0.0002987836095813179,
      "loss": 4.4025,
      "step": 21390
    },
    {
      "epoch": 0.044583333333333336,
      "grad_norm": 1.214235544204712,
      "learning_rate": 0.0002987823563009866,
      "loss": 4.3357,
      "step": 21400
    },
    {
      "epoch": 0.04460416666666667,
      "grad_norm": 1.3387621641159058,
      "learning_rate": 0.00029878110237797445,
      "loss": 4.3175,
      "step": 21410
    },
    {
      "epoch": 0.044625,
      "grad_norm": 1.1163166761398315,
      "learning_rate": 0.0002987798478122868,
      "loss": 4.2761,
      "step": 21420
    },
    {
      "epoch": 0.044645833333333336,
      "grad_norm": 1.18941068649292,
      "learning_rate": 0.00029877859260392907,
      "loss": 4.1688,
      "step": 21430
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 1.2051148414611816,
      "learning_rate": 0.00029877733675290677,
      "loss": 4.5246,
      "step": 21440
    },
    {
      "epoch": 0.0446875,
      "grad_norm": 1.0955582857131958,
      "learning_rate": 0.00029877608025922526,
      "loss": 4.3736,
      "step": 21450
    },
    {
      "epoch": 0.044708333333333336,
      "grad_norm": 0.9719502925872803,
      "learning_rate": 0.00029877482312288997,
      "loss": 4.2489,
      "step": 21460
    },
    {
      "epoch": 0.04472916666666667,
      "grad_norm": 1.1319823265075684,
      "learning_rate": 0.0002987735653439063,
      "loss": 4.1602,
      "step": 21470
    },
    {
      "epoch": 0.04475,
      "grad_norm": 1.2611329555511475,
      "learning_rate": 0.00029877230692227974,
      "loss": 4.3064,
      "step": 21480
    },
    {
      "epoch": 0.044770833333333336,
      "grad_norm": 1.1203899383544922,
      "learning_rate": 0.00029877104785801565,
      "loss": 4.349,
      "step": 21490
    },
    {
      "epoch": 0.04479166666666667,
      "grad_norm": 1.1642417907714844,
      "learning_rate": 0.0002987697881511196,
      "loss": 4.2156,
      "step": 21500
    },
    {
      "epoch": 0.0448125,
      "grad_norm": 1.1039443016052246,
      "learning_rate": 0.0002987685278015969,
      "loss": 4.2899,
      "step": 21510
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 1.0876213312149048,
      "learning_rate": 0.0002987672668094531,
      "loss": 4.3319,
      "step": 21520
    },
    {
      "epoch": 0.04485416666666667,
      "grad_norm": 1.1392319202423096,
      "learning_rate": 0.0002987660051746936,
      "loss": 4.31,
      "step": 21530
    },
    {
      "epoch": 0.044875,
      "grad_norm": 1.4039169549942017,
      "learning_rate": 0.0002987647428973237,
      "loss": 4.0828,
      "step": 21540
    },
    {
      "epoch": 0.044895833333333336,
      "grad_norm": 1.2713396549224854,
      "learning_rate": 0.0002987634799773491,
      "loss": 4.3732,
      "step": 21550
    },
    {
      "epoch": 0.04491666666666667,
      "grad_norm": 1.4656376838684082,
      "learning_rate": 0.0002987622164147752,
      "loss": 4.343,
      "step": 21560
    },
    {
      "epoch": 0.0449375,
      "grad_norm": 0.9805972576141357,
      "learning_rate": 0.00029876095220960735,
      "loss": 4.129,
      "step": 21570
    },
    {
      "epoch": 0.044958333333333336,
      "grad_norm": 1.1256036758422852,
      "learning_rate": 0.0002987596873618511,
      "loss": 4.3094,
      "step": 21580
    },
    {
      "epoch": 0.04497916666666667,
      "grad_norm": 1.1931320428848267,
      "learning_rate": 0.00029875842187151183,
      "loss": 4.2756,
      "step": 21590
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.1914962530136108,
      "learning_rate": 0.0002987571557385951,
      "loss": 4.2514,
      "step": 21600
    },
    {
      "epoch": 0.045020833333333336,
      "grad_norm": 1.1869665384292603,
      "learning_rate": 0.00029875588896310636,
      "loss": 4.3295,
      "step": 21610
    },
    {
      "epoch": 0.04504166666666667,
      "grad_norm": 1.1240383386611938,
      "learning_rate": 0.00029875462154505103,
      "loss": 4.4721,
      "step": 21620
    },
    {
      "epoch": 0.0450625,
      "grad_norm": 1.0893315076828003,
      "learning_rate": 0.0002987533534844346,
      "loss": 4.3116,
      "step": 21630
    },
    {
      "epoch": 0.045083333333333336,
      "grad_norm": 1.0835927724838257,
      "learning_rate": 0.0002987520847812626,
      "loss": 4.4914,
      "step": 21640
    },
    {
      "epoch": 0.04510416666666667,
      "grad_norm": 1.1265078783035278,
      "learning_rate": 0.00029875081543554046,
      "loss": 4.2237,
      "step": 21650
    },
    {
      "epoch": 0.045125,
      "grad_norm": 1.221846342086792,
      "learning_rate": 0.0002987495454472737,
      "loss": 4.0042,
      "step": 21660
    },
    {
      "epoch": 0.045145833333333336,
      "grad_norm": 1.1860768795013428,
      "learning_rate": 0.00029874827481646775,
      "loss": 4.4275,
      "step": 21670
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 1.164076805114746,
      "learning_rate": 0.0002987470035431281,
      "loss": 4.1722,
      "step": 21680
    },
    {
      "epoch": 0.0451875,
      "grad_norm": 1.096318244934082,
      "learning_rate": 0.0002987457316272603,
      "loss": 4.364,
      "step": 21690
    },
    {
      "epoch": 0.045208333333333336,
      "grad_norm": 1.0676194429397583,
      "learning_rate": 0.00029874445906886987,
      "loss": 4.0734,
      "step": 21700
    },
    {
      "epoch": 0.04522916666666667,
      "grad_norm": 1.1116729974746704,
      "learning_rate": 0.0002987431858679622,
      "loss": 4.2919,
      "step": 21710
    },
    {
      "epoch": 0.04525,
      "grad_norm": 1.195204734802246,
      "learning_rate": 0.00029874191202454285,
      "loss": 4.2353,
      "step": 21720
    },
    {
      "epoch": 0.04527083333333334,
      "grad_norm": 1.3051728010177612,
      "learning_rate": 0.00029874063753861736,
      "loss": 4.2611,
      "step": 21730
    },
    {
      "epoch": 0.04529166666666667,
      "grad_norm": 1.1097683906555176,
      "learning_rate": 0.0002987393624101911,
      "loss": 4.2288,
      "step": 21740
    },
    {
      "epoch": 0.0453125,
      "grad_norm": 1.0880392789840698,
      "learning_rate": 0.00029873808663926976,
      "loss": 4.325,
      "step": 21750
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 1.0753834247589111,
      "learning_rate": 0.0002987368102258587,
      "loss": 4.3147,
      "step": 21760
    },
    {
      "epoch": 0.04535416666666667,
      "grad_norm": 1.1599804162979126,
      "learning_rate": 0.00029873553316996353,
      "loss": 4.3228,
      "step": 21770
    },
    {
      "epoch": 0.045375,
      "grad_norm": 1.1176784038543701,
      "learning_rate": 0.00029873425547158973,
      "loss": 4.175,
      "step": 21780
    },
    {
      "epoch": 0.04539583333333334,
      "grad_norm": 1.2763266563415527,
      "learning_rate": 0.0002987329771307428,
      "loss": 4.3192,
      "step": 21790
    },
    {
      "epoch": 0.04541666666666667,
      "grad_norm": 1.1392089128494263,
      "learning_rate": 0.00029873169814742827,
      "loss": 4.3289,
      "step": 21800
    },
    {
      "epoch": 0.0454375,
      "grad_norm": 0.9828329086303711,
      "learning_rate": 0.0002987304185216517,
      "loss": 4.4042,
      "step": 21810
    },
    {
      "epoch": 0.04545833333333334,
      "grad_norm": 1.3035296201705933,
      "learning_rate": 0.0002987291382534186,
      "loss": 4.383,
      "step": 21820
    },
    {
      "epoch": 0.04547916666666667,
      "grad_norm": 1.01111900806427,
      "learning_rate": 0.0002987278573427345,
      "loss": 4.1084,
      "step": 21830
    },
    {
      "epoch": 0.0455,
      "grad_norm": 1.0865286588668823,
      "learning_rate": 0.0002987265757896049,
      "loss": 4.1171,
      "step": 21840
    },
    {
      "epoch": 0.04552083333333334,
      "grad_norm": 1.319711685180664,
      "learning_rate": 0.0002987252935940354,
      "loss": 4.094,
      "step": 21850
    },
    {
      "epoch": 0.04554166666666667,
      "grad_norm": 1.1416432857513428,
      "learning_rate": 0.0002987240107560314,
      "loss": 4.4677,
      "step": 21860
    },
    {
      "epoch": 0.0455625,
      "grad_norm": 1.1549179553985596,
      "learning_rate": 0.00029872272727559865,
      "loss": 4.1211,
      "step": 21870
    },
    {
      "epoch": 0.04558333333333333,
      "grad_norm": 1.0333824157714844,
      "learning_rate": 0.00029872144315274253,
      "loss": 4.4831,
      "step": 21880
    },
    {
      "epoch": 0.04560416666666667,
      "grad_norm": 1.1696341037750244,
      "learning_rate": 0.0002987201583874687,
      "loss": 4.3574,
      "step": 21890
    },
    {
      "epoch": 0.045625,
      "grad_norm": 1.0548548698425293,
      "learning_rate": 0.00029871887297978266,
      "loss": 4.2058,
      "step": 21900
    },
    {
      "epoch": 0.04564583333333333,
      "grad_norm": 1.0548995733261108,
      "learning_rate": 0.0002987175869296899,
      "loss": 4.1437,
      "step": 21910
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 1.1622813940048218,
      "learning_rate": 0.00029871630023719603,
      "loss": 4.3374,
      "step": 21920
    },
    {
      "epoch": 0.0456875,
      "grad_norm": 1.1720607280731201,
      "learning_rate": 0.0002987150129023066,
      "loss": 4.219,
      "step": 21930
    },
    {
      "epoch": 0.04570833333333333,
      "grad_norm": 1.1213221549987793,
      "learning_rate": 0.0002987137249250272,
      "loss": 4.2625,
      "step": 21940
    },
    {
      "epoch": 0.04572916666666667,
      "grad_norm": 1.1367722749710083,
      "learning_rate": 0.0002987124363053634,
      "loss": 4.2505,
      "step": 21950
    },
    {
      "epoch": 0.04575,
      "grad_norm": 1.121429681777954,
      "learning_rate": 0.0002987111470433207,
      "loss": 4.5159,
      "step": 21960
    },
    {
      "epoch": 0.04577083333333333,
      "grad_norm": 1.1661678552627563,
      "learning_rate": 0.00029870985713890475,
      "loss": 4.1396,
      "step": 21970
    },
    {
      "epoch": 0.04579166666666667,
      "grad_norm": 1.1101354360580444,
      "learning_rate": 0.00029870856659212105,
      "loss": 4.2226,
      "step": 21980
    },
    {
      "epoch": 0.0458125,
      "grad_norm": 1.0549263954162598,
      "learning_rate": 0.0002987072754029752,
      "loss": 4.3278,
      "step": 21990
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 1.091124415397644,
      "learning_rate": 0.0002987059835714728,
      "loss": 4.3904,
      "step": 22000
    },
    {
      "epoch": 0.04583333333333333,
      "eval_loss": 4.083121299743652,
      "eval_runtime": 7.2947,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 22000
    },
    {
      "epoch": 0.04585416666666667,
      "grad_norm": 1.0732872486114502,
      "learning_rate": 0.0002987046910976194,
      "loss": 4.4825,
      "step": 22010
    },
    {
      "epoch": 0.045875,
      "grad_norm": 0.9835906624794006,
      "learning_rate": 0.00029870339798142065,
      "loss": 4.2093,
      "step": 22020
    },
    {
      "epoch": 0.04589583333333333,
      "grad_norm": 1.0923117399215698,
      "learning_rate": 0.00029870210422288203,
      "loss": 4.477,
      "step": 22030
    },
    {
      "epoch": 0.04591666666666667,
      "grad_norm": 1.1617324352264404,
      "learning_rate": 0.00029870080982200914,
      "loss": 4.1895,
      "step": 22040
    },
    {
      "epoch": 0.0459375,
      "grad_norm": 1.1113147735595703,
      "learning_rate": 0.00029869951477880767,
      "loss": 4.2671,
      "step": 22050
    },
    {
      "epoch": 0.04595833333333333,
      "grad_norm": 1.137692928314209,
      "learning_rate": 0.00029869821909328314,
      "loss": 4.2802,
      "step": 22060
    },
    {
      "epoch": 0.04597916666666667,
      "grad_norm": 1.044800877571106,
      "learning_rate": 0.0002986969227654412,
      "loss": 4.0954,
      "step": 22070
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.042467474937439,
      "learning_rate": 0.00029869562579528736,
      "loss": 4.2075,
      "step": 22080
    },
    {
      "epoch": 0.04602083333333333,
      "grad_norm": 1.154331922531128,
      "learning_rate": 0.0002986943281828273,
      "loss": 4.2593,
      "step": 22090
    },
    {
      "epoch": 0.04604166666666667,
      "grad_norm": 1.0517362356185913,
      "learning_rate": 0.0002986930299280666,
      "loss": 4.2621,
      "step": 22100
    },
    {
      "epoch": 0.0460625,
      "grad_norm": 1.1443361043930054,
      "learning_rate": 0.00029869173103101086,
      "loss": 4.3816,
      "step": 22110
    },
    {
      "epoch": 0.04608333333333333,
      "grad_norm": 1.046401858329773,
      "learning_rate": 0.0002986904314916657,
      "loss": 4.1427,
      "step": 22120
    },
    {
      "epoch": 0.04610416666666667,
      "grad_norm": 1.1131036281585693,
      "learning_rate": 0.0002986891313100367,
      "loss": 4.1444,
      "step": 22130
    },
    {
      "epoch": 0.046125,
      "grad_norm": 1.0273057222366333,
      "learning_rate": 0.0002986878304861296,
      "loss": 4.2096,
      "step": 22140
    },
    {
      "epoch": 0.04614583333333333,
      "grad_norm": 1.1417990922927856,
      "learning_rate": 0.0002986865290199498,
      "loss": 4.2531,
      "step": 22150
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 1.0877127647399902,
      "learning_rate": 0.00029868522691150313,
      "loss": 4.1386,
      "step": 22160
    },
    {
      "epoch": 0.0461875,
      "grad_norm": 1.1716980934143066,
      "learning_rate": 0.0002986839241607951,
      "loss": 4.4101,
      "step": 22170
    },
    {
      "epoch": 0.04620833333333333,
      "grad_norm": 1.1504912376403809,
      "learning_rate": 0.0002986826207678314,
      "loss": 4.4063,
      "step": 22180
    },
    {
      "epoch": 0.04622916666666667,
      "grad_norm": 1.1904630661010742,
      "learning_rate": 0.00029868131673261764,
      "loss": 4.2761,
      "step": 22190
    },
    {
      "epoch": 0.04625,
      "grad_norm": 1.114634394645691,
      "learning_rate": 0.0002986800120551594,
      "loss": 4.2654,
      "step": 22200
    },
    {
      "epoch": 0.04627083333333333,
      "grad_norm": 1.053784728050232,
      "learning_rate": 0.0002986787067354624,
      "loss": 4.2349,
      "step": 22210
    },
    {
      "epoch": 0.04629166666666667,
      "grad_norm": 1.051052451133728,
      "learning_rate": 0.0002986774007735322,
      "loss": 4.3486,
      "step": 22220
    },
    {
      "epoch": 0.0463125,
      "grad_norm": 1.1233962774276733,
      "learning_rate": 0.0002986760941693745,
      "loss": 4.2707,
      "step": 22230
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 1.2539594173431396,
      "learning_rate": 0.0002986747869229949,
      "loss": 4.3752,
      "step": 22240
    },
    {
      "epoch": 0.04635416666666667,
      "grad_norm": 1.1492754220962524,
      "learning_rate": 0.0002986734790343991,
      "loss": 4.5544,
      "step": 22250
    },
    {
      "epoch": 0.046375,
      "grad_norm": 1.0155845880508423,
      "learning_rate": 0.00029867217050359273,
      "loss": 4.3779,
      "step": 22260
    },
    {
      "epoch": 0.04639583333333333,
      "grad_norm": 1.1988098621368408,
      "learning_rate": 0.0002986708613305814,
      "loss": 4.38,
      "step": 22270
    },
    {
      "epoch": 0.04641666666666667,
      "grad_norm": 1.1485236883163452,
      "learning_rate": 0.0002986695515153708,
      "loss": 4.2787,
      "step": 22280
    },
    {
      "epoch": 0.0464375,
      "grad_norm": 1.2270303964614868,
      "learning_rate": 0.00029866824105796665,
      "loss": 4.3113,
      "step": 22290
    },
    {
      "epoch": 0.04645833333333333,
      "grad_norm": 1.1173175573349,
      "learning_rate": 0.00029866692995837447,
      "loss": 4.2369,
      "step": 22300
    },
    {
      "epoch": 0.04647916666666667,
      "grad_norm": 1.0369806289672852,
      "learning_rate": 0.0002986656182166,
      "loss": 4.2361,
      "step": 22310
    },
    {
      "epoch": 0.0465,
      "grad_norm": 1.2697429656982422,
      "learning_rate": 0.00029866430583264895,
      "loss": 4.3056,
      "step": 22320
    },
    {
      "epoch": 0.04652083333333333,
      "grad_norm": 1.1316537857055664,
      "learning_rate": 0.0002986629928065269,
      "loss": 4.4475,
      "step": 22330
    },
    {
      "epoch": 0.04654166666666667,
      "grad_norm": 1.2045739889144897,
      "learning_rate": 0.00029866167913823955,
      "loss": 4.2329,
      "step": 22340
    },
    {
      "epoch": 0.0465625,
      "grad_norm": 1.065518856048584,
      "learning_rate": 0.00029866036482779267,
      "loss": 4.3075,
      "step": 22350
    },
    {
      "epoch": 0.04658333333333333,
      "grad_norm": 1.0570061206817627,
      "learning_rate": 0.0002986590498751918,
      "loss": 4.144,
      "step": 22360
    },
    {
      "epoch": 0.04660416666666667,
      "grad_norm": 1.0835022926330566,
      "learning_rate": 0.0002986577342804427,
      "loss": 4.3517,
      "step": 22370
    },
    {
      "epoch": 0.046625,
      "grad_norm": 1.1654130220413208,
      "learning_rate": 0.000298656418043551,
      "loss": 4.4142,
      "step": 22380
    },
    {
      "epoch": 0.04664583333333333,
      "grad_norm": 1.132765293121338,
      "learning_rate": 0.00029865510116452244,
      "loss": 4.1329,
      "step": 22390
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 1.1725614070892334,
      "learning_rate": 0.0002986537836433627,
      "loss": 4.4839,
      "step": 22400
    },
    {
      "epoch": 0.0466875,
      "grad_norm": 1.1023675203323364,
      "learning_rate": 0.00029865246548007744,
      "loss": 4.2022,
      "step": 22410
    },
    {
      "epoch": 0.04670833333333333,
      "grad_norm": 1.0900895595550537,
      "learning_rate": 0.0002986511466746724,
      "loss": 4.3637,
      "step": 22420
    },
    {
      "epoch": 0.04672916666666667,
      "grad_norm": 1.0463460683822632,
      "learning_rate": 0.0002986498272271532,
      "loss": 4.2346,
      "step": 22430
    },
    {
      "epoch": 0.04675,
      "grad_norm": 1.1386264562606812,
      "learning_rate": 0.0002986485071375256,
      "loss": 4.3863,
      "step": 22440
    },
    {
      "epoch": 0.04677083333333333,
      "grad_norm": 1.1656817197799683,
      "learning_rate": 0.0002986471864057953,
      "loss": 4.2514,
      "step": 22450
    },
    {
      "epoch": 0.04679166666666667,
      "grad_norm": 1.2456310987472534,
      "learning_rate": 0.00029864586503196793,
      "loss": 4.2477,
      "step": 22460
    },
    {
      "epoch": 0.0468125,
      "grad_norm": 1.158066987991333,
      "learning_rate": 0.0002986445430160493,
      "loss": 4.3215,
      "step": 22470
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 1.1204463243484497,
      "learning_rate": 0.00029864322035804515,
      "loss": 4.3522,
      "step": 22480
    },
    {
      "epoch": 0.04685416666666667,
      "grad_norm": 1.1626946926116943,
      "learning_rate": 0.00029864189705796105,
      "loss": 4.247,
      "step": 22490
    },
    {
      "epoch": 0.046875,
      "grad_norm": 1.1530400514602661,
      "learning_rate": 0.0002986405731158028,
      "loss": 4.1851,
      "step": 22500
    },
    {
      "epoch": 0.04689583333333333,
      "grad_norm": 1.1509056091308594,
      "learning_rate": 0.0002986392485315762,
      "loss": 4.2875,
      "step": 22510
    },
    {
      "epoch": 0.04691666666666667,
      "grad_norm": 1.2127885818481445,
      "learning_rate": 0.00029863792330528675,
      "loss": 4.1569,
      "step": 22520
    },
    {
      "epoch": 0.0469375,
      "grad_norm": 1.108252763748169,
      "learning_rate": 0.0002986365974369403,
      "loss": 4.4047,
      "step": 22530
    },
    {
      "epoch": 0.04695833333333333,
      "grad_norm": 1.1041709184646606,
      "learning_rate": 0.0002986352709265427,
      "loss": 4.3739,
      "step": 22540
    },
    {
      "epoch": 0.04697916666666667,
      "grad_norm": 1.1633570194244385,
      "learning_rate": 0.00029863394377409953,
      "loss": 4.2845,
      "step": 22550
    },
    {
      "epoch": 0.047,
      "grad_norm": 1.1258951425552368,
      "learning_rate": 0.0002986326159796165,
      "loss": 4.3999,
      "step": 22560
    },
    {
      "epoch": 0.04702083333333333,
      "grad_norm": 1.1481953859329224,
      "learning_rate": 0.00029863128754309946,
      "loss": 4.3634,
      "step": 22570
    },
    {
      "epoch": 0.04704166666666667,
      "grad_norm": 1.1449681520462036,
      "learning_rate": 0.00029862995846455405,
      "loss": 4.3897,
      "step": 22580
    },
    {
      "epoch": 0.0470625,
      "grad_norm": 1.035563588142395,
      "learning_rate": 0.0002986286287439861,
      "loss": 4.4204,
      "step": 22590
    },
    {
      "epoch": 0.04708333333333333,
      "grad_norm": 1.0421812534332275,
      "learning_rate": 0.0002986272983814013,
      "loss": 4.2906,
      "step": 22600
    },
    {
      "epoch": 0.04710416666666667,
      "grad_norm": 1.093400478363037,
      "learning_rate": 0.00029862596737680535,
      "loss": 4.3189,
      "step": 22610
    },
    {
      "epoch": 0.047125,
      "grad_norm": 1.1089621782302856,
      "learning_rate": 0.00029862463573020404,
      "loss": 4.4102,
      "step": 22620
    },
    {
      "epoch": 0.04714583333333333,
      "grad_norm": 1.4109268188476562,
      "learning_rate": 0.0002986233034416032,
      "loss": 4.2089,
      "step": 22630
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 1.115073323249817,
      "learning_rate": 0.00029862197051100847,
      "loss": 4.3316,
      "step": 22640
    },
    {
      "epoch": 0.0471875,
      "grad_norm": 1.1628308296203613,
      "learning_rate": 0.00029862063693842565,
      "loss": 4.3303,
      "step": 22650
    },
    {
      "epoch": 0.04720833333333333,
      "grad_norm": 1.2920852899551392,
      "learning_rate": 0.00029861930272386054,
      "loss": 4.3974,
      "step": 22660
    },
    {
      "epoch": 0.04722916666666667,
      "grad_norm": 1.1045827865600586,
      "learning_rate": 0.0002986179678673189,
      "loss": 4.3896,
      "step": 22670
    },
    {
      "epoch": 0.04725,
      "grad_norm": 1.102381706237793,
      "learning_rate": 0.00029861663236880644,
      "loss": 4.3209,
      "step": 22680
    },
    {
      "epoch": 0.04727083333333333,
      "grad_norm": 1.347814917564392,
      "learning_rate": 0.0002986152962283289,
      "loss": 4.1149,
      "step": 22690
    },
    {
      "epoch": 0.04729166666666667,
      "grad_norm": 1.0472402572631836,
      "learning_rate": 0.00029861395944589213,
      "loss": 4.2544,
      "step": 22700
    },
    {
      "epoch": 0.0473125,
      "grad_norm": 1.2199379205703735,
      "learning_rate": 0.0002986126220215019,
      "loss": 4.2588,
      "step": 22710
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 1.1533410549163818,
      "learning_rate": 0.00029861128395516397,
      "loss": 4.3512,
      "step": 22720
    },
    {
      "epoch": 0.04735416666666667,
      "grad_norm": 1.0854544639587402,
      "learning_rate": 0.00029860994524688416,
      "loss": 4.4089,
      "step": 22730
    },
    {
      "epoch": 0.047375,
      "grad_norm": 1.0090781450271606,
      "learning_rate": 0.00029860860589666814,
      "loss": 4.2707,
      "step": 22740
    },
    {
      "epoch": 0.04739583333333333,
      "grad_norm": 1.079391598701477,
      "learning_rate": 0.00029860726590452176,
      "loss": 4.3171,
      "step": 22750
    },
    {
      "epoch": 0.04741666666666667,
      "grad_norm": 1.084254503250122,
      "learning_rate": 0.0002986059252704509,
      "loss": 4.4332,
      "step": 22760
    },
    {
      "epoch": 0.0474375,
      "grad_norm": 1.1575877666473389,
      "learning_rate": 0.0002986045839944612,
      "loss": 4.327,
      "step": 22770
    },
    {
      "epoch": 0.04745833333333333,
      "grad_norm": 1.0111342668533325,
      "learning_rate": 0.0002986032420765585,
      "loss": 4.3805,
      "step": 22780
    },
    {
      "epoch": 0.04747916666666667,
      "grad_norm": 1.093201756477356,
      "learning_rate": 0.00029860189951674864,
      "loss": 4.2327,
      "step": 22790
    },
    {
      "epoch": 0.0475,
      "grad_norm": 1.0527570247650146,
      "learning_rate": 0.00029860055631503743,
      "loss": 4.35,
      "step": 22800
    },
    {
      "epoch": 0.04752083333333333,
      "grad_norm": 1.3113759756088257,
      "learning_rate": 0.00029859921247143056,
      "loss": 4.2699,
      "step": 22810
    },
    {
      "epoch": 0.04754166666666667,
      "grad_norm": 1.1016883850097656,
      "learning_rate": 0.00029859786798593394,
      "loss": 4.3246,
      "step": 22820
    },
    {
      "epoch": 0.0475625,
      "grad_norm": 1.2075023651123047,
      "learning_rate": 0.0002985965228585534,
      "loss": 4.3447,
      "step": 22830
    },
    {
      "epoch": 0.04758333333333333,
      "grad_norm": 1.1484073400497437,
      "learning_rate": 0.00029859517708929464,
      "loss": 4.2217,
      "step": 22840
    },
    {
      "epoch": 0.04760416666666667,
      "grad_norm": 1.1845836639404297,
      "learning_rate": 0.0002985938306781636,
      "loss": 4.3889,
      "step": 22850
    },
    {
      "epoch": 0.047625,
      "grad_norm": 1.0770461559295654,
      "learning_rate": 0.000298592483625166,
      "loss": 4.1751,
      "step": 22860
    },
    {
      "epoch": 0.04764583333333333,
      "grad_norm": 1.084843397140503,
      "learning_rate": 0.00029859113593030766,
      "loss": 4.4403,
      "step": 22870
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 0.9651458859443665,
      "learning_rate": 0.00029858978759359444,
      "loss": 4.3527,
      "step": 22880
    },
    {
      "epoch": 0.0476875,
      "grad_norm": 1.1681058406829834,
      "learning_rate": 0.0002985884386150321,
      "loss": 4.3893,
      "step": 22890
    },
    {
      "epoch": 0.04770833333333333,
      "grad_norm": 1.1314737796783447,
      "learning_rate": 0.00029858708899462667,
      "loss": 4.3576,
      "step": 22900
    },
    {
      "epoch": 0.04772916666666667,
      "grad_norm": 1.1617460250854492,
      "learning_rate": 0.00029858573873238367,
      "loss": 4.1445,
      "step": 22910
    },
    {
      "epoch": 0.04775,
      "grad_norm": 1.1262792348861694,
      "learning_rate": 0.0002985843878283092,
      "loss": 4.1929,
      "step": 22920
    },
    {
      "epoch": 0.04777083333333333,
      "grad_norm": 1.093932032585144,
      "learning_rate": 0.000298583036282409,
      "loss": 4.2657,
      "step": 22930
    },
    {
      "epoch": 0.04779166666666667,
      "grad_norm": 1.0936825275421143,
      "learning_rate": 0.0002985816840946888,
      "loss": 4.1765,
      "step": 22940
    },
    {
      "epoch": 0.0478125,
      "grad_norm": 1.045860767364502,
      "learning_rate": 0.0002985803312651546,
      "loss": 4.2874,
      "step": 22950
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 1.2999980449676514,
      "learning_rate": 0.00029857897779381215,
      "loss": 4.2423,
      "step": 22960
    },
    {
      "epoch": 0.04785416666666667,
      "grad_norm": 1.265359878540039,
      "learning_rate": 0.00029857762368066734,
      "loss": 3.9808,
      "step": 22970
    },
    {
      "epoch": 0.047875,
      "grad_norm": 1.3512293100357056,
      "learning_rate": 0.000298576268925726,
      "loss": 4.5913,
      "step": 22980
    },
    {
      "epoch": 0.04789583333333333,
      "grad_norm": 1.1064629554748535,
      "learning_rate": 0.000298574913528994,
      "loss": 4.3607,
      "step": 22990
    },
    {
      "epoch": 0.04791666666666667,
      "grad_norm": 1.1788100004196167,
      "learning_rate": 0.0002985735574904772,
      "loss": 4.2763,
      "step": 23000
    },
    {
      "epoch": 0.04791666666666667,
      "eval_loss": 4.070446968078613,
      "eval_runtime": 7.3484,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 23000
    },
    {
      "epoch": 0.0479375,
      "grad_norm": 1.3978124856948853,
      "learning_rate": 0.0002985722008101814,
      "loss": 4.3126,
      "step": 23010
    },
    {
      "epoch": 0.04795833333333333,
      "grad_norm": 1.0347321033477783,
      "learning_rate": 0.00029857084348811254,
      "loss": 4.3895,
      "step": 23020
    },
    {
      "epoch": 0.04797916666666667,
      "grad_norm": 1.091138243675232,
      "learning_rate": 0.00029856948552427643,
      "loss": 4.2972,
      "step": 23030
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.1090672016143799,
      "learning_rate": 0.00029856812691867894,
      "loss": 4.39,
      "step": 23040
    },
    {
      "epoch": 0.04802083333333333,
      "grad_norm": 1.1024161577224731,
      "learning_rate": 0.0002985667676713259,
      "loss": 4.1536,
      "step": 23050
    },
    {
      "epoch": 0.04804166666666667,
      "grad_norm": 1.1746982336044312,
      "learning_rate": 0.00029856540778222334,
      "loss": 4.2281,
      "step": 23060
    },
    {
      "epoch": 0.0480625,
      "grad_norm": 1.185075283050537,
      "learning_rate": 0.000298564047251377,
      "loss": 4.1483,
      "step": 23070
    },
    {
      "epoch": 0.04808333333333333,
      "grad_norm": 1.239188551902771,
      "learning_rate": 0.0002985626860787928,
      "loss": 4.32,
      "step": 23080
    },
    {
      "epoch": 0.04810416666666667,
      "grad_norm": 1.2414257526397705,
      "learning_rate": 0.0002985613242644765,
      "loss": 4.2654,
      "step": 23090
    },
    {
      "epoch": 0.048125,
      "grad_norm": 1.2101629972457886,
      "learning_rate": 0.00029855996180843417,
      "loss": 4.3536,
      "step": 23100
    },
    {
      "epoch": 0.04814583333333333,
      "grad_norm": 1.0741318464279175,
      "learning_rate": 0.00029855859871067157,
      "loss": 4.4255,
      "step": 23110
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 1.076039433479309,
      "learning_rate": 0.0002985572349711946,
      "loss": 4.213,
      "step": 23120
    },
    {
      "epoch": 0.0481875,
      "grad_norm": 1.0712692737579346,
      "learning_rate": 0.00029855587059000925,
      "loss": 4.2633,
      "step": 23130
    },
    {
      "epoch": 0.04820833333333333,
      "grad_norm": 1.072229027748108,
      "learning_rate": 0.0002985545055671213,
      "loss": 4.3815,
      "step": 23140
    },
    {
      "epoch": 0.04822916666666666,
      "grad_norm": 1.0805424451828003,
      "learning_rate": 0.0002985531399025367,
      "loss": 4.4124,
      "step": 23150
    },
    {
      "epoch": 0.04825,
      "grad_norm": 1.038074254989624,
      "learning_rate": 0.0002985517735962613,
      "loss": 4.4315,
      "step": 23160
    },
    {
      "epoch": 0.04827083333333333,
      "grad_norm": 1.094950795173645,
      "learning_rate": 0.0002985504066483011,
      "loss": 4.4929,
      "step": 23170
    },
    {
      "epoch": 0.04829166666666666,
      "grad_norm": 1.2356709241867065,
      "learning_rate": 0.0002985490390586619,
      "loss": 4.1802,
      "step": 23180
    },
    {
      "epoch": 0.0483125,
      "grad_norm": 1.0040342807769775,
      "learning_rate": 0.0002985476708273497,
      "loss": 4.3313,
      "step": 23190
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 1.1743508577346802,
      "learning_rate": 0.00029854630195437026,
      "loss": 4.3114,
      "step": 23200
    },
    {
      "epoch": 0.04835416666666666,
      "grad_norm": 1.1192723512649536,
      "learning_rate": 0.00029854493243972974,
      "loss": 4.4348,
      "step": 23210
    },
    {
      "epoch": 0.048375,
      "grad_norm": 1.1490339040756226,
      "learning_rate": 0.0002985435622834338,
      "loss": 4.4454,
      "step": 23220
    },
    {
      "epoch": 0.04839583333333333,
      "grad_norm": 1.2719967365264893,
      "learning_rate": 0.0002985421914854885,
      "loss": 4.4088,
      "step": 23230
    },
    {
      "epoch": 0.04841666666666666,
      "grad_norm": 1.2807058095932007,
      "learning_rate": 0.0002985408200458997,
      "loss": 4.3926,
      "step": 23240
    },
    {
      "epoch": 0.0484375,
      "grad_norm": 1.0362368822097778,
      "learning_rate": 0.0002985394479646734,
      "loss": 4.4041,
      "step": 23250
    },
    {
      "epoch": 0.04845833333333333,
      "grad_norm": 1.040726900100708,
      "learning_rate": 0.0002985380752418155,
      "loss": 4.3139,
      "step": 23260
    },
    {
      "epoch": 0.04847916666666666,
      "grad_norm": 1.0380315780639648,
      "learning_rate": 0.0002985367018773318,
      "loss": 4.4861,
      "step": 23270
    },
    {
      "epoch": 0.0485,
      "grad_norm": 1.0851346254348755,
      "learning_rate": 0.0002985353278712285,
      "loss": 4.0789,
      "step": 23280
    },
    {
      "epoch": 0.04852083333333333,
      "grad_norm": 0.9789435267448425,
      "learning_rate": 0.00029853395322351127,
      "loss": 4.3108,
      "step": 23290
    },
    {
      "epoch": 0.048541666666666664,
      "grad_norm": 1.1119533777236938,
      "learning_rate": 0.0002985325779341862,
      "loss": 4.3166,
      "step": 23300
    },
    {
      "epoch": 0.0485625,
      "grad_norm": 1.1828250885009766,
      "learning_rate": 0.0002985312020032591,
      "loss": 4.4279,
      "step": 23310
    },
    {
      "epoch": 0.04858333333333333,
      "grad_norm": 1.0394307374954224,
      "learning_rate": 0.0002985298254307361,
      "loss": 4.4775,
      "step": 23320
    },
    {
      "epoch": 0.048604166666666664,
      "grad_norm": 1.1745965480804443,
      "learning_rate": 0.000298528448216623,
      "loss": 4.0169,
      "step": 23330
    },
    {
      "epoch": 0.048625,
      "grad_norm": 1.1193609237670898,
      "learning_rate": 0.00029852707036092584,
      "loss": 4.3069,
      "step": 23340
    },
    {
      "epoch": 0.04864583333333333,
      "grad_norm": 1.3298919200897217,
      "learning_rate": 0.00029852569186365047,
      "loss": 4.4057,
      "step": 23350
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 1.173074722290039,
      "learning_rate": 0.00029852431272480297,
      "loss": 4.2891,
      "step": 23360
    },
    {
      "epoch": 0.0486875,
      "grad_norm": 1.0447754859924316,
      "learning_rate": 0.0002985229329443892,
      "loss": 4.4028,
      "step": 23370
    },
    {
      "epoch": 0.04870833333333333,
      "grad_norm": 1.0796172618865967,
      "learning_rate": 0.0002985215525224151,
      "loss": 4.3768,
      "step": 23380
    },
    {
      "epoch": 0.048729166666666664,
      "grad_norm": 1.1773329973220825,
      "learning_rate": 0.00029852017145888673,
      "loss": 4.3865,
      "step": 23390
    },
    {
      "epoch": 0.04875,
      "grad_norm": 1.028978705406189,
      "learning_rate": 0.00029851878975381,
      "loss": 4.297,
      "step": 23400
    },
    {
      "epoch": 0.04877083333333333,
      "grad_norm": 1.0406931638717651,
      "learning_rate": 0.00029851740740719087,
      "loss": 4.2864,
      "step": 23410
    },
    {
      "epoch": 0.048791666666666664,
      "grad_norm": 1.0997871160507202,
      "learning_rate": 0.00029851602441903534,
      "loss": 4.4528,
      "step": 23420
    },
    {
      "epoch": 0.0488125,
      "grad_norm": 1.0618683099746704,
      "learning_rate": 0.00029851464078934937,
      "loss": 4.1341,
      "step": 23430
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 1.140734076499939,
      "learning_rate": 0.00029851325651813896,
      "loss": 4.4472,
      "step": 23440
    },
    {
      "epoch": 0.048854166666666664,
      "grad_norm": 1.2125027179718018,
      "learning_rate": 0.00029851187160541003,
      "loss": 4.4138,
      "step": 23450
    },
    {
      "epoch": 0.048875,
      "grad_norm": 1.0462573766708374,
      "learning_rate": 0.0002985104860511686,
      "loss": 4.4522,
      "step": 23460
    },
    {
      "epoch": 0.04889583333333333,
      "grad_norm": 1.09983491897583,
      "learning_rate": 0.00029850909985542067,
      "loss": 4.3567,
      "step": 23470
    },
    {
      "epoch": 0.048916666666666664,
      "grad_norm": 1.1101984977722168,
      "learning_rate": 0.0002985077130181722,
      "loss": 4.3046,
      "step": 23480
    },
    {
      "epoch": 0.0489375,
      "grad_norm": 1.1132664680480957,
      "learning_rate": 0.0002985063255394292,
      "loss": 4.2674,
      "step": 23490
    },
    {
      "epoch": 0.04895833333333333,
      "grad_norm": 1.2209597826004028,
      "learning_rate": 0.0002985049374191977,
      "loss": 4.2987,
      "step": 23500
    },
    {
      "epoch": 0.048979166666666664,
      "grad_norm": 1.2423774003982544,
      "learning_rate": 0.0002985035486574836,
      "loss": 4.4708,
      "step": 23510
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.0843963623046875,
      "learning_rate": 0.000298502159254293,
      "loss": 4.298,
      "step": 23520
    },
    {
      "epoch": 0.04902083333333333,
      "grad_norm": 0.9854450225830078,
      "learning_rate": 0.0002985007692096318,
      "loss": 4.3823,
      "step": 23530
    },
    {
      "epoch": 0.049041666666666664,
      "grad_norm": 1.0092664957046509,
      "learning_rate": 0.0002984993785235061,
      "loss": 4.3201,
      "step": 23540
    },
    {
      "epoch": 0.0490625,
      "grad_norm": 1.066636085510254,
      "learning_rate": 0.0002984979871959218,
      "loss": 4.3521,
      "step": 23550
    },
    {
      "epoch": 0.04908333333333333,
      "grad_norm": 1.0426338911056519,
      "learning_rate": 0.000298496595226885,
      "loss": 4.2538,
      "step": 23560
    },
    {
      "epoch": 0.049104166666666664,
      "grad_norm": 1.192934274673462,
      "learning_rate": 0.00029849520261640176,
      "loss": 4.3917,
      "step": 23570
    },
    {
      "epoch": 0.049125,
      "grad_norm": 1.01276695728302,
      "learning_rate": 0.00029849380936447793,
      "loss": 4.1805,
      "step": 23580
    },
    {
      "epoch": 0.04914583333333333,
      "grad_norm": 1.1528152227401733,
      "learning_rate": 0.00029849241547111967,
      "loss": 4.3578,
      "step": 23590
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 1.1491035223007202,
      "learning_rate": 0.0002984910209363329,
      "loss": 4.1812,
      "step": 23600
    },
    {
      "epoch": 0.0491875,
      "grad_norm": 1.062110185623169,
      "learning_rate": 0.00029848962576012377,
      "loss": 4.3766,
      "step": 23610
    },
    {
      "epoch": 0.04920833333333333,
      "grad_norm": 1.1040478944778442,
      "learning_rate": 0.0002984882299424982,
      "loss": 4.3252,
      "step": 23620
    },
    {
      "epoch": 0.049229166666666664,
      "grad_norm": 1.2178109884262085,
      "learning_rate": 0.0002984868334834623,
      "loss": 4.4225,
      "step": 23630
    },
    {
      "epoch": 0.04925,
      "grad_norm": 1.1053247451782227,
      "learning_rate": 0.000298485436383022,
      "loss": 4.1289,
      "step": 23640
    },
    {
      "epoch": 0.04927083333333333,
      "grad_norm": 1.0797772407531738,
      "learning_rate": 0.00029848403864118336,
      "loss": 4.3499,
      "step": 23650
    },
    {
      "epoch": 0.049291666666666664,
      "grad_norm": 1.0901886224746704,
      "learning_rate": 0.0002984826402579525,
      "loss": 4.4685,
      "step": 23660
    },
    {
      "epoch": 0.0493125,
      "grad_norm": 1.3081519603729248,
      "learning_rate": 0.0002984812412333354,
      "loss": 4.3187,
      "step": 23670
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.1147114038467407,
      "learning_rate": 0.0002984798415673381,
      "loss": 4.1199,
      "step": 23680
    },
    {
      "epoch": 0.049354166666666664,
      "grad_norm": 1.050620198249817,
      "learning_rate": 0.0002984784412599667,
      "loss": 4.3641,
      "step": 23690
    },
    {
      "epoch": 0.049375,
      "grad_norm": 1.144349217414856,
      "learning_rate": 0.00029847704031122713,
      "loss": 4.2516,
      "step": 23700
    },
    {
      "epoch": 0.04939583333333333,
      "grad_norm": 1.059080958366394,
      "learning_rate": 0.00029847563872112555,
      "loss": 4.3565,
      "step": 23710
    },
    {
      "epoch": 0.049416666666666664,
      "grad_norm": 1.0838350057601929,
      "learning_rate": 0.00029847423648966803,
      "loss": 4.2128,
      "step": 23720
    },
    {
      "epoch": 0.0494375,
      "grad_norm": 1.0230529308319092,
      "learning_rate": 0.0002984728336168605,
      "loss": 4.2684,
      "step": 23730
    },
    {
      "epoch": 0.04945833333333333,
      "grad_norm": 1.025161623954773,
      "learning_rate": 0.0002984714301027091,
      "loss": 4.2212,
      "step": 23740
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 1.1372120380401611,
      "learning_rate": 0.00029847002594721997,
      "loss": 4.297,
      "step": 23750
    },
    {
      "epoch": 0.0495,
      "grad_norm": 1.1632606983184814,
      "learning_rate": 0.00029846862115039905,
      "loss": 4.4097,
      "step": 23760
    },
    {
      "epoch": 0.04952083333333333,
      "grad_norm": 1.169489860534668,
      "learning_rate": 0.00029846721571225244,
      "loss": 4.4144,
      "step": 23770
    },
    {
      "epoch": 0.049541666666666664,
      "grad_norm": 1.0332173109054565,
      "learning_rate": 0.00029846580963278625,
      "loss": 4.1412,
      "step": 23780
    },
    {
      "epoch": 0.0495625,
      "grad_norm": 1.0624629259109497,
      "learning_rate": 0.0002984644029120065,
      "loss": 4.4467,
      "step": 23790
    },
    {
      "epoch": 0.04958333333333333,
      "grad_norm": 1.119693398475647,
      "learning_rate": 0.00029846299554991935,
      "loss": 4.3961,
      "step": 23800
    },
    {
      "epoch": 0.049604166666666664,
      "grad_norm": 1.0373742580413818,
      "learning_rate": 0.00029846158754653077,
      "loss": 4.2612,
      "step": 23810
    },
    {
      "epoch": 0.049625,
      "grad_norm": 1.041854739189148,
      "learning_rate": 0.0002984601789018469,
      "loss": 4.4347,
      "step": 23820
    },
    {
      "epoch": 0.049645833333333333,
      "grad_norm": 1.1769330501556396,
      "learning_rate": 0.0002984587696158739,
      "loss": 4.2974,
      "step": 23830
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 1.2157479524612427,
      "learning_rate": 0.00029845735968861767,
      "loss": 4.368,
      "step": 23840
    },
    {
      "epoch": 0.0496875,
      "grad_norm": 1.075023889541626,
      "learning_rate": 0.00029845594912008443,
      "loss": 4.2518,
      "step": 23850
    },
    {
      "epoch": 0.049708333333333334,
      "grad_norm": 1.0902482271194458,
      "learning_rate": 0.0002984545379102803,
      "loss": 4.2319,
      "step": 23860
    },
    {
      "epoch": 0.049729166666666665,
      "grad_norm": 1.052538275718689,
      "learning_rate": 0.0002984531260592113,
      "loss": 4.1814,
      "step": 23870
    },
    {
      "epoch": 0.04975,
      "grad_norm": 1.0882292985916138,
      "learning_rate": 0.0002984517135668836,
      "loss": 4.355,
      "step": 23880
    },
    {
      "epoch": 0.049770833333333334,
      "grad_norm": 1.2774664163589478,
      "learning_rate": 0.0002984503004333032,
      "loss": 4.2804,
      "step": 23890
    },
    {
      "epoch": 0.049791666666666665,
      "grad_norm": 1.1199060678482056,
      "learning_rate": 0.0002984488866584763,
      "loss": 4.4046,
      "step": 23900
    },
    {
      "epoch": 0.0498125,
      "grad_norm": 1.511334776878357,
      "learning_rate": 0.000298447472242409,
      "loss": 4.3205,
      "step": 23910
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 1.128575086593628,
      "learning_rate": 0.0002984460571851073,
      "loss": 4.3913,
      "step": 23920
    },
    {
      "epoch": 0.049854166666666665,
      "grad_norm": 1.2029168605804443,
      "learning_rate": 0.00029844464148657743,
      "loss": 4.2353,
      "step": 23930
    },
    {
      "epoch": 0.049875,
      "grad_norm": 1.054668664932251,
      "learning_rate": 0.00029844322514682546,
      "loss": 4.3123,
      "step": 23940
    },
    {
      "epoch": 0.049895833333333334,
      "grad_norm": 1.089644432067871,
      "learning_rate": 0.0002984418081658575,
      "loss": 4.3581,
      "step": 23950
    },
    {
      "epoch": 0.049916666666666665,
      "grad_norm": 1.1333869695663452,
      "learning_rate": 0.0002984403905436797,
      "loss": 4.1611,
      "step": 23960
    },
    {
      "epoch": 0.0499375,
      "grad_norm": 1.1877949237823486,
      "learning_rate": 0.0002984389722802982,
      "loss": 4.1839,
      "step": 23970
    },
    {
      "epoch": 0.049958333333333334,
      "grad_norm": 1.1082911491394043,
      "learning_rate": 0.0002984375533757191,
      "loss": 4.1761,
      "step": 23980
    },
    {
      "epoch": 0.049979166666666665,
      "grad_norm": 1.0187784433364868,
      "learning_rate": 0.0002984361338299485,
      "loss": 4.3003,
      "step": 23990
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0674712657928467,
      "learning_rate": 0.00029843471364299256,
      "loss": 4.2784,
      "step": 24000
    },
    {
      "epoch": 0.05,
      "eval_loss": 4.057236194610596,
      "eval_runtime": 7.4541,
      "eval_samples_per_second": 1.342,
      "eval_steps_per_second": 0.402,
      "step": 24000
    },
    {
      "epoch": 0.050020833333333334,
      "grad_norm": 1.138344168663025,
      "learning_rate": 0.0002984332928148574,
      "loss": 4.4186,
      "step": 24010
    },
    {
      "epoch": 0.050041666666666665,
      "grad_norm": 1.133888840675354,
      "learning_rate": 0.00029843187134554914,
      "loss": 4.2571,
      "step": 24020
    },
    {
      "epoch": 0.0500625,
      "grad_norm": 1.1606245040893555,
      "learning_rate": 0.000298430449235074,
      "loss": 4.4957,
      "step": 24030
    },
    {
      "epoch": 0.050083333333333334,
      "grad_norm": 1.0520977973937988,
      "learning_rate": 0.00029842902648343807,
      "loss": 4.3623,
      "step": 24040
    },
    {
      "epoch": 0.050104166666666665,
      "grad_norm": 1.1277519464492798,
      "learning_rate": 0.0002984276030906475,
      "loss": 4.223,
      "step": 24050
    },
    {
      "epoch": 0.050125,
      "grad_norm": 1.1472363471984863,
      "learning_rate": 0.0002984261790567084,
      "loss": 4.3982,
      "step": 24060
    },
    {
      "epoch": 0.050145833333333334,
      "grad_norm": 1.2419902086257935,
      "learning_rate": 0.000298424754381627,
      "loss": 4.2567,
      "step": 24070
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 1.098844289779663,
      "learning_rate": 0.00029842332906540933,
      "loss": 4.4474,
      "step": 24080
    },
    {
      "epoch": 0.0501875,
      "grad_norm": 1.1329203844070435,
      "learning_rate": 0.00029842190310806174,
      "loss": 4.4828,
      "step": 24090
    },
    {
      "epoch": 0.050208333333333334,
      "grad_norm": 1.233647346496582,
      "learning_rate": 0.0002984204765095902,
      "loss": 4.4612,
      "step": 24100
    },
    {
      "epoch": 0.050229166666666665,
      "grad_norm": 1.191519021987915,
      "learning_rate": 0.00029841904927000097,
      "loss": 4.1316,
      "step": 24110
    },
    {
      "epoch": 0.05025,
      "grad_norm": 1.0150443315505981,
      "learning_rate": 0.0002984176213893002,
      "loss": 4.2711,
      "step": 24120
    },
    {
      "epoch": 0.050270833333333334,
      "grad_norm": 1.0136940479278564,
      "learning_rate": 0.0002984161928674941,
      "loss": 4.265,
      "step": 24130
    },
    {
      "epoch": 0.050291666666666665,
      "grad_norm": 1.249213695526123,
      "learning_rate": 0.00029841476370458876,
      "loss": 4.3678,
      "step": 24140
    },
    {
      "epoch": 0.0503125,
      "grad_norm": 1.2276880741119385,
      "learning_rate": 0.00029841333390059037,
      "loss": 4.5178,
      "step": 24150
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 1.056794285774231,
      "learning_rate": 0.0002984119034555051,
      "loss": 4.174,
      "step": 24160
    },
    {
      "epoch": 0.050354166666666665,
      "grad_norm": 1.021835207939148,
      "learning_rate": 0.0002984104723693392,
      "loss": 4.3801,
      "step": 24170
    },
    {
      "epoch": 0.050375,
      "grad_norm": 0.9758702516555786,
      "learning_rate": 0.00029840904064209876,
      "loss": 4.3516,
      "step": 24180
    },
    {
      "epoch": 0.050395833333333334,
      "grad_norm": 1.005331039428711,
      "learning_rate": 0.00029840760827379005,
      "loss": 4.3661,
      "step": 24190
    },
    {
      "epoch": 0.050416666666666665,
      "grad_norm": 1.006753921508789,
      "learning_rate": 0.0002984061752644192,
      "loss": 4.5388,
      "step": 24200
    },
    {
      "epoch": 0.0504375,
      "grad_norm": 0.9333320260047913,
      "learning_rate": 0.00029840474161399244,
      "loss": 4.2402,
      "step": 24210
    },
    {
      "epoch": 0.050458333333333334,
      "grad_norm": 1.2515548467636108,
      "learning_rate": 0.0002984033073225159,
      "loss": 4.2987,
      "step": 24220
    },
    {
      "epoch": 0.050479166666666665,
      "grad_norm": 1.2006011009216309,
      "learning_rate": 0.00029840187238999586,
      "loss": 4.2462,
      "step": 24230
    },
    {
      "epoch": 0.0505,
      "grad_norm": 1.0642151832580566,
      "learning_rate": 0.0002984004368164384,
      "loss": 4.4532,
      "step": 24240
    },
    {
      "epoch": 0.050520833333333334,
      "grad_norm": 1.0978158712387085,
      "learning_rate": 0.00029839900060184987,
      "loss": 4.3015,
      "step": 24250
    },
    {
      "epoch": 0.050541666666666665,
      "grad_norm": 1.0800447463989258,
      "learning_rate": 0.0002983975637462364,
      "loss": 4.1972,
      "step": 24260
    },
    {
      "epoch": 0.0505625,
      "grad_norm": 1.125866174697876,
      "learning_rate": 0.0002983961262496041,
      "loss": 4.3159,
      "step": 24270
    },
    {
      "epoch": 0.050583333333333334,
      "grad_norm": 1.098134160041809,
      "learning_rate": 0.00029839468811195934,
      "loss": 4.2118,
      "step": 24280
    },
    {
      "epoch": 0.050604166666666665,
      "grad_norm": 1.27816641330719,
      "learning_rate": 0.00029839324933330833,
      "loss": 4.3561,
      "step": 24290
    },
    {
      "epoch": 0.050625,
      "grad_norm": 1.0837035179138184,
      "learning_rate": 0.0002983918099136571,
      "loss": 4.51,
      "step": 24300
    },
    {
      "epoch": 0.050645833333333334,
      "grad_norm": 1.0607378482818604,
      "learning_rate": 0.00029839036985301203,
      "loss": 4.1827,
      "step": 24310
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 1.1143691539764404,
      "learning_rate": 0.00029838892915137933,
      "loss": 4.3147,
      "step": 24320
    },
    {
      "epoch": 0.0506875,
      "grad_norm": 1.0734318494796753,
      "learning_rate": 0.00029838748780876517,
      "loss": 4.4639,
      "step": 24330
    },
    {
      "epoch": 0.050708333333333334,
      "grad_norm": 1.12448251247406,
      "learning_rate": 0.0002983860458251758,
      "loss": 4.1538,
      "step": 24340
    },
    {
      "epoch": 0.050729166666666665,
      "grad_norm": 1.023491621017456,
      "learning_rate": 0.00029838460320061745,
      "loss": 4.5256,
      "step": 24350
    },
    {
      "epoch": 0.05075,
      "grad_norm": 1.0460416078567505,
      "learning_rate": 0.00029838315993509635,
      "loss": 4.2664,
      "step": 24360
    },
    {
      "epoch": 0.050770833333333334,
      "grad_norm": 1.1481035947799683,
      "learning_rate": 0.00029838171602861874,
      "loss": 4.3557,
      "step": 24370
    },
    {
      "epoch": 0.050791666666666666,
      "grad_norm": 1.0763540267944336,
      "learning_rate": 0.0002983802714811908,
      "loss": 4.3076,
      "step": 24380
    },
    {
      "epoch": 0.0508125,
      "grad_norm": 1.1334307193756104,
      "learning_rate": 0.0002983788262928189,
      "loss": 4.244,
      "step": 24390
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 1.1620432138442993,
      "learning_rate": 0.0002983773804635092,
      "loss": 4.4349,
      "step": 24400
    },
    {
      "epoch": 0.050854166666666666,
      "grad_norm": 1.189504623413086,
      "learning_rate": 0.00029837593399326785,
      "loss": 4.2377,
      "step": 24410
    },
    {
      "epoch": 0.050875,
      "grad_norm": 1.0059794187545776,
      "learning_rate": 0.00029837448688210127,
      "loss": 4.3143,
      "step": 24420
    },
    {
      "epoch": 0.050895833333333335,
      "grad_norm": 1.0624747276306152,
      "learning_rate": 0.00029837303913001563,
      "loss": 4.3547,
      "step": 24430
    },
    {
      "epoch": 0.050916666666666666,
      "grad_norm": 1.117678165435791,
      "learning_rate": 0.0002983715907370172,
      "loss": 4.4272,
      "step": 24440
    },
    {
      "epoch": 0.0509375,
      "grad_norm": 1.0947843790054321,
      "learning_rate": 0.0002983701417031122,
      "loss": 4.3848,
      "step": 24450
    },
    {
      "epoch": 0.050958333333333335,
      "grad_norm": 1.083945870399475,
      "learning_rate": 0.0002983686920283069,
      "loss": 4.3301,
      "step": 24460
    },
    {
      "epoch": 0.050979166666666666,
      "grad_norm": 1.1562014818191528,
      "learning_rate": 0.0002983672417126077,
      "loss": 4.4,
      "step": 24470
    },
    {
      "epoch": 0.051,
      "grad_norm": 1.0323131084442139,
      "learning_rate": 0.0002983657907560206,
      "loss": 4.3812,
      "step": 24480
    },
    {
      "epoch": 0.051020833333333335,
      "grad_norm": 1.063045620918274,
      "learning_rate": 0.00029836433915855206,
      "loss": 4.1404,
      "step": 24490
    },
    {
      "epoch": 0.051041666666666666,
      "grad_norm": 1.1958189010620117,
      "learning_rate": 0.0002983628869202083,
      "loss": 4.3772,
      "step": 24500
    },
    {
      "epoch": 0.0510625,
      "grad_norm": 1.1171833276748657,
      "learning_rate": 0.00029836143404099566,
      "loss": 4.2228,
      "step": 24510
    },
    {
      "epoch": 0.051083333333333335,
      "grad_norm": 1.1807488203048706,
      "learning_rate": 0.00029835998052092026,
      "loss": 4.2682,
      "step": 24520
    },
    {
      "epoch": 0.051104166666666666,
      "grad_norm": 1.1219805479049683,
      "learning_rate": 0.00029835852635998845,
      "loss": 4.477,
      "step": 24530
    },
    {
      "epoch": 0.051125,
      "grad_norm": 1.0834378004074097,
      "learning_rate": 0.00029835707155820664,
      "loss": 4.3995,
      "step": 24540
    },
    {
      "epoch": 0.051145833333333335,
      "grad_norm": 1.1197848320007324,
      "learning_rate": 0.00029835561611558096,
      "loss": 4.3252,
      "step": 24550
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 1.0286335945129395,
      "learning_rate": 0.0002983541600321177,
      "loss": 4.4251,
      "step": 24560
    },
    {
      "epoch": 0.0511875,
      "grad_norm": 1.1253721714019775,
      "learning_rate": 0.0002983527033078232,
      "loss": 4.3389,
      "step": 24570
    },
    {
      "epoch": 0.051208333333333335,
      "grad_norm": 1.174080729484558,
      "learning_rate": 0.0002983512459427038,
      "loss": 4.1174,
      "step": 24580
    },
    {
      "epoch": 0.051229166666666666,
      "grad_norm": 1.0092390775680542,
      "learning_rate": 0.0002983497879367657,
      "loss": 4.2962,
      "step": 24590
    },
    {
      "epoch": 0.05125,
      "grad_norm": 1.0364677906036377,
      "learning_rate": 0.0002983483292900152,
      "loss": 4.3983,
      "step": 24600
    },
    {
      "epoch": 0.051270833333333335,
      "grad_norm": 1.0652247667312622,
      "learning_rate": 0.0002983468700024587,
      "loss": 4.5753,
      "step": 24610
    },
    {
      "epoch": 0.051291666666666666,
      "grad_norm": 1.0896234512329102,
      "learning_rate": 0.0002983454100741024,
      "loss": 4.4481,
      "step": 24620
    },
    {
      "epoch": 0.0513125,
      "grad_norm": 1.0578910112380981,
      "learning_rate": 0.0002983439495049527,
      "loss": 4.3547,
      "step": 24630
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 1.1233247518539429,
      "learning_rate": 0.0002983424882950158,
      "loss": 4.5103,
      "step": 24640
    },
    {
      "epoch": 0.051354166666666666,
      "grad_norm": 1.1193674802780151,
      "learning_rate": 0.0002983410264442981,
      "loss": 4.418,
      "step": 24650
    },
    {
      "epoch": 0.051375,
      "grad_norm": 1.05387282371521,
      "learning_rate": 0.00029833956395280585,
      "loss": 4.2941,
      "step": 24660
    },
    {
      "epoch": 0.051395833333333335,
      "grad_norm": 1.0962979793548584,
      "learning_rate": 0.0002983381008205455,
      "loss": 4.399,
      "step": 24670
    },
    {
      "epoch": 0.051416666666666666,
      "grad_norm": 0.9627147912979126,
      "learning_rate": 0.00029833663704752314,
      "loss": 4.448,
      "step": 24680
    },
    {
      "epoch": 0.0514375,
      "grad_norm": 1.1054103374481201,
      "learning_rate": 0.0002983351726337453,
      "loss": 4.2275,
      "step": 24690
    },
    {
      "epoch": 0.051458333333333335,
      "grad_norm": 1.0051571130752563,
      "learning_rate": 0.0002983337075792182,
      "loss": 4.2537,
      "step": 24700
    },
    {
      "epoch": 0.051479166666666666,
      "grad_norm": 1.0911871194839478,
      "learning_rate": 0.00029833224188394815,
      "loss": 4.1391,
      "step": 24710
    },
    {
      "epoch": 0.0515,
      "grad_norm": 1.147581934928894,
      "learning_rate": 0.00029833077554794165,
      "loss": 4.2379,
      "step": 24720
    },
    {
      "epoch": 0.051520833333333335,
      "grad_norm": 1.0435398817062378,
      "learning_rate": 0.00029832930857120484,
      "loss": 4.0131,
      "step": 24730
    },
    {
      "epoch": 0.051541666666666666,
      "grad_norm": 1.012503981590271,
      "learning_rate": 0.0002983278409537441,
      "loss": 4.4671,
      "step": 24740
    },
    {
      "epoch": 0.0515625,
      "grad_norm": 1.132952094078064,
      "learning_rate": 0.0002983263726955659,
      "loss": 4.2431,
      "step": 24750
    },
    {
      "epoch": 0.051583333333333335,
      "grad_norm": 1.1269402503967285,
      "learning_rate": 0.0002983249037966764,
      "loss": 4.1852,
      "step": 24760
    },
    {
      "epoch": 0.051604166666666666,
      "grad_norm": 1.0531020164489746,
      "learning_rate": 0.00029832343425708203,
      "loss": 4.4003,
      "step": 24770
    },
    {
      "epoch": 0.051625,
      "grad_norm": 1.150460958480835,
      "learning_rate": 0.00029832196407678915,
      "loss": 4.2017,
      "step": 24780
    },
    {
      "epoch": 0.051645833333333335,
      "grad_norm": 1.1673094034194946,
      "learning_rate": 0.00029832049325580407,
      "loss": 4.3198,
      "step": 24790
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 1.057260274887085,
      "learning_rate": 0.00029831902179413324,
      "loss": 4.3399,
      "step": 24800
    },
    {
      "epoch": 0.0516875,
      "grad_norm": 1.0473333597183228,
      "learning_rate": 0.0002983175496917829,
      "loss": 4.4572,
      "step": 24810
    },
    {
      "epoch": 0.051708333333333335,
      "grad_norm": 1.0591825246810913,
      "learning_rate": 0.00029831607694875945,
      "loss": 4.4641,
      "step": 24820
    },
    {
      "epoch": 0.051729166666666666,
      "grad_norm": 0.97281414270401,
      "learning_rate": 0.0002983146035650692,
      "loss": 4.3186,
      "step": 24830
    },
    {
      "epoch": 0.05175,
      "grad_norm": 1.1169911623001099,
      "learning_rate": 0.0002983131295407187,
      "loss": 4.2243,
      "step": 24840
    },
    {
      "epoch": 0.051770833333333335,
      "grad_norm": 1.069459080696106,
      "learning_rate": 0.0002983116548757141,
      "loss": 4.1692,
      "step": 24850
    },
    {
      "epoch": 0.051791666666666666,
      "grad_norm": 0.9762437343597412,
      "learning_rate": 0.00029831017957006187,
      "loss": 4.3544,
      "step": 24860
    },
    {
      "epoch": 0.0518125,
      "grad_norm": 1.1541951894760132,
      "learning_rate": 0.00029830870362376836,
      "loss": 4.3046,
      "step": 24870
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 1.013666033744812,
      "learning_rate": 0.00029830722703683995,
      "loss": 4.5211,
      "step": 24880
    },
    {
      "epoch": 0.051854166666666666,
      "grad_norm": 1.0526392459869385,
      "learning_rate": 0.00029830574980928303,
      "loss": 4.1916,
      "step": 24890
    },
    {
      "epoch": 0.051875,
      "grad_norm": 1.2299787998199463,
      "learning_rate": 0.000298304271941104,
      "loss": 4.3007,
      "step": 24900
    },
    {
      "epoch": 0.051895833333333335,
      "grad_norm": 0.9456669092178345,
      "learning_rate": 0.00029830279343230924,
      "loss": 4.3144,
      "step": 24910
    },
    {
      "epoch": 0.051916666666666667,
      "grad_norm": 1.1140321493148804,
      "learning_rate": 0.00029830131428290504,
      "loss": 4.2589,
      "step": 24920
    },
    {
      "epoch": 0.0519375,
      "grad_norm": 1.0626349449157715,
      "learning_rate": 0.00029829983449289793,
      "loss": 4.3334,
      "step": 24930
    },
    {
      "epoch": 0.051958333333333336,
      "grad_norm": 1.0694748163223267,
      "learning_rate": 0.00029829835406229414,
      "loss": 4.3573,
      "step": 24940
    },
    {
      "epoch": 0.05197916666666667,
      "grad_norm": 1.1806368827819824,
      "learning_rate": 0.0002982968729911003,
      "loss": 4.3592,
      "step": 24950
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.0325785875320435,
      "learning_rate": 0.00029829539127932254,
      "loss": 4.2517,
      "step": 24960
    },
    {
      "epoch": 0.052020833333333336,
      "grad_norm": 0.9717662930488586,
      "learning_rate": 0.0002982939089269675,
      "loss": 4.2937,
      "step": 24970
    },
    {
      "epoch": 0.05204166666666667,
      "grad_norm": 1.0532798767089844,
      "learning_rate": 0.00029829242593404137,
      "loss": 4.1179,
      "step": 24980
    },
    {
      "epoch": 0.0520625,
      "grad_norm": 1.0968741178512573,
      "learning_rate": 0.00029829094230055073,
      "loss": 4.1879,
      "step": 24990
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 1.0285077095031738,
      "learning_rate": 0.0002982894580265019,
      "loss": 4.2718,
      "step": 25000
    },
    {
      "epoch": 0.052083333333333336,
      "eval_loss": 4.062677383422852,
      "eval_runtime": 7.4673,
      "eval_samples_per_second": 1.339,
      "eval_steps_per_second": 0.402,
      "step": 25000
    },
    {
      "epoch": 0.05210416666666667,
      "grad_norm": 1.024632453918457,
      "learning_rate": 0.0002982879731119013,
      "loss": 4.3427,
      "step": 25010
    },
    {
      "epoch": 0.052125,
      "grad_norm": 1.0544729232788086,
      "learning_rate": 0.0002982864875567553,
      "loss": 4.214,
      "step": 25020
    },
    {
      "epoch": 0.052145833333333336,
      "grad_norm": 1.0332165956497192,
      "learning_rate": 0.00029828500136107046,
      "loss": 4.2001,
      "step": 25030
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 0.9907339811325073,
      "learning_rate": 0.00029828351452485305,
      "loss": 4.4828,
      "step": 25040
    },
    {
      "epoch": 0.0521875,
      "grad_norm": 1.1218665838241577,
      "learning_rate": 0.0002982820270481096,
      "loss": 4.3381,
      "step": 25050
    },
    {
      "epoch": 0.052208333333333336,
      "grad_norm": 1.0224485397338867,
      "learning_rate": 0.00029828053893084645,
      "loss": 4.4339,
      "step": 25060
    },
    {
      "epoch": 0.05222916666666667,
      "grad_norm": 1.1598912477493286,
      "learning_rate": 0.00029827905017307005,
      "loss": 4.3735,
      "step": 25070
    },
    {
      "epoch": 0.05225,
      "grad_norm": 1.2625244855880737,
      "learning_rate": 0.0002982775607747869,
      "loss": 4.166,
      "step": 25080
    },
    {
      "epoch": 0.052270833333333336,
      "grad_norm": 1.0250437259674072,
      "learning_rate": 0.00029827607073600336,
      "loss": 4.1245,
      "step": 25090
    },
    {
      "epoch": 0.05229166666666667,
      "grad_norm": 1.0706777572631836,
      "learning_rate": 0.00029827458005672586,
      "loss": 4.4228,
      "step": 25100
    },
    {
      "epoch": 0.0523125,
      "grad_norm": 1.0423052310943604,
      "learning_rate": 0.0002982730887369609,
      "loss": 4.4502,
      "step": 25110
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 1.1790339946746826,
      "learning_rate": 0.00029827159677671487,
      "loss": 4.3491,
      "step": 25120
    },
    {
      "epoch": 0.05235416666666667,
      "grad_norm": 1.3280491828918457,
      "learning_rate": 0.0002982701041759942,
      "loss": 4.3572,
      "step": 25130
    },
    {
      "epoch": 0.052375,
      "grad_norm": 1.0103073120117188,
      "learning_rate": 0.00029826861093480543,
      "loss": 4.2512,
      "step": 25140
    },
    {
      "epoch": 0.052395833333333336,
      "grad_norm": 1.0554810762405396,
      "learning_rate": 0.00029826711705315494,
      "loss": 4.3622,
      "step": 25150
    },
    {
      "epoch": 0.05241666666666667,
      "grad_norm": 1.0865169763565063,
      "learning_rate": 0.00029826562253104915,
      "loss": 4.2969,
      "step": 25160
    },
    {
      "epoch": 0.0524375,
      "grad_norm": 1.23491632938385,
      "learning_rate": 0.0002982641273684946,
      "loss": 4.2402,
      "step": 25170
    },
    {
      "epoch": 0.052458333333333336,
      "grad_norm": 1.1919671297073364,
      "learning_rate": 0.0002982626315654977,
      "loss": 4.1571,
      "step": 25180
    },
    {
      "epoch": 0.05247916666666667,
      "grad_norm": 1.1172298192977905,
      "learning_rate": 0.00029826113512206493,
      "loss": 4.3624,
      "step": 25190
    },
    {
      "epoch": 0.0525,
      "grad_norm": 1.7249583005905151,
      "learning_rate": 0.0002982596380382027,
      "loss": 4.3737,
      "step": 25200
    },
    {
      "epoch": 0.052520833333333336,
      "grad_norm": 1.088528037071228,
      "learning_rate": 0.0002982581403139175,
      "loss": 4.336,
      "step": 25210
    },
    {
      "epoch": 0.05254166666666667,
      "grad_norm": 1.0758315324783325,
      "learning_rate": 0.00029825664194921584,
      "loss": 4.2552,
      "step": 25220
    },
    {
      "epoch": 0.0525625,
      "grad_norm": 1.0590201616287231,
      "learning_rate": 0.00029825514294410424,
      "loss": 4.2915,
      "step": 25230
    },
    {
      "epoch": 0.052583333333333336,
      "grad_norm": 0.9522351026535034,
      "learning_rate": 0.00029825364329858905,
      "loss": 4.4534,
      "step": 25240
    },
    {
      "epoch": 0.05260416666666667,
      "grad_norm": 1.0607582330703735,
      "learning_rate": 0.00029825214301267683,
      "loss": 4.6154,
      "step": 25250
    },
    {
      "epoch": 0.052625,
      "grad_norm": 1.2658112049102783,
      "learning_rate": 0.000298250642086374,
      "loss": 4.3487,
      "step": 25260
    },
    {
      "epoch": 0.052645833333333336,
      "grad_norm": 0.9839025735855103,
      "learning_rate": 0.00029824914051968703,
      "loss": 4.547,
      "step": 25270
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 1.0363777875900269,
      "learning_rate": 0.00029824763831262256,
      "loss": 4.3887,
      "step": 25280
    },
    {
      "epoch": 0.0526875,
      "grad_norm": 1.0751233100891113,
      "learning_rate": 0.0002982461354651869,
      "loss": 4.5163,
      "step": 25290
    },
    {
      "epoch": 0.052708333333333336,
      "grad_norm": 1.0553470849990845,
      "learning_rate": 0.00029824463197738663,
      "loss": 4.2369,
      "step": 25300
    },
    {
      "epoch": 0.05272916666666667,
      "grad_norm": 1.0222407579421997,
      "learning_rate": 0.0002982431278492283,
      "loss": 4.3258,
      "step": 25310
    },
    {
      "epoch": 0.05275,
      "grad_norm": 1.057027816772461,
      "learning_rate": 0.00029824162308071824,
      "loss": 4.3756,
      "step": 25320
    },
    {
      "epoch": 0.052770833333333336,
      "grad_norm": 1.0761749744415283,
      "learning_rate": 0.0002982401176718631,
      "loss": 4.3138,
      "step": 25330
    },
    {
      "epoch": 0.05279166666666667,
      "grad_norm": 1.1576176881790161,
      "learning_rate": 0.00029823861162266927,
      "loss": 4.2138,
      "step": 25340
    },
    {
      "epoch": 0.0528125,
      "grad_norm": 1.0997105836868286,
      "learning_rate": 0.00029823710493314336,
      "loss": 4.2705,
      "step": 25350
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 1.0565038919448853,
      "learning_rate": 0.0002982355976032919,
      "loss": 4.3864,
      "step": 25360
    },
    {
      "epoch": 0.05285416666666667,
      "grad_norm": 0.9974123239517212,
      "learning_rate": 0.0002982340896331212,
      "loss": 4.3859,
      "step": 25370
    },
    {
      "epoch": 0.052875,
      "grad_norm": 1.0449156761169434,
      "learning_rate": 0.000298232581022638,
      "loss": 4.2741,
      "step": 25380
    },
    {
      "epoch": 0.052895833333333336,
      "grad_norm": 1.1083072423934937,
      "learning_rate": 0.0002982310717718487,
      "loss": 4.2674,
      "step": 25390
    },
    {
      "epoch": 0.05291666666666667,
      "grad_norm": 1.1290777921676636,
      "learning_rate": 0.0002982295618807598,
      "loss": 4.2723,
      "step": 25400
    },
    {
      "epoch": 0.0529375,
      "grad_norm": 1.1269049644470215,
      "learning_rate": 0.0002982280513493779,
      "loss": 4.1895,
      "step": 25410
    },
    {
      "epoch": 0.052958333333333336,
      "grad_norm": 1.0704673528671265,
      "learning_rate": 0.00029822654017770954,
      "loss": 4.1807,
      "step": 25420
    },
    {
      "epoch": 0.05297916666666667,
      "grad_norm": 0.9889872074127197,
      "learning_rate": 0.00029822502836576113,
      "loss": 4.347,
      "step": 25430
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.0754659175872803,
      "learning_rate": 0.0002982235159135393,
      "loss": 4.3468,
      "step": 25440
    },
    {
      "epoch": 0.053020833333333336,
      "grad_norm": 1.040543556213379,
      "learning_rate": 0.0002982220028210506,
      "loss": 4.3198,
      "step": 25450
    },
    {
      "epoch": 0.05304166666666667,
      "grad_norm": 1.0190796852111816,
      "learning_rate": 0.0002982204890883014,
      "loss": 4.371,
      "step": 25460
    },
    {
      "epoch": 0.0530625,
      "grad_norm": 1.239454746246338,
      "learning_rate": 0.00029821897471529843,
      "loss": 4.1729,
      "step": 25470
    },
    {
      "epoch": 0.05308333333333334,
      "grad_norm": 1.0608110427856445,
      "learning_rate": 0.00029821745970204816,
      "loss": 4.4777,
      "step": 25480
    },
    {
      "epoch": 0.05310416666666667,
      "grad_norm": 1.072083830833435,
      "learning_rate": 0.0002982159440485571,
      "loss": 4.3683,
      "step": 25490
    },
    {
      "epoch": 0.053125,
      "grad_norm": 1.1389638185501099,
      "learning_rate": 0.00029821442775483187,
      "loss": 4.3141,
      "step": 25500
    },
    {
      "epoch": 0.05314583333333334,
      "grad_norm": 1.030481219291687,
      "learning_rate": 0.00029821291082087896,
      "loss": 4.1895,
      "step": 25510
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 1.061780571937561,
      "learning_rate": 0.000298211393246705,
      "loss": 4.2121,
      "step": 25520
    },
    {
      "epoch": 0.0531875,
      "grad_norm": 1.0813336372375488,
      "learning_rate": 0.0002982098750323164,
      "loss": 4.4013,
      "step": 25530
    },
    {
      "epoch": 0.05320833333333334,
      "grad_norm": 1.0094138383865356,
      "learning_rate": 0.00029820835617771986,
      "loss": 4.2099,
      "step": 25540
    },
    {
      "epoch": 0.05322916666666667,
      "grad_norm": 1.151478886604309,
      "learning_rate": 0.0002982068366829218,
      "loss": 4.3865,
      "step": 25550
    },
    {
      "epoch": 0.05325,
      "grad_norm": 1.4549894332885742,
      "learning_rate": 0.000298205316547929,
      "loss": 4.2191,
      "step": 25560
    },
    {
      "epoch": 0.05327083333333334,
      "grad_norm": 1.0210144519805908,
      "learning_rate": 0.0002982037957727478,
      "loss": 4.3553,
      "step": 25570
    },
    {
      "epoch": 0.05329166666666667,
      "grad_norm": 1.0396479368209839,
      "learning_rate": 0.0002982022743573849,
      "loss": 4.3749,
      "step": 25580
    },
    {
      "epoch": 0.0533125,
      "grad_norm": 1.1200077533721924,
      "learning_rate": 0.00029820075230184683,
      "loss": 4.3766,
      "step": 25590
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 1.092976689338684,
      "learning_rate": 0.0002981992296061402,
      "loss": 4.4186,
      "step": 25600
    },
    {
      "epoch": 0.05335416666666667,
      "grad_norm": 1.1334302425384521,
      "learning_rate": 0.00029819770627027153,
      "loss": 4.2918,
      "step": 25610
    },
    {
      "epoch": 0.053375,
      "grad_norm": 1.0862230062484741,
      "learning_rate": 0.00029819618229424744,
      "loss": 4.5277,
      "step": 25620
    },
    {
      "epoch": 0.05339583333333333,
      "grad_norm": 1.0664734840393066,
      "learning_rate": 0.0002981946576780745,
      "loss": 4.2956,
      "step": 25630
    },
    {
      "epoch": 0.05341666666666667,
      "grad_norm": 0.9587506651878357,
      "learning_rate": 0.0002981931324217593,
      "loss": 4.2975,
      "step": 25640
    },
    {
      "epoch": 0.0534375,
      "grad_norm": 1.0194748640060425,
      "learning_rate": 0.0002981916065253084,
      "loss": 4.3472,
      "step": 25650
    },
    {
      "epoch": 0.05345833333333333,
      "grad_norm": 1.1249114274978638,
      "learning_rate": 0.0002981900799887284,
      "loss": 4.2086,
      "step": 25660
    },
    {
      "epoch": 0.05347916666666667,
      "grad_norm": 1.0931955575942993,
      "learning_rate": 0.000298188552812026,
      "loss": 4.3013,
      "step": 25670
    },
    {
      "epoch": 0.0535,
      "grad_norm": 1.0108320713043213,
      "learning_rate": 0.00029818702499520767,
      "loss": 4.2943,
      "step": 25680
    },
    {
      "epoch": 0.05352083333333333,
      "grad_norm": 1.0578694343566895,
      "learning_rate": 0.00029818549653828,
      "loss": 4.1928,
      "step": 25690
    },
    {
      "epoch": 0.05354166666666667,
      "grad_norm": 1.0647250413894653,
      "learning_rate": 0.0002981839674412497,
      "loss": 4.3873,
      "step": 25700
    },
    {
      "epoch": 0.0535625,
      "grad_norm": 1.0798702239990234,
      "learning_rate": 0.00029818243770412324,
      "loss": 4.409,
      "step": 25710
    },
    {
      "epoch": 0.05358333333333333,
      "grad_norm": 1.1308412551879883,
      "learning_rate": 0.0002981809073269074,
      "loss": 4.3044,
      "step": 25720
    },
    {
      "epoch": 0.05360416666666667,
      "grad_norm": 1.079514980316162,
      "learning_rate": 0.0002981793763096086,
      "loss": 4.2712,
      "step": 25730
    },
    {
      "epoch": 0.053625,
      "grad_norm": 1.0223808288574219,
      "learning_rate": 0.00029817784465223363,
      "loss": 4.2845,
      "step": 25740
    },
    {
      "epoch": 0.05364583333333333,
      "grad_norm": 1.1611167192459106,
      "learning_rate": 0.00029817631235478905,
      "loss": 4.198,
      "step": 25750
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 1.0743913650512695,
      "learning_rate": 0.0002981747794172814,
      "loss": 4.3538,
      "step": 25760
    },
    {
      "epoch": 0.0536875,
      "grad_norm": 1.1243031024932861,
      "learning_rate": 0.00029817324583971734,
      "loss": 4.3333,
      "step": 25770
    },
    {
      "epoch": 0.05370833333333333,
      "grad_norm": 1.0593087673187256,
      "learning_rate": 0.0002981717116221035,
      "loss": 4.3638,
      "step": 25780
    },
    {
      "epoch": 0.05372916666666667,
      "grad_norm": 0.980595588684082,
      "learning_rate": 0.00029817017676444656,
      "loss": 4.265,
      "step": 25790
    },
    {
      "epoch": 0.05375,
      "grad_norm": 1.0027695894241333,
      "learning_rate": 0.00029816864126675305,
      "loss": 4.288,
      "step": 25800
    },
    {
      "epoch": 0.05377083333333333,
      "grad_norm": 1.1311187744140625,
      "learning_rate": 0.00029816710512902973,
      "loss": 4.4616,
      "step": 25810
    },
    {
      "epoch": 0.05379166666666667,
      "grad_norm": 1.1273092031478882,
      "learning_rate": 0.0002981655683512831,
      "loss": 4.1547,
      "step": 25820
    },
    {
      "epoch": 0.0538125,
      "grad_norm": 1.0052329301834106,
      "learning_rate": 0.00029816403093351987,
      "loss": 4.2481,
      "step": 25830
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 1.0113909244537354,
      "learning_rate": 0.00029816249287574676,
      "loss": 4.2802,
      "step": 25840
    },
    {
      "epoch": 0.05385416666666667,
      "grad_norm": 1.0965977907180786,
      "learning_rate": 0.0002981609541779702,
      "loss": 4.284,
      "step": 25850
    },
    {
      "epoch": 0.053875,
      "grad_norm": 1.1209031343460083,
      "learning_rate": 0.00029815941484019707,
      "loss": 4.268,
      "step": 25860
    },
    {
      "epoch": 0.05389583333333333,
      "grad_norm": 0.9892096519470215,
      "learning_rate": 0.00029815787486243387,
      "loss": 4.1079,
      "step": 25870
    },
    {
      "epoch": 0.05391666666666667,
      "grad_norm": 1.2158483266830444,
      "learning_rate": 0.00029815633424468726,
      "loss": 4.3655,
      "step": 25880
    },
    {
      "epoch": 0.0539375,
      "grad_norm": 1.0317031145095825,
      "learning_rate": 0.000298154792986964,
      "loss": 4.4085,
      "step": 25890
    },
    {
      "epoch": 0.05395833333333333,
      "grad_norm": 1.097292423248291,
      "learning_rate": 0.00029815325108927063,
      "loss": 4.3843,
      "step": 25900
    },
    {
      "epoch": 0.05397916666666667,
      "grad_norm": 1.0310512781143188,
      "learning_rate": 0.0002981517085516139,
      "loss": 4.3366,
      "step": 25910
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.1023818254470825,
      "learning_rate": 0.00029815016537400037,
      "loss": 4.3969,
      "step": 25920
    },
    {
      "epoch": 0.05402083333333333,
      "grad_norm": 1.011173963546753,
      "learning_rate": 0.00029814862155643683,
      "loss": 4.3162,
      "step": 25930
    },
    {
      "epoch": 0.05404166666666667,
      "grad_norm": 1.0284535884857178,
      "learning_rate": 0.00029814707709892985,
      "loss": 4.3656,
      "step": 25940
    },
    {
      "epoch": 0.0540625,
      "grad_norm": 1.0280020236968994,
      "learning_rate": 0.00029814553200148614,
      "loss": 4.3154,
      "step": 25950
    },
    {
      "epoch": 0.05408333333333333,
      "grad_norm": 1.2192037105560303,
      "learning_rate": 0.0002981439862641124,
      "loss": 4.3284,
      "step": 25960
    },
    {
      "epoch": 0.05410416666666667,
      "grad_norm": 0.9816833734512329,
      "learning_rate": 0.0002981424398868152,
      "loss": 4.3677,
      "step": 25970
    },
    {
      "epoch": 0.054125,
      "grad_norm": 0.9477273225784302,
      "learning_rate": 0.00029814089286960135,
      "loss": 4.4414,
      "step": 25980
    },
    {
      "epoch": 0.05414583333333333,
      "grad_norm": 1.0879946947097778,
      "learning_rate": 0.0002981393452124775,
      "loss": 4.277,
      "step": 25990
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 1.0579814910888672,
      "learning_rate": 0.0002981377969154503,
      "loss": 4.3324,
      "step": 26000
    },
    {
      "epoch": 0.05416666666666667,
      "eval_loss": 4.0632219314575195,
      "eval_runtime": 7.3254,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 26000
    },
    {
      "epoch": 0.0541875,
      "grad_norm": 1.0489836931228638,
      "learning_rate": 0.00029813624797852645,
      "loss": 4.2381,
      "step": 26010
    },
    {
      "epoch": 0.05420833333333333,
      "grad_norm": 1.0217825174331665,
      "learning_rate": 0.0002981346984017127,
      "loss": 4.3898,
      "step": 26020
    },
    {
      "epoch": 0.05422916666666667,
      "grad_norm": 2.0522029399871826,
      "learning_rate": 0.0002981331481850156,
      "loss": 4.2158,
      "step": 26030
    },
    {
      "epoch": 0.05425,
      "grad_norm": 1.1275489330291748,
      "learning_rate": 0.000298131597328442,
      "loss": 4.3643,
      "step": 26040
    },
    {
      "epoch": 0.05427083333333333,
      "grad_norm": 1.1973503828048706,
      "learning_rate": 0.00029813004583199854,
      "loss": 4.1982,
      "step": 26050
    },
    {
      "epoch": 0.05429166666666667,
      "grad_norm": 1.0037591457366943,
      "learning_rate": 0.00029812849369569185,
      "loss": 4.3511,
      "step": 26060
    },
    {
      "epoch": 0.0543125,
      "grad_norm": 1.1457899808883667,
      "learning_rate": 0.0002981269409195287,
      "loss": 4.2998,
      "step": 26070
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 1.036842703819275,
      "learning_rate": 0.00029812538750351587,
      "loss": 4.132,
      "step": 26080
    },
    {
      "epoch": 0.05435416666666667,
      "grad_norm": 1.026230812072754,
      "learning_rate": 0.00029812383344765997,
      "loss": 4.214,
      "step": 26090
    },
    {
      "epoch": 0.054375,
      "grad_norm": 1.0337880849838257,
      "learning_rate": 0.0002981222787519677,
      "loss": 4.3563,
      "step": 26100
    },
    {
      "epoch": 0.05439583333333333,
      "grad_norm": 0.997011661529541,
      "learning_rate": 0.00029812072341644586,
      "loss": 4.1529,
      "step": 26110
    },
    {
      "epoch": 0.05441666666666667,
      "grad_norm": 1.074156641960144,
      "learning_rate": 0.00029811916744110114,
      "loss": 4.41,
      "step": 26120
    },
    {
      "epoch": 0.0544375,
      "grad_norm": 1.0461890697479248,
      "learning_rate": 0.0002981176108259402,
      "loss": 4.3995,
      "step": 26130
    },
    {
      "epoch": 0.05445833333333333,
      "grad_norm": 1.0576956272125244,
      "learning_rate": 0.00029811605357096983,
      "loss": 4.4355,
      "step": 26140
    },
    {
      "epoch": 0.05447916666666667,
      "grad_norm": 1.1337372064590454,
      "learning_rate": 0.00029811449567619674,
      "loss": 4.2955,
      "step": 26150
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.954840898513794,
      "learning_rate": 0.00029811293714162765,
      "loss": 4.4031,
      "step": 26160
    },
    {
      "epoch": 0.05452083333333333,
      "grad_norm": 1.0509306192398071,
      "learning_rate": 0.0002981113779672693,
      "loss": 4.2225,
      "step": 26170
    },
    {
      "epoch": 0.05454166666666667,
      "grad_norm": 1.4234791994094849,
      "learning_rate": 0.00029810981815312843,
      "loss": 4.2364,
      "step": 26180
    },
    {
      "epoch": 0.0545625,
      "grad_norm": 1.024369239807129,
      "learning_rate": 0.0002981082576992118,
      "loss": 4.1793,
      "step": 26190
    },
    {
      "epoch": 0.05458333333333333,
      "grad_norm": 1.1149715185165405,
      "learning_rate": 0.00029810669660552605,
      "loss": 4.5075,
      "step": 26200
    },
    {
      "epoch": 0.05460416666666667,
      "grad_norm": 1.021373987197876,
      "learning_rate": 0.00029810513487207803,
      "loss": 4.2544,
      "step": 26210
    },
    {
      "epoch": 0.054625,
      "grad_norm": 0.954749345779419,
      "learning_rate": 0.00029810357249887445,
      "loss": 4.4085,
      "step": 26220
    },
    {
      "epoch": 0.05464583333333333,
      "grad_norm": 1.121719479560852,
      "learning_rate": 0.0002981020094859221,
      "loss": 4.5089,
      "step": 26230
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 1.0348942279815674,
      "learning_rate": 0.00029810044583322763,
      "loss": 4.2777,
      "step": 26240
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 1.1686670780181885,
      "learning_rate": 0.0002980988815407979,
      "loss": 4.1396,
      "step": 26250
    },
    {
      "epoch": 0.05470833333333333,
      "grad_norm": 1.04825758934021,
      "learning_rate": 0.0002980973166086396,
      "loss": 4.3634,
      "step": 26260
    },
    {
      "epoch": 0.05472916666666667,
      "grad_norm": 1.0509026050567627,
      "learning_rate": 0.00029809575103675954,
      "loss": 4.4338,
      "step": 26270
    },
    {
      "epoch": 0.05475,
      "grad_norm": 0.9283586144447327,
      "learning_rate": 0.00029809418482516445,
      "loss": 4.4687,
      "step": 26280
    },
    {
      "epoch": 0.05477083333333333,
      "grad_norm": 1.2695897817611694,
      "learning_rate": 0.00029809261797386107,
      "loss": 4.2554,
      "step": 26290
    },
    {
      "epoch": 0.05479166666666667,
      "grad_norm": 0.9812539219856262,
      "learning_rate": 0.00029809105048285623,
      "loss": 4.2333,
      "step": 26300
    },
    {
      "epoch": 0.0548125,
      "grad_norm": 1.2217251062393188,
      "learning_rate": 0.00029808948235215667,
      "loss": 4.2464,
      "step": 26310
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 1.2272987365722656,
      "learning_rate": 0.00029808791358176915,
      "loss": 4.434,
      "step": 26320
    },
    {
      "epoch": 0.05485416666666667,
      "grad_norm": 1.015470027923584,
      "learning_rate": 0.00029808634417170045,
      "loss": 4.1902,
      "step": 26330
    },
    {
      "epoch": 0.054875,
      "grad_norm": 1.126326084136963,
      "learning_rate": 0.00029808477412195735,
      "loss": 4.3078,
      "step": 26340
    },
    {
      "epoch": 0.05489583333333333,
      "grad_norm": 1.063620924949646,
      "learning_rate": 0.00029808320343254667,
      "loss": 4.3561,
      "step": 26350
    },
    {
      "epoch": 0.05491666666666667,
      "grad_norm": 1.0180498361587524,
      "learning_rate": 0.00029808163210347515,
      "loss": 4.2173,
      "step": 26360
    },
    {
      "epoch": 0.0549375,
      "grad_norm": 1.1767785549163818,
      "learning_rate": 0.00029808006013474966,
      "loss": 4.4034,
      "step": 26370
    },
    {
      "epoch": 0.05495833333333333,
      "grad_norm": 0.9261558651924133,
      "learning_rate": 0.00029807848752637687,
      "loss": 4.4414,
      "step": 26380
    },
    {
      "epoch": 0.05497916666666667,
      "grad_norm": 1.006869912147522,
      "learning_rate": 0.00029807691427836356,
      "loss": 4.3496,
      "step": 26390
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.125232219696045,
      "learning_rate": 0.0002980753403907167,
      "loss": 4.4484,
      "step": 26400
    },
    {
      "epoch": 0.05502083333333333,
      "grad_norm": 1.0437308549880981,
      "learning_rate": 0.0002980737658634429,
      "loss": 4.4758,
      "step": 26410
    },
    {
      "epoch": 0.05504166666666667,
      "grad_norm": 1.043891429901123,
      "learning_rate": 0.00029807219069654913,
      "loss": 4.2875,
      "step": 26420
    },
    {
      "epoch": 0.0550625,
      "grad_norm": 1.1201879978179932,
      "learning_rate": 0.0002980706148900421,
      "loss": 4.2517,
      "step": 26430
    },
    {
      "epoch": 0.05508333333333333,
      "grad_norm": 1.1448149681091309,
      "learning_rate": 0.0002980690384439286,
      "loss": 4.0574,
      "step": 26440
    },
    {
      "epoch": 0.05510416666666667,
      "grad_norm": 1.0855224132537842,
      "learning_rate": 0.0002980674613582154,
      "loss": 4.3657,
      "step": 26450
    },
    {
      "epoch": 0.055125,
      "grad_norm": 1.0688203573226929,
      "learning_rate": 0.00029806588363290944,
      "loss": 4.1922,
      "step": 26460
    },
    {
      "epoch": 0.05514583333333333,
      "grad_norm": 0.9964618682861328,
      "learning_rate": 0.0002980643052680174,
      "loss": 4.2839,
      "step": 26470
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 0.9250292181968689,
      "learning_rate": 0.00029806272626354624,
      "loss": 4.6034,
      "step": 26480
    },
    {
      "epoch": 0.0551875,
      "grad_norm": 1.138291358947754,
      "learning_rate": 0.00029806114661950274,
      "loss": 4.242,
      "step": 26490
    },
    {
      "epoch": 0.05520833333333333,
      "grad_norm": 1.0968894958496094,
      "learning_rate": 0.00029805956633589364,
      "loss": 4.2301,
      "step": 26500
    },
    {
      "epoch": 0.05522916666666667,
      "grad_norm": 0.9827060103416443,
      "learning_rate": 0.0002980579854127259,
      "loss": 4.3045,
      "step": 26510
    },
    {
      "epoch": 0.05525,
      "grad_norm": 1.1615153551101685,
      "learning_rate": 0.0002980564038500061,
      "loss": 4.3465,
      "step": 26520
    },
    {
      "epoch": 0.05527083333333333,
      "grad_norm": 1.067100167274475,
      "learning_rate": 0.0002980548216477414,
      "loss": 4.5149,
      "step": 26530
    },
    {
      "epoch": 0.05529166666666667,
      "grad_norm": 1.0172207355499268,
      "learning_rate": 0.00029805323880593835,
      "loss": 4.2792,
      "step": 26540
    },
    {
      "epoch": 0.0553125,
      "grad_norm": 1.010056495666504,
      "learning_rate": 0.000298051655324604,
      "loss": 4.4013,
      "step": 26550
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 1.0713200569152832,
      "learning_rate": 0.0002980500712037451,
      "loss": 4.2953,
      "step": 26560
    },
    {
      "epoch": 0.05535416666666667,
      "grad_norm": 1.2164909839630127,
      "learning_rate": 0.00029804848644336847,
      "loss": 4.3186,
      "step": 26570
    },
    {
      "epoch": 0.055375,
      "grad_norm": 1.053802728652954,
      "learning_rate": 0.000298046901043481,
      "loss": 4.388,
      "step": 26580
    },
    {
      "epoch": 0.05539583333333333,
      "grad_norm": 1.0212366580963135,
      "learning_rate": 0.0002980453150040895,
      "loss": 4.2524,
      "step": 26590
    },
    {
      "epoch": 0.05541666666666667,
      "grad_norm": 1.214186191558838,
      "learning_rate": 0.00029804372832520083,
      "loss": 4.4015,
      "step": 26600
    },
    {
      "epoch": 0.0554375,
      "grad_norm": 1.111631155014038,
      "learning_rate": 0.0002980421410068218,
      "loss": 4.0859,
      "step": 26610
    },
    {
      "epoch": 0.05545833333333333,
      "grad_norm": 1.0947954654693604,
      "learning_rate": 0.0002980405530489594,
      "loss": 4.14,
      "step": 26620
    },
    {
      "epoch": 0.05547916666666667,
      "grad_norm": 1.0938329696655273,
      "learning_rate": 0.00029803896445162044,
      "loss": 4.3042,
      "step": 26630
    },
    {
      "epoch": 0.0555,
      "grad_norm": 1.2106481790542603,
      "learning_rate": 0.0002980373752148117,
      "loss": 4.358,
      "step": 26640
    },
    {
      "epoch": 0.05552083333333333,
      "grad_norm": 1.1213027238845825,
      "learning_rate": 0.00029803578533854006,
      "loss": 4.2191,
      "step": 26650
    },
    {
      "epoch": 0.05554166666666667,
      "grad_norm": 1.10463547706604,
      "learning_rate": 0.0002980341948228125,
      "loss": 4.3326,
      "step": 26660
    },
    {
      "epoch": 0.0555625,
      "grad_norm": 1.0815203189849854,
      "learning_rate": 0.00029803260366763573,
      "loss": 4.3034,
      "step": 26670
    },
    {
      "epoch": 0.05558333333333333,
      "grad_norm": 1.0368998050689697,
      "learning_rate": 0.0002980310118730168,
      "loss": 4.2279,
      "step": 26680
    },
    {
      "epoch": 0.05560416666666667,
      "grad_norm": 1.1244332790374756,
      "learning_rate": 0.00029802941943896246,
      "loss": 4.0596,
      "step": 26690
    },
    {
      "epoch": 0.055625,
      "grad_norm": 0.9880200028419495,
      "learning_rate": 0.0002980278263654796,
      "loss": 4.4337,
      "step": 26700
    },
    {
      "epoch": 0.05564583333333333,
      "grad_norm": 1.1386877298355103,
      "learning_rate": 0.0002980262326525751,
      "loss": 4.1366,
      "step": 26710
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 1.0637931823730469,
      "learning_rate": 0.00029802463830025594,
      "loss": 4.3228,
      "step": 26720
    },
    {
      "epoch": 0.0556875,
      "grad_norm": 1.5023367404937744,
      "learning_rate": 0.0002980230433085289,
      "loss": 4.3828,
      "step": 26730
    },
    {
      "epoch": 0.05570833333333333,
      "grad_norm": 0.9684385061264038,
      "learning_rate": 0.0002980214476774009,
      "loss": 4.3432,
      "step": 26740
    },
    {
      "epoch": 0.05572916666666667,
      "grad_norm": 1.0956166982650757,
      "learning_rate": 0.00029801985140687887,
      "loss": 4.232,
      "step": 26750
    },
    {
      "epoch": 0.05575,
      "grad_norm": 1.200665831565857,
      "learning_rate": 0.0002980182544969696,
      "loss": 4.1543,
      "step": 26760
    },
    {
      "epoch": 0.05577083333333333,
      "grad_norm": 1.0987062454223633,
      "learning_rate": 0.0002980166569476801,
      "loss": 4.334,
      "step": 26770
    },
    {
      "epoch": 0.05579166666666667,
      "grad_norm": 1.2782790660858154,
      "learning_rate": 0.00029801505875901724,
      "loss": 4.272,
      "step": 26780
    },
    {
      "epoch": 0.0558125,
      "grad_norm": 0.9808084964752197,
      "learning_rate": 0.0002980134599309879,
      "loss": 4.1198,
      "step": 26790
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 1.016316294670105,
      "learning_rate": 0.000298011860463599,
      "loss": 3.9845,
      "step": 26800
    },
    {
      "epoch": 0.05585416666666667,
      "grad_norm": 1.1634584665298462,
      "learning_rate": 0.00029801026035685747,
      "loss": 4.3331,
      "step": 26810
    },
    {
      "epoch": 0.055875,
      "grad_norm": 0.9243353605270386,
      "learning_rate": 0.0002980086596107702,
      "loss": 4.273,
      "step": 26820
    },
    {
      "epoch": 0.05589583333333333,
      "grad_norm": 1.1655714511871338,
      "learning_rate": 0.0002980070582253441,
      "loss": 4.2678,
      "step": 26830
    },
    {
      "epoch": 0.05591666666666667,
      "grad_norm": 1.0922785997390747,
      "learning_rate": 0.00029800545620058605,
      "loss": 4.2951,
      "step": 26840
    },
    {
      "epoch": 0.0559375,
      "grad_norm": 1.2093422412872314,
      "learning_rate": 0.0002980038535365031,
      "loss": 4.2161,
      "step": 26850
    },
    {
      "epoch": 0.05595833333333333,
      "grad_norm": 1.0877788066864014,
      "learning_rate": 0.00029800225023310205,
      "loss": 4.1946,
      "step": 26860
    },
    {
      "epoch": 0.05597916666666667,
      "grad_norm": 1.1980482339859009,
      "learning_rate": 0.00029800064629038984,
      "loss": 4.2717,
      "step": 26870
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.132562279701233,
      "learning_rate": 0.0002979990417083734,
      "loss": 4.3084,
      "step": 26880
    },
    {
      "epoch": 0.05602083333333333,
      "grad_norm": 1.1852220296859741,
      "learning_rate": 0.00029799743648705975,
      "loss": 4.2305,
      "step": 26890
    },
    {
      "epoch": 0.05604166666666666,
      "grad_norm": 1.0588656663894653,
      "learning_rate": 0.0002979958306264557,
      "loss": 4.4439,
      "step": 26900
    },
    {
      "epoch": 0.0560625,
      "grad_norm": 1.0459994077682495,
      "learning_rate": 0.0002979942241265683,
      "loss": 4.1442,
      "step": 26910
    },
    {
      "epoch": 0.05608333333333333,
      "grad_norm": 1.0072897672653198,
      "learning_rate": 0.0002979926169874044,
      "loss": 4.2886,
      "step": 26920
    },
    {
      "epoch": 0.05610416666666666,
      "grad_norm": 1.0734926462173462,
      "learning_rate": 0.00029799100920897093,
      "loss": 4.2196,
      "step": 26930
    },
    {
      "epoch": 0.056125,
      "grad_norm": 0.9706822037696838,
      "learning_rate": 0.000297989400791275,
      "loss": 4.2498,
      "step": 26940
    },
    {
      "epoch": 0.05614583333333333,
      "grad_norm": 0.9416378140449524,
      "learning_rate": 0.0002979877917343233,
      "loss": 4.2577,
      "step": 26950
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 1.1026164293289185,
      "learning_rate": 0.000297986182038123,
      "loss": 4.1772,
      "step": 26960
    },
    {
      "epoch": 0.0561875,
      "grad_norm": 1.1152572631835938,
      "learning_rate": 0.0002979845717026809,
      "loss": 4.5127,
      "step": 26970
    },
    {
      "epoch": 0.05620833333333333,
      "grad_norm": 0.9984917640686035,
      "learning_rate": 0.0002979829607280041,
      "loss": 4.379,
      "step": 26980
    },
    {
      "epoch": 0.05622916666666666,
      "grad_norm": 1.209177017211914,
      "learning_rate": 0.00029798134911409945,
      "loss": 4.2353,
      "step": 26990
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.9931425452232361,
      "learning_rate": 0.00029797973686097396,
      "loss": 4.2779,
      "step": 27000
    },
    {
      "epoch": 0.05625,
      "eval_loss": 4.054365634918213,
      "eval_runtime": 6.9101,
      "eval_samples_per_second": 1.447,
      "eval_steps_per_second": 0.434,
      "step": 27000
    },
    {
      "epoch": 0.05627083333333333,
      "grad_norm": 1.0318734645843506,
      "learning_rate": 0.0002979781239686346,
      "loss": 4.4429,
      "step": 27010
    },
    {
      "epoch": 0.05629166666666666,
      "grad_norm": 1.072680115699768,
      "learning_rate": 0.00029797651043708825,
      "loss": 4.1225,
      "step": 27020
    },
    {
      "epoch": 0.0563125,
      "grad_norm": 1.0753241777420044,
      "learning_rate": 0.000297974896266342,
      "loss": 4.222,
      "step": 27030
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 1.0794633626937866,
      "learning_rate": 0.00029797328145640277,
      "loss": 4.4645,
      "step": 27040
    },
    {
      "epoch": 0.056354166666666664,
      "grad_norm": 1.011651873588562,
      "learning_rate": 0.00029797166600727755,
      "loss": 4.2615,
      "step": 27050
    },
    {
      "epoch": 0.056375,
      "grad_norm": 1.164546012878418,
      "learning_rate": 0.00029797004991897325,
      "loss": 4.169,
      "step": 27060
    },
    {
      "epoch": 0.05639583333333333,
      "grad_norm": 0.997930645942688,
      "learning_rate": 0.0002979684331914969,
      "loss": 4.3169,
      "step": 27070
    },
    {
      "epoch": 0.056416666666666664,
      "grad_norm": 1.058895230293274,
      "learning_rate": 0.0002979668158248556,
      "loss": 4.2832,
      "step": 27080
    },
    {
      "epoch": 0.0564375,
      "grad_norm": 0.9616237282752991,
      "learning_rate": 0.0002979651978190561,
      "loss": 4.5337,
      "step": 27090
    },
    {
      "epoch": 0.05645833333333333,
      "grad_norm": 1.006879210472107,
      "learning_rate": 0.0002979635791741056,
      "loss": 4.4001,
      "step": 27100
    },
    {
      "epoch": 0.056479166666666664,
      "grad_norm": 1.0088658332824707,
      "learning_rate": 0.00029796195989001097,
      "loss": 4.3333,
      "step": 27110
    },
    {
      "epoch": 0.0565,
      "grad_norm": 1.075856328010559,
      "learning_rate": 0.00029796033996677923,
      "loss": 4.2319,
      "step": 27120
    },
    {
      "epoch": 0.05652083333333333,
      "grad_norm": 1.1852096319198608,
      "learning_rate": 0.0002979587194044174,
      "loss": 4.288,
      "step": 27130
    },
    {
      "epoch": 0.056541666666666664,
      "grad_norm": 1.1498160362243652,
      "learning_rate": 0.00029795709820293245,
      "loss": 4.3418,
      "step": 27140
    },
    {
      "epoch": 0.0565625,
      "grad_norm": 1.117706298828125,
      "learning_rate": 0.0002979554763623314,
      "loss": 4.2535,
      "step": 27150
    },
    {
      "epoch": 0.05658333333333333,
      "grad_norm": 0.9978492259979248,
      "learning_rate": 0.0002979538538826213,
      "loss": 4.3337,
      "step": 27160
    },
    {
      "epoch": 0.056604166666666664,
      "grad_norm": 1.0604523420333862,
      "learning_rate": 0.0002979522307638091,
      "loss": 4.243,
      "step": 27170
    },
    {
      "epoch": 0.056625,
      "grad_norm": 1.0051378011703491,
      "learning_rate": 0.0002979506070059018,
      "loss": 4.2105,
      "step": 27180
    },
    {
      "epoch": 0.05664583333333333,
      "grad_norm": 0.9783139228820801,
      "learning_rate": 0.0002979489826089065,
      "loss": 4.3481,
      "step": 27190
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 1.0340313911437988,
      "learning_rate": 0.0002979473575728301,
      "loss": 4.2453,
      "step": 27200
    },
    {
      "epoch": 0.0566875,
      "grad_norm": 1.0286864042282104,
      "learning_rate": 0.0002979457318976797,
      "loss": 4.3857,
      "step": 27210
    },
    {
      "epoch": 0.05670833333333333,
      "grad_norm": 1.0624918937683105,
      "learning_rate": 0.0002979441055834623,
      "loss": 4.3464,
      "step": 27220
    },
    {
      "epoch": 0.056729166666666664,
      "grad_norm": 1.0676993131637573,
      "learning_rate": 0.0002979424786301849,
      "loss": 4.4981,
      "step": 27230
    },
    {
      "epoch": 0.05675,
      "grad_norm": 1.036961555480957,
      "learning_rate": 0.00029794085103785456,
      "loss": 4.1407,
      "step": 27240
    },
    {
      "epoch": 0.05677083333333333,
      "grad_norm": 1.012920618057251,
      "learning_rate": 0.00029793922280647834,
      "loss": 4.3309,
      "step": 27250
    },
    {
      "epoch": 0.056791666666666664,
      "grad_norm": 1.0218989849090576,
      "learning_rate": 0.00029793759393606316,
      "loss": 4.3277,
      "step": 27260
    },
    {
      "epoch": 0.0568125,
      "grad_norm": 1.0754536390304565,
      "learning_rate": 0.0002979359644266162,
      "loss": 4.381,
      "step": 27270
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 0.998576819896698,
      "learning_rate": 0.0002979343342781444,
      "loss": 4.3082,
      "step": 27280
    },
    {
      "epoch": 0.056854166666666664,
      "grad_norm": 0.985420286655426,
      "learning_rate": 0.00029793270349065483,
      "loss": 4.3379,
      "step": 27290
    },
    {
      "epoch": 0.056875,
      "grad_norm": 1.00070321559906,
      "learning_rate": 0.0002979310720641546,
      "loss": 4.4539,
      "step": 27300
    },
    {
      "epoch": 0.05689583333333333,
      "grad_norm": 1.0027092695236206,
      "learning_rate": 0.00029792943999865063,
      "loss": 4.5093,
      "step": 27310
    },
    {
      "epoch": 0.056916666666666664,
      "grad_norm": 1.203305959701538,
      "learning_rate": 0.00029792780729415006,
      "loss": 4.1942,
      "step": 27320
    },
    {
      "epoch": 0.0569375,
      "grad_norm": 1.160965919494629,
      "learning_rate": 0.00029792617395065987,
      "loss": 4.2051,
      "step": 27330
    },
    {
      "epoch": 0.05695833333333333,
      "grad_norm": 0.9930741190910339,
      "learning_rate": 0.0002979245399681872,
      "loss": 4.2386,
      "step": 27340
    },
    {
      "epoch": 0.056979166666666664,
      "grad_norm": 1.035216212272644,
      "learning_rate": 0.00029792290534673904,
      "loss": 4.2402,
      "step": 27350
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.0565015077590942,
      "learning_rate": 0.00029792127008632254,
      "loss": 4.3807,
      "step": 27360
    },
    {
      "epoch": 0.05702083333333333,
      "grad_norm": 1.2169805765151978,
      "learning_rate": 0.00029791963418694466,
      "loss": 4.3439,
      "step": 27370
    },
    {
      "epoch": 0.057041666666666664,
      "grad_norm": 1.0018423795700073,
      "learning_rate": 0.0002979179976486125,
      "loss": 4.3307,
      "step": 27380
    },
    {
      "epoch": 0.0570625,
      "grad_norm": 1.067327618598938,
      "learning_rate": 0.00029791636047133313,
      "loss": 4.4078,
      "step": 27390
    },
    {
      "epoch": 0.05708333333333333,
      "grad_norm": 1.1079169511795044,
      "learning_rate": 0.00029791472265511374,
      "loss": 4.311,
      "step": 27400
    },
    {
      "epoch": 0.057104166666666664,
      "grad_norm": 1.0409225225448608,
      "learning_rate": 0.00029791308419996115,
      "loss": 4.0846,
      "step": 27410
    },
    {
      "epoch": 0.057125,
      "grad_norm": 1.1511038541793823,
      "learning_rate": 0.0002979114451058827,
      "loss": 4.2706,
      "step": 27420
    },
    {
      "epoch": 0.05714583333333333,
      "grad_norm": 0.9864097237586975,
      "learning_rate": 0.0002979098053728853,
      "loss": 4.3362,
      "step": 27430
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 1.018527626991272,
      "learning_rate": 0.0002979081650009761,
      "loss": 4.2157,
      "step": 27440
    },
    {
      "epoch": 0.0571875,
      "grad_norm": 1.1689749956130981,
      "learning_rate": 0.00029790652399016215,
      "loss": 4.3207,
      "step": 27450
    },
    {
      "epoch": 0.05720833333333333,
      "grad_norm": 1.1671139001846313,
      "learning_rate": 0.0002979048823404506,
      "loss": 4.4303,
      "step": 27460
    },
    {
      "epoch": 0.057229166666666664,
      "grad_norm": 1.0265003442764282,
      "learning_rate": 0.0002979032400518485,
      "loss": 4.5164,
      "step": 27470
    },
    {
      "epoch": 0.05725,
      "grad_norm": 1.071008563041687,
      "learning_rate": 0.0002979015971243629,
      "loss": 4.3881,
      "step": 27480
    },
    {
      "epoch": 0.05727083333333333,
      "grad_norm": 1.0924937725067139,
      "learning_rate": 0.00029789995355800097,
      "loss": 4.4653,
      "step": 27490
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 1.1444863080978394,
      "learning_rate": 0.0002978983093527698,
      "loss": 4.269,
      "step": 27500
    },
    {
      "epoch": 0.0573125,
      "grad_norm": 1.1050662994384766,
      "learning_rate": 0.00029789666450867646,
      "loss": 4.2383,
      "step": 27510
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 0.9974696636199951,
      "learning_rate": 0.0002978950190257281,
      "loss": 4.34,
      "step": 27520
    },
    {
      "epoch": 0.057354166666666664,
      "grad_norm": 1.2540301084518433,
      "learning_rate": 0.0002978933729039318,
      "loss": 4.3982,
      "step": 27530
    },
    {
      "epoch": 0.057375,
      "grad_norm": 1.1052896976470947,
      "learning_rate": 0.0002978917261432946,
      "loss": 4.2186,
      "step": 27540
    },
    {
      "epoch": 0.05739583333333333,
      "grad_norm": 0.9458835124969482,
      "learning_rate": 0.0002978900787438237,
      "loss": 4.5377,
      "step": 27550
    },
    {
      "epoch": 0.057416666666666664,
      "grad_norm": 1.047797441482544,
      "learning_rate": 0.00029788843070552626,
      "loss": 4.4335,
      "step": 27560
    },
    {
      "epoch": 0.0574375,
      "grad_norm": 1.0786895751953125,
      "learning_rate": 0.0002978867820284093,
      "loss": 4.2682,
      "step": 27570
    },
    {
      "epoch": 0.057458333333333333,
      "grad_norm": 1.0877448320388794,
      "learning_rate": 0.00029788513271247996,
      "loss": 4.2567,
      "step": 27580
    },
    {
      "epoch": 0.057479166666666665,
      "grad_norm": 0.9731265902519226,
      "learning_rate": 0.0002978834827577454,
      "loss": 4.4169,
      "step": 27590
    },
    {
      "epoch": 0.0575,
      "grad_norm": 1.2327227592468262,
      "learning_rate": 0.00029788183216421276,
      "loss": 4.2314,
      "step": 27600
    },
    {
      "epoch": 0.057520833333333334,
      "grad_norm": 1.0918974876403809,
      "learning_rate": 0.00029788018093188914,
      "loss": 4.1403,
      "step": 27610
    },
    {
      "epoch": 0.057541666666666665,
      "grad_norm": 1.0157265663146973,
      "learning_rate": 0.00029787852906078163,
      "loss": 4.2054,
      "step": 27620
    },
    {
      "epoch": 0.0575625,
      "grad_norm": 1.044518232345581,
      "learning_rate": 0.00029787687655089744,
      "loss": 4.3484,
      "step": 27630
    },
    {
      "epoch": 0.057583333333333334,
      "grad_norm": 1.117255449295044,
      "learning_rate": 0.00029787522340224366,
      "loss": 4.8212,
      "step": 27640
    },
    {
      "epoch": 0.057604166666666665,
      "grad_norm": 1.1594862937927246,
      "learning_rate": 0.00029787356961482746,
      "loss": 4.2024,
      "step": 27650
    },
    {
      "epoch": 0.057625,
      "grad_norm": 1.0509306192398071,
      "learning_rate": 0.00029787191518865593,
      "loss": 4.1032,
      "step": 27660
    },
    {
      "epoch": 0.057645833333333334,
      "grad_norm": 1.0715360641479492,
      "learning_rate": 0.00029787026012373635,
      "loss": 4.1687,
      "step": 27670
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 0.9568687677383423,
      "learning_rate": 0.00029786860442007574,
      "loss": 4.4474,
      "step": 27680
    },
    {
      "epoch": 0.0576875,
      "grad_norm": 1.1152410507202148,
      "learning_rate": 0.00029786694807768123,
      "loss": 4.2489,
      "step": 27690
    },
    {
      "epoch": 0.057708333333333334,
      "grad_norm": 1.0478107929229736,
      "learning_rate": 0.0002978652910965601,
      "loss": 4.2306,
      "step": 27700
    },
    {
      "epoch": 0.057729166666666665,
      "grad_norm": 1.06206214427948,
      "learning_rate": 0.00029786363347671937,
      "loss": 4.4366,
      "step": 27710
    },
    {
      "epoch": 0.05775,
      "grad_norm": 1.0538252592086792,
      "learning_rate": 0.0002978619752181663,
      "loss": 4.2152,
      "step": 27720
    },
    {
      "epoch": 0.057770833333333334,
      "grad_norm": 1.0832620859146118,
      "learning_rate": 0.00029786031632090805,
      "loss": 4.3402,
      "step": 27730
    },
    {
      "epoch": 0.057791666666666665,
      "grad_norm": 1.0648224353790283,
      "learning_rate": 0.0002978586567849518,
      "loss": 4.3079,
      "step": 27740
    },
    {
      "epoch": 0.0578125,
      "grad_norm": 1.0509229898452759,
      "learning_rate": 0.0002978569966103046,
      "loss": 4.3944,
      "step": 27750
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 1.1435914039611816,
      "learning_rate": 0.00029785533579697375,
      "loss": 4.4,
      "step": 27760
    },
    {
      "epoch": 0.057854166666666665,
      "grad_norm": 1.0539793968200684,
      "learning_rate": 0.00029785367434496636,
      "loss": 4.4132,
      "step": 27770
    },
    {
      "epoch": 0.057875,
      "grad_norm": 1.0719165802001953,
      "learning_rate": 0.00029785201225428963,
      "loss": 4.3189,
      "step": 27780
    },
    {
      "epoch": 0.057895833333333334,
      "grad_norm": 1.0439667701721191,
      "learning_rate": 0.0002978503495249507,
      "loss": 4.3174,
      "step": 27790
    },
    {
      "epoch": 0.057916666666666665,
      "grad_norm": 1.240835189819336,
      "learning_rate": 0.0002978486861569568,
      "loss": 4.6005,
      "step": 27800
    },
    {
      "epoch": 0.0579375,
      "grad_norm": 1.0769439935684204,
      "learning_rate": 0.0002978470221503151,
      "loss": 4.2156,
      "step": 27810
    },
    {
      "epoch": 0.057958333333333334,
      "grad_norm": 1.1801573038101196,
      "learning_rate": 0.0002978453575050328,
      "loss": 4.4009,
      "step": 27820
    },
    {
      "epoch": 0.057979166666666665,
      "grad_norm": 1.0407298803329468,
      "learning_rate": 0.00029784369222111707,
      "loss": 4.2928,
      "step": 27830
    },
    {
      "epoch": 0.058,
      "grad_norm": 1.0758589506149292,
      "learning_rate": 0.0002978420262985751,
      "loss": 4.2874,
      "step": 27840
    },
    {
      "epoch": 0.058020833333333334,
      "grad_norm": 1.055192232131958,
      "learning_rate": 0.00029784035973741413,
      "loss": 4.3778,
      "step": 27850
    },
    {
      "epoch": 0.058041666666666665,
      "grad_norm": 1.0612843036651611,
      "learning_rate": 0.0002978386925376413,
      "loss": 4.3795,
      "step": 27860
    },
    {
      "epoch": 0.0580625,
      "grad_norm": 0.9929527044296265,
      "learning_rate": 0.0002978370246992638,
      "loss": 4.2618,
      "step": 27870
    },
    {
      "epoch": 0.058083333333333334,
      "grad_norm": 1.007045030593872,
      "learning_rate": 0.0002978353562222889,
      "loss": 4.1803,
      "step": 27880
    },
    {
      "epoch": 0.058104166666666665,
      "grad_norm": 1.009108066558838,
      "learning_rate": 0.0002978336871067238,
      "loss": 4.2243,
      "step": 27890
    },
    {
      "epoch": 0.058125,
      "grad_norm": 1.171683430671692,
      "learning_rate": 0.0002978320173525757,
      "loss": 4.1801,
      "step": 27900
    },
    {
      "epoch": 0.058145833333333334,
      "grad_norm": 1.0856688022613525,
      "learning_rate": 0.0002978303469598517,
      "loss": 4.4589,
      "step": 27910
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 1.0942039489746094,
      "learning_rate": 0.00029782867592855925,
      "loss": 4.2994,
      "step": 27920
    },
    {
      "epoch": 0.0581875,
      "grad_norm": 0.9892587065696716,
      "learning_rate": 0.0002978270042587054,
      "loss": 4.1354,
      "step": 27930
    },
    {
      "epoch": 0.058208333333333334,
      "grad_norm": 1.020509123802185,
      "learning_rate": 0.00029782533195029737,
      "loss": 4.1882,
      "step": 27940
    },
    {
      "epoch": 0.058229166666666665,
      "grad_norm": 1.0364348888397217,
      "learning_rate": 0.0002978236590033424,
      "loss": 4.2757,
      "step": 27950
    },
    {
      "epoch": 0.05825,
      "grad_norm": 1.2090225219726562,
      "learning_rate": 0.0002978219854178478,
      "loss": 4.3891,
      "step": 27960
    },
    {
      "epoch": 0.058270833333333334,
      "grad_norm": 1.1900638341903687,
      "learning_rate": 0.0002978203111938207,
      "loss": 4.4451,
      "step": 27970
    },
    {
      "epoch": 0.058291666666666665,
      "grad_norm": 1.1082428693771362,
      "learning_rate": 0.00029781863633126837,
      "loss": 4.2401,
      "step": 27980
    },
    {
      "epoch": 0.0583125,
      "grad_norm": 1.0704470872879028,
      "learning_rate": 0.00029781696083019797,
      "loss": 4.226,
      "step": 27990
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 1.1492444276809692,
      "learning_rate": 0.00029781528469061694,
      "loss": 4.3344,
      "step": 28000
    },
    {
      "epoch": 0.058333333333333334,
      "eval_loss": 4.039856910705566,
      "eval_runtime": 7.3226,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 28000
    },
    {
      "epoch": 0.058354166666666665,
      "grad_norm": 0.9568490386009216,
      "learning_rate": 0.0002978136079125323,
      "loss": 4.25,
      "step": 28010
    },
    {
      "epoch": 0.058375,
      "grad_norm": 1.064300537109375,
      "learning_rate": 0.00029781193049595143,
      "loss": 4.3882,
      "step": 28020
    },
    {
      "epoch": 0.058395833333333334,
      "grad_norm": 1.0013920068740845,
      "learning_rate": 0.0002978102524408815,
      "loss": 4.3215,
      "step": 28030
    },
    {
      "epoch": 0.058416666666666665,
      "grad_norm": 1.0058085918426514,
      "learning_rate": 0.0002978085737473298,
      "loss": 4.2886,
      "step": 28040
    },
    {
      "epoch": 0.0584375,
      "grad_norm": 1.0844557285308838,
      "learning_rate": 0.00029780689441530355,
      "loss": 4.3646,
      "step": 28050
    },
    {
      "epoch": 0.058458333333333334,
      "grad_norm": 0.9412810206413269,
      "learning_rate": 0.00029780521444481,
      "loss": 4.2475,
      "step": 28060
    },
    {
      "epoch": 0.058479166666666665,
      "grad_norm": 1.0012116432189941,
      "learning_rate": 0.0002978035338358565,
      "loss": 4.3548,
      "step": 28070
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.9800397753715515,
      "learning_rate": 0.0002978018525884502,
      "loss": 4.4324,
      "step": 28080
    },
    {
      "epoch": 0.058520833333333334,
      "grad_norm": 1.0809369087219238,
      "learning_rate": 0.0002978001707025984,
      "loss": 4.0913,
      "step": 28090
    },
    {
      "epoch": 0.058541666666666665,
      "grad_norm": 1.050756573677063,
      "learning_rate": 0.0002977984881783084,
      "loss": 4.4981,
      "step": 28100
    },
    {
      "epoch": 0.0585625,
      "grad_norm": 1.044983148574829,
      "learning_rate": 0.00029779680501558736,
      "loss": 4.1648,
      "step": 28110
    },
    {
      "epoch": 0.058583333333333334,
      "grad_norm": 1.0798060894012451,
      "learning_rate": 0.0002977951212144427,
      "loss": 4.3189,
      "step": 28120
    },
    {
      "epoch": 0.058604166666666666,
      "grad_norm": 1.0479414463043213,
      "learning_rate": 0.0002977934367748816,
      "loss": 4.2649,
      "step": 28130
    },
    {
      "epoch": 0.058625,
      "grad_norm": 1.0385816097259521,
      "learning_rate": 0.0002977917516969113,
      "loss": 4.2661,
      "step": 28140
    },
    {
      "epoch": 0.058645833333333335,
      "grad_norm": 1.060145616531372,
      "learning_rate": 0.0002977900659805392,
      "loss": 4.4896,
      "step": 28150
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 0.9419293999671936,
      "learning_rate": 0.0002977883796257725,
      "loss": 4.0358,
      "step": 28160
    },
    {
      "epoch": 0.0586875,
      "grad_norm": 1.037702202796936,
      "learning_rate": 0.00029778669263261844,
      "loss": 4.252,
      "step": 28170
    },
    {
      "epoch": 0.058708333333333335,
      "grad_norm": 1.0338845252990723,
      "learning_rate": 0.0002977850050010844,
      "loss": 4.3311,
      "step": 28180
    },
    {
      "epoch": 0.058729166666666666,
      "grad_norm": 1.035744547843933,
      "learning_rate": 0.00029778331673117767,
      "loss": 4.139,
      "step": 28190
    },
    {
      "epoch": 0.05875,
      "grad_norm": 1.0504767894744873,
      "learning_rate": 0.0002977816278229055,
      "loss": 4.311,
      "step": 28200
    },
    {
      "epoch": 0.058770833333333335,
      "grad_norm": 1.104554533958435,
      "learning_rate": 0.00029777993827627517,
      "loss": 4.3706,
      "step": 28210
    },
    {
      "epoch": 0.058791666666666666,
      "grad_norm": 1.139845609664917,
      "learning_rate": 0.000297778248091294,
      "loss": 4.3589,
      "step": 28220
    },
    {
      "epoch": 0.0588125,
      "grad_norm": 1.0015732049942017,
      "learning_rate": 0.0002977765572679693,
      "loss": 4.2177,
      "step": 28230
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 0.9342529773712158,
      "learning_rate": 0.0002977748658063084,
      "loss": 4.3648,
      "step": 28240
    },
    {
      "epoch": 0.058854166666666666,
      "grad_norm": 1.0051101446151733,
      "learning_rate": 0.0002977731737063185,
      "loss": 4.2283,
      "step": 28250
    },
    {
      "epoch": 0.058875,
      "grad_norm": 1.002814531326294,
      "learning_rate": 0.00029777148096800707,
      "loss": 4.2727,
      "step": 28260
    },
    {
      "epoch": 0.058895833333333335,
      "grad_norm": 1.037973165512085,
      "learning_rate": 0.00029776978759138125,
      "loss": 4.33,
      "step": 28270
    },
    {
      "epoch": 0.058916666666666666,
      "grad_norm": 0.9918861985206604,
      "learning_rate": 0.0002977680935764485,
      "loss": 4.2504,
      "step": 28280
    },
    {
      "epoch": 0.0589375,
      "grad_norm": 1.0797966718673706,
      "learning_rate": 0.00029776639892321606,
      "loss": 4.3895,
      "step": 28290
    },
    {
      "epoch": 0.058958333333333335,
      "grad_norm": 0.9524128437042236,
      "learning_rate": 0.0002977647036316913,
      "loss": 4.3823,
      "step": 28300
    },
    {
      "epoch": 0.058979166666666666,
      "grad_norm": 0.9856052994728088,
      "learning_rate": 0.00029776300770188144,
      "loss": 4.3778,
      "step": 28310
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.9638329744338989,
      "learning_rate": 0.00029776131113379387,
      "loss": 4.2086,
      "step": 28320
    },
    {
      "epoch": 0.059020833333333335,
      "grad_norm": 1.1865100860595703,
      "learning_rate": 0.000297759613927436,
      "loss": 4.2558,
      "step": 28330
    },
    {
      "epoch": 0.059041666666666666,
      "grad_norm": 1.0246227979660034,
      "learning_rate": 0.000297757916082815,
      "loss": 4.0924,
      "step": 28340
    },
    {
      "epoch": 0.0590625,
      "grad_norm": 1.0864527225494385,
      "learning_rate": 0.0002977562175999384,
      "loss": 4.0701,
      "step": 28350
    },
    {
      "epoch": 0.059083333333333335,
      "grad_norm": 2.2653560638427734,
      "learning_rate": 0.00029775451847881333,
      "loss": 4.3549,
      "step": 28360
    },
    {
      "epoch": 0.059104166666666666,
      "grad_norm": 1.0903077125549316,
      "learning_rate": 0.00029775281871944725,
      "loss": 4.486,
      "step": 28370
    },
    {
      "epoch": 0.059125,
      "grad_norm": 1.1218221187591553,
      "learning_rate": 0.0002977511183218475,
      "loss": 4.4115,
      "step": 28380
    },
    {
      "epoch": 0.059145833333333335,
      "grad_norm": 1.2778666019439697,
      "learning_rate": 0.00029774941728602137,
      "loss": 4.2419,
      "step": 28390
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 1.1884628534317017,
      "learning_rate": 0.00029774771561197626,
      "loss": 4.3142,
      "step": 28400
    },
    {
      "epoch": 0.0591875,
      "grad_norm": 1.1588014364242554,
      "learning_rate": 0.0002977460132997195,
      "loss": 4.354,
      "step": 28410
    },
    {
      "epoch": 0.059208333333333335,
      "grad_norm": 1.0473603010177612,
      "learning_rate": 0.00029774431034925846,
      "loss": 4.2251,
      "step": 28420
    },
    {
      "epoch": 0.059229166666666666,
      "grad_norm": 1.0054434537887573,
      "learning_rate": 0.00029774260676060046,
      "loss": 4.267,
      "step": 28430
    },
    {
      "epoch": 0.05925,
      "grad_norm": 1.144573450088501,
      "learning_rate": 0.00029774090253375287,
      "loss": 4.174,
      "step": 28440
    },
    {
      "epoch": 0.059270833333333335,
      "grad_norm": 1.050445318222046,
      "learning_rate": 0.00029773919766872307,
      "loss": 4.2203,
      "step": 28450
    },
    {
      "epoch": 0.059291666666666666,
      "grad_norm": 1.0815575122833252,
      "learning_rate": 0.0002977374921655184,
      "loss": 4.1352,
      "step": 28460
    },
    {
      "epoch": 0.0593125,
      "grad_norm": 1.0843786001205444,
      "learning_rate": 0.0002977357860241463,
      "loss": 4.2702,
      "step": 28470
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 1.0471571683883667,
      "learning_rate": 0.00029773407924461404,
      "loss": 4.2051,
      "step": 28480
    },
    {
      "epoch": 0.059354166666666666,
      "grad_norm": 1.092056155204773,
      "learning_rate": 0.00029773237182692904,
      "loss": 4.3506,
      "step": 28490
    },
    {
      "epoch": 0.059375,
      "grad_norm": 1.246960997581482,
      "learning_rate": 0.0002977306637710987,
      "loss": 4.4609,
      "step": 28500
    },
    {
      "epoch": 0.059395833333333335,
      "grad_norm": 0.9840316772460938,
      "learning_rate": 0.0002977289550771303,
      "loss": 4.3089,
      "step": 28510
    },
    {
      "epoch": 0.059416666666666666,
      "grad_norm": 0.9870765805244446,
      "learning_rate": 0.00029772724574503133,
      "loss": 4.5201,
      "step": 28520
    },
    {
      "epoch": 0.0594375,
      "grad_norm": 0.9874989986419678,
      "learning_rate": 0.00029772553577480916,
      "loss": 4.1679,
      "step": 28530
    },
    {
      "epoch": 0.059458333333333335,
      "grad_norm": 0.9633799195289612,
      "learning_rate": 0.0002977238251664711,
      "loss": 4.2701,
      "step": 28540
    },
    {
      "epoch": 0.059479166666666666,
      "grad_norm": 0.9936612844467163,
      "learning_rate": 0.0002977221139200246,
      "loss": 4.177,
      "step": 28550
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.9767361283302307,
      "learning_rate": 0.0002977204020354771,
      "loss": 4.5014,
      "step": 28560
    },
    {
      "epoch": 0.059520833333333335,
      "grad_norm": 1.0399287939071655,
      "learning_rate": 0.00029771868951283586,
      "loss": 4.4329,
      "step": 28570
    },
    {
      "epoch": 0.059541666666666666,
      "grad_norm": 1.4756405353546143,
      "learning_rate": 0.0002977169763521084,
      "loss": 4.116,
      "step": 28580
    },
    {
      "epoch": 0.0595625,
      "grad_norm": 0.9939810633659363,
      "learning_rate": 0.000297715262553302,
      "loss": 4.3189,
      "step": 28590
    },
    {
      "epoch": 0.059583333333333335,
      "grad_norm": 0.9996032118797302,
      "learning_rate": 0.00029771354811642417,
      "loss": 4.2857,
      "step": 28600
    },
    {
      "epoch": 0.059604166666666666,
      "grad_norm": 1.088449478149414,
      "learning_rate": 0.0002977118330414823,
      "loss": 4.0882,
      "step": 28610
    },
    {
      "epoch": 0.059625,
      "grad_norm": 0.9830899834632874,
      "learning_rate": 0.0002977101173284838,
      "loss": 4.3214,
      "step": 28620
    },
    {
      "epoch": 0.059645833333333335,
      "grad_norm": 0.9969906210899353,
      "learning_rate": 0.000297708400977436,
      "loss": 4.1718,
      "step": 28630
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 1.1544523239135742,
      "learning_rate": 0.00029770668398834644,
      "loss": 4.4382,
      "step": 28640
    },
    {
      "epoch": 0.0596875,
      "grad_norm": 1.0046751499176025,
      "learning_rate": 0.0002977049663612224,
      "loss": 4.2592,
      "step": 28650
    },
    {
      "epoch": 0.059708333333333335,
      "grad_norm": 1.0971949100494385,
      "learning_rate": 0.0002977032480960715,
      "loss": 4.2558,
      "step": 28660
    },
    {
      "epoch": 0.059729166666666667,
      "grad_norm": 0.979630708694458,
      "learning_rate": 0.0002977015291929009,
      "loss": 4.2489,
      "step": 28670
    },
    {
      "epoch": 0.05975,
      "grad_norm": 1.0413362979888916,
      "learning_rate": 0.00029769980965171824,
      "loss": 4.3135,
      "step": 28680
    },
    {
      "epoch": 0.059770833333333336,
      "grad_norm": 1.1293140649795532,
      "learning_rate": 0.0002976980894725308,
      "loss": 4.2664,
      "step": 28690
    },
    {
      "epoch": 0.05979166666666667,
      "grad_norm": 1.0535799264907837,
      "learning_rate": 0.0002976963686553461,
      "loss": 4.2286,
      "step": 28700
    },
    {
      "epoch": 0.0598125,
      "grad_norm": 1.1121015548706055,
      "learning_rate": 0.0002976946472001716,
      "loss": 4.2056,
      "step": 28710
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 1.073880672454834,
      "learning_rate": 0.0002976929251070146,
      "loss": 4.3219,
      "step": 28720
    },
    {
      "epoch": 0.05985416666666667,
      "grad_norm": 0.909011960029602,
      "learning_rate": 0.0002976912023758827,
      "loss": 4.3952,
      "step": 28730
    },
    {
      "epoch": 0.059875,
      "grad_norm": 1.0164761543273926,
      "learning_rate": 0.0002976894790067832,
      "loss": 4.143,
      "step": 28740
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 1.0621311664581299,
      "learning_rate": 0.00029768775499972364,
      "loss": 4.5239,
      "step": 28750
    },
    {
      "epoch": 0.05991666666666667,
      "grad_norm": 1.1195690631866455,
      "learning_rate": 0.0002976860303547114,
      "loss": 4.491,
      "step": 28760
    },
    {
      "epoch": 0.0599375,
      "grad_norm": 0.9633212089538574,
      "learning_rate": 0.00029768430507175404,
      "loss": 4.3815,
      "step": 28770
    },
    {
      "epoch": 0.059958333333333336,
      "grad_norm": 1.026846170425415,
      "learning_rate": 0.0002976825791508589,
      "loss": 4.33,
      "step": 28780
    },
    {
      "epoch": 0.05997916666666667,
      "grad_norm": 0.984527587890625,
      "learning_rate": 0.00029768085259203347,
      "loss": 4.2109,
      "step": 28790
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.068698763847351,
      "learning_rate": 0.00029767912539528527,
      "loss": 4.223,
      "step": 28800
    },
    {
      "epoch": 0.060020833333333336,
      "grad_norm": 1.1041549444198608,
      "learning_rate": 0.0002976773975606216,
      "loss": 4.2979,
      "step": 28810
    },
    {
      "epoch": 0.06004166666666667,
      "grad_norm": 1.2517602443695068,
      "learning_rate": 0.0002976756690880501,
      "loss": 4.2777,
      "step": 28820
    },
    {
      "epoch": 0.0600625,
      "grad_norm": 1.0187485218048096,
      "learning_rate": 0.0002976739399775782,
      "loss": 4.2706,
      "step": 28830
    },
    {
      "epoch": 0.060083333333333336,
      "grad_norm": 1.0712320804595947,
      "learning_rate": 0.00029767221022921323,
      "loss": 4.3863,
      "step": 28840
    },
    {
      "epoch": 0.06010416666666667,
      "grad_norm": 1.1603938341140747,
      "learning_rate": 0.0002976704798429629,
      "loss": 4.37,
      "step": 28850
    },
    {
      "epoch": 0.060125,
      "grad_norm": 1.089718222618103,
      "learning_rate": 0.0002976687488188344,
      "loss": 4.0137,
      "step": 28860
    },
    {
      "epoch": 0.060145833333333336,
      "grad_norm": 0.982774555683136,
      "learning_rate": 0.0002976670171568354,
      "loss": 4.3208,
      "step": 28870
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 0.9759204387664795,
      "learning_rate": 0.0002976652848569734,
      "loss": 4.4193,
      "step": 28880
    },
    {
      "epoch": 0.0601875,
      "grad_norm": 1.022811770439148,
      "learning_rate": 0.0002976635519192557,
      "loss": 4.5074,
      "step": 28890
    },
    {
      "epoch": 0.060208333333333336,
      "grad_norm": 1.187375545501709,
      "learning_rate": 0.0002976618183436901,
      "loss": 4.2261,
      "step": 28900
    },
    {
      "epoch": 0.06022916666666667,
      "grad_norm": 1.08647882938385,
      "learning_rate": 0.0002976600841302837,
      "loss": 4.3825,
      "step": 28910
    },
    {
      "epoch": 0.06025,
      "grad_norm": 1.0491136312484741,
      "learning_rate": 0.0002976583492790443,
      "loss": 4.1154,
      "step": 28920
    },
    {
      "epoch": 0.060270833333333336,
      "grad_norm": 1.0489537715911865,
      "learning_rate": 0.0002976566137899792,
      "loss": 4.4361,
      "step": 28930
    },
    {
      "epoch": 0.06029166666666667,
      "grad_norm": 1.0196253061294556,
      "learning_rate": 0.00029765487766309607,
      "loss": 4.272,
      "step": 28940
    },
    {
      "epoch": 0.0603125,
      "grad_norm": 1.0923774242401123,
      "learning_rate": 0.00029765314089840226,
      "loss": 4.4033,
      "step": 28950
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 1.0010478496551514,
      "learning_rate": 0.00029765140349590527,
      "loss": 4.2859,
      "step": 28960
    },
    {
      "epoch": 0.06035416666666667,
      "grad_norm": 1.144752025604248,
      "learning_rate": 0.00029764966545561274,
      "loss": 4.4035,
      "step": 28970
    },
    {
      "epoch": 0.060375,
      "grad_norm": 1.0333884954452515,
      "learning_rate": 0.00029764792677753206,
      "loss": 4.1524,
      "step": 28980
    },
    {
      "epoch": 0.060395833333333336,
      "grad_norm": 1.1953399181365967,
      "learning_rate": 0.0002976461874616708,
      "loss": 4.2332,
      "step": 28990
    },
    {
      "epoch": 0.06041666666666667,
      "grad_norm": 1.134194016456604,
      "learning_rate": 0.00029764444750803644,
      "loss": 4.322,
      "step": 29000
    },
    {
      "epoch": 0.06041666666666667,
      "eval_loss": 4.041801452636719,
      "eval_runtime": 6.9088,
      "eval_samples_per_second": 1.447,
      "eval_steps_per_second": 0.434,
      "step": 29000
    },
    {
      "epoch": 0.0604375,
      "grad_norm": 1.036934733390808,
      "learning_rate": 0.00029764270691663654,
      "loss": 4.1855,
      "step": 29010
    },
    {
      "epoch": 0.060458333333333336,
      "grad_norm": 1.0077029466629028,
      "learning_rate": 0.00029764096568747855,
      "loss": 4.1698,
      "step": 29020
    },
    {
      "epoch": 0.06047916666666667,
      "grad_norm": 0.9840005040168762,
      "learning_rate": 0.00029763922382057003,
      "loss": 4.2357,
      "step": 29030
    },
    {
      "epoch": 0.0605,
      "grad_norm": 1.0267773866653442,
      "learning_rate": 0.00029763748131591855,
      "loss": 4.1241,
      "step": 29040
    },
    {
      "epoch": 0.060520833333333336,
      "grad_norm": 1.0021023750305176,
      "learning_rate": 0.00029763573817353156,
      "loss": 4.3502,
      "step": 29050
    },
    {
      "epoch": 0.06054166666666667,
      "grad_norm": 1.2099833488464355,
      "learning_rate": 0.0002976339943934166,
      "loss": 4.3358,
      "step": 29060
    },
    {
      "epoch": 0.0605625,
      "grad_norm": 0.9240827560424805,
      "learning_rate": 0.00029763224997558124,
      "loss": 4.3451,
      "step": 29070
    },
    {
      "epoch": 0.060583333333333336,
      "grad_norm": 1.0724799633026123,
      "learning_rate": 0.00029763050492003293,
      "loss": 4.1758,
      "step": 29080
    },
    {
      "epoch": 0.06060416666666667,
      "grad_norm": 1.072257399559021,
      "learning_rate": 0.0002976287592267794,
      "loss": 4.128,
      "step": 29090
    },
    {
      "epoch": 0.060625,
      "grad_norm": 1.0066885948181152,
      "learning_rate": 0.000297627012895828,
      "loss": 4.5675,
      "step": 29100
    },
    {
      "epoch": 0.060645833333333336,
      "grad_norm": 1.125133752822876,
      "learning_rate": 0.00029762526592718634,
      "loss": 4.2785,
      "step": 29110
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 1.0186656713485718,
      "learning_rate": 0.00029762351832086193,
      "loss": 4.2677,
      "step": 29120
    },
    {
      "epoch": 0.0606875,
      "grad_norm": 1.0841991901397705,
      "learning_rate": 0.00029762177007686244,
      "loss": 4.1569,
      "step": 29130
    },
    {
      "epoch": 0.060708333333333336,
      "grad_norm": 0.9588190317153931,
      "learning_rate": 0.00029762002119519524,
      "loss": 4.2316,
      "step": 29140
    },
    {
      "epoch": 0.06072916666666667,
      "grad_norm": 1.0216996669769287,
      "learning_rate": 0.00029761827167586804,
      "loss": 4.4512,
      "step": 29150
    },
    {
      "epoch": 0.06075,
      "grad_norm": 1.2033663988113403,
      "learning_rate": 0.00029761652151888835,
      "loss": 4.2703,
      "step": 29160
    },
    {
      "epoch": 0.060770833333333336,
      "grad_norm": 1.0011197328567505,
      "learning_rate": 0.0002976147707242637,
      "loss": 4.3547,
      "step": 29170
    },
    {
      "epoch": 0.06079166666666667,
      "grad_norm": 1.0526342391967773,
      "learning_rate": 0.00029761301929200166,
      "loss": 4.2014,
      "step": 29180
    },
    {
      "epoch": 0.0608125,
      "grad_norm": 0.9636607766151428,
      "learning_rate": 0.0002976112672221098,
      "loss": 4.19,
      "step": 29190
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 1.0307891368865967,
      "learning_rate": 0.0002976095145145957,
      "loss": 4.2276,
      "step": 29200
    },
    {
      "epoch": 0.06085416666666667,
      "grad_norm": 1.0096642971038818,
      "learning_rate": 0.00029760776116946695,
      "loss": 4.3049,
      "step": 29210
    },
    {
      "epoch": 0.060875,
      "grad_norm": 1.0661240816116333,
      "learning_rate": 0.00029760600718673104,
      "loss": 4.3235,
      "step": 29220
    },
    {
      "epoch": 0.06089583333333334,
      "grad_norm": 1.0863878726959229,
      "learning_rate": 0.0002976042525663957,
      "loss": 4.3471,
      "step": 29230
    },
    {
      "epoch": 0.06091666666666667,
      "grad_norm": 0.981843113899231,
      "learning_rate": 0.00029760249730846833,
      "loss": 4.0931,
      "step": 29240
    },
    {
      "epoch": 0.0609375,
      "grad_norm": 1.0815402269363403,
      "learning_rate": 0.0002976007414129566,
      "loss": 4.1547,
      "step": 29250
    },
    {
      "epoch": 0.06095833333333334,
      "grad_norm": 1.084571123123169,
      "learning_rate": 0.00029759898487986814,
      "loss": 4.2357,
      "step": 29260
    },
    {
      "epoch": 0.06097916666666667,
      "grad_norm": 1.0285530090332031,
      "learning_rate": 0.00029759722770921046,
      "loss": 4.3264,
      "step": 29270
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.9194719195365906,
      "learning_rate": 0.00029759546990099116,
      "loss": 4.3056,
      "step": 29280
    },
    {
      "epoch": 0.06102083333333334,
      "grad_norm": 0.9340645670890808,
      "learning_rate": 0.0002975937114552179,
      "loss": 4.2325,
      "step": 29290
    },
    {
      "epoch": 0.06104166666666667,
      "grad_norm": 0.9942709803581238,
      "learning_rate": 0.0002975919523718982,
      "loss": 4.3519,
      "step": 29300
    },
    {
      "epoch": 0.0610625,
      "grad_norm": 1.0676414966583252,
      "learning_rate": 0.0002975901926510397,
      "loss": 4.0942,
      "step": 29310
    },
    {
      "epoch": 0.06108333333333334,
      "grad_norm": 1.0529727935791016,
      "learning_rate": 0.00029758843229264997,
      "loss": 4.4001,
      "step": 29320
    },
    {
      "epoch": 0.06110416666666667,
      "grad_norm": 0.9622189402580261,
      "learning_rate": 0.00029758667129673664,
      "loss": 4.2986,
      "step": 29330
    },
    {
      "epoch": 0.061125,
      "grad_norm": 1.071096658706665,
      "learning_rate": 0.00029758490966330734,
      "loss": 4.4073,
      "step": 29340
    },
    {
      "epoch": 0.06114583333333334,
      "grad_norm": 1.0434619188308716,
      "learning_rate": 0.0002975831473923696,
      "loss": 4.2929,
      "step": 29350
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 1.0519429445266724,
      "learning_rate": 0.0002975813844839311,
      "loss": 4.2975,
      "step": 29360
    },
    {
      "epoch": 0.0611875,
      "grad_norm": 1.1104049682617188,
      "learning_rate": 0.00029757962093799944,
      "loss": 4.4272,
      "step": 29370
    },
    {
      "epoch": 0.06120833333333333,
      "grad_norm": 0.9679021835327148,
      "learning_rate": 0.00029757785675458225,
      "loss": 4.3354,
      "step": 29380
    },
    {
      "epoch": 0.06122916666666667,
      "grad_norm": 0.9621496796607971,
      "learning_rate": 0.0002975760919336871,
      "loss": 4.2535,
      "step": 29390
    },
    {
      "epoch": 0.06125,
      "grad_norm": 1.1286534070968628,
      "learning_rate": 0.00029757432647532165,
      "loss": 4.2001,
      "step": 29400
    },
    {
      "epoch": 0.06127083333333333,
      "grad_norm": 1.0331525802612305,
      "learning_rate": 0.00029757256037949353,
      "loss": 4.2834,
      "step": 29410
    },
    {
      "epoch": 0.06129166666666667,
      "grad_norm": 1.0714726448059082,
      "learning_rate": 0.00029757079364621037,
      "loss": 4.337,
      "step": 29420
    },
    {
      "epoch": 0.0613125,
      "grad_norm": 1.037338376045227,
      "learning_rate": 0.0002975690262754798,
      "loss": 4.2348,
      "step": 29430
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 1.1835342645645142,
      "learning_rate": 0.00029756725826730944,
      "loss": 4.2589,
      "step": 29440
    },
    {
      "epoch": 0.06135416666666667,
      "grad_norm": 0.9811539649963379,
      "learning_rate": 0.0002975654896217069,
      "loss": 4.2286,
      "step": 29450
    },
    {
      "epoch": 0.061375,
      "grad_norm": 0.9599482417106628,
      "learning_rate": 0.0002975637203386799,
      "loss": 4.202,
      "step": 29460
    },
    {
      "epoch": 0.06139583333333333,
      "grad_norm": 1.0982712507247925,
      "learning_rate": 0.00029756195041823603,
      "loss": 4.4722,
      "step": 29470
    },
    {
      "epoch": 0.06141666666666667,
      "grad_norm": 1.251572608947754,
      "learning_rate": 0.000297560179860383,
      "loss": 4.5897,
      "step": 29480
    },
    {
      "epoch": 0.0614375,
      "grad_norm": 0.992122232913971,
      "learning_rate": 0.0002975584086651283,
      "loss": 4.3705,
      "step": 29490
    },
    {
      "epoch": 0.06145833333333333,
      "grad_norm": 0.9637029767036438,
      "learning_rate": 0.00029755663683247974,
      "loss": 4.3613,
      "step": 29500
    },
    {
      "epoch": 0.06147916666666667,
      "grad_norm": 1.04891037940979,
      "learning_rate": 0.0002975548643624449,
      "loss": 4.4574,
      "step": 29510
    },
    {
      "epoch": 0.0615,
      "grad_norm": 1.0364751815795898,
      "learning_rate": 0.00029755309125503146,
      "loss": 4.3196,
      "step": 29520
    },
    {
      "epoch": 0.06152083333333333,
      "grad_norm": 1.0409491062164307,
      "learning_rate": 0.00029755131751024706,
      "loss": 3.9704,
      "step": 29530
    },
    {
      "epoch": 0.06154166666666667,
      "grad_norm": 1.0449986457824707,
      "learning_rate": 0.0002975495431280994,
      "loss": 4.4236,
      "step": 29540
    },
    {
      "epoch": 0.0615625,
      "grad_norm": 1.0222264528274536,
      "learning_rate": 0.0002975477681085961,
      "loss": 4.3887,
      "step": 29550
    },
    {
      "epoch": 0.06158333333333333,
      "grad_norm": 1.0003118515014648,
      "learning_rate": 0.0002975459924517448,
      "loss": 4.2682,
      "step": 29560
    },
    {
      "epoch": 0.06160416666666667,
      "grad_norm": 1.098703384399414,
      "learning_rate": 0.00029754421615755324,
      "loss": 4.257,
      "step": 29570
    },
    {
      "epoch": 0.061625,
      "grad_norm": 0.9924625158309937,
      "learning_rate": 0.0002975424392260291,
      "loss": 4.2771,
      "step": 29580
    },
    {
      "epoch": 0.06164583333333333,
      "grad_norm": 1.0560368299484253,
      "learning_rate": 0.00029754066165718,
      "loss": 4.4461,
      "step": 29590
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 1.0596567392349243,
      "learning_rate": 0.0002975388834510137,
      "loss": 4.4807,
      "step": 29600
    },
    {
      "epoch": 0.0616875,
      "grad_norm": 1.0346293449401855,
      "learning_rate": 0.00029753710460753775,
      "loss": 4.3645,
      "step": 29610
    },
    {
      "epoch": 0.06170833333333333,
      "grad_norm": 0.9972327351570129,
      "learning_rate": 0.0002975353251267599,
      "loss": 4.4387,
      "step": 29620
    },
    {
      "epoch": 0.06172916666666667,
      "grad_norm": 1.0291041135787964,
      "learning_rate": 0.0002975335450086879,
      "loss": 4.3368,
      "step": 29630
    },
    {
      "epoch": 0.06175,
      "grad_norm": 0.9616496562957764,
      "learning_rate": 0.00029753176425332937,
      "loss": 4.4346,
      "step": 29640
    },
    {
      "epoch": 0.06177083333333333,
      "grad_norm": 1.009486436843872,
      "learning_rate": 0.000297529982860692,
      "loss": 4.1815,
      "step": 29650
    },
    {
      "epoch": 0.06179166666666667,
      "grad_norm": 1.0582457780838013,
      "learning_rate": 0.0002975282008307835,
      "loss": 4.4199,
      "step": 29660
    },
    {
      "epoch": 0.0618125,
      "grad_norm": 0.9578098654747009,
      "learning_rate": 0.00029752641816361154,
      "loss": 4.3419,
      "step": 29670
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 1.1242990493774414,
      "learning_rate": 0.0002975246348591839,
      "loss": 4.3205,
      "step": 29680
    },
    {
      "epoch": 0.06185416666666667,
      "grad_norm": 1.0678808689117432,
      "learning_rate": 0.00029752285091750826,
      "loss": 4.4058,
      "step": 29690
    },
    {
      "epoch": 0.061875,
      "grad_norm": 1.0583688020706177,
      "learning_rate": 0.0002975210663385922,
      "loss": 4.3621,
      "step": 29700
    },
    {
      "epoch": 0.06189583333333333,
      "grad_norm": 1.0711681842803955,
      "learning_rate": 0.0002975192811224436,
      "loss": 4.2637,
      "step": 29710
    },
    {
      "epoch": 0.06191666666666667,
      "grad_norm": 1.0479875802993774,
      "learning_rate": 0.0002975174952690701,
      "loss": 4.2981,
      "step": 29720
    },
    {
      "epoch": 0.0619375,
      "grad_norm": 1.0761959552764893,
      "learning_rate": 0.00029751570877847936,
      "loss": 4.2067,
      "step": 29730
    },
    {
      "epoch": 0.06195833333333333,
      "grad_norm": 1.010614037513733,
      "learning_rate": 0.0002975139216506792,
      "loss": 4.2979,
      "step": 29740
    },
    {
      "epoch": 0.06197916666666667,
      "grad_norm": 0.9332515001296997,
      "learning_rate": 0.0002975121338856773,
      "loss": 4.2104,
      "step": 29750
    },
    {
      "epoch": 0.062,
      "grad_norm": 1.0606261491775513,
      "learning_rate": 0.00029751034548348125,
      "loss": 4.4172,
      "step": 29760
    },
    {
      "epoch": 0.06202083333333333,
      "grad_norm": 1.03465735912323,
      "learning_rate": 0.000297508556444099,
      "loss": 4.4127,
      "step": 29770
    },
    {
      "epoch": 0.06204166666666667,
      "grad_norm": 0.909885585308075,
      "learning_rate": 0.00029750676676753814,
      "loss": 4.2621,
      "step": 29780
    },
    {
      "epoch": 0.0620625,
      "grad_norm": 1.0362036228179932,
      "learning_rate": 0.0002975049764538065,
      "loss": 4.2189,
      "step": 29790
    },
    {
      "epoch": 0.06208333333333333,
      "grad_norm": 0.9900320768356323,
      "learning_rate": 0.0002975031855029117,
      "loss": 4.2079,
      "step": 29800
    },
    {
      "epoch": 0.06210416666666667,
      "grad_norm": 1.0495548248291016,
      "learning_rate": 0.00029750139391486154,
      "loss": 4.1614,
      "step": 29810
    },
    {
      "epoch": 0.062125,
      "grad_norm": 0.8982890844345093,
      "learning_rate": 0.00029749960168966365,
      "loss": 4.3608,
      "step": 29820
    },
    {
      "epoch": 0.06214583333333333,
      "grad_norm": 1.1296982765197754,
      "learning_rate": 0.000297497808827326,
      "loss": 4.3802,
      "step": 29830
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 0.96661376953125,
      "learning_rate": 0.00029749601532785613,
      "loss": 4.2752,
      "step": 29840
    },
    {
      "epoch": 0.0621875,
      "grad_norm": 1.013647198677063,
      "learning_rate": 0.00029749422119126185,
      "loss": 4.4318,
      "step": 29850
    },
    {
      "epoch": 0.06220833333333333,
      "grad_norm": 1.1422759294509888,
      "learning_rate": 0.00029749242641755096,
      "loss": 4.3433,
      "step": 29860
    },
    {
      "epoch": 0.06222916666666667,
      "grad_norm": 1.0450822114944458,
      "learning_rate": 0.0002974906310067311,
      "loss": 4.3502,
      "step": 29870
    },
    {
      "epoch": 0.06225,
      "grad_norm": 1.1171534061431885,
      "learning_rate": 0.0002974888349588102,
      "loss": 4.2732,
      "step": 29880
    },
    {
      "epoch": 0.06227083333333333,
      "grad_norm": 1.0955744981765747,
      "learning_rate": 0.00029748703827379584,
      "loss": 4.0466,
      "step": 29890
    },
    {
      "epoch": 0.06229166666666667,
      "grad_norm": 1.00348699092865,
      "learning_rate": 0.0002974852409516958,
      "loss": 4.2539,
      "step": 29900
    },
    {
      "epoch": 0.0623125,
      "grad_norm": 0.9867567420005798,
      "learning_rate": 0.000297483442992518,
      "loss": 4.2799,
      "step": 29910
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 1.4043208360671997,
      "learning_rate": 0.00029748164439627006,
      "loss": 4.2946,
      "step": 29920
    },
    {
      "epoch": 0.06235416666666667,
      "grad_norm": 0.9573098421096802,
      "learning_rate": 0.0002974798451629598,
      "loss": 4.2958,
      "step": 29930
    },
    {
      "epoch": 0.062375,
      "grad_norm": 1.0486446619033813,
      "learning_rate": 0.00029747804529259503,
      "loss": 4.2887,
      "step": 29940
    },
    {
      "epoch": 0.06239583333333333,
      "grad_norm": 1.056549072265625,
      "learning_rate": 0.0002974762447851834,
      "loss": 4.3661,
      "step": 29950
    },
    {
      "epoch": 0.06241666666666667,
      "grad_norm": 1.043856143951416,
      "learning_rate": 0.0002974744436407328,
      "loss": 4.2368,
      "step": 29960
    },
    {
      "epoch": 0.0624375,
      "grad_norm": 1.0575357675552368,
      "learning_rate": 0.00029747264185925104,
      "loss": 4.2317,
      "step": 29970
    },
    {
      "epoch": 0.06245833333333333,
      "grad_norm": 0.9901827573776245,
      "learning_rate": 0.0002974708394407458,
      "loss": 4.3202,
      "step": 29980
    },
    {
      "epoch": 0.06247916666666667,
      "grad_norm": 1.121383547782898,
      "learning_rate": 0.0002974690363852248,
      "loss": 4.2646,
      "step": 29990
    },
    {
      "epoch": 0.0625,
      "grad_norm": 1.0420339107513428,
      "learning_rate": 0.0002974672326926961,
      "loss": 4.1958,
      "step": 30000
    },
    {
      "epoch": 0.0625,
      "eval_loss": 4.025182723999023,
      "eval_runtime": 6.8553,
      "eval_samples_per_second": 1.459,
      "eval_steps_per_second": 0.438,
      "step": 30000
    },
    {
      "epoch": 0.06252083333333333,
      "grad_norm": 0.9764193296432495,
      "learning_rate": 0.0002974654283631672,
      "loss": 4.0992,
      "step": 30010
    },
    {
      "epoch": 0.06254166666666666,
      "grad_norm": 0.9629436135292053,
      "learning_rate": 0.00029746362339664613,
      "loss": 4.2598,
      "step": 30020
    },
    {
      "epoch": 0.0625625,
      "grad_norm": 0.9491450786590576,
      "learning_rate": 0.00029746181779314045,
      "loss": 4.2867,
      "step": 30030
    },
    {
      "epoch": 0.06258333333333334,
      "grad_norm": 1.0095959901809692,
      "learning_rate": 0.00029746001155265823,
      "loss": 4.3512,
      "step": 30040
    },
    {
      "epoch": 0.06260416666666667,
      "grad_norm": 1.1082746982574463,
      "learning_rate": 0.000297458204675207,
      "loss": 4.2272,
      "step": 30050
    },
    {
      "epoch": 0.062625,
      "grad_norm": 0.9967749118804932,
      "learning_rate": 0.00029745639716079474,
      "loss": 4.2939,
      "step": 30060
    },
    {
      "epoch": 0.06264583333333333,
      "grad_norm": 1.045098066329956,
      "learning_rate": 0.00029745458900942923,
      "loss": 4.3921,
      "step": 30070
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.982014000415802,
      "learning_rate": 0.00029745278022111826,
      "loss": 4.3588,
      "step": 30080
    },
    {
      "epoch": 0.0626875,
      "grad_norm": 1.1615935564041138,
      "learning_rate": 0.00029745097079586963,
      "loss": 4.199,
      "step": 30090
    },
    {
      "epoch": 0.06270833333333334,
      "grad_norm": 1.0325371026992798,
      "learning_rate": 0.0002974491607336912,
      "loss": 4.4474,
      "step": 30100
    },
    {
      "epoch": 0.06272916666666667,
      "grad_norm": 1.0549955368041992,
      "learning_rate": 0.0002974473500345907,
      "loss": 4.3013,
      "step": 30110
    },
    {
      "epoch": 0.06275,
      "grad_norm": 1.014235496520996,
      "learning_rate": 0.0002974455386985761,
      "loss": 4.4581,
      "step": 30120
    },
    {
      "epoch": 0.06277083333333333,
      "grad_norm": 1.170482873916626,
      "learning_rate": 0.00029744372672565507,
      "loss": 4.3146,
      "step": 30130
    },
    {
      "epoch": 0.06279166666666666,
      "grad_norm": 1.0629302263259888,
      "learning_rate": 0.0002974419141158355,
      "loss": 4.2694,
      "step": 30140
    },
    {
      "epoch": 0.0628125,
      "grad_norm": 0.9031400084495544,
      "learning_rate": 0.0002974401008691252,
      "loss": 4.2766,
      "step": 30150
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 0.9750972986221313,
      "learning_rate": 0.0002974382869855321,
      "loss": 4.2922,
      "step": 30160
    },
    {
      "epoch": 0.06285416666666667,
      "grad_norm": 1.0108613967895508,
      "learning_rate": 0.00029743647246506397,
      "loss": 4.4765,
      "step": 30170
    },
    {
      "epoch": 0.062875,
      "grad_norm": 1.0334265232086182,
      "learning_rate": 0.0002974346573077286,
      "loss": 4.2717,
      "step": 30180
    },
    {
      "epoch": 0.06289583333333333,
      "grad_norm": 0.9736807942390442,
      "learning_rate": 0.00029743284151353386,
      "loss": 4.3409,
      "step": 30190
    },
    {
      "epoch": 0.06291666666666666,
      "grad_norm": 0.9746429920196533,
      "learning_rate": 0.0002974310250824876,
      "loss": 4.3005,
      "step": 30200
    },
    {
      "epoch": 0.0629375,
      "grad_norm": 1.003810167312622,
      "learning_rate": 0.00029742920801459767,
      "loss": 4.3522,
      "step": 30210
    },
    {
      "epoch": 0.06295833333333334,
      "grad_norm": 0.9756104350090027,
      "learning_rate": 0.00029742739030987194,
      "loss": 4.3548,
      "step": 30220
    },
    {
      "epoch": 0.06297916666666667,
      "grad_norm": 1.030555009841919,
      "learning_rate": 0.0002974255719683182,
      "loss": 4.2646,
      "step": 30230
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.9691369533538818,
      "learning_rate": 0.0002974237529899444,
      "loss": 4.3339,
      "step": 30240
    },
    {
      "epoch": 0.06302083333333333,
      "grad_norm": 0.9301554560661316,
      "learning_rate": 0.00029742193337475826,
      "loss": 4.3908,
      "step": 30250
    },
    {
      "epoch": 0.06304166666666666,
      "grad_norm": 1.0400640964508057,
      "learning_rate": 0.00029742011312276783,
      "loss": 4.3409,
      "step": 30260
    },
    {
      "epoch": 0.0630625,
      "grad_norm": 1.1827671527862549,
      "learning_rate": 0.0002974182922339808,
      "loss": 4.328,
      "step": 30270
    },
    {
      "epoch": 0.06308333333333334,
      "grad_norm": 1.0241013765335083,
      "learning_rate": 0.0002974164707084051,
      "loss": 4.3051,
      "step": 30280
    },
    {
      "epoch": 0.06310416666666667,
      "grad_norm": 0.9250343441963196,
      "learning_rate": 0.0002974146485460486,
      "loss": 4.3209,
      "step": 30290
    },
    {
      "epoch": 0.063125,
      "grad_norm": 1.1026688814163208,
      "learning_rate": 0.0002974128257469192,
      "loss": 4.2672,
      "step": 30300
    },
    {
      "epoch": 0.06314583333333333,
      "grad_norm": 1.0609385967254639,
      "learning_rate": 0.00029741100231102467,
      "loss": 4.3122,
      "step": 30310
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 1.1251211166381836,
      "learning_rate": 0.000297409178238373,
      "loss": 4.2225,
      "step": 30320
    },
    {
      "epoch": 0.0631875,
      "grad_norm": 1.0672072172164917,
      "learning_rate": 0.000297407353528972,
      "loss": 4.3628,
      "step": 30330
    },
    {
      "epoch": 0.06320833333333334,
      "grad_norm": 0.9555835127830505,
      "learning_rate": 0.00029740552818282966,
      "loss": 4.212,
      "step": 30340
    },
    {
      "epoch": 0.06322916666666667,
      "grad_norm": 0.9957411289215088,
      "learning_rate": 0.00029740370219995374,
      "loss": 4.2168,
      "step": 30350
    },
    {
      "epoch": 0.06325,
      "grad_norm": 1.0163871049880981,
      "learning_rate": 0.0002974018755803522,
      "loss": 4.0166,
      "step": 30360
    },
    {
      "epoch": 0.06327083333333333,
      "grad_norm": 1.0252569913864136,
      "learning_rate": 0.00029740004832403284,
      "loss": 4.2164,
      "step": 30370
    },
    {
      "epoch": 0.06329166666666666,
      "grad_norm": 0.9606188535690308,
      "learning_rate": 0.0002973982204310036,
      "loss": 4.3295,
      "step": 30380
    },
    {
      "epoch": 0.0633125,
      "grad_norm": 0.9725444316864014,
      "learning_rate": 0.0002973963919012725,
      "loss": 4.1535,
      "step": 30390
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.9221929311752319,
      "learning_rate": 0.00029739456273484725,
      "loss": 4.3462,
      "step": 30400
    },
    {
      "epoch": 0.06335416666666667,
      "grad_norm": 1.04945707321167,
      "learning_rate": 0.00029739273293173587,
      "loss": 4.2785,
      "step": 30410
    },
    {
      "epoch": 0.063375,
      "grad_norm": 1.0918840169906616,
      "learning_rate": 0.0002973909024919462,
      "loss": 4.2807,
      "step": 30420
    },
    {
      "epoch": 0.06339583333333333,
      "grad_norm": 1.0478801727294922,
      "learning_rate": 0.00029738907141548616,
      "loss": 4.2408,
      "step": 30430
    },
    {
      "epoch": 0.06341666666666666,
      "grad_norm": 0.9787667393684387,
      "learning_rate": 0.00029738723970236373,
      "loss": 4.3541,
      "step": 30440
    },
    {
      "epoch": 0.0634375,
      "grad_norm": 1.070427417755127,
      "learning_rate": 0.0002973854073525868,
      "loss": 4.2277,
      "step": 30450
    },
    {
      "epoch": 0.06345833333333334,
      "grad_norm": 0.959625780582428,
      "learning_rate": 0.0002973835743661631,
      "loss": 4.2962,
      "step": 30460
    },
    {
      "epoch": 0.06347916666666667,
      "grad_norm": 1.0410372018814087,
      "learning_rate": 0.0002973817407431008,
      "loss": 4.3868,
      "step": 30470
    },
    {
      "epoch": 0.0635,
      "grad_norm": 1.0297129154205322,
      "learning_rate": 0.0002973799064834077,
      "loss": 4.0994,
      "step": 30480
    },
    {
      "epoch": 0.06352083333333333,
      "grad_norm": 1.069785475730896,
      "learning_rate": 0.0002973780715870917,
      "loss": 4.2929,
      "step": 30490
    },
    {
      "epoch": 0.06354166666666666,
      "grad_norm": 1.0062801837921143,
      "learning_rate": 0.00029737623605416083,
      "loss": 4.2503,
      "step": 30500
    },
    {
      "epoch": 0.0635625,
      "grad_norm": 0.9902448058128357,
      "learning_rate": 0.0002973743998846229,
      "loss": 4.2237,
      "step": 30510
    },
    {
      "epoch": 0.06358333333333334,
      "grad_norm": 1.0557693243026733,
      "learning_rate": 0.0002973725630784859,
      "loss": 4.2293,
      "step": 30520
    },
    {
      "epoch": 0.06360416666666667,
      "grad_norm": 1.032886266708374,
      "learning_rate": 0.00029737072563575784,
      "loss": 4.3629,
      "step": 30530
    },
    {
      "epoch": 0.063625,
      "grad_norm": 1.0960065126419067,
      "learning_rate": 0.0002973688875564465,
      "loss": 4.3179,
      "step": 30540
    },
    {
      "epoch": 0.06364583333333333,
      "grad_norm": 1.0463687181472778,
      "learning_rate": 0.00029736704884055995,
      "loss": 4.1208,
      "step": 30550
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 0.9795734286308289,
      "learning_rate": 0.00029736520948810607,
      "loss": 4.3566,
      "step": 30560
    },
    {
      "epoch": 0.0636875,
      "grad_norm": 1.0538420677185059,
      "learning_rate": 0.0002973633694990928,
      "loss": 4.3009,
      "step": 30570
    },
    {
      "epoch": 0.06370833333333334,
      "grad_norm": 0.9960452914237976,
      "learning_rate": 0.0002973615288735281,
      "loss": 4.2539,
      "step": 30580
    },
    {
      "epoch": 0.06372916666666667,
      "grad_norm": 1.0237253904342651,
      "learning_rate": 0.0002973596876114199,
      "loss": 4.3997,
      "step": 30590
    },
    {
      "epoch": 0.06375,
      "grad_norm": 1.10161554813385,
      "learning_rate": 0.0002973578457127763,
      "loss": 4.3833,
      "step": 30600
    },
    {
      "epoch": 0.06377083333333333,
      "grad_norm": 1.0140202045440674,
      "learning_rate": 0.00029735600317760497,
      "loss": 4.2036,
      "step": 30610
    },
    {
      "epoch": 0.06379166666666666,
      "grad_norm": 1.2514387369155884,
      "learning_rate": 0.00029735416000591417,
      "loss": 4.3052,
      "step": 30620
    },
    {
      "epoch": 0.0638125,
      "grad_norm": 1.013175129890442,
      "learning_rate": 0.00029735231619771164,
      "loss": 4.2578,
      "step": 30630
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 0.9628097414970398,
      "learning_rate": 0.0002973504717530054,
      "loss": 4.3178,
      "step": 30640
    },
    {
      "epoch": 0.06385416666666667,
      "grad_norm": 1.0429621934890747,
      "learning_rate": 0.00029734862667180355,
      "loss": 4.2755,
      "step": 30650
    },
    {
      "epoch": 0.063875,
      "grad_norm": 0.9924309253692627,
      "learning_rate": 0.00029734678095411386,
      "loss": 4.3083,
      "step": 30660
    },
    {
      "epoch": 0.06389583333333333,
      "grad_norm": 1.0526520013809204,
      "learning_rate": 0.0002973449345999445,
      "loss": 4.3911,
      "step": 30670
    },
    {
      "epoch": 0.06391666666666666,
      "grad_norm": 0.9934735298156738,
      "learning_rate": 0.0002973430876093033,
      "loss": 4.3122,
      "step": 30680
    },
    {
      "epoch": 0.0639375,
      "grad_norm": 0.9984253644943237,
      "learning_rate": 0.00029734123998219824,
      "loss": 4.105,
      "step": 30690
    },
    {
      "epoch": 0.06395833333333334,
      "grad_norm": 0.9496542811393738,
      "learning_rate": 0.0002973393917186374,
      "loss": 4.2405,
      "step": 30700
    },
    {
      "epoch": 0.06397916666666667,
      "grad_norm": 1.068108081817627,
      "learning_rate": 0.0002973375428186287,
      "loss": 4.3091,
      "step": 30710
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.0569130182266235,
      "learning_rate": 0.0002973356932821801,
      "loss": 4.2348,
      "step": 30720
    },
    {
      "epoch": 0.06402083333333333,
      "grad_norm": 0.9546542763710022,
      "learning_rate": 0.00029733384310929965,
      "loss": 4.2271,
      "step": 30730
    },
    {
      "epoch": 0.06404166666666666,
      "grad_norm": 1.1133861541748047,
      "learning_rate": 0.00029733199229999534,
      "loss": 4.2116,
      "step": 30740
    },
    {
      "epoch": 0.0640625,
      "grad_norm": 0.9627119302749634,
      "learning_rate": 0.00029733014085427513,
      "loss": 4.3365,
      "step": 30750
    },
    {
      "epoch": 0.06408333333333334,
      "grad_norm": 1.1057391166687012,
      "learning_rate": 0.000297328288772147,
      "loss": 4.2008,
      "step": 30760
    },
    {
      "epoch": 0.06410416666666667,
      "grad_norm": 1.0900706052780151,
      "learning_rate": 0.000297326436053619,
      "loss": 4.415,
      "step": 30770
    },
    {
      "epoch": 0.064125,
      "grad_norm": 1.1223965883255005,
      "learning_rate": 0.0002973245826986991,
      "loss": 4.3396,
      "step": 30780
    },
    {
      "epoch": 0.06414583333333333,
      "grad_norm": 1.0651273727416992,
      "learning_rate": 0.00029732272870739535,
      "loss": 4.3371,
      "step": 30790
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 1.2205517292022705,
      "learning_rate": 0.00029732087407971573,
      "loss": 4.2877,
      "step": 30800
    },
    {
      "epoch": 0.0641875,
      "grad_norm": 1.0829317569732666,
      "learning_rate": 0.0002973190188156682,
      "loss": 4.2041,
      "step": 30810
    },
    {
      "epoch": 0.06420833333333334,
      "grad_norm": 1.1081947088241577,
      "learning_rate": 0.00029731716291526083,
      "loss": 4.3667,
      "step": 30820
    },
    {
      "epoch": 0.06422916666666667,
      "grad_norm": 1.0918631553649902,
      "learning_rate": 0.00029731530637850165,
      "loss": 4.4088,
      "step": 30830
    },
    {
      "epoch": 0.06425,
      "grad_norm": 1.0719009637832642,
      "learning_rate": 0.00029731344920539863,
      "loss": 4.46,
      "step": 30840
    },
    {
      "epoch": 0.06427083333333333,
      "grad_norm": 1.1783519983291626,
      "learning_rate": 0.0002973115913959599,
      "loss": 4.1359,
      "step": 30850
    },
    {
      "epoch": 0.06429166666666666,
      "grad_norm": 0.9683153629302979,
      "learning_rate": 0.0002973097329501933,
      "loss": 4.3035,
      "step": 30860
    },
    {
      "epoch": 0.0643125,
      "grad_norm": 1.2041380405426025,
      "learning_rate": 0.000297307873868107,
      "loss": 4.255,
      "step": 30870
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 0.9614672064781189,
      "learning_rate": 0.000297306014149709,
      "loss": 4.369,
      "step": 30880
    },
    {
      "epoch": 0.06435416666666667,
      "grad_norm": 1.0873463153839111,
      "learning_rate": 0.00029730415379500735,
      "loss": 4.3084,
      "step": 30890
    },
    {
      "epoch": 0.064375,
      "grad_norm": 1.0316065549850464,
      "learning_rate": 0.00029730229280401004,
      "loss": 4.2498,
      "step": 30900
    },
    {
      "epoch": 0.06439583333333333,
      "grad_norm": 1.0939885377883911,
      "learning_rate": 0.00029730043117672515,
      "loss": 4.2827,
      "step": 30910
    },
    {
      "epoch": 0.06441666666666666,
      "grad_norm": 0.9899580478668213,
      "learning_rate": 0.00029729856891316065,
      "loss": 4.2641,
      "step": 30920
    },
    {
      "epoch": 0.0644375,
      "grad_norm": 1.048686146736145,
      "learning_rate": 0.0002972967060133247,
      "loss": 4.311,
      "step": 30930
    },
    {
      "epoch": 0.06445833333333334,
      "grad_norm": 1.0600014925003052,
      "learning_rate": 0.0002972948424772253,
      "loss": 4.4306,
      "step": 30940
    },
    {
      "epoch": 0.06447916666666667,
      "grad_norm": 0.974639356136322,
      "learning_rate": 0.0002972929783048704,
      "loss": 4.2688,
      "step": 30950
    },
    {
      "epoch": 0.0645,
      "grad_norm": 1.0175552368164062,
      "learning_rate": 0.00029729111349626814,
      "loss": 4.2687,
      "step": 30960
    },
    {
      "epoch": 0.06452083333333333,
      "grad_norm": 0.9398912787437439,
      "learning_rate": 0.00029728924805142663,
      "loss": 4.3706,
      "step": 30970
    },
    {
      "epoch": 0.06454166666666666,
      "grad_norm": 1.0414706468582153,
      "learning_rate": 0.00029728738197035387,
      "loss": 4.442,
      "step": 30980
    },
    {
      "epoch": 0.0645625,
      "grad_norm": 0.9701266884803772,
      "learning_rate": 0.0002972855152530579,
      "loss": 4.1956,
      "step": 30990
    },
    {
      "epoch": 0.06458333333333334,
      "grad_norm": 1.0410239696502686,
      "learning_rate": 0.00029728364789954675,
      "loss": 4.3026,
      "step": 31000
    },
    {
      "epoch": 0.06458333333333334,
      "eval_loss": 4.0048346519470215,
      "eval_runtime": 6.9124,
      "eval_samples_per_second": 1.447,
      "eval_steps_per_second": 0.434,
      "step": 31000
    },
    {
      "epoch": 0.06460416666666667,
      "grad_norm": 1.0164673328399658,
      "learning_rate": 0.0002972817799098286,
      "loss": 4.3173,
      "step": 31010
    },
    {
      "epoch": 0.064625,
      "grad_norm": 0.9816820621490479,
      "learning_rate": 0.00029727991128391146,
      "loss": 4.2937,
      "step": 31020
    },
    {
      "epoch": 0.06464583333333333,
      "grad_norm": 1.286686897277832,
      "learning_rate": 0.0002972780420218034,
      "loss": 4.1916,
      "step": 31030
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 1.0315415859222412,
      "learning_rate": 0.0002972761721235125,
      "loss": 4.2232,
      "step": 31040
    },
    {
      "epoch": 0.0646875,
      "grad_norm": 1.0805710554122925,
      "learning_rate": 0.0002972743015890468,
      "loss": 4.3484,
      "step": 31050
    },
    {
      "epoch": 0.06470833333333334,
      "grad_norm": 0.9988028407096863,
      "learning_rate": 0.0002972724304184144,
      "loss": 4.165,
      "step": 31060
    },
    {
      "epoch": 0.06472916666666667,
      "grad_norm": 1.0073003768920898,
      "learning_rate": 0.00029727055861162346,
      "loss": 4.3204,
      "step": 31070
    },
    {
      "epoch": 0.06475,
      "grad_norm": 1.0523725748062134,
      "learning_rate": 0.000297268686168682,
      "loss": 4.3211,
      "step": 31080
    },
    {
      "epoch": 0.06477083333333333,
      "grad_norm": 1.0929828882217407,
      "learning_rate": 0.000297266813089598,
      "loss": 4.1217,
      "step": 31090
    },
    {
      "epoch": 0.06479166666666666,
      "grad_norm": 1.0513856410980225,
      "learning_rate": 0.00029726493937437976,
      "loss": 4.2708,
      "step": 31100
    },
    {
      "epoch": 0.0648125,
      "grad_norm": 0.9445762634277344,
      "learning_rate": 0.00029726306502303527,
      "loss": 4.1736,
      "step": 31110
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 1.1052899360656738,
      "learning_rate": 0.0002972611900355726,
      "loss": 4.2465,
      "step": 31120
    },
    {
      "epoch": 0.06485416666666667,
      "grad_norm": 0.9763522744178772,
      "learning_rate": 0.00029725931441199993,
      "loss": 4.2641,
      "step": 31130
    },
    {
      "epoch": 0.064875,
      "grad_norm": 1.0389890670776367,
      "learning_rate": 0.00029725743815232523,
      "loss": 4.3435,
      "step": 31140
    },
    {
      "epoch": 0.06489583333333333,
      "grad_norm": 1.1809309720993042,
      "learning_rate": 0.00029725556125655676,
      "loss": 4.0955,
      "step": 31150
    },
    {
      "epoch": 0.06491666666666666,
      "grad_norm": 1.0281593799591064,
      "learning_rate": 0.0002972536837247025,
      "loss": 4.3877,
      "step": 31160
    },
    {
      "epoch": 0.0649375,
      "grad_norm": 0.9318804740905762,
      "learning_rate": 0.00029725180555677065,
      "loss": 4.4425,
      "step": 31170
    },
    {
      "epoch": 0.06495833333333334,
      "grad_norm": 1.1404335498809814,
      "learning_rate": 0.0002972499267527692,
      "loss": 4.3547,
      "step": 31180
    },
    {
      "epoch": 0.06497916666666667,
      "grad_norm": 1.0028363466262817,
      "learning_rate": 0.00029724804731270644,
      "loss": 4.506,
      "step": 31190
    },
    {
      "epoch": 0.065,
      "grad_norm": 1.0204343795776367,
      "learning_rate": 0.0002972461672365904,
      "loss": 4.4263,
      "step": 31200
    },
    {
      "epoch": 0.06502083333333333,
      "grad_norm": 0.9735321998596191,
      "learning_rate": 0.00029724428652442913,
      "loss": 4.2053,
      "step": 31210
    },
    {
      "epoch": 0.06504166666666666,
      "grad_norm": 1.0104619264602661,
      "learning_rate": 0.0002972424051762309,
      "loss": 4.3635,
      "step": 31220
    },
    {
      "epoch": 0.0650625,
      "grad_norm": 1.1213825941085815,
      "learning_rate": 0.00029724052319200377,
      "loss": 4.2293,
      "step": 31230
    },
    {
      "epoch": 0.06508333333333334,
      "grad_norm": 1.0121169090270996,
      "learning_rate": 0.0002972386405717558,
      "loss": 4.3132,
      "step": 31240
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 1.7592140436172485,
      "learning_rate": 0.00029723675731549524,
      "loss": 4.13,
      "step": 31250
    },
    {
      "epoch": 0.065125,
      "grad_norm": 0.9484860897064209,
      "learning_rate": 0.0002972348734232301,
      "loss": 4.3077,
      "step": 31260
    },
    {
      "epoch": 0.06514583333333333,
      "grad_norm": 0.9566181302070618,
      "learning_rate": 0.00029723298889496865,
      "loss": 4.1371,
      "step": 31270
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 1.3497549295425415,
      "learning_rate": 0.00029723110373071896,
      "loss": 4.2907,
      "step": 31280
    },
    {
      "epoch": 0.0651875,
      "grad_norm": 0.9959579706192017,
      "learning_rate": 0.0002972292179304892,
      "loss": 4.2389,
      "step": 31290
    },
    {
      "epoch": 0.06520833333333333,
      "grad_norm": 1.1497814655303955,
      "learning_rate": 0.00029722733149428743,
      "loss": 4.3282,
      "step": 31300
    },
    {
      "epoch": 0.06522916666666667,
      "grad_norm": 0.9684560298919678,
      "learning_rate": 0.0002972254444221219,
      "loss": 4.3652,
      "step": 31310
    },
    {
      "epoch": 0.06525,
      "grad_norm": 1.0402929782867432,
      "learning_rate": 0.00029722355671400074,
      "loss": 4.2561,
      "step": 31320
    },
    {
      "epoch": 0.06527083333333333,
      "grad_norm": 1.1137579679489136,
      "learning_rate": 0.00029722166836993206,
      "loss": 4.3181,
      "step": 31330
    },
    {
      "epoch": 0.06529166666666666,
      "grad_norm": 1.0284459590911865,
      "learning_rate": 0.00029721977938992406,
      "loss": 4.3394,
      "step": 31340
    },
    {
      "epoch": 0.0653125,
      "grad_norm": 1.0815184116363525,
      "learning_rate": 0.00029721788977398486,
      "loss": 4.2451,
      "step": 31350
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 1.037427306175232,
      "learning_rate": 0.0002972159995221227,
      "loss": 4.3197,
      "step": 31360
    },
    {
      "epoch": 0.06535416666666667,
      "grad_norm": 1.045507788658142,
      "learning_rate": 0.0002972141086343457,
      "loss": 4.2457,
      "step": 31370
    },
    {
      "epoch": 0.065375,
      "grad_norm": 0.9902443885803223,
      "learning_rate": 0.00029721221711066195,
      "loss": 4.2533,
      "step": 31380
    },
    {
      "epoch": 0.06539583333333333,
      "grad_norm": 1.101439356803894,
      "learning_rate": 0.0002972103249510797,
      "loss": 4.3535,
      "step": 31390
    },
    {
      "epoch": 0.06541666666666666,
      "grad_norm": 1.038289189338684,
      "learning_rate": 0.0002972084321556072,
      "loss": 4.2131,
      "step": 31400
    },
    {
      "epoch": 0.0654375,
      "grad_norm": 1.0214242935180664,
      "learning_rate": 0.0002972065387242525,
      "loss": 4.4747,
      "step": 31410
    },
    {
      "epoch": 0.06545833333333333,
      "grad_norm": 1.1047371625900269,
      "learning_rate": 0.0002972046446570238,
      "loss": 4.1007,
      "step": 31420
    },
    {
      "epoch": 0.06547916666666667,
      "grad_norm": 0.9421057105064392,
      "learning_rate": 0.0002972027499539293,
      "loss": 4.2137,
      "step": 31430
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.9666333198547363,
      "learning_rate": 0.0002972008546149772,
      "loss": 4.2803,
      "step": 31440
    },
    {
      "epoch": 0.06552083333333333,
      "grad_norm": 1.0054808855056763,
      "learning_rate": 0.0002971989586401757,
      "loss": 4.2756,
      "step": 31450
    },
    {
      "epoch": 0.06554166666666666,
      "grad_norm": 0.9905871152877808,
      "learning_rate": 0.00029719706202953295,
      "loss": 4.273,
      "step": 31460
    },
    {
      "epoch": 0.0655625,
      "grad_norm": 1.0685571432113647,
      "learning_rate": 0.00029719516478305714,
      "loss": 4.0808,
      "step": 31470
    },
    {
      "epoch": 0.06558333333333333,
      "grad_norm": 0.9823071360588074,
      "learning_rate": 0.0002971932669007565,
      "loss": 4.1496,
      "step": 31480
    },
    {
      "epoch": 0.06560416666666667,
      "grad_norm": 1.039354681968689,
      "learning_rate": 0.0002971913683826392,
      "loss": 4.2735,
      "step": 31490
    },
    {
      "epoch": 0.065625,
      "grad_norm": 1.034314751625061,
      "learning_rate": 0.00029718946922871345,
      "loss": 4.3398,
      "step": 31500
    },
    {
      "epoch": 0.06564583333333333,
      "grad_norm": 1.0759855508804321,
      "learning_rate": 0.00029718756943898747,
      "loss": 4.1618,
      "step": 31510
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 1.022299885749817,
      "learning_rate": 0.0002971856690134694,
      "loss": 4.3481,
      "step": 31520
    },
    {
      "epoch": 0.0656875,
      "grad_norm": 0.9869253635406494,
      "learning_rate": 0.0002971837679521676,
      "loss": 4.3288,
      "step": 31530
    },
    {
      "epoch": 0.06570833333333333,
      "grad_norm": 1.1358203887939453,
      "learning_rate": 0.0002971818662550901,
      "loss": 4.4312,
      "step": 31540
    },
    {
      "epoch": 0.06572916666666667,
      "grad_norm": 1.1181021928787231,
      "learning_rate": 0.0002971799639222452,
      "loss": 4.3712,
      "step": 31550
    },
    {
      "epoch": 0.06575,
      "grad_norm": 1.0740939378738403,
      "learning_rate": 0.00029717806095364116,
      "loss": 4.3052,
      "step": 31560
    },
    {
      "epoch": 0.06577083333333333,
      "grad_norm": 0.9068570137023926,
      "learning_rate": 0.00029717615734928607,
      "loss": 4.4188,
      "step": 31570
    },
    {
      "epoch": 0.06579166666666666,
      "grad_norm": 1.1125171184539795,
      "learning_rate": 0.0002971742531091883,
      "loss": 4.1561,
      "step": 31580
    },
    {
      "epoch": 0.0658125,
      "grad_norm": 1.0304588079452515,
      "learning_rate": 0.000297172348233356,
      "loss": 4.1993,
      "step": 31590
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 1.0965855121612549,
      "learning_rate": 0.00029717044272179746,
      "loss": 4.195,
      "step": 31600
    },
    {
      "epoch": 0.06585416666666667,
      "grad_norm": 1.0505194664001465,
      "learning_rate": 0.00029716853657452076,
      "loss": 4.2483,
      "step": 31610
    },
    {
      "epoch": 0.065875,
      "grad_norm": 0.911835789680481,
      "learning_rate": 0.0002971666297915343,
      "loss": 4.2545,
      "step": 31620
    },
    {
      "epoch": 0.06589583333333333,
      "grad_norm": 0.963222324848175,
      "learning_rate": 0.00029716472237284626,
      "loss": 4.3616,
      "step": 31630
    },
    {
      "epoch": 0.06591666666666667,
      "grad_norm": 1.3315210342407227,
      "learning_rate": 0.00029716281431846483,
      "loss": 4.3708,
      "step": 31640
    },
    {
      "epoch": 0.0659375,
      "grad_norm": 1.055626630783081,
      "learning_rate": 0.00029716090562839837,
      "loss": 4.347,
      "step": 31650
    },
    {
      "epoch": 0.06595833333333333,
      "grad_norm": 1.0034416913986206,
      "learning_rate": 0.00029715899630265496,
      "loss": 4.2449,
      "step": 31660
    },
    {
      "epoch": 0.06597916666666667,
      "grad_norm": 1.0373440980911255,
      "learning_rate": 0.00029715708634124295,
      "loss": 4.2482,
      "step": 31670
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.9779033064842224,
      "learning_rate": 0.0002971551757441706,
      "loss": 4.2515,
      "step": 31680
    },
    {
      "epoch": 0.06602083333333333,
      "grad_norm": 0.9351350665092468,
      "learning_rate": 0.00029715326451144615,
      "loss": 4.1527,
      "step": 31690
    },
    {
      "epoch": 0.06604166666666667,
      "grad_norm": 1.0838795900344849,
      "learning_rate": 0.0002971513526430778,
      "loss": 4.3382,
      "step": 31700
    },
    {
      "epoch": 0.0660625,
      "grad_norm": 1.1089688539505005,
      "learning_rate": 0.0002971494401390739,
      "loss": 4.1766,
      "step": 31710
    },
    {
      "epoch": 0.06608333333333333,
      "grad_norm": 0.8986007571220398,
      "learning_rate": 0.00029714752699944267,
      "loss": 4.3084,
      "step": 31720
    },
    {
      "epoch": 0.06610416666666667,
      "grad_norm": 1.0214542150497437,
      "learning_rate": 0.00029714561322419236,
      "loss": 4.4785,
      "step": 31730
    },
    {
      "epoch": 0.066125,
      "grad_norm": 0.9410114288330078,
      "learning_rate": 0.0002971436988133312,
      "loss": 4.3446,
      "step": 31740
    },
    {
      "epoch": 0.06614583333333333,
      "grad_norm": 0.9736061096191406,
      "learning_rate": 0.00029714178376686755,
      "loss": 4.2808,
      "step": 31750
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 1.0046361684799194,
      "learning_rate": 0.0002971398680848096,
      "loss": 4.232,
      "step": 31760
    },
    {
      "epoch": 0.0661875,
      "grad_norm": 1.088690996170044,
      "learning_rate": 0.0002971379517671657,
      "loss": 4.0815,
      "step": 31770
    },
    {
      "epoch": 0.06620833333333333,
      "grad_norm": 0.9616028666496277,
      "learning_rate": 0.0002971360348139441,
      "loss": 4.1641,
      "step": 31780
    },
    {
      "epoch": 0.06622916666666667,
      "grad_norm": 1.1134775876998901,
      "learning_rate": 0.000297134117225153,
      "loss": 4.3156,
      "step": 31790
    },
    {
      "epoch": 0.06625,
      "grad_norm": 1.0063406229019165,
      "learning_rate": 0.0002971321990008008,
      "loss": 4.1856,
      "step": 31800
    },
    {
      "epoch": 0.06627083333333333,
      "grad_norm": 1.0095622539520264,
      "learning_rate": 0.0002971302801408957,
      "loss": 4.2374,
      "step": 31810
    },
    {
      "epoch": 0.06629166666666667,
      "grad_norm": 0.9717530012130737,
      "learning_rate": 0.00029712836064544614,
      "loss": 4.2351,
      "step": 31820
    },
    {
      "epoch": 0.0663125,
      "grad_norm": 0.9434137940406799,
      "learning_rate": 0.0002971264405144602,
      "loss": 4.3302,
      "step": 31830
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 1.031624674797058,
      "learning_rate": 0.00029712451974794624,
      "loss": 4.2841,
      "step": 31840
    },
    {
      "epoch": 0.06635416666666667,
      "grad_norm": 1.0323429107666016,
      "learning_rate": 0.00029712259834591267,
      "loss": 4.3094,
      "step": 31850
    },
    {
      "epoch": 0.066375,
      "grad_norm": 1.0611035823822021,
      "learning_rate": 0.0002971206763083677,
      "loss": 4.3289,
      "step": 31860
    },
    {
      "epoch": 0.06639583333333333,
      "grad_norm": 1.1314038038253784,
      "learning_rate": 0.00029711875363531965,
      "loss": 4.2199,
      "step": 31870
    },
    {
      "epoch": 0.06641666666666667,
      "grad_norm": 1.0169627666473389,
      "learning_rate": 0.0002971168303267768,
      "loss": 4.1514,
      "step": 31880
    },
    {
      "epoch": 0.0664375,
      "grad_norm": 0.9849729537963867,
      "learning_rate": 0.00029711490638274746,
      "loss": 4.2208,
      "step": 31890
    },
    {
      "epoch": 0.06645833333333333,
      "grad_norm": 1.2286008596420288,
      "learning_rate": 0.00029711298180324,
      "loss": 4.3693,
      "step": 31900
    },
    {
      "epoch": 0.06647916666666667,
      "grad_norm": 0.9142994284629822,
      "learning_rate": 0.00029711105658826264,
      "loss": 4.336,
      "step": 31910
    },
    {
      "epoch": 0.0665,
      "grad_norm": 3.4562995433807373,
      "learning_rate": 0.00029710913073782377,
      "loss": 4.2599,
      "step": 31920
    },
    {
      "epoch": 0.06652083333333333,
      "grad_norm": 1.0842348337173462,
      "learning_rate": 0.0002971072042519317,
      "loss": 4.1085,
      "step": 31930
    },
    {
      "epoch": 0.06654166666666667,
      "grad_norm": 1.162606120109558,
      "learning_rate": 0.0002971052771305947,
      "loss": 4.3713,
      "step": 31940
    },
    {
      "epoch": 0.0665625,
      "grad_norm": 1.466805338859558,
      "learning_rate": 0.0002971033493738211,
      "loss": 4.2469,
      "step": 31950
    },
    {
      "epoch": 0.06658333333333333,
      "grad_norm": 1.063991904258728,
      "learning_rate": 0.00029710142098161933,
      "loss": 4.2506,
      "step": 31960
    },
    {
      "epoch": 0.06660416666666667,
      "grad_norm": 1.359431266784668,
      "learning_rate": 0.0002970994919539976,
      "loss": 4.2991,
      "step": 31970
    },
    {
      "epoch": 0.066625,
      "grad_norm": 1.4255189895629883,
      "learning_rate": 0.00029709756229096435,
      "loss": 4.324,
      "step": 31980
    },
    {
      "epoch": 0.06664583333333333,
      "grad_norm": 1.020546317100525,
      "learning_rate": 0.00029709563199252785,
      "loss": 4.3404,
      "step": 31990
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.9867860674858093,
      "learning_rate": 0.0002970937010586964,
      "loss": 4.2979,
      "step": 32000
    },
    {
      "epoch": 0.06666666666666667,
      "eval_loss": 3.9925167560577393,
      "eval_runtime": 7.3371,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 32000
    },
    {
      "epoch": 0.0666875,
      "grad_norm": 1.0347644090652466,
      "learning_rate": 0.0002970917694894784,
      "loss": 4.1503,
      "step": 32010
    },
    {
      "epoch": 0.06670833333333333,
      "grad_norm": 0.9330864548683167,
      "learning_rate": 0.00029708983728488216,
      "loss": 4.4599,
      "step": 32020
    },
    {
      "epoch": 0.06672916666666667,
      "grad_norm": 1.1255160570144653,
      "learning_rate": 0.0002970879044449161,
      "loss": 4.0144,
      "step": 32030
    },
    {
      "epoch": 0.06675,
      "grad_norm": 1.02137291431427,
      "learning_rate": 0.00029708597096958847,
      "loss": 4.2095,
      "step": 32040
    },
    {
      "epoch": 0.06677083333333333,
      "grad_norm": 1.1278084516525269,
      "learning_rate": 0.00029708403685890767,
      "loss": 4.1944,
      "step": 32050
    },
    {
      "epoch": 0.06679166666666667,
      "grad_norm": 1.120063066482544,
      "learning_rate": 0.00029708210211288206,
      "loss": 4.2373,
      "step": 32060
    },
    {
      "epoch": 0.0668125,
      "grad_norm": 0.9760968089103699,
      "learning_rate": 0.00029708016673152,
      "loss": 4.3841,
      "step": 32070
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 1.099804401397705,
      "learning_rate": 0.0002970782307148298,
      "loss": 4.1599,
      "step": 32080
    },
    {
      "epoch": 0.06685416666666667,
      "grad_norm": 0.9523244500160217,
      "learning_rate": 0.0002970762940628199,
      "loss": 4.2577,
      "step": 32090
    },
    {
      "epoch": 0.066875,
      "grad_norm": 0.9873850345611572,
      "learning_rate": 0.0002970743567754986,
      "loss": 4.3863,
      "step": 32100
    },
    {
      "epoch": 0.06689583333333333,
      "grad_norm": 0.9649313688278198,
      "learning_rate": 0.0002970724188528743,
      "loss": 4.1238,
      "step": 32110
    },
    {
      "epoch": 0.06691666666666667,
      "grad_norm": 1.0399314165115356,
      "learning_rate": 0.00029707048029495536,
      "loss": 4.324,
      "step": 32120
    },
    {
      "epoch": 0.0669375,
      "grad_norm": 0.9389256238937378,
      "learning_rate": 0.0002970685411017502,
      "loss": 4.3458,
      "step": 32130
    },
    {
      "epoch": 0.06695833333333333,
      "grad_norm": 1.0601425170898438,
      "learning_rate": 0.0002970666012732671,
      "loss": 4.111,
      "step": 32140
    },
    {
      "epoch": 0.06697916666666667,
      "grad_norm": 1.0177593231201172,
      "learning_rate": 0.00029706466080951457,
      "loss": 4.1582,
      "step": 32150
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.9709484577178955,
      "learning_rate": 0.00029706271971050084,
      "loss": 4.3543,
      "step": 32160
    },
    {
      "epoch": 0.06702083333333334,
      "grad_norm": 0.973316490650177,
      "learning_rate": 0.0002970607779762344,
      "loss": 4.2795,
      "step": 32170
    },
    {
      "epoch": 0.06704166666666667,
      "grad_norm": 1.0750503540039062,
      "learning_rate": 0.0002970588356067236,
      "loss": 4.2948,
      "step": 32180
    },
    {
      "epoch": 0.0670625,
      "grad_norm": 0.9510324597358704,
      "learning_rate": 0.0002970568926019769,
      "loss": 4.2389,
      "step": 32190
    },
    {
      "epoch": 0.06708333333333333,
      "grad_norm": 1.0179669857025146,
      "learning_rate": 0.00029705494896200256,
      "loss": 4.228,
      "step": 32200
    },
    {
      "epoch": 0.06710416666666667,
      "grad_norm": 0.9962998032569885,
      "learning_rate": 0.0002970530046868091,
      "loss": 4.1854,
      "step": 32210
    },
    {
      "epoch": 0.067125,
      "grad_norm": 1.151671290397644,
      "learning_rate": 0.00029705105977640485,
      "loss": 4.2824,
      "step": 32220
    },
    {
      "epoch": 0.06714583333333334,
      "grad_norm": 1.0096122026443481,
      "learning_rate": 0.0002970491142307982,
      "loss": 4.1377,
      "step": 32230
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 0.9885356426239014,
      "learning_rate": 0.0002970471680499976,
      "loss": 4.1397,
      "step": 32240
    },
    {
      "epoch": 0.0671875,
      "grad_norm": 1.0348219871520996,
      "learning_rate": 0.00029704522123401143,
      "loss": 4.4542,
      "step": 32250
    },
    {
      "epoch": 0.06720833333333333,
      "grad_norm": 0.9086374044418335,
      "learning_rate": 0.0002970432737828481,
      "loss": 4.3893,
      "step": 32260
    },
    {
      "epoch": 0.06722916666666667,
      "grad_norm": 1.0420758724212646,
      "learning_rate": 0.00029704132569651604,
      "loss": 4.272,
      "step": 32270
    },
    {
      "epoch": 0.06725,
      "grad_norm": 1.1006022691726685,
      "learning_rate": 0.0002970393769750237,
      "loss": 4.1973,
      "step": 32280
    },
    {
      "epoch": 0.06727083333333334,
      "grad_norm": 1.0143400430679321,
      "learning_rate": 0.00029703742761837945,
      "loss": 4.2086,
      "step": 32290
    },
    {
      "epoch": 0.06729166666666667,
      "grad_norm": 0.8748378753662109,
      "learning_rate": 0.00029703547762659167,
      "loss": 4.1085,
      "step": 32300
    },
    {
      "epoch": 0.0673125,
      "grad_norm": 1.1935205459594727,
      "learning_rate": 0.0002970335269996688,
      "loss": 4.3373,
      "step": 32310
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 0.9618950486183167,
      "learning_rate": 0.00029703157573761937,
      "loss": 4.4651,
      "step": 32320
    },
    {
      "epoch": 0.06735416666666667,
      "grad_norm": 0.9731774926185608,
      "learning_rate": 0.0002970296238404517,
      "loss": 4.0847,
      "step": 32330
    },
    {
      "epoch": 0.067375,
      "grad_norm": 1.0966829061508179,
      "learning_rate": 0.00029702767130817425,
      "loss": 4.2519,
      "step": 32340
    },
    {
      "epoch": 0.06739583333333334,
      "grad_norm": 1.1372778415679932,
      "learning_rate": 0.0002970257181407955,
      "loss": 3.9446,
      "step": 32350
    },
    {
      "epoch": 0.06741666666666667,
      "grad_norm": 1.1025482416152954,
      "learning_rate": 0.00029702376433832374,
      "loss": 4.3947,
      "step": 32360
    },
    {
      "epoch": 0.0674375,
      "grad_norm": 0.995553195476532,
      "learning_rate": 0.0002970218099007676,
      "loss": 4.2611,
      "step": 32370
    },
    {
      "epoch": 0.06745833333333333,
      "grad_norm": 0.9462963342666626,
      "learning_rate": 0.00029701985482813545,
      "loss": 4.0849,
      "step": 32380
    },
    {
      "epoch": 0.06747916666666667,
      "grad_norm": 0.924542248249054,
      "learning_rate": 0.00029701789912043566,
      "loss": 4.2581,
      "step": 32390
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.9231382012367249,
      "learning_rate": 0.0002970159427776768,
      "loss": 4.1793,
      "step": 32400
    },
    {
      "epoch": 0.06752083333333334,
      "grad_norm": 1.1072468757629395,
      "learning_rate": 0.0002970139857998672,
      "loss": 4.3608,
      "step": 32410
    },
    {
      "epoch": 0.06754166666666667,
      "grad_norm": 1.0322253704071045,
      "learning_rate": 0.0002970120281870154,
      "loss": 4.46,
      "step": 32420
    },
    {
      "epoch": 0.0675625,
      "grad_norm": 0.9904375672340393,
      "learning_rate": 0.00029701006993912985,
      "loss": 4.3306,
      "step": 32430
    },
    {
      "epoch": 0.06758333333333333,
      "grad_norm": 0.9704774022102356,
      "learning_rate": 0.00029700811105621894,
      "loss": 4.4538,
      "step": 32440
    },
    {
      "epoch": 0.06760416666666667,
      "grad_norm": 1.1375775337219238,
      "learning_rate": 0.00029700615153829124,
      "loss": 4.1833,
      "step": 32450
    },
    {
      "epoch": 0.067625,
      "grad_norm": 0.921730101108551,
      "learning_rate": 0.0002970041913853551,
      "loss": 4.3724,
      "step": 32460
    },
    {
      "epoch": 0.06764583333333334,
      "grad_norm": 1.0005464553833008,
      "learning_rate": 0.0002970022305974191,
      "loss": 4.2498,
      "step": 32470
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 0.9617363214492798,
      "learning_rate": 0.0002970002691744916,
      "loss": 4.2483,
      "step": 32480
    },
    {
      "epoch": 0.0676875,
      "grad_norm": 0.9003666043281555,
      "learning_rate": 0.0002969983071165811,
      "loss": 4.1904,
      "step": 32490
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 1.0559524297714233,
      "learning_rate": 0.00029699634442369616,
      "loss": 4.2196,
      "step": 32500
    },
    {
      "epoch": 0.06772916666666666,
      "grad_norm": 0.9558799266815186,
      "learning_rate": 0.00029699438109584517,
      "loss": 4.2993,
      "step": 32510
    },
    {
      "epoch": 0.06775,
      "grad_norm": 1.0957051515579224,
      "learning_rate": 0.00029699241713303665,
      "loss": 4.2495,
      "step": 32520
    },
    {
      "epoch": 0.06777083333333334,
      "grad_norm": 1.0938055515289307,
      "learning_rate": 0.00029699045253527907,
      "loss": 4.24,
      "step": 32530
    },
    {
      "epoch": 0.06779166666666667,
      "grad_norm": 1.0077776908874512,
      "learning_rate": 0.0002969884873025809,
      "loss": 4.2603,
      "step": 32540
    },
    {
      "epoch": 0.0678125,
      "grad_norm": 1.0004987716674805,
      "learning_rate": 0.00029698652143495067,
      "loss": 4.3602,
      "step": 32550
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 1.1183772087097168,
      "learning_rate": 0.00029698455493239683,
      "loss": 4.3316,
      "step": 32560
    },
    {
      "epoch": 0.06785416666666666,
      "grad_norm": 0.9839124083518982,
      "learning_rate": 0.0002969825877949279,
      "loss": 4.3518,
      "step": 32570
    },
    {
      "epoch": 0.067875,
      "grad_norm": 1.1303399801254272,
      "learning_rate": 0.00029698062002255236,
      "loss": 4.2266,
      "step": 32580
    },
    {
      "epoch": 0.06789583333333334,
      "grad_norm": 0.9303259253501892,
      "learning_rate": 0.00029697865161527876,
      "loss": 4.2816,
      "step": 32590
    },
    {
      "epoch": 0.06791666666666667,
      "grad_norm": 0.9288415908813477,
      "learning_rate": 0.0002969766825731155,
      "loss": 4.2588,
      "step": 32600
    },
    {
      "epoch": 0.0679375,
      "grad_norm": 1.0115076303482056,
      "learning_rate": 0.0002969747128960712,
      "loss": 4.2014,
      "step": 32610
    },
    {
      "epoch": 0.06795833333333333,
      "grad_norm": 1.0562102794647217,
      "learning_rate": 0.0002969727425841543,
      "loss": 4.4344,
      "step": 32620
    },
    {
      "epoch": 0.06797916666666666,
      "grad_norm": 0.9947599172592163,
      "learning_rate": 0.0002969707716373733,
      "loss": 4.3029,
      "step": 32630
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.97036212682724,
      "learning_rate": 0.0002969688000557368,
      "loss": 4.1782,
      "step": 32640
    },
    {
      "epoch": 0.06802083333333334,
      "grad_norm": 1.0266863107681274,
      "learning_rate": 0.0002969668278392532,
      "loss": 4.1051,
      "step": 32650
    },
    {
      "epoch": 0.06804166666666667,
      "grad_norm": 0.9962654709815979,
      "learning_rate": 0.00029696485498793113,
      "loss": 4.3932,
      "step": 32660
    },
    {
      "epoch": 0.0680625,
      "grad_norm": 1.0425941944122314,
      "learning_rate": 0.0002969628815017791,
      "loss": 4.3675,
      "step": 32670
    },
    {
      "epoch": 0.06808333333333333,
      "grad_norm": 1.000897765159607,
      "learning_rate": 0.00029696090738080545,
      "loss": 4.3329,
      "step": 32680
    },
    {
      "epoch": 0.06810416666666666,
      "grad_norm": 1.0904040336608887,
      "learning_rate": 0.000296958932625019,
      "loss": 4.3485,
      "step": 32690
    },
    {
      "epoch": 0.068125,
      "grad_norm": 1.0325431823730469,
      "learning_rate": 0.00029695695723442803,
      "loss": 4.257,
      "step": 32700
    },
    {
      "epoch": 0.06814583333333334,
      "grad_norm": 1.0091960430145264,
      "learning_rate": 0.0002969549812090412,
      "loss": 4.1248,
      "step": 32710
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 0.9520382285118103,
      "learning_rate": 0.000296953004548867,
      "loss": 4.3811,
      "step": 32720
    },
    {
      "epoch": 0.0681875,
      "grad_norm": 1.0245757102966309,
      "learning_rate": 0.000296951027253914,
      "loss": 4.2514,
      "step": 32730
    },
    {
      "epoch": 0.06820833333333333,
      "grad_norm": 0.9805724024772644,
      "learning_rate": 0.0002969490493241908,
      "loss": 4.3415,
      "step": 32740
    },
    {
      "epoch": 0.06822916666666666,
      "grad_norm": 1.1063786745071411,
      "learning_rate": 0.0002969470707597058,
      "loss": 4.4432,
      "step": 32750
    },
    {
      "epoch": 0.06825,
      "grad_norm": 0.9825535416603088,
      "learning_rate": 0.00029694509156046766,
      "loss": 4.1744,
      "step": 32760
    },
    {
      "epoch": 0.06827083333333334,
      "grad_norm": 1.0530235767364502,
      "learning_rate": 0.00029694311172648487,
      "loss": 4.4008,
      "step": 32770
    },
    {
      "epoch": 0.06829166666666667,
      "grad_norm": 1.0736507177352905,
      "learning_rate": 0.000296941131257766,
      "loss": 4.257,
      "step": 32780
    },
    {
      "epoch": 0.0683125,
      "grad_norm": 1.0216094255447388,
      "learning_rate": 0.0002969391501543196,
      "loss": 4.2874,
      "step": 32790
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 1.003767490386963,
      "learning_rate": 0.0002969371684161542,
      "loss": 4.3217,
      "step": 32800
    },
    {
      "epoch": 0.06835416666666666,
      "grad_norm": 1.0113537311553955,
      "learning_rate": 0.00029693518604327845,
      "loss": 4.3628,
      "step": 32810
    },
    {
      "epoch": 0.068375,
      "grad_norm": 1.3403656482696533,
      "learning_rate": 0.00029693320303570087,
      "loss": 4.3701,
      "step": 32820
    },
    {
      "epoch": 0.06839583333333334,
      "grad_norm": 1.0981378555297852,
      "learning_rate": 0.00029693121939342997,
      "loss": 4.3982,
      "step": 32830
    },
    {
      "epoch": 0.06841666666666667,
      "grad_norm": 1.0887207984924316,
      "learning_rate": 0.0002969292351164744,
      "loss": 4.4043,
      "step": 32840
    },
    {
      "epoch": 0.0684375,
      "grad_norm": 1.0559393167495728,
      "learning_rate": 0.0002969272502048427,
      "loss": 4.1526,
      "step": 32850
    },
    {
      "epoch": 0.06845833333333333,
      "grad_norm": 1.1102863550186157,
      "learning_rate": 0.00029692526465854337,
      "loss": 4.4034,
      "step": 32860
    },
    {
      "epoch": 0.06847916666666666,
      "grad_norm": 1.058500051498413,
      "learning_rate": 0.00029692327847758506,
      "loss": 4.2642,
      "step": 32870
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.9026384353637695,
      "learning_rate": 0.0002969212916619764,
      "loss": 4.2302,
      "step": 32880
    },
    {
      "epoch": 0.06852083333333334,
      "grad_norm": 1.071529507637024,
      "learning_rate": 0.00029691930421172583,
      "loss": 4.102,
      "step": 32890
    },
    {
      "epoch": 0.06854166666666667,
      "grad_norm": 1.0093495845794678,
      "learning_rate": 0.00029691731612684215,
      "loss": 4.2604,
      "step": 32900
    },
    {
      "epoch": 0.0685625,
      "grad_norm": 1.062759518623352,
      "learning_rate": 0.00029691532740733375,
      "loss": 4.3404,
      "step": 32910
    },
    {
      "epoch": 0.06858333333333333,
      "grad_norm": 0.9080065488815308,
      "learning_rate": 0.0002969133380532092,
      "loss": 4.3264,
      "step": 32920
    },
    {
      "epoch": 0.06860416666666666,
      "grad_norm": 1.0122191905975342,
      "learning_rate": 0.00029691134806447727,
      "loss": 4.1013,
      "step": 32930
    },
    {
      "epoch": 0.068625,
      "grad_norm": 1.1217278242111206,
      "learning_rate": 0.00029690935744114655,
      "loss": 4.2539,
      "step": 32940
    },
    {
      "epoch": 0.06864583333333334,
      "grad_norm": 1.0458003282546997,
      "learning_rate": 0.00029690736618322546,
      "loss": 4.1501,
      "step": 32950
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 0.9443489909172058,
      "learning_rate": 0.0002969053742907227,
      "loss": 4.2855,
      "step": 32960
    },
    {
      "epoch": 0.0686875,
      "grad_norm": 1.061269998550415,
      "learning_rate": 0.00029690338176364685,
      "loss": 4.3411,
      "step": 32970
    },
    {
      "epoch": 0.06870833333333333,
      "grad_norm": 1.003389835357666,
      "learning_rate": 0.00029690138860200655,
      "loss": 4.3131,
      "step": 32980
    },
    {
      "epoch": 0.06872916666666666,
      "grad_norm": 0.98228520154953,
      "learning_rate": 0.00029689939480581043,
      "loss": 4.3788,
      "step": 32990
    },
    {
      "epoch": 0.06875,
      "grad_norm": 1.1451237201690674,
      "learning_rate": 0.0002968974003750671,
      "loss": 4.305,
      "step": 33000
    },
    {
      "epoch": 0.06875,
      "eval_loss": 3.9766337871551514,
      "eval_runtime": 7.3391,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 33000
    },
    {
      "epoch": 0.06877083333333334,
      "grad_norm": 0.9180804491043091,
      "learning_rate": 0.00029689540530978507,
      "loss": 4.378,
      "step": 33010
    },
    {
      "epoch": 0.06879166666666667,
      "grad_norm": 1.052445650100708,
      "learning_rate": 0.00029689340960997306,
      "loss": 4.155,
      "step": 33020
    },
    {
      "epoch": 0.0688125,
      "grad_norm": 1.0020674467086792,
      "learning_rate": 0.0002968914132756397,
      "loss": 4.2074,
      "step": 33030
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 0.9277202486991882,
      "learning_rate": 0.00029688941630679356,
      "loss": 4.1911,
      "step": 33040
    },
    {
      "epoch": 0.06885416666666666,
      "grad_norm": 4.863597393035889,
      "learning_rate": 0.0002968874187034433,
      "loss": 4.3836,
      "step": 33050
    },
    {
      "epoch": 0.068875,
      "grad_norm": 1.2434848546981812,
      "learning_rate": 0.0002968854204655975,
      "loss": 4.4515,
      "step": 33060
    },
    {
      "epoch": 0.06889583333333334,
      "grad_norm": 1.0846335887908936,
      "learning_rate": 0.0002968834215932648,
      "loss": 4.2121,
      "step": 33070
    },
    {
      "epoch": 0.06891666666666667,
      "grad_norm": 1.0133790969848633,
      "learning_rate": 0.00029688142208645393,
      "loss": 4.1439,
      "step": 33080
    },
    {
      "epoch": 0.0689375,
      "grad_norm": 1.0247008800506592,
      "learning_rate": 0.00029687942194517346,
      "loss": 4.3565,
      "step": 33090
    },
    {
      "epoch": 0.06895833333333333,
      "grad_norm": 0.9816890358924866,
      "learning_rate": 0.000296877421169432,
      "loss": 4.3082,
      "step": 33100
    },
    {
      "epoch": 0.06897916666666666,
      "grad_norm": 1.0266807079315186,
      "learning_rate": 0.0002968754197592382,
      "loss": 4.2364,
      "step": 33110
    },
    {
      "epoch": 0.069,
      "grad_norm": 1.0334256887435913,
      "learning_rate": 0.0002968734177146007,
      "loss": 4.3272,
      "step": 33120
    },
    {
      "epoch": 0.06902083333333334,
      "grad_norm": 1.1342778205871582,
      "learning_rate": 0.0002968714150355282,
      "loss": 4.2513,
      "step": 33130
    },
    {
      "epoch": 0.06904166666666667,
      "grad_norm": 1.0204815864562988,
      "learning_rate": 0.0002968694117220293,
      "loss": 4.2122,
      "step": 33140
    },
    {
      "epoch": 0.0690625,
      "grad_norm": 1.070939540863037,
      "learning_rate": 0.00029686740777411274,
      "loss": 4.3353,
      "step": 33150
    },
    {
      "epoch": 0.06908333333333333,
      "grad_norm": 1.127860426902771,
      "learning_rate": 0.0002968654031917871,
      "loss": 4.311,
      "step": 33160
    },
    {
      "epoch": 0.06910416666666666,
      "grad_norm": 1.0560699701309204,
      "learning_rate": 0.00029686339797506097,
      "loss": 4.1561,
      "step": 33170
    },
    {
      "epoch": 0.069125,
      "grad_norm": 1.0104788541793823,
      "learning_rate": 0.00029686139212394317,
      "loss": 4.4386,
      "step": 33180
    },
    {
      "epoch": 0.06914583333333334,
      "grad_norm": 0.9854741096496582,
      "learning_rate": 0.0002968593856384423,
      "loss": 4.2338,
      "step": 33190
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 0.9632083773612976,
      "learning_rate": 0.00029685737851856695,
      "loss": 4.3387,
      "step": 33200
    },
    {
      "epoch": 0.0691875,
      "grad_norm": 1.0647175312042236,
      "learning_rate": 0.0002968553707643259,
      "loss": 4.1898,
      "step": 33210
    },
    {
      "epoch": 0.06920833333333333,
      "grad_norm": 0.9565262794494629,
      "learning_rate": 0.00029685336237572776,
      "loss": 4.4305,
      "step": 33220
    },
    {
      "epoch": 0.06922916666666666,
      "grad_norm": 0.9644252061843872,
      "learning_rate": 0.0002968513533527812,
      "loss": 4.1843,
      "step": 33230
    },
    {
      "epoch": 0.06925,
      "grad_norm": 0.9967952370643616,
      "learning_rate": 0.000296849343695495,
      "loss": 4.2576,
      "step": 33240
    },
    {
      "epoch": 0.06927083333333334,
      "grad_norm": 0.9282892942428589,
      "learning_rate": 0.0002968473334038777,
      "loss": 4.3351,
      "step": 33250
    },
    {
      "epoch": 0.06929166666666667,
      "grad_norm": 1.0387423038482666,
      "learning_rate": 0.000296845322477938,
      "loss": 4.3491,
      "step": 33260
    },
    {
      "epoch": 0.0693125,
      "grad_norm": 1.0524051189422607,
      "learning_rate": 0.00029684331091768475,
      "loss": 4.4626,
      "step": 33270
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 1.0386234521865845,
      "learning_rate": 0.0002968412987231265,
      "loss": 4.2772,
      "step": 33280
    },
    {
      "epoch": 0.06935416666666666,
      "grad_norm": 1.0205007791519165,
      "learning_rate": 0.00029683928589427193,
      "loss": 4.2868,
      "step": 33290
    },
    {
      "epoch": 0.069375,
      "grad_norm": 1.362518310546875,
      "learning_rate": 0.00029683727243112973,
      "loss": 4.3343,
      "step": 33300
    },
    {
      "epoch": 0.06939583333333334,
      "grad_norm": 0.9411612153053284,
      "learning_rate": 0.00029683525833370866,
      "loss": 4.3055,
      "step": 33310
    },
    {
      "epoch": 0.06941666666666667,
      "grad_norm": 0.9928116202354431,
      "learning_rate": 0.0002968332436020174,
      "loss": 4.3378,
      "step": 33320
    },
    {
      "epoch": 0.0694375,
      "grad_norm": 1.0925042629241943,
      "learning_rate": 0.00029683122823606466,
      "loss": 4.1336,
      "step": 33330
    },
    {
      "epoch": 0.06945833333333333,
      "grad_norm": 0.9925152063369751,
      "learning_rate": 0.0002968292122358591,
      "loss": 4.1627,
      "step": 33340
    },
    {
      "epoch": 0.06947916666666666,
      "grad_norm": 0.9361034035682678,
      "learning_rate": 0.0002968271956014095,
      "loss": 4.418,
      "step": 33350
    },
    {
      "epoch": 0.0695,
      "grad_norm": 1.032251000404358,
      "learning_rate": 0.00029682517833272453,
      "loss": 4.3163,
      "step": 33360
    },
    {
      "epoch": 0.06952083333333334,
      "grad_norm": 1.0707929134368896,
      "learning_rate": 0.0002968231604298129,
      "loss": 4.4013,
      "step": 33370
    },
    {
      "epoch": 0.06954166666666667,
      "grad_norm": 1.0018175840377808,
      "learning_rate": 0.0002968211418926833,
      "loss": 4.0167,
      "step": 33380
    },
    {
      "epoch": 0.0695625,
      "grad_norm": 1.0550825595855713,
      "learning_rate": 0.0002968191227213445,
      "loss": 4.1516,
      "step": 33390
    },
    {
      "epoch": 0.06958333333333333,
      "grad_norm": 0.9887292385101318,
      "learning_rate": 0.0002968171029158053,
      "loss": 4.2715,
      "step": 33400
    },
    {
      "epoch": 0.06960416666666666,
      "grad_norm": 0.9478231072425842,
      "learning_rate": 0.0002968150824760742,
      "loss": 4.3464,
      "step": 33410
    },
    {
      "epoch": 0.069625,
      "grad_norm": 1.0256842374801636,
      "learning_rate": 0.00029681306140216015,
      "loss": 4.1827,
      "step": 33420
    },
    {
      "epoch": 0.06964583333333334,
      "grad_norm": 1.0969114303588867,
      "learning_rate": 0.0002968110396940717,
      "loss": 4.3824,
      "step": 33430
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 0.9579346179962158,
      "learning_rate": 0.0002968090173518177,
      "loss": 4.1246,
      "step": 33440
    },
    {
      "epoch": 0.0696875,
      "grad_norm": 0.9502301216125488,
      "learning_rate": 0.00029680699437540693,
      "loss": 4.254,
      "step": 33450
    },
    {
      "epoch": 0.06970833333333333,
      "grad_norm": 1.006314754486084,
      "learning_rate": 0.00029680497076484797,
      "loss": 4.3095,
      "step": 33460
    },
    {
      "epoch": 0.06972916666666666,
      "grad_norm": 0.9489176273345947,
      "learning_rate": 0.0002968029465201497,
      "loss": 4.2037,
      "step": 33470
    },
    {
      "epoch": 0.06975,
      "grad_norm": 2.0192811489105225,
      "learning_rate": 0.0002968009216413208,
      "loss": 4.2006,
      "step": 33480
    },
    {
      "epoch": 0.06977083333333334,
      "grad_norm": 1.0147141218185425,
      "learning_rate": 0.00029679889612836994,
      "loss": 4.3928,
      "step": 33490
    },
    {
      "epoch": 0.06979166666666667,
      "grad_norm": 1.1392111778259277,
      "learning_rate": 0.000296796869981306,
      "loss": 4.2678,
      "step": 33500
    },
    {
      "epoch": 0.0698125,
      "grad_norm": 1.2039529085159302,
      "learning_rate": 0.00029679484320013777,
      "loss": 4.2013,
      "step": 33510
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 1.049970269203186,
      "learning_rate": 0.0002967928157848739,
      "loss": 4.1846,
      "step": 33520
    },
    {
      "epoch": 0.06985416666666666,
      "grad_norm": 1.0602142810821533,
      "learning_rate": 0.0002967907877355231,
      "loss": 4.3167,
      "step": 33530
    },
    {
      "epoch": 0.069875,
      "grad_norm": 1.002989649772644,
      "learning_rate": 0.0002967887590520942,
      "loss": 4.2868,
      "step": 33540
    },
    {
      "epoch": 0.06989583333333334,
      "grad_norm": 0.9942780137062073,
      "learning_rate": 0.000296786729734596,
      "loss": 4.256,
      "step": 33550
    },
    {
      "epoch": 0.06991666666666667,
      "grad_norm": 1.2787196636199951,
      "learning_rate": 0.00029678469978303726,
      "loss": 4.3857,
      "step": 33560
    },
    {
      "epoch": 0.0699375,
      "grad_norm": 1.2211236953735352,
      "learning_rate": 0.0002967826691974267,
      "loss": 4.2277,
      "step": 33570
    },
    {
      "epoch": 0.06995833333333333,
      "grad_norm": 0.9823513627052307,
      "learning_rate": 0.00029678063797777306,
      "loss": 4.3803,
      "step": 33580
    },
    {
      "epoch": 0.06997916666666666,
      "grad_norm": 1.0370471477508545,
      "learning_rate": 0.00029677860612408526,
      "loss": 4.3347,
      "step": 33590
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.057334303855896,
      "learning_rate": 0.00029677657363637186,
      "loss": 4.3094,
      "step": 33600
    },
    {
      "epoch": 0.07002083333333334,
      "grad_norm": 1.0810546875,
      "learning_rate": 0.0002967745405146418,
      "loss": 4.1572,
      "step": 33610
    },
    {
      "epoch": 0.07004166666666667,
      "grad_norm": 0.9764557480812073,
      "learning_rate": 0.0002967725067589039,
      "loss": 4.1618,
      "step": 33620
    },
    {
      "epoch": 0.0700625,
      "grad_norm": 1.056733250617981,
      "learning_rate": 0.0002967704723691668,
      "loss": 4.3858,
      "step": 33630
    },
    {
      "epoch": 0.07008333333333333,
      "grad_norm": 1.1188812255859375,
      "learning_rate": 0.00029676843734543937,
      "loss": 4.3701,
      "step": 33640
    },
    {
      "epoch": 0.07010416666666666,
      "grad_norm": 0.9588390588760376,
      "learning_rate": 0.0002967664016877304,
      "loss": 4.164,
      "step": 33650
    },
    {
      "epoch": 0.070125,
      "grad_norm": 1.5695139169692993,
      "learning_rate": 0.00029676436539604863,
      "loss": 4.352,
      "step": 33660
    },
    {
      "epoch": 0.07014583333333334,
      "grad_norm": 0.9656792283058167,
      "learning_rate": 0.0002967623284704029,
      "loss": 4.1672,
      "step": 33670
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 1.090959072113037,
      "learning_rate": 0.00029676029091080204,
      "loss": 4.3609,
      "step": 33680
    },
    {
      "epoch": 0.0701875,
      "grad_norm": 1.0121456384658813,
      "learning_rate": 0.0002967582527172548,
      "loss": 4.2559,
      "step": 33690
    },
    {
      "epoch": 0.07020833333333333,
      "grad_norm": 0.9807358980178833,
      "learning_rate": 0.00029675621388976995,
      "loss": 4.2607,
      "step": 33700
    },
    {
      "epoch": 0.07022916666666666,
      "grad_norm": 1.0291589498519897,
      "learning_rate": 0.0002967541744283564,
      "loss": 4.1221,
      "step": 33710
    },
    {
      "epoch": 0.07025,
      "grad_norm": 1.2777986526489258,
      "learning_rate": 0.0002967521343330229,
      "loss": 4.2583,
      "step": 33720
    },
    {
      "epoch": 0.07027083333333334,
      "grad_norm": 1.0259708166122437,
      "learning_rate": 0.00029675009360377824,
      "loss": 4.0864,
      "step": 33730
    },
    {
      "epoch": 0.07029166666666667,
      "grad_norm": 1.0457993745803833,
      "learning_rate": 0.00029674805224063136,
      "loss": 4.2748,
      "step": 33740
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 0.8918589949607849,
      "learning_rate": 0.0002967460102435909,
      "loss": 4.2589,
      "step": 33750
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 0.9900914430618286,
      "learning_rate": 0.00029674396761266575,
      "loss": 4.375,
      "step": 33760
    },
    {
      "epoch": 0.07035416666666666,
      "grad_norm": 0.9397871494293213,
      "learning_rate": 0.00029674192434786474,
      "loss": 4.3086,
      "step": 33770
    },
    {
      "epoch": 0.070375,
      "grad_norm": 1.078273892402649,
      "learning_rate": 0.00029673988044919675,
      "loss": 4.1706,
      "step": 33780
    },
    {
      "epoch": 0.07039583333333334,
      "grad_norm": 0.9471835494041443,
      "learning_rate": 0.0002967378359166705,
      "loss": 4.1879,
      "step": 33790
    },
    {
      "epoch": 0.07041666666666667,
      "grad_norm": 1.0595194101333618,
      "learning_rate": 0.00029673579075029495,
      "loss": 4.1672,
      "step": 33800
    },
    {
      "epoch": 0.0704375,
      "grad_norm": 1.0816926956176758,
      "learning_rate": 0.00029673374495007887,
      "loss": 4.1423,
      "step": 33810
    },
    {
      "epoch": 0.07045833333333333,
      "grad_norm": 0.9800466895103455,
      "learning_rate": 0.00029673169851603104,
      "loss": 4.2636,
      "step": 33820
    },
    {
      "epoch": 0.07047916666666666,
      "grad_norm": 0.9375953674316406,
      "learning_rate": 0.00029672965144816036,
      "loss": 4.4455,
      "step": 33830
    },
    {
      "epoch": 0.0705,
      "grad_norm": 1.008707880973816,
      "learning_rate": 0.00029672760374647566,
      "loss": 4.3723,
      "step": 33840
    },
    {
      "epoch": 0.07052083333333334,
      "grad_norm": 0.9676079750061035,
      "learning_rate": 0.00029672555541098583,
      "loss": 4.1632,
      "step": 33850
    },
    {
      "epoch": 0.07054166666666667,
      "grad_norm": 1.024833083152771,
      "learning_rate": 0.00029672350644169965,
      "loss": 4.3297,
      "step": 33860
    },
    {
      "epoch": 0.0705625,
      "grad_norm": 0.988844096660614,
      "learning_rate": 0.000296721456838626,
      "loss": 4.2086,
      "step": 33870
    },
    {
      "epoch": 0.07058333333333333,
      "grad_norm": 0.960258960723877,
      "learning_rate": 0.0002967194066017737,
      "loss": 4.3051,
      "step": 33880
    },
    {
      "epoch": 0.07060416666666666,
      "grad_norm": 0.8892531394958496,
      "learning_rate": 0.00029671735573115173,
      "loss": 4.3353,
      "step": 33890
    },
    {
      "epoch": 0.070625,
      "grad_norm": 0.8868697285652161,
      "learning_rate": 0.0002967153042267688,
      "loss": 4.1408,
      "step": 33900
    },
    {
      "epoch": 0.07064583333333334,
      "grad_norm": 1.032056212425232,
      "learning_rate": 0.0002967132520886338,
      "loss": 4.4293,
      "step": 33910
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 1.0453076362609863,
      "learning_rate": 0.00029671119931675566,
      "loss": 4.3182,
      "step": 33920
    },
    {
      "epoch": 0.0706875,
      "grad_norm": 0.964739203453064,
      "learning_rate": 0.00029670914591114323,
      "loss": 4.1877,
      "step": 33930
    },
    {
      "epoch": 0.07070833333333333,
      "grad_norm": 0.9994960427284241,
      "learning_rate": 0.00029670709187180536,
      "loss": 4.2377,
      "step": 33940
    },
    {
      "epoch": 0.07072916666666666,
      "grad_norm": 0.9611887335777283,
      "learning_rate": 0.00029670503719875083,
      "loss": 4.2985,
      "step": 33950
    },
    {
      "epoch": 0.07075,
      "grad_norm": 1.0542434453964233,
      "learning_rate": 0.00029670298189198876,
      "loss": 4.1745,
      "step": 33960
    },
    {
      "epoch": 0.07077083333333334,
      "grad_norm": 0.9669979214668274,
      "learning_rate": 0.00029670092595152775,
      "loss": 4.3092,
      "step": 33970
    },
    {
      "epoch": 0.07079166666666667,
      "grad_norm": 0.9694851636886597,
      "learning_rate": 0.00029669886937737686,
      "loss": 4.4631,
      "step": 33980
    },
    {
      "epoch": 0.0708125,
      "grad_norm": 1.0515763759613037,
      "learning_rate": 0.00029669681216954493,
      "loss": 4.2232,
      "step": 33990
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 1.0001769065856934,
      "learning_rate": 0.00029669475432804086,
      "loss": 4.3174,
      "step": 34000
    },
    {
      "epoch": 0.07083333333333333,
      "eval_loss": 3.9766039848327637,
      "eval_runtime": 7.302,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 34000
    },
    {
      "epoch": 0.07085416666666666,
      "grad_norm": 1.032307744026184,
      "learning_rate": 0.00029669269585287346,
      "loss": 4.3331,
      "step": 34010
    },
    {
      "epoch": 0.070875,
      "grad_norm": 0.968065083026886,
      "learning_rate": 0.0002966906367440517,
      "loss": 4.2465,
      "step": 34020
    },
    {
      "epoch": 0.07089583333333334,
      "grad_norm": 0.9865780472755432,
      "learning_rate": 0.00029668857700158445,
      "loss": 4.2219,
      "step": 34030
    },
    {
      "epoch": 0.07091666666666667,
      "grad_norm": 1.08082914352417,
      "learning_rate": 0.0002966865166254806,
      "loss": 4.436,
      "step": 34040
    },
    {
      "epoch": 0.0709375,
      "grad_norm": 1.1920462846755981,
      "learning_rate": 0.0002966844556157491,
      "loss": 4.3487,
      "step": 34050
    },
    {
      "epoch": 0.07095833333333333,
      "grad_norm": 1.0872615575790405,
      "learning_rate": 0.0002966823939723988,
      "loss": 4.1284,
      "step": 34060
    },
    {
      "epoch": 0.07097916666666666,
      "grad_norm": 1.002556324005127,
      "learning_rate": 0.0002966803316954386,
      "loss": 4.1937,
      "step": 34070
    },
    {
      "epoch": 0.071,
      "grad_norm": 1.0358808040618896,
      "learning_rate": 0.0002966782687848775,
      "loss": 4.1792,
      "step": 34080
    },
    {
      "epoch": 0.07102083333333334,
      "grad_norm": 0.9325762987136841,
      "learning_rate": 0.0002966762052407242,
      "loss": 4.2454,
      "step": 34090
    },
    {
      "epoch": 0.07104166666666667,
      "grad_norm": 1.018866777420044,
      "learning_rate": 0.00029667414106298787,
      "loss": 4.1141,
      "step": 34100
    },
    {
      "epoch": 0.0710625,
      "grad_norm": 1.0298936367034912,
      "learning_rate": 0.0002966720762516773,
      "loss": 4.2686,
      "step": 34110
    },
    {
      "epoch": 0.07108333333333333,
      "grad_norm": 1.019203543663025,
      "learning_rate": 0.0002966700108068013,
      "loss": 4.2749,
      "step": 34120
    },
    {
      "epoch": 0.07110416666666666,
      "grad_norm": 0.8846374750137329,
      "learning_rate": 0.00029666794472836907,
      "loss": 4.1697,
      "step": 34130
    },
    {
      "epoch": 0.071125,
      "grad_norm": 0.9350606799125671,
      "learning_rate": 0.00029666587801638924,
      "loss": 4.1541,
      "step": 34140
    },
    {
      "epoch": 0.07114583333333334,
      "grad_norm": 0.9974170327186584,
      "learning_rate": 0.00029666381067087094,
      "loss": 4.3127,
      "step": 34150
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 0.9584476947784424,
      "learning_rate": 0.00029666174269182306,
      "loss": 4.1934,
      "step": 34160
    },
    {
      "epoch": 0.0711875,
      "grad_norm": 1.0114625692367554,
      "learning_rate": 0.00029665967407925444,
      "loss": 4.391,
      "step": 34170
    },
    {
      "epoch": 0.07120833333333333,
      "grad_norm": 1.000422716140747,
      "learning_rate": 0.0002966576048331741,
      "loss": 4.1838,
      "step": 34180
    },
    {
      "epoch": 0.07122916666666666,
      "grad_norm": 0.9571394324302673,
      "learning_rate": 0.00029665553495359097,
      "loss": 4.3217,
      "step": 34190
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.9941691756248474,
      "learning_rate": 0.00029665346444051395,
      "loss": 4.1785,
      "step": 34200
    },
    {
      "epoch": 0.07127083333333334,
      "grad_norm": 1.039663314819336,
      "learning_rate": 0.0002966513932939521,
      "loss": 4.1335,
      "step": 34210
    },
    {
      "epoch": 0.07129166666666667,
      "grad_norm": 0.9541038870811462,
      "learning_rate": 0.00029664932151391414,
      "loss": 4.3531,
      "step": 34220
    },
    {
      "epoch": 0.0713125,
      "grad_norm": 0.9889103174209595,
      "learning_rate": 0.0002966472491004093,
      "loss": 4.3378,
      "step": 34230
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 1.1094043254852295,
      "learning_rate": 0.0002966451760534463,
      "loss": 4.292,
      "step": 34240
    },
    {
      "epoch": 0.07135416666666666,
      "grad_norm": 1.004840612411499,
      "learning_rate": 0.00029664310237303423,
      "loss": 4.2254,
      "step": 34250
    },
    {
      "epoch": 0.071375,
      "grad_norm": 0.9653152823448181,
      "learning_rate": 0.000296641028059182,
      "loss": 4.1459,
      "step": 34260
    },
    {
      "epoch": 0.07139583333333334,
      "grad_norm": 1.130772590637207,
      "learning_rate": 0.00029663895311189854,
      "loss": 4.3682,
      "step": 34270
    },
    {
      "epoch": 0.07141666666666667,
      "grad_norm": 1.0168697834014893,
      "learning_rate": 0.0002966368775311928,
      "loss": 4.2592,
      "step": 34280
    },
    {
      "epoch": 0.0714375,
      "grad_norm": 1.0172371864318848,
      "learning_rate": 0.0002966348013170739,
      "loss": 4.2642,
      "step": 34290
    },
    {
      "epoch": 0.07145833333333333,
      "grad_norm": 0.9634628891944885,
      "learning_rate": 0.00029663272446955066,
      "loss": 4.4043,
      "step": 34300
    },
    {
      "epoch": 0.07147916666666666,
      "grad_norm": 1.049019455909729,
      "learning_rate": 0.0002966306469886321,
      "loss": 4.2225,
      "step": 34310
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.958480179309845,
      "learning_rate": 0.00029662856887432715,
      "loss": 4.3906,
      "step": 34320
    },
    {
      "epoch": 0.07152083333333334,
      "grad_norm": 0.872163712978363,
      "learning_rate": 0.00029662649012664487,
      "loss": 4.1263,
      "step": 34330
    },
    {
      "epoch": 0.07154166666666667,
      "grad_norm": 1.043160080909729,
      "learning_rate": 0.00029662441074559416,
      "loss": 4.245,
      "step": 34340
    },
    {
      "epoch": 0.0715625,
      "grad_norm": 1.0295312404632568,
      "learning_rate": 0.000296622330731184,
      "loss": 4.3297,
      "step": 34350
    },
    {
      "epoch": 0.07158333333333333,
      "grad_norm": 0.9725130796432495,
      "learning_rate": 0.00029662025008342347,
      "loss": 4.287,
      "step": 34360
    },
    {
      "epoch": 0.07160416666666666,
      "grad_norm": 0.9756497144699097,
      "learning_rate": 0.00029661816880232147,
      "loss": 4.0978,
      "step": 34370
    },
    {
      "epoch": 0.071625,
      "grad_norm": 1.0467344522476196,
      "learning_rate": 0.000296616086887887,
      "loss": 4.2982,
      "step": 34380
    },
    {
      "epoch": 0.07164583333333334,
      "grad_norm": 0.9887794852256775,
      "learning_rate": 0.0002966140043401291,
      "loss": 4.2183,
      "step": 34390
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 1.0157897472381592,
      "learning_rate": 0.0002966119211590567,
      "loss": 4.1436,
      "step": 34400
    },
    {
      "epoch": 0.0716875,
      "grad_norm": 1.0315968990325928,
      "learning_rate": 0.0002966098373446789,
      "loss": 4.3393,
      "step": 34410
    },
    {
      "epoch": 0.07170833333333333,
      "grad_norm": 1.0053242444992065,
      "learning_rate": 0.0002966077528970046,
      "loss": 4.2162,
      "step": 34420
    },
    {
      "epoch": 0.07172916666666666,
      "grad_norm": 1.0045655965805054,
      "learning_rate": 0.00029660566781604283,
      "loss": 4.3897,
      "step": 34430
    },
    {
      "epoch": 0.07175,
      "grad_norm": 1.0487866401672363,
      "learning_rate": 0.00029660358210180257,
      "loss": 4.3456,
      "step": 34440
    },
    {
      "epoch": 0.07177083333333334,
      "grad_norm": 0.978655993938446,
      "learning_rate": 0.00029660149575429294,
      "loss": 4.2439,
      "step": 34450
    },
    {
      "epoch": 0.07179166666666667,
      "grad_norm": 1.0216819047927856,
      "learning_rate": 0.0002965994087735228,
      "loss": 4.3437,
      "step": 34460
    },
    {
      "epoch": 0.0718125,
      "grad_norm": 0.9761863350868225,
      "learning_rate": 0.00029659732115950134,
      "loss": 4.1543,
      "step": 34470
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 1.0277326107025146,
      "learning_rate": 0.00029659523291223743,
      "loss": 4.2809,
      "step": 34480
    },
    {
      "epoch": 0.07185416666666666,
      "grad_norm": 1.0459383726119995,
      "learning_rate": 0.0002965931440317401,
      "loss": 4.1671,
      "step": 34490
    },
    {
      "epoch": 0.071875,
      "grad_norm": 0.9588557481765747,
      "learning_rate": 0.00029659105451801843,
      "loss": 4.2982,
      "step": 34500
    },
    {
      "epoch": 0.07189583333333334,
      "grad_norm": 0.9843313694000244,
      "learning_rate": 0.00029658896437108145,
      "loss": 4.2418,
      "step": 34510
    },
    {
      "epoch": 0.07191666666666667,
      "grad_norm": 0.9792285561561584,
      "learning_rate": 0.0002965868735909382,
      "loss": 4.0765,
      "step": 34520
    },
    {
      "epoch": 0.0719375,
      "grad_norm": 1.0046052932739258,
      "learning_rate": 0.0002965847821775976,
      "loss": 4.2607,
      "step": 34530
    },
    {
      "epoch": 0.07195833333333333,
      "grad_norm": 0.9365767240524292,
      "learning_rate": 0.0002965826901310688,
      "loss": 4.2821,
      "step": 34540
    },
    {
      "epoch": 0.07197916666666666,
      "grad_norm": 1.1311904191970825,
      "learning_rate": 0.00029658059745136086,
      "loss": 4.201,
      "step": 34550
    },
    {
      "epoch": 0.072,
      "grad_norm": 1.037315845489502,
      "learning_rate": 0.0002965785041384827,
      "loss": 4.2704,
      "step": 34560
    },
    {
      "epoch": 0.07202083333333334,
      "grad_norm": 1.0689465999603271,
      "learning_rate": 0.0002965764101924434,
      "loss": 4.3351,
      "step": 34570
    },
    {
      "epoch": 0.07204166666666667,
      "grad_norm": 0.8790754079818726,
      "learning_rate": 0.00029657431561325203,
      "loss": 4.168,
      "step": 34580
    },
    {
      "epoch": 0.0720625,
      "grad_norm": 0.9774017930030823,
      "learning_rate": 0.00029657222040091767,
      "loss": 4.2823,
      "step": 34590
    },
    {
      "epoch": 0.07208333333333333,
      "grad_norm": 1.071433663368225,
      "learning_rate": 0.00029657012455544936,
      "loss": 4.2664,
      "step": 34600
    },
    {
      "epoch": 0.07210416666666666,
      "grad_norm": 1.0178302526474,
      "learning_rate": 0.0002965680280768561,
      "loss": 4.3951,
      "step": 34610
    },
    {
      "epoch": 0.072125,
      "grad_norm": 1.004896879196167,
      "learning_rate": 0.000296565930965147,
      "loss": 4.3398,
      "step": 34620
    },
    {
      "epoch": 0.07214583333333334,
      "grad_norm": 1.0030711889266968,
      "learning_rate": 0.000296563833220331,
      "loss": 4.1789,
      "step": 34630
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 1.0588778257369995,
      "learning_rate": 0.00029656173484241737,
      "loss": 4.2594,
      "step": 34640
    },
    {
      "epoch": 0.0721875,
      "grad_norm": 1.000328779220581,
      "learning_rate": 0.0002965596358314149,
      "loss": 4.3541,
      "step": 34650
    },
    {
      "epoch": 0.07220833333333333,
      "grad_norm": 1.0186045169830322,
      "learning_rate": 0.00029655753618733295,
      "loss": 4.2252,
      "step": 34660
    },
    {
      "epoch": 0.07222916666666666,
      "grad_norm": 0.9762644171714783,
      "learning_rate": 0.00029655543591018045,
      "loss": 4.1286,
      "step": 34670
    },
    {
      "epoch": 0.07225,
      "grad_norm": 0.9971075654029846,
      "learning_rate": 0.0002965533349999664,
      "loss": 4.1912,
      "step": 34680
    },
    {
      "epoch": 0.07227083333333334,
      "grad_norm": 1.1415899991989136,
      "learning_rate": 0.0002965512334567001,
      "loss": 4.3711,
      "step": 34690
    },
    {
      "epoch": 0.07229166666666667,
      "grad_norm": 0.9676765203475952,
      "learning_rate": 0.0002965491312803903,
      "loss": 4.1998,
      "step": 34700
    },
    {
      "epoch": 0.0723125,
      "grad_norm": 1.0560040473937988,
      "learning_rate": 0.0002965470284710464,
      "loss": 4.1433,
      "step": 34710
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 0.9293391108512878,
      "learning_rate": 0.0002965449250286773,
      "loss": 4.3518,
      "step": 34720
    },
    {
      "epoch": 0.07235416666666666,
      "grad_norm": 1.039145827293396,
      "learning_rate": 0.00029654282095329206,
      "loss": 4.2626,
      "step": 34730
    },
    {
      "epoch": 0.072375,
      "grad_norm": 1.0207459926605225,
      "learning_rate": 0.00029654071624489995,
      "loss": 4.2221,
      "step": 34740
    },
    {
      "epoch": 0.07239583333333334,
      "grad_norm": 0.9631427526473999,
      "learning_rate": 0.00029653861090350985,
      "loss": 4.3325,
      "step": 34750
    },
    {
      "epoch": 0.07241666666666667,
      "grad_norm": 1.0270411968231201,
      "learning_rate": 0.000296536504929131,
      "loss": 4.4065,
      "step": 34760
    },
    {
      "epoch": 0.0724375,
      "grad_norm": 0.9893029928207397,
      "learning_rate": 0.0002965343983217725,
      "loss": 4.1198,
      "step": 34770
    },
    {
      "epoch": 0.07245833333333333,
      "grad_norm": 1.2046300172805786,
      "learning_rate": 0.00029653229108144336,
      "loss": 4.3879,
      "step": 34780
    },
    {
      "epoch": 0.07247916666666666,
      "grad_norm": 1.05726957321167,
      "learning_rate": 0.00029653018320815273,
      "loss": 4.0636,
      "step": 34790
    },
    {
      "epoch": 0.0725,
      "grad_norm": 1.1204230785369873,
      "learning_rate": 0.00029652807470190965,
      "loss": 4.2599,
      "step": 34800
    },
    {
      "epoch": 0.07252083333333334,
      "grad_norm": 0.9459593296051025,
      "learning_rate": 0.0002965259655627234,
      "loss": 4.4139,
      "step": 34810
    },
    {
      "epoch": 0.07254166666666667,
      "grad_norm": 1.1900548934936523,
      "learning_rate": 0.0002965238557906029,
      "loss": 4.3191,
      "step": 34820
    },
    {
      "epoch": 0.0725625,
      "grad_norm": 0.9606457948684692,
      "learning_rate": 0.0002965217453855573,
      "loss": 4.1946,
      "step": 34830
    },
    {
      "epoch": 0.07258333333333333,
      "grad_norm": 0.994973361492157,
      "learning_rate": 0.00029651963434759585,
      "loss": 4.3177,
      "step": 34840
    },
    {
      "epoch": 0.07260416666666666,
      "grad_norm": 0.9644761085510254,
      "learning_rate": 0.0002965175226767276,
      "loss": 4.1767,
      "step": 34850
    },
    {
      "epoch": 0.072625,
      "grad_norm": 0.930971086025238,
      "learning_rate": 0.00029651541037296154,
      "loss": 4.5764,
      "step": 34860
    },
    {
      "epoch": 0.07264583333333334,
      "grad_norm": 1.0744953155517578,
      "learning_rate": 0.00029651329743630696,
      "loss": 4.2942,
      "step": 34870
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 0.9004893898963928,
      "learning_rate": 0.0002965111838667729,
      "loss": 4.3368,
      "step": 34880
    },
    {
      "epoch": 0.0726875,
      "grad_norm": 0.8773131370544434,
      "learning_rate": 0.00029650906966436854,
      "loss": 4.3238,
      "step": 34890
    },
    {
      "epoch": 0.07270833333333333,
      "grad_norm": 0.977354884147644,
      "learning_rate": 0.000296506954829103,
      "loss": 4.3787,
      "step": 34900
    },
    {
      "epoch": 0.07272916666666666,
      "grad_norm": 1.01588773727417,
      "learning_rate": 0.0002965048393609854,
      "loss": 4.0925,
      "step": 34910
    },
    {
      "epoch": 0.07275,
      "grad_norm": 0.947112500667572,
      "learning_rate": 0.00029650272326002487,
      "loss": 4.3662,
      "step": 34920
    },
    {
      "epoch": 0.07277083333333334,
      "grad_norm": 1.0740869045257568,
      "learning_rate": 0.0002965006065262306,
      "loss": 4.1354,
      "step": 34930
    },
    {
      "epoch": 0.07279166666666667,
      "grad_norm": 0.9216814637184143,
      "learning_rate": 0.00029649848915961165,
      "loss": 4.2646,
      "step": 34940
    },
    {
      "epoch": 0.0728125,
      "grad_norm": 0.9849740862846375,
      "learning_rate": 0.00029649637116017723,
      "loss": 4.4819,
      "step": 34950
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 1.0237423181533813,
      "learning_rate": 0.0002964942525279365,
      "loss": 4.1184,
      "step": 34960
    },
    {
      "epoch": 0.07285416666666666,
      "grad_norm": 0.9901296496391296,
      "learning_rate": 0.0002964921332628986,
      "loss": 4.3564,
      "step": 34970
    },
    {
      "epoch": 0.072875,
      "grad_norm": 1.0774619579315186,
      "learning_rate": 0.0002964900133650726,
      "loss": 4.2663,
      "step": 34980
    },
    {
      "epoch": 0.07289583333333334,
      "grad_norm": 0.913072407245636,
      "learning_rate": 0.00029648789283446777,
      "loss": 4.3695,
      "step": 34990
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 0.9427486658096313,
      "learning_rate": 0.0002964857716710932,
      "loss": 4.2148,
      "step": 35000
    },
    {
      "epoch": 0.07291666666666667,
      "eval_loss": 3.9660019874572754,
      "eval_runtime": 7.3351,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 35000
    },
    {
      "epoch": 0.0729375,
      "grad_norm": 0.981660008430481,
      "learning_rate": 0.00029648364987495816,
      "loss": 4.318,
      "step": 35010
    },
    {
      "epoch": 0.07295833333333333,
      "grad_norm": 1.0196558237075806,
      "learning_rate": 0.00029648152744607165,
      "loss": 4.1316,
      "step": 35020
    },
    {
      "epoch": 0.07297916666666666,
      "grad_norm": 1.0856363773345947,
      "learning_rate": 0.00029647940438444297,
      "loss": 4.3257,
      "step": 35030
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.9224756956100464,
      "learning_rate": 0.00029647728069008116,
      "loss": 4.2191,
      "step": 35040
    },
    {
      "epoch": 0.07302083333333333,
      "grad_norm": 0.9557260274887085,
      "learning_rate": 0.00029647515636299556,
      "loss": 4.1558,
      "step": 35050
    },
    {
      "epoch": 0.07304166666666667,
      "grad_norm": 0.8955896496772766,
      "learning_rate": 0.0002964730314031953,
      "loss": 4.3911,
      "step": 35060
    },
    {
      "epoch": 0.0730625,
      "grad_norm": 0.9914588928222656,
      "learning_rate": 0.00029647090581068943,
      "loss": 4.2548,
      "step": 35070
    },
    {
      "epoch": 0.07308333333333333,
      "grad_norm": 0.9151426553726196,
      "learning_rate": 0.00029646877958548724,
      "loss": 4.4158,
      "step": 35080
    },
    {
      "epoch": 0.07310416666666666,
      "grad_norm": 0.9745858311653137,
      "learning_rate": 0.000296466652727598,
      "loss": 4.3345,
      "step": 35090
    },
    {
      "epoch": 0.073125,
      "grad_norm": 1.0652066469192505,
      "learning_rate": 0.00029646452523703065,
      "loss": 4.1468,
      "step": 35100
    },
    {
      "epoch": 0.07314583333333333,
      "grad_norm": 1.2693746089935303,
      "learning_rate": 0.00029646239711379464,
      "loss": 4.0359,
      "step": 35110
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 0.9303524494171143,
      "learning_rate": 0.00029646026835789896,
      "loss": 4.3718,
      "step": 35120
    },
    {
      "epoch": 0.0731875,
      "grad_norm": 1.0961812734603882,
      "learning_rate": 0.00029645813896935294,
      "loss": 4.3729,
      "step": 35130
    },
    {
      "epoch": 0.07320833333333333,
      "grad_norm": 0.9975240230560303,
      "learning_rate": 0.00029645600894816573,
      "loss": 4.3734,
      "step": 35140
    },
    {
      "epoch": 0.07322916666666666,
      "grad_norm": 1.0507460832595825,
      "learning_rate": 0.0002964538782943465,
      "loss": 4.2768,
      "step": 35150
    },
    {
      "epoch": 0.07325,
      "grad_norm": 1.0274584293365479,
      "learning_rate": 0.0002964517470079045,
      "loss": 4.3156,
      "step": 35160
    },
    {
      "epoch": 0.07327083333333333,
      "grad_norm": 0.9521287083625793,
      "learning_rate": 0.000296449615088849,
      "loss": 4.2814,
      "step": 35170
    },
    {
      "epoch": 0.07329166666666667,
      "grad_norm": 0.9048222899436951,
      "learning_rate": 0.00029644748253718906,
      "loss": 4.1227,
      "step": 35180
    },
    {
      "epoch": 0.0733125,
      "grad_norm": 1.0121784210205078,
      "learning_rate": 0.00029644534935293395,
      "loss": 4.0932,
      "step": 35190
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.9702421426773071,
      "learning_rate": 0.0002964432155360929,
      "loss": 4.0792,
      "step": 35200
    },
    {
      "epoch": 0.07335416666666666,
      "grad_norm": 0.9591420888900757,
      "learning_rate": 0.0002964410810866751,
      "loss": 4.1631,
      "step": 35210
    },
    {
      "epoch": 0.073375,
      "grad_norm": 0.9515754580497742,
      "learning_rate": 0.0002964389460046899,
      "loss": 4.2352,
      "step": 35220
    },
    {
      "epoch": 0.07339583333333333,
      "grad_norm": 0.9027166366577148,
      "learning_rate": 0.00029643681029014636,
      "loss": 4.1021,
      "step": 35230
    },
    {
      "epoch": 0.07341666666666667,
      "grad_norm": 1.0921348333358765,
      "learning_rate": 0.00029643467394305375,
      "loss": 4.2599,
      "step": 35240
    },
    {
      "epoch": 0.0734375,
      "grad_norm": 1.0517070293426514,
      "learning_rate": 0.00029643253696342133,
      "loss": 4.1967,
      "step": 35250
    },
    {
      "epoch": 0.07345833333333333,
      "grad_norm": 1.0598335266113281,
      "learning_rate": 0.0002964303993512583,
      "loss": 4.292,
      "step": 35260
    },
    {
      "epoch": 0.07347916666666666,
      "grad_norm": 1.056854009628296,
      "learning_rate": 0.0002964282611065739,
      "loss": 4.3584,
      "step": 35270
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.9420073628425598,
      "learning_rate": 0.0002964261222293774,
      "loss": 4.09,
      "step": 35280
    },
    {
      "epoch": 0.07352083333333333,
      "grad_norm": 1.0175186395645142,
      "learning_rate": 0.000296423982719678,
      "loss": 4.13,
      "step": 35290
    },
    {
      "epoch": 0.07354166666666667,
      "grad_norm": 1.015824794769287,
      "learning_rate": 0.00029642184257748494,
      "loss": 4.3271,
      "step": 35300
    },
    {
      "epoch": 0.0735625,
      "grad_norm": 0.9565616250038147,
      "learning_rate": 0.0002964197018028075,
      "loss": 4.2885,
      "step": 35310
    },
    {
      "epoch": 0.07358333333333333,
      "grad_norm": 1.0595605373382568,
      "learning_rate": 0.0002964175603956549,
      "loss": 4.074,
      "step": 35320
    },
    {
      "epoch": 0.07360416666666666,
      "grad_norm": 1.0195218324661255,
      "learning_rate": 0.00029641541835603635,
      "loss": 4.4212,
      "step": 35330
    },
    {
      "epoch": 0.073625,
      "grad_norm": 0.9524693489074707,
      "learning_rate": 0.00029641327568396116,
      "loss": 4.3978,
      "step": 35340
    },
    {
      "epoch": 0.07364583333333333,
      "grad_norm": 1.0063374042510986,
      "learning_rate": 0.00029641113237943863,
      "loss": 4.3907,
      "step": 35350
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 1.067077398300171,
      "learning_rate": 0.00029640898844247794,
      "loss": 4.3955,
      "step": 35360
    },
    {
      "epoch": 0.0736875,
      "grad_norm": 0.9846915602684021,
      "learning_rate": 0.00029640684387308836,
      "loss": 4.2372,
      "step": 35370
    },
    {
      "epoch": 0.07370833333333333,
      "grad_norm": 0.9084686040878296,
      "learning_rate": 0.00029640469867127915,
      "loss": 4.1992,
      "step": 35380
    },
    {
      "epoch": 0.07372916666666667,
      "grad_norm": 0.9697721004486084,
      "learning_rate": 0.00029640255283705963,
      "loss": 4.2207,
      "step": 35390
    },
    {
      "epoch": 0.07375,
      "grad_norm": 1.038619875907898,
      "learning_rate": 0.00029640040637043903,
      "loss": 4.1491,
      "step": 35400
    },
    {
      "epoch": 0.07377083333333333,
      "grad_norm": 1.0062599182128906,
      "learning_rate": 0.0002963982592714266,
      "loss": 4.2616,
      "step": 35410
    },
    {
      "epoch": 0.07379166666666667,
      "grad_norm": 0.9552229642868042,
      "learning_rate": 0.00029639611154003165,
      "loss": 4.3364,
      "step": 35420
    },
    {
      "epoch": 0.0738125,
      "grad_norm": 1.0397095680236816,
      "learning_rate": 0.0002963939631762634,
      "loss": 4.1804,
      "step": 35430
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 1.0731134414672852,
      "learning_rate": 0.0002963918141801312,
      "loss": 4.3048,
      "step": 35440
    },
    {
      "epoch": 0.07385416666666667,
      "grad_norm": 0.9934556484222412,
      "learning_rate": 0.00029638966455164433,
      "loss": 4.2479,
      "step": 35450
    },
    {
      "epoch": 0.073875,
      "grad_norm": 0.9248780012130737,
      "learning_rate": 0.0002963875142908121,
      "loss": 4.2022,
      "step": 35460
    },
    {
      "epoch": 0.07389583333333333,
      "grad_norm": 1.0929317474365234,
      "learning_rate": 0.00029638536339764366,
      "loss": 4.1154,
      "step": 35470
    },
    {
      "epoch": 0.07391666666666667,
      "grad_norm": 0.9280599355697632,
      "learning_rate": 0.00029638321187214846,
      "loss": 4.2697,
      "step": 35480
    },
    {
      "epoch": 0.0739375,
      "grad_norm": 1.027630090713501,
      "learning_rate": 0.0002963810597143357,
      "loss": 4.2789,
      "step": 35490
    },
    {
      "epoch": 0.07395833333333333,
      "grad_norm": 1.096479892730713,
      "learning_rate": 0.0002963789069242147,
      "loss": 4.2651,
      "step": 35500
    },
    {
      "epoch": 0.07397916666666667,
      "grad_norm": 1.159921407699585,
      "learning_rate": 0.00029637675350179476,
      "loss": 4.2036,
      "step": 35510
    },
    {
      "epoch": 0.074,
      "grad_norm": 1.0199875831604004,
      "learning_rate": 0.0002963745994470852,
      "loss": 4.3121,
      "step": 35520
    },
    {
      "epoch": 0.07402083333333333,
      "grad_norm": 1.0571650266647339,
      "learning_rate": 0.00029637244476009533,
      "loss": 4.1739,
      "step": 35530
    },
    {
      "epoch": 0.07404166666666667,
      "grad_norm": 1.0378903150558472,
      "learning_rate": 0.00029637028944083443,
      "loss": 4.1615,
      "step": 35540
    },
    {
      "epoch": 0.0740625,
      "grad_norm": 1.0176845788955688,
      "learning_rate": 0.00029636813348931176,
      "loss": 4.3608,
      "step": 35550
    },
    {
      "epoch": 0.07408333333333333,
      "grad_norm": 1.0004026889801025,
      "learning_rate": 0.00029636597690553676,
      "loss": 4.2858,
      "step": 35560
    },
    {
      "epoch": 0.07410416666666667,
      "grad_norm": 0.9716410040855408,
      "learning_rate": 0.0002963638196895186,
      "loss": 4.3277,
      "step": 35570
    },
    {
      "epoch": 0.074125,
      "grad_norm": 1.0217219591140747,
      "learning_rate": 0.0002963616618412667,
      "loss": 4.3865,
      "step": 35580
    },
    {
      "epoch": 0.07414583333333333,
      "grad_norm": 0.9636421799659729,
      "learning_rate": 0.00029635950336079044,
      "loss": 4.1943,
      "step": 35590
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 0.9565997123718262,
      "learning_rate": 0.00029635734424809896,
      "loss": 4.3,
      "step": 35600
    },
    {
      "epoch": 0.0741875,
      "grad_norm": 0.9147340059280396,
      "learning_rate": 0.0002963551845032017,
      "loss": 4.1061,
      "step": 35610
    },
    {
      "epoch": 0.07420833333333333,
      "grad_norm": 0.9895066618919373,
      "learning_rate": 0.00029635302412610797,
      "loss": 4.1269,
      "step": 35620
    },
    {
      "epoch": 0.07422916666666667,
      "grad_norm": 1.1002075672149658,
      "learning_rate": 0.0002963508631168271,
      "loss": 4.1411,
      "step": 35630
    },
    {
      "epoch": 0.07425,
      "grad_norm": 0.9818552732467651,
      "learning_rate": 0.0002963487014753685,
      "loss": 4.3657,
      "step": 35640
    },
    {
      "epoch": 0.07427083333333333,
      "grad_norm": 1.1107101440429688,
      "learning_rate": 0.00029634653920174143,
      "loss": 4.1293,
      "step": 35650
    },
    {
      "epoch": 0.07429166666666667,
      "grad_norm": 1.022562026977539,
      "learning_rate": 0.00029634437629595515,
      "loss": 4.1538,
      "step": 35660
    },
    {
      "epoch": 0.0743125,
      "grad_norm": 1.1409838199615479,
      "learning_rate": 0.00029634221275801916,
      "loss": 4.2249,
      "step": 35670
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 0.9276953339576721,
      "learning_rate": 0.0002963400485879427,
      "loss": 4.1903,
      "step": 35680
    },
    {
      "epoch": 0.07435416666666667,
      "grad_norm": 0.9829156398773193,
      "learning_rate": 0.0002963378837857352,
      "loss": 4.0709,
      "step": 35690
    },
    {
      "epoch": 0.074375,
      "grad_norm": 1.0639177560806274,
      "learning_rate": 0.000296335718351406,
      "loss": 4.2003,
      "step": 35700
    },
    {
      "epoch": 0.07439583333333333,
      "grad_norm": 0.9334484934806824,
      "learning_rate": 0.0002963335522849643,
      "loss": 4.0982,
      "step": 35710
    },
    {
      "epoch": 0.07441666666666667,
      "grad_norm": 0.9518569111824036,
      "learning_rate": 0.00029633138558641967,
      "loss": 4.1982,
      "step": 35720
    },
    {
      "epoch": 0.0744375,
      "grad_norm": 1.052659511566162,
      "learning_rate": 0.00029632921825578136,
      "loss": 4.1891,
      "step": 35730
    },
    {
      "epoch": 0.07445833333333333,
      "grad_norm": 1.032193899154663,
      "learning_rate": 0.0002963270502930587,
      "loss": 4.2097,
      "step": 35740
    },
    {
      "epoch": 0.07447916666666667,
      "grad_norm": 0.9842461943626404,
      "learning_rate": 0.00029632488169826116,
      "loss": 4.2381,
      "step": 35750
    },
    {
      "epoch": 0.0745,
      "grad_norm": 1.278978705406189,
      "learning_rate": 0.00029632271247139803,
      "loss": 4.3936,
      "step": 35760
    },
    {
      "epoch": 0.07452083333333333,
      "grad_norm": 1.003840684890747,
      "learning_rate": 0.00029632054261247864,
      "loss": 4.404,
      "step": 35770
    },
    {
      "epoch": 0.07454166666666667,
      "grad_norm": 0.9619002938270569,
      "learning_rate": 0.00029631837212151254,
      "loss": 4.214,
      "step": 35780
    },
    {
      "epoch": 0.0745625,
      "grad_norm": 0.983663022518158,
      "learning_rate": 0.00029631620099850893,
      "loss": 4.4858,
      "step": 35790
    },
    {
      "epoch": 0.07458333333333333,
      "grad_norm": 0.9614629745483398,
      "learning_rate": 0.00029631402924347726,
      "loss": 4.3321,
      "step": 35800
    },
    {
      "epoch": 0.07460416666666667,
      "grad_norm": 0.9298915266990662,
      "learning_rate": 0.00029631185685642685,
      "loss": 4.2071,
      "step": 35810
    },
    {
      "epoch": 0.074625,
      "grad_norm": 0.9853184223175049,
      "learning_rate": 0.0002963096838373672,
      "loss": 4.1392,
      "step": 35820
    },
    {
      "epoch": 0.07464583333333333,
      "grad_norm": 1.0779439210891724,
      "learning_rate": 0.0002963075101863076,
      "loss": 4.31,
      "step": 35830
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 1.0350781679153442,
      "learning_rate": 0.0002963053359032575,
      "loss": 4.194,
      "step": 35840
    },
    {
      "epoch": 0.0746875,
      "grad_norm": 0.9669588208198547,
      "learning_rate": 0.0002963031609882262,
      "loss": 4.2876,
      "step": 35850
    },
    {
      "epoch": 0.07470833333333333,
      "grad_norm": 0.9295942783355713,
      "learning_rate": 0.0002963009854412232,
      "loss": 4.3389,
      "step": 35860
    },
    {
      "epoch": 0.07472916666666667,
      "grad_norm": 1.0018508434295654,
      "learning_rate": 0.00029629880926225786,
      "loss": 4.2122,
      "step": 35870
    },
    {
      "epoch": 0.07475,
      "grad_norm": 0.8399490714073181,
      "learning_rate": 0.00029629663245133955,
      "loss": 4.3249,
      "step": 35880
    },
    {
      "epoch": 0.07477083333333333,
      "grad_norm": 0.9417545795440674,
      "learning_rate": 0.0002962944550084776,
      "loss": 4.476,
      "step": 35890
    },
    {
      "epoch": 0.07479166666666667,
      "grad_norm": 0.944293737411499,
      "learning_rate": 0.00029629227693368164,
      "loss": 4.1024,
      "step": 35900
    },
    {
      "epoch": 0.0748125,
      "grad_norm": 0.9901315569877625,
      "learning_rate": 0.00029629009822696096,
      "loss": 4.2753,
      "step": 35910
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 1.0242705345153809,
      "learning_rate": 0.0002962879188883249,
      "loss": 4.4111,
      "step": 35920
    },
    {
      "epoch": 0.07485416666666667,
      "grad_norm": 1.2045173645019531,
      "learning_rate": 0.000296285738917783,
      "loss": 4.2927,
      "step": 35930
    },
    {
      "epoch": 0.074875,
      "grad_norm": 0.9593387842178345,
      "learning_rate": 0.00029628355831534453,
      "loss": 4.2603,
      "step": 35940
    },
    {
      "epoch": 0.07489583333333333,
      "grad_norm": 0.9738403558731079,
      "learning_rate": 0.00029628137708101904,
      "loss": 4.3008,
      "step": 35950
    },
    {
      "epoch": 0.07491666666666667,
      "grad_norm": 0.9851422905921936,
      "learning_rate": 0.00029627919521481587,
      "loss": 4.0165,
      "step": 35960
    },
    {
      "epoch": 0.0749375,
      "grad_norm": 1.2612361907958984,
      "learning_rate": 0.0002962770127167445,
      "loss": 4.3217,
      "step": 35970
    },
    {
      "epoch": 0.07495833333333334,
      "grad_norm": 0.9650192856788635,
      "learning_rate": 0.00029627482958681435,
      "loss": 4.3253,
      "step": 35980
    },
    {
      "epoch": 0.07497916666666667,
      "grad_norm": 1.0631603002548218,
      "learning_rate": 0.0002962726458250348,
      "loss": 4.1982,
      "step": 35990
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.9770229458808899,
      "learning_rate": 0.0002962704614314154,
      "loss": 4.2765,
      "step": 36000
    },
    {
      "epoch": 0.075,
      "eval_loss": 3.9570343494415283,
      "eval_runtime": 7.4647,
      "eval_samples_per_second": 1.34,
      "eval_steps_per_second": 0.402,
      "step": 36000
    },
    {
      "epoch": 0.07502083333333333,
      "grad_norm": 0.9895893335342407,
      "learning_rate": 0.0002962682764059654,
      "loss": 4.3027,
      "step": 36010
    },
    {
      "epoch": 0.07504166666666667,
      "grad_norm": 0.899325430393219,
      "learning_rate": 0.00029626609074869437,
      "loss": 4.2642,
      "step": 36020
    },
    {
      "epoch": 0.0750625,
      "grad_norm": 0.9454514980316162,
      "learning_rate": 0.00029626390445961176,
      "loss": 4.3978,
      "step": 36030
    },
    {
      "epoch": 0.07508333333333334,
      "grad_norm": 0.9917869567871094,
      "learning_rate": 0.000296261717538727,
      "loss": 4.3419,
      "step": 36040
    },
    {
      "epoch": 0.07510416666666667,
      "grad_norm": 1.0164778232574463,
      "learning_rate": 0.0002962595299860494,
      "loss": 4.4825,
      "step": 36050
    },
    {
      "epoch": 0.075125,
      "grad_norm": 0.9733856916427612,
      "learning_rate": 0.0002962573418015886,
      "loss": 4.1535,
      "step": 36060
    },
    {
      "epoch": 0.07514583333333333,
      "grad_norm": 1.0074810981750488,
      "learning_rate": 0.00029625515298535403,
      "loss": 4.2119,
      "step": 36070
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 0.9945103526115417,
      "learning_rate": 0.00029625296353735504,
      "loss": 4.2656,
      "step": 36080
    },
    {
      "epoch": 0.0751875,
      "grad_norm": 0.966926097869873,
      "learning_rate": 0.0002962507734576011,
      "loss": 4.1578,
      "step": 36090
    },
    {
      "epoch": 0.07520833333333334,
      "grad_norm": 0.9769881963729858,
      "learning_rate": 0.00029624858274610174,
      "loss": 4.3133,
      "step": 36100
    },
    {
      "epoch": 0.07522916666666667,
      "grad_norm": 0.9440995454788208,
      "learning_rate": 0.0002962463914028664,
      "loss": 4.2724,
      "step": 36110
    },
    {
      "epoch": 0.07525,
      "grad_norm": 1.0392041206359863,
      "learning_rate": 0.00029624419942790456,
      "loss": 4.3317,
      "step": 36120
    },
    {
      "epoch": 0.07527083333333333,
      "grad_norm": 1.0364084243774414,
      "learning_rate": 0.0002962420068212256,
      "loss": 4.0884,
      "step": 36130
    },
    {
      "epoch": 0.07529166666666667,
      "grad_norm": 0.9730809330940247,
      "learning_rate": 0.0002962398135828391,
      "loss": 4.2672,
      "step": 36140
    },
    {
      "epoch": 0.0753125,
      "grad_norm": 1.2159725427627563,
      "learning_rate": 0.0002962376197127545,
      "loss": 4.1898,
      "step": 36150
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 1.0790767669677734,
      "learning_rate": 0.0002962354252109812,
      "loss": 4.0292,
      "step": 36160
    },
    {
      "epoch": 0.07535416666666667,
      "grad_norm": 0.9512823820114136,
      "learning_rate": 0.00029623323007752883,
      "loss": 4.2567,
      "step": 36170
    },
    {
      "epoch": 0.075375,
      "grad_norm": 0.9991158843040466,
      "learning_rate": 0.0002962310343124068,
      "loss": 4.1252,
      "step": 36180
    },
    {
      "epoch": 0.07539583333333333,
      "grad_norm": 1.0470112562179565,
      "learning_rate": 0.0002962288379156245,
      "loss": 4.3003,
      "step": 36190
    },
    {
      "epoch": 0.07541666666666667,
      "grad_norm": 0.9979800581932068,
      "learning_rate": 0.0002962266408871916,
      "loss": 4.2264,
      "step": 36200
    },
    {
      "epoch": 0.0754375,
      "grad_norm": 1.00783371925354,
      "learning_rate": 0.00029622444322711743,
      "loss": 4.2968,
      "step": 36210
    },
    {
      "epoch": 0.07545833333333334,
      "grad_norm": 0.9101657867431641,
      "learning_rate": 0.00029622224493541154,
      "loss": 4.4745,
      "step": 36220
    },
    {
      "epoch": 0.07547916666666667,
      "grad_norm": 1.025091290473938,
      "learning_rate": 0.00029622004601208345,
      "loss": 4.2296,
      "step": 36230
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.9647171497344971,
      "learning_rate": 0.0002962178464571426,
      "loss": 4.2407,
      "step": 36240
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 0.970886766910553,
      "learning_rate": 0.00029621564627059857,
      "loss": 4.3655,
      "step": 36250
    },
    {
      "epoch": 0.07554166666666666,
      "grad_norm": 0.8658908605575562,
      "learning_rate": 0.0002962134454524608,
      "loss": 4.2968,
      "step": 36260
    },
    {
      "epoch": 0.0755625,
      "grad_norm": 1.0012452602386475,
      "learning_rate": 0.00029621124400273886,
      "loss": 4.317,
      "step": 36270
    },
    {
      "epoch": 0.07558333333333334,
      "grad_norm": 0.9300405979156494,
      "learning_rate": 0.0002962090419214422,
      "loss": 4.1506,
      "step": 36280
    },
    {
      "epoch": 0.07560416666666667,
      "grad_norm": 0.9815167188644409,
      "learning_rate": 0.00029620683920858037,
      "loss": 4.2145,
      "step": 36290
    },
    {
      "epoch": 0.075625,
      "grad_norm": 1.0876686573028564,
      "learning_rate": 0.0002962046358641628,
      "loss": 4.3056,
      "step": 36300
    },
    {
      "epoch": 0.07564583333333333,
      "grad_norm": 0.989935040473938,
      "learning_rate": 0.00029620243188819916,
      "loss": 4.3492,
      "step": 36310
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 0.887148916721344,
      "learning_rate": 0.00029620022728069886,
      "loss": 4.4872,
      "step": 36320
    },
    {
      "epoch": 0.0756875,
      "grad_norm": 0.9441948533058167,
      "learning_rate": 0.0002961980220416714,
      "loss": 4.1872,
      "step": 36330
    },
    {
      "epoch": 0.07570833333333334,
      "grad_norm": 1.0206791162490845,
      "learning_rate": 0.0002961958161711264,
      "loss": 4.2107,
      "step": 36340
    },
    {
      "epoch": 0.07572916666666667,
      "grad_norm": 1.0216565132141113,
      "learning_rate": 0.00029619360966907335,
      "loss": 4.1285,
      "step": 36350
    },
    {
      "epoch": 0.07575,
      "grad_norm": 0.9917307496070862,
      "learning_rate": 0.00029619140253552174,
      "loss": 4.2261,
      "step": 36360
    },
    {
      "epoch": 0.07577083333333333,
      "grad_norm": 0.9821358919143677,
      "learning_rate": 0.0002961891947704812,
      "loss": 4.2884,
      "step": 36370
    },
    {
      "epoch": 0.07579166666666666,
      "grad_norm": 0.9548794627189636,
      "learning_rate": 0.0002961869863739611,
      "loss": 4.1728,
      "step": 36380
    },
    {
      "epoch": 0.0758125,
      "grad_norm": 0.9406481385231018,
      "learning_rate": 0.00029618477734597113,
      "loss": 4.0958,
      "step": 36390
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 1.003919243812561,
      "learning_rate": 0.0002961825676865208,
      "loss": 4.2159,
      "step": 36400
    },
    {
      "epoch": 0.07585416666666667,
      "grad_norm": 1.024738073348999,
      "learning_rate": 0.0002961803573956197,
      "loss": 4.1432,
      "step": 36410
    },
    {
      "epoch": 0.075875,
      "grad_norm": 1.1796398162841797,
      "learning_rate": 0.0002961781464732772,
      "loss": 4.4299,
      "step": 36420
    },
    {
      "epoch": 0.07589583333333333,
      "grad_norm": 1.0456303358078003,
      "learning_rate": 0.00029617593491950306,
      "loss": 4.6041,
      "step": 36430
    },
    {
      "epoch": 0.07591666666666666,
      "grad_norm": 1.0109474658966064,
      "learning_rate": 0.0002961737227343067,
      "loss": 4.2736,
      "step": 36440
    },
    {
      "epoch": 0.0759375,
      "grad_norm": 0.9219052791595459,
      "learning_rate": 0.0002961715099176977,
      "loss": 4.1844,
      "step": 36450
    },
    {
      "epoch": 0.07595833333333334,
      "grad_norm": 0.9981358051300049,
      "learning_rate": 0.0002961692964696857,
      "loss": 4.1408,
      "step": 36460
    },
    {
      "epoch": 0.07597916666666667,
      "grad_norm": 0.9596693515777588,
      "learning_rate": 0.00029616708239028016,
      "loss": 4.1607,
      "step": 36470
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.9198179841041565,
      "learning_rate": 0.00029616486767949067,
      "loss": 4.3728,
      "step": 36480
    },
    {
      "epoch": 0.07602083333333333,
      "grad_norm": 1.0090738534927368,
      "learning_rate": 0.0002961626523373268,
      "loss": 4.0548,
      "step": 36490
    },
    {
      "epoch": 0.07604166666666666,
      "grad_norm": 0.9535486102104187,
      "learning_rate": 0.00029616043636379813,
      "loss": 4.2505,
      "step": 36500
    },
    {
      "epoch": 0.0760625,
      "grad_norm": 0.9831360578536987,
      "learning_rate": 0.0002961582197589142,
      "loss": 4.1026,
      "step": 36510
    },
    {
      "epoch": 0.07608333333333334,
      "grad_norm": 0.9148313999176025,
      "learning_rate": 0.0002961560025226847,
      "loss": 4.1679,
      "step": 36520
    },
    {
      "epoch": 0.07610416666666667,
      "grad_norm": 0.9305505752563477,
      "learning_rate": 0.0002961537846551191,
      "loss": 4.1821,
      "step": 36530
    },
    {
      "epoch": 0.076125,
      "grad_norm": 0.9795328974723816,
      "learning_rate": 0.00029615156615622697,
      "loss": 4.3871,
      "step": 36540
    },
    {
      "epoch": 0.07614583333333333,
      "grad_norm": 1.0034055709838867,
      "learning_rate": 0.0002961493470260179,
      "loss": 4.2986,
      "step": 36550
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 1.0145788192749023,
      "learning_rate": 0.0002961471272645016,
      "loss": 4.1897,
      "step": 36560
    },
    {
      "epoch": 0.0761875,
      "grad_norm": 0.9651721715927124,
      "learning_rate": 0.0002961449068716875,
      "loss": 4.0717,
      "step": 36570
    },
    {
      "epoch": 0.07620833333333334,
      "grad_norm": 0.9085444211959839,
      "learning_rate": 0.0002961426858475852,
      "loss": 4.3854,
      "step": 36580
    },
    {
      "epoch": 0.07622916666666667,
      "grad_norm": 1.1048171520233154,
      "learning_rate": 0.0002961404641922044,
      "loss": 4.1437,
      "step": 36590
    },
    {
      "epoch": 0.07625,
      "grad_norm": 1.016383171081543,
      "learning_rate": 0.00029613824190555466,
      "loss": 4.2448,
      "step": 36600
    },
    {
      "epoch": 0.07627083333333333,
      "grad_norm": 1.15684175491333,
      "learning_rate": 0.0002961360189876455,
      "loss": 4.1655,
      "step": 36610
    },
    {
      "epoch": 0.07629166666666666,
      "grad_norm": 0.9270811080932617,
      "learning_rate": 0.00029613379543848664,
      "loss": 4.2232,
      "step": 36620
    },
    {
      "epoch": 0.0763125,
      "grad_norm": 0.9650914669036865,
      "learning_rate": 0.0002961315712580876,
      "loss": 4.2476,
      "step": 36630
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 1.154008388519287,
      "learning_rate": 0.00029612934644645796,
      "loss": 4.336,
      "step": 36640
    },
    {
      "epoch": 0.07635416666666667,
      "grad_norm": 0.9549930095672607,
      "learning_rate": 0.0002961271210036075,
      "loss": 4.274,
      "step": 36650
    },
    {
      "epoch": 0.076375,
      "grad_norm": 1.0409680604934692,
      "learning_rate": 0.00029612489492954566,
      "loss": 4.123,
      "step": 36660
    },
    {
      "epoch": 0.07639583333333333,
      "grad_norm": 1.0259286165237427,
      "learning_rate": 0.00029612266822428207,
      "loss": 4.2092,
      "step": 36670
    },
    {
      "epoch": 0.07641666666666666,
      "grad_norm": 0.9060541391372681,
      "learning_rate": 0.00029612044088782644,
      "loss": 4.1861,
      "step": 36680
    },
    {
      "epoch": 0.0764375,
      "grad_norm": 1.0223183631896973,
      "learning_rate": 0.00029611821292018837,
      "loss": 4.1186,
      "step": 36690
    },
    {
      "epoch": 0.07645833333333334,
      "grad_norm": 1.0424973964691162,
      "learning_rate": 0.00029611598432137745,
      "loss": 4.3013,
      "step": 36700
    },
    {
      "epoch": 0.07647916666666667,
      "grad_norm": 0.9296754598617554,
      "learning_rate": 0.0002961137550914033,
      "loss": 3.9741,
      "step": 36710
    },
    {
      "epoch": 0.0765,
      "grad_norm": 1.0027704238891602,
      "learning_rate": 0.0002961115252302755,
      "loss": 4.2899,
      "step": 36720
    },
    {
      "epoch": 0.07652083333333333,
      "grad_norm": 1.016168475151062,
      "learning_rate": 0.0002961092947380038,
      "loss": 4.372,
      "step": 36730
    },
    {
      "epoch": 0.07654166666666666,
      "grad_norm": 1.0292378664016724,
      "learning_rate": 0.0002961070636145978,
      "loss": 4.2387,
      "step": 36740
    },
    {
      "epoch": 0.0765625,
      "grad_norm": 0.9491738677024841,
      "learning_rate": 0.0002961048318600671,
      "loss": 4.3015,
      "step": 36750
    },
    {
      "epoch": 0.07658333333333334,
      "grad_norm": 1.099109172821045,
      "learning_rate": 0.0002961025994744214,
      "loss": 4.0969,
      "step": 36760
    },
    {
      "epoch": 0.07660416666666667,
      "grad_norm": 0.9755939841270447,
      "learning_rate": 0.0002961003664576702,
      "loss": 4.209,
      "step": 36770
    },
    {
      "epoch": 0.076625,
      "grad_norm": 1.0382816791534424,
      "learning_rate": 0.0002960981328098233,
      "loss": 4.2744,
      "step": 36780
    },
    {
      "epoch": 0.07664583333333333,
      "grad_norm": 1.0126357078552246,
      "learning_rate": 0.00029609589853089033,
      "loss": 4.3728,
      "step": 36790
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.9788354635238647,
      "learning_rate": 0.0002960936636208809,
      "loss": 4.1841,
      "step": 36800
    },
    {
      "epoch": 0.0766875,
      "grad_norm": 0.9419317841529846,
      "learning_rate": 0.0002960914280798047,
      "loss": 4.3073,
      "step": 36810
    },
    {
      "epoch": 0.07670833333333334,
      "grad_norm": 0.9636811017990112,
      "learning_rate": 0.00029608919190767126,
      "loss": 4.3034,
      "step": 36820
    },
    {
      "epoch": 0.07672916666666667,
      "grad_norm": 0.989913284778595,
      "learning_rate": 0.00029608695510449043,
      "loss": 4.2871,
      "step": 36830
    },
    {
      "epoch": 0.07675,
      "grad_norm": 0.944586992263794,
      "learning_rate": 0.0002960847176702717,
      "loss": 4.4123,
      "step": 36840
    },
    {
      "epoch": 0.07677083333333333,
      "grad_norm": 1.0752569437026978,
      "learning_rate": 0.00029608247960502483,
      "loss": 4.3979,
      "step": 36850
    },
    {
      "epoch": 0.07679166666666666,
      "grad_norm": 0.9628126621246338,
      "learning_rate": 0.0002960802409087596,
      "loss": 4.3602,
      "step": 36860
    },
    {
      "epoch": 0.0768125,
      "grad_norm": 0.973504364490509,
      "learning_rate": 0.00029607800158148534,
      "loss": 4.4863,
      "step": 36870
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 0.98115473985672,
      "learning_rate": 0.00029607576162321206,
      "loss": 4.3101,
      "step": 36880
    },
    {
      "epoch": 0.07685416666666667,
      "grad_norm": 0.9720708727836609,
      "learning_rate": 0.00029607352103394927,
      "loss": 4.1307,
      "step": 36890
    },
    {
      "epoch": 0.076875,
      "grad_norm": 0.901232898235321,
      "learning_rate": 0.00029607127981370673,
      "loss": 4.1275,
      "step": 36900
    },
    {
      "epoch": 0.07689583333333333,
      "grad_norm": 1.0483475923538208,
      "learning_rate": 0.0002960690379624941,
      "loss": 4.3719,
      "step": 36910
    },
    {
      "epoch": 0.07691666666666666,
      "grad_norm": 1.018497347831726,
      "learning_rate": 0.000296066795480321,
      "loss": 4.3168,
      "step": 36920
    },
    {
      "epoch": 0.0769375,
      "grad_norm": 1.0270062685012817,
      "learning_rate": 0.00029606455236719714,
      "loss": 4.4522,
      "step": 36930
    },
    {
      "epoch": 0.07695833333333334,
      "grad_norm": 0.9716259837150574,
      "learning_rate": 0.0002960623086231323,
      "loss": 4.3365,
      "step": 36940
    },
    {
      "epoch": 0.07697916666666667,
      "grad_norm": 0.9695379137992859,
      "learning_rate": 0.000296060064248136,
      "loss": 4.0725,
      "step": 36950
    },
    {
      "epoch": 0.077,
      "grad_norm": 1.019256591796875,
      "learning_rate": 0.00029605781924221813,
      "loss": 4.1587,
      "step": 36960
    },
    {
      "epoch": 0.07702083333333333,
      "grad_norm": 0.9376192092895508,
      "learning_rate": 0.0002960555736053882,
      "loss": 4.3719,
      "step": 36970
    },
    {
      "epoch": 0.07704166666666666,
      "grad_norm": 0.9409236311912537,
      "learning_rate": 0.00029605332733765606,
      "loss": 4.0571,
      "step": 36980
    },
    {
      "epoch": 0.0770625,
      "grad_norm": 1.1271162033081055,
      "learning_rate": 0.0002960510804390314,
      "loss": 4.2677,
      "step": 36990
    },
    {
      "epoch": 0.07708333333333334,
      "grad_norm": 0.9181059002876282,
      "learning_rate": 0.00029604883290952383,
      "loss": 4.2918,
      "step": 37000
    },
    {
      "epoch": 0.07708333333333334,
      "eval_loss": 3.9526772499084473,
      "eval_runtime": 7.2869,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.412,
      "step": 37000
    },
    {
      "epoch": 0.07710416666666667,
      "grad_norm": 1.0492372512817383,
      "learning_rate": 0.00029604658474914315,
      "loss": 4.2644,
      "step": 37010
    },
    {
      "epoch": 0.077125,
      "grad_norm": 1.0971945524215698,
      "learning_rate": 0.000296044335957899,
      "loss": 4.2331,
      "step": 37020
    },
    {
      "epoch": 0.07714583333333333,
      "grad_norm": 0.8973166346549988,
      "learning_rate": 0.00029604208653580114,
      "loss": 4.2446,
      "step": 37030
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 0.9139835834503174,
      "learning_rate": 0.00029603983648285927,
      "loss": 4.309,
      "step": 37040
    },
    {
      "epoch": 0.0771875,
      "grad_norm": 0.9070796966552734,
      "learning_rate": 0.0002960375857990831,
      "loss": 4.2544,
      "step": 37050
    },
    {
      "epoch": 0.07720833333333334,
      "grad_norm": 0.9931256771087646,
      "learning_rate": 0.00029603533448448237,
      "loss": 4.207,
      "step": 37060
    },
    {
      "epoch": 0.07722916666666667,
      "grad_norm": 0.9637779593467712,
      "learning_rate": 0.0002960330825390668,
      "loss": 4.1564,
      "step": 37070
    },
    {
      "epoch": 0.07725,
      "grad_norm": 1.1559877395629883,
      "learning_rate": 0.00029603082996284614,
      "loss": 4.1829,
      "step": 37080
    },
    {
      "epoch": 0.07727083333333333,
      "grad_norm": 1.092328667640686,
      "learning_rate": 0.0002960285767558301,
      "loss": 4.1816,
      "step": 37090
    },
    {
      "epoch": 0.07729166666666666,
      "grad_norm": 0.9959965944290161,
      "learning_rate": 0.0002960263229180284,
      "loss": 4.2257,
      "step": 37100
    },
    {
      "epoch": 0.0773125,
      "grad_norm": 1.0294582843780518,
      "learning_rate": 0.0002960240684494508,
      "loss": 4.3969,
      "step": 37110
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.9447182416915894,
      "learning_rate": 0.000296021813350107,
      "loss": 4.5029,
      "step": 37120
    },
    {
      "epoch": 0.07735416666666667,
      "grad_norm": 0.9321173429489136,
      "learning_rate": 0.00029601955762000677,
      "loss": 4.2042,
      "step": 37130
    },
    {
      "epoch": 0.077375,
      "grad_norm": 1.0385462045669556,
      "learning_rate": 0.00029601730125915985,
      "loss": 4.1313,
      "step": 37140
    },
    {
      "epoch": 0.07739583333333333,
      "grad_norm": 0.9533951878547668,
      "learning_rate": 0.000296015044267576,
      "loss": 4.2494,
      "step": 37150
    },
    {
      "epoch": 0.07741666666666666,
      "grad_norm": 0.9853556752204895,
      "learning_rate": 0.00029601278664526494,
      "loss": 4.4384,
      "step": 37160
    },
    {
      "epoch": 0.0774375,
      "grad_norm": 1.023835301399231,
      "learning_rate": 0.0002960105283922364,
      "loss": 4.0868,
      "step": 37170
    },
    {
      "epoch": 0.07745833333333334,
      "grad_norm": 0.9654643535614014,
      "learning_rate": 0.00029600826950850026,
      "loss": 4.1898,
      "step": 37180
    },
    {
      "epoch": 0.07747916666666667,
      "grad_norm": 0.9728041887283325,
      "learning_rate": 0.0002960060099940661,
      "loss": 4.3618,
      "step": 37190
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.9156609773635864,
      "learning_rate": 0.0002960037498489438,
      "loss": 4.3265,
      "step": 37200
    },
    {
      "epoch": 0.07752083333333333,
      "grad_norm": 0.8710700869560242,
      "learning_rate": 0.00029600148907314315,
      "loss": 4.092,
      "step": 37210
    },
    {
      "epoch": 0.07754166666666666,
      "grad_norm": 0.9461581110954285,
      "learning_rate": 0.0002959992276666738,
      "loss": 4.1751,
      "step": 37220
    },
    {
      "epoch": 0.0775625,
      "grad_norm": 1.0840989351272583,
      "learning_rate": 0.0002959969656295456,
      "loss": 4.2026,
      "step": 37230
    },
    {
      "epoch": 0.07758333333333334,
      "grad_norm": 1.0109143257141113,
      "learning_rate": 0.0002959947029617683,
      "loss": 4.2626,
      "step": 37240
    },
    {
      "epoch": 0.07760416666666667,
      "grad_norm": 1.0362088680267334,
      "learning_rate": 0.00029599243966335165,
      "loss": 4.1939,
      "step": 37250
    },
    {
      "epoch": 0.077625,
      "grad_norm": 1.0035240650177002,
      "learning_rate": 0.00029599017573430546,
      "loss": 4.1018,
      "step": 37260
    },
    {
      "epoch": 0.07764583333333333,
      "grad_norm": 0.9793813228607178,
      "learning_rate": 0.0002959879111746395,
      "loss": 4.3517,
      "step": 37270
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 0.9482799768447876,
      "learning_rate": 0.0002959856459843635,
      "loss": 4.2111,
      "step": 37280
    },
    {
      "epoch": 0.0776875,
      "grad_norm": 0.9430336952209473,
      "learning_rate": 0.0002959833801634874,
      "loss": 4.2394,
      "step": 37290
    },
    {
      "epoch": 0.07770833333333334,
      "grad_norm": 1.0892366170883179,
      "learning_rate": 0.00029598111371202077,
      "loss": 4.3401,
      "step": 37300
    },
    {
      "epoch": 0.07772916666666667,
      "grad_norm": 0.9771320819854736,
      "learning_rate": 0.0002959788466299736,
      "loss": 4.2652,
      "step": 37310
    },
    {
      "epoch": 0.07775,
      "grad_norm": 1.054763674736023,
      "learning_rate": 0.00029597657891735555,
      "loss": 4.1943,
      "step": 37320
    },
    {
      "epoch": 0.07777083333333333,
      "grad_norm": 0.9850286841392517,
      "learning_rate": 0.00029597431057417647,
      "loss": 4.2439,
      "step": 37330
    },
    {
      "epoch": 0.07779166666666666,
      "grad_norm": 0.9610620737075806,
      "learning_rate": 0.0002959720416004461,
      "loss": 4.1891,
      "step": 37340
    },
    {
      "epoch": 0.0778125,
      "grad_norm": 1.0654579401016235,
      "learning_rate": 0.0002959697719961744,
      "loss": 4.4111,
      "step": 37350
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 0.9343149662017822,
      "learning_rate": 0.00029596750176137096,
      "loss": 4.0703,
      "step": 37360
    },
    {
      "epoch": 0.07785416666666667,
      "grad_norm": 0.9607505798339844,
      "learning_rate": 0.00029596523089604575,
      "loss": 4.2099,
      "step": 37370
    },
    {
      "epoch": 0.077875,
      "grad_norm": 1.0699989795684814,
      "learning_rate": 0.0002959629594002085,
      "loss": 4.2088,
      "step": 37380
    },
    {
      "epoch": 0.07789583333333333,
      "grad_norm": 1.0417155027389526,
      "learning_rate": 0.00029596068727386906,
      "loss": 4.0188,
      "step": 37390
    },
    {
      "epoch": 0.07791666666666666,
      "grad_norm": 0.9550593495368958,
      "learning_rate": 0.00029595841451703726,
      "loss": 4.0893,
      "step": 37400
    },
    {
      "epoch": 0.0779375,
      "grad_norm": 1.067594289779663,
      "learning_rate": 0.00029595614112972276,
      "loss": 4.246,
      "step": 37410
    },
    {
      "epoch": 0.07795833333333334,
      "grad_norm": 1.163870096206665,
      "learning_rate": 0.00029595386711193564,
      "loss": 4.3002,
      "step": 37420
    },
    {
      "epoch": 0.07797916666666667,
      "grad_norm": 0.9560213685035706,
      "learning_rate": 0.00029595159246368545,
      "loss": 4.2374,
      "step": 37430
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.9636728763580322,
      "learning_rate": 0.00029594931718498227,
      "loss": 4.1005,
      "step": 37440
    },
    {
      "epoch": 0.07802083333333333,
      "grad_norm": 1.0535123348236084,
      "learning_rate": 0.00029594704127583574,
      "loss": 4.1129,
      "step": 37450
    },
    {
      "epoch": 0.07804166666666666,
      "grad_norm": 1.559568166732788,
      "learning_rate": 0.00029594476473625584,
      "loss": 4.2899,
      "step": 37460
    },
    {
      "epoch": 0.0780625,
      "grad_norm": 1.174787998199463,
      "learning_rate": 0.0002959424875662523,
      "loss": 4.1628,
      "step": 37470
    },
    {
      "epoch": 0.07808333333333334,
      "grad_norm": 0.9665843844413757,
      "learning_rate": 0.0002959402097658349,
      "loss": 4.3125,
      "step": 37480
    },
    {
      "epoch": 0.07810416666666667,
      "grad_norm": 0.9566773176193237,
      "learning_rate": 0.00029593793133501364,
      "loss": 4.1748,
      "step": 37490
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.9331915974617004,
      "learning_rate": 0.0002959356522737982,
      "loss": 4.1304,
      "step": 37500
    },
    {
      "epoch": 0.07814583333333333,
      "grad_norm": 1.1282367706298828,
      "learning_rate": 0.0002959333725821986,
      "loss": 4.1906,
      "step": 37510
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 1.0407673120498657,
      "learning_rate": 0.00029593109226022456,
      "loss": 4.2227,
      "step": 37520
    },
    {
      "epoch": 0.0781875,
      "grad_norm": 0.9099968075752258,
      "learning_rate": 0.000295928811307886,
      "loss": 4.2841,
      "step": 37530
    },
    {
      "epoch": 0.07820833333333334,
      "grad_norm": 0.9770379662513733,
      "learning_rate": 0.0002959265297251927,
      "loss": 4.0945,
      "step": 37540
    },
    {
      "epoch": 0.07822916666666667,
      "grad_norm": 0.9578933715820312,
      "learning_rate": 0.0002959242475121546,
      "loss": 4.2132,
      "step": 37550
    },
    {
      "epoch": 0.07825,
      "grad_norm": 1.0387014150619507,
      "learning_rate": 0.0002959219646687814,
      "loss": 4.3934,
      "step": 37560
    },
    {
      "epoch": 0.07827083333333333,
      "grad_norm": 0.9465678930282593,
      "learning_rate": 0.00029591968119508315,
      "loss": 4.2361,
      "step": 37570
    },
    {
      "epoch": 0.07829166666666666,
      "grad_norm": 0.9741842746734619,
      "learning_rate": 0.00029591739709106964,
      "loss": 4.2207,
      "step": 37580
    },
    {
      "epoch": 0.0783125,
      "grad_norm": 0.9673029780387878,
      "learning_rate": 0.00029591511235675075,
      "loss": 4.1927,
      "step": 37590
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.9648885130882263,
      "learning_rate": 0.0002959128269921363,
      "loss": 4.0705,
      "step": 37600
    },
    {
      "epoch": 0.07835416666666667,
      "grad_norm": 0.9490130543708801,
      "learning_rate": 0.0002959105409972362,
      "loss": 4.182,
      "step": 37610
    },
    {
      "epoch": 0.078375,
      "grad_norm": 0.942406177520752,
      "learning_rate": 0.0002959082543720603,
      "loss": 4.445,
      "step": 37620
    },
    {
      "epoch": 0.07839583333333333,
      "grad_norm": 0.9371587038040161,
      "learning_rate": 0.0002959059671166185,
      "loss": 4.5114,
      "step": 37630
    },
    {
      "epoch": 0.07841666666666666,
      "grad_norm": 1.0344576835632324,
      "learning_rate": 0.00029590367923092067,
      "loss": 4.1116,
      "step": 37640
    },
    {
      "epoch": 0.0784375,
      "grad_norm": 0.9394155740737915,
      "learning_rate": 0.00029590139071497676,
      "loss": 4.2901,
      "step": 37650
    },
    {
      "epoch": 0.07845833333333334,
      "grad_norm": 1.0597163438796997,
      "learning_rate": 0.0002958991015687965,
      "loss": 4.2845,
      "step": 37660
    },
    {
      "epoch": 0.07847916666666667,
      "grad_norm": 0.9841563701629639,
      "learning_rate": 0.00029589681179238996,
      "loss": 4.4173,
      "step": 37670
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.926223635673523,
      "learning_rate": 0.00029589452138576686,
      "loss": 4.0839,
      "step": 37680
    },
    {
      "epoch": 0.07852083333333333,
      "grad_norm": 0.9989373683929443,
      "learning_rate": 0.0002958922303489372,
      "loss": 4.1373,
      "step": 37690
    },
    {
      "epoch": 0.07854166666666666,
      "grad_norm": 1.0586233139038086,
      "learning_rate": 0.0002958899386819109,
      "loss": 4.1894,
      "step": 37700
    },
    {
      "epoch": 0.0785625,
      "grad_norm": 1.156241536140442,
      "learning_rate": 0.0002958876463846978,
      "loss": 4.356,
      "step": 37710
    },
    {
      "epoch": 0.07858333333333334,
      "grad_norm": 1.024826169013977,
      "learning_rate": 0.0002958853534573078,
      "loss": 4.3494,
      "step": 37720
    },
    {
      "epoch": 0.07860416666666667,
      "grad_norm": 1.0282800197601318,
      "learning_rate": 0.0002958830598997508,
      "loss": 4.2895,
      "step": 37730
    },
    {
      "epoch": 0.078625,
      "grad_norm": 1.07545804977417,
      "learning_rate": 0.0002958807657120368,
      "loss": 4.1664,
      "step": 37740
    },
    {
      "epoch": 0.07864583333333333,
      "grad_norm": 1.0056662559509277,
      "learning_rate": 0.00029587847089417556,
      "loss": 4.2414,
      "step": 37750
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 1.00944983959198,
      "learning_rate": 0.0002958761754461771,
      "loss": 4.2267,
      "step": 37760
    },
    {
      "epoch": 0.0786875,
      "grad_norm": 0.952881932258606,
      "learning_rate": 0.0002958738793680513,
      "loss": 4.3297,
      "step": 37770
    },
    {
      "epoch": 0.07870833333333334,
      "grad_norm": 1.0642163753509521,
      "learning_rate": 0.00029587158265980806,
      "loss": 4.3093,
      "step": 37780
    },
    {
      "epoch": 0.07872916666666667,
      "grad_norm": 0.9202612042427063,
      "learning_rate": 0.00029586928532145736,
      "loss": 4.3674,
      "step": 37790
    },
    {
      "epoch": 0.07875,
      "grad_norm": 1.224982738494873,
      "learning_rate": 0.000295866987353009,
      "loss": 4.3621,
      "step": 37800
    },
    {
      "epoch": 0.07877083333333333,
      "grad_norm": 1.034776210784912,
      "learning_rate": 0.0002958646887544731,
      "loss": 4.0513,
      "step": 37810
    },
    {
      "epoch": 0.07879166666666666,
      "grad_norm": 1.029544472694397,
      "learning_rate": 0.0002958623895258594,
      "loss": 4.2902,
      "step": 37820
    },
    {
      "epoch": 0.0788125,
      "grad_norm": 1.351601004600525,
      "learning_rate": 0.000295860089667178,
      "loss": 4.4901,
      "step": 37830
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 0.8908329010009766,
      "learning_rate": 0.0002958577891784387,
      "loss": 4.2573,
      "step": 37840
    },
    {
      "epoch": 0.07885416666666667,
      "grad_norm": 0.9684256911277771,
      "learning_rate": 0.0002958554880596515,
      "loss": 4.2514,
      "step": 37850
    },
    {
      "epoch": 0.078875,
      "grad_norm": 0.8903627395629883,
      "learning_rate": 0.0002958531863108263,
      "loss": 4.3121,
      "step": 37860
    },
    {
      "epoch": 0.07889583333333333,
      "grad_norm": 0.9922116994857788,
      "learning_rate": 0.00029585088393197304,
      "loss": 4.2189,
      "step": 37870
    },
    {
      "epoch": 0.07891666666666666,
      "grad_norm": 0.9265060424804688,
      "learning_rate": 0.00029584858092310175,
      "loss": 4.2859,
      "step": 37880
    },
    {
      "epoch": 0.0789375,
      "grad_norm": 0.9205099940299988,
      "learning_rate": 0.00029584627728422233,
      "loss": 4.3061,
      "step": 37890
    },
    {
      "epoch": 0.07895833333333334,
      "grad_norm": 1.0227469205856323,
      "learning_rate": 0.0002958439730153447,
      "loss": 4.1596,
      "step": 37900
    },
    {
      "epoch": 0.07897916666666667,
      "grad_norm": 1.0041518211364746,
      "learning_rate": 0.0002958416681164788,
      "loss": 4.2225,
      "step": 37910
    },
    {
      "epoch": 0.079,
      "grad_norm": 1.0759103298187256,
      "learning_rate": 0.00029583936258763467,
      "loss": 4.1993,
      "step": 37920
    },
    {
      "epoch": 0.07902083333333333,
      "grad_norm": 1.083962321281433,
      "learning_rate": 0.00029583705642882214,
      "loss": 4.1835,
      "step": 37930
    },
    {
      "epoch": 0.07904166666666666,
      "grad_norm": 1.0320714712142944,
      "learning_rate": 0.00029583474964005134,
      "loss": 4.2791,
      "step": 37940
    },
    {
      "epoch": 0.0790625,
      "grad_norm": 1.1955639123916626,
      "learning_rate": 0.00029583244222133214,
      "loss": 4.3493,
      "step": 37950
    },
    {
      "epoch": 0.07908333333333334,
      "grad_norm": 0.9468408823013306,
      "learning_rate": 0.0002958301341726745,
      "loss": 4.3491,
      "step": 37960
    },
    {
      "epoch": 0.07910416666666667,
      "grad_norm": 0.947282075881958,
      "learning_rate": 0.0002958278254940884,
      "loss": 4.0833,
      "step": 37970
    },
    {
      "epoch": 0.079125,
      "grad_norm": 0.9852566719055176,
      "learning_rate": 0.0002958255161855838,
      "loss": 3.921,
      "step": 37980
    },
    {
      "epoch": 0.07914583333333333,
      "grad_norm": 0.962702214717865,
      "learning_rate": 0.0002958232062471707,
      "loss": 4.2538,
      "step": 37990
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 0.9957044720649719,
      "learning_rate": 0.0002958208956788591,
      "loss": 4.3365,
      "step": 38000
    },
    {
      "epoch": 0.07916666666666666,
      "eval_loss": 3.956505537033081,
      "eval_runtime": 7.372,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 38000
    },
    {
      "epoch": 0.0791875,
      "grad_norm": 1.0628691911697388,
      "learning_rate": 0.00029581858448065896,
      "loss": 4.1991,
      "step": 38010
    },
    {
      "epoch": 0.07920833333333334,
      "grad_norm": 0.9505884051322937,
      "learning_rate": 0.00029581627265258016,
      "loss": 4.2833,
      "step": 38020
    },
    {
      "epoch": 0.07922916666666667,
      "grad_norm": 1.035191535949707,
      "learning_rate": 0.00029581396019463286,
      "loss": 4.3285,
      "step": 38030
    },
    {
      "epoch": 0.07925,
      "grad_norm": 0.9479634165763855,
      "learning_rate": 0.000295811647106827,
      "loss": 4.1869,
      "step": 38040
    },
    {
      "epoch": 0.07927083333333333,
      "grad_norm": 1.3073341846466064,
      "learning_rate": 0.00029580933338917246,
      "loss": 4.3775,
      "step": 38050
    },
    {
      "epoch": 0.07929166666666666,
      "grad_norm": 1.0188673734664917,
      "learning_rate": 0.0002958070190416794,
      "loss": 4.2028,
      "step": 38060
    },
    {
      "epoch": 0.0793125,
      "grad_norm": 1.1401981115341187,
      "learning_rate": 0.00029580470406435764,
      "loss": 4.1767,
      "step": 38070
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 0.9297732710838318,
      "learning_rate": 0.0002958023884572173,
      "loss": 4.1446,
      "step": 38080
    },
    {
      "epoch": 0.07935416666666667,
      "grad_norm": 0.921907901763916,
      "learning_rate": 0.00029580007222026843,
      "loss": 4.0936,
      "step": 38090
    },
    {
      "epoch": 0.079375,
      "grad_norm": 0.945266842842102,
      "learning_rate": 0.0002957977553535209,
      "loss": 4.1373,
      "step": 38100
    },
    {
      "epoch": 0.07939583333333333,
      "grad_norm": 1.0262566804885864,
      "learning_rate": 0.00029579543785698473,
      "loss": 4.0288,
      "step": 38110
    },
    {
      "epoch": 0.07941666666666666,
      "grad_norm": 1.0388178825378418,
      "learning_rate": 0.00029579311973067,
      "loss": 4.3029,
      "step": 38120
    },
    {
      "epoch": 0.0794375,
      "grad_norm": 1.1460787057876587,
      "learning_rate": 0.00029579080097458677,
      "loss": 4.1554,
      "step": 38130
    },
    {
      "epoch": 0.07945833333333334,
      "grad_norm": 0.9641707539558411,
      "learning_rate": 0.0002957884815887449,
      "loss": 4.1681,
      "step": 38140
    },
    {
      "epoch": 0.07947916666666667,
      "grad_norm": 1.0076230764389038,
      "learning_rate": 0.0002957861615731545,
      "loss": 4.1436,
      "step": 38150
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.9331812262535095,
      "learning_rate": 0.0002957838409278257,
      "loss": 4.1338,
      "step": 38160
    },
    {
      "epoch": 0.07952083333333333,
      "grad_norm": 1.0707498788833618,
      "learning_rate": 0.0002957815196527683,
      "loss": 4.1653,
      "step": 38170
    },
    {
      "epoch": 0.07954166666666666,
      "grad_norm": 0.9727174043655396,
      "learning_rate": 0.0002957791977479925,
      "loss": 4.1905,
      "step": 38180
    },
    {
      "epoch": 0.0795625,
      "grad_norm": 0.9747837781906128,
      "learning_rate": 0.00029577687521350826,
      "loss": 4.1593,
      "step": 38190
    },
    {
      "epoch": 0.07958333333333334,
      "grad_norm": 1.001481294631958,
      "learning_rate": 0.0002957745520493256,
      "loss": 4.1915,
      "step": 38200
    },
    {
      "epoch": 0.07960416666666667,
      "grad_norm": 0.8971500992774963,
      "learning_rate": 0.0002957722282554546,
      "loss": 4.2426,
      "step": 38210
    },
    {
      "epoch": 0.079625,
      "grad_norm": 0.9311712384223938,
      "learning_rate": 0.00029576990383190524,
      "loss": 4.3463,
      "step": 38220
    },
    {
      "epoch": 0.07964583333333333,
      "grad_norm": 0.9198105335235596,
      "learning_rate": 0.00029576757877868763,
      "loss": 4.3547,
      "step": 38230
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 0.9745133519172668,
      "learning_rate": 0.0002957652530958118,
      "loss": 4.3625,
      "step": 38240
    },
    {
      "epoch": 0.0796875,
      "grad_norm": 1.0359095335006714,
      "learning_rate": 0.0002957629267832877,
      "loss": 3.9254,
      "step": 38250
    },
    {
      "epoch": 0.07970833333333334,
      "grad_norm": 0.9330442547798157,
      "learning_rate": 0.0002957605998411255,
      "loss": 4.2792,
      "step": 38260
    },
    {
      "epoch": 0.07972916666666667,
      "grad_norm": 0.9731218814849854,
      "learning_rate": 0.0002957582722693352,
      "loss": 4.3207,
      "step": 38270
    },
    {
      "epoch": 0.07975,
      "grad_norm": 1.4229249954223633,
      "learning_rate": 0.00029575594406792684,
      "loss": 4.2787,
      "step": 38280
    },
    {
      "epoch": 0.07977083333333333,
      "grad_norm": 1.082295298576355,
      "learning_rate": 0.0002957536152369105,
      "loss": 4.2374,
      "step": 38290
    },
    {
      "epoch": 0.07979166666666666,
      "grad_norm": 1.5655596256256104,
      "learning_rate": 0.00029575128577629626,
      "loss": 4.3375,
      "step": 38300
    },
    {
      "epoch": 0.0798125,
      "grad_norm": 1.0263564586639404,
      "learning_rate": 0.00029574895568609415,
      "loss": 4.1276,
      "step": 38310
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 0.9960632920265198,
      "learning_rate": 0.00029574662496631427,
      "loss": 4.1808,
      "step": 38320
    },
    {
      "epoch": 0.07985416666666667,
      "grad_norm": 1.037649154663086,
      "learning_rate": 0.0002957442936169666,
      "loss": 4.3455,
      "step": 38330
    },
    {
      "epoch": 0.079875,
      "grad_norm": 0.948604166507721,
      "learning_rate": 0.0002957419616380613,
      "loss": 4.2907,
      "step": 38340
    },
    {
      "epoch": 0.07989583333333333,
      "grad_norm": 1.0347709655761719,
      "learning_rate": 0.00029573962902960845,
      "loss": 4.1876,
      "step": 38350
    },
    {
      "epoch": 0.07991666666666666,
      "grad_norm": 0.9354941248893738,
      "learning_rate": 0.000295737295791618,
      "loss": 4.1861,
      "step": 38360
    },
    {
      "epoch": 0.0799375,
      "grad_norm": 1.179772138595581,
      "learning_rate": 0.0002957349619241002,
      "loss": 4.2921,
      "step": 38370
    },
    {
      "epoch": 0.07995833333333334,
      "grad_norm": 0.9620672464370728,
      "learning_rate": 0.00029573262742706505,
      "loss": 4.1095,
      "step": 38380
    },
    {
      "epoch": 0.07997916666666667,
      "grad_norm": 0.9087616801261902,
      "learning_rate": 0.00029573029230052256,
      "loss": 4.2639,
      "step": 38390
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9891071915626526,
      "learning_rate": 0.00029572795654448297,
      "loss": 4.2205,
      "step": 38400
    },
    {
      "epoch": 0.08002083333333333,
      "grad_norm": 0.9489806294441223,
      "learning_rate": 0.00029572562015895624,
      "loss": 4.3554,
      "step": 38410
    },
    {
      "epoch": 0.08004166666666666,
      "grad_norm": 0.9685739874839783,
      "learning_rate": 0.0002957232831439525,
      "loss": 4.2272,
      "step": 38420
    },
    {
      "epoch": 0.0800625,
      "grad_norm": 0.9838099479675293,
      "learning_rate": 0.00029572094549948195,
      "loss": 4.3004,
      "step": 38430
    },
    {
      "epoch": 0.08008333333333334,
      "grad_norm": 1.0311609506607056,
      "learning_rate": 0.00029571860722555455,
      "loss": 4.1094,
      "step": 38440
    },
    {
      "epoch": 0.08010416666666667,
      "grad_norm": 1.0717127323150635,
      "learning_rate": 0.0002957162683221804,
      "loss": 4.1956,
      "step": 38450
    },
    {
      "epoch": 0.080125,
      "grad_norm": 0.9404824376106262,
      "learning_rate": 0.0002957139287893697,
      "loss": 4.1328,
      "step": 38460
    },
    {
      "epoch": 0.08014583333333333,
      "grad_norm": 1.0260331630706787,
      "learning_rate": 0.0002957115886271325,
      "loss": 4.2728,
      "step": 38470
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 1.0736522674560547,
      "learning_rate": 0.0002957092478354789,
      "loss": 4.254,
      "step": 38480
    },
    {
      "epoch": 0.0801875,
      "grad_norm": 0.9286824464797974,
      "learning_rate": 0.000295706906414419,
      "loss": 4.236,
      "step": 38490
    },
    {
      "epoch": 0.08020833333333334,
      "grad_norm": 1.0172476768493652,
      "learning_rate": 0.000295704564363963,
      "loss": 4.2433,
      "step": 38500
    },
    {
      "epoch": 0.08022916666666667,
      "grad_norm": 0.9907866716384888,
      "learning_rate": 0.00029570222168412094,
      "loss": 4.1792,
      "step": 38510
    },
    {
      "epoch": 0.08025,
      "grad_norm": 0.9110721945762634,
      "learning_rate": 0.00029569987837490294,
      "loss": 4.1484,
      "step": 38520
    },
    {
      "epoch": 0.08027083333333333,
      "grad_norm": 0.978266179561615,
      "learning_rate": 0.0002956975344363191,
      "loss": 4.338,
      "step": 38530
    },
    {
      "epoch": 0.08029166666666666,
      "grad_norm": 1.0899887084960938,
      "learning_rate": 0.00029569518986837965,
      "loss": 4.2608,
      "step": 38540
    },
    {
      "epoch": 0.0803125,
      "grad_norm": 1.0239158868789673,
      "learning_rate": 0.0002956928446710946,
      "loss": 4.1128,
      "step": 38550
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 0.9404721856117249,
      "learning_rate": 0.0002956904988444741,
      "loss": 4.25,
      "step": 38560
    },
    {
      "epoch": 0.08035416666666667,
      "grad_norm": 0.9324177503585815,
      "learning_rate": 0.0002956881523885284,
      "loss": 4.3363,
      "step": 38570
    },
    {
      "epoch": 0.080375,
      "grad_norm": 0.9876653552055359,
      "learning_rate": 0.0002956858053032675,
      "loss": 4.0673,
      "step": 38580
    },
    {
      "epoch": 0.08039583333333333,
      "grad_norm": 1.0210734605789185,
      "learning_rate": 0.0002956834575887016,
      "loss": 4.2943,
      "step": 38590
    },
    {
      "epoch": 0.08041666666666666,
      "grad_norm": 0.9680538177490234,
      "learning_rate": 0.0002956811092448408,
      "loss": 4.011,
      "step": 38600
    },
    {
      "epoch": 0.0804375,
      "grad_norm": 0.9789648652076721,
      "learning_rate": 0.00029567876027169533,
      "loss": 4.1619,
      "step": 38610
    },
    {
      "epoch": 0.08045833333333334,
      "grad_norm": 0.9281650185585022,
      "learning_rate": 0.00029567641066927526,
      "loss": 4.0399,
      "step": 38620
    },
    {
      "epoch": 0.08047916666666667,
      "grad_norm": 1.1401262283325195,
      "learning_rate": 0.00029567406043759075,
      "loss": 4.2441,
      "step": 38630
    },
    {
      "epoch": 0.0805,
      "grad_norm": 1.0236002206802368,
      "learning_rate": 0.00029567170957665195,
      "loss": 4.2271,
      "step": 38640
    },
    {
      "epoch": 0.08052083333333333,
      "grad_norm": 1.0751926898956299,
      "learning_rate": 0.00029566935808646904,
      "loss": 4.201,
      "step": 38650
    },
    {
      "epoch": 0.08054166666666666,
      "grad_norm": 0.9737886190414429,
      "learning_rate": 0.00029566700596705216,
      "loss": 4.1769,
      "step": 38660
    },
    {
      "epoch": 0.0805625,
      "grad_norm": 0.9763689041137695,
      "learning_rate": 0.00029566465321841144,
      "loss": 4.1499,
      "step": 38670
    },
    {
      "epoch": 0.08058333333333334,
      "grad_norm": 0.9716511368751526,
      "learning_rate": 0.0002956622998405571,
      "loss": 4.32,
      "step": 38680
    },
    {
      "epoch": 0.08060416666666667,
      "grad_norm": 0.9552732706069946,
      "learning_rate": 0.0002956599458334993,
      "loss": 4.0712,
      "step": 38690
    },
    {
      "epoch": 0.080625,
      "grad_norm": 0.9142135977745056,
      "learning_rate": 0.00029565759119724817,
      "loss": 4.2217,
      "step": 38700
    },
    {
      "epoch": 0.08064583333333333,
      "grad_norm": 0.9301844835281372,
      "learning_rate": 0.0002956552359318139,
      "loss": 4.4011,
      "step": 38710
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 0.9122814536094666,
      "learning_rate": 0.0002956528800372067,
      "loss": 4.3824,
      "step": 38720
    },
    {
      "epoch": 0.0806875,
      "grad_norm": 2.05947208404541,
      "learning_rate": 0.0002956505235134367,
      "loss": 4.3649,
      "step": 38730
    },
    {
      "epoch": 0.08070833333333334,
      "grad_norm": 0.9381988644599915,
      "learning_rate": 0.0002956481663605141,
      "loss": 4.1858,
      "step": 38740
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 0.9887258410453796,
      "learning_rate": 0.000295645808578449,
      "loss": 4.1941,
      "step": 38750
    },
    {
      "epoch": 0.08075,
      "grad_norm": 0.9506086111068726,
      "learning_rate": 0.00029564345016725173,
      "loss": 4.1391,
      "step": 38760
    },
    {
      "epoch": 0.08077083333333333,
      "grad_norm": 0.8858855962753296,
      "learning_rate": 0.00029564109112693236,
      "loss": 4.1739,
      "step": 38770
    },
    {
      "epoch": 0.08079166666666666,
      "grad_norm": 1.029678225517273,
      "learning_rate": 0.00029563873145750115,
      "loss": 4.3219,
      "step": 38780
    },
    {
      "epoch": 0.0808125,
      "grad_norm": 0.9971686601638794,
      "learning_rate": 0.00029563637115896825,
      "loss": 4.3768,
      "step": 38790
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 0.9517569541931152,
      "learning_rate": 0.0002956340102313439,
      "loss": 4.3613,
      "step": 38800
    },
    {
      "epoch": 0.08085416666666667,
      "grad_norm": 1.0020428895950317,
      "learning_rate": 0.0002956316486746383,
      "loss": 4.2497,
      "step": 38810
    },
    {
      "epoch": 0.080875,
      "grad_norm": 0.914936363697052,
      "learning_rate": 0.00029562928648886155,
      "loss": 4.1096,
      "step": 38820
    },
    {
      "epoch": 0.08089583333333333,
      "grad_norm": 0.9902759194374084,
      "learning_rate": 0.00029562692367402394,
      "loss": 4.0792,
      "step": 38830
    },
    {
      "epoch": 0.08091666666666666,
      "grad_norm": 1.0597572326660156,
      "learning_rate": 0.0002956245602301357,
      "loss": 4.3069,
      "step": 38840
    },
    {
      "epoch": 0.0809375,
      "grad_norm": 0.9868088960647583,
      "learning_rate": 0.00029562219615720696,
      "loss": 4.2042,
      "step": 38850
    },
    {
      "epoch": 0.08095833333333333,
      "grad_norm": 0.9962337017059326,
      "learning_rate": 0.000295619831455248,
      "loss": 4.2458,
      "step": 38860
    },
    {
      "epoch": 0.08097916666666667,
      "grad_norm": 1.3329530954360962,
      "learning_rate": 0.00029561746612426904,
      "loss": 4.2699,
      "step": 38870
    },
    {
      "epoch": 0.081,
      "grad_norm": 1.0361918210983276,
      "learning_rate": 0.00029561510016428024,
      "loss": 4.2309,
      "step": 38880
    },
    {
      "epoch": 0.08102083333333333,
      "grad_norm": 1.0661377906799316,
      "learning_rate": 0.0002956127335752918,
      "loss": 4.1447,
      "step": 38890
    },
    {
      "epoch": 0.08104166666666666,
      "grad_norm": 1.0163363218307495,
      "learning_rate": 0.00029561036635731403,
      "loss": 4.2237,
      "step": 38900
    },
    {
      "epoch": 0.0810625,
      "grad_norm": 0.8972605466842651,
      "learning_rate": 0.0002956079985103571,
      "loss": 4.3396,
      "step": 38910
    },
    {
      "epoch": 0.08108333333333333,
      "grad_norm": 0.9544655084609985,
      "learning_rate": 0.0002956056300344313,
      "loss": 4.1682,
      "step": 38920
    },
    {
      "epoch": 0.08110416666666667,
      "grad_norm": 0.9136682152748108,
      "learning_rate": 0.00029560326092954676,
      "loss": 4.2526,
      "step": 38930
    },
    {
      "epoch": 0.081125,
      "grad_norm": 0.9944880604743958,
      "learning_rate": 0.00029560089119571377,
      "loss": 4.0926,
      "step": 38940
    },
    {
      "epoch": 0.08114583333333333,
      "grad_norm": 0.9293843507766724,
      "learning_rate": 0.00029559852083294264,
      "loss": 4.1443,
      "step": 38950
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 0.9580027461051941,
      "learning_rate": 0.00029559614984124344,
      "loss": 4.3918,
      "step": 38960
    },
    {
      "epoch": 0.0811875,
      "grad_norm": 0.9733921885490417,
      "learning_rate": 0.00029559377822062653,
      "loss": 4.3219,
      "step": 38970
    },
    {
      "epoch": 0.08120833333333333,
      "grad_norm": 0.9062111377716064,
      "learning_rate": 0.0002955914059711021,
      "loss": 4.3659,
      "step": 38980
    },
    {
      "epoch": 0.08122916666666667,
      "grad_norm": 1.1575016975402832,
      "learning_rate": 0.00029558903309268047,
      "loss": 4.3377,
      "step": 38990
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.9546031951904297,
      "learning_rate": 0.0002955866595853718,
      "loss": 4.4254,
      "step": 39000
    },
    {
      "epoch": 0.08125,
      "eval_loss": 3.965132236480713,
      "eval_runtime": 7.4313,
      "eval_samples_per_second": 1.346,
      "eval_steps_per_second": 0.404,
      "step": 39000
    },
    {
      "epoch": 0.08127083333333333,
      "grad_norm": 0.8913626670837402,
      "learning_rate": 0.0002955842854491864,
      "loss": 4.4189,
      "step": 39010
    },
    {
      "epoch": 0.08129166666666666,
      "grad_norm": 1.0131689310073853,
      "learning_rate": 0.00029558191068413455,
      "loss": 4.2731,
      "step": 39020
    },
    {
      "epoch": 0.0813125,
      "grad_norm": 0.9554055333137512,
      "learning_rate": 0.00029557953529022645,
      "loss": 4.1619,
      "step": 39030
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 0.9872912764549255,
      "learning_rate": 0.00029557715926747236,
      "loss": 4.1909,
      "step": 39040
    },
    {
      "epoch": 0.08135416666666667,
      "grad_norm": 0.9098792672157288,
      "learning_rate": 0.00029557478261588264,
      "loss": 4.3141,
      "step": 39050
    },
    {
      "epoch": 0.081375,
      "grad_norm": 0.9766659736633301,
      "learning_rate": 0.0002955724053354674,
      "loss": 4.2356,
      "step": 39060
    },
    {
      "epoch": 0.08139583333333333,
      "grad_norm": 0.9821173548698425,
      "learning_rate": 0.00029557002742623705,
      "loss": 4.1243,
      "step": 39070
    },
    {
      "epoch": 0.08141666666666666,
      "grad_norm": 0.8858553171157837,
      "learning_rate": 0.00029556764888820174,
      "loss": 4.296,
      "step": 39080
    },
    {
      "epoch": 0.0814375,
      "grad_norm": 0.9111911058425903,
      "learning_rate": 0.0002955652697213719,
      "loss": 4.0744,
      "step": 39090
    },
    {
      "epoch": 0.08145833333333333,
      "grad_norm": 1.0608711242675781,
      "learning_rate": 0.0002955628899257576,
      "loss": 4.3597,
      "step": 39100
    },
    {
      "epoch": 0.08147916666666667,
      "grad_norm": 0.9838536381721497,
      "learning_rate": 0.0002955605095013693,
      "loss": 4.1581,
      "step": 39110
    },
    {
      "epoch": 0.0815,
      "grad_norm": 1.0082353353500366,
      "learning_rate": 0.0002955581284482172,
      "loss": 4.2931,
      "step": 39120
    },
    {
      "epoch": 0.08152083333333333,
      "grad_norm": 0.9717587828636169,
      "learning_rate": 0.00029555574676631163,
      "loss": 4.2365,
      "step": 39130
    },
    {
      "epoch": 0.08154166666666667,
      "grad_norm": 1.0132827758789062,
      "learning_rate": 0.0002955533644556628,
      "loss": 4.1938,
      "step": 39140
    },
    {
      "epoch": 0.0815625,
      "grad_norm": 0.9900473952293396,
      "learning_rate": 0.00029555098151628107,
      "loss": 4.072,
      "step": 39150
    },
    {
      "epoch": 0.08158333333333333,
      "grad_norm": 1.0629005432128906,
      "learning_rate": 0.00029554859794817673,
      "loss": 4.2793,
      "step": 39160
    },
    {
      "epoch": 0.08160416666666667,
      "grad_norm": 1.1101387739181519,
      "learning_rate": 0.00029554621375136003,
      "loss": 4.1596,
      "step": 39170
    },
    {
      "epoch": 0.081625,
      "grad_norm": 0.8877118825912476,
      "learning_rate": 0.0002955438289258413,
      "loss": 4.3244,
      "step": 39180
    },
    {
      "epoch": 0.08164583333333333,
      "grad_norm": 1.0242087841033936,
      "learning_rate": 0.0002955414434716309,
      "loss": 4.2239,
      "step": 39190
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.9314811825752258,
      "learning_rate": 0.000295539057388739,
      "loss": 4.3546,
      "step": 39200
    },
    {
      "epoch": 0.0816875,
      "grad_norm": 1.0570601224899292,
      "learning_rate": 0.000295536670677176,
      "loss": 4.2461,
      "step": 39210
    },
    {
      "epoch": 0.08170833333333333,
      "grad_norm": 0.8571541905403137,
      "learning_rate": 0.0002955342833369522,
      "loss": 4.1876,
      "step": 39220
    },
    {
      "epoch": 0.08172916666666667,
      "grad_norm": 0.9353304505348206,
      "learning_rate": 0.0002955318953680779,
      "loss": 4.2204,
      "step": 39230
    },
    {
      "epoch": 0.08175,
      "grad_norm": 0.9163077473640442,
      "learning_rate": 0.0002955295067705634,
      "loss": 4.4029,
      "step": 39240
    },
    {
      "epoch": 0.08177083333333333,
      "grad_norm": 0.980395495891571,
      "learning_rate": 0.00029552711754441904,
      "loss": 4.1364,
      "step": 39250
    },
    {
      "epoch": 0.08179166666666667,
      "grad_norm": 0.9151845574378967,
      "learning_rate": 0.00029552472768965514,
      "loss": 4.3319,
      "step": 39260
    },
    {
      "epoch": 0.0818125,
      "grad_norm": 1.0371400117874146,
      "learning_rate": 0.00029552233720628204,
      "loss": 4.2199,
      "step": 39270
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 0.8732648491859436,
      "learning_rate": 0.00029551994609431005,
      "loss": 4.0132,
      "step": 39280
    },
    {
      "epoch": 0.08185416666666667,
      "grad_norm": 1.0004048347473145,
      "learning_rate": 0.00029551755435374945,
      "loss": 4.0757,
      "step": 39290
    },
    {
      "epoch": 0.081875,
      "grad_norm": 1.091230869293213,
      "learning_rate": 0.0002955151619846106,
      "loss": 4.1613,
      "step": 39300
    },
    {
      "epoch": 0.08189583333333333,
      "grad_norm": 1.037695288658142,
      "learning_rate": 0.00029551276898690394,
      "loss": 4.3311,
      "step": 39310
    },
    {
      "epoch": 0.08191666666666667,
      "grad_norm": 0.9742449522018433,
      "learning_rate": 0.0002955103753606396,
      "loss": 4.1803,
      "step": 39320
    },
    {
      "epoch": 0.0819375,
      "grad_norm": 0.9135807156562805,
      "learning_rate": 0.0002955079811058282,
      "loss": 4.2184,
      "step": 39330
    },
    {
      "epoch": 0.08195833333333333,
      "grad_norm": 0.9356513023376465,
      "learning_rate": 0.0002955055862224798,
      "loss": 4.3087,
      "step": 39340
    },
    {
      "epoch": 0.08197916666666667,
      "grad_norm": 0.8996149301528931,
      "learning_rate": 0.0002955031907106049,
      "loss": 4.1201,
      "step": 39350
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.9752099514007568,
      "learning_rate": 0.00029550079457021374,
      "loss": 4.2465,
      "step": 39360
    },
    {
      "epoch": 0.08202083333333333,
      "grad_norm": 0.8960673809051514,
      "learning_rate": 0.0002954983978013168,
      "loss": 4.1254,
      "step": 39370
    },
    {
      "epoch": 0.08204166666666667,
      "grad_norm": 0.9821454286575317,
      "learning_rate": 0.00029549600040392436,
      "loss": 4.2787,
      "step": 39380
    },
    {
      "epoch": 0.0820625,
      "grad_norm": 1.0482139587402344,
      "learning_rate": 0.0002954936023780468,
      "loss": 4.2291,
      "step": 39390
    },
    {
      "epoch": 0.08208333333333333,
      "grad_norm": 0.8998008370399475,
      "learning_rate": 0.0002954912037236945,
      "loss": 4.2526,
      "step": 39400
    },
    {
      "epoch": 0.08210416666666667,
      "grad_norm": 0.9666319489479065,
      "learning_rate": 0.0002954888044408777,
      "loss": 4.2191,
      "step": 39410
    },
    {
      "epoch": 0.082125,
      "grad_norm": 0.8660591244697571,
      "learning_rate": 0.00029548640452960694,
      "loss": 4.3223,
      "step": 39420
    },
    {
      "epoch": 0.08214583333333333,
      "grad_norm": 1.0532914400100708,
      "learning_rate": 0.00029548400398989245,
      "loss": 4.0684,
      "step": 39430
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 0.8974049687385559,
      "learning_rate": 0.0002954816028217446,
      "loss": 4.2502,
      "step": 39440
    },
    {
      "epoch": 0.0821875,
      "grad_norm": 0.9948591589927673,
      "learning_rate": 0.0002954792010251739,
      "loss": 4.2217,
      "step": 39450
    },
    {
      "epoch": 0.08220833333333333,
      "grad_norm": 1.1962738037109375,
      "learning_rate": 0.0002954767986001906,
      "loss": 4.2311,
      "step": 39460
    },
    {
      "epoch": 0.08222916666666667,
      "grad_norm": 1.0420747995376587,
      "learning_rate": 0.00029547439554680516,
      "loss": 4.2104,
      "step": 39470
    },
    {
      "epoch": 0.08225,
      "grad_norm": 1.0229474306106567,
      "learning_rate": 0.00029547199186502783,
      "loss": 4.3028,
      "step": 39480
    },
    {
      "epoch": 0.08227083333333333,
      "grad_norm": 0.9509468078613281,
      "learning_rate": 0.00029546958755486915,
      "loss": 4.2045,
      "step": 39490
    },
    {
      "epoch": 0.08229166666666667,
      "grad_norm": 0.8723806738853455,
      "learning_rate": 0.0002954671826163394,
      "loss": 4.302,
      "step": 39500
    },
    {
      "epoch": 0.0823125,
      "grad_norm": 0.9693953394889832,
      "learning_rate": 0.00029546477704944904,
      "loss": 4.3189,
      "step": 39510
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 1.0141537189483643,
      "learning_rate": 0.00029546237085420837,
      "loss": 4.4377,
      "step": 39520
    },
    {
      "epoch": 0.08235416666666667,
      "grad_norm": 0.8928066492080688,
      "learning_rate": 0.0002954599640306279,
      "loss": 4.2466,
      "step": 39530
    },
    {
      "epoch": 0.082375,
      "grad_norm": 0.996440052986145,
      "learning_rate": 0.0002954575565787179,
      "loss": 4.1758,
      "step": 39540
    },
    {
      "epoch": 0.08239583333333333,
      "grad_norm": 0.9195059537887573,
      "learning_rate": 0.00029545514849848887,
      "loss": 4.3593,
      "step": 39550
    },
    {
      "epoch": 0.08241666666666667,
      "grad_norm": 0.9193606972694397,
      "learning_rate": 0.0002954527397899511,
      "loss": 4.1056,
      "step": 39560
    },
    {
      "epoch": 0.0824375,
      "grad_norm": 0.8972750306129456,
      "learning_rate": 0.0002954503304531152,
      "loss": 4.3051,
      "step": 39570
    },
    {
      "epoch": 0.08245833333333333,
      "grad_norm": 0.9145175218582153,
      "learning_rate": 0.00029544792048799134,
      "loss": 4.2508,
      "step": 39580
    },
    {
      "epoch": 0.08247916666666667,
      "grad_norm": 1.0127449035644531,
      "learning_rate": 0.00029544550989459007,
      "loss": 4.2906,
      "step": 39590
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.9269135594367981,
      "learning_rate": 0.0002954430986729217,
      "loss": 4.2843,
      "step": 39600
    },
    {
      "epoch": 0.08252083333333333,
      "grad_norm": 0.8751487135887146,
      "learning_rate": 0.0002954406868229968,
      "loss": 4.2014,
      "step": 39610
    },
    {
      "epoch": 0.08254166666666667,
      "grad_norm": 0.9013186693191528,
      "learning_rate": 0.00029543827434482575,
      "loss": 4.2713,
      "step": 39620
    },
    {
      "epoch": 0.0825625,
      "grad_norm": 0.9170354604721069,
      "learning_rate": 0.00029543586123841883,
      "loss": 4.0298,
      "step": 39630
    },
    {
      "epoch": 0.08258333333333333,
      "grad_norm": 0.8522282242774963,
      "learning_rate": 0.0002954334475037866,
      "loss": 4.2297,
      "step": 39640
    },
    {
      "epoch": 0.08260416666666667,
      "grad_norm": 0.99934321641922,
      "learning_rate": 0.0002954310331409394,
      "loss": 4.1685,
      "step": 39650
    },
    {
      "epoch": 0.082625,
      "grad_norm": 0.9388383030891418,
      "learning_rate": 0.0002954286181498877,
      "loss": 4.3132,
      "step": 39660
    },
    {
      "epoch": 0.08264583333333334,
      "grad_norm": 0.9731736183166504,
      "learning_rate": 0.000295426202530642,
      "loss": 4.211,
      "step": 39670
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 1.0662720203399658,
      "learning_rate": 0.0002954237862832126,
      "loss": 4.1958,
      "step": 39680
    },
    {
      "epoch": 0.0826875,
      "grad_norm": 0.991409957408905,
      "learning_rate": 0.00029542136940761005,
      "loss": 4.1586,
      "step": 39690
    },
    {
      "epoch": 0.08270833333333333,
      "grad_norm": 0.9731664061546326,
      "learning_rate": 0.00029541895190384474,
      "loss": 4.1774,
      "step": 39700
    },
    {
      "epoch": 0.08272916666666667,
      "grad_norm": 0.897730827331543,
      "learning_rate": 0.00029541653377192705,
      "loss": 4.3173,
      "step": 39710
    },
    {
      "epoch": 0.08275,
      "grad_norm": 0.9395747780799866,
      "learning_rate": 0.0002954141150118676,
      "loss": 4.2862,
      "step": 39720
    },
    {
      "epoch": 0.08277083333333334,
      "grad_norm": 1.0028265714645386,
      "learning_rate": 0.0002954116956236767,
      "loss": 4.2438,
      "step": 39730
    },
    {
      "epoch": 0.08279166666666667,
      "grad_norm": 0.9277584552764893,
      "learning_rate": 0.0002954092756073648,
      "loss": 4.308,
      "step": 39740
    },
    {
      "epoch": 0.0828125,
      "grad_norm": 0.9932664632797241,
      "learning_rate": 0.0002954068549629424,
      "loss": 4.2129,
      "step": 39750
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 1.0107988119125366,
      "learning_rate": 0.0002954044336904199,
      "loss": 4.1619,
      "step": 39760
    },
    {
      "epoch": 0.08285416666666667,
      "grad_norm": 1.0127453804016113,
      "learning_rate": 0.0002954020117898079,
      "loss": 4.1255,
      "step": 39770
    },
    {
      "epoch": 0.082875,
      "grad_norm": 1.0685009956359863,
      "learning_rate": 0.0002953995892611167,
      "loss": 4.0844,
      "step": 39780
    },
    {
      "epoch": 0.08289583333333334,
      "grad_norm": 0.9481469392776489,
      "learning_rate": 0.00029539716610435686,
      "loss": 4.3084,
      "step": 39790
    },
    {
      "epoch": 0.08291666666666667,
      "grad_norm": 0.9886743426322937,
      "learning_rate": 0.0002953947423195388,
      "loss": 4.1541,
      "step": 39800
    },
    {
      "epoch": 0.0829375,
      "grad_norm": 1.0474765300750732,
      "learning_rate": 0.000295392317906673,
      "loss": 4.0465,
      "step": 39810
    },
    {
      "epoch": 0.08295833333333333,
      "grad_norm": 0.9463983178138733,
      "learning_rate": 0.00029538989286576994,
      "loss": 4.3321,
      "step": 39820
    },
    {
      "epoch": 0.08297916666666667,
      "grad_norm": 0.9249831438064575,
      "learning_rate": 0.00029538746719684006,
      "loss": 4.2782,
      "step": 39830
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.9276896119117737,
      "learning_rate": 0.00029538504089989394,
      "loss": 4.2236,
      "step": 39840
    },
    {
      "epoch": 0.08302083333333334,
      "grad_norm": 0.9913843274116516,
      "learning_rate": 0.0002953826139749419,
      "loss": 4.1973,
      "step": 39850
    },
    {
      "epoch": 0.08304166666666667,
      "grad_norm": 1.0476616621017456,
      "learning_rate": 0.0002953801864219946,
      "loss": 4.281,
      "step": 39860
    },
    {
      "epoch": 0.0830625,
      "grad_norm": 1.091399908065796,
      "learning_rate": 0.0002953777582410624,
      "loss": 4.1741,
      "step": 39870
    },
    {
      "epoch": 0.08308333333333333,
      "grad_norm": 0.9792701005935669,
      "learning_rate": 0.0002953753294321558,
      "loss": 4.203,
      "step": 39880
    },
    {
      "epoch": 0.08310416666666667,
      "grad_norm": 0.8973843455314636,
      "learning_rate": 0.00029537289999528535,
      "loss": 4.0862,
      "step": 39890
    },
    {
      "epoch": 0.083125,
      "grad_norm": 0.9131758809089661,
      "learning_rate": 0.00029537046993046155,
      "loss": 4.1794,
      "step": 39900
    },
    {
      "epoch": 0.08314583333333334,
      "grad_norm": 1.009520411491394,
      "learning_rate": 0.0002953680392376948,
      "loss": 4.2701,
      "step": 39910
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 0.9524152874946594,
      "learning_rate": 0.0002953656079169957,
      "loss": 4.065,
      "step": 39920
    },
    {
      "epoch": 0.0831875,
      "grad_norm": 1.0190714597702026,
      "learning_rate": 0.00029536317596837473,
      "loss": 4.2085,
      "step": 39930
    },
    {
      "epoch": 0.08320833333333333,
      "grad_norm": 0.9382234215736389,
      "learning_rate": 0.0002953607433918423,
      "loss": 4.1588,
      "step": 39940
    },
    {
      "epoch": 0.08322916666666667,
      "grad_norm": 0.909511923789978,
      "learning_rate": 0.0002953583101874091,
      "loss": 4.3223,
      "step": 39950
    },
    {
      "epoch": 0.08325,
      "grad_norm": 0.8849759697914124,
      "learning_rate": 0.00029535587635508547,
      "loss": 4.23,
      "step": 39960
    },
    {
      "epoch": 0.08327083333333334,
      "grad_norm": 0.9766655564308167,
      "learning_rate": 0.000295353441894882,
      "loss": 4.4243,
      "step": 39970
    },
    {
      "epoch": 0.08329166666666667,
      "grad_norm": 1.0558806657791138,
      "learning_rate": 0.0002953510068068092,
      "loss": 4.3644,
      "step": 39980
    },
    {
      "epoch": 0.0833125,
      "grad_norm": 0.8910353779792786,
      "learning_rate": 0.00029534857109087757,
      "loss": 4.4435,
      "step": 39990
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.9394804835319519,
      "learning_rate": 0.0002953461347470977,
      "loss": 4.1312,
      "step": 40000
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 3.9579691886901855,
      "eval_runtime": 7.3087,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 40000
    },
    {
      "epoch": 0.08335416666666666,
      "grad_norm": 0.9574811458587646,
      "learning_rate": 0.00029534369777547997,
      "loss": 4.2398,
      "step": 40010
    },
    {
      "epoch": 0.083375,
      "grad_norm": 0.9032222032546997,
      "learning_rate": 0.0002953412601760351,
      "loss": 4.0939,
      "step": 40020
    },
    {
      "epoch": 0.08339583333333334,
      "grad_norm": 1.0959821939468384,
      "learning_rate": 0.00029533882194877345,
      "loss": 4.2933,
      "step": 40030
    },
    {
      "epoch": 0.08341666666666667,
      "grad_norm": 1.0542343854904175,
      "learning_rate": 0.0002953363830937056,
      "loss": 4.1492,
      "step": 40040
    },
    {
      "epoch": 0.0834375,
      "grad_norm": 0.9072551131248474,
      "learning_rate": 0.00029533394361084213,
      "loss": 4.0886,
      "step": 40050
    },
    {
      "epoch": 0.08345833333333333,
      "grad_norm": 0.8974140286445618,
      "learning_rate": 0.00029533150350019355,
      "loss": 4.2201,
      "step": 40060
    },
    {
      "epoch": 0.08347916666666666,
      "grad_norm": 0.8969277739524841,
      "learning_rate": 0.00029532906276177044,
      "loss": 4.137,
      "step": 40070
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.9629383087158203,
      "learning_rate": 0.00029532662139558326,
      "loss": 4.1916,
      "step": 40080
    },
    {
      "epoch": 0.08352083333333334,
      "grad_norm": 0.9698368310928345,
      "learning_rate": 0.0002953241794016426,
      "loss": 4.0851,
      "step": 40090
    },
    {
      "epoch": 0.08354166666666667,
      "grad_norm": 0.9568544626235962,
      "learning_rate": 0.000295321736779959,
      "loss": 4.2655,
      "step": 40100
    },
    {
      "epoch": 0.0835625,
      "grad_norm": 0.9993688464164734,
      "learning_rate": 0.0002953192935305431,
      "loss": 4.2917,
      "step": 40110
    },
    {
      "epoch": 0.08358333333333333,
      "grad_norm": 0.9716202020645142,
      "learning_rate": 0.0002953168496534053,
      "loss": 4.1304,
      "step": 40120
    },
    {
      "epoch": 0.08360416666666666,
      "grad_norm": 0.8370006680488586,
      "learning_rate": 0.0002953144051485562,
      "loss": 4.2871,
      "step": 40130
    },
    {
      "epoch": 0.083625,
      "grad_norm": 0.9753866791725159,
      "learning_rate": 0.00029531196001600645,
      "loss": 4.0875,
      "step": 40140
    },
    {
      "epoch": 0.08364583333333334,
      "grad_norm": 0.9561683535575867,
      "learning_rate": 0.0002953095142557665,
      "loss": 3.9589,
      "step": 40150
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 0.9089920520782471,
      "learning_rate": 0.000295307067867847,
      "loss": 4.3203,
      "step": 40160
    },
    {
      "epoch": 0.0836875,
      "grad_norm": 0.9565591812133789,
      "learning_rate": 0.0002953046208522585,
      "loss": 4.174,
      "step": 40170
    },
    {
      "epoch": 0.08370833333333333,
      "grad_norm": 0.9382944703102112,
      "learning_rate": 0.00029530217320901153,
      "loss": 4.2294,
      "step": 40180
    },
    {
      "epoch": 0.08372916666666666,
      "grad_norm": 0.9792732000350952,
      "learning_rate": 0.0002952997249381167,
      "loss": 4.1664,
      "step": 40190
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.903880774974823,
      "learning_rate": 0.00029529727603958456,
      "loss": 4.3554,
      "step": 40200
    },
    {
      "epoch": 0.08377083333333334,
      "grad_norm": 1.0181962251663208,
      "learning_rate": 0.00029529482651342566,
      "loss": 4.5138,
      "step": 40210
    },
    {
      "epoch": 0.08379166666666667,
      "grad_norm": 0.9689978361129761,
      "learning_rate": 0.0002952923763596507,
      "loss": 4.1372,
      "step": 40220
    },
    {
      "epoch": 0.0838125,
      "grad_norm": 1.0281466245651245,
      "learning_rate": 0.0002952899255782702,
      "loss": 4.2671,
      "step": 40230
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 1.0086699724197388,
      "learning_rate": 0.00029528747416929463,
      "loss": 4.1221,
      "step": 40240
    },
    {
      "epoch": 0.08385416666666666,
      "grad_norm": 0.9101948142051697,
      "learning_rate": 0.0002952850221327347,
      "loss": 4.2321,
      "step": 40250
    },
    {
      "epoch": 0.083875,
      "grad_norm": 0.9831322431564331,
      "learning_rate": 0.00029528256946860103,
      "loss": 4.2501,
      "step": 40260
    },
    {
      "epoch": 0.08389583333333334,
      "grad_norm": 0.9324790835380554,
      "learning_rate": 0.0002952801161769042,
      "loss": 4.1188,
      "step": 40270
    },
    {
      "epoch": 0.08391666666666667,
      "grad_norm": 1.00816011428833,
      "learning_rate": 0.00029527766225765473,
      "loss": 4.0383,
      "step": 40280
    },
    {
      "epoch": 0.0839375,
      "grad_norm": 0.9314879775047302,
      "learning_rate": 0.0002952752077108632,
      "loss": 4.1783,
      "step": 40290
    },
    {
      "epoch": 0.08395833333333333,
      "grad_norm": 0.9526089429855347,
      "learning_rate": 0.00029527275253654037,
      "loss": 4.3276,
      "step": 40300
    },
    {
      "epoch": 0.08397916666666666,
      "grad_norm": 0.9619513750076294,
      "learning_rate": 0.0002952702967346967,
      "loss": 4.1351,
      "step": 40310
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.9365437030792236,
      "learning_rate": 0.0002952678403053429,
      "loss": 4.2321,
      "step": 40320
    },
    {
      "epoch": 0.08402083333333334,
      "grad_norm": 0.941858172416687,
      "learning_rate": 0.0002952653832484895,
      "loss": 4.1936,
      "step": 40330
    },
    {
      "epoch": 0.08404166666666667,
      "grad_norm": 0.8770222663879395,
      "learning_rate": 0.0002952629255641471,
      "loss": 4.0801,
      "step": 40340
    },
    {
      "epoch": 0.0840625,
      "grad_norm": 1.001231074333191,
      "learning_rate": 0.0002952604672523264,
      "loss": 4.1187,
      "step": 40350
    },
    {
      "epoch": 0.08408333333333333,
      "grad_norm": 0.9205378293991089,
      "learning_rate": 0.000295258008313038,
      "loss": 4.3416,
      "step": 40360
    },
    {
      "epoch": 0.08410416666666666,
      "grad_norm": 0.9771978259086609,
      "learning_rate": 0.00029525554874629246,
      "loss": 4.2028,
      "step": 40370
    },
    {
      "epoch": 0.084125,
      "grad_norm": 0.9152587056159973,
      "learning_rate": 0.0002952530885521005,
      "loss": 4.3087,
      "step": 40380
    },
    {
      "epoch": 0.08414583333333334,
      "grad_norm": 0.9121600985527039,
      "learning_rate": 0.00029525062773047263,
      "loss": 4.3406,
      "step": 40390
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 0.8879820704460144,
      "learning_rate": 0.0002952481662814196,
      "loss": 4.2259,
      "step": 40400
    },
    {
      "epoch": 0.0841875,
      "grad_norm": 0.8960361480712891,
      "learning_rate": 0.00029524570420495197,
      "loss": 4.1239,
      "step": 40410
    },
    {
      "epoch": 0.08420833333333333,
      "grad_norm": 0.9512817859649658,
      "learning_rate": 0.0002952432415010804,
      "loss": 4.1352,
      "step": 40420
    },
    {
      "epoch": 0.08422916666666666,
      "grad_norm": 1.0990891456604004,
      "learning_rate": 0.0002952407781698155,
      "loss": 4.2629,
      "step": 40430
    },
    {
      "epoch": 0.08425,
      "grad_norm": 0.9502729177474976,
      "learning_rate": 0.0002952383142111679,
      "loss": 4.1925,
      "step": 40440
    },
    {
      "epoch": 0.08427083333333334,
      "grad_norm": 1.0788547992706299,
      "learning_rate": 0.0002952358496251483,
      "loss": 4.1481,
      "step": 40450
    },
    {
      "epoch": 0.08429166666666667,
      "grad_norm": 0.9892537593841553,
      "learning_rate": 0.0002952333844117673,
      "loss": 4.1159,
      "step": 40460
    },
    {
      "epoch": 0.0843125,
      "grad_norm": 0.998029887676239,
      "learning_rate": 0.0002952309185710356,
      "loss": 4.0503,
      "step": 40470
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 1.0013502836227417,
      "learning_rate": 0.00029522845210296376,
      "loss": 4.1343,
      "step": 40480
    },
    {
      "epoch": 0.08435416666666666,
      "grad_norm": 0.9359061121940613,
      "learning_rate": 0.00029522598500756253,
      "loss": 4.1129,
      "step": 40490
    },
    {
      "epoch": 0.084375,
      "grad_norm": 0.9569485783576965,
      "learning_rate": 0.00029522351728484257,
      "loss": 4.1133,
      "step": 40500
    },
    {
      "epoch": 0.08439583333333334,
      "grad_norm": 1.1009061336517334,
      "learning_rate": 0.00029522104893481445,
      "loss": 4.1736,
      "step": 40510
    },
    {
      "epoch": 0.08441666666666667,
      "grad_norm": 0.8661950826644897,
      "learning_rate": 0.0002952185799574889,
      "loss": 4.2351,
      "step": 40520
    },
    {
      "epoch": 0.0844375,
      "grad_norm": 0.8763788938522339,
      "learning_rate": 0.0002952161103528765,
      "loss": 4.3164,
      "step": 40530
    },
    {
      "epoch": 0.08445833333333333,
      "grad_norm": 0.9325060248374939,
      "learning_rate": 0.00029521364012098807,
      "loss": 4.2886,
      "step": 40540
    },
    {
      "epoch": 0.08447916666666666,
      "grad_norm": 1.0008715391159058,
      "learning_rate": 0.0002952111692618342,
      "loss": 4.3294,
      "step": 40550
    },
    {
      "epoch": 0.0845,
      "grad_norm": 1.3661972284317017,
      "learning_rate": 0.0002952086977754255,
      "loss": 4.3033,
      "step": 40560
    },
    {
      "epoch": 0.08452083333333334,
      "grad_norm": 1.3458590507507324,
      "learning_rate": 0.00029520622566177275,
      "loss": 4.1063,
      "step": 40570
    },
    {
      "epoch": 0.08454166666666667,
      "grad_norm": 1.0359294414520264,
      "learning_rate": 0.0002952037529208865,
      "loss": 4.2449,
      "step": 40580
    },
    {
      "epoch": 0.0845625,
      "grad_norm": 0.981135368347168,
      "learning_rate": 0.0002952012795527776,
      "loss": 4.1728,
      "step": 40590
    },
    {
      "epoch": 0.08458333333333333,
      "grad_norm": 0.9095383882522583,
      "learning_rate": 0.0002951988055574566,
      "loss": 4.2209,
      "step": 40600
    },
    {
      "epoch": 0.08460416666666666,
      "grad_norm": 0.964384138584137,
      "learning_rate": 0.00029519633093493425,
      "loss": 4.0784,
      "step": 40610
    },
    {
      "epoch": 0.084625,
      "grad_norm": 1.0101557970046997,
      "learning_rate": 0.00029519385568522126,
      "loss": 4.1481,
      "step": 40620
    },
    {
      "epoch": 0.08464583333333334,
      "grad_norm": 0.8975921273231506,
      "learning_rate": 0.0002951913798083282,
      "loss": 4.2553,
      "step": 40630
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 0.9825779795646667,
      "learning_rate": 0.00029518890330426596,
      "loss": 4.2574,
      "step": 40640
    },
    {
      "epoch": 0.0846875,
      "grad_norm": 0.9034891724586487,
      "learning_rate": 0.00029518642617304506,
      "loss": 4.1103,
      "step": 40650
    },
    {
      "epoch": 0.08470833333333333,
      "grad_norm": 0.9166452884674072,
      "learning_rate": 0.00029518394841467624,
      "loss": 4.3367,
      "step": 40660
    },
    {
      "epoch": 0.08472916666666666,
      "grad_norm": 1.0842833518981934,
      "learning_rate": 0.0002951814700291703,
      "loss": 4.0519,
      "step": 40670
    },
    {
      "epoch": 0.08475,
      "grad_norm": 1.2408620119094849,
      "learning_rate": 0.0002951789910165378,
      "loss": 4.0233,
      "step": 40680
    },
    {
      "epoch": 0.08477083333333334,
      "grad_norm": 0.8913329839706421,
      "learning_rate": 0.00029517651137678957,
      "loss": 4.1781,
      "step": 40690
    },
    {
      "epoch": 0.08479166666666667,
      "grad_norm": 0.9819723963737488,
      "learning_rate": 0.0002951740311099363,
      "loss": 4.1632,
      "step": 40700
    },
    {
      "epoch": 0.0848125,
      "grad_norm": 0.9791028499603271,
      "learning_rate": 0.00029517155021598865,
      "loss": 4.174,
      "step": 40710
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 0.929645299911499,
      "learning_rate": 0.00029516906869495735,
      "loss": 4.157,
      "step": 40720
    },
    {
      "epoch": 0.08485416666666666,
      "grad_norm": 0.8981404900550842,
      "learning_rate": 0.00029516658654685316,
      "loss": 4.2986,
      "step": 40730
    },
    {
      "epoch": 0.084875,
      "grad_norm": 0.9200538396835327,
      "learning_rate": 0.00029516410377168677,
      "loss": 4.2817,
      "step": 40740
    },
    {
      "epoch": 0.08489583333333334,
      "grad_norm": 1.0416487455368042,
      "learning_rate": 0.0002951616203694689,
      "loss": 4.1118,
      "step": 40750
    },
    {
      "epoch": 0.08491666666666667,
      "grad_norm": 1.09969162940979,
      "learning_rate": 0.0002951591363402103,
      "loss": 4.2915,
      "step": 40760
    },
    {
      "epoch": 0.0849375,
      "grad_norm": 0.9827262163162231,
      "learning_rate": 0.0002951566516839217,
      "loss": 4.2302,
      "step": 40770
    },
    {
      "epoch": 0.08495833333333333,
      "grad_norm": 1.0018863677978516,
      "learning_rate": 0.00029515416640061383,
      "loss": 4.0461,
      "step": 40780
    },
    {
      "epoch": 0.08497916666666666,
      "grad_norm": 0.9218802452087402,
      "learning_rate": 0.00029515168049029736,
      "loss": 4.2608,
      "step": 40790
    },
    {
      "epoch": 0.085,
      "grad_norm": 1.0176210403442383,
      "learning_rate": 0.00029514919395298315,
      "loss": 4.2964,
      "step": 40800
    },
    {
      "epoch": 0.08502083333333334,
      "grad_norm": 0.9346094131469727,
      "learning_rate": 0.00029514670678868187,
      "loss": 4.304,
      "step": 40810
    },
    {
      "epoch": 0.08504166666666667,
      "grad_norm": 0.9664130806922913,
      "learning_rate": 0.0002951442189974042,
      "loss": 4.2092,
      "step": 40820
    },
    {
      "epoch": 0.0850625,
      "grad_norm": 1.0208534002304077,
      "learning_rate": 0.00029514173057916104,
      "loss": 4.1036,
      "step": 40830
    },
    {
      "epoch": 0.08508333333333333,
      "grad_norm": 1.1316150426864624,
      "learning_rate": 0.000295139241533963,
      "loss": 4.3357,
      "step": 40840
    },
    {
      "epoch": 0.08510416666666666,
      "grad_norm": 0.9908150434494019,
      "learning_rate": 0.00029513675186182095,
      "loss": 4.2152,
      "step": 40850
    },
    {
      "epoch": 0.085125,
      "grad_norm": 0.9625993371009827,
      "learning_rate": 0.0002951342615627455,
      "loss": 4.2666,
      "step": 40860
    },
    {
      "epoch": 0.08514583333333334,
      "grad_norm": 1.0564193725585938,
      "learning_rate": 0.0002951317706367475,
      "loss": 4.094,
      "step": 40870
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 0.9555844068527222,
      "learning_rate": 0.00029512927908383773,
      "loss": 4.0836,
      "step": 40880
    },
    {
      "epoch": 0.0851875,
      "grad_norm": 1.00127375125885,
      "learning_rate": 0.00029512678690402696,
      "loss": 4.3609,
      "step": 40890
    },
    {
      "epoch": 0.08520833333333333,
      "grad_norm": 0.9051333665847778,
      "learning_rate": 0.0002951242940973258,
      "loss": 4.2833,
      "step": 40900
    },
    {
      "epoch": 0.08522916666666666,
      "grad_norm": 1.2065560817718506,
      "learning_rate": 0.00029512180066374523,
      "loss": 3.9865,
      "step": 40910
    },
    {
      "epoch": 0.08525,
      "grad_norm": 0.9468380212783813,
      "learning_rate": 0.0002951193066032959,
      "loss": 4.1592,
      "step": 40920
    },
    {
      "epoch": 0.08527083333333334,
      "grad_norm": 0.9732673764228821,
      "learning_rate": 0.00029511681191598865,
      "loss": 4.2986,
      "step": 40930
    },
    {
      "epoch": 0.08529166666666667,
      "grad_norm": 0.9829327464103699,
      "learning_rate": 0.0002951143166018342,
      "loss": 4.1257,
      "step": 40940
    },
    {
      "epoch": 0.0853125,
      "grad_norm": 1.1844446659088135,
      "learning_rate": 0.0002951118206608433,
      "loss": 4.2636,
      "step": 40950
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.9064438343048096,
      "learning_rate": 0.00029510932409302677,
      "loss": 4.2091,
      "step": 40960
    },
    {
      "epoch": 0.08535416666666666,
      "grad_norm": 0.9615325927734375,
      "learning_rate": 0.00029510682689839535,
      "loss": 4.356,
      "step": 40970
    },
    {
      "epoch": 0.085375,
      "grad_norm": 1.082574725151062,
      "learning_rate": 0.00029510432907696,
      "loss": 3.9909,
      "step": 40980
    },
    {
      "epoch": 0.08539583333333334,
      "grad_norm": 0.9341998100280762,
      "learning_rate": 0.0002951018306287313,
      "loss": 4.2806,
      "step": 40990
    },
    {
      "epoch": 0.08541666666666667,
      "grad_norm": 0.9734298586845398,
      "learning_rate": 0.00029509933155372014,
      "loss": 4.3529,
      "step": 41000
    },
    {
      "epoch": 0.08541666666666667,
      "eval_loss": 3.9464924335479736,
      "eval_runtime": 7.2926,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 41000
    },
    {
      "epoch": 0.0854375,
      "grad_norm": 1.0769296884536743,
      "learning_rate": 0.00029509683185193733,
      "loss": 4.1775,
      "step": 41010
    },
    {
      "epoch": 0.08545833333333333,
      "grad_norm": 0.9015468955039978,
      "learning_rate": 0.0002950943315233936,
      "loss": 4.433,
      "step": 41020
    },
    {
      "epoch": 0.08547916666666666,
      "grad_norm": 1.0108436346054077,
      "learning_rate": 0.0002950918305680998,
      "loss": 4.4614,
      "step": 41030
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.9236985445022583,
      "learning_rate": 0.00029508932898606675,
      "loss": 4.2368,
      "step": 41040
    },
    {
      "epoch": 0.08552083333333334,
      "grad_norm": 0.9299360513687134,
      "learning_rate": 0.0002950868267773052,
      "loss": 4.1304,
      "step": 41050
    },
    {
      "epoch": 0.08554166666666667,
      "grad_norm": 1.0150809288024902,
      "learning_rate": 0.00029508432394182604,
      "loss": 4.0036,
      "step": 41060
    },
    {
      "epoch": 0.0855625,
      "grad_norm": 1.0070958137512207,
      "learning_rate": 0.00029508182047964,
      "loss": 4.2991,
      "step": 41070
    },
    {
      "epoch": 0.08558333333333333,
      "grad_norm": 0.928970992565155,
      "learning_rate": 0.0002950793163907579,
      "loss": 4.0979,
      "step": 41080
    },
    {
      "epoch": 0.08560416666666666,
      "grad_norm": 0.9010410308837891,
      "learning_rate": 0.0002950768116751906,
      "loss": 4.1694,
      "step": 41090
    },
    {
      "epoch": 0.085625,
      "grad_norm": 0.9574915170669556,
      "learning_rate": 0.0002950743063329489,
      "loss": 4.5178,
      "step": 41100
    },
    {
      "epoch": 0.08564583333333334,
      "grad_norm": 0.9747263789176941,
      "learning_rate": 0.00029507180036404364,
      "loss": 4.0562,
      "step": 41110
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 1.050391674041748,
      "learning_rate": 0.0002950692937684856,
      "loss": 4.2486,
      "step": 41120
    },
    {
      "epoch": 0.0856875,
      "grad_norm": 0.8882912397384644,
      "learning_rate": 0.0002950667865462856,
      "loss": 4.2375,
      "step": 41130
    },
    {
      "epoch": 0.08570833333333333,
      "grad_norm": 0.9629544019699097,
      "learning_rate": 0.00029506427869745454,
      "loss": 4.2094,
      "step": 41140
    },
    {
      "epoch": 0.08572916666666666,
      "grad_norm": 0.9966562986373901,
      "learning_rate": 0.00029506177022200326,
      "loss": 4.3026,
      "step": 41150
    },
    {
      "epoch": 0.08575,
      "grad_norm": 0.9463610053062439,
      "learning_rate": 0.0002950592611199424,
      "loss": 4.2268,
      "step": 41160
    },
    {
      "epoch": 0.08577083333333334,
      "grad_norm": 0.9883310794830322,
      "learning_rate": 0.0002950567513912831,
      "loss": 3.8872,
      "step": 41170
    },
    {
      "epoch": 0.08579166666666667,
      "grad_norm": 0.9150293469429016,
      "learning_rate": 0.000295054241036036,
      "loss": 4.096,
      "step": 41180
    },
    {
      "epoch": 0.0858125,
      "grad_norm": 1.0627460479736328,
      "learning_rate": 0.000295051730054212,
      "loss": 4.3073,
      "step": 41190
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 1.037563681602478,
      "learning_rate": 0.00029504921844582195,
      "loss": 4.34,
      "step": 41200
    },
    {
      "epoch": 0.08585416666666666,
      "grad_norm": 1.008995771408081,
      "learning_rate": 0.0002950467062108767,
      "loss": 4.1359,
      "step": 41210
    },
    {
      "epoch": 0.085875,
      "grad_norm": 0.868613600730896,
      "learning_rate": 0.0002950441933493871,
      "loss": 4.2053,
      "step": 41220
    },
    {
      "epoch": 0.08589583333333334,
      "grad_norm": 0.9905116558074951,
      "learning_rate": 0.000295041679861364,
      "loss": 4.1756,
      "step": 41230
    },
    {
      "epoch": 0.08591666666666667,
      "grad_norm": 1.1688495874404907,
      "learning_rate": 0.00029503916574681816,
      "loss": 4.0598,
      "step": 41240
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 1.0695953369140625,
      "learning_rate": 0.0002950366510057607,
      "loss": 4.1697,
      "step": 41250
    },
    {
      "epoch": 0.08595833333333333,
      "grad_norm": 0.9737880825996399,
      "learning_rate": 0.0002950341356382022,
      "loss": 4.0873,
      "step": 41260
    },
    {
      "epoch": 0.08597916666666666,
      "grad_norm": 0.8720190525054932,
      "learning_rate": 0.00029503161964415366,
      "loss": 4.315,
      "step": 41270
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.9834429025650024,
      "learning_rate": 0.00029502910302362586,
      "loss": 4.0671,
      "step": 41280
    },
    {
      "epoch": 0.08602083333333334,
      "grad_norm": 0.949333906173706,
      "learning_rate": 0.0002950265857766299,
      "loss": 4.208,
      "step": 41290
    },
    {
      "epoch": 0.08604166666666667,
      "grad_norm": 0.8623332977294922,
      "learning_rate": 0.00029502406790317637,
      "loss": 4.2234,
      "step": 41300
    },
    {
      "epoch": 0.0860625,
      "grad_norm": 0.9173248410224915,
      "learning_rate": 0.0002950215494032763,
      "loss": 4.3959,
      "step": 41310
    },
    {
      "epoch": 0.08608333333333333,
      "grad_norm": 0.9117284417152405,
      "learning_rate": 0.00029501903027694056,
      "loss": 4.2793,
      "step": 41320
    },
    {
      "epoch": 0.08610416666666666,
      "grad_norm": 0.9041106700897217,
      "learning_rate": 0.00029501651052418,
      "loss": 4.1725,
      "step": 41330
    },
    {
      "epoch": 0.086125,
      "grad_norm": 1.1441353559494019,
      "learning_rate": 0.00029501399014500554,
      "loss": 4.2868,
      "step": 41340
    },
    {
      "epoch": 0.08614583333333334,
      "grad_norm": 0.9240849614143372,
      "learning_rate": 0.000295011469139428,
      "loss": 4.2809,
      "step": 41350
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 0.9467848539352417,
      "learning_rate": 0.0002950089475074583,
      "loss": 4.2294,
      "step": 41360
    },
    {
      "epoch": 0.0861875,
      "grad_norm": 0.9483888745307922,
      "learning_rate": 0.0002950064252491074,
      "loss": 4.0722,
      "step": 41370
    },
    {
      "epoch": 0.08620833333333333,
      "grad_norm": 0.9720727205276489,
      "learning_rate": 0.0002950039023643862,
      "loss": 4.3221,
      "step": 41380
    },
    {
      "epoch": 0.08622916666666666,
      "grad_norm": 0.975090742111206,
      "learning_rate": 0.00029500137885330537,
      "loss": 4.3181,
      "step": 41390
    },
    {
      "epoch": 0.08625,
      "grad_norm": 1.0460331439971924,
      "learning_rate": 0.00029499885471587613,
      "loss": 4.3496,
      "step": 41400
    },
    {
      "epoch": 0.08627083333333334,
      "grad_norm": 0.8671393394470215,
      "learning_rate": 0.00029499632995210915,
      "loss": 4.1683,
      "step": 41410
    },
    {
      "epoch": 0.08629166666666667,
      "grad_norm": 0.9456924796104431,
      "learning_rate": 0.00029499380456201544,
      "loss": 4.2462,
      "step": 41420
    },
    {
      "epoch": 0.0863125,
      "grad_norm": 1.038939118385315,
      "learning_rate": 0.0002949912785456059,
      "loss": 4.1762,
      "step": 41430
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 0.8567685484886169,
      "learning_rate": 0.0002949887519028914,
      "loss": 4.3415,
      "step": 41440
    },
    {
      "epoch": 0.08635416666666666,
      "grad_norm": 0.8693724870681763,
      "learning_rate": 0.0002949862246338829,
      "loss": 4.1957,
      "step": 41450
    },
    {
      "epoch": 0.086375,
      "grad_norm": 0.9159225225448608,
      "learning_rate": 0.0002949836967385913,
      "loss": 4.3017,
      "step": 41460
    },
    {
      "epoch": 0.08639583333333334,
      "grad_norm": 0.9231229424476624,
      "learning_rate": 0.00029498116821702753,
      "loss": 3.9294,
      "step": 41470
    },
    {
      "epoch": 0.08641666666666667,
      "grad_norm": 0.960070788860321,
      "learning_rate": 0.00029497863906920244,
      "loss": 4.33,
      "step": 41480
    },
    {
      "epoch": 0.0864375,
      "grad_norm": 0.9897511601448059,
      "learning_rate": 0.0002949761092951271,
      "loss": 4.0241,
      "step": 41490
    },
    {
      "epoch": 0.08645833333333333,
      "grad_norm": 0.9428365230560303,
      "learning_rate": 0.0002949735788948123,
      "loss": 4.0273,
      "step": 41500
    },
    {
      "epoch": 0.08647916666666666,
      "grad_norm": 0.8754721879959106,
      "learning_rate": 0.000294971047868269,
      "loss": 4.3099,
      "step": 41510
    },
    {
      "epoch": 0.0865,
      "grad_norm": 1.0111912488937378,
      "learning_rate": 0.0002949685162155082,
      "loss": 4.2647,
      "step": 41520
    },
    {
      "epoch": 0.08652083333333334,
      "grad_norm": 0.9218344688415527,
      "learning_rate": 0.0002949659839365408,
      "loss": 4.0413,
      "step": 41530
    },
    {
      "epoch": 0.08654166666666667,
      "grad_norm": 1.0137826204299927,
      "learning_rate": 0.00029496345103137775,
      "loss": 4.3098,
      "step": 41540
    },
    {
      "epoch": 0.0865625,
      "grad_norm": 1.0019036531448364,
      "learning_rate": 0.0002949609175000299,
      "loss": 4.0901,
      "step": 41550
    },
    {
      "epoch": 0.08658333333333333,
      "grad_norm": 1.1274245977401733,
      "learning_rate": 0.0002949583833425083,
      "loss": 4.1969,
      "step": 41560
    },
    {
      "epoch": 0.08660416666666666,
      "grad_norm": 0.936490535736084,
      "learning_rate": 0.0002949558485588239,
      "loss": 4.1763,
      "step": 41570
    },
    {
      "epoch": 0.086625,
      "grad_norm": 0.915342390537262,
      "learning_rate": 0.00029495331314898757,
      "loss": 4.1514,
      "step": 41580
    },
    {
      "epoch": 0.08664583333333334,
      "grad_norm": 0.8797104358673096,
      "learning_rate": 0.0002949507771130103,
      "loss": 4.3367,
      "step": 41590
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 1.1973156929016113,
      "learning_rate": 0.00029494824045090307,
      "loss": 4.2455,
      "step": 41600
    },
    {
      "epoch": 0.0866875,
      "grad_norm": 0.9352800250053406,
      "learning_rate": 0.0002949457031626768,
      "loss": 4.2976,
      "step": 41610
    },
    {
      "epoch": 0.08670833333333333,
      "grad_norm": 0.8909345865249634,
      "learning_rate": 0.0002949431652483425,
      "loss": 4.2554,
      "step": 41620
    },
    {
      "epoch": 0.08672916666666666,
      "grad_norm": 0.928053081035614,
      "learning_rate": 0.0002949406267079111,
      "loss": 4.5707,
      "step": 41630
    },
    {
      "epoch": 0.08675,
      "grad_norm": 1.0460997819900513,
      "learning_rate": 0.00029493808754139353,
      "loss": 4.3277,
      "step": 41640
    },
    {
      "epoch": 0.08677083333333334,
      "grad_norm": 0.9111895561218262,
      "learning_rate": 0.00029493554774880077,
      "loss": 4.189,
      "step": 41650
    },
    {
      "epoch": 0.08679166666666667,
      "grad_norm": 0.9573118090629578,
      "learning_rate": 0.00029493300733014386,
      "loss": 4.3143,
      "step": 41660
    },
    {
      "epoch": 0.0868125,
      "grad_norm": 0.9307836890220642,
      "learning_rate": 0.00029493046628543366,
      "loss": 4.2157,
      "step": 41670
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 1.9041144847869873,
      "learning_rate": 0.00029492792461468126,
      "loss": 4.4569,
      "step": 41680
    },
    {
      "epoch": 0.08685416666666666,
      "grad_norm": 1.003037452697754,
      "learning_rate": 0.00029492538231789764,
      "loss": 4.1123,
      "step": 41690
    },
    {
      "epoch": 0.086875,
      "grad_norm": 0.8850000500679016,
      "learning_rate": 0.00029492283939509367,
      "loss": 4.0543,
      "step": 41700
    },
    {
      "epoch": 0.08689583333333334,
      "grad_norm": 0.974769651889801,
      "learning_rate": 0.0002949202958462804,
      "loss": 4.1454,
      "step": 41710
    },
    {
      "epoch": 0.08691666666666667,
      "grad_norm": 0.9912592768669128,
      "learning_rate": 0.00029491775167146884,
      "loss": 4.1497,
      "step": 41720
    },
    {
      "epoch": 0.0869375,
      "grad_norm": 1.082329273223877,
      "learning_rate": 0.00029491520687067,
      "loss": 4.0535,
      "step": 41730
    },
    {
      "epoch": 0.08695833333333333,
      "grad_norm": 1.0214426517486572,
      "learning_rate": 0.00029491266144389476,
      "loss": 4.2436,
      "step": 41740
    },
    {
      "epoch": 0.08697916666666666,
      "grad_norm": 0.8914456963539124,
      "learning_rate": 0.00029491011539115416,
      "loss": 4.1779,
      "step": 41750
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.9444946050643921,
      "learning_rate": 0.00029490756871245925,
      "loss": 4.3455,
      "step": 41760
    },
    {
      "epoch": 0.08702083333333334,
      "grad_norm": 0.9574593901634216,
      "learning_rate": 0.00029490502140782103,
      "loss": 4.1829,
      "step": 41770
    },
    {
      "epoch": 0.08704166666666667,
      "grad_norm": 1.0420528650283813,
      "learning_rate": 0.00029490247347725045,
      "loss": 4.2627,
      "step": 41780
    },
    {
      "epoch": 0.0870625,
      "grad_norm": 0.9777541160583496,
      "learning_rate": 0.0002948999249207585,
      "loss": 4.3928,
      "step": 41790
    },
    {
      "epoch": 0.08708333333333333,
      "grad_norm": 0.9095253944396973,
      "learning_rate": 0.00029489737573835636,
      "loss": 4.2359,
      "step": 41800
    },
    {
      "epoch": 0.08710416666666666,
      "grad_norm": 0.9518646001815796,
      "learning_rate": 0.0002948948259300548,
      "loss": 4.3399,
      "step": 41810
    },
    {
      "epoch": 0.087125,
      "grad_norm": 0.9691157341003418,
      "learning_rate": 0.00029489227549586494,
      "loss": 4.3775,
      "step": 41820
    },
    {
      "epoch": 0.08714583333333334,
      "grad_norm": 0.9973136186599731,
      "learning_rate": 0.00029488972443579786,
      "loss": 4.2437,
      "step": 41830
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 1.0812764167785645,
      "learning_rate": 0.0002948871727498645,
      "loss": 4.2448,
      "step": 41840
    },
    {
      "epoch": 0.0871875,
      "grad_norm": 0.9515470862388611,
      "learning_rate": 0.0002948846204380759,
      "loss": 4.2343,
      "step": 41850
    },
    {
      "epoch": 0.08720833333333333,
      "grad_norm": 0.9908811450004578,
      "learning_rate": 0.00029488206750044306,
      "loss": 4.1456,
      "step": 41860
    },
    {
      "epoch": 0.08722916666666666,
      "grad_norm": 1.1113163232803345,
      "learning_rate": 0.00029487951393697713,
      "loss": 4.2264,
      "step": 41870
    },
    {
      "epoch": 0.08725,
      "grad_norm": 0.9074914455413818,
      "learning_rate": 0.00029487695974768894,
      "loss": 4.2431,
      "step": 41880
    },
    {
      "epoch": 0.08727083333333334,
      "grad_norm": 1.0764886140823364,
      "learning_rate": 0.00029487440493258967,
      "loss": 4.0195,
      "step": 41890
    },
    {
      "epoch": 0.08729166666666667,
      "grad_norm": 0.9672152996063232,
      "learning_rate": 0.00029487184949169036,
      "loss": 4.33,
      "step": 41900
    },
    {
      "epoch": 0.0873125,
      "grad_norm": 0.8844563961029053,
      "learning_rate": 0.0002948692934250019,
      "loss": 4.2935,
      "step": 41910
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 1.0546237230300903,
      "learning_rate": 0.0002948667367325355,
      "loss": 4.1501,
      "step": 41920
    },
    {
      "epoch": 0.08735416666666666,
      "grad_norm": 0.9417930245399475,
      "learning_rate": 0.0002948641794143022,
      "loss": 4.3683,
      "step": 41930
    },
    {
      "epoch": 0.087375,
      "grad_norm": 0.9310365319252014,
      "learning_rate": 0.00029486162147031287,
      "loss": 4.2738,
      "step": 41940
    },
    {
      "epoch": 0.08739583333333334,
      "grad_norm": 0.9069207310676575,
      "learning_rate": 0.00029485906290057875,
      "loss": 4.1711,
      "step": 41950
    },
    {
      "epoch": 0.08741666666666667,
      "grad_norm": 0.982304036617279,
      "learning_rate": 0.0002948565037051108,
      "loss": 4.3752,
      "step": 41960
    },
    {
      "epoch": 0.0874375,
      "grad_norm": 0.8777424693107605,
      "learning_rate": 0.0002948539438839201,
      "loss": 4.1331,
      "step": 41970
    },
    {
      "epoch": 0.08745833333333333,
      "grad_norm": 0.9065852165222168,
      "learning_rate": 0.0002948513834370177,
      "loss": 4.1319,
      "step": 41980
    },
    {
      "epoch": 0.08747916666666666,
      "grad_norm": 0.9128088355064392,
      "learning_rate": 0.00029484882236441464,
      "loss": 4.3242,
      "step": 41990
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.9528799653053284,
      "learning_rate": 0.000294846260666122,
      "loss": 4.275,
      "step": 42000
    },
    {
      "epoch": 0.0875,
      "eval_loss": 3.9279868602752686,
      "eval_runtime": 7.3409,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 42000
    },
    {
      "epoch": 0.08752083333333334,
      "grad_norm": 0.9185433387756348,
      "learning_rate": 0.00029484369834215085,
      "loss": 4.2586,
      "step": 42010
    },
    {
      "epoch": 0.08754166666666667,
      "grad_norm": 1.0317257642745972,
      "learning_rate": 0.0002948411353925123,
      "loss": 4.2801,
      "step": 42020
    },
    {
      "epoch": 0.0875625,
      "grad_norm": 1.0225839614868164,
      "learning_rate": 0.0002948385718172173,
      "loss": 4.2306,
      "step": 42030
    },
    {
      "epoch": 0.08758333333333333,
      "grad_norm": 0.9653947949409485,
      "learning_rate": 0.00029483600761627706,
      "loss": 4.25,
      "step": 42040
    },
    {
      "epoch": 0.08760416666666666,
      "grad_norm": 1.2520396709442139,
      "learning_rate": 0.0002948334427897026,
      "loss": 4.306,
      "step": 42050
    },
    {
      "epoch": 0.087625,
      "grad_norm": 1.0575120449066162,
      "learning_rate": 0.00029483087733750494,
      "loss": 4.2205,
      "step": 42060
    },
    {
      "epoch": 0.08764583333333334,
      "grad_norm": 1.1274924278259277,
      "learning_rate": 0.0002948283112596953,
      "loss": 4.0833,
      "step": 42070
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 0.9122395515441895,
      "learning_rate": 0.0002948257445562846,
      "loss": 4.2634,
      "step": 42080
    },
    {
      "epoch": 0.0876875,
      "grad_norm": 1.0014365911483765,
      "learning_rate": 0.00029482317722728406,
      "loss": 4.1637,
      "step": 42090
    },
    {
      "epoch": 0.08770833333333333,
      "grad_norm": 0.9566238522529602,
      "learning_rate": 0.0002948206092727047,
      "loss": 4.1619,
      "step": 42100
    },
    {
      "epoch": 0.08772916666666666,
      "grad_norm": 0.9227465987205505,
      "learning_rate": 0.00029481804069255764,
      "loss": 4.1309,
      "step": 42110
    },
    {
      "epoch": 0.08775,
      "grad_norm": 0.9771743416786194,
      "learning_rate": 0.000294815471486854,
      "loss": 4.2141,
      "step": 42120
    },
    {
      "epoch": 0.08777083333333334,
      "grad_norm": 0.9999003410339355,
      "learning_rate": 0.00029481290165560476,
      "loss": 4.1521,
      "step": 42130
    },
    {
      "epoch": 0.08779166666666667,
      "grad_norm": 0.8830387592315674,
      "learning_rate": 0.0002948103311988212,
      "loss": 4.0405,
      "step": 42140
    },
    {
      "epoch": 0.0878125,
      "grad_norm": 0.969254195690155,
      "learning_rate": 0.00029480776011651423,
      "loss": 4.2584,
      "step": 42150
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 0.964069664478302,
      "learning_rate": 0.00029480518840869515,
      "loss": 4.049,
      "step": 42160
    },
    {
      "epoch": 0.08785416666666666,
      "grad_norm": 0.8890633583068848,
      "learning_rate": 0.00029480261607537495,
      "loss": 4.3452,
      "step": 42170
    },
    {
      "epoch": 0.087875,
      "grad_norm": 0.8968945741653442,
      "learning_rate": 0.00029480004311656474,
      "loss": 4.1965,
      "step": 42180
    },
    {
      "epoch": 0.08789583333333334,
      "grad_norm": 1.0172691345214844,
      "learning_rate": 0.00029479746953227565,
      "loss": 4.1446,
      "step": 42190
    },
    {
      "epoch": 0.08791666666666667,
      "grad_norm": 1.0182424783706665,
      "learning_rate": 0.00029479489532251884,
      "loss": 4.1746,
      "step": 42200
    },
    {
      "epoch": 0.0879375,
      "grad_norm": 1.010185956954956,
      "learning_rate": 0.0002947923204873054,
      "loss": 4.2413,
      "step": 42210
    },
    {
      "epoch": 0.08795833333333333,
      "grad_norm": 0.9981915354728699,
      "learning_rate": 0.0002947897450266464,
      "loss": 4.3838,
      "step": 42220
    },
    {
      "epoch": 0.08797916666666666,
      "grad_norm": 1.0530614852905273,
      "learning_rate": 0.00029478716894055303,
      "loss": 4.1598,
      "step": 42230
    },
    {
      "epoch": 0.088,
      "grad_norm": 1.0032273530960083,
      "learning_rate": 0.00029478459222903646,
      "loss": 4.0673,
      "step": 42240
    },
    {
      "epoch": 0.08802083333333334,
      "grad_norm": 0.9029821753501892,
      "learning_rate": 0.0002947820148921077,
      "loss": 4.2147,
      "step": 42250
    },
    {
      "epoch": 0.08804166666666667,
      "grad_norm": 1.0685827732086182,
      "learning_rate": 0.00029477943692977795,
      "loss": 4.1368,
      "step": 42260
    },
    {
      "epoch": 0.0880625,
      "grad_norm": 0.9903956055641174,
      "learning_rate": 0.00029477685834205836,
      "loss": 4.1224,
      "step": 42270
    },
    {
      "epoch": 0.08808333333333333,
      "grad_norm": 1.0070475339889526,
      "learning_rate": 0.00029477427912896,
      "loss": 4.2201,
      "step": 42280
    },
    {
      "epoch": 0.08810416666666666,
      "grad_norm": 0.9788556098937988,
      "learning_rate": 0.00029477169929049415,
      "loss": 4.1779,
      "step": 42290
    },
    {
      "epoch": 0.088125,
      "grad_norm": 0.8606045246124268,
      "learning_rate": 0.00029476911882667177,
      "loss": 4.2848,
      "step": 42300
    },
    {
      "epoch": 0.08814583333333334,
      "grad_norm": 0.9283236861228943,
      "learning_rate": 0.00029476653773750417,
      "loss": 4.2219,
      "step": 42310
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 1.0236581563949585,
      "learning_rate": 0.0002947639560230024,
      "loss": 4.2461,
      "step": 42320
    },
    {
      "epoch": 0.0881875,
      "grad_norm": 1.1009379625320435,
      "learning_rate": 0.0002947613736831776,
      "loss": 4.0656,
      "step": 42330
    },
    {
      "epoch": 0.08820833333333333,
      "grad_norm": 0.9085211753845215,
      "learning_rate": 0.00029475879071804106,
      "loss": 4.3178,
      "step": 42340
    },
    {
      "epoch": 0.08822916666666666,
      "grad_norm": 0.9054594039916992,
      "learning_rate": 0.0002947562071276038,
      "loss": 4.0093,
      "step": 42350
    },
    {
      "epoch": 0.08825,
      "grad_norm": 0.9049636125564575,
      "learning_rate": 0.000294753622911877,
      "loss": 4.1268,
      "step": 42360
    },
    {
      "epoch": 0.08827083333333334,
      "grad_norm": 0.9242948293685913,
      "learning_rate": 0.00029475103807087186,
      "loss": 4.1879,
      "step": 42370
    },
    {
      "epoch": 0.08829166666666667,
      "grad_norm": 0.9500323534011841,
      "learning_rate": 0.00029474845260459953,
      "loss": 4.2628,
      "step": 42380
    },
    {
      "epoch": 0.0883125,
      "grad_norm": 0.860378623008728,
      "learning_rate": 0.0002947458665130712,
      "loss": 4.083,
      "step": 42390
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.9540138244628906,
      "learning_rate": 0.000294743279796298,
      "loss": 4.2714,
      "step": 42400
    },
    {
      "epoch": 0.08835416666666666,
      "grad_norm": 0.982444167137146,
      "learning_rate": 0.0002947406924542911,
      "loss": 4.1664,
      "step": 42410
    },
    {
      "epoch": 0.088375,
      "grad_norm": 0.8805671334266663,
      "learning_rate": 0.00029473810448706175,
      "loss": 4.505,
      "step": 42420
    },
    {
      "epoch": 0.08839583333333334,
      "grad_norm": 0.9060778617858887,
      "learning_rate": 0.0002947355158946211,
      "loss": 4.2219,
      "step": 42430
    },
    {
      "epoch": 0.08841666666666667,
      "grad_norm": 0.9694363474845886,
      "learning_rate": 0.00029473292667698024,
      "loss": 4.1144,
      "step": 42440
    },
    {
      "epoch": 0.0884375,
      "grad_norm": 0.9622305035591125,
      "learning_rate": 0.00029473033683415046,
      "loss": 4.0877,
      "step": 42450
    },
    {
      "epoch": 0.08845833333333333,
      "grad_norm": 0.9883022308349609,
      "learning_rate": 0.00029472774636614293,
      "loss": 4.3546,
      "step": 42460
    },
    {
      "epoch": 0.08847916666666666,
      "grad_norm": 0.9982156753540039,
      "learning_rate": 0.0002947251552729688,
      "loss": 4.3381,
      "step": 42470
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.9133456945419312,
      "learning_rate": 0.00029472256355463934,
      "loss": 4.1545,
      "step": 42480
    },
    {
      "epoch": 0.08852083333333334,
      "grad_norm": 0.9166687726974487,
      "learning_rate": 0.0002947199712111656,
      "loss": 4.3786,
      "step": 42490
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 0.9201467037200928,
      "learning_rate": 0.0002947173782425589,
      "loss": 4.3451,
      "step": 42500
    },
    {
      "epoch": 0.0885625,
      "grad_norm": 1.1838507652282715,
      "learning_rate": 0.0002947147846488304,
      "loss": 4.3072,
      "step": 42510
    },
    {
      "epoch": 0.08858333333333333,
      "grad_norm": 0.905170202255249,
      "learning_rate": 0.00029471219042999136,
      "loss": 4.1591,
      "step": 42520
    },
    {
      "epoch": 0.08860416666666666,
      "grad_norm": 0.9949586987495422,
      "learning_rate": 0.0002947095955860529,
      "loss": 4.3805,
      "step": 42530
    },
    {
      "epoch": 0.088625,
      "grad_norm": 1.0571843385696411,
      "learning_rate": 0.0002947070001170263,
      "loss": 4.1818,
      "step": 42540
    },
    {
      "epoch": 0.08864583333333333,
      "grad_norm": 0.883268415927887,
      "learning_rate": 0.0002947044040229227,
      "loss": 4.3011,
      "step": 42550
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 0.9333751201629639,
      "learning_rate": 0.0002947018073037534,
      "loss": 4.3096,
      "step": 42560
    },
    {
      "epoch": 0.0886875,
      "grad_norm": 1.029263973236084,
      "learning_rate": 0.0002946992099595295,
      "loss": 4.2483,
      "step": 42570
    },
    {
      "epoch": 0.08870833333333333,
      "grad_norm": 0.9071308970451355,
      "learning_rate": 0.00029469661199026234,
      "loss": 4.2668,
      "step": 42580
    },
    {
      "epoch": 0.08872916666666666,
      "grad_norm": 0.9970707297325134,
      "learning_rate": 0.00029469401339596307,
      "loss": 4.2753,
      "step": 42590
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.8949266076087952,
      "learning_rate": 0.00029469141417664293,
      "loss": 4.1945,
      "step": 42600
    },
    {
      "epoch": 0.08877083333333333,
      "grad_norm": 1.1059632301330566,
      "learning_rate": 0.0002946888143323132,
      "loss": 4.1863,
      "step": 42610
    },
    {
      "epoch": 0.08879166666666667,
      "grad_norm": 0.9648135304450989,
      "learning_rate": 0.00029468621386298505,
      "loss": 4.0392,
      "step": 42620
    },
    {
      "epoch": 0.0888125,
      "grad_norm": 0.9546617865562439,
      "learning_rate": 0.0002946836127686697,
      "loss": 4.3028,
      "step": 42630
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 0.9167221784591675,
      "learning_rate": 0.0002946810110493784,
      "loss": 4.3656,
      "step": 42640
    },
    {
      "epoch": 0.08885416666666666,
      "grad_norm": 0.9636503458023071,
      "learning_rate": 0.0002946784087051224,
      "loss": 4.3096,
      "step": 42650
    },
    {
      "epoch": 0.088875,
      "grad_norm": 0.9249786734580994,
      "learning_rate": 0.000294675805735913,
      "loss": 4.2586,
      "step": 42660
    },
    {
      "epoch": 0.08889583333333333,
      "grad_norm": 0.9241284728050232,
      "learning_rate": 0.00029467320214176135,
      "loss": 4.1709,
      "step": 42670
    },
    {
      "epoch": 0.08891666666666667,
      "grad_norm": 1.2117818593978882,
      "learning_rate": 0.00029467059792267873,
      "loss": 4.3457,
      "step": 42680
    },
    {
      "epoch": 0.0889375,
      "grad_norm": 1.0313708782196045,
      "learning_rate": 0.0002946679930786764,
      "loss": 4.2845,
      "step": 42690
    },
    {
      "epoch": 0.08895833333333333,
      "grad_norm": 0.9230090379714966,
      "learning_rate": 0.0002946653876097656,
      "loss": 4.2349,
      "step": 42700
    },
    {
      "epoch": 0.08897916666666666,
      "grad_norm": 0.9875986576080322,
      "learning_rate": 0.0002946627815159576,
      "loss": 4.3372,
      "step": 42710
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.9635034203529358,
      "learning_rate": 0.0002946601747972636,
      "loss": 4.3066,
      "step": 42720
    },
    {
      "epoch": 0.08902083333333333,
      "grad_norm": 0.9871456623077393,
      "learning_rate": 0.00029465756745369496,
      "loss": 4.3214,
      "step": 42730
    },
    {
      "epoch": 0.08904166666666667,
      "grad_norm": 0.934730589389801,
      "learning_rate": 0.0002946549594852628,
      "loss": 4.248,
      "step": 42740
    },
    {
      "epoch": 0.0890625,
      "grad_norm": 0.9689900279045105,
      "learning_rate": 0.00029465235089197857,
      "loss": 4.0991,
      "step": 42750
    },
    {
      "epoch": 0.08908333333333333,
      "grad_norm": 1.1241741180419922,
      "learning_rate": 0.0002946497416738534,
      "loss": 4.2477,
      "step": 42760
    },
    {
      "epoch": 0.08910416666666666,
      "grad_norm": 1.0480557680130005,
      "learning_rate": 0.00029464713183089867,
      "loss": 4.3266,
      "step": 42770
    },
    {
      "epoch": 0.089125,
      "grad_norm": 0.961950957775116,
      "learning_rate": 0.0002946445213631255,
      "loss": 4.0647,
      "step": 42780
    },
    {
      "epoch": 0.08914583333333333,
      "grad_norm": 0.9432334899902344,
      "learning_rate": 0.0002946419102705453,
      "loss": 4.1388,
      "step": 42790
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 0.9726646542549133,
      "learning_rate": 0.0002946392985531693,
      "loss": 4.2027,
      "step": 42800
    },
    {
      "epoch": 0.0891875,
      "grad_norm": 0.9478412866592407,
      "learning_rate": 0.0002946366862110087,
      "loss": 4.0879,
      "step": 42810
    },
    {
      "epoch": 0.08920833333333333,
      "grad_norm": 0.9150927662849426,
      "learning_rate": 0.0002946340732440749,
      "loss": 4.2697,
      "step": 42820
    },
    {
      "epoch": 0.08922916666666666,
      "grad_norm": 0.9301872253417969,
      "learning_rate": 0.0002946314596523792,
      "loss": 4.2311,
      "step": 42830
    },
    {
      "epoch": 0.08925,
      "grad_norm": 1.0251338481903076,
      "learning_rate": 0.00029462884543593286,
      "loss": 4.0263,
      "step": 42840
    },
    {
      "epoch": 0.08927083333333333,
      "grad_norm": 1.043904185295105,
      "learning_rate": 0.0002946262305947471,
      "loss": 4.2325,
      "step": 42850
    },
    {
      "epoch": 0.08929166666666667,
      "grad_norm": 0.941702127456665,
      "learning_rate": 0.00029462361512883333,
      "loss": 4.1974,
      "step": 42860
    },
    {
      "epoch": 0.0893125,
      "grad_norm": 0.9121274948120117,
      "learning_rate": 0.00029462099903820275,
      "loss": 4.2211,
      "step": 42870
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.9531258940696716,
      "learning_rate": 0.0002946183823228667,
      "loss": 4.179,
      "step": 42880
    },
    {
      "epoch": 0.08935416666666667,
      "grad_norm": 0.9538943767547607,
      "learning_rate": 0.0002946157649828365,
      "loss": 4.2127,
      "step": 42890
    },
    {
      "epoch": 0.089375,
      "grad_norm": 1.1109206676483154,
      "learning_rate": 0.0002946131470181234,
      "loss": 4.3148,
      "step": 42900
    },
    {
      "epoch": 0.08939583333333333,
      "grad_norm": 0.8998965620994568,
      "learning_rate": 0.00029461052842873875,
      "loss": 4.3759,
      "step": 42910
    },
    {
      "epoch": 0.08941666666666667,
      "grad_norm": 0.8882489800453186,
      "learning_rate": 0.0002946079092146939,
      "loss": 4.2992,
      "step": 42920
    },
    {
      "epoch": 0.0894375,
      "grad_norm": 1.0666788816452026,
      "learning_rate": 0.0002946052893760001,
      "loss": 4.0463,
      "step": 42930
    },
    {
      "epoch": 0.08945833333333333,
      "grad_norm": 0.9099510908126831,
      "learning_rate": 0.0002946026689126687,
      "loss": 4.1379,
      "step": 42940
    },
    {
      "epoch": 0.08947916666666667,
      "grad_norm": 0.8533664345741272,
      "learning_rate": 0.00029460004782471094,
      "loss": 4.4732,
      "step": 42950
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.921550989151001,
      "learning_rate": 0.0002945974261121383,
      "loss": 4.2163,
      "step": 42960
    },
    {
      "epoch": 0.08952083333333333,
      "grad_norm": 0.9304202795028687,
      "learning_rate": 0.00029459480377496197,
      "loss": 4.3826,
      "step": 42970
    },
    {
      "epoch": 0.08954166666666667,
      "grad_norm": 1.1212464570999146,
      "learning_rate": 0.00029459218081319334,
      "loss": 4.1419,
      "step": 42980
    },
    {
      "epoch": 0.0895625,
      "grad_norm": 0.9327439665794373,
      "learning_rate": 0.0002945895572268437,
      "loss": 4.3303,
      "step": 42990
    },
    {
      "epoch": 0.08958333333333333,
      "grad_norm": 0.9051260948181152,
      "learning_rate": 0.00029458693301592445,
      "loss": 4.1126,
      "step": 43000
    },
    {
      "epoch": 0.08958333333333333,
      "eval_loss": 3.906766414642334,
      "eval_runtime": 7.2987,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 43000
    },
    {
      "epoch": 0.08960416666666667,
      "grad_norm": 0.9169785976409912,
      "learning_rate": 0.00029458430818044684,
      "loss": 4.1069,
      "step": 43010
    },
    {
      "epoch": 0.089625,
      "grad_norm": 0.919398844242096,
      "learning_rate": 0.0002945816827204222,
      "loss": 4.1807,
      "step": 43020
    },
    {
      "epoch": 0.08964583333333333,
      "grad_norm": 0.8966017961502075,
      "learning_rate": 0.000294579056635862,
      "loss": 4.1673,
      "step": 43030
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 0.9785766005516052,
      "learning_rate": 0.0002945764299267775,
      "loss": 4.1151,
      "step": 43040
    },
    {
      "epoch": 0.0896875,
      "grad_norm": 0.9138553142547607,
      "learning_rate": 0.00029457380259318,
      "loss": 4.1098,
      "step": 43050
    },
    {
      "epoch": 0.08970833333333333,
      "grad_norm": 1.0041664838790894,
      "learning_rate": 0.00029457117463508096,
      "loss": 4.3254,
      "step": 43060
    },
    {
      "epoch": 0.08972916666666667,
      "grad_norm": 0.9356485605239868,
      "learning_rate": 0.0002945685460524916,
      "loss": 4.225,
      "step": 43070
    },
    {
      "epoch": 0.08975,
      "grad_norm": 1.0992287397384644,
      "learning_rate": 0.00029456591684542347,
      "loss": 4.3528,
      "step": 43080
    },
    {
      "epoch": 0.08977083333333333,
      "grad_norm": 1.0833942890167236,
      "learning_rate": 0.0002945632870138877,
      "loss": 4.2241,
      "step": 43090
    },
    {
      "epoch": 0.08979166666666667,
      "grad_norm": 0.9310416579246521,
      "learning_rate": 0.0002945606565578958,
      "loss": 4.3377,
      "step": 43100
    },
    {
      "epoch": 0.0898125,
      "grad_norm": 1.0450210571289062,
      "learning_rate": 0.00029455802547745906,
      "loss": 4.2387,
      "step": 43110
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 1.0429130792617798,
      "learning_rate": 0.00029455539377258886,
      "loss": 4.3906,
      "step": 43120
    },
    {
      "epoch": 0.08985416666666667,
      "grad_norm": 0.8808839917182922,
      "learning_rate": 0.00029455276144329655,
      "loss": 4.2244,
      "step": 43130
    },
    {
      "epoch": 0.089875,
      "grad_norm": 1.0505913496017456,
      "learning_rate": 0.0002945501284895936,
      "loss": 4.4282,
      "step": 43140
    },
    {
      "epoch": 0.08989583333333333,
      "grad_norm": 0.9402167797088623,
      "learning_rate": 0.0002945474949114913,
      "loss": 4.2595,
      "step": 43150
    },
    {
      "epoch": 0.08991666666666667,
      "grad_norm": 1.1803797483444214,
      "learning_rate": 0.000294544860709001,
      "loss": 4.2889,
      "step": 43160
    },
    {
      "epoch": 0.0899375,
      "grad_norm": 1.0081291198730469,
      "learning_rate": 0.00029454222588213414,
      "loss": 4.1901,
      "step": 43170
    },
    {
      "epoch": 0.08995833333333333,
      "grad_norm": 0.9833490252494812,
      "learning_rate": 0.00029453959043090205,
      "loss": 4.3132,
      "step": 43180
    },
    {
      "epoch": 0.08997916666666667,
      "grad_norm": 0.8829037547111511,
      "learning_rate": 0.00029453695435531616,
      "loss": 4.3356,
      "step": 43190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9452976584434509,
      "learning_rate": 0.00029453431765538783,
      "loss": 4.3402,
      "step": 43200
    },
    {
      "epoch": 0.09002083333333333,
      "grad_norm": 0.9620302319526672,
      "learning_rate": 0.00029453168033112846,
      "loss": 4.2653,
      "step": 43210
    },
    {
      "epoch": 0.09004166666666667,
      "grad_norm": 0.9390308856964111,
      "learning_rate": 0.0002945290423825494,
      "loss": 4.0671,
      "step": 43220
    },
    {
      "epoch": 0.0900625,
      "grad_norm": 0.9934363961219788,
      "learning_rate": 0.0002945264038096622,
      "loss": 4.2523,
      "step": 43230
    },
    {
      "epoch": 0.09008333333333333,
      "grad_norm": 1.6748510599136353,
      "learning_rate": 0.0002945237646124781,
      "loss": 4.3569,
      "step": 43240
    },
    {
      "epoch": 0.09010416666666667,
      "grad_norm": 1.0461360216140747,
      "learning_rate": 0.00029452112479100854,
      "loss": 4.3359,
      "step": 43250
    },
    {
      "epoch": 0.090125,
      "grad_norm": 0.8705199360847473,
      "learning_rate": 0.00029451848434526486,
      "loss": 4.1297,
      "step": 43260
    },
    {
      "epoch": 0.09014583333333333,
      "grad_norm": 0.8700990080833435,
      "learning_rate": 0.00029451584327525856,
      "loss": 4.277,
      "step": 43270
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 1.1273256540298462,
      "learning_rate": 0.00029451320158100107,
      "loss": 4.1606,
      "step": 43280
    },
    {
      "epoch": 0.0901875,
      "grad_norm": 0.9787551760673523,
      "learning_rate": 0.0002945105592625037,
      "loss": 4.1464,
      "step": 43290
    },
    {
      "epoch": 0.09020833333333333,
      "grad_norm": 1.0547419786453247,
      "learning_rate": 0.0002945079163197779,
      "loss": 4.2282,
      "step": 43300
    },
    {
      "epoch": 0.09022916666666667,
      "grad_norm": 1.1147165298461914,
      "learning_rate": 0.0002945052727528352,
      "loss": 4.2282,
      "step": 43310
    },
    {
      "epoch": 0.09025,
      "grad_norm": 0.953605055809021,
      "learning_rate": 0.00029450262856168684,
      "loss": 4.2525,
      "step": 43320
    },
    {
      "epoch": 0.09027083333333333,
      "grad_norm": 0.9563468098640442,
      "learning_rate": 0.00029449998374634435,
      "loss": 4.2011,
      "step": 43330
    },
    {
      "epoch": 0.09029166666666667,
      "grad_norm": 0.8477486371994019,
      "learning_rate": 0.00029449733830681915,
      "loss": 4.4013,
      "step": 43340
    },
    {
      "epoch": 0.0903125,
      "grad_norm": 1.0211516618728638,
      "learning_rate": 0.00029449469224312254,
      "loss": 4.2061,
      "step": 43350
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 1.5568718910217285,
      "learning_rate": 0.00029449204555526614,
      "loss": 4.1844,
      "step": 43360
    },
    {
      "epoch": 0.09035416666666667,
      "grad_norm": 0.9529426097869873,
      "learning_rate": 0.00029448939824326133,
      "loss": 4.1905,
      "step": 43370
    },
    {
      "epoch": 0.090375,
      "grad_norm": 0.9239466786384583,
      "learning_rate": 0.00029448675030711944,
      "loss": 4.1873,
      "step": 43380
    },
    {
      "epoch": 0.09039583333333333,
      "grad_norm": 0.8790031671524048,
      "learning_rate": 0.000294484101746852,
      "loss": 4.3174,
      "step": 43390
    },
    {
      "epoch": 0.09041666666666667,
      "grad_norm": 0.9629064202308655,
      "learning_rate": 0.00029448145256247044,
      "loss": 4.1948,
      "step": 43400
    },
    {
      "epoch": 0.0904375,
      "grad_norm": 0.9215074181556702,
      "learning_rate": 0.0002944788027539862,
      "loss": 4.2196,
      "step": 43410
    },
    {
      "epoch": 0.09045833333333334,
      "grad_norm": 0.9311698079109192,
      "learning_rate": 0.0002944761523214107,
      "loss": 4.295,
      "step": 43420
    },
    {
      "epoch": 0.09047916666666667,
      "grad_norm": 0.8960584998130798,
      "learning_rate": 0.00029447350126475546,
      "loss": 4.1791,
      "step": 43430
    },
    {
      "epoch": 0.0905,
      "grad_norm": 1.0562162399291992,
      "learning_rate": 0.00029447084958403183,
      "loss": 4.2654,
      "step": 43440
    },
    {
      "epoch": 0.09052083333333333,
      "grad_norm": 0.9712691903114319,
      "learning_rate": 0.00029446819727925135,
      "loss": 4.3729,
      "step": 43450
    },
    {
      "epoch": 0.09054166666666667,
      "grad_norm": 0.9228468537330627,
      "learning_rate": 0.0002944655443504254,
      "loss": 4.4837,
      "step": 43460
    },
    {
      "epoch": 0.0905625,
      "grad_norm": 0.8799713850021362,
      "learning_rate": 0.0002944628907975655,
      "loss": 4.203,
      "step": 43470
    },
    {
      "epoch": 0.09058333333333334,
      "grad_norm": 0.9564329981803894,
      "learning_rate": 0.0002944602366206831,
      "loss": 3.97,
      "step": 43480
    },
    {
      "epoch": 0.09060416666666667,
      "grad_norm": 0.8156163096427917,
      "learning_rate": 0.00029445758181978964,
      "loss": 4.2667,
      "step": 43490
    },
    {
      "epoch": 0.090625,
      "grad_norm": 0.9379224181175232,
      "learning_rate": 0.00029445492639489665,
      "loss": 4.2742,
      "step": 43500
    },
    {
      "epoch": 0.09064583333333333,
      "grad_norm": 1.0084203481674194,
      "learning_rate": 0.00029445227034601555,
      "loss": 4.2989,
      "step": 43510
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.9456734657287598,
      "learning_rate": 0.0002944496136731578,
      "loss": 4.0659,
      "step": 43520
    },
    {
      "epoch": 0.0906875,
      "grad_norm": 1.1284565925598145,
      "learning_rate": 0.00029444695637633486,
      "loss": 4.176,
      "step": 43530
    },
    {
      "epoch": 0.09070833333333334,
      "grad_norm": 0.9597713351249695,
      "learning_rate": 0.0002944442984555583,
      "loss": 4.4532,
      "step": 43540
    },
    {
      "epoch": 0.09072916666666667,
      "grad_norm": 0.8949328660964966,
      "learning_rate": 0.00029444163991083954,
      "loss": 4.1559,
      "step": 43550
    },
    {
      "epoch": 0.09075,
      "grad_norm": 0.9097151160240173,
      "learning_rate": 0.00029443898074219004,
      "loss": 4.105,
      "step": 43560
    },
    {
      "epoch": 0.09077083333333333,
      "grad_norm": 0.9009482264518738,
      "learning_rate": 0.0002944363209496214,
      "loss": 4.2852,
      "step": 43570
    },
    {
      "epoch": 0.09079166666666667,
      "grad_norm": 0.9448757171630859,
      "learning_rate": 0.0002944336605331449,
      "loss": 4.1596,
      "step": 43580
    },
    {
      "epoch": 0.0908125,
      "grad_norm": 0.941559910774231,
      "learning_rate": 0.0002944309994927722,
      "loss": 4.1948,
      "step": 43590
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 1.042026162147522,
      "learning_rate": 0.0002944283378285148,
      "loss": 4.1584,
      "step": 43600
    },
    {
      "epoch": 0.09085416666666667,
      "grad_norm": 0.9682877063751221,
      "learning_rate": 0.0002944256755403841,
      "loss": 4.1106,
      "step": 43610
    },
    {
      "epoch": 0.090875,
      "grad_norm": 0.9139359593391418,
      "learning_rate": 0.0002944230126283917,
      "loss": 4.0373,
      "step": 43620
    },
    {
      "epoch": 0.09089583333333333,
      "grad_norm": 0.898047924041748,
      "learning_rate": 0.00029442034909254897,
      "loss": 4.1606,
      "step": 43630
    },
    {
      "epoch": 0.09091666666666667,
      "grad_norm": 0.9208216667175293,
      "learning_rate": 0.0002944176849328676,
      "loss": 4.2516,
      "step": 43640
    },
    {
      "epoch": 0.0909375,
      "grad_norm": 1.2544231414794922,
      "learning_rate": 0.0002944150201493589,
      "loss": 4.2955,
      "step": 43650
    },
    {
      "epoch": 0.09095833333333334,
      "grad_norm": 1.1312482357025146,
      "learning_rate": 0.00029441235474203455,
      "loss": 4.3856,
      "step": 43660
    },
    {
      "epoch": 0.09097916666666667,
      "grad_norm": 1.0862900018692017,
      "learning_rate": 0.00029440968871090594,
      "loss": 4.231,
      "step": 43670
    },
    {
      "epoch": 0.091,
      "grad_norm": 1.0129380226135254,
      "learning_rate": 0.0002944070220559847,
      "loss": 4.1357,
      "step": 43680
    },
    {
      "epoch": 0.09102083333333333,
      "grad_norm": 0.8862202763557434,
      "learning_rate": 0.0002944043547772822,
      "loss": 4.3285,
      "step": 43690
    },
    {
      "epoch": 0.09104166666666667,
      "grad_norm": 1.4547420740127563,
      "learning_rate": 0.0002944016868748101,
      "loss": 4.2778,
      "step": 43700
    },
    {
      "epoch": 0.0910625,
      "grad_norm": 0.9152711629867554,
      "learning_rate": 0.00029439901834857986,
      "loss": 4.2969,
      "step": 43710
    },
    {
      "epoch": 0.09108333333333334,
      "grad_norm": 0.9259084463119507,
      "learning_rate": 0.000294396349198603,
      "loss": 4.2709,
      "step": 43720
    },
    {
      "epoch": 0.09110416666666667,
      "grad_norm": 0.9186952114105225,
      "learning_rate": 0.0002943936794248911,
      "loss": 4.2481,
      "step": 43730
    },
    {
      "epoch": 0.091125,
      "grad_norm": 0.8770375847816467,
      "learning_rate": 0.00029439100902745567,
      "loss": 4.2363,
      "step": 43740
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 1.197119951248169,
      "learning_rate": 0.00029438833800630814,
      "loss": 4.0762,
      "step": 43750
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 0.8943676948547363,
      "learning_rate": 0.00029438566636146024,
      "loss": 4.1855,
      "step": 43760
    },
    {
      "epoch": 0.0911875,
      "grad_norm": 0.9538732767105103,
      "learning_rate": 0.00029438299409292336,
      "loss": 4.0878,
      "step": 43770
    },
    {
      "epoch": 0.09120833333333334,
      "grad_norm": 0.9639824628829956,
      "learning_rate": 0.00029438032120070916,
      "loss": 4.1796,
      "step": 43780
    },
    {
      "epoch": 0.09122916666666667,
      "grad_norm": 0.8624348640441895,
      "learning_rate": 0.00029437764768482907,
      "loss": 4.1659,
      "step": 43790
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.9246639609336853,
      "learning_rate": 0.00029437497354529464,
      "loss": 4.1715,
      "step": 43800
    },
    {
      "epoch": 0.09127083333333333,
      "grad_norm": 0.9325171709060669,
      "learning_rate": 0.0002943722987821176,
      "loss": 4.2388,
      "step": 43810
    },
    {
      "epoch": 0.09129166666666666,
      "grad_norm": 1.344778060913086,
      "learning_rate": 0.0002943696233953093,
      "loss": 4.3464,
      "step": 43820
    },
    {
      "epoch": 0.0913125,
      "grad_norm": 0.8885857462882996,
      "learning_rate": 0.0002943669473848814,
      "loss": 4.1575,
      "step": 43830
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 1.0354342460632324,
      "learning_rate": 0.0002943642707508454,
      "loss": 4.2523,
      "step": 43840
    },
    {
      "epoch": 0.09135416666666667,
      "grad_norm": 0.9166857600212097,
      "learning_rate": 0.0002943615934932129,
      "loss": 4.1567,
      "step": 43850
    },
    {
      "epoch": 0.091375,
      "grad_norm": 0.9747610092163086,
      "learning_rate": 0.00029435891561199545,
      "loss": 4.2232,
      "step": 43860
    },
    {
      "epoch": 0.09139583333333333,
      "grad_norm": 0.9544973373413086,
      "learning_rate": 0.00029435623710720465,
      "loss": 4.1756,
      "step": 43870
    },
    {
      "epoch": 0.09141666666666666,
      "grad_norm": 0.8748448491096497,
      "learning_rate": 0.00029435355797885205,
      "loss": 4.147,
      "step": 43880
    },
    {
      "epoch": 0.0914375,
      "grad_norm": 0.9786136746406555,
      "learning_rate": 0.00029435087822694925,
      "loss": 4.0493,
      "step": 43890
    },
    {
      "epoch": 0.09145833333333334,
      "grad_norm": 1.0166633129119873,
      "learning_rate": 0.0002943481978515077,
      "loss": 4.2567,
      "step": 43900
    },
    {
      "epoch": 0.09147916666666667,
      "grad_norm": 0.8907213807106018,
      "learning_rate": 0.0002943455168525391,
      "loss": 4.2158,
      "step": 43910
    },
    {
      "epoch": 0.0915,
      "grad_norm": 1.0397872924804688,
      "learning_rate": 0.00029434283523005505,
      "loss": 4.2348,
      "step": 43920
    },
    {
      "epoch": 0.09152083333333333,
      "grad_norm": 0.9834720492362976,
      "learning_rate": 0.00029434015298406707,
      "loss": 4.105,
      "step": 43930
    },
    {
      "epoch": 0.09154166666666666,
      "grad_norm": 0.9079191088676453,
      "learning_rate": 0.0002943374701145868,
      "loss": 4.3242,
      "step": 43940
    },
    {
      "epoch": 0.0915625,
      "grad_norm": 0.8668948411941528,
      "learning_rate": 0.0002943347866216257,
      "loss": 4.1449,
      "step": 43950
    },
    {
      "epoch": 0.09158333333333334,
      "grad_norm": 0.9344123005867004,
      "learning_rate": 0.0002943321025051955,
      "loss": 4.1601,
      "step": 43960
    },
    {
      "epoch": 0.09160416666666667,
      "grad_norm": 0.9953051209449768,
      "learning_rate": 0.0002943294177653077,
      "loss": 4.1367,
      "step": 43970
    },
    {
      "epoch": 0.091625,
      "grad_norm": 1.1170707941055298,
      "learning_rate": 0.00029432673240197406,
      "loss": 4.2207,
      "step": 43980
    },
    {
      "epoch": 0.09164583333333333,
      "grad_norm": 0.9471794962882996,
      "learning_rate": 0.000294324046415206,
      "loss": 4.3697,
      "step": 43990
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.9801356196403503,
      "learning_rate": 0.00029432135980501516,
      "loss": 4.2748,
      "step": 44000
    },
    {
      "epoch": 0.09166666666666666,
      "eval_loss": 3.924224376678467,
      "eval_runtime": 7.2323,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 44000
    },
    {
      "epoch": 0.0916875,
      "grad_norm": 1.0168087482452393,
      "learning_rate": 0.00029431867257141323,
      "loss": 4.1283,
      "step": 44010
    },
    {
      "epoch": 0.09170833333333334,
      "grad_norm": 0.9280913472175598,
      "learning_rate": 0.0002943159847144117,
      "loss": 4.2232,
      "step": 44020
    },
    {
      "epoch": 0.09172916666666667,
      "grad_norm": 0.9883478283882141,
      "learning_rate": 0.00029431329623402227,
      "loss": 4.0942,
      "step": 44030
    },
    {
      "epoch": 0.09175,
      "grad_norm": 0.9368771314620972,
      "learning_rate": 0.00029431060713025654,
      "loss": 4.0493,
      "step": 44040
    },
    {
      "epoch": 0.09177083333333333,
      "grad_norm": 0.9169730544090271,
      "learning_rate": 0.00029430791740312607,
      "loss": 4.0447,
      "step": 44050
    },
    {
      "epoch": 0.09179166666666666,
      "grad_norm": 0.9890957474708557,
      "learning_rate": 0.0002943052270526425,
      "loss": 4.3522,
      "step": 44060
    },
    {
      "epoch": 0.0918125,
      "grad_norm": 0.8887256383895874,
      "learning_rate": 0.00029430253607881754,
      "loss": 4.1169,
      "step": 44070
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 0.9191511273384094,
      "learning_rate": 0.00029429984448166275,
      "loss": 4.364,
      "step": 44080
    },
    {
      "epoch": 0.09185416666666667,
      "grad_norm": 1.1957781314849854,
      "learning_rate": 0.00029429715226118966,
      "loss": 4.0704,
      "step": 44090
    },
    {
      "epoch": 0.091875,
      "grad_norm": 0.957772970199585,
      "learning_rate": 0.00029429445941741005,
      "loss": 4.2087,
      "step": 44100
    },
    {
      "epoch": 0.09189583333333333,
      "grad_norm": 1.0219649076461792,
      "learning_rate": 0.00029429176595033546,
      "loss": 4.1847,
      "step": 44110
    },
    {
      "epoch": 0.09191666666666666,
      "grad_norm": 0.9253674745559692,
      "learning_rate": 0.0002942890718599776,
      "loss": 4.3387,
      "step": 44120
    },
    {
      "epoch": 0.0919375,
      "grad_norm": 0.9247531294822693,
      "learning_rate": 0.00029428637714634805,
      "loss": 4.3726,
      "step": 44130
    },
    {
      "epoch": 0.09195833333333334,
      "grad_norm": 0.9139373898506165,
      "learning_rate": 0.00029428368180945845,
      "loss": 4.2352,
      "step": 44140
    },
    {
      "epoch": 0.09197916666666667,
      "grad_norm": 0.9492538571357727,
      "learning_rate": 0.0002942809858493204,
      "loss": 4.1396,
      "step": 44150
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.9351555109024048,
      "learning_rate": 0.0002942782892659457,
      "loss": 3.9849,
      "step": 44160
    },
    {
      "epoch": 0.09202083333333333,
      "grad_norm": 1.0280604362487793,
      "learning_rate": 0.00029427559205934587,
      "loss": 4.2728,
      "step": 44170
    },
    {
      "epoch": 0.09204166666666666,
      "grad_norm": 1.0027942657470703,
      "learning_rate": 0.0002942728942295326,
      "loss": 4.1567,
      "step": 44180
    },
    {
      "epoch": 0.0920625,
      "grad_norm": 0.8787040710449219,
      "learning_rate": 0.00029427019577651746,
      "loss": 4.0621,
      "step": 44190
    },
    {
      "epoch": 0.09208333333333334,
      "grad_norm": 0.8832659721374512,
      "learning_rate": 0.00029426749670031225,
      "loss": 4.3267,
      "step": 44200
    },
    {
      "epoch": 0.09210416666666667,
      "grad_norm": 0.8874361515045166,
      "learning_rate": 0.00029426479700092855,
      "loss": 4.1689,
      "step": 44210
    },
    {
      "epoch": 0.092125,
      "grad_norm": 1.0148552656173706,
      "learning_rate": 0.000294262096678378,
      "loss": 4.1606,
      "step": 44220
    },
    {
      "epoch": 0.09214583333333333,
      "grad_norm": 0.9823949933052063,
      "learning_rate": 0.00029425939573267233,
      "loss": 4.3178,
      "step": 44230
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 0.9792935848236084,
      "learning_rate": 0.00029425669416382317,
      "loss": 4.0357,
      "step": 44240
    },
    {
      "epoch": 0.0921875,
      "grad_norm": 0.8735740780830383,
      "learning_rate": 0.00029425399197184214,
      "loss": 4.1776,
      "step": 44250
    },
    {
      "epoch": 0.09220833333333334,
      "grad_norm": 0.9548811316490173,
      "learning_rate": 0.000294251289156741,
      "loss": 3.9929,
      "step": 44260
    },
    {
      "epoch": 0.09222916666666667,
      "grad_norm": 0.9492273926734924,
      "learning_rate": 0.00029424858571853145,
      "loss": 4.2305,
      "step": 44270
    },
    {
      "epoch": 0.09225,
      "grad_norm": 0.9772977828979492,
      "learning_rate": 0.0002942458816572251,
      "loss": 4.1014,
      "step": 44280
    },
    {
      "epoch": 0.09227083333333333,
      "grad_norm": 1.0328176021575928,
      "learning_rate": 0.00029424317697283355,
      "loss": 4.3983,
      "step": 44290
    },
    {
      "epoch": 0.09229166666666666,
      "grad_norm": 0.9498417973518372,
      "learning_rate": 0.00029424047166536863,
      "loss": 4.276,
      "step": 44300
    },
    {
      "epoch": 0.0923125,
      "grad_norm": 0.9687615036964417,
      "learning_rate": 0.00029423776573484194,
      "loss": 4.2128,
      "step": 44310
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 0.9240216016769409,
      "learning_rate": 0.0002942350591812652,
      "loss": 4.0542,
      "step": 44320
    },
    {
      "epoch": 0.09235416666666667,
      "grad_norm": 1.0525070428848267,
      "learning_rate": 0.0002942323520046501,
      "loss": 4.113,
      "step": 44330
    },
    {
      "epoch": 0.092375,
      "grad_norm": 0.901218593120575,
      "learning_rate": 0.00029422964420500837,
      "loss": 4.0866,
      "step": 44340
    },
    {
      "epoch": 0.09239583333333333,
      "grad_norm": 0.9237936735153198,
      "learning_rate": 0.0002942269357823516,
      "loss": 4.1039,
      "step": 44350
    },
    {
      "epoch": 0.09241666666666666,
      "grad_norm": 0.9699662327766418,
      "learning_rate": 0.0002942242267366916,
      "loss": 4.196,
      "step": 44360
    },
    {
      "epoch": 0.0924375,
      "grad_norm": 0.9120031595230103,
      "learning_rate": 0.00029422151706804,
      "loss": 4.3835,
      "step": 44370
    },
    {
      "epoch": 0.09245833333333334,
      "grad_norm": 0.8322319984436035,
      "learning_rate": 0.00029421880677640855,
      "loss": 4.3857,
      "step": 44380
    },
    {
      "epoch": 0.09247916666666667,
      "grad_norm": 0.9672607779502869,
      "learning_rate": 0.0002942160958618089,
      "loss": 4.0872,
      "step": 44390
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.9684982895851135,
      "learning_rate": 0.00029421338432425285,
      "loss": 4.1838,
      "step": 44400
    },
    {
      "epoch": 0.09252083333333333,
      "grad_norm": 1.02280855178833,
      "learning_rate": 0.00029421067216375206,
      "loss": 4.2902,
      "step": 44410
    },
    {
      "epoch": 0.09254166666666666,
      "grad_norm": 1.0455608367919922,
      "learning_rate": 0.00029420795938031824,
      "loss": 4.1425,
      "step": 44420
    },
    {
      "epoch": 0.0925625,
      "grad_norm": 0.8704970479011536,
      "learning_rate": 0.0002942052459739631,
      "loss": 4.1118,
      "step": 44430
    },
    {
      "epoch": 0.09258333333333334,
      "grad_norm": 1.0326601266860962,
      "learning_rate": 0.00029420253194469844,
      "loss": 4.0858,
      "step": 44440
    },
    {
      "epoch": 0.09260416666666667,
      "grad_norm": 0.9165856242179871,
      "learning_rate": 0.0002941998172925359,
      "loss": 4.184,
      "step": 44450
    },
    {
      "epoch": 0.092625,
      "grad_norm": 1.0041663646697998,
      "learning_rate": 0.0002941971020174871,
      "loss": 4.2228,
      "step": 44460
    },
    {
      "epoch": 0.09264583333333333,
      "grad_norm": 0.9464560151100159,
      "learning_rate": 0.000294194386119564,
      "loss": 4.1048,
      "step": 44470
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 0.9938135147094727,
      "learning_rate": 0.0002941916695987783,
      "loss": 4.3772,
      "step": 44480
    },
    {
      "epoch": 0.0926875,
      "grad_norm": 0.9497987031936646,
      "learning_rate": 0.0002941889524551416,
      "loss": 4.1316,
      "step": 44490
    },
    {
      "epoch": 0.09270833333333334,
      "grad_norm": 0.9113222360610962,
      "learning_rate": 0.0002941862346886657,
      "loss": 4.3301,
      "step": 44500
    },
    {
      "epoch": 0.09272916666666667,
      "grad_norm": 0.9750864505767822,
      "learning_rate": 0.0002941835162993623,
      "loss": 4.1796,
      "step": 44510
    },
    {
      "epoch": 0.09275,
      "grad_norm": 0.9271731376647949,
      "learning_rate": 0.00029418079728724323,
      "loss": 4.1926,
      "step": 44520
    },
    {
      "epoch": 0.09277083333333333,
      "grad_norm": 0.9137866497039795,
      "learning_rate": 0.00029417807765232015,
      "loss": 4.1649,
      "step": 44530
    },
    {
      "epoch": 0.09279166666666666,
      "grad_norm": 0.9841835498809814,
      "learning_rate": 0.0002941753573946049,
      "loss": 4.1121,
      "step": 44540
    },
    {
      "epoch": 0.0928125,
      "grad_norm": 0.9442772269248962,
      "learning_rate": 0.0002941726365141091,
      "loss": 4.1143,
      "step": 44550
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 0.9022562503814697,
      "learning_rate": 0.0002941699150108446,
      "loss": 4.1962,
      "step": 44560
    },
    {
      "epoch": 0.09285416666666667,
      "grad_norm": 0.883918046951294,
      "learning_rate": 0.00029416719288482315,
      "loss": 4.1277,
      "step": 44570
    },
    {
      "epoch": 0.092875,
      "grad_norm": 0.9951528906822205,
      "learning_rate": 0.0002941644701360565,
      "loss": 4.2535,
      "step": 44580
    },
    {
      "epoch": 0.09289583333333333,
      "grad_norm": 0.9699969291687012,
      "learning_rate": 0.00029416174676455637,
      "loss": 4.3043,
      "step": 44590
    },
    {
      "epoch": 0.09291666666666666,
      "grad_norm": 0.8958781957626343,
      "learning_rate": 0.0002941590227703346,
      "loss": 4.3603,
      "step": 44600
    },
    {
      "epoch": 0.0929375,
      "grad_norm": 0.9497518539428711,
      "learning_rate": 0.0002941562981534029,
      "loss": 4.0556,
      "step": 44610
    },
    {
      "epoch": 0.09295833333333334,
      "grad_norm": 0.9342257976531982,
      "learning_rate": 0.000294153572913773,
      "loss": 4.1628,
      "step": 44620
    },
    {
      "epoch": 0.09297916666666667,
      "grad_norm": 1.0655452013015747,
      "learning_rate": 0.0002941508470514568,
      "loss": 4.0226,
      "step": 44630
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.9513686299324036,
      "learning_rate": 0.000294148120566466,
      "loss": 4.312,
      "step": 44640
    },
    {
      "epoch": 0.09302083333333333,
      "grad_norm": 0.9680458307266235,
      "learning_rate": 0.0002941453934588123,
      "loss": 4.2774,
      "step": 44650
    },
    {
      "epoch": 0.09304166666666666,
      "grad_norm": 0.9041427373886108,
      "learning_rate": 0.00029414266572850764,
      "loss": 4.0538,
      "step": 44660
    },
    {
      "epoch": 0.0930625,
      "grad_norm": 0.9586079716682434,
      "learning_rate": 0.00029413993737556363,
      "loss": 4.1906,
      "step": 44670
    },
    {
      "epoch": 0.09308333333333334,
      "grad_norm": 0.9879696369171143,
      "learning_rate": 0.0002941372083999923,
      "loss": 4.2997,
      "step": 44680
    },
    {
      "epoch": 0.09310416666666667,
      "grad_norm": 1.1156178712844849,
      "learning_rate": 0.0002941344788018051,
      "loss": 4.1656,
      "step": 44690
    },
    {
      "epoch": 0.093125,
      "grad_norm": 0.9427623152732849,
      "learning_rate": 0.0002941317485810141,
      "loss": 4.1065,
      "step": 44700
    },
    {
      "epoch": 0.09314583333333333,
      "grad_norm": 0.9128406643867493,
      "learning_rate": 0.000294129017737631,
      "loss": 4.2373,
      "step": 44710
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 1.054638385772705,
      "learning_rate": 0.0002941262862716676,
      "loss": 4.1592,
      "step": 44720
    },
    {
      "epoch": 0.0931875,
      "grad_norm": 1.0914337635040283,
      "learning_rate": 0.0002941235541831356,
      "loss": 4.2349,
      "step": 44730
    },
    {
      "epoch": 0.09320833333333334,
      "grad_norm": 1.150040864944458,
      "learning_rate": 0.000294120821472047,
      "loss": 4.0687,
      "step": 44740
    },
    {
      "epoch": 0.09322916666666667,
      "grad_norm": 1.1044857501983643,
      "learning_rate": 0.00029411808813841346,
      "loss": 4.2726,
      "step": 44750
    },
    {
      "epoch": 0.09325,
      "grad_norm": 1.0061428546905518,
      "learning_rate": 0.00029411535418224686,
      "loss": 4.0871,
      "step": 44760
    },
    {
      "epoch": 0.09327083333333333,
      "grad_norm": 0.9253589510917664,
      "learning_rate": 0.0002941126196035589,
      "loss": 4.2967,
      "step": 44770
    },
    {
      "epoch": 0.09329166666666666,
      "grad_norm": 0.988383412361145,
      "learning_rate": 0.00029410988440236154,
      "loss": 4.1908,
      "step": 44780
    },
    {
      "epoch": 0.0933125,
      "grad_norm": 0.8666081428527832,
      "learning_rate": 0.0002941071485786665,
      "loss": 4.1784,
      "step": 44790
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.9325717091560364,
      "learning_rate": 0.0002941044121324856,
      "loss": 4.1878,
      "step": 44800
    },
    {
      "epoch": 0.09335416666666667,
      "grad_norm": 0.958469033241272,
      "learning_rate": 0.0002941016750638307,
      "loss": 4.4788,
      "step": 44810
    },
    {
      "epoch": 0.093375,
      "grad_norm": 0.9022987484931946,
      "learning_rate": 0.0002940989373727136,
      "loss": 4.1524,
      "step": 44820
    },
    {
      "epoch": 0.09339583333333333,
      "grad_norm": 1.0922902822494507,
      "learning_rate": 0.0002940961990591461,
      "loss": 4.1952,
      "step": 44830
    },
    {
      "epoch": 0.09341666666666666,
      "grad_norm": 0.9141954779624939,
      "learning_rate": 0.0002940934601231401,
      "loss": 4.2381,
      "step": 44840
    },
    {
      "epoch": 0.0934375,
      "grad_norm": 0.9238306879997253,
      "learning_rate": 0.00029409072056470735,
      "loss": 4.1396,
      "step": 44850
    },
    {
      "epoch": 0.09345833333333334,
      "grad_norm": 0.9620855450630188,
      "learning_rate": 0.00029408798038385977,
      "loss": 4.066,
      "step": 44860
    },
    {
      "epoch": 0.09347916666666667,
      "grad_norm": 1.0067157745361328,
      "learning_rate": 0.00029408523958060907,
      "loss": 4.2189,
      "step": 44870
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.9046841859817505,
      "learning_rate": 0.00029408249815496724,
      "loss": 4.1199,
      "step": 44880
    },
    {
      "epoch": 0.09352083333333333,
      "grad_norm": 0.9724406599998474,
      "learning_rate": 0.00029407975610694603,
      "loss": 4.1909,
      "step": 44890
    },
    {
      "epoch": 0.09354166666666666,
      "grad_norm": 0.9740741848945618,
      "learning_rate": 0.0002940770134365573,
      "loss": 4.247,
      "step": 44900
    },
    {
      "epoch": 0.0935625,
      "grad_norm": 0.8542056083679199,
      "learning_rate": 0.0002940742701438129,
      "loss": 4.1927,
      "step": 44910
    },
    {
      "epoch": 0.09358333333333334,
      "grad_norm": 1.148344874382019,
      "learning_rate": 0.0002940715262287247,
      "loss": 4.3847,
      "step": 44920
    },
    {
      "epoch": 0.09360416666666667,
      "grad_norm": 0.9465219974517822,
      "learning_rate": 0.0002940687816913045,
      "loss": 4.0724,
      "step": 44930
    },
    {
      "epoch": 0.093625,
      "grad_norm": 0.873350977897644,
      "learning_rate": 0.00029406603653156423,
      "loss": 4.1092,
      "step": 44940
    },
    {
      "epoch": 0.09364583333333333,
      "grad_norm": 0.9088631272315979,
      "learning_rate": 0.00029406329074951567,
      "loss": 4.3036,
      "step": 44950
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 0.8807657957077026,
      "learning_rate": 0.00029406054434517073,
      "loss": 4.2295,
      "step": 44960
    },
    {
      "epoch": 0.0936875,
      "grad_norm": 0.8953917026519775,
      "learning_rate": 0.0002940577973185413,
      "loss": 4.1112,
      "step": 44970
    },
    {
      "epoch": 0.09370833333333334,
      "grad_norm": 0.9242185354232788,
      "learning_rate": 0.0002940550496696391,
      "loss": 4.195,
      "step": 44980
    },
    {
      "epoch": 0.09372916666666667,
      "grad_norm": 0.9502796530723572,
      "learning_rate": 0.0002940523013984762,
      "loss": 4.1721,
      "step": 44990
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.9680241942405701,
      "learning_rate": 0.0002940495525050644,
      "loss": 4.3029,
      "step": 45000
    },
    {
      "epoch": 0.09375,
      "eval_loss": 3.923271656036377,
      "eval_runtime": 7.1792,
      "eval_samples_per_second": 1.393,
      "eval_steps_per_second": 0.418,
      "step": 45000
    },
    {
      "epoch": 0.09377083333333333,
      "grad_norm": 0.8243392705917358,
      "learning_rate": 0.0002940468029894155,
      "loss": 4.2562,
      "step": 45010
    },
    {
      "epoch": 0.09379166666666666,
      "grad_norm": 0.9315290451049805,
      "learning_rate": 0.0002940440528515414,
      "loss": 4.1317,
      "step": 45020
    },
    {
      "epoch": 0.0938125,
      "grad_norm": 0.9055262207984924,
      "learning_rate": 0.0002940413020914541,
      "loss": 4.1439,
      "step": 45030
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 0.9599499702453613,
      "learning_rate": 0.00029403855070916533,
      "loss": 4.2637,
      "step": 45040
    },
    {
      "epoch": 0.09385416666666667,
      "grad_norm": 0.883269190788269,
      "learning_rate": 0.0002940357987046871,
      "loss": 4.4256,
      "step": 45050
    },
    {
      "epoch": 0.093875,
      "grad_norm": 0.9509314298629761,
      "learning_rate": 0.0002940330460780311,
      "loss": 4.2695,
      "step": 45060
    },
    {
      "epoch": 0.09389583333333333,
      "grad_norm": 0.9546358585357666,
      "learning_rate": 0.0002940302928292094,
      "loss": 4.3252,
      "step": 45070
    },
    {
      "epoch": 0.09391666666666666,
      "grad_norm": 0.8799136281013489,
      "learning_rate": 0.0002940275389582339,
      "loss": 4.1819,
      "step": 45080
    },
    {
      "epoch": 0.0939375,
      "grad_norm": 0.9453428387641907,
      "learning_rate": 0.00029402478446511644,
      "loss": 4.1654,
      "step": 45090
    },
    {
      "epoch": 0.09395833333333334,
      "grad_norm": 0.87428218126297,
      "learning_rate": 0.0002940220293498689,
      "loss": 4.1985,
      "step": 45100
    },
    {
      "epoch": 0.09397916666666667,
      "grad_norm": 0.8738179206848145,
      "learning_rate": 0.00029401927361250317,
      "loss": 4.2677,
      "step": 45110
    },
    {
      "epoch": 0.094,
      "grad_norm": 1.0058783292770386,
      "learning_rate": 0.00029401651725303123,
      "loss": 4.2194,
      "step": 45120
    },
    {
      "epoch": 0.09402083333333333,
      "grad_norm": 0.9521231651306152,
      "learning_rate": 0.0002940137602714649,
      "loss": 4.3254,
      "step": 45130
    },
    {
      "epoch": 0.09404166666666666,
      "grad_norm": 0.8492833971977234,
      "learning_rate": 0.00029401100266781616,
      "loss": 4.1538,
      "step": 45140
    },
    {
      "epoch": 0.0940625,
      "grad_norm": 0.962226152420044,
      "learning_rate": 0.00029400824444209694,
      "loss": 4.2527,
      "step": 45150
    },
    {
      "epoch": 0.09408333333333334,
      "grad_norm": 1.0502902269363403,
      "learning_rate": 0.000294005485594319,
      "loss": 4.1628,
      "step": 45160
    },
    {
      "epoch": 0.09410416666666667,
      "grad_norm": 1.0439125299453735,
      "learning_rate": 0.00029400272612449443,
      "loss": 4.3402,
      "step": 45170
    },
    {
      "epoch": 0.094125,
      "grad_norm": 0.9295666217803955,
      "learning_rate": 0.00029399996603263505,
      "loss": 4.0959,
      "step": 45180
    },
    {
      "epoch": 0.09414583333333333,
      "grad_norm": 0.9285731911659241,
      "learning_rate": 0.00029399720531875283,
      "loss": 3.9337,
      "step": 45190
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 0.8209292888641357,
      "learning_rate": 0.0002939944439828597,
      "loss": 4.2209,
      "step": 45200
    },
    {
      "epoch": 0.0941875,
      "grad_norm": 0.9561507105827332,
      "learning_rate": 0.00029399168202496755,
      "loss": 4.1826,
      "step": 45210
    },
    {
      "epoch": 0.09420833333333334,
      "grad_norm": 0.9468300342559814,
      "learning_rate": 0.00029398891944508833,
      "loss": 4.1037,
      "step": 45220
    },
    {
      "epoch": 0.09422916666666667,
      "grad_norm": 0.9209586381912231,
      "learning_rate": 0.000293986156243234,
      "loss": 4.2854,
      "step": 45230
    },
    {
      "epoch": 0.09425,
      "grad_norm": 0.9263982772827148,
      "learning_rate": 0.0002939833924194164,
      "loss": 4.3634,
      "step": 45240
    },
    {
      "epoch": 0.09427083333333333,
      "grad_norm": 0.9229921102523804,
      "learning_rate": 0.00029398062797364764,
      "loss": 4.1444,
      "step": 45250
    },
    {
      "epoch": 0.09429166666666666,
      "grad_norm": 0.9397671222686768,
      "learning_rate": 0.0002939778629059395,
      "loss": 4.1517,
      "step": 45260
    },
    {
      "epoch": 0.0943125,
      "grad_norm": 1.0249342918395996,
      "learning_rate": 0.000293975097216304,
      "loss": 4.0897,
      "step": 45270
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.2288172245025635,
      "learning_rate": 0.00029397233090475307,
      "loss": 4.3157,
      "step": 45280
    },
    {
      "epoch": 0.09435416666666667,
      "grad_norm": 0.8507738709449768,
      "learning_rate": 0.0002939695639712986,
      "loss": 4.2431,
      "step": 45290
    },
    {
      "epoch": 0.094375,
      "grad_norm": 0.9526733756065369,
      "learning_rate": 0.00029396679641595266,
      "loss": 4.3619,
      "step": 45300
    },
    {
      "epoch": 0.09439583333333333,
      "grad_norm": 0.9644994139671326,
      "learning_rate": 0.0002939640282387271,
      "loss": 4.2677,
      "step": 45310
    },
    {
      "epoch": 0.09441666666666666,
      "grad_norm": 0.8907559514045715,
      "learning_rate": 0.000293961259439634,
      "loss": 4.0196,
      "step": 45320
    },
    {
      "epoch": 0.0944375,
      "grad_norm": 0.8780724406242371,
      "learning_rate": 0.00029395849001868517,
      "loss": 4.3072,
      "step": 45330
    },
    {
      "epoch": 0.09445833333333334,
      "grad_norm": 1.0535258054733276,
      "learning_rate": 0.00029395571997589264,
      "loss": 4.149,
      "step": 45340
    },
    {
      "epoch": 0.09447916666666667,
      "grad_norm": 0.9603555798530579,
      "learning_rate": 0.0002939529493112684,
      "loss": 4.1681,
      "step": 45350
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.8475448489189148,
      "learning_rate": 0.00029395017802482444,
      "loss": 4.0837,
      "step": 45360
    },
    {
      "epoch": 0.09452083333333333,
      "grad_norm": 0.9563637375831604,
      "learning_rate": 0.0002939474061165727,
      "loss": 3.9478,
      "step": 45370
    },
    {
      "epoch": 0.09454166666666666,
      "grad_norm": 1.9566928148269653,
      "learning_rate": 0.00029394463358652507,
      "loss": 4.3621,
      "step": 45380
    },
    {
      "epoch": 0.0945625,
      "grad_norm": 0.9050639867782593,
      "learning_rate": 0.00029394186043469364,
      "loss": 4.2127,
      "step": 45390
    },
    {
      "epoch": 0.09458333333333334,
      "grad_norm": 0.8943130970001221,
      "learning_rate": 0.00029393908666109036,
      "loss": 4.1097,
      "step": 45400
    },
    {
      "epoch": 0.09460416666666667,
      "grad_norm": 0.8971458077430725,
      "learning_rate": 0.0002939363122657272,
      "loss": 4.1696,
      "step": 45410
    },
    {
      "epoch": 0.094625,
      "grad_norm": 0.9174471497535706,
      "learning_rate": 0.0002939335372486161,
      "loss": 4.1736,
      "step": 45420
    },
    {
      "epoch": 0.09464583333333333,
      "grad_norm": 0.9763236045837402,
      "learning_rate": 0.00029393076160976915,
      "loss": 4.1308,
      "step": 45430
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.9717960953712463,
      "learning_rate": 0.0002939279853491982,
      "loss": 4.0938,
      "step": 45440
    },
    {
      "epoch": 0.0946875,
      "grad_norm": 0.9286265969276428,
      "learning_rate": 0.0002939252084669154,
      "loss": 4.2252,
      "step": 45450
    },
    {
      "epoch": 0.09470833333333334,
      "grad_norm": 0.9142473936080933,
      "learning_rate": 0.00029392243096293267,
      "loss": 4.2091,
      "step": 45460
    },
    {
      "epoch": 0.09472916666666667,
      "grad_norm": 0.932738721370697,
      "learning_rate": 0.00029391965283726197,
      "loss": 4.2242,
      "step": 45470
    },
    {
      "epoch": 0.09475,
      "grad_norm": 0.9438379406929016,
      "learning_rate": 0.0002939168740899153,
      "loss": 4.1242,
      "step": 45480
    },
    {
      "epoch": 0.09477083333333333,
      "grad_norm": 0.8585619330406189,
      "learning_rate": 0.0002939140947209048,
      "loss": 4.1533,
      "step": 45490
    },
    {
      "epoch": 0.09479166666666666,
      "grad_norm": 0.9053080677986145,
      "learning_rate": 0.0002939113147302423,
      "loss": 4.2085,
      "step": 45500
    },
    {
      "epoch": 0.0948125,
      "grad_norm": 0.8792043328285217,
      "learning_rate": 0.00029390853411793993,
      "loss": 4.1536,
      "step": 45510
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 0.9656953811645508,
      "learning_rate": 0.00029390575288400965,
      "loss": 4.3918,
      "step": 45520
    },
    {
      "epoch": 0.09485416666666667,
      "grad_norm": 1.0518684387207031,
      "learning_rate": 0.00029390297102846344,
      "loss": 4.0425,
      "step": 45530
    },
    {
      "epoch": 0.094875,
      "grad_norm": 0.9649809002876282,
      "learning_rate": 0.0002939001885513134,
      "loss": 4.2162,
      "step": 45540
    },
    {
      "epoch": 0.09489583333333333,
      "grad_norm": 0.9609939455986023,
      "learning_rate": 0.00029389740545257147,
      "loss": 4.1558,
      "step": 45550
    },
    {
      "epoch": 0.09491666666666666,
      "grad_norm": 0.8980010747909546,
      "learning_rate": 0.0002938946217322498,
      "loss": 4.2751,
      "step": 45560
    },
    {
      "epoch": 0.0949375,
      "grad_norm": 0.911041796207428,
      "learning_rate": 0.0002938918373903602,
      "loss": 4.1229,
      "step": 45570
    },
    {
      "epoch": 0.09495833333333334,
      "grad_norm": 0.8834095597267151,
      "learning_rate": 0.00029388905242691484,
      "loss": 4.1518,
      "step": 45580
    },
    {
      "epoch": 0.09497916666666667,
      "grad_norm": 0.9282016754150391,
      "learning_rate": 0.00029388626684192576,
      "loss": 4.2018,
      "step": 45590
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.8679910898208618,
      "learning_rate": 0.00029388348063540495,
      "loss": 4.1861,
      "step": 45600
    },
    {
      "epoch": 0.09502083333333333,
      "grad_norm": 1.012017011642456,
      "learning_rate": 0.0002938806938073645,
      "loss": 4.2144,
      "step": 45610
    },
    {
      "epoch": 0.09504166666666666,
      "grad_norm": 1.0021207332611084,
      "learning_rate": 0.0002938779063578164,
      "loss": 4.1133,
      "step": 45620
    },
    {
      "epoch": 0.0950625,
      "grad_norm": 0.9460553526878357,
      "learning_rate": 0.0002938751182867726,
      "loss": 4.2613,
      "step": 45630
    },
    {
      "epoch": 0.09508333333333334,
      "grad_norm": 0.9046502709388733,
      "learning_rate": 0.00029387232959424527,
      "loss": 4.1289,
      "step": 45640
    },
    {
      "epoch": 0.09510416666666667,
      "grad_norm": 0.9600445032119751,
      "learning_rate": 0.00029386954028024653,
      "loss": 4.1849,
      "step": 45650
    },
    {
      "epoch": 0.095125,
      "grad_norm": 0.901185929775238,
      "learning_rate": 0.0002938667503447882,
      "loss": 4.1803,
      "step": 45660
    },
    {
      "epoch": 0.09514583333333333,
      "grad_norm": 0.9594182968139648,
      "learning_rate": 0.00029386395978788253,
      "loss": 4.2308,
      "step": 45670
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 0.9454330205917358,
      "learning_rate": 0.00029386116860954145,
      "loss": 4.0326,
      "step": 45680
    },
    {
      "epoch": 0.0951875,
      "grad_norm": 0.9217234253883362,
      "learning_rate": 0.0002938583768097771,
      "loss": 4.0515,
      "step": 45690
    },
    {
      "epoch": 0.09520833333333334,
      "grad_norm": 1.591413974761963,
      "learning_rate": 0.0002938555843886015,
      "loss": 4.1395,
      "step": 45700
    },
    {
      "epoch": 0.09522916666666667,
      "grad_norm": 0.958693265914917,
      "learning_rate": 0.00029385279134602673,
      "loss": 4.2458,
      "step": 45710
    },
    {
      "epoch": 0.09525,
      "grad_norm": 0.992920994758606,
      "learning_rate": 0.0002938499976820648,
      "loss": 4.2329,
      "step": 45720
    },
    {
      "epoch": 0.09527083333333333,
      "grad_norm": 1.018113136291504,
      "learning_rate": 0.0002938472033967278,
      "loss": 4.2069,
      "step": 45730
    },
    {
      "epoch": 0.09529166666666666,
      "grad_norm": 0.921026885509491,
      "learning_rate": 0.0002938444084900279,
      "loss": 4.2665,
      "step": 45740
    },
    {
      "epoch": 0.0953125,
      "grad_norm": 0.9315146207809448,
      "learning_rate": 0.00029384161296197705,
      "loss": 4.3261,
      "step": 45750
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 0.9726946353912354,
      "learning_rate": 0.0002938388168125874,
      "loss": 3.9377,
      "step": 45760
    },
    {
      "epoch": 0.09535416666666667,
      "grad_norm": 0.9379271268844604,
      "learning_rate": 0.00029383602004187095,
      "loss": 4.0356,
      "step": 45770
    },
    {
      "epoch": 0.095375,
      "grad_norm": 0.962230384349823,
      "learning_rate": 0.0002938332226498398,
      "loss": 4.1535,
      "step": 45780
    },
    {
      "epoch": 0.09539583333333333,
      "grad_norm": 0.9372663497924805,
      "learning_rate": 0.00029383042463650616,
      "loss": 4.4954,
      "step": 45790
    },
    {
      "epoch": 0.09541666666666666,
      "grad_norm": 0.8795472979545593,
      "learning_rate": 0.000293827626001882,
      "loss": 4.1892,
      "step": 45800
    },
    {
      "epoch": 0.0954375,
      "grad_norm": 0.8580760359764099,
      "learning_rate": 0.00029382482674597933,
      "loss": 4.1177,
      "step": 45810
    },
    {
      "epoch": 0.09545833333333334,
      "grad_norm": 0.9781355857849121,
      "learning_rate": 0.00029382202686881046,
      "loss": 4.2183,
      "step": 45820
    },
    {
      "epoch": 0.09547916666666667,
      "grad_norm": 0.9177583456039429,
      "learning_rate": 0.0002938192263703873,
      "loss": 4.3654,
      "step": 45830
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.9789029359817505,
      "learning_rate": 0.00029381642525072197,
      "loss": 4.3029,
      "step": 45840
    },
    {
      "epoch": 0.09552083333333333,
      "grad_norm": 0.9534980654716492,
      "learning_rate": 0.0002938136235098267,
      "loss": 4.0809,
      "step": 45850
    },
    {
      "epoch": 0.09554166666666666,
      "grad_norm": 0.9176357388496399,
      "learning_rate": 0.00029381082114771345,
      "loss": 4.2166,
      "step": 45860
    },
    {
      "epoch": 0.0955625,
      "grad_norm": 0.9122928380966187,
      "learning_rate": 0.00029380801816439436,
      "loss": 4.4092,
      "step": 45870
    },
    {
      "epoch": 0.09558333333333334,
      "grad_norm": 0.9499520063400269,
      "learning_rate": 0.00029380521455988164,
      "loss": 4.1115,
      "step": 45880
    },
    {
      "epoch": 0.09560416666666667,
      "grad_norm": 0.9321439862251282,
      "learning_rate": 0.0002938024103341872,
      "loss": 4.3092,
      "step": 45890
    },
    {
      "epoch": 0.095625,
      "grad_norm": 0.9900656342506409,
      "learning_rate": 0.00029379960548732334,
      "loss": 4.329,
      "step": 45900
    },
    {
      "epoch": 0.09564583333333333,
      "grad_norm": 0.9549494981765747,
      "learning_rate": 0.0002937968000193021,
      "loss": 4.342,
      "step": 45910
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 1.1924163103103638,
      "learning_rate": 0.00029379399393013555,
      "loss": 4.05,
      "step": 45920
    },
    {
      "epoch": 0.0956875,
      "grad_norm": 0.9474888443946838,
      "learning_rate": 0.0002937911872198359,
      "loss": 4.2443,
      "step": 45930
    },
    {
      "epoch": 0.09570833333333334,
      "grad_norm": 0.9067613482475281,
      "learning_rate": 0.0002937883798884152,
      "loss": 4.4113,
      "step": 45940
    },
    {
      "epoch": 0.09572916666666667,
      "grad_norm": 1.0112402439117432,
      "learning_rate": 0.0002937855719358857,
      "loss": 4.0612,
      "step": 45950
    },
    {
      "epoch": 0.09575,
      "grad_norm": 1.0114781856536865,
      "learning_rate": 0.0002937827633622594,
      "loss": 4.1612,
      "step": 45960
    },
    {
      "epoch": 0.09577083333333333,
      "grad_norm": 0.9669390320777893,
      "learning_rate": 0.0002937799541675485,
      "loss": 4.1694,
      "step": 45970
    },
    {
      "epoch": 0.09579166666666666,
      "grad_norm": 0.8989772796630859,
      "learning_rate": 0.00029377714435176503,
      "loss": 4.4421,
      "step": 45980
    },
    {
      "epoch": 0.0958125,
      "grad_norm": 0.9836419820785522,
      "learning_rate": 0.0002937743339149213,
      "loss": 4.1653,
      "step": 45990
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 0.9487826824188232,
      "learning_rate": 0.00029377152285702934,
      "loss": 4.2411,
      "step": 46000
    },
    {
      "epoch": 0.09583333333333334,
      "eval_loss": 3.9289557933807373,
      "eval_runtime": 7.2121,
      "eval_samples_per_second": 1.387,
      "eval_steps_per_second": 0.416,
      "step": 46000
    },
    {
      "epoch": 0.09585416666666667,
      "grad_norm": 0.9251492619514465,
      "learning_rate": 0.00029376871117810124,
      "loss": 4.2612,
      "step": 46010
    },
    {
      "epoch": 0.095875,
      "grad_norm": 0.8878839015960693,
      "learning_rate": 0.0002937658988781493,
      "loss": 4.2651,
      "step": 46020
    },
    {
      "epoch": 0.09589583333333333,
      "grad_norm": 0.9856587648391724,
      "learning_rate": 0.00029376308595718554,
      "loss": 4.3034,
      "step": 46030
    },
    {
      "epoch": 0.09591666666666666,
      "grad_norm": 0.8401545286178589,
      "learning_rate": 0.00029376027241522217,
      "loss": 4.273,
      "step": 46040
    },
    {
      "epoch": 0.0959375,
      "grad_norm": 0.8979247808456421,
      "learning_rate": 0.0002937574582522713,
      "loss": 4.0161,
      "step": 46050
    },
    {
      "epoch": 0.09595833333333334,
      "grad_norm": 0.9499868154525757,
      "learning_rate": 0.00029375464346834514,
      "loss": 4.2237,
      "step": 46060
    },
    {
      "epoch": 0.09597916666666667,
      "grad_norm": 0.9825515747070312,
      "learning_rate": 0.00029375182806345583,
      "loss": 3.9449,
      "step": 46070
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.9241191148757935,
      "learning_rate": 0.0002937490120376155,
      "loss": 4.1332,
      "step": 46080
    },
    {
      "epoch": 0.09602083333333333,
      "grad_norm": 0.9867068529129028,
      "learning_rate": 0.0002937461953908363,
      "loss": 4.4109,
      "step": 46090
    },
    {
      "epoch": 0.09604166666666666,
      "grad_norm": 1.05398690700531,
      "learning_rate": 0.00029374337812313047,
      "loss": 4.1776,
      "step": 46100
    },
    {
      "epoch": 0.0960625,
      "grad_norm": 0.8611922264099121,
      "learning_rate": 0.00029374056023451017,
      "loss": 4.1818,
      "step": 46110
    },
    {
      "epoch": 0.09608333333333334,
      "grad_norm": 0.9776962995529175,
      "learning_rate": 0.00029373774172498755,
      "loss": 4.2018,
      "step": 46120
    },
    {
      "epoch": 0.09610416666666667,
      "grad_norm": 0.9202987551689148,
      "learning_rate": 0.00029373492259457477,
      "loss": 4.0839,
      "step": 46130
    },
    {
      "epoch": 0.096125,
      "grad_norm": 0.9686569571495056,
      "learning_rate": 0.000293732102843284,
      "loss": 4.1519,
      "step": 46140
    },
    {
      "epoch": 0.09614583333333333,
      "grad_norm": 0.8405991196632385,
      "learning_rate": 0.0002937292824711275,
      "loss": 4.1208,
      "step": 46150
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 1.073779582977295,
      "learning_rate": 0.0002937264614781173,
      "loss": 4.3472,
      "step": 46160
    },
    {
      "epoch": 0.0961875,
      "grad_norm": 0.9146119356155396,
      "learning_rate": 0.0002937236398642657,
      "loss": 4.2603,
      "step": 46170
    },
    {
      "epoch": 0.09620833333333334,
      "grad_norm": 1.0046625137329102,
      "learning_rate": 0.0002937208176295849,
      "loss": 4.2845,
      "step": 46180
    },
    {
      "epoch": 0.09622916666666667,
      "grad_norm": 0.9329134225845337,
      "learning_rate": 0.00029371799477408703,
      "loss": 4.1292,
      "step": 46190
    },
    {
      "epoch": 0.09625,
      "grad_norm": 1.206190586090088,
      "learning_rate": 0.00029371517129778434,
      "loss": 4.2181,
      "step": 46200
    },
    {
      "epoch": 0.09627083333333333,
      "grad_norm": 0.9141338467597961,
      "learning_rate": 0.00029371234720068894,
      "loss": 4.1008,
      "step": 46210
    },
    {
      "epoch": 0.09629166666666666,
      "grad_norm": 0.9088239073753357,
      "learning_rate": 0.00029370952248281316,
      "loss": 4.2138,
      "step": 46220
    },
    {
      "epoch": 0.0963125,
      "grad_norm": 0.9115374684333801,
      "learning_rate": 0.0002937066971441691,
      "loss": 3.9612,
      "step": 46230
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 0.9265745878219604,
      "learning_rate": 0.00029370387118476894,
      "loss": 4.2,
      "step": 46240
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 0.9630485773086548,
      "learning_rate": 0.000293701044604625,
      "loss": 4.2129,
      "step": 46250
    },
    {
      "epoch": 0.096375,
      "grad_norm": 0.9469419717788696,
      "learning_rate": 0.0002936982174037494,
      "loss": 4.1597,
      "step": 46260
    },
    {
      "epoch": 0.09639583333333333,
      "grad_norm": 0.9869153499603271,
      "learning_rate": 0.00029369538958215436,
      "loss": 4.1777,
      "step": 46270
    },
    {
      "epoch": 0.09641666666666666,
      "grad_norm": 0.9303188323974609,
      "learning_rate": 0.00029369256113985216,
      "loss": 4.1556,
      "step": 46280
    },
    {
      "epoch": 0.0964375,
      "grad_norm": 1.078484296798706,
      "learning_rate": 0.00029368973207685495,
      "loss": 4.2523,
      "step": 46290
    },
    {
      "epoch": 0.09645833333333333,
      "grad_norm": 0.9661197662353516,
      "learning_rate": 0.000293686902393175,
      "loss": 4.3756,
      "step": 46300
    },
    {
      "epoch": 0.09647916666666667,
      "grad_norm": 0.9255445599555969,
      "learning_rate": 0.0002936840720888245,
      "loss": 4.1961,
      "step": 46310
    },
    {
      "epoch": 0.0965,
      "grad_norm": 1.042669653892517,
      "learning_rate": 0.00029368124116381565,
      "loss": 4.3068,
      "step": 46320
    },
    {
      "epoch": 0.09652083333333333,
      "grad_norm": 0.8960346579551697,
      "learning_rate": 0.0002936784096181607,
      "loss": 4.1346,
      "step": 46330
    },
    {
      "epoch": 0.09654166666666666,
      "grad_norm": 1.2248293161392212,
      "learning_rate": 0.00029367557745187193,
      "loss": 4.1612,
      "step": 46340
    },
    {
      "epoch": 0.0965625,
      "grad_norm": 0.889024555683136,
      "learning_rate": 0.00029367274466496156,
      "loss": 4.308,
      "step": 46350
    },
    {
      "epoch": 0.09658333333333333,
      "grad_norm": 0.9609644412994385,
      "learning_rate": 0.0002936699112574418,
      "loss": 4.034,
      "step": 46360
    },
    {
      "epoch": 0.09660416666666667,
      "grad_norm": 0.944697916507721,
      "learning_rate": 0.00029366707722932483,
      "loss": 4.2219,
      "step": 46370
    },
    {
      "epoch": 0.096625,
      "grad_norm": 0.9179587960243225,
      "learning_rate": 0.000293664242580623,
      "loss": 4.2002,
      "step": 46380
    },
    {
      "epoch": 0.09664583333333333,
      "grad_norm": 0.9558373093605042,
      "learning_rate": 0.00029366140731134846,
      "loss": 4.0576,
      "step": 46390
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.9459199905395508,
      "learning_rate": 0.00029365857142151354,
      "loss": 4.0337,
      "step": 46400
    },
    {
      "epoch": 0.0966875,
      "grad_norm": 0.884138286113739,
      "learning_rate": 0.00029365573491113047,
      "loss": 4.0039,
      "step": 46410
    },
    {
      "epoch": 0.09670833333333333,
      "grad_norm": 0.8884455561637878,
      "learning_rate": 0.0002936528977802115,
      "loss": 4.095,
      "step": 46420
    },
    {
      "epoch": 0.09672916666666667,
      "grad_norm": 1.0429238080978394,
      "learning_rate": 0.0002936500600287688,
      "loss": 4.2856,
      "step": 46430
    },
    {
      "epoch": 0.09675,
      "grad_norm": 0.8478776812553406,
      "learning_rate": 0.00029364722165681477,
      "loss": 4.1999,
      "step": 46440
    },
    {
      "epoch": 0.09677083333333333,
      "grad_norm": 0.9619649052619934,
      "learning_rate": 0.0002936443826643616,
      "loss": 4.2491,
      "step": 46450
    },
    {
      "epoch": 0.09679166666666666,
      "grad_norm": 1.0007518529891968,
      "learning_rate": 0.0002936415430514215,
      "loss": 4.1304,
      "step": 46460
    },
    {
      "epoch": 0.0968125,
      "grad_norm": 0.925723671913147,
      "learning_rate": 0.00029363870281800685,
      "loss": 4.3156,
      "step": 46470
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 1.0045874118804932,
      "learning_rate": 0.00029363586196412984,
      "loss": 4.2774,
      "step": 46480
    },
    {
      "epoch": 0.09685416666666667,
      "grad_norm": 0.9570969343185425,
      "learning_rate": 0.00029363302048980274,
      "loss": 4.2268,
      "step": 46490
    },
    {
      "epoch": 0.096875,
      "grad_norm": 0.9154545664787292,
      "learning_rate": 0.0002936301783950379,
      "loss": 4.3586,
      "step": 46500
    },
    {
      "epoch": 0.09689583333333333,
      "grad_norm": 0.89566570520401,
      "learning_rate": 0.0002936273356798475,
      "loss": 4.1933,
      "step": 46510
    },
    {
      "epoch": 0.09691666666666666,
      "grad_norm": 0.8461413383483887,
      "learning_rate": 0.00029362449234424386,
      "loss": 4.1721,
      "step": 46520
    },
    {
      "epoch": 0.0969375,
      "grad_norm": 0.8776493668556213,
      "learning_rate": 0.0002936216483882393,
      "loss": 4.2501,
      "step": 46530
    },
    {
      "epoch": 0.09695833333333333,
      "grad_norm": 0.8787124156951904,
      "learning_rate": 0.000293618803811846,
      "loss": 4.2756,
      "step": 46540
    },
    {
      "epoch": 0.09697916666666667,
      "grad_norm": 0.9774718284606934,
      "learning_rate": 0.00029361595861507637,
      "loss": 4.3724,
      "step": 46550
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.9214889407157898,
      "learning_rate": 0.0002936131127979426,
      "loss": 4.1192,
      "step": 46560
    },
    {
      "epoch": 0.09702083333333333,
      "grad_norm": 0.966297447681427,
      "learning_rate": 0.0002936102663604571,
      "loss": 4.4917,
      "step": 46570
    },
    {
      "epoch": 0.09704166666666666,
      "grad_norm": 0.8999664783477783,
      "learning_rate": 0.0002936074193026321,
      "loss": 4.3109,
      "step": 46580
    },
    {
      "epoch": 0.0970625,
      "grad_norm": 0.8728857040405273,
      "learning_rate": 0.0002936045716244798,
      "loss": 4.2368,
      "step": 46590
    },
    {
      "epoch": 0.09708333333333333,
      "grad_norm": 0.9008582234382629,
      "learning_rate": 0.00029360172332601264,
      "loss": 4.2935,
      "step": 46600
    },
    {
      "epoch": 0.09710416666666667,
      "grad_norm": 0.8570348620414734,
      "learning_rate": 0.0002935988744072429,
      "loss": 4.1855,
      "step": 46610
    },
    {
      "epoch": 0.097125,
      "grad_norm": 1.002026081085205,
      "learning_rate": 0.00029359602486818284,
      "loss": 4.1056,
      "step": 46620
    },
    {
      "epoch": 0.09714583333333333,
      "grad_norm": 0.9063096046447754,
      "learning_rate": 0.00029359317470884476,
      "loss": 4.2256,
      "step": 46630
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 0.9682418704032898,
      "learning_rate": 0.00029359032392924106,
      "loss": 4.0261,
      "step": 46640
    },
    {
      "epoch": 0.0971875,
      "grad_norm": 0.9273235201835632,
      "learning_rate": 0.00029358747252938394,
      "loss": 4.4318,
      "step": 46650
    },
    {
      "epoch": 0.09720833333333333,
      "grad_norm": 0.902877926826477,
      "learning_rate": 0.0002935846205092858,
      "loss": 4.273,
      "step": 46660
    },
    {
      "epoch": 0.09722916666666667,
      "grad_norm": 0.8841922283172607,
      "learning_rate": 0.00029358176786895896,
      "loss": 3.9674,
      "step": 46670
    },
    {
      "epoch": 0.09725,
      "grad_norm": 0.9353026151657104,
      "learning_rate": 0.0002935789146084157,
      "loss": 3.9481,
      "step": 46680
    },
    {
      "epoch": 0.09727083333333333,
      "grad_norm": 0.8926066756248474,
      "learning_rate": 0.0002935760607276684,
      "loss": 4.1091,
      "step": 46690
    },
    {
      "epoch": 0.09729166666666667,
      "grad_norm": 1.0475267171859741,
      "learning_rate": 0.00029357320622672926,
      "loss": 4.1624,
      "step": 46700
    },
    {
      "epoch": 0.0973125,
      "grad_norm": 0.8519569635391235,
      "learning_rate": 0.0002935703511056108,
      "loss": 4.2533,
      "step": 46710
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.9079331755638123,
      "learning_rate": 0.00029356749536432514,
      "loss": 4.3115,
      "step": 46720
    },
    {
      "epoch": 0.09735416666666667,
      "grad_norm": 0.8956366777420044,
      "learning_rate": 0.0002935646390028848,
      "loss": 4.07,
      "step": 46730
    },
    {
      "epoch": 0.097375,
      "grad_norm": 0.8988012075424194,
      "learning_rate": 0.00029356178202130206,
      "loss": 4.1343,
      "step": 46740
    },
    {
      "epoch": 0.09739583333333333,
      "grad_norm": 0.9086334109306335,
      "learning_rate": 0.00029355892441958924,
      "loss": 4.3951,
      "step": 46750
    },
    {
      "epoch": 0.09741666666666667,
      "grad_norm": 0.9180395603179932,
      "learning_rate": 0.00029355606619775864,
      "loss": 4.1353,
      "step": 46760
    },
    {
      "epoch": 0.0974375,
      "grad_norm": 0.9120499491691589,
      "learning_rate": 0.00029355320735582267,
      "loss": 4.2652,
      "step": 46770
    },
    {
      "epoch": 0.09745833333333333,
      "grad_norm": 0.9964758157730103,
      "learning_rate": 0.00029355034789379375,
      "loss": 4.3479,
      "step": 46780
    },
    {
      "epoch": 0.09747916666666667,
      "grad_norm": 0.9033579230308533,
      "learning_rate": 0.00029354748781168407,
      "loss": 4.0042,
      "step": 46790
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.8704488277435303,
      "learning_rate": 0.00029354462710950605,
      "loss": 4.3385,
      "step": 46800
    },
    {
      "epoch": 0.09752083333333333,
      "grad_norm": 0.9883800148963928,
      "learning_rate": 0.0002935417657872721,
      "loss": 4.1634,
      "step": 46810
    },
    {
      "epoch": 0.09754166666666667,
      "grad_norm": 0.8675726652145386,
      "learning_rate": 0.00029353890384499454,
      "loss": 4.1943,
      "step": 46820
    },
    {
      "epoch": 0.0975625,
      "grad_norm": 0.9967585802078247,
      "learning_rate": 0.0002935360412826857,
      "loss": 4.1197,
      "step": 46830
    },
    {
      "epoch": 0.09758333333333333,
      "grad_norm": 1.0901459455490112,
      "learning_rate": 0.000293533178100358,
      "loss": 4.3493,
      "step": 46840
    },
    {
      "epoch": 0.09760416666666667,
      "grad_norm": 0.9159572124481201,
      "learning_rate": 0.00029353031429802377,
      "loss": 4.0039,
      "step": 46850
    },
    {
      "epoch": 0.097625,
      "grad_norm": 1.0327762365341187,
      "learning_rate": 0.0002935274498756954,
      "loss": 4.2528,
      "step": 46860
    },
    {
      "epoch": 0.09764583333333333,
      "grad_norm": 1.1347229480743408,
      "learning_rate": 0.0002935245848333853,
      "loss": 4.1817,
      "step": 46870
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 0.9182952046394348,
      "learning_rate": 0.0002935217191711058,
      "loss": 4.2269,
      "step": 46880
    },
    {
      "epoch": 0.0976875,
      "grad_norm": 0.9720931649208069,
      "learning_rate": 0.0002935188528888692,
      "loss": 4.1995,
      "step": 46890
    },
    {
      "epoch": 0.09770833333333333,
      "grad_norm": 0.9986420273780823,
      "learning_rate": 0.000293515985986688,
      "loss": 4.3641,
      "step": 46900
    },
    {
      "epoch": 0.09772916666666667,
      "grad_norm": 0.9762348532676697,
      "learning_rate": 0.0002935131184645746,
      "loss": 4.113,
      "step": 46910
    },
    {
      "epoch": 0.09775,
      "grad_norm": 0.9523972272872925,
      "learning_rate": 0.00029351025032254126,
      "loss": 4.0864,
      "step": 46920
    },
    {
      "epoch": 0.09777083333333333,
      "grad_norm": 0.9220383763313293,
      "learning_rate": 0.00029350738156060053,
      "loss": 4.0485,
      "step": 46930
    },
    {
      "epoch": 0.09779166666666667,
      "grad_norm": 0.9888911247253418,
      "learning_rate": 0.00029350451217876466,
      "loss": 4.1878,
      "step": 46940
    },
    {
      "epoch": 0.0978125,
      "grad_norm": 0.9844357967376709,
      "learning_rate": 0.0002935016421770461,
      "loss": 4.3863,
      "step": 46950
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 0.979482889175415,
      "learning_rate": 0.0002934987715554573,
      "loss": 3.9663,
      "step": 46960
    },
    {
      "epoch": 0.09785416666666667,
      "grad_norm": 0.9230818152427673,
      "learning_rate": 0.0002934959003140105,
      "loss": 4.148,
      "step": 46970
    },
    {
      "epoch": 0.097875,
      "grad_norm": 0.8884503841400146,
      "learning_rate": 0.0002934930284527183,
      "loss": 4.4579,
      "step": 46980
    },
    {
      "epoch": 0.09789583333333333,
      "grad_norm": 0.966934859752655,
      "learning_rate": 0.000293490155971593,
      "loss": 4.1476,
      "step": 46990
    },
    {
      "epoch": 0.09791666666666667,
      "grad_norm": 0.986762285232544,
      "learning_rate": 0.00029348728287064704,
      "loss": 4.1393,
      "step": 47000
    },
    {
      "epoch": 0.09791666666666667,
      "eval_loss": 3.931624174118042,
      "eval_runtime": 7.1596,
      "eval_samples_per_second": 1.397,
      "eval_steps_per_second": 0.419,
      "step": 47000
    },
    {
      "epoch": 0.0979375,
      "grad_norm": 0.9225101470947266,
      "learning_rate": 0.00029348440914989273,
      "loss": 4.3301,
      "step": 47010
    },
    {
      "epoch": 0.09795833333333333,
      "grad_norm": 0.9772090911865234,
      "learning_rate": 0.00029348153480934265,
      "loss": 4.3224,
      "step": 47020
    },
    {
      "epoch": 0.09797916666666667,
      "grad_norm": 0.8484764695167542,
      "learning_rate": 0.0002934786598490091,
      "loss": 4.294,
      "step": 47030
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.9073203802108765,
      "learning_rate": 0.00029347578426890456,
      "loss": 4.147,
      "step": 47040
    },
    {
      "epoch": 0.09802083333333333,
      "grad_norm": 0.9787366390228271,
      "learning_rate": 0.00029347290806904143,
      "loss": 4.0527,
      "step": 47050
    },
    {
      "epoch": 0.09804166666666667,
      "grad_norm": 2.0704562664031982,
      "learning_rate": 0.00029347003124943207,
      "loss": 4.2485,
      "step": 47060
    },
    {
      "epoch": 0.0980625,
      "grad_norm": 0.9636169672012329,
      "learning_rate": 0.000293467153810089,
      "loss": 4.1194,
      "step": 47070
    },
    {
      "epoch": 0.09808333333333333,
      "grad_norm": 0.9110299944877625,
      "learning_rate": 0.0002934642757510246,
      "loss": 4.225,
      "step": 47080
    },
    {
      "epoch": 0.09810416666666667,
      "grad_norm": 1.1702879667282104,
      "learning_rate": 0.00029346139707225134,
      "loss": 4.1118,
      "step": 47090
    },
    {
      "epoch": 0.098125,
      "grad_norm": 0.9932120442390442,
      "learning_rate": 0.0002934585177737816,
      "loss": 4.2736,
      "step": 47100
    },
    {
      "epoch": 0.09814583333333333,
      "grad_norm": 0.8852713704109192,
      "learning_rate": 0.0002934556378556279,
      "loss": 4.3766,
      "step": 47110
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 0.8810230493545532,
      "learning_rate": 0.0002934527573178026,
      "loss": 4.2352,
      "step": 47120
    },
    {
      "epoch": 0.0981875,
      "grad_norm": 0.9264628887176514,
      "learning_rate": 0.00029344987616031817,
      "loss": 4.3788,
      "step": 47130
    },
    {
      "epoch": 0.09820833333333333,
      "grad_norm": 0.8900508284568787,
      "learning_rate": 0.000293446994383187,
      "loss": 4.2692,
      "step": 47140
    },
    {
      "epoch": 0.09822916666666667,
      "grad_norm": 0.9213281869888306,
      "learning_rate": 0.0002934441119864217,
      "loss": 4.2898,
      "step": 47150
    },
    {
      "epoch": 0.09825,
      "grad_norm": 0.9058245420455933,
      "learning_rate": 0.0002934412289700345,
      "loss": 4.1552,
      "step": 47160
    },
    {
      "epoch": 0.09827083333333334,
      "grad_norm": 0.8800458908081055,
      "learning_rate": 0.00029343834533403804,
      "loss": 4.1437,
      "step": 47170
    },
    {
      "epoch": 0.09829166666666667,
      "grad_norm": 0.9429959654808044,
      "learning_rate": 0.0002934354610784447,
      "loss": 4.2188,
      "step": 47180
    },
    {
      "epoch": 0.0983125,
      "grad_norm": 0.8497955203056335,
      "learning_rate": 0.00029343257620326695,
      "loss": 4.4241,
      "step": 47190
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.9850050806999207,
      "learning_rate": 0.0002934296907085173,
      "loss": 4.3636,
      "step": 47200
    },
    {
      "epoch": 0.09835416666666667,
      "grad_norm": 0.8552019596099854,
      "learning_rate": 0.00029342680459420805,
      "loss": 4.0636,
      "step": 47210
    },
    {
      "epoch": 0.098375,
      "grad_norm": 1.0078166723251343,
      "learning_rate": 0.0002934239178603518,
      "loss": 4.1331,
      "step": 47220
    },
    {
      "epoch": 0.09839583333333334,
      "grad_norm": 0.9605247974395752,
      "learning_rate": 0.00029342103050696103,
      "loss": 4.1165,
      "step": 47230
    },
    {
      "epoch": 0.09841666666666667,
      "grad_norm": 1.0438449382781982,
      "learning_rate": 0.0002934181425340482,
      "loss": 4.1814,
      "step": 47240
    },
    {
      "epoch": 0.0984375,
      "grad_norm": 0.9099363088607788,
      "learning_rate": 0.0002934152539416257,
      "loss": 4.1678,
      "step": 47250
    },
    {
      "epoch": 0.09845833333333333,
      "grad_norm": 0.9489351511001587,
      "learning_rate": 0.0002934123647297061,
      "loss": 4.3347,
      "step": 47260
    },
    {
      "epoch": 0.09847916666666667,
      "grad_norm": 0.9871454834938049,
      "learning_rate": 0.00029340947489830184,
      "loss": 4.1388,
      "step": 47270
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.9400918483734131,
      "learning_rate": 0.0002934065844474254,
      "loss": 4.3438,
      "step": 47280
    },
    {
      "epoch": 0.09852083333333334,
      "grad_norm": 0.9888361096382141,
      "learning_rate": 0.00029340369337708933,
      "loss": 4.1223,
      "step": 47290
    },
    {
      "epoch": 0.09854166666666667,
      "grad_norm": 0.9785279631614685,
      "learning_rate": 0.00029340080168730603,
      "loss": 4.2636,
      "step": 47300
    },
    {
      "epoch": 0.0985625,
      "grad_norm": 0.9090834259986877,
      "learning_rate": 0.00029339790937808806,
      "loss": 4.218,
      "step": 47310
    },
    {
      "epoch": 0.09858333333333333,
      "grad_norm": 0.9817654490470886,
      "learning_rate": 0.0002933950164494479,
      "loss": 4.0751,
      "step": 47320
    },
    {
      "epoch": 0.09860416666666667,
      "grad_norm": 0.901646077632904,
      "learning_rate": 0.00029339212290139795,
      "loss": 4.3505,
      "step": 47330
    },
    {
      "epoch": 0.098625,
      "grad_norm": 0.9029677510261536,
      "learning_rate": 0.0002933892287339508,
      "loss": 4.2371,
      "step": 47340
    },
    {
      "epoch": 0.09864583333333334,
      "grad_norm": 0.9163321256637573,
      "learning_rate": 0.00029338633394711895,
      "loss": 4.307,
      "step": 47350
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.9696162939071655,
      "learning_rate": 0.00029338343854091493,
      "loss": 4.214,
      "step": 47360
    },
    {
      "epoch": 0.0986875,
      "grad_norm": 0.8649154305458069,
      "learning_rate": 0.0002933805425153512,
      "loss": 4.1579,
      "step": 47370
    },
    {
      "epoch": 0.09870833333333333,
      "grad_norm": 0.9104079604148865,
      "learning_rate": 0.0002933776458704403,
      "loss": 4.1997,
      "step": 47380
    },
    {
      "epoch": 0.09872916666666667,
      "grad_norm": 1.0444457530975342,
      "learning_rate": 0.0002933747486061947,
      "loss": 4.3635,
      "step": 47390
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.8296233415603638,
      "learning_rate": 0.0002933718507226269,
      "loss": 4.2522,
      "step": 47400
    },
    {
      "epoch": 0.09877083333333334,
      "grad_norm": 0.9469954371452332,
      "learning_rate": 0.00029336895221974946,
      "loss": 4.3795,
      "step": 47410
    },
    {
      "epoch": 0.09879166666666667,
      "grad_norm": 0.893398642539978,
      "learning_rate": 0.00029336605309757493,
      "loss": 4.095,
      "step": 47420
    },
    {
      "epoch": 0.0988125,
      "grad_norm": 0.8659230470657349,
      "learning_rate": 0.0002933631533561158,
      "loss": 4.1443,
      "step": 47430
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 1.0045082569122314,
      "learning_rate": 0.0002933602529953846,
      "loss": 4.3121,
      "step": 47440
    },
    {
      "epoch": 0.09885416666666667,
      "grad_norm": 1.6729583740234375,
      "learning_rate": 0.00029335735201539383,
      "loss": 4.153,
      "step": 47450
    },
    {
      "epoch": 0.098875,
      "grad_norm": 0.9119414687156677,
      "learning_rate": 0.0002933544504161561,
      "loss": 4.2185,
      "step": 47460
    },
    {
      "epoch": 0.09889583333333334,
      "grad_norm": 0.9654363989830017,
      "learning_rate": 0.0002933515481976838,
      "loss": 4.0209,
      "step": 47470
    },
    {
      "epoch": 0.09891666666666667,
      "grad_norm": 0.8742385506629944,
      "learning_rate": 0.0002933486453599896,
      "loss": 4.0407,
      "step": 47480
    },
    {
      "epoch": 0.0989375,
      "grad_norm": 0.9065158367156982,
      "learning_rate": 0.000293345741903086,
      "loss": 4.004,
      "step": 47490
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 0.9427654147148132,
      "learning_rate": 0.0002933428378269855,
      "loss": 4.217,
      "step": 47500
    },
    {
      "epoch": 0.09897916666666666,
      "grad_norm": 0.9385790824890137,
      "learning_rate": 0.00029333993313170075,
      "loss": 4.0659,
      "step": 47510
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.8524534702301025,
      "learning_rate": 0.00029333702781724413,
      "loss": 4.3788,
      "step": 47520
    },
    {
      "epoch": 0.09902083333333334,
      "grad_norm": 0.8899991512298584,
      "learning_rate": 0.0002933341218836284,
      "loss": 4.1429,
      "step": 47530
    },
    {
      "epoch": 0.09904166666666667,
      "grad_norm": 0.9162171483039856,
      "learning_rate": 0.0002933312153308659,
      "loss": 4.3253,
      "step": 47540
    },
    {
      "epoch": 0.0990625,
      "grad_norm": 0.7839316725730896,
      "learning_rate": 0.0002933283081589693,
      "loss": 4.0969,
      "step": 47550
    },
    {
      "epoch": 0.09908333333333333,
      "grad_norm": 0.8877319097518921,
      "learning_rate": 0.0002933254003679512,
      "loss": 4.3324,
      "step": 47560
    },
    {
      "epoch": 0.09910416666666666,
      "grad_norm": 0.9428927898406982,
      "learning_rate": 0.0002933224919578241,
      "loss": 4.3909,
      "step": 47570
    },
    {
      "epoch": 0.099125,
      "grad_norm": 0.9588202238082886,
      "learning_rate": 0.0002933195829286005,
      "loss": 4.0538,
      "step": 47580
    },
    {
      "epoch": 0.09914583333333334,
      "grad_norm": 0.8914040923118591,
      "learning_rate": 0.000293316673280293,
      "loss": 4.2015,
      "step": 47590
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 0.9363090395927429,
      "learning_rate": 0.0002933137630129143,
      "loss": 4.1157,
      "step": 47600
    },
    {
      "epoch": 0.0991875,
      "grad_norm": 0.9558222889900208,
      "learning_rate": 0.0002933108521264768,
      "loss": 4.2593,
      "step": 47610
    },
    {
      "epoch": 0.09920833333333333,
      "grad_norm": 0.902921199798584,
      "learning_rate": 0.00029330794062099323,
      "loss": 4.5002,
      "step": 47620
    },
    {
      "epoch": 0.09922916666666666,
      "grad_norm": 1.2710378170013428,
      "learning_rate": 0.000293305028496476,
      "loss": 4.2457,
      "step": 47630
    },
    {
      "epoch": 0.09925,
      "grad_norm": 0.9463383555412292,
      "learning_rate": 0.00029330211575293784,
      "loss": 4.067,
      "step": 47640
    },
    {
      "epoch": 0.09927083333333334,
      "grad_norm": 0.9198213815689087,
      "learning_rate": 0.00029329920239039124,
      "loss": 4.2085,
      "step": 47650
    },
    {
      "epoch": 0.09929166666666667,
      "grad_norm": 0.9064315557479858,
      "learning_rate": 0.00029329628840884874,
      "loss": 3.9515,
      "step": 47660
    },
    {
      "epoch": 0.0993125,
      "grad_norm": 1.0155127048492432,
      "learning_rate": 0.0002932933738083231,
      "loss": 4.2363,
      "step": 47670
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.9974907636642456,
      "learning_rate": 0.00029329045858882667,
      "loss": 4.0467,
      "step": 47680
    },
    {
      "epoch": 0.09935416666666666,
      "grad_norm": 0.8762521743774414,
      "learning_rate": 0.0002932875427503723,
      "loss": 4.279,
      "step": 47690
    },
    {
      "epoch": 0.099375,
      "grad_norm": 0.884654700756073,
      "learning_rate": 0.00029328462629297245,
      "loss": 4.1148,
      "step": 47700
    },
    {
      "epoch": 0.09939583333333334,
      "grad_norm": 1.1094485521316528,
      "learning_rate": 0.0002932817092166397,
      "loss": 4.1098,
      "step": 47710
    },
    {
      "epoch": 0.09941666666666667,
      "grad_norm": 0.9179441332817078,
      "learning_rate": 0.0002932787915213867,
      "loss": 4.2222,
      "step": 47720
    },
    {
      "epoch": 0.0994375,
      "grad_norm": 0.9452077150344849,
      "learning_rate": 0.000293275873207226,
      "loss": 4.3139,
      "step": 47730
    },
    {
      "epoch": 0.09945833333333333,
      "grad_norm": 0.9224483370780945,
      "learning_rate": 0.00029327295427417023,
      "loss": 4.1881,
      "step": 47740
    },
    {
      "epoch": 0.09947916666666666,
      "grad_norm": 0.9808123707771301,
      "learning_rate": 0.000293270034722232,
      "loss": 4.1346,
      "step": 47750
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.8831116557121277,
      "learning_rate": 0.000293267114551424,
      "loss": 4.2234,
      "step": 47760
    },
    {
      "epoch": 0.09952083333333334,
      "grad_norm": 0.9292439818382263,
      "learning_rate": 0.00029326419376175876,
      "loss": 4.2318,
      "step": 47770
    },
    {
      "epoch": 0.09954166666666667,
      "grad_norm": 0.9279528856277466,
      "learning_rate": 0.00029326127235324885,
      "loss": 4.2405,
      "step": 47780
    },
    {
      "epoch": 0.0995625,
      "grad_norm": 0.9277327656745911,
      "learning_rate": 0.000293258350325907,
      "loss": 4.2241,
      "step": 47790
    },
    {
      "epoch": 0.09958333333333333,
      "grad_norm": 0.9473313689231873,
      "learning_rate": 0.00029325542767974575,
      "loss": 4.1469,
      "step": 47800
    },
    {
      "epoch": 0.09960416666666666,
      "grad_norm": 0.9707610011100769,
      "learning_rate": 0.0002932525044147778,
      "loss": 4.136,
      "step": 47810
    },
    {
      "epoch": 0.099625,
      "grad_norm": 0.9104601144790649,
      "learning_rate": 0.0002932495805310157,
      "loss": 4.2203,
      "step": 47820
    },
    {
      "epoch": 0.09964583333333334,
      "grad_norm": 0.9086278080940247,
      "learning_rate": 0.00029324665602847215,
      "loss": 4.1613,
      "step": 47830
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 0.9210710525512695,
      "learning_rate": 0.0002932437309071597,
      "loss": 4.251,
      "step": 47840
    },
    {
      "epoch": 0.0996875,
      "grad_norm": 0.8612165451049805,
      "learning_rate": 0.0002932408051670911,
      "loss": 4.2753,
      "step": 47850
    },
    {
      "epoch": 0.09970833333333333,
      "grad_norm": 0.9066333174705505,
      "learning_rate": 0.00029323787880827887,
      "loss": 4.0902,
      "step": 47860
    },
    {
      "epoch": 0.09972916666666666,
      "grad_norm": 0.8696607947349548,
      "learning_rate": 0.0002932349518307357,
      "loss": 4.3016,
      "step": 47870
    },
    {
      "epoch": 0.09975,
      "grad_norm": 1.0187063217163086,
      "learning_rate": 0.0002932320242344743,
      "loss": 4.1903,
      "step": 47880
    },
    {
      "epoch": 0.09977083333333334,
      "grad_norm": 0.9961990714073181,
      "learning_rate": 0.00029322909601950717,
      "loss": 4.2428,
      "step": 47890
    },
    {
      "epoch": 0.09979166666666667,
      "grad_norm": 0.969104528427124,
      "learning_rate": 0.00029322616718584704,
      "loss": 4.0323,
      "step": 47900
    },
    {
      "epoch": 0.0998125,
      "grad_norm": 0.9387913346290588,
      "learning_rate": 0.0002932232377335066,
      "loss": 4.0992,
      "step": 47910
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 0.9242583513259888,
      "learning_rate": 0.0002932203076624984,
      "loss": 4.2347,
      "step": 47920
    },
    {
      "epoch": 0.09985416666666666,
      "grad_norm": 0.9950721263885498,
      "learning_rate": 0.00029321737697283524,
      "loss": 4.0884,
      "step": 47930
    },
    {
      "epoch": 0.099875,
      "grad_norm": 0.8868127465248108,
      "learning_rate": 0.00029321444566452967,
      "loss": 4.186,
      "step": 47940
    },
    {
      "epoch": 0.09989583333333334,
      "grad_norm": 0.9502804279327393,
      "learning_rate": 0.0002932115137375944,
      "loss": 4.0217,
      "step": 47950
    },
    {
      "epoch": 0.09991666666666667,
      "grad_norm": 0.917492687702179,
      "learning_rate": 0.00029320858119204207,
      "loss": 4.207,
      "step": 47960
    },
    {
      "epoch": 0.0999375,
      "grad_norm": 0.9304044246673584,
      "learning_rate": 0.0002932056480278853,
      "loss": 4.2117,
      "step": 47970
    },
    {
      "epoch": 0.09995833333333333,
      "grad_norm": 0.9666529893875122,
      "learning_rate": 0.0002932027142451369,
      "loss": 4.2241,
      "step": 47980
    },
    {
      "epoch": 0.09997916666666666,
      "grad_norm": 1.0728610754013062,
      "learning_rate": 0.00029319977984380944,
      "loss": 4.1992,
      "step": 47990
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.262750267982483,
      "learning_rate": 0.0002931968448239156,
      "loss": 4.2889,
      "step": 48000
    },
    {
      "epoch": 0.1,
      "eval_loss": 3.9284024238586426,
      "eval_runtime": 7.3174,
      "eval_samples_per_second": 1.367,
      "eval_steps_per_second": 0.41,
      "step": 48000
    },
    {
      "epoch": 0.10002083333333334,
      "grad_norm": 0.9481343030929565,
      "learning_rate": 0.00029319390918546804,
      "loss": 4.0618,
      "step": 48010
    },
    {
      "epoch": 0.10004166666666667,
      "grad_norm": 0.9226088523864746,
      "learning_rate": 0.0002931909729284795,
      "loss": 4.1294,
      "step": 48020
    },
    {
      "epoch": 0.1000625,
      "grad_norm": 0.9257215261459351,
      "learning_rate": 0.00029318803605296264,
      "loss": 4.1157,
      "step": 48030
    },
    {
      "epoch": 0.10008333333333333,
      "grad_norm": 0.8616682291030884,
      "learning_rate": 0.0002931850985589301,
      "loss": 4.298,
      "step": 48040
    },
    {
      "epoch": 0.10010416666666666,
      "grad_norm": 0.8704681992530823,
      "learning_rate": 0.00029318216044639463,
      "loss": 4.1611,
      "step": 48050
    },
    {
      "epoch": 0.100125,
      "grad_norm": 0.8935156464576721,
      "learning_rate": 0.00029317922171536896,
      "loss": 4.1616,
      "step": 48060
    },
    {
      "epoch": 0.10014583333333334,
      "grad_norm": 0.8625941872596741,
      "learning_rate": 0.0002931762823658657,
      "loss": 4.2172,
      "step": 48070
    },
    {
      "epoch": 0.10016666666666667,
      "grad_norm": 1.0119893550872803,
      "learning_rate": 0.0002931733423978975,
      "loss": 4.2852,
      "step": 48080
    },
    {
      "epoch": 0.1001875,
      "grad_norm": 0.9080488085746765,
      "learning_rate": 0.0002931704018114772,
      "loss": 4.4549,
      "step": 48090
    },
    {
      "epoch": 0.10020833333333333,
      "grad_norm": 0.9575082063674927,
      "learning_rate": 0.00029316746060661746,
      "loss": 4.41,
      "step": 48100
    },
    {
      "epoch": 0.10022916666666666,
      "grad_norm": 0.8398807048797607,
      "learning_rate": 0.0002931645187833309,
      "loss": 4.1436,
      "step": 48110
    },
    {
      "epoch": 0.10025,
      "grad_norm": 0.9084348082542419,
      "learning_rate": 0.00029316157634163035,
      "loss": 4.3662,
      "step": 48120
    },
    {
      "epoch": 0.10027083333333334,
      "grad_norm": 0.9522796273231506,
      "learning_rate": 0.0002931586332815284,
      "loss": 4.3602,
      "step": 48130
    },
    {
      "epoch": 0.10029166666666667,
      "grad_norm": 0.904013454914093,
      "learning_rate": 0.00029315568960303784,
      "loss": 4.2534,
      "step": 48140
    },
    {
      "epoch": 0.1003125,
      "grad_norm": 0.887278139591217,
      "learning_rate": 0.0002931527453061714,
      "loss": 4.2469,
      "step": 48150
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 0.9131807684898376,
      "learning_rate": 0.0002931498003909417,
      "loss": 4.1462,
      "step": 48160
    },
    {
      "epoch": 0.10035416666666666,
      "grad_norm": 1.0308209657669067,
      "learning_rate": 0.0002931468548573616,
      "loss": 4.2597,
      "step": 48170
    },
    {
      "epoch": 0.100375,
      "grad_norm": 0.9292884469032288,
      "learning_rate": 0.0002931439087054436,
      "loss": 4.1118,
      "step": 48180
    },
    {
      "epoch": 0.10039583333333334,
      "grad_norm": 0.9298222064971924,
      "learning_rate": 0.00029314096193520077,
      "loss": 4.3221,
      "step": 48190
    },
    {
      "epoch": 0.10041666666666667,
      "grad_norm": 0.90684574842453,
      "learning_rate": 0.00029313801454664554,
      "loss": 4.2608,
      "step": 48200
    },
    {
      "epoch": 0.1004375,
      "grad_norm": 0.9449132084846497,
      "learning_rate": 0.00029313506653979074,
      "loss": 4.1588,
      "step": 48210
    },
    {
      "epoch": 0.10045833333333333,
      "grad_norm": 0.861882746219635,
      "learning_rate": 0.0002931321179146491,
      "loss": 3.9744,
      "step": 48220
    },
    {
      "epoch": 0.10047916666666666,
      "grad_norm": 0.9039338231086731,
      "learning_rate": 0.00029312916867123344,
      "loss": 4.2529,
      "step": 48230
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.9471901655197144,
      "learning_rate": 0.00029312621880955636,
      "loss": 4.1566,
      "step": 48240
    },
    {
      "epoch": 0.10052083333333334,
      "grad_norm": 0.8813542723655701,
      "learning_rate": 0.0002931232683296307,
      "loss": 4.2667,
      "step": 48250
    },
    {
      "epoch": 0.10054166666666667,
      "grad_norm": 1.0097362995147705,
      "learning_rate": 0.00029312031723146913,
      "loss": 3.921,
      "step": 48260
    },
    {
      "epoch": 0.1005625,
      "grad_norm": 0.8281108140945435,
      "learning_rate": 0.00029311736551508453,
      "loss": 4.0795,
      "step": 48270
    },
    {
      "epoch": 0.10058333333333333,
      "grad_norm": 0.9507384300231934,
      "learning_rate": 0.00029311441318048947,
      "loss": 3.9412,
      "step": 48280
    },
    {
      "epoch": 0.10060416666666666,
      "grad_norm": 0.8981876373291016,
      "learning_rate": 0.0002931114602276968,
      "loss": 4.2585,
      "step": 48290
    },
    {
      "epoch": 0.100625,
      "grad_norm": 0.9688663482666016,
      "learning_rate": 0.0002931085066567193,
      "loss": 4.0843,
      "step": 48300
    },
    {
      "epoch": 0.10064583333333334,
      "grad_norm": 1.0015885829925537,
      "learning_rate": 0.00029310555246756973,
      "loss": 4.1959,
      "step": 48310
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 1.0092326402664185,
      "learning_rate": 0.00029310259766026075,
      "loss": 4.5138,
      "step": 48320
    },
    {
      "epoch": 0.1006875,
      "grad_norm": 0.8808053135871887,
      "learning_rate": 0.0002930996422348052,
      "loss": 4.0998,
      "step": 48330
    },
    {
      "epoch": 0.10070833333333333,
      "grad_norm": 1.0295886993408203,
      "learning_rate": 0.0002930966861912159,
      "loss": 4.0493,
      "step": 48340
    },
    {
      "epoch": 0.10072916666666666,
      "grad_norm": 0.8858767747879028,
      "learning_rate": 0.0002930937295295055,
      "loss": 4.3086,
      "step": 48350
    },
    {
      "epoch": 0.10075,
      "grad_norm": 0.8692805767059326,
      "learning_rate": 0.00029309077224968686,
      "loss": 4.2888,
      "step": 48360
    },
    {
      "epoch": 0.10077083333333334,
      "grad_norm": 1.0329500436782837,
      "learning_rate": 0.00029308781435177274,
      "loss": 4.3628,
      "step": 48370
    },
    {
      "epoch": 0.10079166666666667,
      "grad_norm": 0.8538849949836731,
      "learning_rate": 0.0002930848558357758,
      "loss": 4.3002,
      "step": 48380
    },
    {
      "epoch": 0.1008125,
      "grad_norm": 0.9112181663513184,
      "learning_rate": 0.00029308189670170903,
      "loss": 4.0573,
      "step": 48390
    },
    {
      "epoch": 0.10083333333333333,
      "grad_norm": 0.8591205477714539,
      "learning_rate": 0.00029307893694958503,
      "loss": 4.1502,
      "step": 48400
    },
    {
      "epoch": 0.10085416666666666,
      "grad_norm": 0.8378508687019348,
      "learning_rate": 0.0002930759765794167,
      "loss": 4.4142,
      "step": 48410
    },
    {
      "epoch": 0.100875,
      "grad_norm": 0.8864269256591797,
      "learning_rate": 0.0002930730155912168,
      "loss": 4.3858,
      "step": 48420
    },
    {
      "epoch": 0.10089583333333334,
      "grad_norm": 0.9086710810661316,
      "learning_rate": 0.0002930700539849981,
      "loss": 4.2241,
      "step": 48430
    },
    {
      "epoch": 0.10091666666666667,
      "grad_norm": 0.969845712184906,
      "learning_rate": 0.00029306709176077334,
      "loss": 4.2981,
      "step": 48440
    },
    {
      "epoch": 0.1009375,
      "grad_norm": 0.9680882692337036,
      "learning_rate": 0.0002930641289185554,
      "loss": 4.0528,
      "step": 48450
    },
    {
      "epoch": 0.10095833333333333,
      "grad_norm": 0.9792670607566833,
      "learning_rate": 0.0002930611654583571,
      "loss": 4.1625,
      "step": 48460
    },
    {
      "epoch": 0.10097916666666666,
      "grad_norm": 1.0124268531799316,
      "learning_rate": 0.0002930582013801911,
      "loss": 4.0114,
      "step": 48470
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.8856712579727173,
      "learning_rate": 0.00029305523668407037,
      "loss": 4.1818,
      "step": 48480
    },
    {
      "epoch": 0.10102083333333334,
      "grad_norm": 0.9134305119514465,
      "learning_rate": 0.0002930522713700076,
      "loss": 4.2197,
      "step": 48490
    },
    {
      "epoch": 0.10104166666666667,
      "grad_norm": 0.9279590249061584,
      "learning_rate": 0.0002930493054380157,
      "loss": 4.1083,
      "step": 48500
    },
    {
      "epoch": 0.1010625,
      "grad_norm": 1.0096746683120728,
      "learning_rate": 0.0002930463388881074,
      "loss": 4.3628,
      "step": 48510
    },
    {
      "epoch": 0.10108333333333333,
      "grad_norm": 0.990607500076294,
      "learning_rate": 0.0002930433717202955,
      "loss": 4.4781,
      "step": 48520
    },
    {
      "epoch": 0.10110416666666666,
      "grad_norm": 0.8968914151191711,
      "learning_rate": 0.0002930404039345929,
      "loss": 4.3208,
      "step": 48530
    },
    {
      "epoch": 0.101125,
      "grad_norm": 1.0688135623931885,
      "learning_rate": 0.00029303743553101236,
      "loss": 4.312,
      "step": 48540
    },
    {
      "epoch": 0.10114583333333334,
      "grad_norm": 0.8811984062194824,
      "learning_rate": 0.00029303446650956667,
      "loss": 4.0702,
      "step": 48550
    },
    {
      "epoch": 0.10116666666666667,
      "grad_norm": 0.9134806990623474,
      "learning_rate": 0.0002930314968702688,
      "loss": 4.1004,
      "step": 48560
    },
    {
      "epoch": 0.1011875,
      "grad_norm": 0.9270087480545044,
      "learning_rate": 0.0002930285266131314,
      "loss": 4.1668,
      "step": 48570
    },
    {
      "epoch": 0.10120833333333333,
      "grad_norm": 0.9690766334533691,
      "learning_rate": 0.0002930255557381674,
      "loss": 4.2864,
      "step": 48580
    },
    {
      "epoch": 0.10122916666666666,
      "grad_norm": 0.8874836564064026,
      "learning_rate": 0.00029302258424538963,
      "loss": 4.1782,
      "step": 48590
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.8984141945838928,
      "learning_rate": 0.0002930196121348109,
      "loss": 4.0782,
      "step": 48600
    },
    {
      "epoch": 0.10127083333333334,
      "grad_norm": 0.9110390543937683,
      "learning_rate": 0.000293016639406444,
      "loss": 4.2165,
      "step": 48610
    },
    {
      "epoch": 0.10129166666666667,
      "grad_norm": 0.9734060764312744,
      "learning_rate": 0.00029301366606030186,
      "loss": 4.1821,
      "step": 48620
    },
    {
      "epoch": 0.1013125,
      "grad_norm": 0.9258502721786499,
      "learning_rate": 0.00029301069209639735,
      "loss": 4.1868,
      "step": 48630
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.9674011468887329,
      "learning_rate": 0.0002930077175147432,
      "loss": 4.248,
      "step": 48640
    },
    {
      "epoch": 0.10135416666666666,
      "grad_norm": 0.9409612417221069,
      "learning_rate": 0.00029300474231535234,
      "loss": 4.1924,
      "step": 48650
    },
    {
      "epoch": 0.101375,
      "grad_norm": 1.0201482772827148,
      "learning_rate": 0.0002930017664982376,
      "loss": 4.2197,
      "step": 48660
    },
    {
      "epoch": 0.10139583333333334,
      "grad_norm": 0.9009960293769836,
      "learning_rate": 0.0002929987900634118,
      "loss": 4.2075,
      "step": 48670
    },
    {
      "epoch": 0.10141666666666667,
      "grad_norm": 0.9343498349189758,
      "learning_rate": 0.0002929958130108879,
      "loss": 4.2222,
      "step": 48680
    },
    {
      "epoch": 0.1014375,
      "grad_norm": 0.8981996178627014,
      "learning_rate": 0.00029299283534067863,
      "loss": 4.2352,
      "step": 48690
    },
    {
      "epoch": 0.10145833333333333,
      "grad_norm": 0.9523853659629822,
      "learning_rate": 0.00029298985705279696,
      "loss": 4.0718,
      "step": 48700
    },
    {
      "epoch": 0.10147916666666666,
      "grad_norm": 1.017212986946106,
      "learning_rate": 0.0002929868781472556,
      "loss": 4.156,
      "step": 48710
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.9286397695541382,
      "learning_rate": 0.00029298389862406765,
      "loss": 4.2645,
      "step": 48720
    },
    {
      "epoch": 0.10152083333333334,
      "grad_norm": 0.8078300952911377,
      "learning_rate": 0.00029298091848324576,
      "loss": 4.0499,
      "step": 48730
    },
    {
      "epoch": 0.10154166666666667,
      "grad_norm": 1.2445133924484253,
      "learning_rate": 0.00029297793772480296,
      "loss": 4.1157,
      "step": 48740
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 0.9383785724639893,
      "learning_rate": 0.000292974956348752,
      "loss": 4.2077,
      "step": 48750
    },
    {
      "epoch": 0.10158333333333333,
      "grad_norm": 0.9891727566719055,
      "learning_rate": 0.0002929719743551059,
      "loss": 4.1883,
      "step": 48760
    },
    {
      "epoch": 0.10160416666666666,
      "grad_norm": 0.9328064322471619,
      "learning_rate": 0.0002929689917438774,
      "loss": 4.3793,
      "step": 48770
    },
    {
      "epoch": 0.101625,
      "grad_norm": 0.876468300819397,
      "learning_rate": 0.0002929660085150795,
      "loss": 4.2716,
      "step": 48780
    },
    {
      "epoch": 0.10164583333333334,
      "grad_norm": 0.9041821360588074,
      "learning_rate": 0.00029296302466872505,
      "loss": 4.3121,
      "step": 48790
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.9372745752334595,
      "learning_rate": 0.00029296004020482687,
      "loss": 4.1885,
      "step": 48800
    },
    {
      "epoch": 0.1016875,
      "grad_norm": 0.8846907615661621,
      "learning_rate": 0.0002929570551233979,
      "loss": 4.221,
      "step": 48810
    },
    {
      "epoch": 0.10170833333333333,
      "grad_norm": 0.9467968344688416,
      "learning_rate": 0.00029295406942445105,
      "loss": 4.1451,
      "step": 48820
    },
    {
      "epoch": 0.10172916666666666,
      "grad_norm": 0.996575653553009,
      "learning_rate": 0.0002929510831079992,
      "loss": 3.9114,
      "step": 48830
    },
    {
      "epoch": 0.10175,
      "grad_norm": 0.9862067103385925,
      "learning_rate": 0.0002929480961740553,
      "loss": 4.1703,
      "step": 48840
    },
    {
      "epoch": 0.10177083333333334,
      "grad_norm": 0.9159290790557861,
      "learning_rate": 0.0002929451086226321,
      "loss": 4.2841,
      "step": 48850
    },
    {
      "epoch": 0.10179166666666667,
      "grad_norm": 0.926205575466156,
      "learning_rate": 0.00029294212045374277,
      "loss": 3.9931,
      "step": 48860
    },
    {
      "epoch": 0.1018125,
      "grad_norm": 0.8557537198066711,
      "learning_rate": 0.00029293913166739995,
      "loss": 4.3041,
      "step": 48870
    },
    {
      "epoch": 0.10183333333333333,
      "grad_norm": 0.9618558883666992,
      "learning_rate": 0.0002929361422636167,
      "loss": 4.2472,
      "step": 48880
    },
    {
      "epoch": 0.10185416666666666,
      "grad_norm": 0.9429460167884827,
      "learning_rate": 0.00029293315224240585,
      "loss": 4.1645,
      "step": 48890
    },
    {
      "epoch": 0.101875,
      "grad_norm": 0.8390304446220398,
      "learning_rate": 0.0002929301616037804,
      "loss": 4.1408,
      "step": 48900
    },
    {
      "epoch": 0.10189583333333334,
      "grad_norm": 0.8889591693878174,
      "learning_rate": 0.00029292717034775317,
      "loss": 4.2237,
      "step": 48910
    },
    {
      "epoch": 0.10191666666666667,
      "grad_norm": 0.9045477509498596,
      "learning_rate": 0.0002929241784743372,
      "loss": 4.2022,
      "step": 48920
    },
    {
      "epoch": 0.1019375,
      "grad_norm": 0.9672747850418091,
      "learning_rate": 0.0002929211859835453,
      "loss": 4.3341,
      "step": 48930
    },
    {
      "epoch": 0.10195833333333333,
      "grad_norm": 0.9086110591888428,
      "learning_rate": 0.0002929181928753905,
      "loss": 4.2929,
      "step": 48940
    },
    {
      "epoch": 0.10197916666666666,
      "grad_norm": 0.937423825263977,
      "learning_rate": 0.0002929151991498857,
      "loss": 4.0755,
      "step": 48950
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.9222545027732849,
      "learning_rate": 0.00029291220480704376,
      "loss": 4.1971,
      "step": 48960
    },
    {
      "epoch": 0.10202083333333334,
      "grad_norm": 0.8594770431518555,
      "learning_rate": 0.00029290920984687766,
      "loss": 4.249,
      "step": 48970
    },
    {
      "epoch": 0.10204166666666667,
      "grad_norm": 0.9469420909881592,
      "learning_rate": 0.00029290621426940035,
      "loss": 4.297,
      "step": 48980
    },
    {
      "epoch": 0.1020625,
      "grad_norm": 1.0103217363357544,
      "learning_rate": 0.0002929032180746248,
      "loss": 4.221,
      "step": 48990
    },
    {
      "epoch": 0.10208333333333333,
      "grad_norm": 0.9275820851325989,
      "learning_rate": 0.00029290022126256384,
      "loss": 4.0885,
      "step": 49000
    },
    {
      "epoch": 0.10208333333333333,
      "eval_loss": 3.9186089038848877,
      "eval_runtime": 7.2024,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.417,
      "step": 49000
    },
    {
      "epoch": 0.10210416666666666,
      "grad_norm": 0.8944544792175293,
      "learning_rate": 0.0002928972238332305,
      "loss": 4.3656,
      "step": 49010
    },
    {
      "epoch": 0.102125,
      "grad_norm": 0.8767985105514526,
      "learning_rate": 0.0002928942257866378,
      "loss": 4.4331,
      "step": 49020
    },
    {
      "epoch": 0.10214583333333334,
      "grad_norm": 0.8825309872627258,
      "learning_rate": 0.0002928912271227985,
      "loss": 4.0564,
      "step": 49030
    },
    {
      "epoch": 0.10216666666666667,
      "grad_norm": 0.9535287618637085,
      "learning_rate": 0.0002928882278417257,
      "loss": 4.1423,
      "step": 49040
    },
    {
      "epoch": 0.1021875,
      "grad_norm": 1.0193496942520142,
      "learning_rate": 0.0002928852279434323,
      "loss": 4.0196,
      "step": 49050
    },
    {
      "epoch": 0.10220833333333333,
      "grad_norm": 0.9514890909194946,
      "learning_rate": 0.0002928822274279313,
      "loss": 4.3256,
      "step": 49060
    },
    {
      "epoch": 0.10222916666666666,
      "grad_norm": 0.8345845937728882,
      "learning_rate": 0.00029287922629523566,
      "loss": 4.4292,
      "step": 49070
    },
    {
      "epoch": 0.10225,
      "grad_norm": 0.886035680770874,
      "learning_rate": 0.0002928762245453583,
      "loss": 4.0079,
      "step": 49080
    },
    {
      "epoch": 0.10227083333333334,
      "grad_norm": 0.8726475238800049,
      "learning_rate": 0.0002928732221783122,
      "loss": 4.1328,
      "step": 49090
    },
    {
      "epoch": 0.10229166666666667,
      "grad_norm": 1.0552455186843872,
      "learning_rate": 0.00029287021919411027,
      "loss": 4.1556,
      "step": 49100
    },
    {
      "epoch": 0.1023125,
      "grad_norm": 0.9942172765731812,
      "learning_rate": 0.00029286721559276563,
      "loss": 4.0805,
      "step": 49110
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 0.8257092237472534,
      "learning_rate": 0.0002928642113742911,
      "loss": 4.3379,
      "step": 49120
    },
    {
      "epoch": 0.10235416666666666,
      "grad_norm": 0.8750136494636536,
      "learning_rate": 0.0002928612065386998,
      "loss": 4.2598,
      "step": 49130
    },
    {
      "epoch": 0.102375,
      "grad_norm": 0.9694011807441711,
      "learning_rate": 0.00029285820108600457,
      "loss": 4.2899,
      "step": 49140
    },
    {
      "epoch": 0.10239583333333334,
      "grad_norm": 1.127057671546936,
      "learning_rate": 0.0002928551950162185,
      "loss": 4.2745,
      "step": 49150
    },
    {
      "epoch": 0.10241666666666667,
      "grad_norm": 0.9309578537940979,
      "learning_rate": 0.0002928521883293546,
      "loss": 4.319,
      "step": 49160
    },
    {
      "epoch": 0.1024375,
      "grad_norm": 1.7135729789733887,
      "learning_rate": 0.0002928491810254257,
      "loss": 4.2311,
      "step": 49170
    },
    {
      "epoch": 0.10245833333333333,
      "grad_norm": 1.285881519317627,
      "learning_rate": 0.0002928461731044448,
      "loss": 4.1009,
      "step": 49180
    },
    {
      "epoch": 0.10247916666666666,
      "grad_norm": 0.9196906089782715,
      "learning_rate": 0.00029284316456642515,
      "loss": 4.1285,
      "step": 49190
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.8912071585655212,
      "learning_rate": 0.00029284015541137945,
      "loss": 4.1385,
      "step": 49200
    },
    {
      "epoch": 0.10252083333333334,
      "grad_norm": 1.0194674730300903,
      "learning_rate": 0.00029283714563932086,
      "loss": 4.1377,
      "step": 49210
    },
    {
      "epoch": 0.10254166666666667,
      "grad_norm": 0.9777597188949585,
      "learning_rate": 0.0002928341352502624,
      "loss": 4.1037,
      "step": 49220
    },
    {
      "epoch": 0.1025625,
      "grad_norm": 0.9155952334403992,
      "learning_rate": 0.0002928311242442169,
      "loss": 4.2195,
      "step": 49230
    },
    {
      "epoch": 0.10258333333333333,
      "grad_norm": 0.9570745825767517,
      "learning_rate": 0.00029282811262119755,
      "loss": 4.3522,
      "step": 49240
    },
    {
      "epoch": 0.10260416666666666,
      "grad_norm": 0.943625807762146,
      "learning_rate": 0.00029282510038121726,
      "loss": 4.2103,
      "step": 49250
    },
    {
      "epoch": 0.102625,
      "grad_norm": 0.8898146152496338,
      "learning_rate": 0.00029282208752428907,
      "loss": 4.2495,
      "step": 49260
    },
    {
      "epoch": 0.10264583333333334,
      "grad_norm": 0.9783148169517517,
      "learning_rate": 0.000292819074050426,
      "loss": 4.0262,
      "step": 49270
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 1.0324044227600098,
      "learning_rate": 0.00029281605995964114,
      "loss": 4.2001,
      "step": 49280
    },
    {
      "epoch": 0.1026875,
      "grad_norm": 1.1044355630874634,
      "learning_rate": 0.0002928130452519473,
      "loss": 4.2168,
      "step": 49290
    },
    {
      "epoch": 0.10270833333333333,
      "grad_norm": 0.9072022438049316,
      "learning_rate": 0.00029281002992735775,
      "loss": 4.3453,
      "step": 49300
    },
    {
      "epoch": 0.10272916666666666,
      "grad_norm": 1.013148546218872,
      "learning_rate": 0.00029280701398588533,
      "loss": 4.1709,
      "step": 49310
    },
    {
      "epoch": 0.10275,
      "grad_norm": 0.8996309041976929,
      "learning_rate": 0.00029280399742754313,
      "loss": 3.9516,
      "step": 49320
    },
    {
      "epoch": 0.10277083333333334,
      "grad_norm": 0.9808428883552551,
      "learning_rate": 0.0002928009802523442,
      "loss": 4.1804,
      "step": 49330
    },
    {
      "epoch": 0.10279166666666667,
      "grad_norm": 0.9363325834274292,
      "learning_rate": 0.0002927979624603016,
      "loss": 4.2233,
      "step": 49340
    },
    {
      "epoch": 0.1028125,
      "grad_norm": 0.9721585512161255,
      "learning_rate": 0.00029279494405142826,
      "loss": 4.2639,
      "step": 49350
    },
    {
      "epoch": 0.10283333333333333,
      "grad_norm": 0.9601300358772278,
      "learning_rate": 0.0002927919250257373,
      "loss": 4.2525,
      "step": 49360
    },
    {
      "epoch": 0.10285416666666666,
      "grad_norm": 0.898315966129303,
      "learning_rate": 0.0002927889053832418,
      "loss": 4.1204,
      "step": 49370
    },
    {
      "epoch": 0.102875,
      "grad_norm": 0.9402257204055786,
      "learning_rate": 0.0002927858851239547,
      "loss": 4.1407,
      "step": 49380
    },
    {
      "epoch": 0.10289583333333334,
      "grad_norm": 0.8217523097991943,
      "learning_rate": 0.0002927828642478891,
      "loss": 4.4106,
      "step": 49390
    },
    {
      "epoch": 0.10291666666666667,
      "grad_norm": 0.8895752429962158,
      "learning_rate": 0.000292779842755058,
      "loss": 4.2139,
      "step": 49400
    },
    {
      "epoch": 0.1029375,
      "grad_norm": 0.8555904030799866,
      "learning_rate": 0.0002927768206454746,
      "loss": 4.1863,
      "step": 49410
    },
    {
      "epoch": 0.10295833333333333,
      "grad_norm": 0.8570009469985962,
      "learning_rate": 0.0002927737979191518,
      "loss": 4.2472,
      "step": 49420
    },
    {
      "epoch": 0.10297916666666666,
      "grad_norm": 0.8983967900276184,
      "learning_rate": 0.00029277077457610267,
      "loss": 4.2858,
      "step": 49430
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.9142533540725708,
      "learning_rate": 0.0002927677506163404,
      "loss": 4.2354,
      "step": 49440
    },
    {
      "epoch": 0.10302083333333334,
      "grad_norm": 0.9462783932685852,
      "learning_rate": 0.00029276472603987784,
      "loss": 4.3965,
      "step": 49450
    },
    {
      "epoch": 0.10304166666666667,
      "grad_norm": 0.8905160427093506,
      "learning_rate": 0.00029276170084672825,
      "loss": 4.1335,
      "step": 49460
    },
    {
      "epoch": 0.1030625,
      "grad_norm": 0.86661696434021,
      "learning_rate": 0.0002927586750369046,
      "loss": 4.1272,
      "step": 49470
    },
    {
      "epoch": 0.10308333333333333,
      "grad_norm": 0.8990674018859863,
      "learning_rate": 0.00029275564861042,
      "loss": 4.3002,
      "step": 49480
    },
    {
      "epoch": 0.10310416666666666,
      "grad_norm": 0.9210115671157837,
      "learning_rate": 0.0002927526215672874,
      "loss": 4.3794,
      "step": 49490
    },
    {
      "epoch": 0.103125,
      "grad_norm": 0.9105770587921143,
      "learning_rate": 0.00029274959390752014,
      "loss": 4.1695,
      "step": 49500
    },
    {
      "epoch": 0.10314583333333334,
      "grad_norm": 0.943098247051239,
      "learning_rate": 0.000292746565631131,
      "loss": 4.2881,
      "step": 49510
    },
    {
      "epoch": 0.10316666666666667,
      "grad_norm": 0.942389726638794,
      "learning_rate": 0.0002927435367381333,
      "loss": 4.231,
      "step": 49520
    },
    {
      "epoch": 0.1031875,
      "grad_norm": 0.9571897387504578,
      "learning_rate": 0.00029274050722854003,
      "loss": 4.3294,
      "step": 49530
    },
    {
      "epoch": 0.10320833333333333,
      "grad_norm": 0.9584056735038757,
      "learning_rate": 0.0002927374771023642,
      "loss": 4.1874,
      "step": 49540
    },
    {
      "epoch": 0.10322916666666666,
      "grad_norm": 0.8338826894760132,
      "learning_rate": 0.000292734446359619,
      "loss": 4.1468,
      "step": 49550
    },
    {
      "epoch": 0.10325,
      "grad_norm": 0.9194402694702148,
      "learning_rate": 0.00029273141500031744,
      "loss": 4.1704,
      "step": 49560
    },
    {
      "epoch": 0.10327083333333334,
      "grad_norm": 1.112237811088562,
      "learning_rate": 0.00029272838302447273,
      "loss": 4.2734,
      "step": 49570
    },
    {
      "epoch": 0.10329166666666667,
      "grad_norm": 0.9418346285820007,
      "learning_rate": 0.00029272535043209786,
      "loss": 4.3334,
      "step": 49580
    },
    {
      "epoch": 0.1033125,
      "grad_norm": 1.0548381805419922,
      "learning_rate": 0.000292722317223206,
      "loss": 4.1156,
      "step": 49590
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.9789499640464783,
      "learning_rate": 0.00029271928339781025,
      "loss": 4.3185,
      "step": 49600
    },
    {
      "epoch": 0.10335416666666666,
      "grad_norm": 0.9522411227226257,
      "learning_rate": 0.00029271624895592363,
      "loss": 4.1905,
      "step": 49610
    },
    {
      "epoch": 0.103375,
      "grad_norm": 0.9265376925468445,
      "learning_rate": 0.00029271321389755933,
      "loss": 4.4287,
      "step": 49620
    },
    {
      "epoch": 0.10339583333333334,
      "grad_norm": 0.885679304599762,
      "learning_rate": 0.0002927101782227304,
      "loss": 4.1936,
      "step": 49630
    },
    {
      "epoch": 0.10341666666666667,
      "grad_norm": 0.9120394587516785,
      "learning_rate": 0.00029270714193145006,
      "loss": 4.164,
      "step": 49640
    },
    {
      "epoch": 0.1034375,
      "grad_norm": 0.913246750831604,
      "learning_rate": 0.0002927041050237313,
      "loss": 4.3605,
      "step": 49650
    },
    {
      "epoch": 0.10345833333333333,
      "grad_norm": 0.9309460520744324,
      "learning_rate": 0.00029270106749958733,
      "loss": 3.9813,
      "step": 49660
    },
    {
      "epoch": 0.10347916666666666,
      "grad_norm": 0.9866440892219543,
      "learning_rate": 0.0002926980293590312,
      "loss": 4.3359,
      "step": 49670
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.9605168700218201,
      "learning_rate": 0.0002926949906020761,
      "loss": 4.101,
      "step": 49680
    },
    {
      "epoch": 0.10352083333333334,
      "grad_norm": 1.4734901189804077,
      "learning_rate": 0.0002926919512287351,
      "loss": 4.177,
      "step": 49690
    },
    {
      "epoch": 0.10354166666666667,
      "grad_norm": 1.239668369293213,
      "learning_rate": 0.00029268891123902135,
      "loss": 3.9159,
      "step": 49700
    },
    {
      "epoch": 0.1035625,
      "grad_norm": 0.9154554605484009,
      "learning_rate": 0.000292685870632948,
      "loss": 4.1358,
      "step": 49710
    },
    {
      "epoch": 0.10358333333333333,
      "grad_norm": 0.9388139843940735,
      "learning_rate": 0.0002926828294105281,
      "loss": 4.1789,
      "step": 49720
    },
    {
      "epoch": 0.10360416666666666,
      "grad_norm": 1.009781837463379,
      "learning_rate": 0.00029267978757177495,
      "loss": 4.2332,
      "step": 49730
    },
    {
      "epoch": 0.103625,
      "grad_norm": 0.8741968274116516,
      "learning_rate": 0.00029267674511670154,
      "loss": 4.1305,
      "step": 49740
    },
    {
      "epoch": 0.10364583333333334,
      "grad_norm": 0.980932354927063,
      "learning_rate": 0.0002926737020453211,
      "loss": 4.1996,
      "step": 49750
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 0.8752719163894653,
      "learning_rate": 0.0002926706583576467,
      "loss": 4.1905,
      "step": 49760
    },
    {
      "epoch": 0.1036875,
      "grad_norm": 0.8675434589385986,
      "learning_rate": 0.0002926676140536916,
      "loss": 4.0414,
      "step": 49770
    },
    {
      "epoch": 0.10370833333333333,
      "grad_norm": 0.9647019505500793,
      "learning_rate": 0.0002926645691334688,
      "loss": 4.2424,
      "step": 49780
    },
    {
      "epoch": 0.10372916666666666,
      "grad_norm": 1.1467831134796143,
      "learning_rate": 0.00029266152359699155,
      "loss": 4.3503,
      "step": 49790
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.9447672963142395,
      "learning_rate": 0.00029265847744427303,
      "loss": 4.3621,
      "step": 49800
    },
    {
      "epoch": 0.10377083333333334,
      "grad_norm": 0.9382895827293396,
      "learning_rate": 0.0002926554306753263,
      "loss": 4.0204,
      "step": 49810
    },
    {
      "epoch": 0.10379166666666667,
      "grad_norm": 0.8251082897186279,
      "learning_rate": 0.0002926523832901646,
      "loss": 4.2722,
      "step": 49820
    },
    {
      "epoch": 0.1038125,
      "grad_norm": 0.8357723355293274,
      "learning_rate": 0.0002926493352888011,
      "loss": 4.1406,
      "step": 49830
    },
    {
      "epoch": 0.10383333333333333,
      "grad_norm": 0.8940147757530212,
      "learning_rate": 0.0002926462866712489,
      "loss": 4.3379,
      "step": 49840
    },
    {
      "epoch": 0.10385416666666666,
      "grad_norm": 0.9650452733039856,
      "learning_rate": 0.0002926432374375212,
      "loss": 4.1306,
      "step": 49850
    },
    {
      "epoch": 0.103875,
      "grad_norm": 0.8941344618797302,
      "learning_rate": 0.00029264018758763124,
      "loss": 3.9712,
      "step": 49860
    },
    {
      "epoch": 0.10389583333333334,
      "grad_norm": 0.804438054561615,
      "learning_rate": 0.00029263713712159207,
      "loss": 4.0044,
      "step": 49870
    },
    {
      "epoch": 0.10391666666666667,
      "grad_norm": 0.9067906141281128,
      "learning_rate": 0.0002926340860394169,
      "loss": 4.0076,
      "step": 49880
    },
    {
      "epoch": 0.1039375,
      "grad_norm": 0.8873879909515381,
      "learning_rate": 0.000292631034341119,
      "loss": 4.2082,
      "step": 49890
    },
    {
      "epoch": 0.10395833333333333,
      "grad_norm": 0.911817729473114,
      "learning_rate": 0.00029262798202671147,
      "loss": 4.0124,
      "step": 49900
    },
    {
      "epoch": 0.10397916666666666,
      "grad_norm": 1.0216697454452515,
      "learning_rate": 0.0002926249290962075,
      "loss": 4.1562,
      "step": 49910
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.9490904211997986,
      "learning_rate": 0.0002926218755496203,
      "loss": 4.1593,
      "step": 49920
    },
    {
      "epoch": 0.10402083333333334,
      "grad_norm": 0.923806369304657,
      "learning_rate": 0.000292618821386963,
      "loss": 4.0655,
      "step": 49930
    },
    {
      "epoch": 0.10404166666666667,
      "grad_norm": 1.002776861190796,
      "learning_rate": 0.0002926157666082489,
      "loss": 4.1766,
      "step": 49940
    },
    {
      "epoch": 0.1040625,
      "grad_norm": 0.9095544219017029,
      "learning_rate": 0.0002926127112134912,
      "loss": 4.226,
      "step": 49950
    },
    {
      "epoch": 0.10408333333333333,
      "grad_norm": 0.9021620750427246,
      "learning_rate": 0.0002926096552027029,
      "loss": 4.1774,
      "step": 49960
    },
    {
      "epoch": 0.10410416666666666,
      "grad_norm": 0.9213654398918152,
      "learning_rate": 0.0002926065985758974,
      "loss": 4.0956,
      "step": 49970
    },
    {
      "epoch": 0.104125,
      "grad_norm": 0.9472253322601318,
      "learning_rate": 0.0002926035413330879,
      "loss": 4.1264,
      "step": 49980
    },
    {
      "epoch": 0.10414583333333334,
      "grad_norm": 0.8973410725593567,
      "learning_rate": 0.00029260048347428747,
      "loss": 4.4682,
      "step": 49990
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 0.9338128566741943,
      "learning_rate": 0.0002925974249995094,
      "loss": 4.1743,
      "step": 50000
    },
    {
      "epoch": 0.10416666666666667,
      "eval_loss": 3.9072556495666504,
      "eval_runtime": 7.2119,
      "eval_samples_per_second": 1.387,
      "eval_steps_per_second": 0.416,
      "step": 50000
    },
    {
      "epoch": 0.1041875,
      "grad_norm": 0.9281209111213684,
      "learning_rate": 0.00029259436590876696,
      "loss": 4.3174,
      "step": 50010
    },
    {
      "epoch": 0.10420833333333333,
      "grad_norm": 0.9687469005584717,
      "learning_rate": 0.0002925913062020733,
      "loss": 4.1365,
      "step": 50020
    },
    {
      "epoch": 0.10422916666666666,
      "grad_norm": 0.8190808892250061,
      "learning_rate": 0.0002925882458794416,
      "loss": 4.2843,
      "step": 50030
    },
    {
      "epoch": 0.10425,
      "grad_norm": 0.9166703224182129,
      "learning_rate": 0.0002925851849408851,
      "loss": 4.271,
      "step": 50040
    },
    {
      "epoch": 0.10427083333333333,
      "grad_norm": 0.9577187299728394,
      "learning_rate": 0.000292582123386417,
      "loss": 4.1478,
      "step": 50050
    },
    {
      "epoch": 0.10429166666666667,
      "grad_norm": 0.8921416401863098,
      "learning_rate": 0.0002925790612160507,
      "loss": 4.1677,
      "step": 50060
    },
    {
      "epoch": 0.1043125,
      "grad_norm": 0.9205332398414612,
      "learning_rate": 0.0002925759984297992,
      "loss": 4.1053,
      "step": 50070
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 1.135532259941101,
      "learning_rate": 0.00029257293502767584,
      "loss": 4.3763,
      "step": 50080
    },
    {
      "epoch": 0.10435416666666666,
      "grad_norm": 0.9317070841789246,
      "learning_rate": 0.0002925698710096938,
      "loss": 4.2828,
      "step": 50090
    },
    {
      "epoch": 0.104375,
      "grad_norm": 0.8576059341430664,
      "learning_rate": 0.00029256680637586643,
      "loss": 4.2224,
      "step": 50100
    },
    {
      "epoch": 0.10439583333333333,
      "grad_norm": 0.8995072841644287,
      "learning_rate": 0.0002925637411262068,
      "loss": 4.1326,
      "step": 50110
    },
    {
      "epoch": 0.10441666666666667,
      "grad_norm": 0.921156108379364,
      "learning_rate": 0.00029256067526072833,
      "loss": 3.9661,
      "step": 50120
    },
    {
      "epoch": 0.1044375,
      "grad_norm": 0.9252369403839111,
      "learning_rate": 0.0002925576087794441,
      "loss": 4.2715,
      "step": 50130
    },
    {
      "epoch": 0.10445833333333333,
      "grad_norm": 0.8527721762657166,
      "learning_rate": 0.00029255454168236746,
      "loss": 4.0117,
      "step": 50140
    },
    {
      "epoch": 0.10447916666666666,
      "grad_norm": 1.0352470874786377,
      "learning_rate": 0.00029255147396951164,
      "loss": 4.2557,
      "step": 50150
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.9377464056015015,
      "learning_rate": 0.00029254840564088986,
      "loss": 4.0976,
      "step": 50160
    },
    {
      "epoch": 0.10452083333333333,
      "grad_norm": 0.8821863532066345,
      "learning_rate": 0.00029254533669651535,
      "loss": 4.1319,
      "step": 50170
    },
    {
      "epoch": 0.10454166666666667,
      "grad_norm": 0.9688096642494202,
      "learning_rate": 0.00029254226713640145,
      "loss": 4.3332,
      "step": 50180
    },
    {
      "epoch": 0.1045625,
      "grad_norm": 0.848928689956665,
      "learning_rate": 0.0002925391969605614,
      "loss": 4.234,
      "step": 50190
    },
    {
      "epoch": 0.10458333333333333,
      "grad_norm": 0.8629764318466187,
      "learning_rate": 0.00029253612616900843,
      "loss": 4.207,
      "step": 50200
    },
    {
      "epoch": 0.10460416666666666,
      "grad_norm": 0.8830193281173706,
      "learning_rate": 0.0002925330547617558,
      "loss": 4.1565,
      "step": 50210
    },
    {
      "epoch": 0.104625,
      "grad_norm": 0.9240589737892151,
      "learning_rate": 0.0002925299827388168,
      "loss": 4.1348,
      "step": 50220
    },
    {
      "epoch": 0.10464583333333333,
      "grad_norm": 0.8735758662223816,
      "learning_rate": 0.0002925269101002047,
      "loss": 4.3512,
      "step": 50230
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 0.8524957895278931,
      "learning_rate": 0.0002925238368459327,
      "loss": 3.9686,
      "step": 50240
    },
    {
      "epoch": 0.1046875,
      "grad_norm": 0.8992055654525757,
      "learning_rate": 0.00029252076297601423,
      "loss": 4.2009,
      "step": 50250
    },
    {
      "epoch": 0.10470833333333333,
      "grad_norm": 0.9251779913902283,
      "learning_rate": 0.0002925176884904624,
      "loss": 4.3655,
      "step": 50260
    },
    {
      "epoch": 0.10472916666666666,
      "grad_norm": 0.8821484446525574,
      "learning_rate": 0.00029251461338929065,
      "loss": 4.1554,
      "step": 50270
    },
    {
      "epoch": 0.10475,
      "grad_norm": 0.9515470266342163,
      "learning_rate": 0.0002925115376725121,
      "loss": 4.1361,
      "step": 50280
    },
    {
      "epoch": 0.10477083333333333,
      "grad_norm": 0.8592981696128845,
      "learning_rate": 0.0002925084613401402,
      "loss": 4.0676,
      "step": 50290
    },
    {
      "epoch": 0.10479166666666667,
      "grad_norm": 0.9667450785636902,
      "learning_rate": 0.0002925053843921881,
      "loss": 4.1117,
      "step": 50300
    },
    {
      "epoch": 0.1048125,
      "grad_norm": 0.8827009797096252,
      "learning_rate": 0.0002925023068286692,
      "loss": 4.2703,
      "step": 50310
    },
    {
      "epoch": 0.10483333333333333,
      "grad_norm": 0.960803747177124,
      "learning_rate": 0.00029249922864959664,
      "loss": 4.1186,
      "step": 50320
    },
    {
      "epoch": 0.10485416666666666,
      "grad_norm": 0.8414233922958374,
      "learning_rate": 0.0002924961498549839,
      "loss": 4.2656,
      "step": 50330
    },
    {
      "epoch": 0.104875,
      "grad_norm": 0.9269043207168579,
      "learning_rate": 0.0002924930704448442,
      "loss": 4.1914,
      "step": 50340
    },
    {
      "epoch": 0.10489583333333333,
      "grad_norm": 0.934058427810669,
      "learning_rate": 0.0002924899904191908,
      "loss": 3.9342,
      "step": 50350
    },
    {
      "epoch": 0.10491666666666667,
      "grad_norm": 1.173628807067871,
      "learning_rate": 0.00029248690977803704,
      "loss": 4.2499,
      "step": 50360
    },
    {
      "epoch": 0.1049375,
      "grad_norm": 1.2085357904434204,
      "learning_rate": 0.00029248382852139625,
      "loss": 4.1822,
      "step": 50370
    },
    {
      "epoch": 0.10495833333333333,
      "grad_norm": 0.945819616317749,
      "learning_rate": 0.0002924807466492817,
      "loss": 4.0658,
      "step": 50380
    },
    {
      "epoch": 0.10497916666666667,
      "grad_norm": 0.9826036095619202,
      "learning_rate": 0.0002924776641617067,
      "loss": 4.1987,
      "step": 50390
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.9583196640014648,
      "learning_rate": 0.00029247458105868465,
      "loss": 4.3615,
      "step": 50400
    },
    {
      "epoch": 0.10502083333333333,
      "grad_norm": 0.8775133490562439,
      "learning_rate": 0.0002924714973402288,
      "loss": 4.3292,
      "step": 50410
    },
    {
      "epoch": 0.10504166666666667,
      "grad_norm": 0.9023588299751282,
      "learning_rate": 0.0002924684130063524,
      "loss": 4.05,
      "step": 50420
    },
    {
      "epoch": 0.1050625,
      "grad_norm": 0.9125282168388367,
      "learning_rate": 0.0002924653280570689,
      "loss": 4.3338,
      "step": 50430
    },
    {
      "epoch": 0.10508333333333333,
      "grad_norm": 0.9407309293746948,
      "learning_rate": 0.0002924622424923917,
      "loss": 4.3398,
      "step": 50440
    },
    {
      "epoch": 0.10510416666666667,
      "grad_norm": 0.9146537780761719,
      "learning_rate": 0.0002924591563123338,
      "loss": 4.3094,
      "step": 50450
    },
    {
      "epoch": 0.105125,
      "grad_norm": 0.9632075428962708,
      "learning_rate": 0.0002924560695169088,
      "loss": 4.4071,
      "step": 50460
    },
    {
      "epoch": 0.10514583333333333,
      "grad_norm": 0.8857525587081909,
      "learning_rate": 0.00029245298210613,
      "loss": 4.3794,
      "step": 50470
    },
    {
      "epoch": 0.10516666666666667,
      "grad_norm": 0.9651223421096802,
      "learning_rate": 0.0002924498940800107,
      "loss": 4.2322,
      "step": 50480
    },
    {
      "epoch": 0.1051875,
      "grad_norm": 0.8651464581489563,
      "learning_rate": 0.00029244680543856423,
      "loss": 4.2435,
      "step": 50490
    },
    {
      "epoch": 0.10520833333333333,
      "grad_norm": 0.8881317973136902,
      "learning_rate": 0.00029244371618180394,
      "loss": 4.3053,
      "step": 50500
    },
    {
      "epoch": 0.10522916666666667,
      "grad_norm": 0.843828558921814,
      "learning_rate": 0.0002924406263097432,
      "loss": 4.3086,
      "step": 50510
    },
    {
      "epoch": 0.10525,
      "grad_norm": 0.903776228427887,
      "learning_rate": 0.0002924375358223953,
      "loss": 4.2274,
      "step": 50520
    },
    {
      "epoch": 0.10527083333333333,
      "grad_norm": 0.9062051773071289,
      "learning_rate": 0.00029243444471977365,
      "loss": 4.2444,
      "step": 50530
    },
    {
      "epoch": 0.10529166666666667,
      "grad_norm": 0.8559238910675049,
      "learning_rate": 0.00029243135300189156,
      "loss": 4.2455,
      "step": 50540
    },
    {
      "epoch": 0.1053125,
      "grad_norm": 0.9313260912895203,
      "learning_rate": 0.0002924282606687624,
      "loss": 4.0633,
      "step": 50550
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.8990283012390137,
      "learning_rate": 0.0002924251677203996,
      "loss": 4.061,
      "step": 50560
    },
    {
      "epoch": 0.10535416666666667,
      "grad_norm": 0.8900080323219299,
      "learning_rate": 0.0002924220741568164,
      "loss": 4.2119,
      "step": 50570
    },
    {
      "epoch": 0.105375,
      "grad_norm": 1.003872036933899,
      "learning_rate": 0.0002924189799780262,
      "loss": 4.2666,
      "step": 50580
    },
    {
      "epoch": 0.10539583333333333,
      "grad_norm": 0.9681660532951355,
      "learning_rate": 0.00029241588518404236,
      "loss": 4.192,
      "step": 50590
    },
    {
      "epoch": 0.10541666666666667,
      "grad_norm": 0.9126216173171997,
      "learning_rate": 0.00029241278977487834,
      "loss": 4.1393,
      "step": 50600
    },
    {
      "epoch": 0.1054375,
      "grad_norm": 0.9816487431526184,
      "learning_rate": 0.0002924096937505474,
      "loss": 4.3178,
      "step": 50610
    },
    {
      "epoch": 0.10545833333333333,
      "grad_norm": 0.9282462000846863,
      "learning_rate": 0.00029240659711106295,
      "loss": 4.2753,
      "step": 50620
    },
    {
      "epoch": 0.10547916666666667,
      "grad_norm": 0.8970465660095215,
      "learning_rate": 0.00029240349985643836,
      "loss": 4.1044,
      "step": 50630
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.9290282130241394,
      "learning_rate": 0.000292400401986687,
      "loss": 4.3225,
      "step": 50640
    },
    {
      "epoch": 0.10552083333333333,
      "grad_norm": 0.9596385359764099,
      "learning_rate": 0.0002923973035018223,
      "loss": 4.1239,
      "step": 50650
    },
    {
      "epoch": 0.10554166666666667,
      "grad_norm": 0.9484176635742188,
      "learning_rate": 0.00029239420440185766,
      "loss": 4.1533,
      "step": 50660
    },
    {
      "epoch": 0.1055625,
      "grad_norm": 0.8963605761528015,
      "learning_rate": 0.0002923911046868064,
      "loss": 4.45,
      "step": 50670
    },
    {
      "epoch": 0.10558333333333333,
      "grad_norm": 0.9738243222236633,
      "learning_rate": 0.0002923880043566819,
      "loss": 4.0986,
      "step": 50680
    },
    {
      "epoch": 0.10560416666666667,
      "grad_norm": 0.9141696095466614,
      "learning_rate": 0.00029238490341149755,
      "loss": 4.163,
      "step": 50690
    },
    {
      "epoch": 0.105625,
      "grad_norm": 0.8127515316009521,
      "learning_rate": 0.0002923818018512668,
      "loss": 4.2298,
      "step": 50700
    },
    {
      "epoch": 0.10564583333333333,
      "grad_norm": 0.8006873726844788,
      "learning_rate": 0.00029237869967600305,
      "loss": 4.2345,
      "step": 50710
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 0.8865334391593933,
      "learning_rate": 0.00029237559688571966,
      "loss": 4.1873,
      "step": 50720
    },
    {
      "epoch": 0.1056875,
      "grad_norm": 0.9147834181785583,
      "learning_rate": 0.0002923724934804301,
      "loss": 4.2981,
      "step": 50730
    },
    {
      "epoch": 0.10570833333333333,
      "grad_norm": 0.9424484968185425,
      "learning_rate": 0.0002923693894601476,
      "loss": 4.3111,
      "step": 50740
    },
    {
      "epoch": 0.10572916666666667,
      "grad_norm": 0.8718271851539612,
      "learning_rate": 0.0002923662848248858,
      "loss": 4.0901,
      "step": 50750
    },
    {
      "epoch": 0.10575,
      "grad_norm": 0.9326348304748535,
      "learning_rate": 0.000292363179574658,
      "loss": 4.2247,
      "step": 50760
    },
    {
      "epoch": 0.10577083333333333,
      "grad_norm": 0.931878387928009,
      "learning_rate": 0.0002923600737094775,
      "loss": 4.1904,
      "step": 50770
    },
    {
      "epoch": 0.10579166666666667,
      "grad_norm": 0.9768363237380981,
      "learning_rate": 0.000292356967229358,
      "loss": 4.2556,
      "step": 50780
    },
    {
      "epoch": 0.1058125,
      "grad_norm": 0.9149054884910583,
      "learning_rate": 0.0002923538601343126,
      "loss": 4.1564,
      "step": 50790
    },
    {
      "epoch": 0.10583333333333333,
      "grad_norm": 0.9688587784767151,
      "learning_rate": 0.00029235075242435495,
      "loss": 4.1442,
      "step": 50800
    },
    {
      "epoch": 0.10585416666666667,
      "grad_norm": 0.9197750687599182,
      "learning_rate": 0.0002923476440994984,
      "loss": 4.4017,
      "step": 50810
    },
    {
      "epoch": 0.105875,
      "grad_norm": 1.0196529626846313,
      "learning_rate": 0.00029234453515975634,
      "loss": 4.2574,
      "step": 50820
    },
    {
      "epoch": 0.10589583333333333,
      "grad_norm": 0.9189266562461853,
      "learning_rate": 0.0002923414256051423,
      "loss": 4.2183,
      "step": 50830
    },
    {
      "epoch": 0.10591666666666667,
      "grad_norm": 0.9338847398757935,
      "learning_rate": 0.00029233831543566956,
      "loss": 4.2329,
      "step": 50840
    },
    {
      "epoch": 0.1059375,
      "grad_norm": 0.9722223281860352,
      "learning_rate": 0.00029233520465135165,
      "loss": 4.2735,
      "step": 50850
    },
    {
      "epoch": 0.10595833333333333,
      "grad_norm": 0.8875017762184143,
      "learning_rate": 0.00029233209325220204,
      "loss": 4.129,
      "step": 50860
    },
    {
      "epoch": 0.10597916666666667,
      "grad_norm": 1.1469327211380005,
      "learning_rate": 0.00029232898123823407,
      "loss": 4.2565,
      "step": 50870
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.8838832974433899,
      "learning_rate": 0.0002923258686094613,
      "loss": 4.151,
      "step": 50880
    },
    {
      "epoch": 0.10602083333333333,
      "grad_norm": 0.8843656182289124,
      "learning_rate": 0.0002923227553658971,
      "loss": 4.1363,
      "step": 50890
    },
    {
      "epoch": 0.10604166666666667,
      "grad_norm": 0.8775562047958374,
      "learning_rate": 0.0002923196415075549,
      "loss": 4.123,
      "step": 50900
    },
    {
      "epoch": 0.1060625,
      "grad_norm": 0.8836638927459717,
      "learning_rate": 0.0002923165270344482,
      "loss": 4.1508,
      "step": 50910
    },
    {
      "epoch": 0.10608333333333334,
      "grad_norm": 0.9149045944213867,
      "learning_rate": 0.00029231341194659044,
      "loss": 4.1801,
      "step": 50920
    },
    {
      "epoch": 0.10610416666666667,
      "grad_norm": 0.9372484087944031,
      "learning_rate": 0.00029231029624399504,
      "loss": 4.2478,
      "step": 50930
    },
    {
      "epoch": 0.106125,
      "grad_norm": 0.8608310222625732,
      "learning_rate": 0.0002923071799266755,
      "loss": 4.2205,
      "step": 50940
    },
    {
      "epoch": 0.10614583333333333,
      "grad_norm": 0.9146906733512878,
      "learning_rate": 0.0002923040629946453,
      "loss": 4.1392,
      "step": 50950
    },
    {
      "epoch": 0.10616666666666667,
      "grad_norm": 0.9042752981185913,
      "learning_rate": 0.0002923009454479179,
      "loss": 4.1323,
      "step": 50960
    },
    {
      "epoch": 0.1061875,
      "grad_norm": 0.8685885667800903,
      "learning_rate": 0.0002922978272865067,
      "loss": 4.1909,
      "step": 50970
    },
    {
      "epoch": 0.10620833333333334,
      "grad_norm": 0.8916311860084534,
      "learning_rate": 0.0002922947085104252,
      "loss": 4.1776,
      "step": 50980
    },
    {
      "epoch": 0.10622916666666667,
      "grad_norm": 1.025123119354248,
      "learning_rate": 0.0002922915891196869,
      "loss": 4.2182,
      "step": 50990
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.7962878346443176,
      "learning_rate": 0.00029228846911430527,
      "loss": 4.255,
      "step": 51000
    },
    {
      "epoch": 0.10625,
      "eval_loss": 3.9065022468566895,
      "eval_runtime": 7.1551,
      "eval_samples_per_second": 1.398,
      "eval_steps_per_second": 0.419,
      "step": 51000
    },
    {
      "epoch": 0.10627083333333333,
      "grad_norm": 0.8352763652801514,
      "learning_rate": 0.00029228534849429374,
      "loss": 4.0373,
      "step": 51010
    },
    {
      "epoch": 0.10629166666666667,
      "grad_norm": 0.8691899180412292,
      "learning_rate": 0.0002922822272596659,
      "loss": 4.1735,
      "step": 51020
    },
    {
      "epoch": 0.1063125,
      "grad_norm": 1.025669813156128,
      "learning_rate": 0.00029227910541043504,
      "loss": 4.1917,
      "step": 51030
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 0.9161354303359985,
      "learning_rate": 0.0002922759829466149,
      "loss": 4.0466,
      "step": 51040
    },
    {
      "epoch": 0.10635416666666667,
      "grad_norm": 0.8974663019180298,
      "learning_rate": 0.0002922728598682187,
      "loss": 4.3961,
      "step": 51050
    },
    {
      "epoch": 0.106375,
      "grad_norm": 0.777348518371582,
      "learning_rate": 0.0002922697361752602,
      "loss": 4.2067,
      "step": 51060
    },
    {
      "epoch": 0.10639583333333333,
      "grad_norm": 0.8369305729866028,
      "learning_rate": 0.00029226661186775266,
      "loss": 4.2567,
      "step": 51070
    },
    {
      "epoch": 0.10641666666666667,
      "grad_norm": 0.9326241612434387,
      "learning_rate": 0.0002922634869457097,
      "loss": 4.1366,
      "step": 51080
    },
    {
      "epoch": 0.1064375,
      "grad_norm": 0.9253939390182495,
      "learning_rate": 0.0002922603614091447,
      "loss": 4.1597,
      "step": 51090
    },
    {
      "epoch": 0.10645833333333334,
      "grad_norm": 0.9582602977752686,
      "learning_rate": 0.00029225723525807136,
      "loss": 4.1583,
      "step": 51100
    },
    {
      "epoch": 0.10647916666666667,
      "grad_norm": 0.9801177382469177,
      "learning_rate": 0.00029225410849250305,
      "loss": 4.3102,
      "step": 51110
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.931863009929657,
      "learning_rate": 0.0002922509811124533,
      "loss": 4.228,
      "step": 51120
    },
    {
      "epoch": 0.10652083333333333,
      "grad_norm": 0.9404748678207397,
      "learning_rate": 0.00029224785311793554,
      "loss": 4.284,
      "step": 51130
    },
    {
      "epoch": 0.10654166666666667,
      "grad_norm": 0.9345736503601074,
      "learning_rate": 0.0002922447245089635,
      "loss": 4.1979,
      "step": 51140
    },
    {
      "epoch": 0.1065625,
      "grad_norm": 1.050243854522705,
      "learning_rate": 0.00029224159528555045,
      "loss": 4.187,
      "step": 51150
    },
    {
      "epoch": 0.10658333333333334,
      "grad_norm": 0.9235957264900208,
      "learning_rate": 0.00029223846544771,
      "loss": 4.1966,
      "step": 51160
    },
    {
      "epoch": 0.10660416666666667,
      "grad_norm": 1.002592921257019,
      "learning_rate": 0.00029223533499545576,
      "loss": 4.2127,
      "step": 51170
    },
    {
      "epoch": 0.106625,
      "grad_norm": 0.8814247250556946,
      "learning_rate": 0.0002922322039288011,
      "loss": 4.2648,
      "step": 51180
    },
    {
      "epoch": 0.10664583333333333,
      "grad_norm": 0.945048987865448,
      "learning_rate": 0.00029222907224775967,
      "loss": 4.1297,
      "step": 51190
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.9715697169303894,
      "learning_rate": 0.000292225939952345,
      "loss": 4.1048,
      "step": 51200
    },
    {
      "epoch": 0.1066875,
      "grad_norm": 0.8886682987213135,
      "learning_rate": 0.00029222280704257044,
      "loss": 4.087,
      "step": 51210
    },
    {
      "epoch": 0.10670833333333334,
      "grad_norm": 0.8595675230026245,
      "learning_rate": 0.0002922196735184497,
      "loss": 4.2187,
      "step": 51220
    },
    {
      "epoch": 0.10672916666666667,
      "grad_norm": 0.8800022006034851,
      "learning_rate": 0.00029221653937999627,
      "loss": 4.1385,
      "step": 51230
    },
    {
      "epoch": 0.10675,
      "grad_norm": 0.9595596790313721,
      "learning_rate": 0.0002922134046272237,
      "loss": 4.1322,
      "step": 51240
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 0.895449697971344,
      "learning_rate": 0.0002922102692601455,
      "loss": 4.2756,
      "step": 51250
    },
    {
      "epoch": 0.10679166666666666,
      "grad_norm": 1.0190157890319824,
      "learning_rate": 0.00029220713327877517,
      "loss": 4.2131,
      "step": 51260
    },
    {
      "epoch": 0.1068125,
      "grad_norm": 0.9330523014068604,
      "learning_rate": 0.00029220399668312643,
      "loss": 4.2801,
      "step": 51270
    },
    {
      "epoch": 0.10683333333333334,
      "grad_norm": 0.8513830304145813,
      "learning_rate": 0.00029220085947321265,
      "loss": 4.3253,
      "step": 51280
    },
    {
      "epoch": 0.10685416666666667,
      "grad_norm": 0.8589474558830261,
      "learning_rate": 0.0002921977216490474,
      "loss": 4.2188,
      "step": 51290
    },
    {
      "epoch": 0.106875,
      "grad_norm": 0.9684081673622131,
      "learning_rate": 0.00029219458321064434,
      "loss": 4.284,
      "step": 51300
    },
    {
      "epoch": 0.10689583333333333,
      "grad_norm": 0.8667673468589783,
      "learning_rate": 0.0002921914441580169,
      "loss": 4.1723,
      "step": 51310
    },
    {
      "epoch": 0.10691666666666666,
      "grad_norm": 1.0296190977096558,
      "learning_rate": 0.00029218830449117883,
      "loss": 4.3255,
      "step": 51320
    },
    {
      "epoch": 0.1069375,
      "grad_norm": 0.8926497101783752,
      "learning_rate": 0.0002921851642101435,
      "loss": 4.2034,
      "step": 51330
    },
    {
      "epoch": 0.10695833333333334,
      "grad_norm": 0.8807538151741028,
      "learning_rate": 0.0002921820233149245,
      "loss": 4.2372,
      "step": 51340
    },
    {
      "epoch": 0.10697916666666667,
      "grad_norm": 0.955912709236145,
      "learning_rate": 0.00029217888180553547,
      "loss": 4.3555,
      "step": 51350
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.9168626666069031,
      "learning_rate": 0.0002921757396819899,
      "loss": 4.3272,
      "step": 51360
    },
    {
      "epoch": 0.10702083333333333,
      "grad_norm": 1.0082927942276,
      "learning_rate": 0.0002921725969443015,
      "loss": 4.2772,
      "step": 51370
    },
    {
      "epoch": 0.10704166666666666,
      "grad_norm": 0.9440159201622009,
      "learning_rate": 0.0002921694535924837,
      "loss": 4.0969,
      "step": 51380
    },
    {
      "epoch": 0.1070625,
      "grad_norm": 0.9111217856407166,
      "learning_rate": 0.00029216630962655016,
      "loss": 4.1167,
      "step": 51390
    },
    {
      "epoch": 0.10708333333333334,
      "grad_norm": 0.9285714626312256,
      "learning_rate": 0.00029216316504651445,
      "loss": 4.1253,
      "step": 51400
    },
    {
      "epoch": 0.10710416666666667,
      "grad_norm": 0.8957237005233765,
      "learning_rate": 0.0002921600198523901,
      "loss": 4.0813,
      "step": 51410
    },
    {
      "epoch": 0.107125,
      "grad_norm": 0.8880654573440552,
      "learning_rate": 0.00029215687404419077,
      "loss": 4.1713,
      "step": 51420
    },
    {
      "epoch": 0.10714583333333333,
      "grad_norm": 0.8611611127853394,
      "learning_rate": 0.00029215372762192996,
      "loss": 4.0905,
      "step": 51430
    },
    {
      "epoch": 0.10716666666666666,
      "grad_norm": 0.9978229403495789,
      "learning_rate": 0.0002921505805856213,
      "loss": 4.0038,
      "step": 51440
    },
    {
      "epoch": 0.1071875,
      "grad_norm": 0.900282084941864,
      "learning_rate": 0.00029214743293527854,
      "loss": 4.1666,
      "step": 51450
    },
    {
      "epoch": 0.10720833333333334,
      "grad_norm": 0.9824996590614319,
      "learning_rate": 0.00029214428467091503,
      "loss": 4.27,
      "step": 51460
    },
    {
      "epoch": 0.10722916666666667,
      "grad_norm": 0.9180208444595337,
      "learning_rate": 0.00029214113579254447,
      "loss": 4.2505,
      "step": 51470
    },
    {
      "epoch": 0.10725,
      "grad_norm": 0.9581050872802734,
      "learning_rate": 0.00029213798630018046,
      "loss": 3.9914,
      "step": 51480
    },
    {
      "epoch": 0.10727083333333333,
      "grad_norm": 0.9724767208099365,
      "learning_rate": 0.00029213483619383666,
      "loss": 4.2251,
      "step": 51490
    },
    {
      "epoch": 0.10729166666666666,
      "grad_norm": 0.8861204981803894,
      "learning_rate": 0.0002921316854735266,
      "loss": 4.2348,
      "step": 51500
    },
    {
      "epoch": 0.1073125,
      "grad_norm": 0.9407299757003784,
      "learning_rate": 0.00029212853413926397,
      "loss": 4.1528,
      "step": 51510
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 0.8231877088546753,
      "learning_rate": 0.0002921253821910623,
      "loss": 4.2493,
      "step": 51520
    },
    {
      "epoch": 0.10735416666666667,
      "grad_norm": 0.9005566239356995,
      "learning_rate": 0.0002921222296289352,
      "loss": 4.1213,
      "step": 51530
    },
    {
      "epoch": 0.107375,
      "grad_norm": 0.8962744474411011,
      "learning_rate": 0.00029211907645289634,
      "loss": 4.0196,
      "step": 51540
    },
    {
      "epoch": 0.10739583333333333,
      "grad_norm": 0.9642841815948486,
      "learning_rate": 0.0002921159226629593,
      "loss": 4.0758,
      "step": 51550
    },
    {
      "epoch": 0.10741666666666666,
      "grad_norm": 0.914736270904541,
      "learning_rate": 0.00029211276825913776,
      "loss": 4.2112,
      "step": 51560
    },
    {
      "epoch": 0.1074375,
      "grad_norm": 0.8544683456420898,
      "learning_rate": 0.00029210961324144534,
      "loss": 4.2285,
      "step": 51570
    },
    {
      "epoch": 0.10745833333333334,
      "grad_norm": 0.9208590984344482,
      "learning_rate": 0.0002921064576098956,
      "loss": 4.0491,
      "step": 51580
    },
    {
      "epoch": 0.10747916666666667,
      "grad_norm": 0.913756787776947,
      "learning_rate": 0.0002921033013645022,
      "loss": 4.1227,
      "step": 51590
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.8705860376358032,
      "learning_rate": 0.00029210014450527884,
      "loss": 4.1053,
      "step": 51600
    },
    {
      "epoch": 0.10752083333333333,
      "grad_norm": 0.9752313494682312,
      "learning_rate": 0.0002920969870322391,
      "loss": 4.1959,
      "step": 51610
    },
    {
      "epoch": 0.10754166666666666,
      "grad_norm": 0.9548102021217346,
      "learning_rate": 0.0002920938289453966,
      "loss": 4.2994,
      "step": 51620
    },
    {
      "epoch": 0.1075625,
      "grad_norm": 0.9015809297561646,
      "learning_rate": 0.000292090670244765,
      "loss": 4.0257,
      "step": 51630
    },
    {
      "epoch": 0.10758333333333334,
      "grad_norm": 0.954359233379364,
      "learning_rate": 0.00029208751093035793,
      "loss": 4.0152,
      "step": 51640
    },
    {
      "epoch": 0.10760416666666667,
      "grad_norm": 0.8465800881385803,
      "learning_rate": 0.00029208435100218903,
      "loss": 4.1537,
      "step": 51650
    },
    {
      "epoch": 0.107625,
      "grad_norm": 0.7916254997253418,
      "learning_rate": 0.0002920811904602721,
      "loss": 4.1223,
      "step": 51660
    },
    {
      "epoch": 0.10764583333333333,
      "grad_norm": 0.9341939091682434,
      "learning_rate": 0.00029207802930462056,
      "loss": 4.0227,
      "step": 51670
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 0.8565753102302551,
      "learning_rate": 0.0002920748675352482,
      "loss": 4.1297,
      "step": 51680
    },
    {
      "epoch": 0.1076875,
      "grad_norm": 0.893227756023407,
      "learning_rate": 0.0002920717051521686,
      "loss": 4.2057,
      "step": 51690
    },
    {
      "epoch": 0.10770833333333334,
      "grad_norm": 0.8887161016464233,
      "learning_rate": 0.00029206854215539554,
      "loss": 4.0907,
      "step": 51700
    },
    {
      "epoch": 0.10772916666666667,
      "grad_norm": 0.890273928642273,
      "learning_rate": 0.0002920653785449426,
      "loss": 4.0514,
      "step": 51710
    },
    {
      "epoch": 0.10775,
      "grad_norm": 0.8747144937515259,
      "learning_rate": 0.0002920622143208234,
      "loss": 4.3123,
      "step": 51720
    },
    {
      "epoch": 0.10777083333333333,
      "grad_norm": 0.8929004073143005,
      "learning_rate": 0.0002920590494830518,
      "loss": 3.9866,
      "step": 51730
    },
    {
      "epoch": 0.10779166666666666,
      "grad_norm": 0.9540522694587708,
      "learning_rate": 0.0002920558840316412,
      "loss": 4.1672,
      "step": 51740
    },
    {
      "epoch": 0.1078125,
      "grad_norm": 0.9610605835914612,
      "learning_rate": 0.00029205271796660544,
      "loss": 4.1479,
      "step": 51750
    },
    {
      "epoch": 0.10783333333333334,
      "grad_norm": 0.9067617058753967,
      "learning_rate": 0.0002920495512879582,
      "loss": 4.2308,
      "step": 51760
    },
    {
      "epoch": 0.10785416666666667,
      "grad_norm": 0.8585169315338135,
      "learning_rate": 0.0002920463839957131,
      "loss": 4.1932,
      "step": 51770
    },
    {
      "epoch": 0.107875,
      "grad_norm": 0.8707748055458069,
      "learning_rate": 0.00029204321608988386,
      "loss": 3.9476,
      "step": 51780
    },
    {
      "epoch": 0.10789583333333333,
      "grad_norm": 0.8931736350059509,
      "learning_rate": 0.00029204004757048415,
      "loss": 3.9619,
      "step": 51790
    },
    {
      "epoch": 0.10791666666666666,
      "grad_norm": 0.9001405835151672,
      "learning_rate": 0.00029203687843752765,
      "loss": 4.0626,
      "step": 51800
    },
    {
      "epoch": 0.1079375,
      "grad_norm": 0.8635058999061584,
      "learning_rate": 0.0002920337086910281,
      "loss": 4.2239,
      "step": 51810
    },
    {
      "epoch": 0.10795833333333334,
      "grad_norm": 1.1454095840454102,
      "learning_rate": 0.0002920305383309991,
      "loss": 4.104,
      "step": 51820
    },
    {
      "epoch": 0.10797916666666667,
      "grad_norm": 0.9484710097312927,
      "learning_rate": 0.00029202736735745445,
      "loss": 4.2766,
      "step": 51830
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.8903378248214722,
      "learning_rate": 0.0002920241957704077,
      "loss": 4.0666,
      "step": 51840
    },
    {
      "epoch": 0.10802083333333333,
      "grad_norm": 0.9169440269470215,
      "learning_rate": 0.0002920210235698727,
      "loss": 4.0583,
      "step": 51850
    },
    {
      "epoch": 0.10804166666666666,
      "grad_norm": 0.8828771710395813,
      "learning_rate": 0.0002920178507558631,
      "loss": 4.1815,
      "step": 51860
    },
    {
      "epoch": 0.1080625,
      "grad_norm": 1.1275300979614258,
      "learning_rate": 0.0002920146773283926,
      "loss": 4.3253,
      "step": 51870
    },
    {
      "epoch": 0.10808333333333334,
      "grad_norm": 0.920203685760498,
      "learning_rate": 0.0002920115032874749,
      "loss": 4.1365,
      "step": 51880
    },
    {
      "epoch": 0.10810416666666667,
      "grad_norm": 0.8636837005615234,
      "learning_rate": 0.0002920083286331237,
      "loss": 4.2104,
      "step": 51890
    },
    {
      "epoch": 0.108125,
      "grad_norm": 0.8896751403808594,
      "learning_rate": 0.0002920051533653527,
      "loss": 4.1514,
      "step": 51900
    },
    {
      "epoch": 0.10814583333333333,
      "grad_norm": 0.9243478775024414,
      "learning_rate": 0.00029200197748417575,
      "loss": 4.2032,
      "step": 51910
    },
    {
      "epoch": 0.10816666666666666,
      "grad_norm": 0.9065152406692505,
      "learning_rate": 0.00029199880098960637,
      "loss": 4.1748,
      "step": 51920
    },
    {
      "epoch": 0.1081875,
      "grad_norm": 0.9744280576705933,
      "learning_rate": 0.00029199562388165844,
      "loss": 4.3078,
      "step": 51930
    },
    {
      "epoch": 0.10820833333333334,
      "grad_norm": 0.9429393410682678,
      "learning_rate": 0.0002919924461603455,
      "loss": 4.1462,
      "step": 51940
    },
    {
      "epoch": 0.10822916666666667,
      "grad_norm": 0.9588996767997742,
      "learning_rate": 0.00029198926782568154,
      "loss": 4.0399,
      "step": 51950
    },
    {
      "epoch": 0.10825,
      "grad_norm": 0.8813022375106812,
      "learning_rate": 0.0002919860888776801,
      "loss": 4.1751,
      "step": 51960
    },
    {
      "epoch": 0.10827083333333333,
      "grad_norm": 0.9252405166625977,
      "learning_rate": 0.00029198290931635494,
      "loss": 4.2223,
      "step": 51970
    },
    {
      "epoch": 0.10829166666666666,
      "grad_norm": 0.8757147789001465,
      "learning_rate": 0.00029197972914171987,
      "loss": 4.0966,
      "step": 51980
    },
    {
      "epoch": 0.1083125,
      "grad_norm": 0.9192608594894409,
      "learning_rate": 0.0002919765483537885,
      "loss": 4.1943,
      "step": 51990
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.9209486842155457,
      "learning_rate": 0.00029197336695257467,
      "loss": 4.2229,
      "step": 52000
    },
    {
      "epoch": 0.10833333333333334,
      "eval_loss": 3.916414260864258,
      "eval_runtime": 7.2037,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 52000
    },
    {
      "epoch": 0.10835416666666667,
      "grad_norm": 0.987799346446991,
      "learning_rate": 0.0002919701849380921,
      "loss": 4.1427,
      "step": 52010
    },
    {
      "epoch": 0.108375,
      "grad_norm": 0.9604342579841614,
      "learning_rate": 0.00029196700231035445,
      "loss": 4.0799,
      "step": 52020
    },
    {
      "epoch": 0.10839583333333333,
      "grad_norm": 1.0152133703231812,
      "learning_rate": 0.00029196381906937565,
      "loss": 4.175,
      "step": 52030
    },
    {
      "epoch": 0.10841666666666666,
      "grad_norm": 0.8792324066162109,
      "learning_rate": 0.00029196063521516927,
      "loss": 4.1482,
      "step": 52040
    },
    {
      "epoch": 0.1084375,
      "grad_norm": 1.0422097444534302,
      "learning_rate": 0.00029195745074774915,
      "loss": 4.2842,
      "step": 52050
    },
    {
      "epoch": 0.10845833333333334,
      "grad_norm": 0.9505194425582886,
      "learning_rate": 0.00029195426566712906,
      "loss": 4.2356,
      "step": 52060
    },
    {
      "epoch": 0.10847916666666667,
      "grad_norm": 0.9579784870147705,
      "learning_rate": 0.00029195107997332276,
      "loss": 4.337,
      "step": 52070
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.8427579402923584,
      "learning_rate": 0.0002919478936663439,
      "loss": 4.3114,
      "step": 52080
    },
    {
      "epoch": 0.10852083333333333,
      "grad_norm": 0.8415554165840149,
      "learning_rate": 0.0002919447067462064,
      "loss": 4.3524,
      "step": 52090
    },
    {
      "epoch": 0.10854166666666666,
      "grad_norm": 0.88618403673172,
      "learning_rate": 0.00029194151921292395,
      "loss": 4.1151,
      "step": 52100
    },
    {
      "epoch": 0.1085625,
      "grad_norm": 1.0510352849960327,
      "learning_rate": 0.0002919383310665103,
      "loss": 4.0055,
      "step": 52110
    },
    {
      "epoch": 0.10858333333333334,
      "grad_norm": 0.9018760919570923,
      "learning_rate": 0.00029193514230697925,
      "loss": 4.1622,
      "step": 52120
    },
    {
      "epoch": 0.10860416666666667,
      "grad_norm": 0.9738093018531799,
      "learning_rate": 0.00029193195293434455,
      "loss": 4.1365,
      "step": 52130
    },
    {
      "epoch": 0.108625,
      "grad_norm": 0.8605054020881653,
      "learning_rate": 0.00029192876294861997,
      "loss": 4.0083,
      "step": 52140
    },
    {
      "epoch": 0.10864583333333333,
      "grad_norm": 0.968164324760437,
      "learning_rate": 0.00029192557234981935,
      "loss": 4.156,
      "step": 52150
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 0.9446110129356384,
      "learning_rate": 0.00029192238113795644,
      "loss": 3.9597,
      "step": 52160
    },
    {
      "epoch": 0.1086875,
      "grad_norm": 0.9689451456069946,
      "learning_rate": 0.000291919189313045,
      "loss": 4.1546,
      "step": 52170
    },
    {
      "epoch": 0.10870833333333334,
      "grad_norm": 0.9119531512260437,
      "learning_rate": 0.0002919159968750988,
      "loss": 4.2555,
      "step": 52180
    },
    {
      "epoch": 0.10872916666666667,
      "grad_norm": 0.9096218347549438,
      "learning_rate": 0.0002919128038241318,
      "loss": 4.1885,
      "step": 52190
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.8716607689857483,
      "learning_rate": 0.0002919096101601575,
      "loss": 4.2379,
      "step": 52200
    },
    {
      "epoch": 0.10877083333333333,
      "grad_norm": 0.9799846410751343,
      "learning_rate": 0.00029190641588319,
      "loss": 4.2517,
      "step": 52210
    },
    {
      "epoch": 0.10879166666666666,
      "grad_norm": 0.8944053649902344,
      "learning_rate": 0.00029190322099324284,
      "loss": 4.004,
      "step": 52220
    },
    {
      "epoch": 0.1088125,
      "grad_norm": 0.8759834170341492,
      "learning_rate": 0.00029190002549033,
      "loss": 4.2006,
      "step": 52230
    },
    {
      "epoch": 0.10883333333333334,
      "grad_norm": 0.8884318470954895,
      "learning_rate": 0.0002918968293744652,
      "loss": 3.9034,
      "step": 52240
    },
    {
      "epoch": 0.10885416666666667,
      "grad_norm": 0.9576098918914795,
      "learning_rate": 0.0002918936326456623,
      "loss": 4.0176,
      "step": 52250
    },
    {
      "epoch": 0.108875,
      "grad_norm": 0.9126552939414978,
      "learning_rate": 0.000291890435303935,
      "loss": 4.0585,
      "step": 52260
    },
    {
      "epoch": 0.10889583333333333,
      "grad_norm": 0.8319188952445984,
      "learning_rate": 0.0002918872373492972,
      "loss": 4.3257,
      "step": 52270
    },
    {
      "epoch": 0.10891666666666666,
      "grad_norm": 0.8891089558601379,
      "learning_rate": 0.00029188403878176275,
      "loss": 4.312,
      "step": 52280
    },
    {
      "epoch": 0.1089375,
      "grad_norm": 0.8880292177200317,
      "learning_rate": 0.0002918808396013454,
      "loss": 4.2145,
      "step": 52290
    },
    {
      "epoch": 0.10895833333333334,
      "grad_norm": 0.9674652814865112,
      "learning_rate": 0.0002918776398080589,
      "loss": 4.2084,
      "step": 52300
    },
    {
      "epoch": 0.10897916666666667,
      "grad_norm": 0.9576848745346069,
      "learning_rate": 0.00029187443940191727,
      "loss": 4.2596,
      "step": 52310
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.8333049416542053,
      "learning_rate": 0.00029187123838293413,
      "loss": 4.1029,
      "step": 52320
    },
    {
      "epoch": 0.10902083333333333,
      "grad_norm": 1.2293459177017212,
      "learning_rate": 0.00029186803675112344,
      "loss": 4.146,
      "step": 52330
    },
    {
      "epoch": 0.10904166666666666,
      "grad_norm": 1.0322234630584717,
      "learning_rate": 0.000291864834506499,
      "loss": 4.0148,
      "step": 52340
    },
    {
      "epoch": 0.1090625,
      "grad_norm": 1.095353126525879,
      "learning_rate": 0.0002918616316490746,
      "loss": 4.1962,
      "step": 52350
    },
    {
      "epoch": 0.10908333333333334,
      "grad_norm": 1.0648555755615234,
      "learning_rate": 0.0002918584281788641,
      "loss": 3.994,
      "step": 52360
    },
    {
      "epoch": 0.10910416666666667,
      "grad_norm": 0.8703906536102295,
      "learning_rate": 0.0002918552240958814,
      "loss": 4.206,
      "step": 52370
    },
    {
      "epoch": 0.109125,
      "grad_norm": 0.9477615356445312,
      "learning_rate": 0.0002918520194001402,
      "loss": 4.2089,
      "step": 52380
    },
    {
      "epoch": 0.10914583333333333,
      "grad_norm": 0.88669753074646,
      "learning_rate": 0.0002918488140916545,
      "loss": 4.1953,
      "step": 52390
    },
    {
      "epoch": 0.10916666666666666,
      "grad_norm": 0.9998571872711182,
      "learning_rate": 0.000291845608170438,
      "loss": 4.3069,
      "step": 52400
    },
    {
      "epoch": 0.1091875,
      "grad_norm": 0.8579384088516235,
      "learning_rate": 0.00029184240163650466,
      "loss": 4.271,
      "step": 52410
    },
    {
      "epoch": 0.10920833333333334,
      "grad_norm": 0.9055643081665039,
      "learning_rate": 0.0002918391944898683,
      "loss": 4.2183,
      "step": 52420
    },
    {
      "epoch": 0.10922916666666667,
      "grad_norm": 0.8412454128265381,
      "learning_rate": 0.0002918359867305427,
      "loss": 3.9925,
      "step": 52430
    },
    {
      "epoch": 0.10925,
      "grad_norm": 0.905200183391571,
      "learning_rate": 0.00029183277835854185,
      "loss": 4.3132,
      "step": 52440
    },
    {
      "epoch": 0.10927083333333333,
      "grad_norm": 0.9002953171730042,
      "learning_rate": 0.0002918295693738795,
      "loss": 4.0422,
      "step": 52450
    },
    {
      "epoch": 0.10929166666666666,
      "grad_norm": 0.9438139200210571,
      "learning_rate": 0.00029182635977656956,
      "loss": 4.1216,
      "step": 52460
    },
    {
      "epoch": 0.1093125,
      "grad_norm": 0.9451523423194885,
      "learning_rate": 0.00029182314956662593,
      "loss": 4.1748,
      "step": 52470
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 0.882423996925354,
      "learning_rate": 0.0002918199387440624,
      "loss": 3.9744,
      "step": 52480
    },
    {
      "epoch": 0.10935416666666667,
      "grad_norm": 0.8872873783111572,
      "learning_rate": 0.0002918167273088928,
      "loss": 4.1364,
      "step": 52490
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.9649819135665894,
      "learning_rate": 0.00029181351526113116,
      "loss": 4.1483,
      "step": 52500
    },
    {
      "epoch": 0.10939583333333333,
      "grad_norm": 0.9341323971748352,
      "learning_rate": 0.00029181030260079125,
      "loss": 4.3161,
      "step": 52510
    },
    {
      "epoch": 0.10941666666666666,
      "grad_norm": 0.8396427035331726,
      "learning_rate": 0.00029180708932788693,
      "loss": 4.2431,
      "step": 52520
    },
    {
      "epoch": 0.1094375,
      "grad_norm": 0.9158951044082642,
      "learning_rate": 0.0002918038754424322,
      "loss": 4.2128,
      "step": 52530
    },
    {
      "epoch": 0.10945833333333334,
      "grad_norm": 0.8803228735923767,
      "learning_rate": 0.00029180066094444077,
      "loss": 4.1907,
      "step": 52540
    },
    {
      "epoch": 0.10947916666666667,
      "grad_norm": 0.9034837484359741,
      "learning_rate": 0.00029179744583392663,
      "loss": 4.0755,
      "step": 52550
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.8370156288146973,
      "learning_rate": 0.00029179423011090364,
      "loss": 4.2771,
      "step": 52560
    },
    {
      "epoch": 0.10952083333333333,
      "grad_norm": 0.9098459482192993,
      "learning_rate": 0.0002917910137753858,
      "loss": 4.2433,
      "step": 52570
    },
    {
      "epoch": 0.10954166666666666,
      "grad_norm": 0.9785319566726685,
      "learning_rate": 0.0002917877968273868,
      "loss": 4.0588,
      "step": 52580
    },
    {
      "epoch": 0.1095625,
      "grad_norm": 0.8483111262321472,
      "learning_rate": 0.0002917845792669207,
      "loss": 4.1489,
      "step": 52590
    },
    {
      "epoch": 0.10958333333333334,
      "grad_norm": 1.1036263704299927,
      "learning_rate": 0.0002917813610940013,
      "loss": 4.1445,
      "step": 52600
    },
    {
      "epoch": 0.10960416666666667,
      "grad_norm": 1.0004631280899048,
      "learning_rate": 0.00029177814230864254,
      "loss": 4.0776,
      "step": 52610
    },
    {
      "epoch": 0.109625,
      "grad_norm": 0.8542395830154419,
      "learning_rate": 0.0002917749229108583,
      "loss": 4.3163,
      "step": 52620
    },
    {
      "epoch": 0.10964583333333333,
      "grad_norm": 0.9128074645996094,
      "learning_rate": 0.0002917717029006626,
      "loss": 4.2953,
      "step": 52630
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 0.9302691221237183,
      "learning_rate": 0.00029176848227806924,
      "loss": 4.1364,
      "step": 52640
    },
    {
      "epoch": 0.1096875,
      "grad_norm": 0.9425579309463501,
      "learning_rate": 0.00029176526104309207,
      "loss": 4.1413,
      "step": 52650
    },
    {
      "epoch": 0.10970833333333334,
      "grad_norm": 0.8321523666381836,
      "learning_rate": 0.00029176203919574516,
      "loss": 3.8851,
      "step": 52660
    },
    {
      "epoch": 0.10972916666666667,
      "grad_norm": 0.8969583511352539,
      "learning_rate": 0.00029175881673604233,
      "loss": 4.0855,
      "step": 52670
    },
    {
      "epoch": 0.10975,
      "grad_norm": 0.9672961831092834,
      "learning_rate": 0.00029175559366399756,
      "loss": 4.2296,
      "step": 52680
    },
    {
      "epoch": 0.10977083333333333,
      "grad_norm": 0.9369964599609375,
      "learning_rate": 0.0002917523699796247,
      "loss": 4.1248,
      "step": 52690
    },
    {
      "epoch": 0.10979166666666666,
      "grad_norm": 0.9246616363525391,
      "learning_rate": 0.00029174914568293767,
      "loss": 4.2403,
      "step": 52700
    },
    {
      "epoch": 0.1098125,
      "grad_norm": 0.8919251561164856,
      "learning_rate": 0.0002917459207739505,
      "loss": 4.0782,
      "step": 52710
    },
    {
      "epoch": 0.10983333333333334,
      "grad_norm": 0.8908641934394836,
      "learning_rate": 0.00029174269525267704,
      "loss": 4.1324,
      "step": 52720
    },
    {
      "epoch": 0.10985416666666667,
      "grad_norm": 0.908602237701416,
      "learning_rate": 0.00029173946911913124,
      "loss": 4.1073,
      "step": 52730
    },
    {
      "epoch": 0.109875,
      "grad_norm": 0.9185516238212585,
      "learning_rate": 0.00029173624237332704,
      "loss": 4.1266,
      "step": 52740
    },
    {
      "epoch": 0.10989583333333333,
      "grad_norm": 0.8495641350746155,
      "learning_rate": 0.0002917330150152784,
      "loss": 4.2937,
      "step": 52750
    },
    {
      "epoch": 0.10991666666666666,
      "grad_norm": 0.808298647403717,
      "learning_rate": 0.0002917297870449992,
      "loss": 4.2199,
      "step": 52760
    },
    {
      "epoch": 0.1099375,
      "grad_norm": 0.8577120304107666,
      "learning_rate": 0.0002917265584625034,
      "loss": 4.1546,
      "step": 52770
    },
    {
      "epoch": 0.10995833333333334,
      "grad_norm": 0.9585517644882202,
      "learning_rate": 0.00029172332926780505,
      "loss": 4.0717,
      "step": 52780
    },
    {
      "epoch": 0.10997916666666667,
      "grad_norm": 0.9211872220039368,
      "learning_rate": 0.000291720099460918,
      "loss": 4.2466,
      "step": 52790
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8704685568809509,
      "learning_rate": 0.0002917168690418562,
      "loss": 3.9924,
      "step": 52800
    },
    {
      "epoch": 0.11002083333333333,
      "grad_norm": 0.8841008543968201,
      "learning_rate": 0.00029171363801063356,
      "loss": 4.1446,
      "step": 52810
    },
    {
      "epoch": 0.11004166666666666,
      "grad_norm": 0.8912370204925537,
      "learning_rate": 0.00029171040636726415,
      "loss": 4.167,
      "step": 52820
    },
    {
      "epoch": 0.1100625,
      "grad_norm": 0.805146336555481,
      "learning_rate": 0.0002917071741117619,
      "loss": 4.3157,
      "step": 52830
    },
    {
      "epoch": 0.11008333333333334,
      "grad_norm": 0.8932366371154785,
      "learning_rate": 0.0002917039412441407,
      "loss": 4.0269,
      "step": 52840
    },
    {
      "epoch": 0.11010416666666667,
      "grad_norm": 0.9976405501365662,
      "learning_rate": 0.0002917007077644146,
      "loss": 4.1876,
      "step": 52850
    },
    {
      "epoch": 0.110125,
      "grad_norm": 0.8735794425010681,
      "learning_rate": 0.0002916974736725975,
      "loss": 4.0624,
      "step": 52860
    },
    {
      "epoch": 0.11014583333333333,
      "grad_norm": 3.1321194171905518,
      "learning_rate": 0.00029169423896870344,
      "loss": 4.1274,
      "step": 52870
    },
    {
      "epoch": 0.11016666666666666,
      "grad_norm": 1.1900876760482788,
      "learning_rate": 0.00029169100365274636,
      "loss": 4.1616,
      "step": 52880
    },
    {
      "epoch": 0.1101875,
      "grad_norm": 0.9093335270881653,
      "learning_rate": 0.00029168776772474017,
      "loss": 4.3088,
      "step": 52890
    },
    {
      "epoch": 0.11020833333333334,
      "grad_norm": 0.8529661893844604,
      "learning_rate": 0.00029168453118469894,
      "loss": 4.37,
      "step": 52900
    },
    {
      "epoch": 0.11022916666666667,
      "grad_norm": 0.9107137322425842,
      "learning_rate": 0.0002916812940326366,
      "loss": 4.203,
      "step": 52910
    },
    {
      "epoch": 0.11025,
      "grad_norm": 0.9081243872642517,
      "learning_rate": 0.0002916780562685672,
      "loss": 4.2926,
      "step": 52920
    },
    {
      "epoch": 0.11027083333333333,
      "grad_norm": 0.907800018787384,
      "learning_rate": 0.00029167481789250466,
      "loss": 4.3742,
      "step": 52930
    },
    {
      "epoch": 0.11029166666666666,
      "grad_norm": 0.9708777666091919,
      "learning_rate": 0.0002916715789044629,
      "loss": 4.3103,
      "step": 52940
    },
    {
      "epoch": 0.1103125,
      "grad_norm": 1.0586436986923218,
      "learning_rate": 0.00029166833930445614,
      "loss": 4.4008,
      "step": 52950
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 0.850028932094574,
      "learning_rate": 0.00029166509909249813,
      "loss": 4.081,
      "step": 52960
    },
    {
      "epoch": 0.11035416666666667,
      "grad_norm": 0.9394668340682983,
      "learning_rate": 0.000291661858268603,
      "loss": 4.3743,
      "step": 52970
    },
    {
      "epoch": 0.110375,
      "grad_norm": 0.9313599467277527,
      "learning_rate": 0.00029165861683278475,
      "loss": 4.2147,
      "step": 52980
    },
    {
      "epoch": 0.11039583333333333,
      "grad_norm": 0.9001222848892212,
      "learning_rate": 0.0002916553747850573,
      "loss": 4.2382,
      "step": 52990
    },
    {
      "epoch": 0.11041666666666666,
      "grad_norm": 0.9551032185554504,
      "learning_rate": 0.0002916521321254347,
      "loss": 4.191,
      "step": 53000
    },
    {
      "epoch": 0.11041666666666666,
      "eval_loss": 3.9074883460998535,
      "eval_runtime": 7.212,
      "eval_samples_per_second": 1.387,
      "eval_steps_per_second": 0.416,
      "step": 53000
    },
    {
      "epoch": 0.1104375,
      "grad_norm": 0.8143689036369324,
      "learning_rate": 0.0002916488888539309,
      "loss": 4.2163,
      "step": 53010
    },
    {
      "epoch": 0.11045833333333334,
      "grad_norm": 1.0175409317016602,
      "learning_rate": 0.0002916456449705601,
      "loss": 4.1006,
      "step": 53020
    },
    {
      "epoch": 0.11047916666666667,
      "grad_norm": 0.9228057265281677,
      "learning_rate": 0.00029164240047533616,
      "loss": 4.1244,
      "step": 53030
    },
    {
      "epoch": 0.1105,
      "grad_norm": 1.5975221395492554,
      "learning_rate": 0.00029163915536827305,
      "loss": 4.1623,
      "step": 53040
    },
    {
      "epoch": 0.11052083333333333,
      "grad_norm": 0.9738703370094299,
      "learning_rate": 0.0002916359096493849,
      "loss": 4.3469,
      "step": 53050
    },
    {
      "epoch": 0.11054166666666666,
      "grad_norm": 0.913037121295929,
      "learning_rate": 0.0002916326633186856,
      "loss": 4.2649,
      "step": 53060
    },
    {
      "epoch": 0.1105625,
      "grad_norm": 0.8401748538017273,
      "learning_rate": 0.00029162941637618934,
      "loss": 4.2125,
      "step": 53070
    },
    {
      "epoch": 0.11058333333333334,
      "grad_norm": 0.8693011403083801,
      "learning_rate": 0.0002916261688219101,
      "loss": 4.1831,
      "step": 53080
    },
    {
      "epoch": 0.11060416666666667,
      "grad_norm": 0.8459715247154236,
      "learning_rate": 0.0002916229206558618,
      "loss": 4.083,
      "step": 53090
    },
    {
      "epoch": 0.110625,
      "grad_norm": 1.183125376701355,
      "learning_rate": 0.0002916196718780585,
      "loss": 4.2889,
      "step": 53100
    },
    {
      "epoch": 0.11064583333333333,
      "grad_norm": 0.9694381952285767,
      "learning_rate": 0.00029161642248851436,
      "loss": 4.3398,
      "step": 53110
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.9475009441375732,
      "learning_rate": 0.00029161317248724327,
      "loss": 4.0293,
      "step": 53120
    },
    {
      "epoch": 0.1106875,
      "grad_norm": 0.959336519241333,
      "learning_rate": 0.00029160992187425935,
      "loss": 4.1671,
      "step": 53130
    },
    {
      "epoch": 0.11070833333333334,
      "grad_norm": 0.8693987727165222,
      "learning_rate": 0.00029160667064957664,
      "loss": 4.019,
      "step": 53140
    },
    {
      "epoch": 0.11072916666666667,
      "grad_norm": 0.9340445399284363,
      "learning_rate": 0.0002916034188132092,
      "loss": 4.2043,
      "step": 53150
    },
    {
      "epoch": 0.11075,
      "grad_norm": 0.8576148748397827,
      "learning_rate": 0.0002916001663651709,
      "loss": 4.2039,
      "step": 53160
    },
    {
      "epoch": 0.11077083333333333,
      "grad_norm": 1.031847596168518,
      "learning_rate": 0.0002915969133054761,
      "loss": 4.0431,
      "step": 53170
    },
    {
      "epoch": 0.11079166666666666,
      "grad_norm": 0.8955792188644409,
      "learning_rate": 0.0002915936596341386,
      "loss": 4.2349,
      "step": 53180
    },
    {
      "epoch": 0.1108125,
      "grad_norm": 0.9716835021972656,
      "learning_rate": 0.00029159040535117254,
      "loss": 4.0391,
      "step": 53190
    },
    {
      "epoch": 0.11083333333333334,
      "grad_norm": 0.8737497925758362,
      "learning_rate": 0.000291587150456592,
      "loss": 4.2152,
      "step": 53200
    },
    {
      "epoch": 0.11085416666666667,
      "grad_norm": 0.9836039543151855,
      "learning_rate": 0.00029158389495041097,
      "loss": 3.9482,
      "step": 53210
    },
    {
      "epoch": 0.110875,
      "grad_norm": 0.9312937259674072,
      "learning_rate": 0.0002915806388326436,
      "loss": 4.0648,
      "step": 53220
    },
    {
      "epoch": 0.11089583333333333,
      "grad_norm": 0.9466415643692017,
      "learning_rate": 0.00029157738210330386,
      "loss": 4.1595,
      "step": 53230
    },
    {
      "epoch": 0.11091666666666666,
      "grad_norm": 0.8358887434005737,
      "learning_rate": 0.00029157412476240593,
      "loss": 4.3619,
      "step": 53240
    },
    {
      "epoch": 0.1109375,
      "grad_norm": 0.9667211174964905,
      "learning_rate": 0.00029157086680996376,
      "loss": 4.0342,
      "step": 53250
    },
    {
      "epoch": 0.11095833333333334,
      "grad_norm": 0.9398954510688782,
      "learning_rate": 0.0002915676082459915,
      "loss": 4.1844,
      "step": 53260
    },
    {
      "epoch": 0.11097916666666667,
      "grad_norm": 0.9608138203620911,
      "learning_rate": 0.00029156434907050326,
      "loss": 4.0598,
      "step": 53270
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.9156761169433594,
      "learning_rate": 0.000291561089283513,
      "loss": 4.2038,
      "step": 53280
    },
    {
      "epoch": 0.11102083333333333,
      "grad_norm": 0.8742775321006775,
      "learning_rate": 0.0002915578288850349,
      "loss": 4.1066,
      "step": 53290
    },
    {
      "epoch": 0.11104166666666666,
      "grad_norm": 1.0402873754501343,
      "learning_rate": 0.000291554567875083,
      "loss": 4.4051,
      "step": 53300
    },
    {
      "epoch": 0.1110625,
      "grad_norm": 0.8448276519775391,
      "learning_rate": 0.00029155130625367143,
      "loss": 4.2109,
      "step": 53310
    },
    {
      "epoch": 0.11108333333333334,
      "grad_norm": 0.8400194048881531,
      "learning_rate": 0.0002915480440208142,
      "loss": 4.1079,
      "step": 53320
    },
    {
      "epoch": 0.11110416666666667,
      "grad_norm": 1.0269975662231445,
      "learning_rate": 0.0002915447811765255,
      "loss": 4.4322,
      "step": 53330
    },
    {
      "epoch": 0.111125,
      "grad_norm": 0.9461647272109985,
      "learning_rate": 0.0002915415177208193,
      "loss": 4.1729,
      "step": 53340
    },
    {
      "epoch": 0.11114583333333333,
      "grad_norm": 0.8621960282325745,
      "learning_rate": 0.00029153825365370984,
      "loss": 4.0936,
      "step": 53350
    },
    {
      "epoch": 0.11116666666666666,
      "grad_norm": 1.1114752292633057,
      "learning_rate": 0.0002915349889752111,
      "loss": 4.2439,
      "step": 53360
    },
    {
      "epoch": 0.1111875,
      "grad_norm": 0.959582507610321,
      "learning_rate": 0.0002915317236853373,
      "loss": 4.1782,
      "step": 53370
    },
    {
      "epoch": 0.11120833333333334,
      "grad_norm": 0.8811309933662415,
      "learning_rate": 0.00029152845778410245,
      "loss": 4.3142,
      "step": 53380
    },
    {
      "epoch": 0.11122916666666667,
      "grad_norm": 0.8695549368858337,
      "learning_rate": 0.00029152519127152065,
      "loss": 4.2833,
      "step": 53390
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.8545175194740295,
      "learning_rate": 0.00029152192414760603,
      "loss": 4.0865,
      "step": 53400
    },
    {
      "epoch": 0.11127083333333333,
      "grad_norm": 0.8917717337608337,
      "learning_rate": 0.00029151865641237275,
      "loss": 4.0232,
      "step": 53410
    },
    {
      "epoch": 0.11129166666666666,
      "grad_norm": 0.9158048629760742,
      "learning_rate": 0.0002915153880658349,
      "loss": 4.0725,
      "step": 53420
    },
    {
      "epoch": 0.1113125,
      "grad_norm": 0.8332943320274353,
      "learning_rate": 0.00029151211910800656,
      "loss": 4.0474,
      "step": 53430
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 1.0592769384384155,
      "learning_rate": 0.0002915088495389019,
      "loss": 4.1679,
      "step": 53440
    },
    {
      "epoch": 0.11135416666666667,
      "grad_norm": 0.9120292067527771,
      "learning_rate": 0.000291505579358535,
      "loss": 4.2521,
      "step": 53450
    },
    {
      "epoch": 0.111375,
      "grad_norm": 0.9105875492095947,
      "learning_rate": 0.00029150230856692,
      "loss": 4.4482,
      "step": 53460
    },
    {
      "epoch": 0.11139583333333333,
      "grad_norm": 0.903071939945221,
      "learning_rate": 0.0002914990371640711,
      "loss": 4.2222,
      "step": 53470
    },
    {
      "epoch": 0.11141666666666666,
      "grad_norm": 1.048361897468567,
      "learning_rate": 0.00029149576515000234,
      "loss": 4.0492,
      "step": 53480
    },
    {
      "epoch": 0.1114375,
      "grad_norm": 0.833075225353241,
      "learning_rate": 0.00029149249252472784,
      "loss": 4.1762,
      "step": 53490
    },
    {
      "epoch": 0.11145833333333334,
      "grad_norm": 0.9872314929962158,
      "learning_rate": 0.00029148921928826184,
      "loss": 4.2133,
      "step": 53500
    },
    {
      "epoch": 0.11147916666666667,
      "grad_norm": 0.9182893633842468,
      "learning_rate": 0.0002914859454406184,
      "loss": 4.2213,
      "step": 53510
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.9283534288406372,
      "learning_rate": 0.00029148267098181164,
      "loss": 4.0678,
      "step": 53520
    },
    {
      "epoch": 0.11152083333333333,
      "grad_norm": 0.9420158863067627,
      "learning_rate": 0.0002914793959118558,
      "loss": 4.173,
      "step": 53530
    },
    {
      "epoch": 0.11154166666666666,
      "grad_norm": 0.9607356190681458,
      "learning_rate": 0.00029147612023076495,
      "loss": 4.3564,
      "step": 53540
    },
    {
      "epoch": 0.1115625,
      "grad_norm": 0.9119048714637756,
      "learning_rate": 0.00029147284393855324,
      "loss": 4.2757,
      "step": 53550
    },
    {
      "epoch": 0.11158333333333334,
      "grad_norm": 0.9014254808425903,
      "learning_rate": 0.0002914695670352349,
      "loss": 4.1485,
      "step": 53560
    },
    {
      "epoch": 0.11160416666666667,
      "grad_norm": 0.8824342489242554,
      "learning_rate": 0.0002914662895208239,
      "loss": 4.0029,
      "step": 53570
    },
    {
      "epoch": 0.111625,
      "grad_norm": 0.8713806867599487,
      "learning_rate": 0.00029146301139533465,
      "loss": 4.206,
      "step": 53580
    },
    {
      "epoch": 0.11164583333333333,
      "grad_norm": 0.9425069093704224,
      "learning_rate": 0.0002914597326587811,
      "loss": 4.2101,
      "step": 53590
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.9373923540115356,
      "learning_rate": 0.0002914564533111776,
      "loss": 4.3736,
      "step": 53600
    },
    {
      "epoch": 0.1116875,
      "grad_norm": 0.8854429721832275,
      "learning_rate": 0.0002914531733525382,
      "loss": 4.0615,
      "step": 53610
    },
    {
      "epoch": 0.11170833333333334,
      "grad_norm": 0.90018630027771,
      "learning_rate": 0.000291449892782877,
      "loss": 4.1059,
      "step": 53620
    },
    {
      "epoch": 0.11172916666666667,
      "grad_norm": 0.949371337890625,
      "learning_rate": 0.0002914466116022083,
      "loss": 4.3102,
      "step": 53630
    },
    {
      "epoch": 0.11175,
      "grad_norm": 0.8808304667472839,
      "learning_rate": 0.00029144332981054623,
      "loss": 4.2048,
      "step": 53640
    },
    {
      "epoch": 0.11177083333333333,
      "grad_norm": 0.8867247700691223,
      "learning_rate": 0.00029144004740790493,
      "loss": 4.184,
      "step": 53650
    },
    {
      "epoch": 0.11179166666666666,
      "grad_norm": 0.837053656578064,
      "learning_rate": 0.0002914367643942987,
      "loss": 3.9923,
      "step": 53660
    },
    {
      "epoch": 0.1118125,
      "grad_norm": 0.8286038041114807,
      "learning_rate": 0.0002914334807697416,
      "loss": 4.3279,
      "step": 53670
    },
    {
      "epoch": 0.11183333333333334,
      "grad_norm": 0.9076210856437683,
      "learning_rate": 0.0002914301965342477,
      "loss": 4.0541,
      "step": 53680
    },
    {
      "epoch": 0.11185416666666667,
      "grad_norm": 0.8880716562271118,
      "learning_rate": 0.00029142691168783147,
      "loss": 4.1877,
      "step": 53690
    },
    {
      "epoch": 0.111875,
      "grad_norm": 0.9339820742607117,
      "learning_rate": 0.000291423626230507,
      "loss": 4.1344,
      "step": 53700
    },
    {
      "epoch": 0.11189583333333333,
      "grad_norm": 0.8893802762031555,
      "learning_rate": 0.00029142034016228834,
      "loss": 4.1801,
      "step": 53710
    },
    {
      "epoch": 0.11191666666666666,
      "grad_norm": 0.9082955718040466,
      "learning_rate": 0.00029141705348318986,
      "loss": 4.231,
      "step": 53720
    },
    {
      "epoch": 0.1119375,
      "grad_norm": 0.8776741623878479,
      "learning_rate": 0.00029141376619322564,
      "loss": 4.1782,
      "step": 53730
    },
    {
      "epoch": 0.11195833333333334,
      "grad_norm": 1.1091499328613281,
      "learning_rate": 0.00029141047829240994,
      "loss": 4.1321,
      "step": 53740
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 0.9564366340637207,
      "learning_rate": 0.00029140718978075696,
      "loss": 4.2464,
      "step": 53750
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.8613908290863037,
      "learning_rate": 0.0002914039006582809,
      "loss": 4.1003,
      "step": 53760
    },
    {
      "epoch": 0.11202083333333333,
      "grad_norm": 0.8742420673370361,
      "learning_rate": 0.0002914006109249959,
      "loss": 4.0674,
      "step": 53770
    },
    {
      "epoch": 0.11204166666666666,
      "grad_norm": 0.986895740032196,
      "learning_rate": 0.0002913973205809163,
      "loss": 4.3734,
      "step": 53780
    },
    {
      "epoch": 0.1120625,
      "grad_norm": 0.8981201648712158,
      "learning_rate": 0.0002913940296260562,
      "loss": 4.226,
      "step": 53790
    },
    {
      "epoch": 0.11208333333333333,
      "grad_norm": 1.0193804502487183,
      "learning_rate": 0.00029139073806042987,
      "loss": 4.0022,
      "step": 53800
    },
    {
      "epoch": 0.11210416666666667,
      "grad_norm": 0.8974348306655884,
      "learning_rate": 0.00029138744588405157,
      "loss": 4.2445,
      "step": 53810
    },
    {
      "epoch": 0.112125,
      "grad_norm": 0.9114535450935364,
      "learning_rate": 0.0002913841530969354,
      "loss": 4.1931,
      "step": 53820
    },
    {
      "epoch": 0.11214583333333333,
      "grad_norm": 0.9010357856750488,
      "learning_rate": 0.0002913808596990957,
      "loss": 4.113,
      "step": 53830
    },
    {
      "epoch": 0.11216666666666666,
      "grad_norm": 0.8665421009063721,
      "learning_rate": 0.00029137756569054665,
      "loss": 4.2774,
      "step": 53840
    },
    {
      "epoch": 0.1121875,
      "grad_norm": 0.9854426383972168,
      "learning_rate": 0.0002913742710713024,
      "loss": 4.0599,
      "step": 53850
    },
    {
      "epoch": 0.11220833333333333,
      "grad_norm": 1.0652835369110107,
      "learning_rate": 0.0002913709758413774,
      "loss": 4.1227,
      "step": 53860
    },
    {
      "epoch": 0.11222916666666667,
      "grad_norm": 0.8686535358428955,
      "learning_rate": 0.0002913676800007856,
      "loss": 4.1553,
      "step": 53870
    },
    {
      "epoch": 0.11225,
      "grad_norm": 0.8818095922470093,
      "learning_rate": 0.0002913643835495414,
      "loss": 4.3055,
      "step": 53880
    },
    {
      "epoch": 0.11227083333333333,
      "grad_norm": 0.8770860433578491,
      "learning_rate": 0.0002913610864876591,
      "loss": 3.966,
      "step": 53890
    },
    {
      "epoch": 0.11229166666666666,
      "grad_norm": 0.9207167029380798,
      "learning_rate": 0.0002913577888151528,
      "loss": 4.0516,
      "step": 53900
    },
    {
      "epoch": 0.1123125,
      "grad_norm": 0.929949164390564,
      "learning_rate": 0.0002913544905320368,
      "loss": 4.0591,
      "step": 53910
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 0.8950096964836121,
      "learning_rate": 0.0002913511916383254,
      "loss": 4.2039,
      "step": 53920
    },
    {
      "epoch": 0.11235416666666667,
      "grad_norm": 0.8501442670822144,
      "learning_rate": 0.00029134789213403273,
      "loss": 4.0115,
      "step": 53930
    },
    {
      "epoch": 0.112375,
      "grad_norm": 1.015971064567566,
      "learning_rate": 0.0002913445920191732,
      "loss": 4.1755,
      "step": 53940
    },
    {
      "epoch": 0.11239583333333333,
      "grad_norm": 0.889876663684845,
      "learning_rate": 0.00029134129129376095,
      "loss": 4.0339,
      "step": 53950
    },
    {
      "epoch": 0.11241666666666666,
      "grad_norm": 0.8753165006637573,
      "learning_rate": 0.00029133798995781025,
      "loss": 4.0195,
      "step": 53960
    },
    {
      "epoch": 0.1124375,
      "grad_norm": 0.8438998460769653,
      "learning_rate": 0.0002913346880113354,
      "loss": 4.0816,
      "step": 53970
    },
    {
      "epoch": 0.11245833333333333,
      "grad_norm": 0.7975265979766846,
      "learning_rate": 0.00029133138545435065,
      "loss": 4.1133,
      "step": 53980
    },
    {
      "epoch": 0.11247916666666667,
      "grad_norm": 0.8260418176651001,
      "learning_rate": 0.00029132808228687023,
      "loss": 4.0886,
      "step": 53990
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.8233270645141602,
      "learning_rate": 0.0002913247785089084,
      "loss": 4.0171,
      "step": 54000
    },
    {
      "epoch": 0.1125,
      "eval_loss": 3.9135050773620605,
      "eval_runtime": 6.7357,
      "eval_samples_per_second": 1.485,
      "eval_steps_per_second": 0.445,
      "step": 54000
    },
    {
      "epoch": 0.11252083333333333,
      "grad_norm": 0.9234899282455444,
      "learning_rate": 0.00029132147412047957,
      "loss": 4.1138,
      "step": 54010
    },
    {
      "epoch": 0.11254166666666666,
      "grad_norm": 0.8405981659889221,
      "learning_rate": 0.00029131816912159785,
      "loss": 4.1844,
      "step": 54020
    },
    {
      "epoch": 0.1125625,
      "grad_norm": 1.3567527532577515,
      "learning_rate": 0.00029131486351227756,
      "loss": 4.1355,
      "step": 54030
    },
    {
      "epoch": 0.11258333333333333,
      "grad_norm": 0.8549742698669434,
      "learning_rate": 0.000291311557292533,
      "loss": 4.049,
      "step": 54040
    },
    {
      "epoch": 0.11260416666666667,
      "grad_norm": 0.8618465662002563,
      "learning_rate": 0.0002913082504623785,
      "loss": 4.1951,
      "step": 54050
    },
    {
      "epoch": 0.112625,
      "grad_norm": 0.8437848091125488,
      "learning_rate": 0.00029130494302182826,
      "loss": 4.1936,
      "step": 54060
    },
    {
      "epoch": 0.11264583333333333,
      "grad_norm": 0.8933601975440979,
      "learning_rate": 0.0002913016349708966,
      "loss": 4.2383,
      "step": 54070
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 0.8451663255691528,
      "learning_rate": 0.0002912983263095978,
      "loss": 4.312,
      "step": 54080
    },
    {
      "epoch": 0.1126875,
      "grad_norm": 0.9005204439163208,
      "learning_rate": 0.00029129501703794615,
      "loss": 4.0489,
      "step": 54090
    },
    {
      "epoch": 0.11270833333333333,
      "grad_norm": 0.9056380391120911,
      "learning_rate": 0.00029129170715595597,
      "loss": 4.1861,
      "step": 54100
    },
    {
      "epoch": 0.11272916666666667,
      "grad_norm": 0.8677847981452942,
      "learning_rate": 0.0002912883966636415,
      "loss": 4.1768,
      "step": 54110
    },
    {
      "epoch": 0.11275,
      "grad_norm": 0.8535375595092773,
      "learning_rate": 0.00029128508556101716,
      "loss": 4.1587,
      "step": 54120
    },
    {
      "epoch": 0.11277083333333333,
      "grad_norm": 0.804908812046051,
      "learning_rate": 0.00029128177384809715,
      "loss": 4.0187,
      "step": 54130
    },
    {
      "epoch": 0.11279166666666667,
      "grad_norm": 0.8725108504295349,
      "learning_rate": 0.00029127846152489573,
      "loss": 3.9964,
      "step": 54140
    },
    {
      "epoch": 0.1128125,
      "grad_norm": 0.9258572459220886,
      "learning_rate": 0.0002912751485914274,
      "loss": 4.3406,
      "step": 54150
    },
    {
      "epoch": 0.11283333333333333,
      "grad_norm": 0.9578270316123962,
      "learning_rate": 0.0002912718350477063,
      "loss": 3.983,
      "step": 54160
    },
    {
      "epoch": 0.11285416666666667,
      "grad_norm": 0.9672595262527466,
      "learning_rate": 0.0002912685208937467,
      "loss": 4.0328,
      "step": 54170
    },
    {
      "epoch": 0.112875,
      "grad_norm": 1.0383886098861694,
      "learning_rate": 0.0002912652061295631,
      "loss": 4.1855,
      "step": 54180
    },
    {
      "epoch": 0.11289583333333333,
      "grad_norm": 0.8974713683128357,
      "learning_rate": 0.0002912618907551697,
      "loss": 4.0458,
      "step": 54190
    },
    {
      "epoch": 0.11291666666666667,
      "grad_norm": 0.882607638835907,
      "learning_rate": 0.00029125857477058087,
      "loss": 4.2257,
      "step": 54200
    },
    {
      "epoch": 0.1129375,
      "grad_norm": 0.9378365278244019,
      "learning_rate": 0.0002912552581758109,
      "loss": 4.3109,
      "step": 54210
    },
    {
      "epoch": 0.11295833333333333,
      "grad_norm": 0.8787636160850525,
      "learning_rate": 0.00029125194097087416,
      "loss": 4.1064,
      "step": 54220
    },
    {
      "epoch": 0.11297916666666667,
      "grad_norm": 1.1463675498962402,
      "learning_rate": 0.0002912486231557849,
      "loss": 4.2181,
      "step": 54230
    },
    {
      "epoch": 0.113,
      "grad_norm": 1.070422649383545,
      "learning_rate": 0.0002912453047305575,
      "loss": 4.1394,
      "step": 54240
    },
    {
      "epoch": 0.11302083333333333,
      "grad_norm": 0.8990514874458313,
      "learning_rate": 0.00029124198569520636,
      "loss": 4.1754,
      "step": 54250
    },
    {
      "epoch": 0.11304166666666667,
      "grad_norm": 0.8468137383460999,
      "learning_rate": 0.00029123866604974566,
      "loss": 4.0519,
      "step": 54260
    },
    {
      "epoch": 0.1130625,
      "grad_norm": 0.819600522518158,
      "learning_rate": 0.00029123534579418987,
      "loss": 4.2916,
      "step": 54270
    },
    {
      "epoch": 0.11308333333333333,
      "grad_norm": 0.9430649280548096,
      "learning_rate": 0.00029123202492855325,
      "loss": 4.2178,
      "step": 54280
    },
    {
      "epoch": 0.11310416666666667,
      "grad_norm": 1.110141396522522,
      "learning_rate": 0.0002912287034528502,
      "loss": 4.1667,
      "step": 54290
    },
    {
      "epoch": 0.113125,
      "grad_norm": 1.0395563840866089,
      "learning_rate": 0.00029122538136709507,
      "loss": 4.3397,
      "step": 54300
    },
    {
      "epoch": 0.11314583333333333,
      "grad_norm": 0.8231489062309265,
      "learning_rate": 0.00029122205867130224,
      "loss": 4.3356,
      "step": 54310
    },
    {
      "epoch": 0.11316666666666667,
      "grad_norm": 0.930220901966095,
      "learning_rate": 0.00029121873536548594,
      "loss": 4.0746,
      "step": 54320
    },
    {
      "epoch": 0.1131875,
      "grad_norm": 0.8491617441177368,
      "learning_rate": 0.00029121541144966063,
      "loss": 4.0191,
      "step": 54330
    },
    {
      "epoch": 0.11320833333333333,
      "grad_norm": 0.837597131729126,
      "learning_rate": 0.00029121208692384063,
      "loss": 4.1293,
      "step": 54340
    },
    {
      "epoch": 0.11322916666666667,
      "grad_norm": 1.022779107093811,
      "learning_rate": 0.00029120876178804036,
      "loss": 4.0371,
      "step": 54350
    },
    {
      "epoch": 0.11325,
      "grad_norm": 0.8622065782546997,
      "learning_rate": 0.00029120543604227407,
      "loss": 4.1916,
      "step": 54360
    },
    {
      "epoch": 0.11327083333333333,
      "grad_norm": 0.8454564213752747,
      "learning_rate": 0.0002912021096865562,
      "loss": 4.2156,
      "step": 54370
    },
    {
      "epoch": 0.11329166666666667,
      "grad_norm": 0.8824489712715149,
      "learning_rate": 0.00029119878272090117,
      "loss": 4.0006,
      "step": 54380
    },
    {
      "epoch": 0.1133125,
      "grad_norm": 0.8265823721885681,
      "learning_rate": 0.0002911954551453232,
      "loss": 4.2711,
      "step": 54390
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.8255786895751953,
      "learning_rate": 0.0002911921269598368,
      "loss": 4.2131,
      "step": 54400
    },
    {
      "epoch": 0.11335416666666667,
      "grad_norm": 0.8633739948272705,
      "learning_rate": 0.0002911887981644563,
      "loss": 4.0912,
      "step": 54410
    },
    {
      "epoch": 0.113375,
      "grad_norm": 0.8772262334823608,
      "learning_rate": 0.0002911854687591961,
      "loss": 4.2461,
      "step": 54420
    },
    {
      "epoch": 0.11339583333333333,
      "grad_norm": 0.9550832509994507,
      "learning_rate": 0.0002911821387440705,
      "loss": 4.0837,
      "step": 54430
    },
    {
      "epoch": 0.11341666666666667,
      "grad_norm": 0.9845169186592102,
      "learning_rate": 0.00029117880811909395,
      "loss": 4.1285,
      "step": 54440
    },
    {
      "epoch": 0.1134375,
      "grad_norm": 0.9566584825515747,
      "learning_rate": 0.0002911754768842809,
      "loss": 4.303,
      "step": 54450
    },
    {
      "epoch": 0.11345833333333333,
      "grad_norm": 0.8131940364837646,
      "learning_rate": 0.0002911721450396456,
      "loss": 4.3584,
      "step": 54460
    },
    {
      "epoch": 0.11347916666666667,
      "grad_norm": 0.943467378616333,
      "learning_rate": 0.00029116881258520254,
      "loss": 4.2215,
      "step": 54470
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.872852087020874,
      "learning_rate": 0.00029116547952096614,
      "loss": 4.0284,
      "step": 54480
    },
    {
      "epoch": 0.11352083333333333,
      "grad_norm": 0.9516780972480774,
      "learning_rate": 0.0002911621458469507,
      "loss": 4.1109,
      "step": 54490
    },
    {
      "epoch": 0.11354166666666667,
      "grad_norm": 0.9282369613647461,
      "learning_rate": 0.0002911588115631706,
      "loss": 4.1397,
      "step": 54500
    },
    {
      "epoch": 0.1135625,
      "grad_norm": 0.917341411113739,
      "learning_rate": 0.0002911554766696404,
      "loss": 4.238,
      "step": 54510
    },
    {
      "epoch": 0.11358333333333333,
      "grad_norm": 0.9331946969032288,
      "learning_rate": 0.00029115214116637436,
      "loss": 4.1424,
      "step": 54520
    },
    {
      "epoch": 0.11360416666666667,
      "grad_norm": 0.9454114437103271,
      "learning_rate": 0.00029114880505338694,
      "loss": 4.0412,
      "step": 54530
    },
    {
      "epoch": 0.113625,
      "grad_norm": 0.769053041934967,
      "learning_rate": 0.0002911454683306926,
      "loss": 4.3093,
      "step": 54540
    },
    {
      "epoch": 0.11364583333333333,
      "grad_norm": 0.9761171340942383,
      "learning_rate": 0.0002911421309983057,
      "loss": 4.1982,
      "step": 54550
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 0.8922399878501892,
      "learning_rate": 0.0002911387930562406,
      "loss": 4.2438,
      "step": 54560
    },
    {
      "epoch": 0.1136875,
      "grad_norm": 0.9272997379302979,
      "learning_rate": 0.00029113545450451186,
      "loss": 4.2129,
      "step": 54570
    },
    {
      "epoch": 0.11370833333333333,
      "grad_norm": 0.9038820862770081,
      "learning_rate": 0.0002911321153431338,
      "loss": 4.0659,
      "step": 54580
    },
    {
      "epoch": 0.11372916666666667,
      "grad_norm": 0.8869588375091553,
      "learning_rate": 0.0002911287755721209,
      "loss": 4.0664,
      "step": 54590
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.9195914268493652,
      "learning_rate": 0.00029112543519148744,
      "loss": 4.1058,
      "step": 54600
    },
    {
      "epoch": 0.11377083333333333,
      "grad_norm": 0.8828598260879517,
      "learning_rate": 0.00029112209420124803,
      "loss": 4.1756,
      "step": 54610
    },
    {
      "epoch": 0.11379166666666667,
      "grad_norm": 0.8940969705581665,
      "learning_rate": 0.00029111875260141705,
      "loss": 4.1909,
      "step": 54620
    },
    {
      "epoch": 0.1138125,
      "grad_norm": 0.8218304514884949,
      "learning_rate": 0.0002911154103920089,
      "loss": 4.2653,
      "step": 54630
    },
    {
      "epoch": 0.11383333333333333,
      "grad_norm": 0.8932244777679443,
      "learning_rate": 0.00029111206757303804,
      "loss": 4.1194,
      "step": 54640
    },
    {
      "epoch": 0.11385416666666667,
      "grad_norm": 0.9183872938156128,
      "learning_rate": 0.00029110872414451886,
      "loss": 4.1132,
      "step": 54650
    },
    {
      "epoch": 0.113875,
      "grad_norm": 0.8897287249565125,
      "learning_rate": 0.0002911053801064659,
      "loss": 4.2689,
      "step": 54660
    },
    {
      "epoch": 0.11389583333333334,
      "grad_norm": 0.9224667549133301,
      "learning_rate": 0.00029110203545889353,
      "loss": 4.2488,
      "step": 54670
    },
    {
      "epoch": 0.11391666666666667,
      "grad_norm": 0.9369221925735474,
      "learning_rate": 0.0002910986902018162,
      "loss": 4.1496,
      "step": 54680
    },
    {
      "epoch": 0.1139375,
      "grad_norm": 0.8708857893943787,
      "learning_rate": 0.0002910953443352484,
      "loss": 4.1009,
      "step": 54690
    },
    {
      "epoch": 0.11395833333333333,
      "grad_norm": 0.8911418318748474,
      "learning_rate": 0.0002910919978592046,
      "loss": 4.1394,
      "step": 54700
    },
    {
      "epoch": 0.11397916666666667,
      "grad_norm": 1.005625605583191,
      "learning_rate": 0.0002910886507736992,
      "loss": 4.2192,
      "step": 54710
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.9386573433876038,
      "learning_rate": 0.0002910853030787466,
      "loss": 4.0554,
      "step": 54720
    },
    {
      "epoch": 0.11402083333333334,
      "grad_norm": 0.8546939492225647,
      "learning_rate": 0.00029108195477436146,
      "loss": 4.2478,
      "step": 54730
    },
    {
      "epoch": 0.11404166666666667,
      "grad_norm": 0.8429757952690125,
      "learning_rate": 0.000291078605860558,
      "loss": 4.1247,
      "step": 54740
    },
    {
      "epoch": 0.1140625,
      "grad_norm": 0.9695269465446472,
      "learning_rate": 0.0002910752563373509,
      "loss": 4.0887,
      "step": 54750
    },
    {
      "epoch": 0.11408333333333333,
      "grad_norm": 1.0337332487106323,
      "learning_rate": 0.00029107190620475447,
      "loss": 4.2502,
      "step": 54760
    },
    {
      "epoch": 0.11410416666666667,
      "grad_norm": 0.8870310187339783,
      "learning_rate": 0.00029106855546278326,
      "loss": 4.0575,
      "step": 54770
    },
    {
      "epoch": 0.114125,
      "grad_norm": 0.8996621370315552,
      "learning_rate": 0.0002910652041114517,
      "loss": 4.0593,
      "step": 54780
    },
    {
      "epoch": 0.11414583333333334,
      "grad_norm": 0.8985656499862671,
      "learning_rate": 0.0002910618521507744,
      "loss": 4.1094,
      "step": 54790
    },
    {
      "epoch": 0.11416666666666667,
      "grad_norm": 0.9296666383743286,
      "learning_rate": 0.00029105849958076566,
      "loss": 4.1412,
      "step": 54800
    },
    {
      "epoch": 0.1141875,
      "grad_norm": 0.8951784372329712,
      "learning_rate": 0.00029105514640144004,
      "loss": 4.1905,
      "step": 54810
    },
    {
      "epoch": 0.11420833333333333,
      "grad_norm": 0.8983812928199768,
      "learning_rate": 0.00029105179261281204,
      "loss": 4.2056,
      "step": 54820
    },
    {
      "epoch": 0.11422916666666667,
      "grad_norm": 0.8843401074409485,
      "learning_rate": 0.00029104843821489614,
      "loss": 4.0198,
      "step": 54830
    },
    {
      "epoch": 0.11425,
      "grad_norm": 0.828242301940918,
      "learning_rate": 0.0002910450832077067,
      "loss": 4.1976,
      "step": 54840
    },
    {
      "epoch": 0.11427083333333334,
      "grad_norm": 0.9308436512947083,
      "learning_rate": 0.0002910417275912585,
      "loss": 4.0589,
      "step": 54850
    },
    {
      "epoch": 0.11429166666666667,
      "grad_norm": 0.8578555583953857,
      "learning_rate": 0.00029103837136556577,
      "loss": 4.2251,
      "step": 54860
    },
    {
      "epoch": 0.1143125,
      "grad_norm": 0.8177036046981812,
      "learning_rate": 0.0002910350145306431,
      "loss": 4.2231,
      "step": 54870
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 0.8691712021827698,
      "learning_rate": 0.000291031657086505,
      "loss": 4.1898,
      "step": 54880
    },
    {
      "epoch": 0.11435416666666667,
      "grad_norm": 0.8387125134468079,
      "learning_rate": 0.000291028299033166,
      "loss": 4.0825,
      "step": 54890
    },
    {
      "epoch": 0.114375,
      "grad_norm": 0.8456549048423767,
      "learning_rate": 0.00029102494037064054,
      "loss": 4.1385,
      "step": 54900
    },
    {
      "epoch": 0.11439583333333334,
      "grad_norm": 0.986549973487854,
      "learning_rate": 0.0002910215810989432,
      "loss": 4.1576,
      "step": 54910
    },
    {
      "epoch": 0.11441666666666667,
      "grad_norm": 0.8532981872558594,
      "learning_rate": 0.0002910182212180884,
      "loss": 4.3199,
      "step": 54920
    },
    {
      "epoch": 0.1144375,
      "grad_norm": 0.8595755100250244,
      "learning_rate": 0.0002910148607280907,
      "loss": 4.318,
      "step": 54930
    },
    {
      "epoch": 0.11445833333333333,
      "grad_norm": 0.894041895866394,
      "learning_rate": 0.00029101149962896465,
      "loss": 4.1034,
      "step": 54940
    },
    {
      "epoch": 0.11447916666666667,
      "grad_norm": 0.8731864094734192,
      "learning_rate": 0.00029100813792072474,
      "loss": 4.0092,
      "step": 54950
    },
    {
      "epoch": 0.1145,
      "grad_norm": 1.1708468198776245,
      "learning_rate": 0.0002910047756033854,
      "loss": 4.3203,
      "step": 54960
    },
    {
      "epoch": 0.11452083333333334,
      "grad_norm": 0.8836593627929688,
      "learning_rate": 0.0002910014126769614,
      "loss": 4.2195,
      "step": 54970
    },
    {
      "epoch": 0.11454166666666667,
      "grad_norm": 0.8747338056564331,
      "learning_rate": 0.000290998049141467,
      "loss": 4.2471,
      "step": 54980
    },
    {
      "epoch": 0.1145625,
      "grad_norm": 0.793316125869751,
      "learning_rate": 0.00029099468499691687,
      "loss": 4.2366,
      "step": 54990
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 0.9544381499290466,
      "learning_rate": 0.0002909913202433255,
      "loss": 4.1305,
      "step": 55000
    },
    {
      "epoch": 0.11458333333333333,
      "eval_loss": 3.922581434249878,
      "eval_runtime": 7.1934,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 55000
    },
    {
      "epoch": 0.11460416666666666,
      "grad_norm": 0.9530203342437744,
      "learning_rate": 0.0002909879548807075,
      "loss": 3.9225,
      "step": 55010
    },
    {
      "epoch": 0.114625,
      "grad_norm": 0.9113848805427551,
      "learning_rate": 0.00029098458890907726,
      "loss": 4.0919,
      "step": 55020
    },
    {
      "epoch": 0.11464583333333334,
      "grad_norm": 0.9531710743904114,
      "learning_rate": 0.0002909812223284494,
      "loss": 4.209,
      "step": 55030
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.8767027258872986,
      "learning_rate": 0.0002909778551388385,
      "loss": 4.2342,
      "step": 55040
    },
    {
      "epoch": 0.1146875,
      "grad_norm": 0.8757736086845398,
      "learning_rate": 0.000290974487340259,
      "loss": 4.0886,
      "step": 55050
    },
    {
      "epoch": 0.11470833333333333,
      "grad_norm": 0.8835372924804688,
      "learning_rate": 0.0002909711189327256,
      "loss": 4.0955,
      "step": 55060
    },
    {
      "epoch": 0.11472916666666666,
      "grad_norm": 0.8744823336601257,
      "learning_rate": 0.0002909677499162528,
      "loss": 3.826,
      "step": 55070
    },
    {
      "epoch": 0.11475,
      "grad_norm": 0.913179337978363,
      "learning_rate": 0.000290964380290855,
      "loss": 4.3127,
      "step": 55080
    },
    {
      "epoch": 0.11477083333333334,
      "grad_norm": 0.9660940766334534,
      "learning_rate": 0.00029096101005654697,
      "loss": 4.1057,
      "step": 55090
    },
    {
      "epoch": 0.11479166666666667,
      "grad_norm": 0.8592735528945923,
      "learning_rate": 0.0002909576392133431,
      "loss": 4.0692,
      "step": 55100
    },
    {
      "epoch": 0.1148125,
      "grad_norm": 0.8873722553253174,
      "learning_rate": 0.0002909542677612581,
      "loss": 4.2902,
      "step": 55110
    },
    {
      "epoch": 0.11483333333333333,
      "grad_norm": 0.9027144312858582,
      "learning_rate": 0.0002909508957003064,
      "loss": 4.0774,
      "step": 55120
    },
    {
      "epoch": 0.11485416666666666,
      "grad_norm": 1.0508196353912354,
      "learning_rate": 0.00029094752303050265,
      "loss": 4.1134,
      "step": 55130
    },
    {
      "epoch": 0.114875,
      "grad_norm": 1.0509209632873535,
      "learning_rate": 0.00029094414975186137,
      "loss": 4.0681,
      "step": 55140
    },
    {
      "epoch": 0.11489583333333334,
      "grad_norm": 0.9113078713417053,
      "learning_rate": 0.00029094077586439715,
      "loss": 4.17,
      "step": 55150
    },
    {
      "epoch": 0.11491666666666667,
      "grad_norm": 0.8522463440895081,
      "learning_rate": 0.0002909374013681246,
      "loss": 4.2405,
      "step": 55160
    },
    {
      "epoch": 0.1149375,
      "grad_norm": 0.9073616862297058,
      "learning_rate": 0.00029093402626305826,
      "loss": 4.2372,
      "step": 55170
    },
    {
      "epoch": 0.11495833333333333,
      "grad_norm": 0.9935859441757202,
      "learning_rate": 0.00029093065054921265,
      "loss": 4.1253,
      "step": 55180
    },
    {
      "epoch": 0.11497916666666666,
      "grad_norm": 0.9051714539527893,
      "learning_rate": 0.0002909272742266025,
      "loss": 4.1822,
      "step": 55190
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.9288543462753296,
      "learning_rate": 0.0002909238972952423,
      "loss": 4.1773,
      "step": 55200
    },
    {
      "epoch": 0.11502083333333334,
      "grad_norm": 1.0050164461135864,
      "learning_rate": 0.00029092051975514654,
      "loss": 4.2256,
      "step": 55210
    },
    {
      "epoch": 0.11504166666666667,
      "grad_norm": 0.9087380170822144,
      "learning_rate": 0.00029091714160633003,
      "loss": 4.1781,
      "step": 55220
    },
    {
      "epoch": 0.1150625,
      "grad_norm": 0.8912686109542847,
      "learning_rate": 0.0002909137628488072,
      "loss": 4.1223,
      "step": 55230
    },
    {
      "epoch": 0.11508333333333333,
      "grad_norm": 1.1643656492233276,
      "learning_rate": 0.0002909103834825927,
      "loss": 4.2826,
      "step": 55240
    },
    {
      "epoch": 0.11510416666666666,
      "grad_norm": 0.9024369120597839,
      "learning_rate": 0.0002909070035077011,
      "loss": 4.2044,
      "step": 55250
    },
    {
      "epoch": 0.115125,
      "grad_norm": 0.9250565767288208,
      "learning_rate": 0.00029090362292414707,
      "loss": 4.3084,
      "step": 55260
    },
    {
      "epoch": 0.11514583333333334,
      "grad_norm": 0.9023813605308533,
      "learning_rate": 0.0002909002417319451,
      "loss": 4.1787,
      "step": 55270
    },
    {
      "epoch": 0.11516666666666667,
      "grad_norm": 1.3772152662277222,
      "learning_rate": 0.0002908968599311099,
      "loss": 4.169,
      "step": 55280
    },
    {
      "epoch": 0.1151875,
      "grad_norm": 0.9404974579811096,
      "learning_rate": 0.00029089347752165603,
      "loss": 4.3403,
      "step": 55290
    },
    {
      "epoch": 0.11520833333333333,
      "grad_norm": 0.8312081694602966,
      "learning_rate": 0.0002908900945035981,
      "loss": 4.1871,
      "step": 55300
    },
    {
      "epoch": 0.11522916666666666,
      "grad_norm": 0.9044057726860046,
      "learning_rate": 0.00029088671087695075,
      "loss": 4.202,
      "step": 55310
    },
    {
      "epoch": 0.11525,
      "grad_norm": 0.8061822056770325,
      "learning_rate": 0.00029088332664172856,
      "loss": 4.1277,
      "step": 55320
    },
    {
      "epoch": 0.11527083333333334,
      "grad_norm": 0.8759015798568726,
      "learning_rate": 0.0002908799417979461,
      "loss": 4.1525,
      "step": 55330
    },
    {
      "epoch": 0.11529166666666667,
      "grad_norm": 1.0607883930206299,
      "learning_rate": 0.00029087655634561815,
      "loss": 4.2208,
      "step": 55340
    },
    {
      "epoch": 0.1153125,
      "grad_norm": 0.921661376953125,
      "learning_rate": 0.00029087317028475925,
      "loss": 3.9312,
      "step": 55350
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 0.978171169757843,
      "learning_rate": 0.0002908697836153839,
      "loss": 4.0034,
      "step": 55360
    },
    {
      "epoch": 0.11535416666666666,
      "grad_norm": 0.9231878519058228,
      "learning_rate": 0.00029086639633750695,
      "loss": 4.0796,
      "step": 55370
    },
    {
      "epoch": 0.115375,
      "grad_norm": 0.8466762900352478,
      "learning_rate": 0.00029086300845114287,
      "loss": 4.1691,
      "step": 55380
    },
    {
      "epoch": 0.11539583333333334,
      "grad_norm": 1.0126770734786987,
      "learning_rate": 0.0002908596199563064,
      "loss": 3.964,
      "step": 55390
    },
    {
      "epoch": 0.11541666666666667,
      "grad_norm": 0.9322576522827148,
      "learning_rate": 0.0002908562308530121,
      "loss": 4.327,
      "step": 55400
    },
    {
      "epoch": 0.1154375,
      "grad_norm": 0.9220307469367981,
      "learning_rate": 0.0002908528411412746,
      "loss": 4.2709,
      "step": 55410
    },
    {
      "epoch": 0.11545833333333333,
      "grad_norm": 0.9541698694229126,
      "learning_rate": 0.00029084945082110867,
      "loss": 4.1951,
      "step": 55420
    },
    {
      "epoch": 0.11547916666666666,
      "grad_norm": 1.093992829322815,
      "learning_rate": 0.0002908460598925288,
      "loss": 4.1791,
      "step": 55430
    },
    {
      "epoch": 0.1155,
      "grad_norm": 0.9473899006843567,
      "learning_rate": 0.0002908426683555497,
      "loss": 4.1998,
      "step": 55440
    },
    {
      "epoch": 0.11552083333333334,
      "grad_norm": 0.8501830697059631,
      "learning_rate": 0.00029083927621018606,
      "loss": 4.1272,
      "step": 55450
    },
    {
      "epoch": 0.11554166666666667,
      "grad_norm": 0.9398312568664551,
      "learning_rate": 0.0002908358834564525,
      "loss": 4.1668,
      "step": 55460
    },
    {
      "epoch": 0.1155625,
      "grad_norm": 1.1401649713516235,
      "learning_rate": 0.0002908324900943636,
      "loss": 4.0454,
      "step": 55470
    },
    {
      "epoch": 0.11558333333333333,
      "grad_norm": 0.9282497763633728,
      "learning_rate": 0.0002908290961239341,
      "loss": 4.0848,
      "step": 55480
    },
    {
      "epoch": 0.11560416666666666,
      "grad_norm": 0.9042493104934692,
      "learning_rate": 0.0002908257015451787,
      "loss": 4.2094,
      "step": 55490
    },
    {
      "epoch": 0.115625,
      "grad_norm": 0.9653583765029907,
      "learning_rate": 0.000290822306358112,
      "loss": 4.2987,
      "step": 55500
    },
    {
      "epoch": 0.11564583333333334,
      "grad_norm": 0.8978502154350281,
      "learning_rate": 0.00029081891056274866,
      "loss": 4.1258,
      "step": 55510
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 0.8597093224525452,
      "learning_rate": 0.00029081551415910335,
      "loss": 4.0382,
      "step": 55520
    },
    {
      "epoch": 0.1156875,
      "grad_norm": 0.8834672570228577,
      "learning_rate": 0.0002908121171471908,
      "loss": 4.2413,
      "step": 55530
    },
    {
      "epoch": 0.11570833333333333,
      "grad_norm": 0.8454803228378296,
      "learning_rate": 0.0002908087195270257,
      "loss": 4.2001,
      "step": 55540
    },
    {
      "epoch": 0.11572916666666666,
      "grad_norm": 0.8768293857574463,
      "learning_rate": 0.0002908053212986225,
      "loss": 4.2329,
      "step": 55550
    },
    {
      "epoch": 0.11575,
      "grad_norm": 0.8774001598358154,
      "learning_rate": 0.0002908019224619962,
      "loss": 4.0416,
      "step": 55560
    },
    {
      "epoch": 0.11577083333333334,
      "grad_norm": 0.8799424171447754,
      "learning_rate": 0.0002907985230171612,
      "loss": 4.2131,
      "step": 55570
    },
    {
      "epoch": 0.11579166666666667,
      "grad_norm": 0.8419654965400696,
      "learning_rate": 0.0002907951229641324,
      "loss": 4.2394,
      "step": 55580
    },
    {
      "epoch": 0.1158125,
      "grad_norm": 0.9386368989944458,
      "learning_rate": 0.0002907917223029244,
      "loss": 4.2777,
      "step": 55590
    },
    {
      "epoch": 0.11583333333333333,
      "grad_norm": 0.8194376826286316,
      "learning_rate": 0.00029078832103355184,
      "loss": 4.0973,
      "step": 55600
    },
    {
      "epoch": 0.11585416666666666,
      "grad_norm": 0.8354566097259521,
      "learning_rate": 0.0002907849191560295,
      "loss": 4.1612,
      "step": 55610
    },
    {
      "epoch": 0.115875,
      "grad_norm": 0.9056758880615234,
      "learning_rate": 0.000290781516670372,
      "loss": 4.252,
      "step": 55620
    },
    {
      "epoch": 0.11589583333333334,
      "grad_norm": 0.8054810762405396,
      "learning_rate": 0.00029077811357659415,
      "loss": 4.0949,
      "step": 55630
    },
    {
      "epoch": 0.11591666666666667,
      "grad_norm": 0.9877496957778931,
      "learning_rate": 0.0002907747098747105,
      "loss": 4.2952,
      "step": 55640
    },
    {
      "epoch": 0.1159375,
      "grad_norm": 0.8940131068229675,
      "learning_rate": 0.00029077130556473584,
      "loss": 4.2298,
      "step": 55650
    },
    {
      "epoch": 0.11595833333333333,
      "grad_norm": 0.8685157299041748,
      "learning_rate": 0.0002907679006466849,
      "loss": 4.0997,
      "step": 55660
    },
    {
      "epoch": 0.11597916666666666,
      "grad_norm": 0.9585058093070984,
      "learning_rate": 0.0002907644951205723,
      "loss": 4.1945,
      "step": 55670
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.847805380821228,
      "learning_rate": 0.00029076108898641286,
      "loss": 4.2114,
      "step": 55680
    },
    {
      "epoch": 0.11602083333333334,
      "grad_norm": 0.8183355331420898,
      "learning_rate": 0.0002907576822442212,
      "loss": 4.2346,
      "step": 55690
    },
    {
      "epoch": 0.11604166666666667,
      "grad_norm": 0.854199230670929,
      "learning_rate": 0.000290754274894012,
      "loss": 4.1523,
      "step": 55700
    },
    {
      "epoch": 0.1160625,
      "grad_norm": 0.9648628234863281,
      "learning_rate": 0.0002907508669358001,
      "loss": 4.283,
      "step": 55710
    },
    {
      "epoch": 0.11608333333333333,
      "grad_norm": 0.8349707722663879,
      "learning_rate": 0.0002907474583696002,
      "loss": 4.1044,
      "step": 55720
    },
    {
      "epoch": 0.11610416666666666,
      "grad_norm": 0.8748397827148438,
      "learning_rate": 0.00029074404919542693,
      "loss": 4.2223,
      "step": 55730
    },
    {
      "epoch": 0.116125,
      "grad_norm": 0.9634038805961609,
      "learning_rate": 0.0002907406394132951,
      "loss": 4.0996,
      "step": 55740
    },
    {
      "epoch": 0.11614583333333334,
      "grad_norm": 0.8757118582725525,
      "learning_rate": 0.00029073722902321945,
      "loss": 4.1222,
      "step": 55750
    },
    {
      "epoch": 0.11616666666666667,
      "grad_norm": 0.8457754850387573,
      "learning_rate": 0.0002907338180252147,
      "loss": 4.189,
      "step": 55760
    },
    {
      "epoch": 0.1161875,
      "grad_norm": 0.8273637294769287,
      "learning_rate": 0.00029073040641929546,
      "loss": 4.3386,
      "step": 55770
    },
    {
      "epoch": 0.11620833333333333,
      "grad_norm": 0.897884726524353,
      "learning_rate": 0.0002907269942054767,
      "loss": 4.1221,
      "step": 55780
    },
    {
      "epoch": 0.11622916666666666,
      "grad_norm": 0.8152421712875366,
      "learning_rate": 0.0002907235813837729,
      "loss": 4.1599,
      "step": 55790
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.8838539123535156,
      "learning_rate": 0.000290720167954199,
      "loss": 4.0071,
      "step": 55800
    },
    {
      "epoch": 0.11627083333333334,
      "grad_norm": 0.8234654664993286,
      "learning_rate": 0.00029071675391676967,
      "loss": 4.0195,
      "step": 55810
    },
    {
      "epoch": 0.11629166666666667,
      "grad_norm": 1.0223294496536255,
      "learning_rate": 0.0002907133392714996,
      "loss": 4.0446,
      "step": 55820
    },
    {
      "epoch": 0.1163125,
      "grad_norm": 0.9314323663711548,
      "learning_rate": 0.00029070992401840373,
      "loss": 4.2597,
      "step": 55830
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 0.8974302411079407,
      "learning_rate": 0.0002907065081574966,
      "loss": 4.2021,
      "step": 55840
    },
    {
      "epoch": 0.11635416666666666,
      "grad_norm": 0.9757329821586609,
      "learning_rate": 0.000290703091688793,
      "loss": 4.2662,
      "step": 55850
    },
    {
      "epoch": 0.116375,
      "grad_norm": 0.9945471286773682,
      "learning_rate": 0.00029069967461230786,
      "loss": 4.3237,
      "step": 55860
    },
    {
      "epoch": 0.11639583333333334,
      "grad_norm": 0.9550877213478088,
      "learning_rate": 0.0002906962569280557,
      "loss": 4.0955,
      "step": 55870
    },
    {
      "epoch": 0.11641666666666667,
      "grad_norm": 0.895905613899231,
      "learning_rate": 0.0002906928386360515,
      "loss": 4.2034,
      "step": 55880
    },
    {
      "epoch": 0.1164375,
      "grad_norm": 0.8974697589874268,
      "learning_rate": 0.0002906894197363099,
      "loss": 3.9961,
      "step": 55890
    },
    {
      "epoch": 0.11645833333333333,
      "grad_norm": 0.8363115191459656,
      "learning_rate": 0.00029068600022884566,
      "loss": 4.1384,
      "step": 55900
    },
    {
      "epoch": 0.11647916666666666,
      "grad_norm": 0.8684318661689758,
      "learning_rate": 0.00029068258011367363,
      "loss": 4.2379,
      "step": 55910
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.8719735145568848,
      "learning_rate": 0.0002906791593908085,
      "loss": 4.1536,
      "step": 55920
    },
    {
      "epoch": 0.11652083333333334,
      "grad_norm": 0.8949024677276611,
      "learning_rate": 0.00029067573806026514,
      "loss": 4.2092,
      "step": 55930
    },
    {
      "epoch": 0.11654166666666667,
      "grad_norm": 0.9034985899925232,
      "learning_rate": 0.00029067231612205823,
      "loss": 4.1264,
      "step": 55940
    },
    {
      "epoch": 0.1165625,
      "grad_norm": 0.8744920492172241,
      "learning_rate": 0.0002906688935762026,
      "loss": 3.9091,
      "step": 55950
    },
    {
      "epoch": 0.11658333333333333,
      "grad_norm": 0.9200395941734314,
      "learning_rate": 0.000290665470422713,
      "loss": 4.1627,
      "step": 55960
    },
    {
      "epoch": 0.11660416666666666,
      "grad_norm": 0.9163315892219543,
      "learning_rate": 0.00029066204666160434,
      "loss": 4.0999,
      "step": 55970
    },
    {
      "epoch": 0.116625,
      "grad_norm": 0.8672049641609192,
      "learning_rate": 0.0002906586222928912,
      "loss": 4.2691,
      "step": 55980
    },
    {
      "epoch": 0.11664583333333334,
      "grad_norm": 0.9793972969055176,
      "learning_rate": 0.0002906551973165886,
      "loss": 4.2576,
      "step": 55990
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.8970450758934021,
      "learning_rate": 0.00029065177173271116,
      "loss": 4.1116,
      "step": 56000
    },
    {
      "epoch": 0.11666666666666667,
      "eval_loss": 3.906557559967041,
      "eval_runtime": 7.2024,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.417,
      "step": 56000
    },
    {
      "epoch": 0.1166875,
      "grad_norm": 0.93283611536026,
      "learning_rate": 0.0002906483455412738,
      "loss": 4.3055,
      "step": 56010
    },
    {
      "epoch": 0.11670833333333333,
      "grad_norm": 0.839975118637085,
      "learning_rate": 0.0002906449187422912,
      "loss": 4.3592,
      "step": 56020
    },
    {
      "epoch": 0.11672916666666666,
      "grad_norm": 0.8906578421592712,
      "learning_rate": 0.0002906414913357782,
      "loss": 4.0739,
      "step": 56030
    },
    {
      "epoch": 0.11675,
      "grad_norm": 0.9222647547721863,
      "learning_rate": 0.00029063806332174966,
      "loss": 4.1022,
      "step": 56040
    },
    {
      "epoch": 0.11677083333333334,
      "grad_norm": 0.9020835757255554,
      "learning_rate": 0.00029063463470022034,
      "loss": 4.0634,
      "step": 56050
    },
    {
      "epoch": 0.11679166666666667,
      "grad_norm": 0.8926445245742798,
      "learning_rate": 0.0002906312054712051,
      "loss": 4.2404,
      "step": 56060
    },
    {
      "epoch": 0.1168125,
      "grad_norm": 0.924213707447052,
      "learning_rate": 0.00029062777563471873,
      "loss": 4.1363,
      "step": 56070
    },
    {
      "epoch": 0.11683333333333333,
      "grad_norm": 0.8277557492256165,
      "learning_rate": 0.000290624345190776,
      "loss": 4.0871,
      "step": 56080
    },
    {
      "epoch": 0.11685416666666666,
      "grad_norm": 0.8827185034751892,
      "learning_rate": 0.00029062091413939174,
      "loss": 4.2149,
      "step": 56090
    },
    {
      "epoch": 0.116875,
      "grad_norm": 0.8774957656860352,
      "learning_rate": 0.0002906174824805808,
      "loss": 4.0776,
      "step": 56100
    },
    {
      "epoch": 0.11689583333333334,
      "grad_norm": 0.9300088882446289,
      "learning_rate": 0.00029061405021435803,
      "loss": 4.3739,
      "step": 56110
    },
    {
      "epoch": 0.11691666666666667,
      "grad_norm": 0.811701774597168,
      "learning_rate": 0.0002906106173407382,
      "loss": 4.3624,
      "step": 56120
    },
    {
      "epoch": 0.1169375,
      "grad_norm": 0.9157451391220093,
      "learning_rate": 0.00029060718385973616,
      "loss": 4.1573,
      "step": 56130
    },
    {
      "epoch": 0.11695833333333333,
      "grad_norm": 0.859784722328186,
      "learning_rate": 0.00029060374977136675,
      "loss": 4.0451,
      "step": 56140
    },
    {
      "epoch": 0.11697916666666666,
      "grad_norm": 0.8541940450668335,
      "learning_rate": 0.00029060031507564484,
      "loss": 4.1301,
      "step": 56150
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.8943922519683838,
      "learning_rate": 0.0002905968797725852,
      "loss": 4.2521,
      "step": 56160
    },
    {
      "epoch": 0.11702083333333334,
      "grad_norm": 0.8370510935783386,
      "learning_rate": 0.00029059344386220265,
      "loss": 4.3617,
      "step": 56170
    },
    {
      "epoch": 0.11704166666666667,
      "grad_norm": 0.8957108855247498,
      "learning_rate": 0.00029059000734451206,
      "loss": 4.2188,
      "step": 56180
    },
    {
      "epoch": 0.1170625,
      "grad_norm": 0.9209094047546387,
      "learning_rate": 0.0002905865702195283,
      "loss": 4.2714,
      "step": 56190
    },
    {
      "epoch": 0.11708333333333333,
      "grad_norm": 0.880556583404541,
      "learning_rate": 0.00029058313248726624,
      "loss": 4.0936,
      "step": 56200
    },
    {
      "epoch": 0.11710416666666666,
      "grad_norm": 0.908367395401001,
      "learning_rate": 0.0002905796941477407,
      "loss": 4.139,
      "step": 56210
    },
    {
      "epoch": 0.117125,
      "grad_norm": 0.9094716906547546,
      "learning_rate": 0.0002905762552009665,
      "loss": 4.1941,
      "step": 56220
    },
    {
      "epoch": 0.11714583333333334,
      "grad_norm": 0.8549631237983704,
      "learning_rate": 0.0002905728156469585,
      "loss": 4.1808,
      "step": 56230
    },
    {
      "epoch": 0.11716666666666667,
      "grad_norm": 0.9482160806655884,
      "learning_rate": 0.0002905693754857316,
      "loss": 4.3224,
      "step": 56240
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 0.9109283089637756,
      "learning_rate": 0.0002905659347173007,
      "loss": 4.1752,
      "step": 56250
    },
    {
      "epoch": 0.11720833333333333,
      "grad_norm": 0.973146378993988,
      "learning_rate": 0.0002905624933416805,
      "loss": 4.1924,
      "step": 56260
    },
    {
      "epoch": 0.11722916666666666,
      "grad_norm": 0.8319540023803711,
      "learning_rate": 0.000290559051358886,
      "loss": 4.0659,
      "step": 56270
    },
    {
      "epoch": 0.11725,
      "grad_norm": 0.8796615600585938,
      "learning_rate": 0.00029055560876893203,
      "loss": 4.2542,
      "step": 56280
    },
    {
      "epoch": 0.11727083333333334,
      "grad_norm": 0.823323667049408,
      "learning_rate": 0.00029055216557183355,
      "loss": 4.0097,
      "step": 56290
    },
    {
      "epoch": 0.11729166666666667,
      "grad_norm": 0.8462096452713013,
      "learning_rate": 0.0002905487217676053,
      "loss": 4.1261,
      "step": 56300
    },
    {
      "epoch": 0.1173125,
      "grad_norm": 0.9076781868934631,
      "learning_rate": 0.00029054527735626216,
      "loss": 4.1721,
      "step": 56310
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.883120059967041,
      "learning_rate": 0.00029054183233781907,
      "loss": 4.2259,
      "step": 56320
    },
    {
      "epoch": 0.11735416666666666,
      "grad_norm": 0.865136981010437,
      "learning_rate": 0.0002905383867122909,
      "loss": 4.3515,
      "step": 56330
    },
    {
      "epoch": 0.117375,
      "grad_norm": 0.9095736145973206,
      "learning_rate": 0.00029053494047969256,
      "loss": 4.1785,
      "step": 56340
    },
    {
      "epoch": 0.11739583333333334,
      "grad_norm": 0.7851743102073669,
      "learning_rate": 0.00029053149364003885,
      "loss": 4.2127,
      "step": 56350
    },
    {
      "epoch": 0.11741666666666667,
      "grad_norm": 0.898860514163971,
      "learning_rate": 0.00029052804619334474,
      "loss": 4.1001,
      "step": 56360
    },
    {
      "epoch": 0.1174375,
      "grad_norm": 0.8765279054641724,
      "learning_rate": 0.00029052459813962514,
      "loss": 4.101,
      "step": 56370
    },
    {
      "epoch": 0.11745833333333333,
      "grad_norm": 0.9402250647544861,
      "learning_rate": 0.00029052114947889483,
      "loss": 3.9482,
      "step": 56380
    },
    {
      "epoch": 0.11747916666666666,
      "grad_norm": 1.6127676963806152,
      "learning_rate": 0.0002905177002111688,
      "loss": 4.2139,
      "step": 56390
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.9320393800735474,
      "learning_rate": 0.0002905142503364619,
      "loss": 4.0373,
      "step": 56400
    },
    {
      "epoch": 0.11752083333333334,
      "grad_norm": 1.0077909231185913,
      "learning_rate": 0.00029051079985478913,
      "loss": 4.2024,
      "step": 56410
    },
    {
      "epoch": 0.11754166666666667,
      "grad_norm": 0.7978308200836182,
      "learning_rate": 0.00029050734876616527,
      "loss": 4.1346,
      "step": 56420
    },
    {
      "epoch": 0.1175625,
      "grad_norm": 0.8863860368728638,
      "learning_rate": 0.0002905038970706053,
      "loss": 4.1859,
      "step": 56430
    },
    {
      "epoch": 0.11758333333333333,
      "grad_norm": 0.9793792366981506,
      "learning_rate": 0.0002905004447681241,
      "loss": 4.2992,
      "step": 56440
    },
    {
      "epoch": 0.11760416666666666,
      "grad_norm": 0.9432412385940552,
      "learning_rate": 0.0002904969918587366,
      "loss": 4.1602,
      "step": 56450
    },
    {
      "epoch": 0.117625,
      "grad_norm": 0.9216514825820923,
      "learning_rate": 0.0002904935383424577,
      "loss": 4.31,
      "step": 56460
    },
    {
      "epoch": 0.11764583333333334,
      "grad_norm": 0.9052292704582214,
      "learning_rate": 0.0002904900842193023,
      "loss": 4.2906,
      "step": 56470
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 0.9333929419517517,
      "learning_rate": 0.00029048662948928536,
      "loss": 4.1394,
      "step": 56480
    },
    {
      "epoch": 0.1176875,
      "grad_norm": 0.9194979071617126,
      "learning_rate": 0.00029048317415242183,
      "loss": 4.1839,
      "step": 56490
    },
    {
      "epoch": 0.11770833333333333,
      "grad_norm": 0.8798500299453735,
      "learning_rate": 0.00029047971820872655,
      "loss": 4.3562,
      "step": 56500
    },
    {
      "epoch": 0.11772916666666666,
      "grad_norm": 0.8753260970115662,
      "learning_rate": 0.0002904762616582145,
      "loss": 4.0938,
      "step": 56510
    },
    {
      "epoch": 0.11775,
      "grad_norm": 0.850295901298523,
      "learning_rate": 0.00029047280450090064,
      "loss": 4.3413,
      "step": 56520
    },
    {
      "epoch": 0.11777083333333334,
      "grad_norm": 0.9118911623954773,
      "learning_rate": 0.0002904693467367998,
      "loss": 4.1201,
      "step": 56530
    },
    {
      "epoch": 0.11779166666666667,
      "grad_norm": 0.8965386152267456,
      "learning_rate": 0.0002904658883659271,
      "loss": 4.3601,
      "step": 56540
    },
    {
      "epoch": 0.1178125,
      "grad_norm": 0.8951583504676819,
      "learning_rate": 0.00029046242938829723,
      "loss": 4.1234,
      "step": 56550
    },
    {
      "epoch": 0.11783333333333333,
      "grad_norm": 0.8076155185699463,
      "learning_rate": 0.0002904589698039253,
      "loss": 4.0408,
      "step": 56560
    },
    {
      "epoch": 0.11785416666666666,
      "grad_norm": 0.8681041598320007,
      "learning_rate": 0.0002904555096128263,
      "loss": 3.9863,
      "step": 56570
    },
    {
      "epoch": 0.117875,
      "grad_norm": 0.9383827447891235,
      "learning_rate": 0.000290452048815015,
      "loss": 4.198,
      "step": 56580
    },
    {
      "epoch": 0.11789583333333334,
      "grad_norm": 0.9353161454200745,
      "learning_rate": 0.0002904485874105065,
      "loss": 4.0647,
      "step": 56590
    },
    {
      "epoch": 0.11791666666666667,
      "grad_norm": 0.9052766561508179,
      "learning_rate": 0.0002904451253993157,
      "loss": 4.1135,
      "step": 56600
    },
    {
      "epoch": 0.1179375,
      "grad_norm": 0.8152997493743896,
      "learning_rate": 0.0002904416627814575,
      "loss": 4.3164,
      "step": 56610
    },
    {
      "epoch": 0.11795833333333333,
      "grad_norm": 0.9181535840034485,
      "learning_rate": 0.00029043819955694694,
      "loss": 4.3802,
      "step": 56620
    },
    {
      "epoch": 0.11797916666666666,
      "grad_norm": 0.9350396394729614,
      "learning_rate": 0.0002904347357257989,
      "loss": 4.3475,
      "step": 56630
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.9088883996009827,
      "learning_rate": 0.00029043127128802846,
      "loss": 4.0361,
      "step": 56640
    },
    {
      "epoch": 0.11802083333333334,
      "grad_norm": 0.8700932264328003,
      "learning_rate": 0.00029042780624365046,
      "loss": 4.1112,
      "step": 56650
    },
    {
      "epoch": 0.11804166666666667,
      "grad_norm": 0.8384335041046143,
      "learning_rate": 0.00029042434059267994,
      "loss": 4.2274,
      "step": 56660
    },
    {
      "epoch": 0.1180625,
      "grad_norm": 1.0113753080368042,
      "learning_rate": 0.00029042087433513186,
      "loss": 4.2545,
      "step": 56670
    },
    {
      "epoch": 0.11808333333333333,
      "grad_norm": 0.9246212244033813,
      "learning_rate": 0.0002904174074710212,
      "loss": 4.0378,
      "step": 56680
    },
    {
      "epoch": 0.11810416666666666,
      "grad_norm": 0.8376471400260925,
      "learning_rate": 0.00029041394000036287,
      "loss": 4.2496,
      "step": 56690
    },
    {
      "epoch": 0.118125,
      "grad_norm": 0.8717063665390015,
      "learning_rate": 0.000290410471923172,
      "loss": 4.2923,
      "step": 56700
    },
    {
      "epoch": 0.11814583333333334,
      "grad_norm": 0.8423840403556824,
      "learning_rate": 0.0002904070032394634,
      "loss": 4.0349,
      "step": 56710
    },
    {
      "epoch": 0.11816666666666667,
      "grad_norm": 0.9913780093193054,
      "learning_rate": 0.00029040353394925206,
      "loss": 4.2194,
      "step": 56720
    },
    {
      "epoch": 0.1181875,
      "grad_norm": 0.8570923209190369,
      "learning_rate": 0.0002904000640525531,
      "loss": 4.3724,
      "step": 56730
    },
    {
      "epoch": 0.11820833333333333,
      "grad_norm": 0.801745593547821,
      "learning_rate": 0.00029039659354938147,
      "loss": 4.1939,
      "step": 56740
    },
    {
      "epoch": 0.11822916666666666,
      "grad_norm": 0.8834137916564941,
      "learning_rate": 0.00029039312243975203,
      "loss": 4.0731,
      "step": 56750
    },
    {
      "epoch": 0.11825,
      "grad_norm": 0.9300180673599243,
      "learning_rate": 0.00029038965072367996,
      "loss": 4.2749,
      "step": 56760
    },
    {
      "epoch": 0.11827083333333334,
      "grad_norm": 0.8750666975975037,
      "learning_rate": 0.0002903861784011802,
      "loss": 4.1068,
      "step": 56770
    },
    {
      "epoch": 0.11829166666666667,
      "grad_norm": 0.9687260389328003,
      "learning_rate": 0.0002903827054722676,
      "loss": 4.1554,
      "step": 56780
    },
    {
      "epoch": 0.1183125,
      "grad_norm": 0.9209885001182556,
      "learning_rate": 0.00029037923193695733,
      "loss": 4.0417,
      "step": 56790
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 0.9509443044662476,
      "learning_rate": 0.00029037575779526436,
      "loss": 4.2249,
      "step": 56800
    },
    {
      "epoch": 0.11835416666666666,
      "grad_norm": 0.9440523982048035,
      "learning_rate": 0.0002903722830472037,
      "loss": 4.1581,
      "step": 56810
    },
    {
      "epoch": 0.118375,
      "grad_norm": 0.929989218711853,
      "learning_rate": 0.0002903688076927903,
      "loss": 4.1754,
      "step": 56820
    },
    {
      "epoch": 0.11839583333333334,
      "grad_norm": 0.863093376159668,
      "learning_rate": 0.00029036533173203925,
      "loss": 4.2806,
      "step": 56830
    },
    {
      "epoch": 0.11841666666666667,
      "grad_norm": 0.9119056463241577,
      "learning_rate": 0.0002903618551649655,
      "loss": 4.2494,
      "step": 56840
    },
    {
      "epoch": 0.1184375,
      "grad_norm": 0.8866055011749268,
      "learning_rate": 0.0002903583779915841,
      "loss": 4.2086,
      "step": 56850
    },
    {
      "epoch": 0.11845833333333333,
      "grad_norm": 0.8875618577003479,
      "learning_rate": 0.00029035490021191005,
      "loss": 3.9733,
      "step": 56860
    },
    {
      "epoch": 0.11847916666666666,
      "grad_norm": 0.8950926661491394,
      "learning_rate": 0.0002903514218259584,
      "loss": 4.1151,
      "step": 56870
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.8441821336746216,
      "learning_rate": 0.0002903479428337442,
      "loss": 4.273,
      "step": 56880
    },
    {
      "epoch": 0.11852083333333334,
      "grad_norm": 0.8689002990722656,
      "learning_rate": 0.0002903444632352824,
      "loss": 3.9627,
      "step": 56890
    },
    {
      "epoch": 0.11854166666666667,
      "grad_norm": 0.927560031414032,
      "learning_rate": 0.000290340983030588,
      "loss": 4.0233,
      "step": 56900
    },
    {
      "epoch": 0.1185625,
      "grad_norm": 0.977819561958313,
      "learning_rate": 0.0002903375022196762,
      "loss": 4.1614,
      "step": 56910
    },
    {
      "epoch": 0.11858333333333333,
      "grad_norm": 0.8334854245185852,
      "learning_rate": 0.00029033402080256193,
      "loss": 4.0364,
      "step": 56920
    },
    {
      "epoch": 0.11860416666666666,
      "grad_norm": 0.854500412940979,
      "learning_rate": 0.00029033053877926024,
      "loss": 4.2423,
      "step": 56930
    },
    {
      "epoch": 0.118625,
      "grad_norm": 0.9093738794326782,
      "learning_rate": 0.00029032705614978616,
      "loss": 4.0741,
      "step": 56940
    },
    {
      "epoch": 0.11864583333333334,
      "grad_norm": 0.8770936131477356,
      "learning_rate": 0.00029032357291415475,
      "loss": 4.0054,
      "step": 56950
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.885140061378479,
      "learning_rate": 0.00029032008907238103,
      "loss": 4.2109,
      "step": 56960
    },
    {
      "epoch": 0.1186875,
      "grad_norm": 0.9617112278938293,
      "learning_rate": 0.0002903166046244801,
      "loss": 4.2174,
      "step": 56970
    },
    {
      "epoch": 0.11870833333333333,
      "grad_norm": 0.9270524382591248,
      "learning_rate": 0.0002903131195704669,
      "loss": 4.2431,
      "step": 56980
    },
    {
      "epoch": 0.11872916666666666,
      "grad_norm": 0.9786608815193176,
      "learning_rate": 0.00029030963391035665,
      "loss": 4.222,
      "step": 56990
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.9140608310699463,
      "learning_rate": 0.0002903061476441643,
      "loss": 4.1122,
      "step": 57000
    },
    {
      "epoch": 0.11875,
      "eval_loss": 3.9024524688720703,
      "eval_runtime": 7.1932,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 57000
    },
    {
      "epoch": 0.11877083333333334,
      "grad_norm": 0.8958123326301575,
      "learning_rate": 0.0002903026607719049,
      "loss": 4.049,
      "step": 57010
    },
    {
      "epoch": 0.11879166666666667,
      "grad_norm": 0.9414463639259338,
      "learning_rate": 0.00029029917329359355,
      "loss": 4.3038,
      "step": 57020
    },
    {
      "epoch": 0.1188125,
      "grad_norm": 0.8444003462791443,
      "learning_rate": 0.00029029568520924534,
      "loss": 4.3264,
      "step": 57030
    },
    {
      "epoch": 0.11883333333333333,
      "grad_norm": 0.8890520334243774,
      "learning_rate": 0.0002902921965188753,
      "loss": 4.0861,
      "step": 57040
    },
    {
      "epoch": 0.11885416666666666,
      "grad_norm": 1.45571768283844,
      "learning_rate": 0.0002902887072224985,
      "loss": 4.207,
      "step": 57050
    },
    {
      "epoch": 0.118875,
      "grad_norm": 0.8819935917854309,
      "learning_rate": 0.0002902852173201299,
      "loss": 4.0895,
      "step": 57060
    },
    {
      "epoch": 0.11889583333333334,
      "grad_norm": 0.9604533910751343,
      "learning_rate": 0.0002902817268117848,
      "loss": 4.4432,
      "step": 57070
    },
    {
      "epoch": 0.11891666666666667,
      "grad_norm": 0.9147547483444214,
      "learning_rate": 0.0002902782356974782,
      "loss": 4.2876,
      "step": 57080
    },
    {
      "epoch": 0.1189375,
      "grad_norm": 0.91681307554245,
      "learning_rate": 0.0002902747439772251,
      "loss": 3.9403,
      "step": 57090
    },
    {
      "epoch": 0.11895833333333333,
      "grad_norm": 0.9182935953140259,
      "learning_rate": 0.0002902712516510406,
      "loss": 4.0984,
      "step": 57100
    },
    {
      "epoch": 0.11897916666666666,
      "grad_norm": 0.9549752473831177,
      "learning_rate": 0.0002902677587189398,
      "loss": 4.0172,
      "step": 57110
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.8334968686103821,
      "learning_rate": 0.0002902642651809379,
      "loss": 4.2536,
      "step": 57120
    },
    {
      "epoch": 0.11902083333333334,
      "grad_norm": 0.8485882878303528,
      "learning_rate": 0.00029026077103704983,
      "loss": 4.1104,
      "step": 57130
    },
    {
      "epoch": 0.11904166666666667,
      "grad_norm": 0.9636193513870239,
      "learning_rate": 0.0002902572762872908,
      "loss": 4.0799,
      "step": 57140
    },
    {
      "epoch": 0.1190625,
      "grad_norm": 0.860469400882721,
      "learning_rate": 0.0002902537809316758,
      "loss": 4.0977,
      "step": 57150
    },
    {
      "epoch": 0.11908333333333333,
      "grad_norm": 0.9301887154579163,
      "learning_rate": 0.00029025028497022,
      "loss": 3.9214,
      "step": 57160
    },
    {
      "epoch": 0.11910416666666666,
      "grad_norm": 0.8684184551239014,
      "learning_rate": 0.0002902467884029385,
      "loss": 3.9902,
      "step": 57170
    },
    {
      "epoch": 0.119125,
      "grad_norm": 0.8956994414329529,
      "learning_rate": 0.00029024329122984637,
      "loss": 4.231,
      "step": 57180
    },
    {
      "epoch": 0.11914583333333334,
      "grad_norm": 0.8754360675811768,
      "learning_rate": 0.0002902397934509587,
      "loss": 4.1583,
      "step": 57190
    },
    {
      "epoch": 0.11916666666666667,
      "grad_norm": 0.8440777063369751,
      "learning_rate": 0.0002902362950662907,
      "loss": 4.0386,
      "step": 57200
    },
    {
      "epoch": 0.1191875,
      "grad_norm": 1.0226398706436157,
      "learning_rate": 0.0002902327960758574,
      "loss": 4.1582,
      "step": 57210
    },
    {
      "epoch": 0.11920833333333333,
      "grad_norm": 1.0247223377227783,
      "learning_rate": 0.0002902292964796739,
      "loss": 4.0317,
      "step": 57220
    },
    {
      "epoch": 0.11922916666666666,
      "grad_norm": 0.8779356479644775,
      "learning_rate": 0.00029022579627775534,
      "loss": 4.1867,
      "step": 57230
    },
    {
      "epoch": 0.11925,
      "grad_norm": 0.9107732176780701,
      "learning_rate": 0.0002902222954701169,
      "loss": 4.1072,
      "step": 57240
    },
    {
      "epoch": 0.11927083333333334,
      "grad_norm": 1.008133888244629,
      "learning_rate": 0.0002902187940567736,
      "loss": 4.2046,
      "step": 57250
    },
    {
      "epoch": 0.11929166666666667,
      "grad_norm": 0.8812578916549683,
      "learning_rate": 0.0002902152920377406,
      "loss": 4.206,
      "step": 57260
    },
    {
      "epoch": 0.1193125,
      "grad_norm": 1.230601191520691,
      "learning_rate": 0.00029021178941303306,
      "loss": 4.1442,
      "step": 57270
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 0.8983424305915833,
      "learning_rate": 0.00029020828618266613,
      "loss": 4.1007,
      "step": 57280
    },
    {
      "epoch": 0.11935416666666666,
      "grad_norm": 0.8782752752304077,
      "learning_rate": 0.00029020478234665487,
      "loss": 4.2128,
      "step": 57290
    },
    {
      "epoch": 0.119375,
      "grad_norm": 0.889686644077301,
      "learning_rate": 0.0002902012779050144,
      "loss": 4.3148,
      "step": 57300
    },
    {
      "epoch": 0.11939583333333334,
      "grad_norm": 0.8812167644500732,
      "learning_rate": 0.00029019777285775995,
      "loss": 4.0876,
      "step": 57310
    },
    {
      "epoch": 0.11941666666666667,
      "grad_norm": 0.9157904386520386,
      "learning_rate": 0.0002901942672049066,
      "loss": 4.1808,
      "step": 57320
    },
    {
      "epoch": 0.1194375,
      "grad_norm": 0.8869336843490601,
      "learning_rate": 0.0002901907609464696,
      "loss": 4.1506,
      "step": 57330
    },
    {
      "epoch": 0.11945833333333333,
      "grad_norm": 0.9270909428596497,
      "learning_rate": 0.00029018725408246385,
      "loss": 4.2177,
      "step": 57340
    },
    {
      "epoch": 0.11947916666666666,
      "grad_norm": 0.8741538524627686,
      "learning_rate": 0.00029018374661290476,
      "loss": 4.0831,
      "step": 57350
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.9327719211578369,
      "learning_rate": 0.0002901802385378073,
      "loss": 4.144,
      "step": 57360
    },
    {
      "epoch": 0.11952083333333334,
      "grad_norm": 0.8933073282241821,
      "learning_rate": 0.0002901767298571868,
      "loss": 4.1757,
      "step": 57370
    },
    {
      "epoch": 0.11954166666666667,
      "grad_norm": 0.8582578301429749,
      "learning_rate": 0.00029017322057105823,
      "loss": 4.2892,
      "step": 57380
    },
    {
      "epoch": 0.1195625,
      "grad_norm": 0.9433116912841797,
      "learning_rate": 0.00029016971067943686,
      "loss": 4.2267,
      "step": 57390
    },
    {
      "epoch": 0.11958333333333333,
      "grad_norm": 0.889477550983429,
      "learning_rate": 0.0002901662001823378,
      "loss": 4.2283,
      "step": 57400
    },
    {
      "epoch": 0.11960416666666666,
      "grad_norm": 0.9106919169425964,
      "learning_rate": 0.00029016268907977626,
      "loss": 4.1115,
      "step": 57410
    },
    {
      "epoch": 0.119625,
      "grad_norm": 0.937214732170105,
      "learning_rate": 0.00029015917737176735,
      "loss": 4.0548,
      "step": 57420
    },
    {
      "epoch": 0.11964583333333334,
      "grad_norm": 0.8893346786499023,
      "learning_rate": 0.0002901556650583263,
      "loss": 4.351,
      "step": 57430
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 0.9497413039207458,
      "learning_rate": 0.00029015215213946824,
      "loss": 4.2153,
      "step": 57440
    },
    {
      "epoch": 0.1196875,
      "grad_norm": 0.8317806124687195,
      "learning_rate": 0.0002901486386152084,
      "loss": 4.3574,
      "step": 57450
    },
    {
      "epoch": 0.11970833333333333,
      "grad_norm": 0.9495760202407837,
      "learning_rate": 0.0002901451244855619,
      "loss": 4.2828,
      "step": 57460
    },
    {
      "epoch": 0.11972916666666666,
      "grad_norm": 0.8244057297706604,
      "learning_rate": 0.00029014160975054395,
      "loss": 4.2125,
      "step": 57470
    },
    {
      "epoch": 0.11975,
      "grad_norm": 0.8402006030082703,
      "learning_rate": 0.0002901380944101697,
      "loss": 4.2031,
      "step": 57480
    },
    {
      "epoch": 0.11977083333333334,
      "grad_norm": 0.8661121129989624,
      "learning_rate": 0.0002901345784644543,
      "loss": 4.1104,
      "step": 57490
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 1.01558256149292,
      "learning_rate": 0.000290131061913413,
      "loss": 4.3734,
      "step": 57500
    },
    {
      "epoch": 0.1198125,
      "grad_norm": 0.9657647013664246,
      "learning_rate": 0.000290127544757061,
      "loss": 4.4056,
      "step": 57510
    },
    {
      "epoch": 0.11983333333333333,
      "grad_norm": 0.7862779498100281,
      "learning_rate": 0.0002901240269954135,
      "loss": 3.975,
      "step": 57520
    },
    {
      "epoch": 0.11985416666666666,
      "grad_norm": 0.8896008133888245,
      "learning_rate": 0.0002901205086284857,
      "loss": 4.2879,
      "step": 57530
    },
    {
      "epoch": 0.119875,
      "grad_norm": 0.8236013054847717,
      "learning_rate": 0.00029011698965629266,
      "loss": 4.0992,
      "step": 57540
    },
    {
      "epoch": 0.11989583333333333,
      "grad_norm": 0.8754155039787292,
      "learning_rate": 0.00029011347007884975,
      "loss": 4.2288,
      "step": 57550
    },
    {
      "epoch": 0.11991666666666667,
      "grad_norm": 1.5526313781738281,
      "learning_rate": 0.0002901099498961721,
      "loss": 4.1595,
      "step": 57560
    },
    {
      "epoch": 0.1199375,
      "grad_norm": 1.0090742111206055,
      "learning_rate": 0.00029010642910827494,
      "loss": 4.1491,
      "step": 57570
    },
    {
      "epoch": 0.11995833333333333,
      "grad_norm": 0.7632808089256287,
      "learning_rate": 0.00029010290771517346,
      "loss": 4.0765,
      "step": 57580
    },
    {
      "epoch": 0.11997916666666666,
      "grad_norm": 1.943790078163147,
      "learning_rate": 0.0002900993857168829,
      "loss": 4.1799,
      "step": 57590
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8742446303367615,
      "learning_rate": 0.00029009586311341844,
      "loss": 4.1899,
      "step": 57600
    },
    {
      "epoch": 0.12002083333333333,
      "grad_norm": 0.8665404319763184,
      "learning_rate": 0.00029009233990479527,
      "loss": 4.1005,
      "step": 57610
    },
    {
      "epoch": 0.12004166666666667,
      "grad_norm": 0.8868326544761658,
      "learning_rate": 0.00029008881609102866,
      "loss": 4.2616,
      "step": 57620
    },
    {
      "epoch": 0.1200625,
      "grad_norm": 0.8843753337860107,
      "learning_rate": 0.0002900852916721338,
      "loss": 4.0279,
      "step": 57630
    },
    {
      "epoch": 0.12008333333333333,
      "grad_norm": 0.8102687001228333,
      "learning_rate": 0.000290081766648126,
      "loss": 4.2025,
      "step": 57640
    },
    {
      "epoch": 0.12010416666666666,
      "grad_norm": 0.8849968910217285,
      "learning_rate": 0.0002900782410190203,
      "loss": 4.1523,
      "step": 57650
    },
    {
      "epoch": 0.120125,
      "grad_norm": 0.8697952032089233,
      "learning_rate": 0.0002900747147848321,
      "loss": 4.0253,
      "step": 57660
    },
    {
      "epoch": 0.12014583333333333,
      "grad_norm": 0.8736778497695923,
      "learning_rate": 0.0002900711879455766,
      "loss": 3.8828,
      "step": 57670
    },
    {
      "epoch": 0.12016666666666667,
      "grad_norm": 0.92383873462677,
      "learning_rate": 0.000290067660501269,
      "loss": 4.019,
      "step": 57680
    },
    {
      "epoch": 0.1201875,
      "grad_norm": 0.8185778856277466,
      "learning_rate": 0.00029006413245192457,
      "loss": 4.225,
      "step": 57690
    },
    {
      "epoch": 0.12020833333333333,
      "grad_norm": 0.9661805629730225,
      "learning_rate": 0.00029006060379755847,
      "loss": 3.8818,
      "step": 57700
    },
    {
      "epoch": 0.12022916666666666,
      "grad_norm": 0.8492413759231567,
      "learning_rate": 0.0002900570745381861,
      "loss": 4.1394,
      "step": 57710
    },
    {
      "epoch": 0.12025,
      "grad_norm": 0.8205475807189941,
      "learning_rate": 0.00029005354467382245,
      "loss": 4.0067,
      "step": 57720
    },
    {
      "epoch": 0.12027083333333333,
      "grad_norm": 0.8913257718086243,
      "learning_rate": 0.00029005001420448305,
      "loss": 4.1938,
      "step": 57730
    },
    {
      "epoch": 0.12029166666666667,
      "grad_norm": 0.8128662109375,
      "learning_rate": 0.000290046483130183,
      "loss": 4.2176,
      "step": 57740
    },
    {
      "epoch": 0.1203125,
      "grad_norm": 1.0981568098068237,
      "learning_rate": 0.0002900429514509376,
      "loss": 4.0705,
      "step": 57750
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 0.8880155086517334,
      "learning_rate": 0.00029003941916676203,
      "loss": 4.0343,
      "step": 57760
    },
    {
      "epoch": 0.12035416666666666,
      "grad_norm": 0.8833734393119812,
      "learning_rate": 0.00029003588627767165,
      "loss": 4.1067,
      "step": 57770
    },
    {
      "epoch": 0.120375,
      "grad_norm": 0.9474151134490967,
      "learning_rate": 0.0002900323527836816,
      "loss": 4.1046,
      "step": 57780
    },
    {
      "epoch": 0.12039583333333333,
      "grad_norm": 0.8991575241088867,
      "learning_rate": 0.0002900288186848073,
      "loss": 4.2672,
      "step": 57790
    },
    {
      "epoch": 0.12041666666666667,
      "grad_norm": 0.924408495426178,
      "learning_rate": 0.00029002528398106383,
      "loss": 4.139,
      "step": 57800
    },
    {
      "epoch": 0.1204375,
      "grad_norm": 0.8670862317085266,
      "learning_rate": 0.00029002174867246664,
      "loss": 4.2264,
      "step": 57810
    },
    {
      "epoch": 0.12045833333333333,
      "grad_norm": 0.8682405948638916,
      "learning_rate": 0.00029001821275903095,
      "loss": 3.9986,
      "step": 57820
    },
    {
      "epoch": 0.12047916666666666,
      "grad_norm": 0.8387435078620911,
      "learning_rate": 0.0002900146762407719,
      "loss": 4.2717,
      "step": 57830
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.8466472625732422,
      "learning_rate": 0.0002900111391177049,
      "loss": 4.0586,
      "step": 57840
    },
    {
      "epoch": 0.12052083333333333,
      "grad_norm": 0.9281333088874817,
      "learning_rate": 0.00029000760138984526,
      "loss": 4.1262,
      "step": 57850
    },
    {
      "epoch": 0.12054166666666667,
      "grad_norm": 0.8468194603919983,
      "learning_rate": 0.0002900040630572082,
      "loss": 4.14,
      "step": 57860
    },
    {
      "epoch": 0.1205625,
      "grad_norm": 0.8360385894775391,
      "learning_rate": 0.0002900005241198089,
      "loss": 4.0849,
      "step": 57870
    },
    {
      "epoch": 0.12058333333333333,
      "grad_norm": 0.9012966752052307,
      "learning_rate": 0.00028999698457766283,
      "loss": 4.2161,
      "step": 57880
    },
    {
      "epoch": 0.12060416666666667,
      "grad_norm": 0.8787999749183655,
      "learning_rate": 0.0002899934444307852,
      "loss": 4.2329,
      "step": 57890
    },
    {
      "epoch": 0.120625,
      "grad_norm": 0.8353797197341919,
      "learning_rate": 0.00028998990367919126,
      "loss": 4.036,
      "step": 57900
    },
    {
      "epoch": 0.12064583333333333,
      "grad_norm": 0.8738961815834045,
      "learning_rate": 0.0002899863623228964,
      "loss": 3.9288,
      "step": 57910
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 0.8168794512748718,
      "learning_rate": 0.00028998282036191587,
      "loss": 4.0769,
      "step": 57920
    },
    {
      "epoch": 0.1206875,
      "grad_norm": 0.8767741322517395,
      "learning_rate": 0.00028997927779626494,
      "loss": 4.1616,
      "step": 57930
    },
    {
      "epoch": 0.12070833333333333,
      "grad_norm": 0.8981189131736755,
      "learning_rate": 0.0002899757346259589,
      "loss": 4.0995,
      "step": 57940
    },
    {
      "epoch": 0.12072916666666667,
      "grad_norm": 0.8992833495140076,
      "learning_rate": 0.00028997219085101316,
      "loss": 4.1576,
      "step": 57950
    },
    {
      "epoch": 0.12075,
      "grad_norm": 0.8874717950820923,
      "learning_rate": 0.00028996864647144293,
      "loss": 4.2396,
      "step": 57960
    },
    {
      "epoch": 0.12077083333333333,
      "grad_norm": 0.8847991228103638,
      "learning_rate": 0.00028996510148726357,
      "loss": 4.1605,
      "step": 57970
    },
    {
      "epoch": 0.12079166666666667,
      "grad_norm": 1.0293984413146973,
      "learning_rate": 0.0002899615558984903,
      "loss": 4.1557,
      "step": 57980
    },
    {
      "epoch": 0.1208125,
      "grad_norm": 0.8292377591133118,
      "learning_rate": 0.00028995800970513865,
      "loss": 4.139,
      "step": 57990
    },
    {
      "epoch": 0.12083333333333333,
      "grad_norm": 0.9893221855163574,
      "learning_rate": 0.00028995446290722366,
      "loss": 4.2754,
      "step": 58000
    },
    {
      "epoch": 0.12083333333333333,
      "eval_loss": 3.8955016136169434,
      "eval_runtime": 7.183,
      "eval_samples_per_second": 1.392,
      "eval_steps_per_second": 0.418,
      "step": 58000
    },
    {
      "epoch": 0.12085416666666667,
      "grad_norm": 0.8748226165771484,
      "learning_rate": 0.00028995091550476084,
      "loss": 4.0029,
      "step": 58010
    },
    {
      "epoch": 0.120875,
      "grad_norm": 0.86993408203125,
      "learning_rate": 0.0002899473674977655,
      "loss": 4.0022,
      "step": 58020
    },
    {
      "epoch": 0.12089583333333333,
      "grad_norm": 0.9311012625694275,
      "learning_rate": 0.00028994381888625283,
      "loss": 4.1757,
      "step": 58030
    },
    {
      "epoch": 0.12091666666666667,
      "grad_norm": 0.9101464748382568,
      "learning_rate": 0.0002899402696702384,
      "loss": 4.2872,
      "step": 58040
    },
    {
      "epoch": 0.1209375,
      "grad_norm": 1.0714454650878906,
      "learning_rate": 0.0002899367198497373,
      "loss": 4.1413,
      "step": 58050
    },
    {
      "epoch": 0.12095833333333333,
      "grad_norm": 0.8687760829925537,
      "learning_rate": 0.00028993316942476494,
      "loss": 4.2646,
      "step": 58060
    },
    {
      "epoch": 0.12097916666666667,
      "grad_norm": 1.401865839958191,
      "learning_rate": 0.0002899296183953367,
      "loss": 4.124,
      "step": 58070
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.8850260972976685,
      "learning_rate": 0.0002899260667614679,
      "loss": 3.9863,
      "step": 58080
    },
    {
      "epoch": 0.12102083333333333,
      "grad_norm": 0.8822619318962097,
      "learning_rate": 0.0002899225145231739,
      "loss": 3.9936,
      "step": 58090
    },
    {
      "epoch": 0.12104166666666667,
      "grad_norm": 0.9530978202819824,
      "learning_rate": 0.00028991896168046997,
      "loss": 4.0812,
      "step": 58100
    },
    {
      "epoch": 0.1210625,
      "grad_norm": 1.0254913568496704,
      "learning_rate": 0.0002899154082333716,
      "loss": 4.0641,
      "step": 58110
    },
    {
      "epoch": 0.12108333333333333,
      "grad_norm": 0.8729770183563232,
      "learning_rate": 0.00028991185418189395,
      "loss": 4.2751,
      "step": 58120
    },
    {
      "epoch": 0.12110416666666667,
      "grad_norm": 0.8782076835632324,
      "learning_rate": 0.0002899082995260526,
      "loss": 4.261,
      "step": 58130
    },
    {
      "epoch": 0.121125,
      "grad_norm": 0.9124925136566162,
      "learning_rate": 0.00028990474426586265,
      "loss": 4.3974,
      "step": 58140
    },
    {
      "epoch": 0.12114583333333333,
      "grad_norm": 1.0153703689575195,
      "learning_rate": 0.00028990118840133963,
      "loss": 4.1706,
      "step": 58150
    },
    {
      "epoch": 0.12116666666666667,
      "grad_norm": 0.8514720797538757,
      "learning_rate": 0.00028989763193249885,
      "loss": 4.1564,
      "step": 58160
    },
    {
      "epoch": 0.1211875,
      "grad_norm": 0.8823070526123047,
      "learning_rate": 0.00028989407485935565,
      "loss": 3.9466,
      "step": 58170
    },
    {
      "epoch": 0.12120833333333333,
      "grad_norm": 0.8493360280990601,
      "learning_rate": 0.00028989051718192544,
      "loss": 4.2989,
      "step": 58180
    },
    {
      "epoch": 0.12122916666666667,
      "grad_norm": 0.9194298982620239,
      "learning_rate": 0.0002898869589002236,
      "loss": 4.1386,
      "step": 58190
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.8781035542488098,
      "learning_rate": 0.0002898834000142654,
      "loss": 4.0719,
      "step": 58200
    },
    {
      "epoch": 0.12127083333333333,
      "grad_norm": 0.8343088626861572,
      "learning_rate": 0.00028987984052406636,
      "loss": 4.1198,
      "step": 58210
    },
    {
      "epoch": 0.12129166666666667,
      "grad_norm": 0.8456350564956665,
      "learning_rate": 0.00028987628042964175,
      "loss": 4.1748,
      "step": 58220
    },
    {
      "epoch": 0.1213125,
      "grad_norm": 1.0153980255126953,
      "learning_rate": 0.000289872719731007,
      "loss": 4.1499,
      "step": 58230
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.894092321395874,
      "learning_rate": 0.00028986915842817737,
      "loss": 4.2366,
      "step": 58240
    },
    {
      "epoch": 0.12135416666666667,
      "grad_norm": 0.7763185501098633,
      "learning_rate": 0.00028986559652116844,
      "loss": 4.312,
      "step": 58250
    },
    {
      "epoch": 0.121375,
      "grad_norm": 1.08799409866333,
      "learning_rate": 0.00028986203400999545,
      "loss": 4.2289,
      "step": 58260
    },
    {
      "epoch": 0.12139583333333333,
      "grad_norm": 0.8651816248893738,
      "learning_rate": 0.00028985847089467383,
      "loss": 4.155,
      "step": 58270
    },
    {
      "epoch": 0.12141666666666667,
      "grad_norm": 0.9068861603736877,
      "learning_rate": 0.000289854907175219,
      "loss": 4.0619,
      "step": 58280
    },
    {
      "epoch": 0.1214375,
      "grad_norm": 0.8392196893692017,
      "learning_rate": 0.0002898513428516463,
      "loss": 4.1927,
      "step": 58290
    },
    {
      "epoch": 0.12145833333333333,
      "grad_norm": 0.8627197742462158,
      "learning_rate": 0.0002898477779239712,
      "loss": 4.1496,
      "step": 58300
    },
    {
      "epoch": 0.12147916666666667,
      "grad_norm": 1.0246399641036987,
      "learning_rate": 0.000289844212392209,
      "loss": 4.1119,
      "step": 58310
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.8889542818069458,
      "learning_rate": 0.00028984064625637516,
      "loss": 4.2437,
      "step": 58320
    },
    {
      "epoch": 0.12152083333333333,
      "grad_norm": 0.8715499639511108,
      "learning_rate": 0.0002898370795164851,
      "loss": 4.2695,
      "step": 58330
    },
    {
      "epoch": 0.12154166666666667,
      "grad_norm": 0.873694121837616,
      "learning_rate": 0.00028983351217255423,
      "loss": 4.0795,
      "step": 58340
    },
    {
      "epoch": 0.1215625,
      "grad_norm": 0.8790757656097412,
      "learning_rate": 0.00028982994422459794,
      "loss": 4.3118,
      "step": 58350
    },
    {
      "epoch": 0.12158333333333333,
      "grad_norm": 0.8754678964614868,
      "learning_rate": 0.0002898263756726316,
      "loss": 4.0826,
      "step": 58360
    },
    {
      "epoch": 0.12160416666666667,
      "grad_norm": 0.8589012026786804,
      "learning_rate": 0.0002898228065166707,
      "loss": 4.1766,
      "step": 58370
    },
    {
      "epoch": 0.121625,
      "grad_norm": 0.8867617845535278,
      "learning_rate": 0.0002898192367567306,
      "loss": 4.149,
      "step": 58380
    },
    {
      "epoch": 0.12164583333333333,
      "grad_norm": 0.8267613649368286,
      "learning_rate": 0.0002898156663928268,
      "loss": 4.0784,
      "step": 58390
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 0.8935715556144714,
      "learning_rate": 0.0002898120954249746,
      "loss": 4.2506,
      "step": 58400
    },
    {
      "epoch": 0.1216875,
      "grad_norm": 0.9309560060501099,
      "learning_rate": 0.00028980852385318947,
      "loss": 4.0696,
      "step": 58410
    },
    {
      "epoch": 0.12170833333333334,
      "grad_norm": 0.8609305024147034,
      "learning_rate": 0.0002898049516774869,
      "loss": 4.0925,
      "step": 58420
    },
    {
      "epoch": 0.12172916666666667,
      "grad_norm": 0.8410503268241882,
      "learning_rate": 0.00028980137889788227,
      "loss": 4.0428,
      "step": 58430
    },
    {
      "epoch": 0.12175,
      "grad_norm": 1.002864956855774,
      "learning_rate": 0.000289797805514391,
      "loss": 4.3257,
      "step": 58440
    },
    {
      "epoch": 0.12177083333333333,
      "grad_norm": 0.9408769607543945,
      "learning_rate": 0.0002897942315270285,
      "loss": 4.0405,
      "step": 58450
    },
    {
      "epoch": 0.12179166666666667,
      "grad_norm": 0.9361431002616882,
      "learning_rate": 0.0002897906569358104,
      "loss": 4.1568,
      "step": 58460
    },
    {
      "epoch": 0.1218125,
      "grad_norm": 0.916069746017456,
      "learning_rate": 0.0002897870817407519,
      "loss": 4.2524,
      "step": 58470
    },
    {
      "epoch": 0.12183333333333334,
      "grad_norm": 0.8585254549980164,
      "learning_rate": 0.00028978350594186853,
      "loss": 4.2794,
      "step": 58480
    },
    {
      "epoch": 0.12185416666666667,
      "grad_norm": 0.9547238349914551,
      "learning_rate": 0.00028977992953917577,
      "loss": 4.1461,
      "step": 58490
    },
    {
      "epoch": 0.121875,
      "grad_norm": 0.8661320805549622,
      "learning_rate": 0.0002897763525326891,
      "loss": 4.1492,
      "step": 58500
    },
    {
      "epoch": 0.12189583333333333,
      "grad_norm": 0.911508321762085,
      "learning_rate": 0.0002897727749224238,
      "loss": 4.3468,
      "step": 58510
    },
    {
      "epoch": 0.12191666666666667,
      "grad_norm": 0.8849718570709229,
      "learning_rate": 0.00028976919670839545,
      "loss": 4.2249,
      "step": 58520
    },
    {
      "epoch": 0.1219375,
      "grad_norm": 0.9577906131744385,
      "learning_rate": 0.00028976561789061957,
      "loss": 4.1927,
      "step": 58530
    },
    {
      "epoch": 0.12195833333333334,
      "grad_norm": 0.8783043026924133,
      "learning_rate": 0.0002897620384691115,
      "loss": 4.3055,
      "step": 58540
    },
    {
      "epoch": 0.12197916666666667,
      "grad_norm": 0.8801243305206299,
      "learning_rate": 0.00028975845844388673,
      "loss": 4.1699,
      "step": 58550
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.8976540565490723,
      "learning_rate": 0.0002897548778149608,
      "loss": 4.1066,
      "step": 58560
    },
    {
      "epoch": 0.12202083333333333,
      "grad_norm": 0.9319229125976562,
      "learning_rate": 0.00028975129658234905,
      "loss": 4.1616,
      "step": 58570
    },
    {
      "epoch": 0.12204166666666667,
      "grad_norm": 0.9224914908409119,
      "learning_rate": 0.0002897477147460671,
      "loss": 4.1923,
      "step": 58580
    },
    {
      "epoch": 0.1220625,
      "grad_norm": 0.881641685962677,
      "learning_rate": 0.0002897441323061302,
      "loss": 4.2218,
      "step": 58590
    },
    {
      "epoch": 0.12208333333333334,
      "grad_norm": 0.9591953754425049,
      "learning_rate": 0.0002897405492625541,
      "loss": 4.1567,
      "step": 58600
    },
    {
      "epoch": 0.12210416666666667,
      "grad_norm": 0.8847965598106384,
      "learning_rate": 0.0002897369656153541,
      "loss": 4.2692,
      "step": 58610
    },
    {
      "epoch": 0.122125,
      "grad_norm": 0.9541553854942322,
      "learning_rate": 0.0002897333813645457,
      "loss": 4.1684,
      "step": 58620
    },
    {
      "epoch": 0.12214583333333333,
      "grad_norm": 0.822026789188385,
      "learning_rate": 0.0002897297965101444,
      "loss": 4.2899,
      "step": 58630
    },
    {
      "epoch": 0.12216666666666667,
      "grad_norm": 0.885489821434021,
      "learning_rate": 0.0002897262110521657,
      "loss": 3.9625,
      "step": 58640
    },
    {
      "epoch": 0.1221875,
      "grad_norm": 0.8456812500953674,
      "learning_rate": 0.00028972262499062513,
      "loss": 4.2047,
      "step": 58650
    },
    {
      "epoch": 0.12220833333333334,
      "grad_norm": 1.0055543184280396,
      "learning_rate": 0.000289719038325538,
      "loss": 4.265,
      "step": 58660
    },
    {
      "epoch": 0.12222916666666667,
      "grad_norm": 0.8535748720169067,
      "learning_rate": 0.00028971545105692,
      "loss": 4.158,
      "step": 58670
    },
    {
      "epoch": 0.12225,
      "grad_norm": 0.9530118703842163,
      "learning_rate": 0.00028971186318478657,
      "loss": 4.1733,
      "step": 58680
    },
    {
      "epoch": 0.12227083333333333,
      "grad_norm": 1.0018305778503418,
      "learning_rate": 0.00028970827470915317,
      "loss": 4.1177,
      "step": 58690
    },
    {
      "epoch": 0.12229166666666667,
      "grad_norm": 0.8412598371505737,
      "learning_rate": 0.00028970468563003533,
      "loss": 4.2754,
      "step": 58700
    },
    {
      "epoch": 0.1223125,
      "grad_norm": 0.8487083911895752,
      "learning_rate": 0.00028970109594744856,
      "loss": 4.1432,
      "step": 58710
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 0.864490807056427,
      "learning_rate": 0.0002896975056614083,
      "loss": 4.0868,
      "step": 58720
    },
    {
      "epoch": 0.12235416666666667,
      "grad_norm": 0.8463956713676453,
      "learning_rate": 0.0002896939147719302,
      "loss": 4.2141,
      "step": 58730
    },
    {
      "epoch": 0.122375,
      "grad_norm": 0.9991822242736816,
      "learning_rate": 0.00028969032327902963,
      "loss": 3.9369,
      "step": 58740
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 0.9109265804290771,
      "learning_rate": 0.00028968673118272216,
      "loss": 4.1753,
      "step": 58750
    },
    {
      "epoch": 0.12241666666666666,
      "grad_norm": 0.8679025173187256,
      "learning_rate": 0.00028968313848302333,
      "loss": 4.0488,
      "step": 58760
    },
    {
      "epoch": 0.1224375,
      "grad_norm": 1.0081573724746704,
      "learning_rate": 0.0002896795451799486,
      "loss": 4.0597,
      "step": 58770
    },
    {
      "epoch": 0.12245833333333334,
      "grad_norm": 0.8491145372390747,
      "learning_rate": 0.0002896759512735135,
      "loss": 4.1397,
      "step": 58780
    },
    {
      "epoch": 0.12247916666666667,
      "grad_norm": 0.8262888193130493,
      "learning_rate": 0.0002896723567637336,
      "loss": 4.2282,
      "step": 58790
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.8824493288993835,
      "learning_rate": 0.00028966876165062444,
      "loss": 4.1516,
      "step": 58800
    },
    {
      "epoch": 0.12252083333333333,
      "grad_norm": 0.8360809087753296,
      "learning_rate": 0.0002896651659342015,
      "loss": 4.1261,
      "step": 58810
    },
    {
      "epoch": 0.12254166666666666,
      "grad_norm": 0.8979717493057251,
      "learning_rate": 0.0002896615696144803,
      "loss": 4.0911,
      "step": 58820
    },
    {
      "epoch": 0.1225625,
      "grad_norm": 0.9472336173057556,
      "learning_rate": 0.00028965797269147643,
      "loss": 4.0428,
      "step": 58830
    },
    {
      "epoch": 0.12258333333333334,
      "grad_norm": 0.8643315434455872,
      "learning_rate": 0.00028965437516520535,
      "loss": 4.2536,
      "step": 58840
    },
    {
      "epoch": 0.12260416666666667,
      "grad_norm": 0.9033222794532776,
      "learning_rate": 0.0002896507770356827,
      "loss": 4.2598,
      "step": 58850
    },
    {
      "epoch": 0.122625,
      "grad_norm": 0.9362680315971375,
      "learning_rate": 0.00028964717830292394,
      "loss": 4.2238,
      "step": 58860
    },
    {
      "epoch": 0.12264583333333333,
      "grad_norm": 0.8226088881492615,
      "learning_rate": 0.00028964357896694466,
      "loss": 4.3843,
      "step": 58870
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.8344805240631104,
      "learning_rate": 0.00028963997902776046,
      "loss": 4.1457,
      "step": 58880
    },
    {
      "epoch": 0.1226875,
      "grad_norm": 0.8700240254402161,
      "learning_rate": 0.0002896363784853867,
      "loss": 3.997,
      "step": 58890
    },
    {
      "epoch": 0.12270833333333334,
      "grad_norm": 1.0123320817947388,
      "learning_rate": 0.00028963277733983915,
      "loss": 4.2883,
      "step": 58900
    },
    {
      "epoch": 0.12272916666666667,
      "grad_norm": 0.8496624827384949,
      "learning_rate": 0.00028962917559113323,
      "loss": 4.2459,
      "step": 58910
    },
    {
      "epoch": 0.12275,
      "grad_norm": 0.8329934477806091,
      "learning_rate": 0.00028962557323928455,
      "loss": 4.2593,
      "step": 58920
    },
    {
      "epoch": 0.12277083333333333,
      "grad_norm": 1.009008526802063,
      "learning_rate": 0.0002896219702843086,
      "loss": 4.2527,
      "step": 58930
    },
    {
      "epoch": 0.12279166666666666,
      "grad_norm": 0.9053685665130615,
      "learning_rate": 0.0002896183667262211,
      "loss": 4.2365,
      "step": 58940
    },
    {
      "epoch": 0.1228125,
      "grad_norm": 0.891383707523346,
      "learning_rate": 0.0002896147625650375,
      "loss": 4.144,
      "step": 58950
    },
    {
      "epoch": 0.12283333333333334,
      "grad_norm": 0.9040927886962891,
      "learning_rate": 0.0002896111578007734,
      "loss": 4.1744,
      "step": 58960
    },
    {
      "epoch": 0.12285416666666667,
      "grad_norm": 0.856330931186676,
      "learning_rate": 0.0002896075524334443,
      "loss": 4.2314,
      "step": 58970
    },
    {
      "epoch": 0.122875,
      "grad_norm": 0.8541301488876343,
      "learning_rate": 0.00028960394646306584,
      "loss": 4.1636,
      "step": 58980
    },
    {
      "epoch": 0.12289583333333333,
      "grad_norm": 0.8162012100219727,
      "learning_rate": 0.00028960033988965363,
      "loss": 4.1101,
      "step": 58990
    },
    {
      "epoch": 0.12291666666666666,
      "grad_norm": 0.8564749956130981,
      "learning_rate": 0.0002895967327132232,
      "loss": 4.0923,
      "step": 59000
    },
    {
      "epoch": 0.12291666666666666,
      "eval_loss": 3.892554521560669,
      "eval_runtime": 7.2554,
      "eval_samples_per_second": 1.378,
      "eval_steps_per_second": 0.413,
      "step": 59000
    },
    {
      "epoch": 0.1229375,
      "grad_norm": 1.0268305540084839,
      "learning_rate": 0.00028959312493379014,
      "loss": 4.1578,
      "step": 59010
    },
    {
      "epoch": 0.12295833333333334,
      "grad_norm": 0.8510739207267761,
      "learning_rate": 0.00028958951655137,
      "loss": 3.9469,
      "step": 59020
    },
    {
      "epoch": 0.12297916666666667,
      "grad_norm": 0.8966023921966553,
      "learning_rate": 0.00028958590756597845,
      "loss": 4.0908,
      "step": 59030
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.8232726454734802,
      "learning_rate": 0.00028958229797763105,
      "loss": 4.3132,
      "step": 59040
    },
    {
      "epoch": 0.12302083333333333,
      "grad_norm": 0.8450847864151001,
      "learning_rate": 0.0002895786877863433,
      "loss": 4.3278,
      "step": 59050
    },
    {
      "epoch": 0.12304166666666666,
      "grad_norm": 1.0022673606872559,
      "learning_rate": 0.0002895750769921309,
      "loss": 4.0318,
      "step": 59060
    },
    {
      "epoch": 0.1230625,
      "grad_norm": 0.9733986854553223,
      "learning_rate": 0.00028957146559500946,
      "loss": 4.2154,
      "step": 59070
    },
    {
      "epoch": 0.12308333333333334,
      "grad_norm": 0.8322035670280457,
      "learning_rate": 0.0002895678535949945,
      "loss": 3.8997,
      "step": 59080
    },
    {
      "epoch": 0.12310416666666667,
      "grad_norm": 0.9411032199859619,
      "learning_rate": 0.0002895642409921016,
      "loss": 4.0603,
      "step": 59090
    },
    {
      "epoch": 0.123125,
      "grad_norm": 0.8355811834335327,
      "learning_rate": 0.0002895606277863465,
      "loss": 3.9414,
      "step": 59100
    },
    {
      "epoch": 0.12314583333333333,
      "grad_norm": 0.874434232711792,
      "learning_rate": 0.0002895570139777447,
      "loss": 4.1563,
      "step": 59110
    },
    {
      "epoch": 0.12316666666666666,
      "grad_norm": 0.8691285848617554,
      "learning_rate": 0.00028955339956631185,
      "loss": 4.1849,
      "step": 59120
    },
    {
      "epoch": 0.1231875,
      "grad_norm": 0.9177035689353943,
      "learning_rate": 0.00028954978455206356,
      "loss": 4.2074,
      "step": 59130
    },
    {
      "epoch": 0.12320833333333334,
      "grad_norm": 0.8752744197845459,
      "learning_rate": 0.0002895461689350154,
      "loss": 4.1425,
      "step": 59140
    },
    {
      "epoch": 0.12322916666666667,
      "grad_norm": 0.8229994177818298,
      "learning_rate": 0.0002895425527151831,
      "loss": 4.2604,
      "step": 59150
    },
    {
      "epoch": 0.12325,
      "grad_norm": 0.9195342659950256,
      "learning_rate": 0.0002895389358925822,
      "loss": 4.1459,
      "step": 59160
    },
    {
      "epoch": 0.12327083333333333,
      "grad_norm": 0.8808161616325378,
      "learning_rate": 0.00028953531846722823,
      "loss": 4.2093,
      "step": 59170
    },
    {
      "epoch": 0.12329166666666666,
      "grad_norm": 0.8537929058074951,
      "learning_rate": 0.000289531700439137,
      "loss": 4.1439,
      "step": 59180
    },
    {
      "epoch": 0.1233125,
      "grad_norm": 0.880932092666626,
      "learning_rate": 0.00028952808180832405,
      "loss": 4.1767,
      "step": 59190
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 0.8587957620620728,
      "learning_rate": 0.00028952446257480495,
      "loss": 4.0557,
      "step": 59200
    },
    {
      "epoch": 0.12335416666666667,
      "grad_norm": 0.8989032506942749,
      "learning_rate": 0.00028952084273859547,
      "loss": 4.1831,
      "step": 59210
    },
    {
      "epoch": 0.123375,
      "grad_norm": 0.82874995470047,
      "learning_rate": 0.0002895172222997111,
      "loss": 4.2457,
      "step": 59220
    },
    {
      "epoch": 0.12339583333333333,
      "grad_norm": 0.8626028895378113,
      "learning_rate": 0.0002895136012581677,
      "loss": 4.1146,
      "step": 59230
    },
    {
      "epoch": 0.12341666666666666,
      "grad_norm": 0.868137776851654,
      "learning_rate": 0.0002895099796139806,
      "loss": 4.3691,
      "step": 59240
    },
    {
      "epoch": 0.1234375,
      "grad_norm": 0.8349109292030334,
      "learning_rate": 0.0002895063573671657,
      "loss": 4.1511,
      "step": 59250
    },
    {
      "epoch": 0.12345833333333334,
      "grad_norm": 0.917907178401947,
      "learning_rate": 0.00028950273451773854,
      "loss": 4.2569,
      "step": 59260
    },
    {
      "epoch": 0.12347916666666667,
      "grad_norm": 0.8761681318283081,
      "learning_rate": 0.0002894991110657148,
      "loss": 4.107,
      "step": 59270
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.8398889899253845,
      "learning_rate": 0.0002894954870111101,
      "loss": 4.0873,
      "step": 59280
    },
    {
      "epoch": 0.12352083333333333,
      "grad_norm": 0.9560723304748535,
      "learning_rate": 0.0002894918623539401,
      "loss": 4.0798,
      "step": 59290
    },
    {
      "epoch": 0.12354166666666666,
      "grad_norm": 0.8898078203201294,
      "learning_rate": 0.0002894882370942205,
      "loss": 4.2671,
      "step": 59300
    },
    {
      "epoch": 0.1235625,
      "grad_norm": 0.8777334690093994,
      "learning_rate": 0.00028948461123196696,
      "loss": 4.093,
      "step": 59310
    },
    {
      "epoch": 0.12358333333333334,
      "grad_norm": 0.8258395791053772,
      "learning_rate": 0.00028948098476719504,
      "loss": 3.9692,
      "step": 59320
    },
    {
      "epoch": 0.12360416666666667,
      "grad_norm": 0.8570188879966736,
      "learning_rate": 0.00028947735769992047,
      "loss": 4.1077,
      "step": 59330
    },
    {
      "epoch": 0.123625,
      "grad_norm": 0.8418903350830078,
      "learning_rate": 0.00028947373003015894,
      "loss": 4.2191,
      "step": 59340
    },
    {
      "epoch": 0.12364583333333333,
      "grad_norm": 0.8723993301391602,
      "learning_rate": 0.00028947010175792615,
      "loss": 4.1651,
      "step": 59350
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 1.020704746246338,
      "learning_rate": 0.00028946647288323766,
      "loss": 4.0742,
      "step": 59360
    },
    {
      "epoch": 0.1236875,
      "grad_norm": 0.8373140096664429,
      "learning_rate": 0.00028946284340610926,
      "loss": 4.3893,
      "step": 59370
    },
    {
      "epoch": 0.12370833333333334,
      "grad_norm": 0.935795247554779,
      "learning_rate": 0.0002894592133265566,
      "loss": 4.2412,
      "step": 59380
    },
    {
      "epoch": 0.12372916666666667,
      "grad_norm": 0.9966400265693665,
      "learning_rate": 0.00028945558264459526,
      "loss": 4.2558,
      "step": 59390
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.8627016544342041,
      "learning_rate": 0.00028945195136024105,
      "loss": 3.9963,
      "step": 59400
    },
    {
      "epoch": 0.12377083333333333,
      "grad_norm": 0.9353218078613281,
      "learning_rate": 0.00028944831947350964,
      "loss": 4.0826,
      "step": 59410
    },
    {
      "epoch": 0.12379166666666666,
      "grad_norm": 0.8206254243850708,
      "learning_rate": 0.00028944468698441665,
      "loss": 4.2435,
      "step": 59420
    },
    {
      "epoch": 0.1238125,
      "grad_norm": 0.9793194532394409,
      "learning_rate": 0.00028944105389297784,
      "loss": 4.1697,
      "step": 59430
    },
    {
      "epoch": 0.12383333333333334,
      "grad_norm": 0.9386745691299438,
      "learning_rate": 0.0002894374201992088,
      "loss": 4.1929,
      "step": 59440
    },
    {
      "epoch": 0.12385416666666667,
      "grad_norm": 0.9019344449043274,
      "learning_rate": 0.00028943378590312537,
      "loss": 4.2598,
      "step": 59450
    },
    {
      "epoch": 0.123875,
      "grad_norm": 0.7967190146446228,
      "learning_rate": 0.00028943015100474313,
      "loss": 4.1986,
      "step": 59460
    },
    {
      "epoch": 0.12389583333333333,
      "grad_norm": 0.8956776261329651,
      "learning_rate": 0.00028942651550407786,
      "loss": 4.3355,
      "step": 59470
    },
    {
      "epoch": 0.12391666666666666,
      "grad_norm": 0.9279078245162964,
      "learning_rate": 0.00028942287940114523,
      "loss": 4.0486,
      "step": 59480
    },
    {
      "epoch": 0.1239375,
      "grad_norm": 0.9499250650405884,
      "learning_rate": 0.00028941924269596095,
      "loss": 4.1013,
      "step": 59490
    },
    {
      "epoch": 0.12395833333333334,
      "grad_norm": 0.98270183801651,
      "learning_rate": 0.0002894156053885407,
      "loss": 4.0872,
      "step": 59500
    },
    {
      "epoch": 0.12397916666666667,
      "grad_norm": 0.8857592344284058,
      "learning_rate": 0.00028941196747890027,
      "loss": 4.1655,
      "step": 59510
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.865216851234436,
      "learning_rate": 0.00028940832896705526,
      "loss": 4.1396,
      "step": 59520
    },
    {
      "epoch": 0.12402083333333333,
      "grad_norm": 0.919724702835083,
      "learning_rate": 0.0002894046898530215,
      "loss": 4.0897,
      "step": 59530
    },
    {
      "epoch": 0.12404166666666666,
      "grad_norm": 0.8475481867790222,
      "learning_rate": 0.0002894010501368146,
      "loss": 4.5498,
      "step": 59540
    },
    {
      "epoch": 0.1240625,
      "grad_norm": 0.8714243173599243,
      "learning_rate": 0.0002893974098184504,
      "loss": 4.456,
      "step": 59550
    },
    {
      "epoch": 0.12408333333333334,
      "grad_norm": 0.8532951474189758,
      "learning_rate": 0.00028939376889794454,
      "loss": 4.0854,
      "step": 59560
    },
    {
      "epoch": 0.12410416666666667,
      "grad_norm": 0.811372697353363,
      "learning_rate": 0.0002893901273753128,
      "loss": 4.101,
      "step": 59570
    },
    {
      "epoch": 0.124125,
      "grad_norm": 0.9580104947090149,
      "learning_rate": 0.00028938648525057083,
      "loss": 4.1415,
      "step": 59580
    },
    {
      "epoch": 0.12414583333333333,
      "grad_norm": 0.8603886365890503,
      "learning_rate": 0.00028938284252373446,
      "loss": 4.2582,
      "step": 59590
    },
    {
      "epoch": 0.12416666666666666,
      "grad_norm": 0.8658533096313477,
      "learning_rate": 0.0002893791991948194,
      "loss": 4.2582,
      "step": 59600
    },
    {
      "epoch": 0.1241875,
      "grad_norm": 0.876502513885498,
      "learning_rate": 0.00028937555526384134,
      "loss": 4.1006,
      "step": 59610
    },
    {
      "epoch": 0.12420833333333334,
      "grad_norm": 0.8897978067398071,
      "learning_rate": 0.00028937191073081603,
      "loss": 4.2213,
      "step": 59620
    },
    {
      "epoch": 0.12422916666666667,
      "grad_norm": 0.8825716972351074,
      "learning_rate": 0.00028936826559575933,
      "loss": 4.228,
      "step": 59630
    },
    {
      "epoch": 0.12425,
      "grad_norm": 0.9762287139892578,
      "learning_rate": 0.0002893646198586868,
      "loss": 4.1997,
      "step": 59640
    },
    {
      "epoch": 0.12427083333333333,
      "grad_norm": 0.8274044394493103,
      "learning_rate": 0.00028936097351961427,
      "loss": 4.0809,
      "step": 59650
    },
    {
      "epoch": 0.12429166666666666,
      "grad_norm": 0.9236529469490051,
      "learning_rate": 0.0002893573265785575,
      "loss": 4.2846,
      "step": 59660
    },
    {
      "epoch": 0.1243125,
      "grad_norm": 0.8709969520568848,
      "learning_rate": 0.0002893536790355323,
      "loss": 4.1727,
      "step": 59670
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 0.8829751014709473,
      "learning_rate": 0.00028935003089055434,
      "loss": 4.0375,
      "step": 59680
    },
    {
      "epoch": 0.12435416666666667,
      "grad_norm": 0.8841952085494995,
      "learning_rate": 0.0002893463821436394,
      "loss": 4.1086,
      "step": 59690
    },
    {
      "epoch": 0.124375,
      "grad_norm": 0.915098249912262,
      "learning_rate": 0.0002893427327948032,
      "loss": 4.1461,
      "step": 59700
    },
    {
      "epoch": 0.12439583333333333,
      "grad_norm": 0.947228193283081,
      "learning_rate": 0.00028933908284406164,
      "loss": 4.1899,
      "step": 59710
    },
    {
      "epoch": 0.12441666666666666,
      "grad_norm": 0.8927266001701355,
      "learning_rate": 0.0002893354322914303,
      "loss": 4.1799,
      "step": 59720
    },
    {
      "epoch": 0.1244375,
      "grad_norm": 0.8735888004302979,
      "learning_rate": 0.0002893317811369251,
      "loss": 4.3255,
      "step": 59730
    },
    {
      "epoch": 0.12445833333333334,
      "grad_norm": 0.8765093684196472,
      "learning_rate": 0.00028932812938056176,
      "loss": 4.2034,
      "step": 59740
    },
    {
      "epoch": 0.12447916666666667,
      "grad_norm": 0.9031052589416504,
      "learning_rate": 0.000289324477022356,
      "loss": 4.1472,
      "step": 59750
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.8494100570678711,
      "learning_rate": 0.0002893208240623237,
      "loss": 4.0826,
      "step": 59760
    },
    {
      "epoch": 0.12452083333333333,
      "grad_norm": 0.8592674136161804,
      "learning_rate": 0.0002893171705004806,
      "loss": 4.1534,
      "step": 59770
    },
    {
      "epoch": 0.12454166666666666,
      "grad_norm": 0.8705371618270874,
      "learning_rate": 0.00028931351633684245,
      "loss": 4.092,
      "step": 59780
    },
    {
      "epoch": 0.1245625,
      "grad_norm": 0.9454982876777649,
      "learning_rate": 0.000289309861571425,
      "loss": 3.9634,
      "step": 59790
    },
    {
      "epoch": 0.12458333333333334,
      "grad_norm": 0.8919463753700256,
      "learning_rate": 0.00028930620620424413,
      "loss": 4.1253,
      "step": 59800
    },
    {
      "epoch": 0.12460416666666667,
      "grad_norm": 0.8981391787528992,
      "learning_rate": 0.0002893025502353156,
      "loss": 4.0453,
      "step": 59810
    },
    {
      "epoch": 0.124625,
      "grad_norm": 0.9598683714866638,
      "learning_rate": 0.0002892988936646552,
      "loss": 4.2142,
      "step": 59820
    },
    {
      "epoch": 0.12464583333333333,
      "grad_norm": 0.8347988724708557,
      "learning_rate": 0.00028929523649227874,
      "loss": 4.047,
      "step": 59830
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 0.8861834406852722,
      "learning_rate": 0.00028929157871820195,
      "loss": 4.2426,
      "step": 59840
    },
    {
      "epoch": 0.1246875,
      "grad_norm": 0.8879811763763428,
      "learning_rate": 0.0002892879203424407,
      "loss": 3.9872,
      "step": 59850
    },
    {
      "epoch": 0.12470833333333334,
      "grad_norm": 1.0483006238937378,
      "learning_rate": 0.00028928426136501075,
      "loss": 4.1247,
      "step": 59860
    },
    {
      "epoch": 0.12472916666666667,
      "grad_norm": 0.8888176083564758,
      "learning_rate": 0.0002892806017859279,
      "loss": 4.1939,
      "step": 59870
    },
    {
      "epoch": 0.12475,
      "grad_norm": 0.8793342709541321,
      "learning_rate": 0.00028927694160520807,
      "loss": 4.2503,
      "step": 59880
    },
    {
      "epoch": 0.12477083333333333,
      "grad_norm": 0.8812277913093567,
      "learning_rate": 0.0002892732808228669,
      "loss": 4.0654,
      "step": 59890
    },
    {
      "epoch": 0.12479166666666666,
      "grad_norm": 0.8369464874267578,
      "learning_rate": 0.00028926961943892033,
      "loss": 4.4116,
      "step": 59900
    },
    {
      "epoch": 0.1248125,
      "grad_norm": 0.8229146599769592,
      "learning_rate": 0.0002892659574533841,
      "loss": 4.1245,
      "step": 59910
    },
    {
      "epoch": 0.12483333333333334,
      "grad_norm": 0.8215901255607605,
      "learning_rate": 0.000289262294866274,
      "loss": 4.0967,
      "step": 59920
    },
    {
      "epoch": 0.12485416666666667,
      "grad_norm": 0.8681108951568604,
      "learning_rate": 0.00028925863167760603,
      "loss": 3.9867,
      "step": 59930
    },
    {
      "epoch": 0.124875,
      "grad_norm": 0.8180153965950012,
      "learning_rate": 0.00028925496788739585,
      "loss": 4.0243,
      "step": 59940
    },
    {
      "epoch": 0.12489583333333333,
      "grad_norm": 0.935234785079956,
      "learning_rate": 0.0002892513034956593,
      "loss": 4.2342,
      "step": 59950
    },
    {
      "epoch": 0.12491666666666666,
      "grad_norm": 0.8527235388755798,
      "learning_rate": 0.00028924763850241226,
      "loss": 4.2963,
      "step": 59960
    },
    {
      "epoch": 0.1249375,
      "grad_norm": 0.8667024374008179,
      "learning_rate": 0.00028924397290767056,
      "loss": 4.2191,
      "step": 59970
    },
    {
      "epoch": 0.12495833333333334,
      "grad_norm": 0.8714976906776428,
      "learning_rate": 0.00028924030671145,
      "loss": 4.1566,
      "step": 59980
    },
    {
      "epoch": 0.12497916666666667,
      "grad_norm": 0.9443203210830688,
      "learning_rate": 0.0002892366399137664,
      "loss": 4.0591,
      "step": 59990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.9176813364028931,
      "learning_rate": 0.00028923297251463566,
      "loss": 3.9204,
      "step": 60000
    },
    {
      "epoch": 0.125,
      "eval_loss": 3.8966896533966064,
      "eval_runtime": 7.1924,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 60000
    },
    {
      "epoch": 0.12502083333333333,
      "grad_norm": 0.9067503809928894,
      "learning_rate": 0.0002892293045140736,
      "loss": 4.1125,
      "step": 60010
    },
    {
      "epoch": 0.12504166666666666,
      "grad_norm": 0.8207433819770813,
      "learning_rate": 0.00028922563591209604,
      "loss": 4.2667,
      "step": 60020
    },
    {
      "epoch": 0.1250625,
      "grad_norm": 0.9869863390922546,
      "learning_rate": 0.00028922196670871887,
      "loss": 4.2327,
      "step": 60030
    },
    {
      "epoch": 0.12508333333333332,
      "grad_norm": 0.9044448733329773,
      "learning_rate": 0.00028921829690395785,
      "loss": 4.0381,
      "step": 60040
    },
    {
      "epoch": 0.12510416666666666,
      "grad_norm": 0.8697370290756226,
      "learning_rate": 0.0002892146264978289,
      "loss": 4.1584,
      "step": 60050
    },
    {
      "epoch": 0.125125,
      "grad_norm": 0.8809248208999634,
      "learning_rate": 0.0002892109554903479,
      "loss": 4.3375,
      "step": 60060
    },
    {
      "epoch": 0.12514583333333335,
      "grad_norm": 0.9113447070121765,
      "learning_rate": 0.0002892072838815307,
      "loss": 4.2079,
      "step": 60070
    },
    {
      "epoch": 0.12516666666666668,
      "grad_norm": 0.9645925164222717,
      "learning_rate": 0.0002892036116713931,
      "loss": 4.2181,
      "step": 60080
    },
    {
      "epoch": 0.1251875,
      "grad_norm": 0.8790239095687866,
      "learning_rate": 0.000289199938859951,
      "loss": 4.158,
      "step": 60090
    },
    {
      "epoch": 0.12520833333333334,
      "grad_norm": 0.9431245923042297,
      "learning_rate": 0.0002891962654472203,
      "loss": 4.1505,
      "step": 60100
    },
    {
      "epoch": 0.12522916666666667,
      "grad_norm": 0.8874306678771973,
      "learning_rate": 0.00028919259143321676,
      "loss": 4.1279,
      "step": 60110
    },
    {
      "epoch": 0.12525,
      "grad_norm": 0.8937843441963196,
      "learning_rate": 0.00028918891681795636,
      "loss": 4.0135,
      "step": 60120
    },
    {
      "epoch": 0.12527083333333333,
      "grad_norm": 0.855902910232544,
      "learning_rate": 0.00028918524160145495,
      "loss": 3.9845,
      "step": 60130
    },
    {
      "epoch": 0.12529166666666666,
      "grad_norm": 0.8796031475067139,
      "learning_rate": 0.00028918156578372836,
      "loss": 4.2198,
      "step": 60140
    },
    {
      "epoch": 0.1253125,
      "grad_norm": 0.867943525314331,
      "learning_rate": 0.0002891778893647925,
      "loss": 4.2702,
      "step": 60150
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.8279869556427002,
      "learning_rate": 0.0002891742123446633,
      "loss": 4.5213,
      "step": 60160
    },
    {
      "epoch": 0.12535416666666666,
      "grad_norm": 0.9283916354179382,
      "learning_rate": 0.0002891705347233565,
      "loss": 4.1791,
      "step": 60170
    },
    {
      "epoch": 0.125375,
      "grad_norm": 0.8418513536453247,
      "learning_rate": 0.00028916685650088816,
      "loss": 4.1973,
      "step": 60180
    },
    {
      "epoch": 0.12539583333333335,
      "grad_norm": 0.9675092697143555,
      "learning_rate": 0.00028916317767727404,
      "loss": 4.4203,
      "step": 60190
    },
    {
      "epoch": 0.12541666666666668,
      "grad_norm": 0.9620090126991272,
      "learning_rate": 0.0002891594982525301,
      "loss": 4.1315,
      "step": 60200
    },
    {
      "epoch": 0.1254375,
      "grad_norm": 0.9692965149879456,
      "learning_rate": 0.0002891558182266722,
      "loss": 4.1306,
      "step": 60210
    },
    {
      "epoch": 0.12545833333333334,
      "grad_norm": 0.9024059176445007,
      "learning_rate": 0.0002891521375997163,
      "loss": 4.1957,
      "step": 60220
    },
    {
      "epoch": 0.12547916666666667,
      "grad_norm": 0.9856324195861816,
      "learning_rate": 0.00028914845637167816,
      "loss": 4.078,
      "step": 60230
    },
    {
      "epoch": 0.1255,
      "grad_norm": 1.0973321199417114,
      "learning_rate": 0.0002891447745425738,
      "loss": 4.1659,
      "step": 60240
    },
    {
      "epoch": 0.12552083333333333,
      "grad_norm": 0.9017499685287476,
      "learning_rate": 0.00028914109211241907,
      "loss": 4.0614,
      "step": 60250
    },
    {
      "epoch": 0.12554166666666666,
      "grad_norm": 0.8750648498535156,
      "learning_rate": 0.00028913740908122996,
      "loss": 4.0955,
      "step": 60260
    },
    {
      "epoch": 0.1255625,
      "grad_norm": 0.8000684976577759,
      "learning_rate": 0.00028913372544902226,
      "loss": 4.2817,
      "step": 60270
    },
    {
      "epoch": 0.12558333333333332,
      "grad_norm": 0.8343833088874817,
      "learning_rate": 0.000289130041215812,
      "loss": 4.1307,
      "step": 60280
    },
    {
      "epoch": 0.12560416666666666,
      "grad_norm": 0.8054641485214233,
      "learning_rate": 0.000289126356381615,
      "loss": 4.2824,
      "step": 60290
    },
    {
      "epoch": 0.125625,
      "grad_norm": 0.9683747887611389,
      "learning_rate": 0.00028912267094644717,
      "loss": 3.9801,
      "step": 60300
    },
    {
      "epoch": 0.12564583333333335,
      "grad_norm": 0.8467873334884644,
      "learning_rate": 0.0002891189849103245,
      "loss": 4.0726,
      "step": 60310
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 0.8736506104469299,
      "learning_rate": 0.00028911529827326286,
      "loss": 4.1752,
      "step": 60320
    },
    {
      "epoch": 0.1256875,
      "grad_norm": 0.8248001933097839,
      "learning_rate": 0.00028911161103527825,
      "loss": 4.1582,
      "step": 60330
    },
    {
      "epoch": 0.12570833333333334,
      "grad_norm": 0.802884042263031,
      "learning_rate": 0.0002891079231963865,
      "loss": 4.1341,
      "step": 60340
    },
    {
      "epoch": 0.12572916666666667,
      "grad_norm": 0.8382161259651184,
      "learning_rate": 0.00028910423475660363,
      "loss": 4.3156,
      "step": 60350
    },
    {
      "epoch": 0.12575,
      "grad_norm": 0.8438488841056824,
      "learning_rate": 0.00028910054571594545,
      "loss": 4.2025,
      "step": 60360
    },
    {
      "epoch": 0.12577083333333333,
      "grad_norm": 0.9393414855003357,
      "learning_rate": 0.000289096856074428,
      "loss": 4.126,
      "step": 60370
    },
    {
      "epoch": 0.12579166666666666,
      "grad_norm": 0.8093985319137573,
      "learning_rate": 0.0002890931658320673,
      "loss": 4.1324,
      "step": 60380
    },
    {
      "epoch": 0.1258125,
      "grad_norm": 0.9663591384887695,
      "learning_rate": 0.0002890894749888791,
      "loss": 4.0892,
      "step": 60390
    },
    {
      "epoch": 0.12583333333333332,
      "grad_norm": 0.8812168836593628,
      "learning_rate": 0.00028908578354487933,
      "loss": 4.1398,
      "step": 60400
    },
    {
      "epoch": 0.12585416666666666,
      "grad_norm": 0.8682370781898499,
      "learning_rate": 0.0002890820915000841,
      "loss": 4.1032,
      "step": 60410
    },
    {
      "epoch": 0.125875,
      "grad_norm": 0.8862074613571167,
      "learning_rate": 0.00028907839885450933,
      "loss": 3.9577,
      "step": 60420
    },
    {
      "epoch": 0.12589583333333335,
      "grad_norm": 0.8319352269172668,
      "learning_rate": 0.0002890747056081709,
      "loss": 4.1775,
      "step": 60430
    },
    {
      "epoch": 0.12591666666666668,
      "grad_norm": 0.8503081202507019,
      "learning_rate": 0.00028907101176108485,
      "loss": 4.3324,
      "step": 60440
    },
    {
      "epoch": 0.1259375,
      "grad_norm": 0.8793091773986816,
      "learning_rate": 0.000289067317313267,
      "loss": 4.0381,
      "step": 60450
    },
    {
      "epoch": 0.12595833333333334,
      "grad_norm": 0.821550726890564,
      "learning_rate": 0.0002890636222647334,
      "loss": 4.1797,
      "step": 60460
    },
    {
      "epoch": 0.12597916666666667,
      "grad_norm": 0.9258577227592468,
      "learning_rate": 0.00028905992661549997,
      "loss": 4.3319,
      "step": 60470
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.870011568069458,
      "learning_rate": 0.0002890562303655827,
      "loss": 4.1557,
      "step": 60480
    },
    {
      "epoch": 0.12602083333333333,
      "grad_norm": 0.9211011528968811,
      "learning_rate": 0.0002890525335149976,
      "loss": 3.9527,
      "step": 60490
    },
    {
      "epoch": 0.12604166666666666,
      "grad_norm": 0.9693563580513,
      "learning_rate": 0.00028904883606376057,
      "loss": 4.1252,
      "step": 60500
    },
    {
      "epoch": 0.1260625,
      "grad_norm": 0.7929987907409668,
      "learning_rate": 0.00028904513801188765,
      "loss": 4.1691,
      "step": 60510
    },
    {
      "epoch": 0.12608333333333333,
      "grad_norm": 0.8208884596824646,
      "learning_rate": 0.00028904143935939476,
      "loss": 4.1821,
      "step": 60520
    },
    {
      "epoch": 0.12610416666666666,
      "grad_norm": 0.8387762904167175,
      "learning_rate": 0.0002890377401062979,
      "loss": 4.1205,
      "step": 60530
    },
    {
      "epoch": 0.126125,
      "grad_norm": 0.9279916882514954,
      "learning_rate": 0.000289034040252613,
      "loss": 4.0894,
      "step": 60540
    },
    {
      "epoch": 0.12614583333333335,
      "grad_norm": 0.8433248996734619,
      "learning_rate": 0.0002890303397983561,
      "loss": 4.1591,
      "step": 60550
    },
    {
      "epoch": 0.12616666666666668,
      "grad_norm": 0.8351240158081055,
      "learning_rate": 0.0002890266387435431,
      "loss": 4.2426,
      "step": 60560
    },
    {
      "epoch": 0.1261875,
      "grad_norm": 0.8868426084518433,
      "learning_rate": 0.0002890229370881901,
      "loss": 4.1909,
      "step": 60570
    },
    {
      "epoch": 0.12620833333333334,
      "grad_norm": 0.8865308165550232,
      "learning_rate": 0.00028901923483231305,
      "loss": 4.171,
      "step": 60580
    },
    {
      "epoch": 0.12622916666666667,
      "grad_norm": 0.9876571893692017,
      "learning_rate": 0.00028901553197592793,
      "loss": 4.1796,
      "step": 60590
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.8431642055511475,
      "learning_rate": 0.00028901182851905077,
      "loss": 4.4331,
      "step": 60600
    },
    {
      "epoch": 0.12627083333333333,
      "grad_norm": 0.8522916436195374,
      "learning_rate": 0.0002890081244616975,
      "loss": 4.1272,
      "step": 60610
    },
    {
      "epoch": 0.12629166666666666,
      "grad_norm": 0.8195329308509827,
      "learning_rate": 0.00028900441980388413,
      "loss": 4.1908,
      "step": 60620
    },
    {
      "epoch": 0.1263125,
      "grad_norm": 0.9077087640762329,
      "learning_rate": 0.00028900071454562675,
      "loss": 4.1472,
      "step": 60630
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 0.9549883008003235,
      "learning_rate": 0.0002889970086869413,
      "loss": 4.2267,
      "step": 60640
    },
    {
      "epoch": 0.12635416666666666,
      "grad_norm": 0.836715042591095,
      "learning_rate": 0.0002889933022278437,
      "loss": 4.1564,
      "step": 60650
    },
    {
      "epoch": 0.126375,
      "grad_norm": 0.8852465152740479,
      "learning_rate": 0.0002889895951683501,
      "loss": 4.0527,
      "step": 60660
    },
    {
      "epoch": 0.12639583333333335,
      "grad_norm": 0.8432920575141907,
      "learning_rate": 0.0002889858875084765,
      "loss": 4.1711,
      "step": 60670
    },
    {
      "epoch": 0.12641666666666668,
      "grad_norm": 0.8896614909172058,
      "learning_rate": 0.00028898217924823883,
      "loss": 4.0741,
      "step": 60680
    },
    {
      "epoch": 0.1264375,
      "grad_norm": 0.8514712452888489,
      "learning_rate": 0.0002889784703876532,
      "loss": 4.1901,
      "step": 60690
    },
    {
      "epoch": 0.12645833333333334,
      "grad_norm": 0.8606197237968445,
      "learning_rate": 0.0002889747609267356,
      "loss": 4.2373,
      "step": 60700
    },
    {
      "epoch": 0.12647916666666667,
      "grad_norm": 0.9798799157142639,
      "learning_rate": 0.00028897105086550203,
      "loss": 4.1831,
      "step": 60710
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.8915190100669861,
      "learning_rate": 0.0002889673402039685,
      "loss": 4.1742,
      "step": 60720
    },
    {
      "epoch": 0.12652083333333333,
      "grad_norm": 0.8471779823303223,
      "learning_rate": 0.0002889636289421511,
      "loss": 4.1763,
      "step": 60730
    },
    {
      "epoch": 0.12654166666666666,
      "grad_norm": 0.8411991000175476,
      "learning_rate": 0.0002889599170800658,
      "loss": 4.2077,
      "step": 60740
    },
    {
      "epoch": 0.1265625,
      "grad_norm": 0.7774333953857422,
      "learning_rate": 0.0002889562046177287,
      "loss": 4.0065,
      "step": 60750
    },
    {
      "epoch": 0.12658333333333333,
      "grad_norm": 1.9297840595245361,
      "learning_rate": 0.0002889524915551557,
      "loss": 4.2581,
      "step": 60760
    },
    {
      "epoch": 0.12660416666666666,
      "grad_norm": 0.8321470022201538,
      "learning_rate": 0.000288948777892363,
      "loss": 4.2408,
      "step": 60770
    },
    {
      "epoch": 0.126625,
      "grad_norm": 0.7931461334228516,
      "learning_rate": 0.0002889450636293667,
      "loss": 4.1562,
      "step": 60780
    },
    {
      "epoch": 0.12664583333333335,
      "grad_norm": 0.8531469106674194,
      "learning_rate": 0.00028894134876618257,
      "loss": 4.1788,
      "step": 60790
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.8851356506347656,
      "learning_rate": 0.00028893763330282686,
      "loss": 4.1846,
      "step": 60800
    },
    {
      "epoch": 0.1266875,
      "grad_norm": 0.7709139585494995,
      "learning_rate": 0.00028893391723931554,
      "loss": 4.263,
      "step": 60810
    },
    {
      "epoch": 0.12670833333333334,
      "grad_norm": 0.8798452019691467,
      "learning_rate": 0.00028893020057566476,
      "loss": 4.1729,
      "step": 60820
    },
    {
      "epoch": 0.12672916666666667,
      "grad_norm": 0.8757812976837158,
      "learning_rate": 0.0002889264833118904,
      "loss": 4.1405,
      "step": 60830
    },
    {
      "epoch": 0.12675,
      "grad_norm": 0.8628445267677307,
      "learning_rate": 0.00028892276544800874,
      "loss": 4.0292,
      "step": 60840
    },
    {
      "epoch": 0.12677083333333333,
      "grad_norm": 0.8183016180992126,
      "learning_rate": 0.00028891904698403564,
      "loss": 4.2641,
      "step": 60850
    },
    {
      "epoch": 0.12679166666666666,
      "grad_norm": 0.8898200988769531,
      "learning_rate": 0.0002889153279199873,
      "loss": 4.1955,
      "step": 60860
    },
    {
      "epoch": 0.1268125,
      "grad_norm": 0.8857119083404541,
      "learning_rate": 0.0002889116082558797,
      "loss": 4.1623,
      "step": 60870
    },
    {
      "epoch": 0.12683333333333333,
      "grad_norm": 0.8773455023765564,
      "learning_rate": 0.0002889078879917289,
      "loss": 4.1484,
      "step": 60880
    },
    {
      "epoch": 0.12685416666666666,
      "grad_norm": 1.0215190649032593,
      "learning_rate": 0.0002889041671275511,
      "loss": 3.9819,
      "step": 60890
    },
    {
      "epoch": 0.126875,
      "grad_norm": 0.8914421200752258,
      "learning_rate": 0.0002889004456633622,
      "loss": 4.1157,
      "step": 60900
    },
    {
      "epoch": 0.12689583333333335,
      "grad_norm": 0.8925802707672119,
      "learning_rate": 0.00028889672359917837,
      "loss": 4.3225,
      "step": 60910
    },
    {
      "epoch": 0.12691666666666668,
      "grad_norm": 0.9486112594604492,
      "learning_rate": 0.0002888930009350157,
      "loss": 4.0216,
      "step": 60920
    },
    {
      "epoch": 0.1269375,
      "grad_norm": 0.8790378570556641,
      "learning_rate": 0.0002888892776708902,
      "loss": 3.9086,
      "step": 60930
    },
    {
      "epoch": 0.12695833333333334,
      "grad_norm": 0.8313170671463013,
      "learning_rate": 0.000288885553806818,
      "loss": 3.9974,
      "step": 60940
    },
    {
      "epoch": 0.12697916666666667,
      "grad_norm": 0.9009470343589783,
      "learning_rate": 0.00028888182934281524,
      "loss": 4.0658,
      "step": 60950
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.8729720711708069,
      "learning_rate": 0.0002888781042788979,
      "loss": 4.139,
      "step": 60960
    },
    {
      "epoch": 0.12702083333333333,
      "grad_norm": 0.861685037612915,
      "learning_rate": 0.00028887437861508216,
      "loss": 4.2561,
      "step": 60970
    },
    {
      "epoch": 0.12704166666666666,
      "grad_norm": 0.921168863773346,
      "learning_rate": 0.00028887065235138406,
      "loss": 4.3571,
      "step": 60980
    },
    {
      "epoch": 0.1270625,
      "grad_norm": 0.9102672934532166,
      "learning_rate": 0.00028886692548781966,
      "loss": 4.0224,
      "step": 60990
    },
    {
      "epoch": 0.12708333333333333,
      "grad_norm": 0.9316790699958801,
      "learning_rate": 0.00028886319802440524,
      "loss": 4.048,
      "step": 61000
    },
    {
      "epoch": 0.12708333333333333,
      "eval_loss": 3.883336305618286,
      "eval_runtime": 7.1854,
      "eval_samples_per_second": 1.392,
      "eval_steps_per_second": 0.418,
      "step": 61000
    },
    {
      "epoch": 0.12710416666666666,
      "grad_norm": 0.939030647277832,
      "learning_rate": 0.00028885946996115667,
      "loss": 4.2849,
      "step": 61010
    },
    {
      "epoch": 0.127125,
      "grad_norm": 0.7907212376594543,
      "learning_rate": 0.00028885574129809016,
      "loss": 4.0571,
      "step": 61020
    },
    {
      "epoch": 0.12714583333333335,
      "grad_norm": 0.8822506070137024,
      "learning_rate": 0.0002888520120352218,
      "loss": 4.41,
      "step": 61030
    },
    {
      "epoch": 0.12716666666666668,
      "grad_norm": 0.8371566534042358,
      "learning_rate": 0.0002888482821725677,
      "loss": 4.0798,
      "step": 61040
    },
    {
      "epoch": 0.1271875,
      "grad_norm": 0.8970259428024292,
      "learning_rate": 0.00028884455171014406,
      "loss": 4.1862,
      "step": 61050
    },
    {
      "epoch": 0.12720833333333334,
      "grad_norm": 0.8553664684295654,
      "learning_rate": 0.00028884082064796685,
      "loss": 4.237,
      "step": 61060
    },
    {
      "epoch": 0.12722916666666667,
      "grad_norm": 0.8503963351249695,
      "learning_rate": 0.00028883708898605226,
      "loss": 4.2049,
      "step": 61070
    },
    {
      "epoch": 0.12725,
      "grad_norm": 1.0207818746566772,
      "learning_rate": 0.00028883335672441645,
      "loss": 4.1728,
      "step": 61080
    },
    {
      "epoch": 0.12727083333333333,
      "grad_norm": 0.9028138518333435,
      "learning_rate": 0.0002888296238630754,
      "loss": 4.2293,
      "step": 61090
    },
    {
      "epoch": 0.12729166666666666,
      "grad_norm": 0.8436145782470703,
      "learning_rate": 0.0002888258904020454,
      "loss": 4.1694,
      "step": 61100
    },
    {
      "epoch": 0.1273125,
      "grad_norm": 0.9264490008354187,
      "learning_rate": 0.0002888221563413425,
      "loss": 4.3196,
      "step": 61110
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 0.8579912781715393,
      "learning_rate": 0.0002888184216809828,
      "loss": 4.1812,
      "step": 61120
    },
    {
      "epoch": 0.12735416666666666,
      "grad_norm": 0.8845233917236328,
      "learning_rate": 0.0002888146864209825,
      "loss": 4.2523,
      "step": 61130
    },
    {
      "epoch": 0.127375,
      "grad_norm": 0.9803390502929688,
      "learning_rate": 0.0002888109505613577,
      "loss": 4.1818,
      "step": 61140
    },
    {
      "epoch": 0.12739583333333335,
      "grad_norm": 0.8481751680374146,
      "learning_rate": 0.00028880721410212446,
      "loss": 4.0412,
      "step": 61150
    },
    {
      "epoch": 0.12741666666666668,
      "grad_norm": 0.9325034618377686,
      "learning_rate": 0.0002888034770432991,
      "loss": 4.1084,
      "step": 61160
    },
    {
      "epoch": 0.1274375,
      "grad_norm": 0.8339653611183167,
      "learning_rate": 0.00028879973938489767,
      "loss": 4.04,
      "step": 61170
    },
    {
      "epoch": 0.12745833333333334,
      "grad_norm": 0.9459736347198486,
      "learning_rate": 0.0002887960011269362,
      "loss": 4.0532,
      "step": 61180
    },
    {
      "epoch": 0.12747916666666667,
      "grad_norm": 0.9396195411682129,
      "learning_rate": 0.000288792262269431,
      "loss": 4.2496,
      "step": 61190
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.8729698657989502,
      "learning_rate": 0.0002887885228123982,
      "loss": 4.1242,
      "step": 61200
    },
    {
      "epoch": 0.12752083333333333,
      "grad_norm": 0.9040240049362183,
      "learning_rate": 0.0002887847827558539,
      "loss": 4.0919,
      "step": 61210
    },
    {
      "epoch": 0.12754166666666666,
      "grad_norm": 0.8161273002624512,
      "learning_rate": 0.00028878104209981425,
      "loss": 4.4589,
      "step": 61220
    },
    {
      "epoch": 0.1275625,
      "grad_norm": 0.878238320350647,
      "learning_rate": 0.00028877730084429543,
      "loss": 4.1734,
      "step": 61230
    },
    {
      "epoch": 0.12758333333333333,
      "grad_norm": 0.8611074090003967,
      "learning_rate": 0.0002887735589893136,
      "loss": 4.0581,
      "step": 61240
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 0.8794676065444946,
      "learning_rate": 0.000288769816534885,
      "loss": 4.1616,
      "step": 61250
    },
    {
      "epoch": 0.127625,
      "grad_norm": 0.8207958340644836,
      "learning_rate": 0.0002887660734810256,
      "loss": 4.0927,
      "step": 61260
    },
    {
      "epoch": 0.12764583333333332,
      "grad_norm": 0.9423737525939941,
      "learning_rate": 0.0002887623298277518,
      "loss": 4.3097,
      "step": 61270
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 0.8685842156410217,
      "learning_rate": 0.00028875858557507954,
      "loss": 4.0778,
      "step": 61280
    },
    {
      "epoch": 0.1276875,
      "grad_norm": 0.7901063561439514,
      "learning_rate": 0.0002887548407230252,
      "loss": 4.0628,
      "step": 61290
    },
    {
      "epoch": 0.12770833333333334,
      "grad_norm": 0.8561792969703674,
      "learning_rate": 0.0002887510952716049,
      "loss": 3.982,
      "step": 61300
    },
    {
      "epoch": 0.12772916666666667,
      "grad_norm": 0.8659543991088867,
      "learning_rate": 0.00028874734922083476,
      "loss": 4.2027,
      "step": 61310
    },
    {
      "epoch": 0.12775,
      "grad_norm": 0.8675091862678528,
      "learning_rate": 0.00028874360257073094,
      "loss": 4.0398,
      "step": 61320
    },
    {
      "epoch": 0.12777083333333333,
      "grad_norm": 0.8522191047668457,
      "learning_rate": 0.0002887398553213097,
      "loss": 4.2753,
      "step": 61330
    },
    {
      "epoch": 0.12779166666666666,
      "grad_norm": 0.8597981333732605,
      "learning_rate": 0.00028873610747258725,
      "loss": 4.1423,
      "step": 61340
    },
    {
      "epoch": 0.1278125,
      "grad_norm": 0.7582730054855347,
      "learning_rate": 0.0002887323590245797,
      "loss": 4.0059,
      "step": 61350
    },
    {
      "epoch": 0.12783333333333333,
      "grad_norm": 0.8422185778617859,
      "learning_rate": 0.0002887286099773033,
      "loss": 4.0494,
      "step": 61360
    },
    {
      "epoch": 0.12785416666666666,
      "grad_norm": 1.037150263786316,
      "learning_rate": 0.00028872486033077415,
      "loss": 4.2614,
      "step": 61370
    },
    {
      "epoch": 0.127875,
      "grad_norm": 0.9956393241882324,
      "learning_rate": 0.0002887211100850086,
      "loss": 4.0637,
      "step": 61380
    },
    {
      "epoch": 0.12789583333333332,
      "grad_norm": 0.9489078521728516,
      "learning_rate": 0.0002887173592400227,
      "loss": 4.1552,
      "step": 61390
    },
    {
      "epoch": 0.12791666666666668,
      "grad_norm": 0.8845809102058411,
      "learning_rate": 0.0002887136077958327,
      "loss": 4.0971,
      "step": 61400
    },
    {
      "epoch": 0.1279375,
      "grad_norm": 0.8830726146697998,
      "learning_rate": 0.0002887098557524549,
      "loss": 3.9735,
      "step": 61410
    },
    {
      "epoch": 0.12795833333333334,
      "grad_norm": 0.9108762741088867,
      "learning_rate": 0.00028870610310990534,
      "loss": 4.0551,
      "step": 61420
    },
    {
      "epoch": 0.12797916666666667,
      "grad_norm": 0.9296883344650269,
      "learning_rate": 0.0002887023498682004,
      "loss": 4.0685,
      "step": 61430
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.9543467164039612,
      "learning_rate": 0.00028869859602735615,
      "loss": 4.1394,
      "step": 61440
    },
    {
      "epoch": 0.12802083333333333,
      "grad_norm": 0.8633208274841309,
      "learning_rate": 0.0002886948415873889,
      "loss": 4.0944,
      "step": 61450
    },
    {
      "epoch": 0.12804166666666666,
      "grad_norm": 0.8629953861236572,
      "learning_rate": 0.0002886910865483148,
      "loss": 4.2218,
      "step": 61460
    },
    {
      "epoch": 0.1280625,
      "grad_norm": 0.9195676445960999,
      "learning_rate": 0.0002886873309101502,
      "loss": 4.1531,
      "step": 61470
    },
    {
      "epoch": 0.12808333333333333,
      "grad_norm": 0.8513193726539612,
      "learning_rate": 0.0002886835746729111,
      "loss": 4.0882,
      "step": 61480
    },
    {
      "epoch": 0.12810416666666666,
      "grad_norm": 0.9809589982032776,
      "learning_rate": 0.00028867981783661393,
      "loss": 4.4323,
      "step": 61490
    },
    {
      "epoch": 0.128125,
      "grad_norm": 0.7607612013816833,
      "learning_rate": 0.0002886760604012748,
      "loss": 4.2078,
      "step": 61500
    },
    {
      "epoch": 0.12814583333333332,
      "grad_norm": 0.8198806643486023,
      "learning_rate": 0.00028867230236690996,
      "loss": 4.1227,
      "step": 61510
    },
    {
      "epoch": 0.12816666666666668,
      "grad_norm": 0.8492050170898438,
      "learning_rate": 0.00028866854373353574,
      "loss": 4.2199,
      "step": 61520
    },
    {
      "epoch": 0.1281875,
      "grad_norm": 0.9820409417152405,
      "learning_rate": 0.00028866478450116824,
      "loss": 4.4295,
      "step": 61530
    },
    {
      "epoch": 0.12820833333333334,
      "grad_norm": 0.8347941040992737,
      "learning_rate": 0.0002886610246698238,
      "loss": 4.2926,
      "step": 61540
    },
    {
      "epoch": 0.12822916666666667,
      "grad_norm": 0.83785080909729,
      "learning_rate": 0.00028865726423951856,
      "loss": 4.0132,
      "step": 61550
    },
    {
      "epoch": 0.12825,
      "grad_norm": 1.0411477088928223,
      "learning_rate": 0.00028865350321026885,
      "loss": 3.9526,
      "step": 61560
    },
    {
      "epoch": 0.12827083333333333,
      "grad_norm": 0.9885733127593994,
      "learning_rate": 0.0002886497415820909,
      "loss": 4.2153,
      "step": 61570
    },
    {
      "epoch": 0.12829166666666666,
      "grad_norm": 0.906971275806427,
      "learning_rate": 0.00028864597935500093,
      "loss": 4.4179,
      "step": 61580
    },
    {
      "epoch": 0.1283125,
      "grad_norm": 0.7754600644111633,
      "learning_rate": 0.00028864221652901524,
      "loss": 4.0259,
      "step": 61590
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 0.8771867156028748,
      "learning_rate": 0.0002886384531041501,
      "loss": 4.0601,
      "step": 61600
    },
    {
      "epoch": 0.12835416666666666,
      "grad_norm": 0.929304838180542,
      "learning_rate": 0.00028863468908042164,
      "loss": 4.2951,
      "step": 61610
    },
    {
      "epoch": 0.128375,
      "grad_norm": 0.8436482548713684,
      "learning_rate": 0.0002886309244578462,
      "loss": 4.0864,
      "step": 61620
    },
    {
      "epoch": 0.12839583333333332,
      "grad_norm": 0.907076358795166,
      "learning_rate": 0.00028862715923644,
      "loss": 4.1557,
      "step": 61630
    },
    {
      "epoch": 0.12841666666666668,
      "grad_norm": 0.8227869868278503,
      "learning_rate": 0.0002886233934162195,
      "loss": 3.9998,
      "step": 61640
    },
    {
      "epoch": 0.1284375,
      "grad_norm": 0.7924749255180359,
      "learning_rate": 0.00028861962699720063,
      "loss": 4.195,
      "step": 61650
    },
    {
      "epoch": 0.12845833333333334,
      "grad_norm": 0.961233377456665,
      "learning_rate": 0.00028861585997939996,
      "loss": 4.1447,
      "step": 61660
    },
    {
      "epoch": 0.12847916666666667,
      "grad_norm": 0.8533890843391418,
      "learning_rate": 0.00028861209236283363,
      "loss": 4.1049,
      "step": 61670
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.9255125522613525,
      "learning_rate": 0.0002886083241475179,
      "loss": 4.2258,
      "step": 61680
    },
    {
      "epoch": 0.12852083333333333,
      "grad_norm": 0.914867103099823,
      "learning_rate": 0.0002886045553334691,
      "loss": 4.0799,
      "step": 61690
    },
    {
      "epoch": 0.12854166666666667,
      "grad_norm": 0.8579564094543457,
      "learning_rate": 0.00028860078592070343,
      "loss": 4.1412,
      "step": 61700
    },
    {
      "epoch": 0.1285625,
      "grad_norm": 0.8905947208404541,
      "learning_rate": 0.0002885970159092373,
      "loss": 4.1445,
      "step": 61710
    },
    {
      "epoch": 0.12858333333333333,
      "grad_norm": 0.8404093980789185,
      "learning_rate": 0.00028859324529908684,
      "loss": 4.1811,
      "step": 61720
    },
    {
      "epoch": 0.12860416666666666,
      "grad_norm": 0.8911770582199097,
      "learning_rate": 0.00028858947409026846,
      "loss": 4.1655,
      "step": 61730
    },
    {
      "epoch": 0.128625,
      "grad_norm": 0.8299964666366577,
      "learning_rate": 0.00028858570228279843,
      "loss": 4.1447,
      "step": 61740
    },
    {
      "epoch": 0.12864583333333332,
      "grad_norm": 0.9372419714927673,
      "learning_rate": 0.000288581929876693,
      "loss": 4.0067,
      "step": 61750
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 0.8319749236106873,
      "learning_rate": 0.0002885781568719685,
      "loss": 4.1858,
      "step": 61760
    },
    {
      "epoch": 0.1286875,
      "grad_norm": 0.7784395217895508,
      "learning_rate": 0.0002885743832686412,
      "loss": 4.1625,
      "step": 61770
    },
    {
      "epoch": 0.12870833333333334,
      "grad_norm": 1.157192587852478,
      "learning_rate": 0.00028857060906672743,
      "loss": 4.0916,
      "step": 61780
    },
    {
      "epoch": 0.12872916666666667,
      "grad_norm": 0.8211385011672974,
      "learning_rate": 0.0002885668342662434,
      "loss": 4.0091,
      "step": 61790
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.8244146108627319,
      "learning_rate": 0.00028856305886720563,
      "loss": 3.9622,
      "step": 61800
    },
    {
      "epoch": 0.12877083333333333,
      "grad_norm": 0.9190801978111267,
      "learning_rate": 0.0002885592828696302,
      "loss": 4.3578,
      "step": 61810
    },
    {
      "epoch": 0.12879166666666667,
      "grad_norm": 0.9140194058418274,
      "learning_rate": 0.0002885555062735336,
      "loss": 4.2066,
      "step": 61820
    },
    {
      "epoch": 0.1288125,
      "grad_norm": 0.9351593852043152,
      "learning_rate": 0.00028855172907893195,
      "loss": 4.2551,
      "step": 61830
    },
    {
      "epoch": 0.12883333333333333,
      "grad_norm": 0.8302856683731079,
      "learning_rate": 0.0002885479512858417,
      "loss": 4.0307,
      "step": 61840
    },
    {
      "epoch": 0.12885416666666666,
      "grad_norm": 0.8800488710403442,
      "learning_rate": 0.0002885441728942792,
      "loss": 4.2588,
      "step": 61850
    },
    {
      "epoch": 0.128875,
      "grad_norm": 0.8506706357002258,
      "learning_rate": 0.00028854039390426066,
      "loss": 4.2019,
      "step": 61860
    },
    {
      "epoch": 0.12889583333333332,
      "grad_norm": 0.8184691071510315,
      "learning_rate": 0.0002885366143158025,
      "loss": 4.2711,
      "step": 61870
    },
    {
      "epoch": 0.12891666666666668,
      "grad_norm": 0.9284099340438843,
      "learning_rate": 0.00028853283412892097,
      "loss": 4.0567,
      "step": 61880
    },
    {
      "epoch": 0.1289375,
      "grad_norm": 0.890254557132721,
      "learning_rate": 0.0002885290533436324,
      "loss": 4.2874,
      "step": 61890
    },
    {
      "epoch": 0.12895833333333334,
      "grad_norm": 0.8894578218460083,
      "learning_rate": 0.00028852527195995323,
      "loss": 4.1085,
      "step": 61900
    },
    {
      "epoch": 0.12897916666666667,
      "grad_norm": 0.9308544397354126,
      "learning_rate": 0.00028852148997789964,
      "loss": 4.0597,
      "step": 61910
    },
    {
      "epoch": 0.129,
      "grad_norm": 0.9210095405578613,
      "learning_rate": 0.0002885177073974881,
      "loss": 4.2196,
      "step": 61920
    },
    {
      "epoch": 0.12902083333333333,
      "grad_norm": 0.8451482057571411,
      "learning_rate": 0.00028851392421873486,
      "loss": 4.2885,
      "step": 61930
    },
    {
      "epoch": 0.12904166666666667,
      "grad_norm": 0.8702270984649658,
      "learning_rate": 0.0002885101404416563,
      "loss": 4.075,
      "step": 61940
    },
    {
      "epoch": 0.1290625,
      "grad_norm": 0.8732669949531555,
      "learning_rate": 0.00028850635606626876,
      "loss": 4.1374,
      "step": 61950
    },
    {
      "epoch": 0.12908333333333333,
      "grad_norm": 0.8757460713386536,
      "learning_rate": 0.00028850257109258863,
      "loss": 4.0962,
      "step": 61960
    },
    {
      "epoch": 0.12910416666666666,
      "grad_norm": 1.0925019979476929,
      "learning_rate": 0.00028849878552063214,
      "loss": 4.184,
      "step": 61970
    },
    {
      "epoch": 0.129125,
      "grad_norm": 0.8334730863571167,
      "learning_rate": 0.00028849499935041577,
      "loss": 4.1853,
      "step": 61980
    },
    {
      "epoch": 0.12914583333333332,
      "grad_norm": 0.8804173469543457,
      "learning_rate": 0.0002884912125819558,
      "loss": 4.0895,
      "step": 61990
    },
    {
      "epoch": 0.12916666666666668,
      "grad_norm": 0.7911686897277832,
      "learning_rate": 0.0002884874252152686,
      "loss": 4.17,
      "step": 62000
    },
    {
      "epoch": 0.12916666666666668,
      "eval_loss": 3.8792526721954346,
      "eval_runtime": 7.2626,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 62000
    },
    {
      "epoch": 0.1291875,
      "grad_norm": 0.9547552466392517,
      "learning_rate": 0.0002884836372503706,
      "loss": 4.2272,
      "step": 62010
    },
    {
      "epoch": 0.12920833333333334,
      "grad_norm": 0.9365161657333374,
      "learning_rate": 0.0002884798486872781,
      "loss": 4.2103,
      "step": 62020
    },
    {
      "epoch": 0.12922916666666667,
      "grad_norm": 0.8410477638244629,
      "learning_rate": 0.0002884760595260074,
      "loss": 3.9545,
      "step": 62030
    },
    {
      "epoch": 0.12925,
      "grad_norm": 0.854011595249176,
      "learning_rate": 0.00028847226976657503,
      "loss": 3.9028,
      "step": 62040
    },
    {
      "epoch": 0.12927083333333333,
      "grad_norm": 0.860564112663269,
      "learning_rate": 0.00028846847940899715,
      "loss": 4.1873,
      "step": 62050
    },
    {
      "epoch": 0.12929166666666667,
      "grad_norm": 1.0523974895477295,
      "learning_rate": 0.0002884646884532903,
      "loss": 4.053,
      "step": 62060
    },
    {
      "epoch": 0.1293125,
      "grad_norm": 0.9845995306968689,
      "learning_rate": 0.0002884608968994708,
      "loss": 4.2852,
      "step": 62070
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.8837612867355347,
      "learning_rate": 0.0002884571047475551,
      "loss": 3.9713,
      "step": 62080
    },
    {
      "epoch": 0.12935416666666666,
      "grad_norm": 0.8745436072349548,
      "learning_rate": 0.0002884533119975594,
      "loss": 4.0416,
      "step": 62090
    },
    {
      "epoch": 0.129375,
      "grad_norm": 0.869165301322937,
      "learning_rate": 0.0002884495186495003,
      "loss": 4.1347,
      "step": 62100
    },
    {
      "epoch": 0.12939583333333332,
      "grad_norm": 0.8544725179672241,
      "learning_rate": 0.000288445724703394,
      "loss": 4.1973,
      "step": 62110
    },
    {
      "epoch": 0.12941666666666668,
      "grad_norm": 0.8498119711875916,
      "learning_rate": 0.000288441930159257,
      "loss": 4.2586,
      "step": 62120
    },
    {
      "epoch": 0.1294375,
      "grad_norm": 0.9206637740135193,
      "learning_rate": 0.00028843813501710564,
      "loss": 4.1597,
      "step": 62130
    },
    {
      "epoch": 0.12945833333333334,
      "grad_norm": 0.8789124488830566,
      "learning_rate": 0.00028843433927695637,
      "loss": 4.1259,
      "step": 62140
    },
    {
      "epoch": 0.12947916666666667,
      "grad_norm": 0.8940357565879822,
      "learning_rate": 0.0002884305429388255,
      "loss": 4.101,
      "step": 62150
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.8292927145957947,
      "learning_rate": 0.0002884267460027295,
      "loss": 4.1033,
      "step": 62160
    },
    {
      "epoch": 0.12952083333333334,
      "grad_norm": 0.8108847141265869,
      "learning_rate": 0.0002884229484686848,
      "loss": 4.1557,
      "step": 62170
    },
    {
      "epoch": 0.12954166666666667,
      "grad_norm": 0.8639264702796936,
      "learning_rate": 0.0002884191503367077,
      "loss": 4.1717,
      "step": 62180
    },
    {
      "epoch": 0.1295625,
      "grad_norm": 0.8371992111206055,
      "learning_rate": 0.00028841535160681466,
      "loss": 4.2501,
      "step": 62190
    },
    {
      "epoch": 0.12958333333333333,
      "grad_norm": 0.9847183227539062,
      "learning_rate": 0.00028841155227902213,
      "loss": 4.0803,
      "step": 62200
    },
    {
      "epoch": 0.12960416666666666,
      "grad_norm": 0.9087953567504883,
      "learning_rate": 0.00028840775235334647,
      "loss": 4.2156,
      "step": 62210
    },
    {
      "epoch": 0.129625,
      "grad_norm": 0.8553393483161926,
      "learning_rate": 0.0002884039518298041,
      "loss": 4.1071,
      "step": 62220
    },
    {
      "epoch": 0.12964583333333332,
      "grad_norm": 0.9512166380882263,
      "learning_rate": 0.0002884001507084114,
      "loss": 4.2382,
      "step": 62230
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 0.8745049238204956,
      "learning_rate": 0.0002883963489891849,
      "loss": 4.073,
      "step": 62240
    },
    {
      "epoch": 0.1296875,
      "grad_norm": 0.925754189491272,
      "learning_rate": 0.00028839254667214093,
      "loss": 4.19,
      "step": 62250
    },
    {
      "epoch": 0.12970833333333334,
      "grad_norm": 0.9329711198806763,
      "learning_rate": 0.0002883887437572959,
      "loss": 4.2178,
      "step": 62260
    },
    {
      "epoch": 0.12972916666666667,
      "grad_norm": 0.8144692182540894,
      "learning_rate": 0.00028838494024466634,
      "loss": 4.3154,
      "step": 62270
    },
    {
      "epoch": 0.12975,
      "grad_norm": 0.897041380405426,
      "learning_rate": 0.00028838113613426856,
      "loss": 4.1805,
      "step": 62280
    },
    {
      "epoch": 0.12977083333333334,
      "grad_norm": 0.9455990791320801,
      "learning_rate": 0.00028837733142611906,
      "loss": 4.0776,
      "step": 62290
    },
    {
      "epoch": 0.12979166666666667,
      "grad_norm": 0.9421356916427612,
      "learning_rate": 0.00028837352612023426,
      "loss": 4.2076,
      "step": 62300
    },
    {
      "epoch": 0.1298125,
      "grad_norm": 0.822239875793457,
      "learning_rate": 0.00028836972021663065,
      "loss": 4.2135,
      "step": 62310
    },
    {
      "epoch": 0.12983333333333333,
      "grad_norm": 0.9094089269638062,
      "learning_rate": 0.00028836591371532455,
      "loss": 4.072,
      "step": 62320
    },
    {
      "epoch": 0.12985416666666666,
      "grad_norm": 0.8768621683120728,
      "learning_rate": 0.0002883621066163325,
      "loss": 4.201,
      "step": 62330
    },
    {
      "epoch": 0.129875,
      "grad_norm": 1.0386486053466797,
      "learning_rate": 0.0002883582989196709,
      "loss": 4.0363,
      "step": 62340
    },
    {
      "epoch": 0.12989583333333332,
      "grad_norm": 0.7886808514595032,
      "learning_rate": 0.00028835449062535626,
      "loss": 4.2127,
      "step": 62350
    },
    {
      "epoch": 0.12991666666666668,
      "grad_norm": 0.8695411086082458,
      "learning_rate": 0.00028835068173340496,
      "loss": 4.2077,
      "step": 62360
    },
    {
      "epoch": 0.1299375,
      "grad_norm": 0.9857107996940613,
      "learning_rate": 0.00028834687224383346,
      "loss": 4.2307,
      "step": 62370
    },
    {
      "epoch": 0.12995833333333334,
      "grad_norm": 0.8136951327323914,
      "learning_rate": 0.0002883430621566582,
      "loss": 4.1373,
      "step": 62380
    },
    {
      "epoch": 0.12997916666666667,
      "grad_norm": 0.8195754289627075,
      "learning_rate": 0.00028833925147189575,
      "loss": 4.275,
      "step": 62390
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8201890587806702,
      "learning_rate": 0.0002883354401895625,
      "loss": 3.9937,
      "step": 62400
    },
    {
      "epoch": 0.13002083333333334,
      "grad_norm": 0.8088297843933105,
      "learning_rate": 0.0002883316283096748,
      "loss": 4.114,
      "step": 62410
    },
    {
      "epoch": 0.13004166666666667,
      "grad_norm": 0.903154730796814,
      "learning_rate": 0.0002883278158322493,
      "loss": 4.1212,
      "step": 62420
    },
    {
      "epoch": 0.1300625,
      "grad_norm": 0.8556056022644043,
      "learning_rate": 0.00028832400275730243,
      "loss": 4.2983,
      "step": 62430
    },
    {
      "epoch": 0.13008333333333333,
      "grad_norm": 0.88065105676651,
      "learning_rate": 0.00028832018908485054,
      "loss": 4.121,
      "step": 62440
    },
    {
      "epoch": 0.13010416666666666,
      "grad_norm": 0.8536651134490967,
      "learning_rate": 0.0002883163748149102,
      "loss": 4.0843,
      "step": 62450
    },
    {
      "epoch": 0.130125,
      "grad_norm": 0.7954851388931274,
      "learning_rate": 0.0002883125599474979,
      "loss": 4.1589,
      "step": 62460
    },
    {
      "epoch": 0.13014583333333332,
      "grad_norm": 0.9351673126220703,
      "learning_rate": 0.00028830874448263004,
      "loss": 4.1826,
      "step": 62470
    },
    {
      "epoch": 0.13016666666666668,
      "grad_norm": 0.9648979902267456,
      "learning_rate": 0.00028830492842032323,
      "loss": 4.1833,
      "step": 62480
    },
    {
      "epoch": 0.1301875,
      "grad_norm": 0.8730533719062805,
      "learning_rate": 0.00028830111176059376,
      "loss": 4.1467,
      "step": 62490
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 0.8248451352119446,
      "learning_rate": 0.0002882972945034583,
      "loss": 4.1102,
      "step": 62500
    },
    {
      "epoch": 0.13022916666666667,
      "grad_norm": 0.9407695531845093,
      "learning_rate": 0.00028829347664893333,
      "loss": 4.0905,
      "step": 62510
    },
    {
      "epoch": 0.13025,
      "grad_norm": 0.9103976488113403,
      "learning_rate": 0.0002882896581970352,
      "loss": 4.1399,
      "step": 62520
    },
    {
      "epoch": 0.13027083333333334,
      "grad_norm": 0.9540097117424011,
      "learning_rate": 0.0002882858391477805,
      "loss": 4.2524,
      "step": 62530
    },
    {
      "epoch": 0.13029166666666667,
      "grad_norm": 0.8259497880935669,
      "learning_rate": 0.00028828201950118566,
      "loss": 4.0947,
      "step": 62540
    },
    {
      "epoch": 0.1303125,
      "grad_norm": 0.8651250600814819,
      "learning_rate": 0.00028827819925726736,
      "loss": 4.2065,
      "step": 62550
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 0.9093237519264221,
      "learning_rate": 0.00028827437841604187,
      "loss": 4.0297,
      "step": 62560
    },
    {
      "epoch": 0.13035416666666666,
      "grad_norm": 1.3622666597366333,
      "learning_rate": 0.0002882705569775258,
      "loss": 4.2547,
      "step": 62570
    },
    {
      "epoch": 0.130375,
      "grad_norm": 0.8311694860458374,
      "learning_rate": 0.0002882667349417357,
      "loss": 4.1156,
      "step": 62580
    },
    {
      "epoch": 0.13039583333333332,
      "grad_norm": 0.8810833692550659,
      "learning_rate": 0.000288262912308688,
      "loss": 4.2841,
      "step": 62590
    },
    {
      "epoch": 0.13041666666666665,
      "grad_norm": 0.9100056290626526,
      "learning_rate": 0.0002882590890783993,
      "loss": 4.1279,
      "step": 62600
    },
    {
      "epoch": 0.1304375,
      "grad_norm": 0.8777046203613281,
      "learning_rate": 0.00028825526525088605,
      "loss": 4.03,
      "step": 62610
    },
    {
      "epoch": 0.13045833333333334,
      "grad_norm": 0.8146160244941711,
      "learning_rate": 0.0002882514408261647,
      "loss": 4.0918,
      "step": 62620
    },
    {
      "epoch": 0.13047916666666667,
      "grad_norm": 0.9135007262229919,
      "learning_rate": 0.00028824761580425193,
      "loss": 3.9603,
      "step": 62630
    },
    {
      "epoch": 0.1305,
      "grad_norm": 0.8723909258842468,
      "learning_rate": 0.00028824379018516414,
      "loss": 4.2011,
      "step": 62640
    },
    {
      "epoch": 0.13052083333333334,
      "grad_norm": 0.9356670379638672,
      "learning_rate": 0.0002882399639689179,
      "loss": 4.3443,
      "step": 62650
    },
    {
      "epoch": 0.13054166666666667,
      "grad_norm": 0.798049807548523,
      "learning_rate": 0.00028823613715552975,
      "loss": 4.1533,
      "step": 62660
    },
    {
      "epoch": 0.1305625,
      "grad_norm": 0.8501962423324585,
      "learning_rate": 0.00028823230974501623,
      "loss": 4.4066,
      "step": 62670
    },
    {
      "epoch": 0.13058333333333333,
      "grad_norm": 0.8007373809814453,
      "learning_rate": 0.0002882284817373938,
      "loss": 4.1702,
      "step": 62680
    },
    {
      "epoch": 0.13060416666666666,
      "grad_norm": 0.8645451664924622,
      "learning_rate": 0.0002882246531326791,
      "loss": 4.2933,
      "step": 62690
    },
    {
      "epoch": 0.130625,
      "grad_norm": 0.8899568319320679,
      "learning_rate": 0.0002882208239308886,
      "loss": 4.2556,
      "step": 62700
    },
    {
      "epoch": 0.13064583333333332,
      "grad_norm": 0.8223178386688232,
      "learning_rate": 0.0002882169941320388,
      "loss": 4.0752,
      "step": 62710
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.8931753039360046,
      "learning_rate": 0.0002882131637361463,
      "loss": 4.2074,
      "step": 62720
    },
    {
      "epoch": 0.1306875,
      "grad_norm": 0.8996957540512085,
      "learning_rate": 0.00028820933274322766,
      "loss": 4.22,
      "step": 62730
    },
    {
      "epoch": 0.13070833333333334,
      "grad_norm": 0.8316689729690552,
      "learning_rate": 0.00028820550115329945,
      "loss": 4.1539,
      "step": 62740
    },
    {
      "epoch": 0.13072916666666667,
      "grad_norm": 0.8777348399162292,
      "learning_rate": 0.0002882016689663781,
      "loss": 4.0306,
      "step": 62750
    },
    {
      "epoch": 0.13075,
      "grad_norm": 0.8272896409034729,
      "learning_rate": 0.0002881978361824803,
      "loss": 4.0142,
      "step": 62760
    },
    {
      "epoch": 0.13077083333333334,
      "grad_norm": 0.9285666346549988,
      "learning_rate": 0.00028819400280162257,
      "loss": 4.2503,
      "step": 62770
    },
    {
      "epoch": 0.13079166666666667,
      "grad_norm": 0.9293155670166016,
      "learning_rate": 0.0002881901688238214,
      "loss": 3.9274,
      "step": 62780
    },
    {
      "epoch": 0.1308125,
      "grad_norm": 1.00635826587677,
      "learning_rate": 0.0002881863342490934,
      "loss": 4.1363,
      "step": 62790
    },
    {
      "epoch": 0.13083333333333333,
      "grad_norm": 0.9227497577667236,
      "learning_rate": 0.0002881824990774552,
      "loss": 4.3869,
      "step": 62800
    },
    {
      "epoch": 0.13085416666666666,
      "grad_norm": 0.7963077425956726,
      "learning_rate": 0.00028817866330892324,
      "loss": 4.2097,
      "step": 62810
    },
    {
      "epoch": 0.130875,
      "grad_norm": 0.856026828289032,
      "learning_rate": 0.0002881748269435142,
      "loss": 4.2918,
      "step": 62820
    },
    {
      "epoch": 0.13089583333333332,
      "grad_norm": 0.8553367853164673,
      "learning_rate": 0.0002881709899812445,
      "loss": 4.0207,
      "step": 62830
    },
    {
      "epoch": 0.13091666666666665,
      "grad_norm": 0.8811009526252747,
      "learning_rate": 0.0002881671524221309,
      "loss": 4.1226,
      "step": 62840
    },
    {
      "epoch": 0.1309375,
      "grad_norm": 0.8353279232978821,
      "learning_rate": 0.00028816331426618987,
      "loss": 4.1907,
      "step": 62850
    },
    {
      "epoch": 0.13095833333333334,
      "grad_norm": 0.8879664540290833,
      "learning_rate": 0.000288159475513438,
      "loss": 4.1758,
      "step": 62860
    },
    {
      "epoch": 0.13097916666666667,
      "grad_norm": 0.8508517146110535,
      "learning_rate": 0.00028815563616389186,
      "loss": 4.0306,
      "step": 62870
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.8525042533874512,
      "learning_rate": 0.0002881517962175681,
      "loss": 4.201,
      "step": 62880
    },
    {
      "epoch": 0.13102083333333334,
      "grad_norm": 0.894646406173706,
      "learning_rate": 0.0002881479556744833,
      "loss": 4.093,
      "step": 62890
    },
    {
      "epoch": 0.13104166666666667,
      "grad_norm": 0.8715821504592896,
      "learning_rate": 0.00028814411453465395,
      "loss": 4.1384,
      "step": 62900
    },
    {
      "epoch": 0.1310625,
      "grad_norm": 0.9157070517539978,
      "learning_rate": 0.0002881402727980967,
      "loss": 4.1813,
      "step": 62910
    },
    {
      "epoch": 0.13108333333333333,
      "grad_norm": 0.9219540953636169,
      "learning_rate": 0.00028813643046482826,
      "loss": 4.1377,
      "step": 62920
    },
    {
      "epoch": 0.13110416666666666,
      "grad_norm": 0.7797299027442932,
      "learning_rate": 0.00028813258753486497,
      "loss": 4.1227,
      "step": 62930
    },
    {
      "epoch": 0.131125,
      "grad_norm": 0.8118647336959839,
      "learning_rate": 0.0002881287440082237,
      "loss": 4.1645,
      "step": 62940
    },
    {
      "epoch": 0.13114583333333332,
      "grad_norm": 0.9627686738967896,
      "learning_rate": 0.0002881248998849209,
      "loss": 4.2176,
      "step": 62950
    },
    {
      "epoch": 0.13116666666666665,
      "grad_norm": 0.8735305666923523,
      "learning_rate": 0.00028812105516497314,
      "loss": 4.0575,
      "step": 62960
    },
    {
      "epoch": 0.1311875,
      "grad_norm": 0.8090432286262512,
      "learning_rate": 0.00028811720984839713,
      "loss": 4.3361,
      "step": 62970
    },
    {
      "epoch": 0.13120833333333334,
      "grad_norm": 0.8811564445495605,
      "learning_rate": 0.0002881133639352095,
      "loss": 4.0067,
      "step": 62980
    },
    {
      "epoch": 0.13122916666666667,
      "grad_norm": 0.8845672011375427,
      "learning_rate": 0.0002881095174254267,
      "loss": 4.1812,
      "step": 62990
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.8849384188652039,
      "learning_rate": 0.00028810567031906553,
      "loss": 4.0509,
      "step": 63000
    },
    {
      "epoch": 0.13125,
      "eval_loss": 3.8942711353302,
      "eval_runtime": 7.1851,
      "eval_samples_per_second": 1.392,
      "eval_steps_per_second": 0.418,
      "step": 63000
    },
    {
      "epoch": 0.13127083333333334,
      "grad_norm": 0.826756477355957,
      "learning_rate": 0.0002881018226161425,
      "loss": 4.1358,
      "step": 63010
    },
    {
      "epoch": 0.13129166666666667,
      "grad_norm": 0.8940913081169128,
      "learning_rate": 0.0002880979743166743,
      "loss": 4.2144,
      "step": 63020
    },
    {
      "epoch": 0.1313125,
      "grad_norm": 0.8910631537437439,
      "learning_rate": 0.00028809412542067745,
      "loss": 4.0654,
      "step": 63030
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 0.8806185126304626,
      "learning_rate": 0.0002880902759281687,
      "loss": 4.1188,
      "step": 63040
    },
    {
      "epoch": 0.13135416666666666,
      "grad_norm": 0.8947012424468994,
      "learning_rate": 0.0002880864258391646,
      "loss": 4.1979,
      "step": 63050
    },
    {
      "epoch": 0.131375,
      "grad_norm": 0.8701006174087524,
      "learning_rate": 0.0002880825751536818,
      "loss": 3.958,
      "step": 63060
    },
    {
      "epoch": 0.13139583333333332,
      "grad_norm": 0.8829209208488464,
      "learning_rate": 0.0002880787238717369,
      "loss": 4.3719,
      "step": 63070
    },
    {
      "epoch": 0.13141666666666665,
      "grad_norm": 0.8561943769454956,
      "learning_rate": 0.0002880748719933466,
      "loss": 4.0862,
      "step": 63080
    },
    {
      "epoch": 0.1314375,
      "grad_norm": 0.8380029797554016,
      "learning_rate": 0.0002880710195185275,
      "loss": 4.1276,
      "step": 63090
    },
    {
      "epoch": 0.13145833333333334,
      "grad_norm": 0.8036348819732666,
      "learning_rate": 0.0002880671664472962,
      "loss": 4.0942,
      "step": 63100
    },
    {
      "epoch": 0.13147916666666667,
      "grad_norm": 0.8895969390869141,
      "learning_rate": 0.0002880633127796695,
      "loss": 4.1014,
      "step": 63110
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.8479762077331543,
      "learning_rate": 0.0002880594585156639,
      "loss": 4.1126,
      "step": 63120
    },
    {
      "epoch": 0.13152083333333334,
      "grad_norm": 0.8527336716651917,
      "learning_rate": 0.000288055603655296,
      "loss": 4.243,
      "step": 63130
    },
    {
      "epoch": 0.13154166666666667,
      "grad_norm": 0.8764122128486633,
      "learning_rate": 0.0002880517481985826,
      "loss": 4.2798,
      "step": 63140
    },
    {
      "epoch": 0.1315625,
      "grad_norm": 0.8422971367835999,
      "learning_rate": 0.0002880478921455403,
      "loss": 3.9312,
      "step": 63150
    },
    {
      "epoch": 0.13158333333333333,
      "grad_norm": 0.8495712280273438,
      "learning_rate": 0.00028804403549618574,
      "loss": 3.9586,
      "step": 63160
    },
    {
      "epoch": 0.13160416666666666,
      "grad_norm": 0.8108274936676025,
      "learning_rate": 0.00028804017825053563,
      "loss": 4.0836,
      "step": 63170
    },
    {
      "epoch": 0.131625,
      "grad_norm": 0.9183630347251892,
      "learning_rate": 0.0002880363204086065,
      "loss": 4.0677,
      "step": 63180
    },
    {
      "epoch": 0.13164583333333332,
      "grad_norm": 0.9602696895599365,
      "learning_rate": 0.0002880324619704152,
      "loss": 4.2488,
      "step": 63190
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 0.8600683808326721,
      "learning_rate": 0.00028802860293597823,
      "loss": 4.3033,
      "step": 63200
    },
    {
      "epoch": 0.1316875,
      "grad_norm": 0.8215619921684265,
      "learning_rate": 0.0002880247433053124,
      "loss": 4.1152,
      "step": 63210
    },
    {
      "epoch": 0.13170833333333334,
      "grad_norm": 0.931614875793457,
      "learning_rate": 0.0002880208830784342,
      "loss": 4.1072,
      "step": 63220
    },
    {
      "epoch": 0.13172916666666667,
      "grad_norm": 0.9009705781936646,
      "learning_rate": 0.00028801702225536054,
      "loss": 4.1669,
      "step": 63230
    },
    {
      "epoch": 0.13175,
      "grad_norm": 0.8532339930534363,
      "learning_rate": 0.00028801316083610794,
      "loss": 4.2724,
      "step": 63240
    },
    {
      "epoch": 0.13177083333333334,
      "grad_norm": 0.8509215712547302,
      "learning_rate": 0.00028800929882069306,
      "loss": 4.071,
      "step": 63250
    },
    {
      "epoch": 0.13179166666666667,
      "grad_norm": 0.8482707738876343,
      "learning_rate": 0.0002880054362091327,
      "loss": 4.0643,
      "step": 63260
    },
    {
      "epoch": 0.1318125,
      "grad_norm": 1.192233920097351,
      "learning_rate": 0.00028800157300144346,
      "loss": 4.2475,
      "step": 63270
    },
    {
      "epoch": 0.13183333333333333,
      "grad_norm": 0.9084194302558899,
      "learning_rate": 0.00028799770919764203,
      "loss": 3.9821,
      "step": 63280
    },
    {
      "epoch": 0.13185416666666666,
      "grad_norm": 0.8504462838172913,
      "learning_rate": 0.00028799384479774516,
      "loss": 4.2155,
      "step": 63290
    },
    {
      "epoch": 0.131875,
      "grad_norm": 0.8442124128341675,
      "learning_rate": 0.0002879899798017695,
      "loss": 4.2611,
      "step": 63300
    },
    {
      "epoch": 0.13189583333333332,
      "grad_norm": 0.8025698661804199,
      "learning_rate": 0.0002879861142097317,
      "loss": 4.2596,
      "step": 63310
    },
    {
      "epoch": 0.13191666666666665,
      "grad_norm": 0.9201682209968567,
      "learning_rate": 0.0002879822480216485,
      "loss": 4.1478,
      "step": 63320
    },
    {
      "epoch": 0.1319375,
      "grad_norm": 0.9002348184585571,
      "learning_rate": 0.00028797838123753664,
      "loss": 4.0384,
      "step": 63330
    },
    {
      "epoch": 0.13195833333333334,
      "grad_norm": 0.8271712064743042,
      "learning_rate": 0.0002879745138574128,
      "loss": 4.0385,
      "step": 63340
    },
    {
      "epoch": 0.13197916666666668,
      "grad_norm": 0.9070736765861511,
      "learning_rate": 0.0002879706458812937,
      "loss": 4.0295,
      "step": 63350
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.9198088645935059,
      "learning_rate": 0.000287966777309196,
      "loss": 4.0739,
      "step": 63360
    },
    {
      "epoch": 0.13202083333333334,
      "grad_norm": 0.8782424926757812,
      "learning_rate": 0.00028796290814113635,
      "loss": 4.1164,
      "step": 63370
    },
    {
      "epoch": 0.13204166666666667,
      "grad_norm": 0.7901269197463989,
      "learning_rate": 0.0002879590383771316,
      "loss": 4.1835,
      "step": 63380
    },
    {
      "epoch": 0.1320625,
      "grad_norm": 0.8521947860717773,
      "learning_rate": 0.0002879551680171984,
      "loss": 4.1183,
      "step": 63390
    },
    {
      "epoch": 0.13208333333333333,
      "grad_norm": 0.8065088391304016,
      "learning_rate": 0.00028795129706135354,
      "loss": 4.1168,
      "step": 63400
    },
    {
      "epoch": 0.13210416666666666,
      "grad_norm": 1.0652291774749756,
      "learning_rate": 0.00028794742550961364,
      "loss": 4.2187,
      "step": 63410
    },
    {
      "epoch": 0.132125,
      "grad_norm": 0.880679726600647,
      "learning_rate": 0.00028794355336199547,
      "loss": 4.023,
      "step": 63420
    },
    {
      "epoch": 0.13214583333333332,
      "grad_norm": 0.8759026527404785,
      "learning_rate": 0.0002879396806185158,
      "loss": 4.0614,
      "step": 63430
    },
    {
      "epoch": 0.13216666666666665,
      "grad_norm": 0.9040548205375671,
      "learning_rate": 0.0002879358072791912,
      "loss": 3.9603,
      "step": 63440
    },
    {
      "epoch": 0.1321875,
      "grad_norm": 0.867560625076294,
      "learning_rate": 0.0002879319333440386,
      "loss": 4.196,
      "step": 63450
    },
    {
      "epoch": 0.13220833333333334,
      "grad_norm": 0.835991621017456,
      "learning_rate": 0.00028792805881307465,
      "loss": 4.2618,
      "step": 63460
    },
    {
      "epoch": 0.13222916666666668,
      "grad_norm": 0.8200781941413879,
      "learning_rate": 0.000287924183686316,
      "loss": 4.2243,
      "step": 63470
    },
    {
      "epoch": 0.13225,
      "grad_norm": 0.8177769184112549,
      "learning_rate": 0.0002879203079637795,
      "loss": 4.0359,
      "step": 63480
    },
    {
      "epoch": 0.13227083333333334,
      "grad_norm": 0.8283032178878784,
      "learning_rate": 0.00028791643164548193,
      "loss": 4.1228,
      "step": 63490
    },
    {
      "epoch": 0.13229166666666667,
      "grad_norm": 0.8522889614105225,
      "learning_rate": 0.0002879125547314399,
      "loss": 4.0867,
      "step": 63500
    },
    {
      "epoch": 0.1323125,
      "grad_norm": 0.8711879849433899,
      "learning_rate": 0.00028790867722167026,
      "loss": 4.0916,
      "step": 63510
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 0.83673495054245,
      "learning_rate": 0.0002879047991161897,
      "loss": 4.1119,
      "step": 63520
    },
    {
      "epoch": 0.13235416666666666,
      "grad_norm": 0.8406617045402527,
      "learning_rate": 0.000287900920415015,
      "loss": 4.285,
      "step": 63530
    },
    {
      "epoch": 0.132375,
      "grad_norm": 0.8531256318092346,
      "learning_rate": 0.0002878970411181629,
      "loss": 3.9806,
      "step": 63540
    },
    {
      "epoch": 0.13239583333333332,
      "grad_norm": 0.8562096357345581,
      "learning_rate": 0.0002878931612256502,
      "loss": 3.9545,
      "step": 63550
    },
    {
      "epoch": 0.13241666666666665,
      "grad_norm": 0.815583348274231,
      "learning_rate": 0.0002878892807374936,
      "loss": 4.2274,
      "step": 63560
    },
    {
      "epoch": 0.1324375,
      "grad_norm": 0.9468145370483398,
      "learning_rate": 0.00028788539965370985,
      "loss": 4.0191,
      "step": 63570
    },
    {
      "epoch": 0.13245833333333334,
      "grad_norm": 0.9175543785095215,
      "learning_rate": 0.0002878815179743158,
      "loss": 4.2448,
      "step": 63580
    },
    {
      "epoch": 0.13247916666666668,
      "grad_norm": 0.8588141798973083,
      "learning_rate": 0.00028787763569932816,
      "loss": 4.1658,
      "step": 63590
    },
    {
      "epoch": 0.1325,
      "grad_norm": 0.9223393797874451,
      "learning_rate": 0.00028787375282876375,
      "loss": 4.1891,
      "step": 63600
    },
    {
      "epoch": 0.13252083333333334,
      "grad_norm": 0.8667445182800293,
      "learning_rate": 0.00028786986936263923,
      "loss": 4.099,
      "step": 63610
    },
    {
      "epoch": 0.13254166666666667,
      "grad_norm": 0.972811758518219,
      "learning_rate": 0.0002878659853009715,
      "loss": 4.1507,
      "step": 63620
    },
    {
      "epoch": 0.1325625,
      "grad_norm": 0.8386960029602051,
      "learning_rate": 0.0002878621006437772,
      "loss": 3.9419,
      "step": 63630
    },
    {
      "epoch": 0.13258333333333333,
      "grad_norm": 0.917634904384613,
      "learning_rate": 0.0002878582153910733,
      "loss": 4.204,
      "step": 63640
    },
    {
      "epoch": 0.13260416666666666,
      "grad_norm": 0.8832080960273743,
      "learning_rate": 0.0002878543295428765,
      "loss": 4.2279,
      "step": 63650
    },
    {
      "epoch": 0.132625,
      "grad_norm": 0.8377492427825928,
      "learning_rate": 0.00028785044309920346,
      "loss": 4.1754,
      "step": 63660
    },
    {
      "epoch": 0.13264583333333332,
      "grad_norm": 0.8867095112800598,
      "learning_rate": 0.00028784655606007106,
      "loss": 3.8858,
      "step": 63670
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 0.8546968102455139,
      "learning_rate": 0.0002878426684254962,
      "loss": 4.107,
      "step": 63680
    },
    {
      "epoch": 0.1326875,
      "grad_norm": 0.81828373670578,
      "learning_rate": 0.0002878387801954955,
      "loss": 4.3221,
      "step": 63690
    },
    {
      "epoch": 0.13270833333333334,
      "grad_norm": 0.8209626078605652,
      "learning_rate": 0.00028783489137008587,
      "loss": 4.0478,
      "step": 63700
    },
    {
      "epoch": 0.13272916666666668,
      "grad_norm": 0.8212191462516785,
      "learning_rate": 0.00028783100194928405,
      "loss": 4.3073,
      "step": 63710
    },
    {
      "epoch": 0.13275,
      "grad_norm": 0.8006466031074524,
      "learning_rate": 0.0002878271119331068,
      "loss": 4.1197,
      "step": 63720
    },
    {
      "epoch": 0.13277083333333334,
      "grad_norm": 0.90328449010849,
      "learning_rate": 0.0002878232213215711,
      "loss": 3.9966,
      "step": 63730
    },
    {
      "epoch": 0.13279166666666667,
      "grad_norm": 1.4433869123458862,
      "learning_rate": 0.00028781933011469353,
      "loss": 3.9644,
      "step": 63740
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 0.8373191952705383,
      "learning_rate": 0.00028781543831249114,
      "loss": 4.2117,
      "step": 63750
    },
    {
      "epoch": 0.13283333333333333,
      "grad_norm": 0.9013834595680237,
      "learning_rate": 0.0002878115459149805,
      "loss": 4.0072,
      "step": 63760
    },
    {
      "epoch": 0.13285416666666666,
      "grad_norm": 0.8064919114112854,
      "learning_rate": 0.00028780765292217857,
      "loss": 4.3459,
      "step": 63770
    },
    {
      "epoch": 0.132875,
      "grad_norm": 0.9139251708984375,
      "learning_rate": 0.0002878037593341021,
      "loss": 4.1338,
      "step": 63780
    },
    {
      "epoch": 0.13289583333333332,
      "grad_norm": 2.612879514694214,
      "learning_rate": 0.00028779986515076796,
      "loss": 4.168,
      "step": 63790
    },
    {
      "epoch": 0.13291666666666666,
      "grad_norm": 0.9090676307678223,
      "learning_rate": 0.0002877959703721929,
      "loss": 4.2438,
      "step": 63800
    },
    {
      "epoch": 0.1329375,
      "grad_norm": 0.7981064915657043,
      "learning_rate": 0.0002877920749983938,
      "loss": 4.0627,
      "step": 63810
    },
    {
      "epoch": 0.13295833333333335,
      "grad_norm": 0.8584981560707092,
      "learning_rate": 0.00028778817902938754,
      "loss": 3.8759,
      "step": 63820
    },
    {
      "epoch": 0.13297916666666668,
      "grad_norm": 0.860377848148346,
      "learning_rate": 0.00028778428246519085,
      "loss": 4.2034,
      "step": 63830
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.8127092123031616,
      "learning_rate": 0.00028778038530582063,
      "loss": 4.2003,
      "step": 63840
    },
    {
      "epoch": 0.13302083333333334,
      "grad_norm": 0.9248262047767639,
      "learning_rate": 0.0002877764875512936,
      "loss": 4.1204,
      "step": 63850
    },
    {
      "epoch": 0.13304166666666667,
      "grad_norm": 1.1524235010147095,
      "learning_rate": 0.0002877725892016268,
      "loss": 4.1225,
      "step": 63860
    },
    {
      "epoch": 0.1330625,
      "grad_norm": 0.8677145838737488,
      "learning_rate": 0.00028776869025683686,
      "loss": 4.0278,
      "step": 63870
    },
    {
      "epoch": 0.13308333333333333,
      "grad_norm": 0.8633622527122498,
      "learning_rate": 0.00028776479071694074,
      "loss": 4.1367,
      "step": 63880
    },
    {
      "epoch": 0.13310416666666666,
      "grad_norm": 0.8489201068878174,
      "learning_rate": 0.00028776089058195526,
      "loss": 4.1955,
      "step": 63890
    },
    {
      "epoch": 0.133125,
      "grad_norm": 0.8627120852470398,
      "learning_rate": 0.00028775698985189724,
      "loss": 4.1573,
      "step": 63900
    },
    {
      "epoch": 0.13314583333333332,
      "grad_norm": 0.9230487942695618,
      "learning_rate": 0.0002877530885267836,
      "loss": 4.195,
      "step": 63910
    },
    {
      "epoch": 0.13316666666666666,
      "grad_norm": 0.9044234156608582,
      "learning_rate": 0.00028774918660663104,
      "loss": 4.0838,
      "step": 63920
    },
    {
      "epoch": 0.1331875,
      "grad_norm": 0.9020727276802063,
      "learning_rate": 0.00028774528409145663,
      "loss": 3.9654,
      "step": 63930
    },
    {
      "epoch": 0.13320833333333335,
      "grad_norm": 0.9187495708465576,
      "learning_rate": 0.00028774138098127707,
      "loss": 4.105,
      "step": 63940
    },
    {
      "epoch": 0.13322916666666668,
      "grad_norm": 0.9053789973258972,
      "learning_rate": 0.0002877374772761093,
      "loss": 4.1313,
      "step": 63950
    },
    {
      "epoch": 0.13325,
      "grad_norm": 0.9560905694961548,
      "learning_rate": 0.0002877335729759701,
      "loss": 4.0709,
      "step": 63960
    },
    {
      "epoch": 0.13327083333333334,
      "grad_norm": 0.8636883497238159,
      "learning_rate": 0.0002877296680808764,
      "loss": 4.0764,
      "step": 63970
    },
    {
      "epoch": 0.13329166666666667,
      "grad_norm": 0.8718433380126953,
      "learning_rate": 0.00028772576259084503,
      "loss": 4.1441,
      "step": 63980
    },
    {
      "epoch": 0.1333125,
      "grad_norm": 1.275053858757019,
      "learning_rate": 0.0002877218565058929,
      "loss": 4.357,
      "step": 63990
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.9252102375030518,
      "learning_rate": 0.0002877179498260369,
      "loss": 3.9868,
      "step": 64000
    },
    {
      "epoch": 0.13333333333333333,
      "eval_loss": 3.8808281421661377,
      "eval_runtime": 7.2053,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 64000
    },
    {
      "epoch": 0.13335416666666666,
      "grad_norm": 1.6433860063552856,
      "learning_rate": 0.0002877140425512938,
      "loss": 4.1565,
      "step": 64010
    },
    {
      "epoch": 0.133375,
      "grad_norm": 0.9066047072410583,
      "learning_rate": 0.0002877101346816806,
      "loss": 4.0078,
      "step": 64020
    },
    {
      "epoch": 0.13339583333333332,
      "grad_norm": 0.9034578204154968,
      "learning_rate": 0.0002877062262172141,
      "loss": 4.0751,
      "step": 64030
    },
    {
      "epoch": 0.13341666666666666,
      "grad_norm": 0.9714667201042175,
      "learning_rate": 0.00028770231715791124,
      "loss": 3.9317,
      "step": 64040
    },
    {
      "epoch": 0.1334375,
      "grad_norm": 0.839811384677887,
      "learning_rate": 0.0002876984075037889,
      "loss": 4.0697,
      "step": 64050
    },
    {
      "epoch": 0.13345833333333335,
      "grad_norm": 0.8441498279571533,
      "learning_rate": 0.0002876944972548638,
      "loss": 4.2213,
      "step": 64060
    },
    {
      "epoch": 0.13347916666666668,
      "grad_norm": 0.7847887277603149,
      "learning_rate": 0.00028769058641115315,
      "loss": 4.2808,
      "step": 64070
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.8763822913169861,
      "learning_rate": 0.0002876866749726736,
      "loss": 4.2362,
      "step": 64080
    },
    {
      "epoch": 0.13352083333333334,
      "grad_norm": 0.8556891083717346,
      "learning_rate": 0.0002876827629394421,
      "loss": 4.2367,
      "step": 64090
    },
    {
      "epoch": 0.13354166666666667,
      "grad_norm": 0.9264203310012817,
      "learning_rate": 0.00028767885031147556,
      "loss": 4.0079,
      "step": 64100
    },
    {
      "epoch": 0.1335625,
      "grad_norm": 0.9576159119606018,
      "learning_rate": 0.0002876749370887909,
      "loss": 4.1789,
      "step": 64110
    },
    {
      "epoch": 0.13358333333333333,
      "grad_norm": 0.8326746225357056,
      "learning_rate": 0.000287671023271405,
      "loss": 3.9406,
      "step": 64120
    },
    {
      "epoch": 0.13360416666666666,
      "grad_norm": 1.041501522064209,
      "learning_rate": 0.0002876671088593348,
      "loss": 3.9891,
      "step": 64130
    },
    {
      "epoch": 0.133625,
      "grad_norm": 0.8445597887039185,
      "learning_rate": 0.00028766319385259713,
      "loss": 4.0873,
      "step": 64140
    },
    {
      "epoch": 0.13364583333333332,
      "grad_norm": 0.9223157167434692,
      "learning_rate": 0.000287659278251209,
      "loss": 4.2233,
      "step": 64150
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 0.8536276817321777,
      "learning_rate": 0.00028765536205518726,
      "loss": 4.1115,
      "step": 64160
    },
    {
      "epoch": 0.1336875,
      "grad_norm": 0.8489221334457397,
      "learning_rate": 0.00028765144526454885,
      "loss": 4.2035,
      "step": 64170
    },
    {
      "epoch": 0.13370833333333335,
      "grad_norm": 0.9412833452224731,
      "learning_rate": 0.00028764752787931066,
      "loss": 4.0806,
      "step": 64180
    },
    {
      "epoch": 0.13372916666666668,
      "grad_norm": 0.8528259992599487,
      "learning_rate": 0.00028764360989948966,
      "loss": 4.3611,
      "step": 64190
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.8185891509056091,
      "learning_rate": 0.00028763969132510276,
      "loss": 4.3486,
      "step": 64200
    },
    {
      "epoch": 0.13377083333333334,
      "grad_norm": 0.9014435410499573,
      "learning_rate": 0.00028763577215616687,
      "loss": 4.143,
      "step": 64210
    },
    {
      "epoch": 0.13379166666666667,
      "grad_norm": 1.1239993572235107,
      "learning_rate": 0.00028763185239269885,
      "loss": 4.3009,
      "step": 64220
    },
    {
      "epoch": 0.1338125,
      "grad_norm": 0.8630682229995728,
      "learning_rate": 0.0002876279320347158,
      "loss": 4.0979,
      "step": 64230
    },
    {
      "epoch": 0.13383333333333333,
      "grad_norm": 1.069559931755066,
      "learning_rate": 0.0002876240110822345,
      "loss": 4.3171,
      "step": 64240
    },
    {
      "epoch": 0.13385416666666666,
      "grad_norm": 0.8453426957130432,
      "learning_rate": 0.000287620089535272,
      "loss": 4.2066,
      "step": 64250
    },
    {
      "epoch": 0.133875,
      "grad_norm": 0.8494859933853149,
      "learning_rate": 0.0002876161673938452,
      "loss": 4.2356,
      "step": 64260
    },
    {
      "epoch": 0.13389583333333333,
      "grad_norm": 0.8115147948265076,
      "learning_rate": 0.00028761224465797094,
      "loss": 4.3963,
      "step": 64270
    },
    {
      "epoch": 0.13391666666666666,
      "grad_norm": 0.8654975891113281,
      "learning_rate": 0.0002876083213276663,
      "loss": 4.1355,
      "step": 64280
    },
    {
      "epoch": 0.1339375,
      "grad_norm": 0.8621466755867004,
      "learning_rate": 0.0002876043974029482,
      "loss": 4.1415,
      "step": 64290
    },
    {
      "epoch": 0.13395833333333335,
      "grad_norm": 0.826736569404602,
      "learning_rate": 0.00028760047288383354,
      "loss": 4.3283,
      "step": 64300
    },
    {
      "epoch": 0.13397916666666668,
      "grad_norm": 0.8075570464134216,
      "learning_rate": 0.00028759654777033933,
      "loss": 4.23,
      "step": 64310
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.9226621985435486,
      "learning_rate": 0.0002875926220624825,
      "loss": 4.2843,
      "step": 64320
    },
    {
      "epoch": 0.13402083333333334,
      "grad_norm": 0.8202677369117737,
      "learning_rate": 0.00028758869576028,
      "loss": 4.1381,
      "step": 64330
    },
    {
      "epoch": 0.13404166666666667,
      "grad_norm": 0.8861874341964722,
      "learning_rate": 0.0002875847688637488,
      "loss": 4.2717,
      "step": 64340
    },
    {
      "epoch": 0.1340625,
      "grad_norm": 0.8037593364715576,
      "learning_rate": 0.0002875808413729058,
      "loss": 4.2718,
      "step": 64350
    },
    {
      "epoch": 0.13408333333333333,
      "grad_norm": 0.827064037322998,
      "learning_rate": 0.00028757691328776806,
      "loss": 4.0821,
      "step": 64360
    },
    {
      "epoch": 0.13410416666666666,
      "grad_norm": 0.8598858118057251,
      "learning_rate": 0.0002875729846083525,
      "loss": 4.3044,
      "step": 64370
    },
    {
      "epoch": 0.134125,
      "grad_norm": 0.950831413269043,
      "learning_rate": 0.00028756905533467613,
      "loss": 4.1442,
      "step": 64380
    },
    {
      "epoch": 0.13414583333333333,
      "grad_norm": 0.8514080047607422,
      "learning_rate": 0.0002875651254667559,
      "loss": 4.0912,
      "step": 64390
    },
    {
      "epoch": 0.13416666666666666,
      "grad_norm": 0.8521988391876221,
      "learning_rate": 0.0002875611950046088,
      "loss": 4.2431,
      "step": 64400
    },
    {
      "epoch": 0.1341875,
      "grad_norm": 0.9743057489395142,
      "learning_rate": 0.00028755726394825174,
      "loss": 4.2364,
      "step": 64410
    },
    {
      "epoch": 0.13420833333333335,
      "grad_norm": 0.8272563815116882,
      "learning_rate": 0.00028755333229770174,
      "loss": 4.2339,
      "step": 64420
    },
    {
      "epoch": 0.13422916666666668,
      "grad_norm": 0.948771059513092,
      "learning_rate": 0.00028754940005297583,
      "loss": 4.2136,
      "step": 64430
    },
    {
      "epoch": 0.13425,
      "grad_norm": 0.9120687246322632,
      "learning_rate": 0.00028754546721409093,
      "loss": 4.42,
      "step": 64440
    },
    {
      "epoch": 0.13427083333333334,
      "grad_norm": 0.8321694135665894,
      "learning_rate": 0.0002875415337810641,
      "loss": 4.1201,
      "step": 64450
    },
    {
      "epoch": 0.13429166666666667,
      "grad_norm": 0.9058347940444946,
      "learning_rate": 0.00028753759975391226,
      "loss": 4.0146,
      "step": 64460
    },
    {
      "epoch": 0.1343125,
      "grad_norm": 0.8471892476081848,
      "learning_rate": 0.0002875336651326524,
      "loss": 4.1372,
      "step": 64470
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 0.9716137051582336,
      "learning_rate": 0.0002875297299173016,
      "loss": 4.1685,
      "step": 64480
    },
    {
      "epoch": 0.13435416666666666,
      "grad_norm": 0.8791422247886658,
      "learning_rate": 0.0002875257941078768,
      "loss": 4.1922,
      "step": 64490
    },
    {
      "epoch": 0.134375,
      "grad_norm": 0.7538834810256958,
      "learning_rate": 0.0002875218577043949,
      "loss": 4.2451,
      "step": 64500
    },
    {
      "epoch": 0.13439583333333333,
      "grad_norm": 0.8491294980049133,
      "learning_rate": 0.00028751792070687315,
      "loss": 3.9341,
      "step": 64510
    },
    {
      "epoch": 0.13441666666666666,
      "grad_norm": 0.9015017747879028,
      "learning_rate": 0.00028751398311532833,
      "loss": 4.1345,
      "step": 64520
    },
    {
      "epoch": 0.1344375,
      "grad_norm": 1.005061388015747,
      "learning_rate": 0.0002875100449297776,
      "loss": 4.1938,
      "step": 64530
    },
    {
      "epoch": 0.13445833333333335,
      "grad_norm": 0.9367841482162476,
      "learning_rate": 0.00028750610615023783,
      "loss": 4.1486,
      "step": 64540
    },
    {
      "epoch": 0.13447916666666668,
      "grad_norm": 0.8899604082107544,
      "learning_rate": 0.00028750216677672614,
      "loss": 4.2,
      "step": 64550
    },
    {
      "epoch": 0.1345,
      "grad_norm": 0.9276930689811707,
      "learning_rate": 0.00028749822680925954,
      "loss": 4.1407,
      "step": 64560
    },
    {
      "epoch": 0.13452083333333334,
      "grad_norm": 0.8160087466239929,
      "learning_rate": 0.000287494286247855,
      "loss": 4.3794,
      "step": 64570
    },
    {
      "epoch": 0.13454166666666667,
      "grad_norm": 0.8258288502693176,
      "learning_rate": 0.0002874903450925296,
      "loss": 4.3146,
      "step": 64580
    },
    {
      "epoch": 0.1345625,
      "grad_norm": 0.811479389667511,
      "learning_rate": 0.0002874864033433003,
      "loss": 4.1378,
      "step": 64590
    },
    {
      "epoch": 0.13458333333333333,
      "grad_norm": 0.868531346321106,
      "learning_rate": 0.0002874824610001842,
      "loss": 4.0325,
      "step": 64600
    },
    {
      "epoch": 0.13460416666666666,
      "grad_norm": 0.9024492502212524,
      "learning_rate": 0.00028747851806319827,
      "loss": 4.0726,
      "step": 64610
    },
    {
      "epoch": 0.134625,
      "grad_norm": 1.1338404417037964,
      "learning_rate": 0.00028747457453235953,
      "loss": 4.1994,
      "step": 64620
    },
    {
      "epoch": 0.13464583333333333,
      "grad_norm": 0.8162320852279663,
      "learning_rate": 0.00028747063040768505,
      "loss": 3.967,
      "step": 64630
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.8675443530082703,
      "learning_rate": 0.0002874666856891919,
      "loss": 4.2379,
      "step": 64640
    },
    {
      "epoch": 0.1346875,
      "grad_norm": 0.8470034599304199,
      "learning_rate": 0.00028746274037689704,
      "loss": 4.1218,
      "step": 64650
    },
    {
      "epoch": 0.13470833333333335,
      "grad_norm": 0.8872219920158386,
      "learning_rate": 0.00028745879447081757,
      "loss": 3.9471,
      "step": 64660
    },
    {
      "epoch": 0.13472916666666668,
      "grad_norm": 0.9169257283210754,
      "learning_rate": 0.0002874548479709705,
      "loss": 4.101,
      "step": 64670
    },
    {
      "epoch": 0.13475,
      "grad_norm": 0.9312883019447327,
      "learning_rate": 0.00028745090087737294,
      "loss": 4.054,
      "step": 64680
    },
    {
      "epoch": 0.13477083333333334,
      "grad_norm": 0.8909058570861816,
      "learning_rate": 0.00028744695319004183,
      "loss": 3.9687,
      "step": 64690
    },
    {
      "epoch": 0.13479166666666667,
      "grad_norm": 1.0357789993286133,
      "learning_rate": 0.00028744300490899435,
      "loss": 4.2579,
      "step": 64700
    },
    {
      "epoch": 0.1348125,
      "grad_norm": 0.9140782356262207,
      "learning_rate": 0.00028743905603424746,
      "loss": 4.0632,
      "step": 64710
    },
    {
      "epoch": 0.13483333333333333,
      "grad_norm": 0.8912089467048645,
      "learning_rate": 0.00028743510656581824,
      "loss": 4.2761,
      "step": 64720
    },
    {
      "epoch": 0.13485416666666666,
      "grad_norm": 0.9064391851425171,
      "learning_rate": 0.00028743115650372376,
      "loss": 4.0287,
      "step": 64730
    },
    {
      "epoch": 0.134875,
      "grad_norm": 0.9784374237060547,
      "learning_rate": 0.0002874272058479811,
      "loss": 4.1842,
      "step": 64740
    },
    {
      "epoch": 0.13489583333333333,
      "grad_norm": 0.9419755339622498,
      "learning_rate": 0.0002874232545986073,
      "loss": 4.1513,
      "step": 64750
    },
    {
      "epoch": 0.13491666666666666,
      "grad_norm": 0.7976834774017334,
      "learning_rate": 0.0002874193027556195,
      "loss": 3.9777,
      "step": 64760
    },
    {
      "epoch": 0.1349375,
      "grad_norm": 0.7654089331626892,
      "learning_rate": 0.0002874153503190346,
      "loss": 4.3423,
      "step": 64770
    },
    {
      "epoch": 0.13495833333333335,
      "grad_norm": 0.8605004549026489,
      "learning_rate": 0.00028741139728886983,
      "loss": 4.1299,
      "step": 64780
    },
    {
      "epoch": 0.13497916666666668,
      "grad_norm": 0.7680824398994446,
      "learning_rate": 0.0002874074436651422,
      "loss": 4.297,
      "step": 64790
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.9503521919250488,
      "learning_rate": 0.00028740348944786883,
      "loss": 4.1724,
      "step": 64800
    },
    {
      "epoch": 0.13502083333333334,
      "grad_norm": 0.83347088098526,
      "learning_rate": 0.0002873995346370668,
      "loss": 4.3037,
      "step": 64810
    },
    {
      "epoch": 0.13504166666666667,
      "grad_norm": 0.8936494588851929,
      "learning_rate": 0.0002873955792327531,
      "loss": 4.1211,
      "step": 64820
    },
    {
      "epoch": 0.1350625,
      "grad_norm": 0.8485236167907715,
      "learning_rate": 0.0002873916232349449,
      "loss": 4.1209,
      "step": 64830
    },
    {
      "epoch": 0.13508333333333333,
      "grad_norm": 0.8607579469680786,
      "learning_rate": 0.0002873876666436593,
      "loss": 4.0922,
      "step": 64840
    },
    {
      "epoch": 0.13510416666666666,
      "grad_norm": 0.7929949164390564,
      "learning_rate": 0.0002873837094589133,
      "loss": 4.1852,
      "step": 64850
    },
    {
      "epoch": 0.135125,
      "grad_norm": 0.8583272695541382,
      "learning_rate": 0.0002873797516807241,
      "loss": 4.1841,
      "step": 64860
    },
    {
      "epoch": 0.13514583333333333,
      "grad_norm": 1.0921345949172974,
      "learning_rate": 0.00028737579330910876,
      "loss": 4.0414,
      "step": 64870
    },
    {
      "epoch": 0.13516666666666666,
      "grad_norm": 0.7678250670433044,
      "learning_rate": 0.0002873718343440844,
      "loss": 4.0733,
      "step": 64880
    },
    {
      "epoch": 0.1351875,
      "grad_norm": 0.8397461175918579,
      "learning_rate": 0.000287367874785668,
      "loss": 4.1708,
      "step": 64890
    },
    {
      "epoch": 0.13520833333333335,
      "grad_norm": 0.8387989401817322,
      "learning_rate": 0.00028736391463387683,
      "loss": 4.1902,
      "step": 64900
    },
    {
      "epoch": 0.13522916666666668,
      "grad_norm": 0.9363052248954773,
      "learning_rate": 0.0002873599538887279,
      "loss": 4.0028,
      "step": 64910
    },
    {
      "epoch": 0.13525,
      "grad_norm": 0.9084704518318176,
      "learning_rate": 0.00028735599255023833,
      "loss": 3.9553,
      "step": 64920
    },
    {
      "epoch": 0.13527083333333334,
      "grad_norm": 1.1039520502090454,
      "learning_rate": 0.0002873520306184252,
      "loss": 4.0239,
      "step": 64930
    },
    {
      "epoch": 0.13529166666666667,
      "grad_norm": 1.1055388450622559,
      "learning_rate": 0.0002873480680933058,
      "loss": 4.1242,
      "step": 64940
    },
    {
      "epoch": 0.1353125,
      "grad_norm": 0.8281272053718567,
      "learning_rate": 0.00028734410497489697,
      "loss": 4.1172,
      "step": 64950
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 0.8961301445960999,
      "learning_rate": 0.00028734014126321605,
      "loss": 4.3629,
      "step": 64960
    },
    {
      "epoch": 0.13535416666666666,
      "grad_norm": 0.8456516861915588,
      "learning_rate": 0.00028733617695828,
      "loss": 4.0871,
      "step": 64970
    },
    {
      "epoch": 0.135375,
      "grad_norm": 0.9179351925849915,
      "learning_rate": 0.00028733221206010613,
      "loss": 3.9474,
      "step": 64980
    },
    {
      "epoch": 0.13539583333333333,
      "grad_norm": 0.8590818643569946,
      "learning_rate": 0.0002873282465687114,
      "loss": 4.1476,
      "step": 64990
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 0.8787215352058411,
      "learning_rate": 0.0002873242804841131,
      "loss": 4.1509,
      "step": 65000
    },
    {
      "epoch": 0.13541666666666666,
      "eval_loss": 3.883835554122925,
      "eval_runtime": 7.2292,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 65000
    },
    {
      "epoch": 0.1354375,
      "grad_norm": 0.8486743569374084,
      "learning_rate": 0.0002873203138063282,
      "loss": 4.2986,
      "step": 65010
    },
    {
      "epoch": 0.13545833333333332,
      "grad_norm": 1.2735297679901123,
      "learning_rate": 0.0002873163465353738,
      "loss": 4.2399,
      "step": 65020
    },
    {
      "epoch": 0.13547916666666668,
      "grad_norm": 0.8781722187995911,
      "learning_rate": 0.00028731237867126727,
      "loss": 4.2278,
      "step": 65030
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.8497034311294556,
      "learning_rate": 0.00028730841021402557,
      "loss": 4.0356,
      "step": 65040
    },
    {
      "epoch": 0.13552083333333334,
      "grad_norm": 0.759685218334198,
      "learning_rate": 0.0002873044411636659,
      "loss": 4.2318,
      "step": 65050
    },
    {
      "epoch": 0.13554166666666667,
      "grad_norm": 0.960121214389801,
      "learning_rate": 0.00028730047152020536,
      "loss": 4.1009,
      "step": 65060
    },
    {
      "epoch": 0.1355625,
      "grad_norm": 0.8475679755210876,
      "learning_rate": 0.00028729650128366116,
      "loss": 4.1235,
      "step": 65070
    },
    {
      "epoch": 0.13558333333333333,
      "grad_norm": 0.8506505489349365,
      "learning_rate": 0.0002872925304540504,
      "loss": 4.4103,
      "step": 65080
    },
    {
      "epoch": 0.13560416666666666,
      "grad_norm": 0.910711407661438,
      "learning_rate": 0.00028728855903139026,
      "loss": 3.9223,
      "step": 65090
    },
    {
      "epoch": 0.135625,
      "grad_norm": 0.8507808446884155,
      "learning_rate": 0.00028728458701569794,
      "loss": 3.9236,
      "step": 65100
    },
    {
      "epoch": 0.13564583333333333,
      "grad_norm": 0.8906180262565613,
      "learning_rate": 0.00028728061440699045,
      "loss": 3.9901,
      "step": 65110
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 0.8139199614524841,
      "learning_rate": 0.0002872766412052851,
      "loss": 4.0771,
      "step": 65120
    },
    {
      "epoch": 0.1356875,
      "grad_norm": 0.8117603063583374,
      "learning_rate": 0.000287272667410599,
      "loss": 4.2064,
      "step": 65130
    },
    {
      "epoch": 0.13570833333333332,
      "grad_norm": 0.8923214673995972,
      "learning_rate": 0.0002872686930229493,
      "loss": 4.0479,
      "step": 65140
    },
    {
      "epoch": 0.13572916666666668,
      "grad_norm": 0.8734681606292725,
      "learning_rate": 0.0002872647180423532,
      "loss": 4.143,
      "step": 65150
    },
    {
      "epoch": 0.13575,
      "grad_norm": 0.9464444518089294,
      "learning_rate": 0.0002872607424688278,
      "loss": 3.9595,
      "step": 65160
    },
    {
      "epoch": 0.13577083333333334,
      "grad_norm": 0.8080239295959473,
      "learning_rate": 0.00028725676630239036,
      "loss": 4.277,
      "step": 65170
    },
    {
      "epoch": 0.13579166666666667,
      "grad_norm": 0.8746652007102966,
      "learning_rate": 0.00028725278954305804,
      "loss": 4.1767,
      "step": 65180
    },
    {
      "epoch": 0.1358125,
      "grad_norm": 0.8334143757820129,
      "learning_rate": 0.0002872488121908479,
      "loss": 4.1287,
      "step": 65190
    },
    {
      "epoch": 0.13583333333333333,
      "grad_norm": 0.8605250120162964,
      "learning_rate": 0.00028724483424577736,
      "loss": 4.074,
      "step": 65200
    },
    {
      "epoch": 0.13585416666666666,
      "grad_norm": 0.8729107975959778,
      "learning_rate": 0.0002872408557078634,
      "loss": 4.2071,
      "step": 65210
    },
    {
      "epoch": 0.135875,
      "grad_norm": 0.8354694247245789,
      "learning_rate": 0.00028723687657712324,
      "loss": 4.1442,
      "step": 65220
    },
    {
      "epoch": 0.13589583333333333,
      "grad_norm": 0.8009101748466492,
      "learning_rate": 0.00028723289685357416,
      "loss": 4.0527,
      "step": 65230
    },
    {
      "epoch": 0.13591666666666666,
      "grad_norm": 0.8817340135574341,
      "learning_rate": 0.0002872289165372332,
      "loss": 4.0133,
      "step": 65240
    },
    {
      "epoch": 0.1359375,
      "grad_norm": 0.9227752089500427,
      "learning_rate": 0.0002872249356281177,
      "loss": 3.9221,
      "step": 65250
    },
    {
      "epoch": 0.13595833333333332,
      "grad_norm": 0.885913610458374,
      "learning_rate": 0.0002872209541262448,
      "loss": 4.0979,
      "step": 65260
    },
    {
      "epoch": 0.13597916666666668,
      "grad_norm": 1.0649619102478027,
      "learning_rate": 0.0002872169720316317,
      "loss": 4.0396,
      "step": 65270
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.8616968393325806,
      "learning_rate": 0.0002872129893442956,
      "loss": 4.1986,
      "step": 65280
    },
    {
      "epoch": 0.13602083333333334,
      "grad_norm": 0.9995080828666687,
      "learning_rate": 0.0002872090060642536,
      "loss": 4.134,
      "step": 65290
    },
    {
      "epoch": 0.13604166666666667,
      "grad_norm": 0.9590792655944824,
      "learning_rate": 0.00028720502219152305,
      "loss": 4.1076,
      "step": 65300
    },
    {
      "epoch": 0.1360625,
      "grad_norm": 0.7494834065437317,
      "learning_rate": 0.00028720103772612117,
      "loss": 4.1739,
      "step": 65310
    },
    {
      "epoch": 0.13608333333333333,
      "grad_norm": 0.933076024055481,
      "learning_rate": 0.00028719705266806505,
      "loss": 4.0898,
      "step": 65320
    },
    {
      "epoch": 0.13610416666666666,
      "grad_norm": 0.9195635914802551,
      "learning_rate": 0.000287193067017372,
      "loss": 4.1289,
      "step": 65330
    },
    {
      "epoch": 0.136125,
      "grad_norm": 0.9760804176330566,
      "learning_rate": 0.00028718908077405924,
      "loss": 3.9444,
      "step": 65340
    },
    {
      "epoch": 0.13614583333333333,
      "grad_norm": 0.8180494904518127,
      "learning_rate": 0.0002871850939381439,
      "loss": 4.1565,
      "step": 65350
    },
    {
      "epoch": 0.13616666666666666,
      "grad_norm": 0.9106069803237915,
      "learning_rate": 0.0002871811065096433,
      "loss": 4.2025,
      "step": 65360
    },
    {
      "epoch": 0.1361875,
      "grad_norm": 0.9401777386665344,
      "learning_rate": 0.0002871771184885746,
      "loss": 4.1254,
      "step": 65370
    },
    {
      "epoch": 0.13620833333333332,
      "grad_norm": 0.8607016205787659,
      "learning_rate": 0.000287173129874955,
      "loss": 4.1943,
      "step": 65380
    },
    {
      "epoch": 0.13622916666666668,
      "grad_norm": 0.875909149646759,
      "learning_rate": 0.00028716914066880184,
      "loss": 4.2104,
      "step": 65390
    },
    {
      "epoch": 0.13625,
      "grad_norm": 0.7674001455307007,
      "learning_rate": 0.0002871651508701323,
      "loss": 4.0554,
      "step": 65400
    },
    {
      "epoch": 0.13627083333333334,
      "grad_norm": 0.8699022531509399,
      "learning_rate": 0.00028716116047896353,
      "loss": 4.1669,
      "step": 65410
    },
    {
      "epoch": 0.13629166666666667,
      "grad_norm": 0.8522031903266907,
      "learning_rate": 0.0002871571694953129,
      "loss": 4.3154,
      "step": 65420
    },
    {
      "epoch": 0.1363125,
      "grad_norm": 1.0817475318908691,
      "learning_rate": 0.0002871531779191975,
      "loss": 4.1628,
      "step": 65430
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 0.8913968801498413,
      "learning_rate": 0.00028714918575063476,
      "loss": 4.256,
      "step": 65440
    },
    {
      "epoch": 0.13635416666666667,
      "grad_norm": 0.822378396987915,
      "learning_rate": 0.0002871451929896418,
      "loss": 4.2312,
      "step": 65450
    },
    {
      "epoch": 0.136375,
      "grad_norm": 0.9770656824111938,
      "learning_rate": 0.00028714119963623585,
      "loss": 3.9168,
      "step": 65460
    },
    {
      "epoch": 0.13639583333333333,
      "grad_norm": 0.8566460609436035,
      "learning_rate": 0.0002871372056904343,
      "loss": 4.0583,
      "step": 65470
    },
    {
      "epoch": 0.13641666666666666,
      "grad_norm": 0.81905597448349,
      "learning_rate": 0.0002871332111522542,
      "loss": 4.121,
      "step": 65480
    },
    {
      "epoch": 0.1364375,
      "grad_norm": 0.8793412446975708,
      "learning_rate": 0.00028712921602171295,
      "loss": 4.1955,
      "step": 65490
    },
    {
      "epoch": 0.13645833333333332,
      "grad_norm": 0.8076338171958923,
      "learning_rate": 0.00028712522029882774,
      "loss": 3.8707,
      "step": 65500
    },
    {
      "epoch": 0.13647916666666668,
      "grad_norm": 0.8318395018577576,
      "learning_rate": 0.00028712122398361593,
      "loss": 4.1462,
      "step": 65510
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.8408377766609192,
      "learning_rate": 0.0002871172270760946,
      "loss": 3.9433,
      "step": 65520
    },
    {
      "epoch": 0.13652083333333334,
      "grad_norm": 0.8944607973098755,
      "learning_rate": 0.0002871132295762812,
      "loss": 3.9895,
      "step": 65530
    },
    {
      "epoch": 0.13654166666666667,
      "grad_norm": 0.8284813165664673,
      "learning_rate": 0.00028710923148419294,
      "loss": 4.0837,
      "step": 65540
    },
    {
      "epoch": 0.1365625,
      "grad_norm": 0.8394352197647095,
      "learning_rate": 0.000287105232799847,
      "loss": 4.0775,
      "step": 65550
    },
    {
      "epoch": 0.13658333333333333,
      "grad_norm": 0.8158438205718994,
      "learning_rate": 0.0002871012335232608,
      "loss": 4.042,
      "step": 65560
    },
    {
      "epoch": 0.13660416666666667,
      "grad_norm": 0.7838780283927917,
      "learning_rate": 0.00028709723365445147,
      "loss": 4.1081,
      "step": 65570
    },
    {
      "epoch": 0.136625,
      "grad_norm": 0.8975614309310913,
      "learning_rate": 0.0002870932331934364,
      "loss": 4.1816,
      "step": 65580
    },
    {
      "epoch": 0.13664583333333333,
      "grad_norm": 0.9398981928825378,
      "learning_rate": 0.0002870892321402328,
      "loss": 3.9489,
      "step": 65590
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 0.8435166478157043,
      "learning_rate": 0.000287085230494858,
      "loss": 4.1254,
      "step": 65600
    },
    {
      "epoch": 0.1366875,
      "grad_norm": 0.9032803177833557,
      "learning_rate": 0.00028708122825732923,
      "loss": 4.1497,
      "step": 65610
    },
    {
      "epoch": 0.13670833333333332,
      "grad_norm": 0.8317664861679077,
      "learning_rate": 0.00028707722542766384,
      "loss": 4.2152,
      "step": 65620
    },
    {
      "epoch": 0.13672916666666668,
      "grad_norm": 0.7939685583114624,
      "learning_rate": 0.0002870732220058791,
      "loss": 4.3005,
      "step": 65630
    },
    {
      "epoch": 0.13675,
      "grad_norm": 0.9106420874595642,
      "learning_rate": 0.00028706921799199234,
      "loss": 4.1856,
      "step": 65640
    },
    {
      "epoch": 0.13677083333333334,
      "grad_norm": 0.8785132765769958,
      "learning_rate": 0.00028706521338602074,
      "loss": 4.1827,
      "step": 65650
    },
    {
      "epoch": 0.13679166666666667,
      "grad_norm": 1.0578200817108154,
      "learning_rate": 0.00028706120818798174,
      "loss": 4.078,
      "step": 65660
    },
    {
      "epoch": 0.1368125,
      "grad_norm": 1.1645334959030151,
      "learning_rate": 0.0002870572023978925,
      "loss": 4.3287,
      "step": 65670
    },
    {
      "epoch": 0.13683333333333333,
      "grad_norm": 0.8243275284767151,
      "learning_rate": 0.00028705319601577046,
      "loss": 4.1612,
      "step": 65680
    },
    {
      "epoch": 0.13685416666666667,
      "grad_norm": 0.7758154273033142,
      "learning_rate": 0.0002870491890416328,
      "loss": 4.161,
      "step": 65690
    },
    {
      "epoch": 0.136875,
      "grad_norm": 0.8700313568115234,
      "learning_rate": 0.00028704518147549694,
      "loss": 4.1858,
      "step": 65700
    },
    {
      "epoch": 0.13689583333333333,
      "grad_norm": 0.8813931941986084,
      "learning_rate": 0.0002870411733173802,
      "loss": 4.0671,
      "step": 65710
    },
    {
      "epoch": 0.13691666666666666,
      "grad_norm": 0.9772531986236572,
      "learning_rate": 0.00028703716456729975,
      "loss": 4.1032,
      "step": 65720
    },
    {
      "epoch": 0.1369375,
      "grad_norm": 0.8325724601745605,
      "learning_rate": 0.00028703315522527297,
      "loss": 4.09,
      "step": 65730
    },
    {
      "epoch": 0.13695833333333332,
      "grad_norm": 0.8127171397209167,
      "learning_rate": 0.00028702914529131723,
      "loss": 4.2692,
      "step": 65740
    },
    {
      "epoch": 0.13697916666666668,
      "grad_norm": 0.9075204730033875,
      "learning_rate": 0.00028702513476544983,
      "loss": 3.9837,
      "step": 65750
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.8255618810653687,
      "learning_rate": 0.0002870211236476881,
      "loss": 4.096,
      "step": 65760
    },
    {
      "epoch": 0.13702083333333334,
      "grad_norm": 0.8236227631568909,
      "learning_rate": 0.00028701711193804936,
      "loss": 3.9526,
      "step": 65770
    },
    {
      "epoch": 0.13704166666666667,
      "grad_norm": 0.9666542410850525,
      "learning_rate": 0.0002870130996365509,
      "loss": 4.2103,
      "step": 65780
    },
    {
      "epoch": 0.1370625,
      "grad_norm": 0.8409036993980408,
      "learning_rate": 0.0002870090867432101,
      "loss": 4.0684,
      "step": 65790
    },
    {
      "epoch": 0.13708333333333333,
      "grad_norm": 0.8508227467536926,
      "learning_rate": 0.0002870050732580443,
      "loss": 4.1957,
      "step": 65800
    },
    {
      "epoch": 0.13710416666666667,
      "grad_norm": 0.8018875122070312,
      "learning_rate": 0.0002870010591810708,
      "loss": 4.1955,
      "step": 65810
    },
    {
      "epoch": 0.137125,
      "grad_norm": 0.8498654365539551,
      "learning_rate": 0.0002869970445123069,
      "loss": 4.1301,
      "step": 65820
    },
    {
      "epoch": 0.13714583333333333,
      "grad_norm": 0.8141868114471436,
      "learning_rate": 0.00028699302925177004,
      "loss": 4.0984,
      "step": 65830
    },
    {
      "epoch": 0.13716666666666666,
      "grad_norm": 0.8228939771652222,
      "learning_rate": 0.0002869890133994775,
      "loss": 4.3482,
      "step": 65840
    },
    {
      "epoch": 0.1371875,
      "grad_norm": 0.980987548828125,
      "learning_rate": 0.0002869849969554467,
      "loss": 4.0405,
      "step": 65850
    },
    {
      "epoch": 0.13720833333333332,
      "grad_norm": 0.9110556840896606,
      "learning_rate": 0.00028698097991969486,
      "loss": 4.1596,
      "step": 65860
    },
    {
      "epoch": 0.13722916666666668,
      "grad_norm": 0.8397524952888489,
      "learning_rate": 0.0002869769622922395,
      "loss": 3.8969,
      "step": 65870
    },
    {
      "epoch": 0.13725,
      "grad_norm": 0.8809064030647278,
      "learning_rate": 0.0002869729440730978,
      "loss": 4.2247,
      "step": 65880
    },
    {
      "epoch": 0.13727083333333334,
      "grad_norm": 0.9064317345619202,
      "learning_rate": 0.0002869689252622872,
      "loss": 4.2909,
      "step": 65890
    },
    {
      "epoch": 0.13729166666666667,
      "grad_norm": 0.8901749849319458,
      "learning_rate": 0.0002869649058598251,
      "loss": 4.198,
      "step": 65900
    },
    {
      "epoch": 0.1373125,
      "grad_norm": 0.9322753548622131,
      "learning_rate": 0.00028696088586572876,
      "loss": 4.1276,
      "step": 65910
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.8639331459999084,
      "learning_rate": 0.0002869568652800157,
      "loss": 4.1143,
      "step": 65920
    },
    {
      "epoch": 0.13735416666666667,
      "grad_norm": 0.9415364265441895,
      "learning_rate": 0.00028695284410270314,
      "loss": 4.2497,
      "step": 65930
    },
    {
      "epoch": 0.137375,
      "grad_norm": 0.8126586079597473,
      "learning_rate": 0.0002869488223338085,
      "loss": 4.2718,
      "step": 65940
    },
    {
      "epoch": 0.13739583333333333,
      "grad_norm": 0.8635936379432678,
      "learning_rate": 0.0002869447999733492,
      "loss": 4.0269,
      "step": 65950
    },
    {
      "epoch": 0.13741666666666666,
      "grad_norm": 0.8147095441818237,
      "learning_rate": 0.0002869407770213425,
      "loss": 4.2081,
      "step": 65960
    },
    {
      "epoch": 0.1374375,
      "grad_norm": 0.8414225578308105,
      "learning_rate": 0.00028693675347780587,
      "loss": 4.2134,
      "step": 65970
    },
    {
      "epoch": 0.13745833333333332,
      "grad_norm": 0.8495657444000244,
      "learning_rate": 0.0002869327293427567,
      "loss": 4.2186,
      "step": 65980
    },
    {
      "epoch": 0.13747916666666668,
      "grad_norm": 0.8493621945381165,
      "learning_rate": 0.0002869287046162123,
      "loss": 3.9954,
      "step": 65990
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.9019042253494263,
      "learning_rate": 0.00028692467929819016,
      "loss": 4.0643,
      "step": 66000
    },
    {
      "epoch": 0.1375,
      "eval_loss": 3.8646767139434814,
      "eval_runtime": 7.1679,
      "eval_samples_per_second": 1.395,
      "eval_steps_per_second": 0.419,
      "step": 66000
    },
    {
      "epoch": 0.13752083333333334,
      "grad_norm": 0.824794352054596,
      "learning_rate": 0.00028692065338870753,
      "loss": 4.0603,
      "step": 66010
    },
    {
      "epoch": 0.13754166666666667,
      "grad_norm": 0.8928404450416565,
      "learning_rate": 0.00028691662688778193,
      "loss": 4.2254,
      "step": 66020
    },
    {
      "epoch": 0.1375625,
      "grad_norm": 0.7971295118331909,
      "learning_rate": 0.00028691259979543067,
      "loss": 4.0324,
      "step": 66030
    },
    {
      "epoch": 0.13758333333333334,
      "grad_norm": 0.8028984069824219,
      "learning_rate": 0.0002869085721116712,
      "loss": 4.1174,
      "step": 66040
    },
    {
      "epoch": 0.13760416666666667,
      "grad_norm": 0.814228355884552,
      "learning_rate": 0.00028690454383652084,
      "loss": 4.107,
      "step": 66050
    },
    {
      "epoch": 0.137625,
      "grad_norm": 0.8011860847473145,
      "learning_rate": 0.00028690051496999707,
      "loss": 3.9345,
      "step": 66060
    },
    {
      "epoch": 0.13764583333333333,
      "grad_norm": 0.9212514758110046,
      "learning_rate": 0.00028689648551211724,
      "loss": 4.0559,
      "step": 66070
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 1.1609323024749756,
      "learning_rate": 0.0002868924554628988,
      "loss": 4.0214,
      "step": 66080
    },
    {
      "epoch": 0.1376875,
      "grad_norm": 0.9526280760765076,
      "learning_rate": 0.00028688842482235916,
      "loss": 4.0966,
      "step": 66090
    },
    {
      "epoch": 0.13770833333333332,
      "grad_norm": 1.0002506971359253,
      "learning_rate": 0.0002868843935905157,
      "loss": 4.1895,
      "step": 66100
    },
    {
      "epoch": 0.13772916666666668,
      "grad_norm": 0.8703960180282593,
      "learning_rate": 0.0002868803617673858,
      "loss": 4.3203,
      "step": 66110
    },
    {
      "epoch": 0.13775,
      "grad_norm": 0.8162022829055786,
      "learning_rate": 0.0002868763293529869,
      "loss": 4.068,
      "step": 66120
    },
    {
      "epoch": 0.13777083333333334,
      "grad_norm": 0.9111643433570862,
      "learning_rate": 0.00028687229634733656,
      "loss": 4.1986,
      "step": 66130
    },
    {
      "epoch": 0.13779166666666667,
      "grad_norm": 0.8290229439735413,
      "learning_rate": 0.000286868262750452,
      "loss": 4.1753,
      "step": 66140
    },
    {
      "epoch": 0.1378125,
      "grad_norm": 0.871910035610199,
      "learning_rate": 0.00028686422856235075,
      "loss": 4.2143,
      "step": 66150
    },
    {
      "epoch": 0.13783333333333334,
      "grad_norm": 0.8378350734710693,
      "learning_rate": 0.00028686019378305015,
      "loss": 4.2993,
      "step": 66160
    },
    {
      "epoch": 0.13785416666666667,
      "grad_norm": 0.902876615524292,
      "learning_rate": 0.0002868561584125677,
      "loss": 4.1648,
      "step": 66170
    },
    {
      "epoch": 0.137875,
      "grad_norm": 0.9044309854507446,
      "learning_rate": 0.00028685212245092086,
      "loss": 4.1181,
      "step": 66180
    },
    {
      "epoch": 0.13789583333333333,
      "grad_norm": 0.8283063769340515,
      "learning_rate": 0.00028684808589812697,
      "loss": 4.1687,
      "step": 66190
    },
    {
      "epoch": 0.13791666666666666,
      "grad_norm": 0.8404852747917175,
      "learning_rate": 0.0002868440487542036,
      "loss": 4.269,
      "step": 66200
    },
    {
      "epoch": 0.1379375,
      "grad_norm": 0.8681057691574097,
      "learning_rate": 0.000286840011019168,
      "loss": 4.2615,
      "step": 66210
    },
    {
      "epoch": 0.13795833333333332,
      "grad_norm": 0.882618248462677,
      "learning_rate": 0.00028683597269303776,
      "loss": 4.2085,
      "step": 66220
    },
    {
      "epoch": 0.13797916666666668,
      "grad_norm": 0.9320534467697144,
      "learning_rate": 0.0002868319337758303,
      "loss": 4.0557,
      "step": 66230
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.8911941051483154,
      "learning_rate": 0.0002868278942675631,
      "loss": 4.0246,
      "step": 66240
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 0.9234901666641235,
      "learning_rate": 0.00028682385416825345,
      "loss": 4.0616,
      "step": 66250
    },
    {
      "epoch": 0.13804166666666667,
      "grad_norm": 0.9584247469902039,
      "learning_rate": 0.00028681981347791893,
      "loss": 4.2836,
      "step": 66260
    },
    {
      "epoch": 0.1380625,
      "grad_norm": 0.8744831681251526,
      "learning_rate": 0.000286815772196577,
      "loss": 4.0655,
      "step": 66270
    },
    {
      "epoch": 0.13808333333333334,
      "grad_norm": 0.8283458352088928,
      "learning_rate": 0.00028681173032424513,
      "loss": 4.2463,
      "step": 66280
    },
    {
      "epoch": 0.13810416666666667,
      "grad_norm": 0.8496668338775635,
      "learning_rate": 0.00028680768786094066,
      "loss": 4.0979,
      "step": 66290
    },
    {
      "epoch": 0.138125,
      "grad_norm": 0.9195622205734253,
      "learning_rate": 0.00028680364480668116,
      "loss": 4.3055,
      "step": 66300
    },
    {
      "epoch": 0.13814583333333333,
      "grad_norm": 0.894936740398407,
      "learning_rate": 0.0002867996011614841,
      "loss": 4.1818,
      "step": 66310
    },
    {
      "epoch": 0.13816666666666666,
      "grad_norm": 0.9056974649429321,
      "learning_rate": 0.00028679555692536683,
      "loss": 4.15,
      "step": 66320
    },
    {
      "epoch": 0.1381875,
      "grad_norm": 0.8953312039375305,
      "learning_rate": 0.00028679151209834696,
      "loss": 4.0297,
      "step": 66330
    },
    {
      "epoch": 0.13820833333333332,
      "grad_norm": 0.9256499409675598,
      "learning_rate": 0.0002867874666804419,
      "loss": 4.1279,
      "step": 66340
    },
    {
      "epoch": 0.13822916666666665,
      "grad_norm": 0.984046459197998,
      "learning_rate": 0.00028678342067166914,
      "loss": 4.2765,
      "step": 66350
    },
    {
      "epoch": 0.13825,
      "grad_norm": 0.9189475178718567,
      "learning_rate": 0.0002867793740720461,
      "loss": 4.3431,
      "step": 66360
    },
    {
      "epoch": 0.13827083333333334,
      "grad_norm": 0.8890012502670288,
      "learning_rate": 0.00028677532688159034,
      "loss": 4.0404,
      "step": 66370
    },
    {
      "epoch": 0.13829166666666667,
      "grad_norm": 0.8440282344818115,
      "learning_rate": 0.0002867712791003193,
      "loss": 4.1668,
      "step": 66380
    },
    {
      "epoch": 0.1383125,
      "grad_norm": 0.9349092841148376,
      "learning_rate": 0.00028676723072825047,
      "loss": 4.1633,
      "step": 66390
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 0.8517947793006897,
      "learning_rate": 0.0002867631817654014,
      "loss": 4.1045,
      "step": 66400
    },
    {
      "epoch": 0.13835416666666667,
      "grad_norm": 0.9354320764541626,
      "learning_rate": 0.0002867591322117894,
      "loss": 4.0973,
      "step": 66410
    },
    {
      "epoch": 0.138375,
      "grad_norm": 0.9538519978523254,
      "learning_rate": 0.0002867550820674322,
      "loss": 4.192,
      "step": 66420
    },
    {
      "epoch": 0.13839583333333333,
      "grad_norm": 0.8770988583564758,
      "learning_rate": 0.0002867510313323471,
      "loss": 4.1971,
      "step": 66430
    },
    {
      "epoch": 0.13841666666666666,
      "grad_norm": 0.8604095578193665,
      "learning_rate": 0.0002867469800065517,
      "loss": 3.9973,
      "step": 66440
    },
    {
      "epoch": 0.1384375,
      "grad_norm": 0.8340703248977661,
      "learning_rate": 0.00028674292809006345,
      "loss": 4.0869,
      "step": 66450
    },
    {
      "epoch": 0.13845833333333332,
      "grad_norm": 0.875408947467804,
      "learning_rate": 0.0002867388755828999,
      "loss": 4.1878,
      "step": 66460
    },
    {
      "epoch": 0.13847916666666665,
      "grad_norm": 0.8889888525009155,
      "learning_rate": 0.00028673482248507855,
      "loss": 4.1058,
      "step": 66470
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.8957479000091553,
      "learning_rate": 0.0002867307687966169,
      "loss": 4.2297,
      "step": 66480
    },
    {
      "epoch": 0.13852083333333334,
      "grad_norm": 0.8541122674942017,
      "learning_rate": 0.00028672671451753233,
      "loss": 4.2803,
      "step": 66490
    },
    {
      "epoch": 0.13854166666666667,
      "grad_norm": 0.8236585855484009,
      "learning_rate": 0.0002867226596478426,
      "loss": 4.1809,
      "step": 66500
    },
    {
      "epoch": 0.1385625,
      "grad_norm": 1.540012001991272,
      "learning_rate": 0.0002867186041875651,
      "loss": 3.9997,
      "step": 66510
    },
    {
      "epoch": 0.13858333333333334,
      "grad_norm": 0.9566155672073364,
      "learning_rate": 0.00028671454813671726,
      "loss": 4.1335,
      "step": 66520
    },
    {
      "epoch": 0.13860416666666667,
      "grad_norm": 0.8844681978225708,
      "learning_rate": 0.00028671049149531675,
      "loss": 4.1373,
      "step": 66530
    },
    {
      "epoch": 0.138625,
      "grad_norm": 8.90776252746582,
      "learning_rate": 0.000286706434263381,
      "loss": 4.1511,
      "step": 66540
    },
    {
      "epoch": 0.13864583333333333,
      "grad_norm": 0.8549118041992188,
      "learning_rate": 0.0002867023764409276,
      "loss": 4.2563,
      "step": 66550
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.900938093662262,
      "learning_rate": 0.00028669831802797407,
      "loss": 4.1615,
      "step": 66560
    },
    {
      "epoch": 0.1386875,
      "grad_norm": 0.8086957931518555,
      "learning_rate": 0.00028669425902453787,
      "loss": 4.261,
      "step": 66570
    },
    {
      "epoch": 0.13870833333333332,
      "grad_norm": 0.8767029047012329,
      "learning_rate": 0.0002866901994306366,
      "loss": 4.2024,
      "step": 66580
    },
    {
      "epoch": 0.13872916666666665,
      "grad_norm": 0.8586984872817993,
      "learning_rate": 0.0002866861392462877,
      "loss": 4.0677,
      "step": 66590
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.8291519284248352,
      "learning_rate": 0.0002866820784715088,
      "loss": 4.1754,
      "step": 66600
    },
    {
      "epoch": 0.13877083333333334,
      "grad_norm": 0.8740523457527161,
      "learning_rate": 0.0002866780171063175,
      "loss": 4.1575,
      "step": 66610
    },
    {
      "epoch": 0.13879166666666667,
      "grad_norm": 0.8387103080749512,
      "learning_rate": 0.0002866739551507312,
      "loss": 3.9599,
      "step": 66620
    },
    {
      "epoch": 0.1388125,
      "grad_norm": 0.8578761219978333,
      "learning_rate": 0.0002866698926047676,
      "loss": 4.2042,
      "step": 66630
    },
    {
      "epoch": 0.13883333333333334,
      "grad_norm": 0.8073581457138062,
      "learning_rate": 0.0002866658294684441,
      "loss": 4.0604,
      "step": 66640
    },
    {
      "epoch": 0.13885416666666667,
      "grad_norm": 0.8744121789932251,
      "learning_rate": 0.0002866617657417783,
      "loss": 4.1429,
      "step": 66650
    },
    {
      "epoch": 0.138875,
      "grad_norm": 0.8584012985229492,
      "learning_rate": 0.00028665770142478783,
      "loss": 4.0239,
      "step": 66660
    },
    {
      "epoch": 0.13889583333333333,
      "grad_norm": 0.8866565823554993,
      "learning_rate": 0.00028665363651749013,
      "loss": 4.079,
      "step": 66670
    },
    {
      "epoch": 0.13891666666666666,
      "grad_norm": 0.8282800316810608,
      "learning_rate": 0.0002866495710199028,
      "loss": 4.0855,
      "step": 66680
    },
    {
      "epoch": 0.1389375,
      "grad_norm": 0.9503170251846313,
      "learning_rate": 0.0002866455049320434,
      "loss": 3.9452,
      "step": 66690
    },
    {
      "epoch": 0.13895833333333332,
      "grad_norm": 0.8398712873458862,
      "learning_rate": 0.00028664143825392953,
      "loss": 4.118,
      "step": 66700
    },
    {
      "epoch": 0.13897916666666665,
      "grad_norm": 0.8367186188697815,
      "learning_rate": 0.00028663737098557875,
      "loss": 4.2349,
      "step": 66710
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.8803470134735107,
      "learning_rate": 0.00028663330312700863,
      "loss": 4.064,
      "step": 66720
    },
    {
      "epoch": 0.13902083333333334,
      "grad_norm": 0.8633795380592346,
      "learning_rate": 0.0002866292346782367,
      "loss": 4.3291,
      "step": 66730
    },
    {
      "epoch": 0.13904166666666667,
      "grad_norm": 0.8677300214767456,
      "learning_rate": 0.00028662516563928055,
      "loss": 4.1753,
      "step": 66740
    },
    {
      "epoch": 0.1390625,
      "grad_norm": 0.9042515158653259,
      "learning_rate": 0.00028662109601015776,
      "loss": 4.0692,
      "step": 66750
    },
    {
      "epoch": 0.13908333333333334,
      "grad_norm": 0.8118900656700134,
      "learning_rate": 0.00028661702579088594,
      "loss": 4.217,
      "step": 66760
    },
    {
      "epoch": 0.13910416666666667,
      "grad_norm": 0.8793665766716003,
      "learning_rate": 0.0002866129549814826,
      "loss": 4.2468,
      "step": 66770
    },
    {
      "epoch": 0.139125,
      "grad_norm": 0.8677517771720886,
      "learning_rate": 0.0002866088835819654,
      "loss": 4.1834,
      "step": 66780
    },
    {
      "epoch": 0.13914583333333333,
      "grad_norm": 0.9087681770324707,
      "learning_rate": 0.0002866048115923519,
      "loss": 4.1198,
      "step": 66790
    },
    {
      "epoch": 0.13916666666666666,
      "grad_norm": 0.8438555002212524,
      "learning_rate": 0.0002866007390126597,
      "loss": 4.007,
      "step": 66800
    },
    {
      "epoch": 0.1391875,
      "grad_norm": 0.8411814570426941,
      "learning_rate": 0.00028659666584290633,
      "loss": 4.0899,
      "step": 66810
    },
    {
      "epoch": 0.13920833333333332,
      "grad_norm": 0.8223169445991516,
      "learning_rate": 0.0002865925920831095,
      "loss": 4.2123,
      "step": 66820
    },
    {
      "epoch": 0.13922916666666665,
      "grad_norm": 0.8358820080757141,
      "learning_rate": 0.0002865885177332867,
      "loss": 4.108,
      "step": 66830
    },
    {
      "epoch": 0.13925,
      "grad_norm": 1.0706769227981567,
      "learning_rate": 0.00028658444279345554,
      "loss": 4.0591,
      "step": 66840
    },
    {
      "epoch": 0.13927083333333334,
      "grad_norm": 0.8516478538513184,
      "learning_rate": 0.0002865803672636337,
      "loss": 4.1087,
      "step": 66850
    },
    {
      "epoch": 0.13929166666666667,
      "grad_norm": 1.0318167209625244,
      "learning_rate": 0.00028657629114383867,
      "loss": 4.1233,
      "step": 66860
    },
    {
      "epoch": 0.1393125,
      "grad_norm": 0.9347569942474365,
      "learning_rate": 0.0002865722144340882,
      "loss": 4.2431,
      "step": 66870
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 1.1074905395507812,
      "learning_rate": 0.00028656813713439977,
      "loss": 3.8874,
      "step": 66880
    },
    {
      "epoch": 0.13935416666666667,
      "grad_norm": 0.892590343952179,
      "learning_rate": 0.0002865640592447911,
      "loss": 4.2631,
      "step": 66890
    },
    {
      "epoch": 0.139375,
      "grad_norm": 0.7631898522377014,
      "learning_rate": 0.00028655998076527973,
      "loss": 4.2867,
      "step": 66900
    },
    {
      "epoch": 0.13939583333333333,
      "grad_norm": 0.9236472845077515,
      "learning_rate": 0.00028655590169588324,
      "loss": 4.1647,
      "step": 66910
    },
    {
      "epoch": 0.13941666666666666,
      "grad_norm": 0.8320595026016235,
      "learning_rate": 0.00028655182203661935,
      "loss": 4.2367,
      "step": 66920
    },
    {
      "epoch": 0.1394375,
      "grad_norm": 0.8514587879180908,
      "learning_rate": 0.00028654774178750567,
      "loss": 4.0,
      "step": 66930
    },
    {
      "epoch": 0.13945833333333332,
      "grad_norm": 0.8225415945053101,
      "learning_rate": 0.0002865436609485597,
      "loss": 4.2848,
      "step": 66940
    },
    {
      "epoch": 0.13947916666666665,
      "grad_norm": 0.8818696737289429,
      "learning_rate": 0.00028653957951979927,
      "loss": 4.1798,
      "step": 66950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.8868820667266846,
      "learning_rate": 0.00028653549750124184,
      "loss": 4.1574,
      "step": 66960
    },
    {
      "epoch": 0.13952083333333334,
      "grad_norm": 0.893454372882843,
      "learning_rate": 0.0002865314148929051,
      "loss": 4.0893,
      "step": 66970
    },
    {
      "epoch": 0.13954166666666667,
      "grad_norm": 0.8964786529541016,
      "learning_rate": 0.00028652733169480673,
      "loss": 4.1714,
      "step": 66980
    },
    {
      "epoch": 0.1395625,
      "grad_norm": 0.8404154777526855,
      "learning_rate": 0.0002865232479069643,
      "loss": 4.252,
      "step": 66990
    },
    {
      "epoch": 0.13958333333333334,
      "grad_norm": 0.7741347551345825,
      "learning_rate": 0.00028651916352939554,
      "loss": 4.3223,
      "step": 67000
    },
    {
      "epoch": 0.13958333333333334,
      "eval_loss": 3.8735897541046143,
      "eval_runtime": 7.2361,
      "eval_samples_per_second": 1.382,
      "eval_steps_per_second": 0.415,
      "step": 67000
    },
    {
      "epoch": 0.13960416666666667,
      "grad_norm": 0.9015454053878784,
      "learning_rate": 0.00028651507856211796,
      "loss": 4.048,
      "step": 67010
    },
    {
      "epoch": 0.139625,
      "grad_norm": 0.9199975728988647,
      "learning_rate": 0.0002865109930051493,
      "loss": 4.1003,
      "step": 67020
    },
    {
      "epoch": 0.13964583333333333,
      "grad_norm": 0.8921335339546204,
      "learning_rate": 0.0002865069068585072,
      "loss": 4.2714,
      "step": 67030
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 1.0306639671325684,
      "learning_rate": 0.0002865028201222093,
      "loss": 4.1096,
      "step": 67040
    },
    {
      "epoch": 0.1396875,
      "grad_norm": 0.862205445766449,
      "learning_rate": 0.0002864987327962732,
      "loss": 4.0382,
      "step": 67050
    },
    {
      "epoch": 0.13970833333333332,
      "grad_norm": 0.9088209271430969,
      "learning_rate": 0.00028649464488071663,
      "loss": 4.0047,
      "step": 67060
    },
    {
      "epoch": 0.13972916666666665,
      "grad_norm": 0.9549558162689209,
      "learning_rate": 0.0002864905563755572,
      "loss": 3.9839,
      "step": 67070
    },
    {
      "epoch": 0.13975,
      "grad_norm": 0.8253424763679504,
      "learning_rate": 0.00028648646728081264,
      "loss": 4.3371,
      "step": 67080
    },
    {
      "epoch": 0.13977083333333334,
      "grad_norm": 0.9350345730781555,
      "learning_rate": 0.0002864823775965005,
      "loss": 4.0931,
      "step": 67090
    },
    {
      "epoch": 0.13979166666666668,
      "grad_norm": 1.0081559419631958,
      "learning_rate": 0.0002864782873226386,
      "loss": 4.1041,
      "step": 67100
    },
    {
      "epoch": 0.1398125,
      "grad_norm": 0.8928990960121155,
      "learning_rate": 0.0002864741964592445,
      "loss": 4.0743,
      "step": 67110
    },
    {
      "epoch": 0.13983333333333334,
      "grad_norm": 0.9226531982421875,
      "learning_rate": 0.00028647010500633586,
      "loss": 4.071,
      "step": 67120
    },
    {
      "epoch": 0.13985416666666667,
      "grad_norm": 0.8141986727714539,
      "learning_rate": 0.0002864660129639304,
      "loss": 4.1469,
      "step": 67130
    },
    {
      "epoch": 0.139875,
      "grad_norm": 1.0089442729949951,
      "learning_rate": 0.00028646192033204577,
      "loss": 4.3355,
      "step": 67140
    },
    {
      "epoch": 0.13989583333333333,
      "grad_norm": 0.8303998112678528,
      "learning_rate": 0.0002864578271106997,
      "loss": 4.2318,
      "step": 67150
    },
    {
      "epoch": 0.13991666666666666,
      "grad_norm": 0.8603084683418274,
      "learning_rate": 0.00028645373329990977,
      "loss": 4.1634,
      "step": 67160
    },
    {
      "epoch": 0.1399375,
      "grad_norm": 0.8563497066497803,
      "learning_rate": 0.00028644963889969376,
      "loss": 4.3944,
      "step": 67170
    },
    {
      "epoch": 0.13995833333333332,
      "grad_norm": 0.8684288859367371,
      "learning_rate": 0.0002864455439100693,
      "loss": 4.0615,
      "step": 67180
    },
    {
      "epoch": 0.13997916666666665,
      "grad_norm": 0.9472668170928955,
      "learning_rate": 0.0002864414483310541,
      "loss": 4.099,
      "step": 67190
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8414309620857239,
      "learning_rate": 0.0002864373521626659,
      "loss": 4.1046,
      "step": 67200
    },
    {
      "epoch": 0.14002083333333334,
      "grad_norm": 0.8521313071250916,
      "learning_rate": 0.0002864332554049223,
      "loss": 3.8721,
      "step": 67210
    },
    {
      "epoch": 0.14004166666666668,
      "grad_norm": 0.8098981976509094,
      "learning_rate": 0.000286429158057841,
      "loss": 4.1623,
      "step": 67220
    },
    {
      "epoch": 0.1400625,
      "grad_norm": 0.866519033908844,
      "learning_rate": 0.0002864250601214398,
      "loss": 4.2611,
      "step": 67230
    },
    {
      "epoch": 0.14008333333333334,
      "grad_norm": 0.8392955660820007,
      "learning_rate": 0.0002864209615957363,
      "loss": 4.181,
      "step": 67240
    },
    {
      "epoch": 0.14010416666666667,
      "grad_norm": 0.7884901165962219,
      "learning_rate": 0.00028641686248074834,
      "loss": 4.2351,
      "step": 67250
    },
    {
      "epoch": 0.140125,
      "grad_norm": 0.8496122360229492,
      "learning_rate": 0.00028641276277649344,
      "loss": 4.2443,
      "step": 67260
    },
    {
      "epoch": 0.14014583333333333,
      "grad_norm": 0.8294659852981567,
      "learning_rate": 0.0002864086624829894,
      "loss": 3.861,
      "step": 67270
    },
    {
      "epoch": 0.14016666666666666,
      "grad_norm": 0.7923948168754578,
      "learning_rate": 0.000286404561600254,
      "loss": 4.4517,
      "step": 67280
    },
    {
      "epoch": 0.1401875,
      "grad_norm": 0.8253680467605591,
      "learning_rate": 0.0002864004601283048,
      "loss": 4.2555,
      "step": 67290
    },
    {
      "epoch": 0.14020833333333332,
      "grad_norm": 0.8437016010284424,
      "learning_rate": 0.00028639635806715965,
      "loss": 4.0938,
      "step": 67300
    },
    {
      "epoch": 0.14022916666666665,
      "grad_norm": 0.8743250966072083,
      "learning_rate": 0.00028639225541683623,
      "loss": 4.0795,
      "step": 67310
    },
    {
      "epoch": 0.14025,
      "grad_norm": 0.8682753443717957,
      "learning_rate": 0.00028638815217735226,
      "loss": 4.2389,
      "step": 67320
    },
    {
      "epoch": 0.14027083333333334,
      "grad_norm": 0.8519663214683533,
      "learning_rate": 0.0002863840483487254,
      "loss": 4.2077,
      "step": 67330
    },
    {
      "epoch": 0.14029166666666668,
      "grad_norm": 0.979225754737854,
      "learning_rate": 0.0002863799439309735,
      "loss": 4.289,
      "step": 67340
    },
    {
      "epoch": 0.1403125,
      "grad_norm": 0.8730800151824951,
      "learning_rate": 0.0002863758389241142,
      "loss": 4.1226,
      "step": 67350
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 0.8419716358184814,
      "learning_rate": 0.0002863717333281653,
      "loss": 4.2362,
      "step": 67360
    },
    {
      "epoch": 0.14035416666666667,
      "grad_norm": 0.8773702383041382,
      "learning_rate": 0.00028636762714314443,
      "loss": 4.0996,
      "step": 67370
    },
    {
      "epoch": 0.140375,
      "grad_norm": 0.7533233761787415,
      "learning_rate": 0.0002863635203690694,
      "loss": 4.3023,
      "step": 67380
    },
    {
      "epoch": 0.14039583333333333,
      "grad_norm": 0.8619073629379272,
      "learning_rate": 0.00028635941300595797,
      "loss": 4.0606,
      "step": 67390
    },
    {
      "epoch": 0.14041666666666666,
      "grad_norm": 0.8205595016479492,
      "learning_rate": 0.0002863553050538278,
      "loss": 4.0459,
      "step": 67400
    },
    {
      "epoch": 0.1404375,
      "grad_norm": 0.913869321346283,
      "learning_rate": 0.00028635119651269675,
      "loss": 4.0104,
      "step": 67410
    },
    {
      "epoch": 0.14045833333333332,
      "grad_norm": 0.8363463878631592,
      "learning_rate": 0.00028634708738258245,
      "loss": 4.019,
      "step": 67420
    },
    {
      "epoch": 0.14047916666666665,
      "grad_norm": 0.8047263026237488,
      "learning_rate": 0.0002863429776635027,
      "loss": 3.9779,
      "step": 67430
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.8455657362937927,
      "learning_rate": 0.00028633886735547533,
      "loss": 4.2247,
      "step": 67440
    },
    {
      "epoch": 0.14052083333333334,
      "grad_norm": 0.9132858514785767,
      "learning_rate": 0.0002863347564585179,
      "loss": 4.0769,
      "step": 67450
    },
    {
      "epoch": 0.14054166666666668,
      "grad_norm": 0.9029728770256042,
      "learning_rate": 0.0002863306449726484,
      "loss": 3.9692,
      "step": 67460
    },
    {
      "epoch": 0.1405625,
      "grad_norm": 0.8039697408676147,
      "learning_rate": 0.0002863265328978844,
      "loss": 4.3011,
      "step": 67470
    },
    {
      "epoch": 0.14058333333333334,
      "grad_norm": 0.8344680666923523,
      "learning_rate": 0.00028632242023424377,
      "loss": 4.2049,
      "step": 67480
    },
    {
      "epoch": 0.14060416666666667,
      "grad_norm": 0.8932673335075378,
      "learning_rate": 0.0002863183069817442,
      "loss": 4.1607,
      "step": 67490
    },
    {
      "epoch": 0.140625,
      "grad_norm": 0.9495329856872559,
      "learning_rate": 0.0002863141931404036,
      "loss": 4.259,
      "step": 67500
    },
    {
      "epoch": 0.14064583333333333,
      "grad_norm": 0.88736891746521,
      "learning_rate": 0.00028631007871023957,
      "loss": 4.2727,
      "step": 67510
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 0.9296649694442749,
      "learning_rate": 0.00028630596369126995,
      "loss": 4.2124,
      "step": 67520
    },
    {
      "epoch": 0.1406875,
      "grad_norm": 0.846509575843811,
      "learning_rate": 0.0002863018480835126,
      "loss": 4.1183,
      "step": 67530
    },
    {
      "epoch": 0.14070833333333332,
      "grad_norm": 0.9160255789756775,
      "learning_rate": 0.0002862977318869851,
      "loss": 4.0763,
      "step": 67540
    },
    {
      "epoch": 0.14072916666666666,
      "grad_norm": 0.8575572371482849,
      "learning_rate": 0.0002862936151017055,
      "loss": 4.061,
      "step": 67550
    },
    {
      "epoch": 0.14075,
      "grad_norm": 0.875906765460968,
      "learning_rate": 0.00028628949772769127,
      "loss": 4.0496,
      "step": 67560
    },
    {
      "epoch": 0.14077083333333335,
      "grad_norm": 0.8796474933624268,
      "learning_rate": 0.0002862853797649605,
      "loss": 4.0887,
      "step": 67570
    },
    {
      "epoch": 0.14079166666666668,
      "grad_norm": 0.8749781250953674,
      "learning_rate": 0.0002862812612135307,
      "loss": 4.2944,
      "step": 67580
    },
    {
      "epoch": 0.1408125,
      "grad_norm": 0.8842295408248901,
      "learning_rate": 0.0002862771420734199,
      "loss": 4.1758,
      "step": 67590
    },
    {
      "epoch": 0.14083333333333334,
      "grad_norm": 0.8589155673980713,
      "learning_rate": 0.0002862730223446457,
      "loss": 4.2152,
      "step": 67600
    },
    {
      "epoch": 0.14085416666666667,
      "grad_norm": 1.1397786140441895,
      "learning_rate": 0.00028626890202722603,
      "loss": 4.2593,
      "step": 67610
    },
    {
      "epoch": 0.140875,
      "grad_norm": 0.8272771239280701,
      "learning_rate": 0.00028626478112117864,
      "loss": 4.1507,
      "step": 67620
    },
    {
      "epoch": 0.14089583333333333,
      "grad_norm": 0.9615404009819031,
      "learning_rate": 0.00028626065962652136,
      "loss": 3.9242,
      "step": 67630
    },
    {
      "epoch": 0.14091666666666666,
      "grad_norm": 0.9743156433105469,
      "learning_rate": 0.00028625653754327197,
      "loss": 4.294,
      "step": 67640
    },
    {
      "epoch": 0.1409375,
      "grad_norm": 1.121008276939392,
      "learning_rate": 0.00028625241487144825,
      "loss": 4.0542,
      "step": 67650
    },
    {
      "epoch": 0.14095833333333332,
      "grad_norm": 0.8113455772399902,
      "learning_rate": 0.000286248291611068,
      "loss": 4.1626,
      "step": 67660
    },
    {
      "epoch": 0.14097916666666666,
      "grad_norm": 0.8237576484680176,
      "learning_rate": 0.00028624416776214907,
      "loss": 4.1915,
      "step": 67670
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.7677912712097168,
      "learning_rate": 0.0002862400433247093,
      "loss": 4.241,
      "step": 67680
    },
    {
      "epoch": 0.14102083333333335,
      "grad_norm": 0.8857947587966919,
      "learning_rate": 0.00028623591829876643,
      "loss": 3.982,
      "step": 67690
    },
    {
      "epoch": 0.14104166666666668,
      "grad_norm": 0.9726284742355347,
      "learning_rate": 0.0002862317926843384,
      "loss": 4.2481,
      "step": 67700
    },
    {
      "epoch": 0.1410625,
      "grad_norm": 0.948957622051239,
      "learning_rate": 0.00028622766648144285,
      "loss": 4.131,
      "step": 67710
    },
    {
      "epoch": 0.14108333333333334,
      "grad_norm": 0.8242595195770264,
      "learning_rate": 0.00028622353969009773,
      "loss": 4.0001,
      "step": 67720
    },
    {
      "epoch": 0.14110416666666667,
      "grad_norm": 0.8772022724151611,
      "learning_rate": 0.00028621941231032086,
      "loss": 4.0899,
      "step": 67730
    },
    {
      "epoch": 0.141125,
      "grad_norm": 0.9038978815078735,
      "learning_rate": 0.00028621528434213,
      "loss": 4.1449,
      "step": 67740
    },
    {
      "epoch": 0.14114583333333333,
      "grad_norm": 0.9121349453926086,
      "learning_rate": 0.00028621115578554313,
      "loss": 4.4234,
      "step": 67750
    },
    {
      "epoch": 0.14116666666666666,
      "grad_norm": 0.8223944902420044,
      "learning_rate": 0.0002862070266405779,
      "loss": 4.139,
      "step": 67760
    },
    {
      "epoch": 0.1411875,
      "grad_norm": 0.8145374059677124,
      "learning_rate": 0.0002862028969072523,
      "loss": 4.1533,
      "step": 67770
    },
    {
      "epoch": 0.14120833333333332,
      "grad_norm": 0.8161401748657227,
      "learning_rate": 0.000286198766585584,
      "loss": 4.1576,
      "step": 67780
    },
    {
      "epoch": 0.14122916666666666,
      "grad_norm": 0.8566946387290955,
      "learning_rate": 0.00028619463567559103,
      "loss": 4.3093,
      "step": 67790
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.7608981132507324,
      "learning_rate": 0.0002861905041772911,
      "loss": 4.0728,
      "step": 67800
    },
    {
      "epoch": 0.14127083333333335,
      "grad_norm": 0.7943241596221924,
      "learning_rate": 0.00028618637209070207,
      "loss": 4.0615,
      "step": 67810
    },
    {
      "epoch": 0.14129166666666668,
      "grad_norm": 0.8400401473045349,
      "learning_rate": 0.00028618223941584187,
      "loss": 3.9343,
      "step": 67820
    },
    {
      "epoch": 0.1413125,
      "grad_norm": 0.9170745015144348,
      "learning_rate": 0.0002861781061527283,
      "loss": 3.952,
      "step": 67830
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 1.032989740371704,
      "learning_rate": 0.0002861739723013792,
      "loss": 4.1475,
      "step": 67840
    },
    {
      "epoch": 0.14135416666666667,
      "grad_norm": 0.8352169990539551,
      "learning_rate": 0.00028616983786181245,
      "loss": 4.1929,
      "step": 67850
    },
    {
      "epoch": 0.141375,
      "grad_norm": 0.8558965921401978,
      "learning_rate": 0.0002861657028340459,
      "loss": 4.3438,
      "step": 67860
    },
    {
      "epoch": 0.14139583333333333,
      "grad_norm": 0.8607795238494873,
      "learning_rate": 0.0002861615672180974,
      "loss": 4.1425,
      "step": 67870
    },
    {
      "epoch": 0.14141666666666666,
      "grad_norm": 0.8359553813934326,
      "learning_rate": 0.0002861574310139848,
      "loss": 4.1461,
      "step": 67880
    },
    {
      "epoch": 0.1414375,
      "grad_norm": 0.8453227281570435,
      "learning_rate": 0.000286153294221726,
      "loss": 4.1958,
      "step": 67890
    },
    {
      "epoch": 0.14145833333333332,
      "grad_norm": 0.8643865585327148,
      "learning_rate": 0.00028614915684133894,
      "loss": 4.1208,
      "step": 67900
    },
    {
      "epoch": 0.14147916666666666,
      "grad_norm": 0.8749780058860779,
      "learning_rate": 0.00028614501887284135,
      "loss": 4.0819,
      "step": 67910
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.874583899974823,
      "learning_rate": 0.00028614088031625115,
      "loss": 4.0334,
      "step": 67920
    },
    {
      "epoch": 0.14152083333333335,
      "grad_norm": 0.8844873309135437,
      "learning_rate": 0.0002861367411715862,
      "loss": 4.0782,
      "step": 67930
    },
    {
      "epoch": 0.14154166666666668,
      "grad_norm": 0.8333021402359009,
      "learning_rate": 0.0002861326014388645,
      "loss": 4.1517,
      "step": 67940
    },
    {
      "epoch": 0.1415625,
      "grad_norm": 0.868322491645813,
      "learning_rate": 0.00028612846111810385,
      "loss": 4.0015,
      "step": 67950
    },
    {
      "epoch": 0.14158333333333334,
      "grad_norm": 0.9006953835487366,
      "learning_rate": 0.0002861243202093221,
      "loss": 4.2163,
      "step": 67960
    },
    {
      "epoch": 0.14160416666666667,
      "grad_norm": 0.8328194618225098,
      "learning_rate": 0.0002861201787125372,
      "loss": 4.1361,
      "step": 67970
    },
    {
      "epoch": 0.141625,
      "grad_norm": 0.8734272122383118,
      "learning_rate": 0.00028611603662776695,
      "loss": 3.917,
      "step": 67980
    },
    {
      "epoch": 0.14164583333333333,
      "grad_norm": 0.8372510671615601,
      "learning_rate": 0.00028611189395502933,
      "loss": 4.1105,
      "step": 67990
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 0.8137980103492737,
      "learning_rate": 0.0002861077506943422,
      "loss": 4.1562,
      "step": 68000
    },
    {
      "epoch": 0.14166666666666666,
      "eval_loss": 3.8756346702575684,
      "eval_runtime": 7.3071,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 68000
    },
    {
      "epoch": 0.1416875,
      "grad_norm": 0.8896946310997009,
      "learning_rate": 0.0002861036068457235,
      "loss": 3.9702,
      "step": 68010
    },
    {
      "epoch": 0.14170833333333333,
      "grad_norm": 0.8903800249099731,
      "learning_rate": 0.000286099462409191,
      "loss": 4.1204,
      "step": 68020
    },
    {
      "epoch": 0.14172916666666666,
      "grad_norm": 0.7586166262626648,
      "learning_rate": 0.00028609531738476283,
      "loss": 4.3767,
      "step": 68030
    },
    {
      "epoch": 0.14175,
      "grad_norm": 0.8578433990478516,
      "learning_rate": 0.00028609117177245665,
      "loss": 4.075,
      "step": 68040
    },
    {
      "epoch": 0.14177083333333335,
      "grad_norm": 0.8026543855667114,
      "learning_rate": 0.0002860870255722905,
      "loss": 4.0579,
      "step": 68050
    },
    {
      "epoch": 0.14179166666666668,
      "grad_norm": 0.8073524832725525,
      "learning_rate": 0.00028608287878428227,
      "loss": 4.2091,
      "step": 68060
    },
    {
      "epoch": 0.1418125,
      "grad_norm": 0.8211140036582947,
      "learning_rate": 0.0002860787314084499,
      "loss": 4.1372,
      "step": 68070
    },
    {
      "epoch": 0.14183333333333334,
      "grad_norm": 0.9003680348396301,
      "learning_rate": 0.0002860745834448112,
      "loss": 4.2316,
      "step": 68080
    },
    {
      "epoch": 0.14185416666666667,
      "grad_norm": 0.911999523639679,
      "learning_rate": 0.00028607043489338425,
      "loss": 4.1522,
      "step": 68090
    },
    {
      "epoch": 0.141875,
      "grad_norm": 0.8064050078392029,
      "learning_rate": 0.00028606628575418683,
      "loss": 4.0084,
      "step": 68100
    },
    {
      "epoch": 0.14189583333333333,
      "grad_norm": 0.8178574442863464,
      "learning_rate": 0.0002860621360272369,
      "loss": 4.1336,
      "step": 68110
    },
    {
      "epoch": 0.14191666666666666,
      "grad_norm": 0.8700283169746399,
      "learning_rate": 0.0002860579857125525,
      "loss": 4.1289,
      "step": 68120
    },
    {
      "epoch": 0.1419375,
      "grad_norm": 0.9751749634742737,
      "learning_rate": 0.0002860538348101513,
      "loss": 4.3153,
      "step": 68130
    },
    {
      "epoch": 0.14195833333333333,
      "grad_norm": 0.8825616836547852,
      "learning_rate": 0.0002860496833200515,
      "loss": 4.2157,
      "step": 68140
    },
    {
      "epoch": 0.14197916666666666,
      "grad_norm": 0.8169577121734619,
      "learning_rate": 0.0002860455312422709,
      "loss": 4.0721,
      "step": 68150
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.8144884705543518,
      "learning_rate": 0.00028604137857682745,
      "loss": 4.1799,
      "step": 68160
    },
    {
      "epoch": 0.14202083333333335,
      "grad_norm": 0.8471001982688904,
      "learning_rate": 0.0002860372253237391,
      "loss": 4.0946,
      "step": 68170
    },
    {
      "epoch": 0.14204166666666668,
      "grad_norm": 0.8931760787963867,
      "learning_rate": 0.00028603307148302375,
      "loss": 4.1894,
      "step": 68180
    },
    {
      "epoch": 0.1420625,
      "grad_norm": 0.8407500982284546,
      "learning_rate": 0.0002860289170546994,
      "loss": 3.9313,
      "step": 68190
    },
    {
      "epoch": 0.14208333333333334,
      "grad_norm": 0.8815408945083618,
      "learning_rate": 0.000286024762038784,
      "loss": 4.1019,
      "step": 68200
    },
    {
      "epoch": 0.14210416666666667,
      "grad_norm": 1.0468803644180298,
      "learning_rate": 0.00028602060643529543,
      "loss": 4.3365,
      "step": 68210
    },
    {
      "epoch": 0.142125,
      "grad_norm": 0.821558952331543,
      "learning_rate": 0.0002860164502442517,
      "loss": 4.1595,
      "step": 68220
    },
    {
      "epoch": 0.14214583333333333,
      "grad_norm": 0.855870246887207,
      "learning_rate": 0.00028601229346567075,
      "loss": 4.1568,
      "step": 68230
    },
    {
      "epoch": 0.14216666666666666,
      "grad_norm": 1.0461589097976685,
      "learning_rate": 0.0002860081360995705,
      "loss": 4.0643,
      "step": 68240
    },
    {
      "epoch": 0.1421875,
      "grad_norm": 0.8476819396018982,
      "learning_rate": 0.00028600397814596896,
      "loss": 4.1401,
      "step": 68250
    },
    {
      "epoch": 0.14220833333333333,
      "grad_norm": 0.881586492061615,
      "learning_rate": 0.00028599981960488407,
      "loss": 4.1882,
      "step": 68260
    },
    {
      "epoch": 0.14222916666666666,
      "grad_norm": 0.8354182839393616,
      "learning_rate": 0.00028599566047633377,
      "loss": 4.3191,
      "step": 68270
    },
    {
      "epoch": 0.14225,
      "grad_norm": 0.8745500445365906,
      "learning_rate": 0.00028599150076033606,
      "loss": 3.9976,
      "step": 68280
    },
    {
      "epoch": 0.14227083333333335,
      "grad_norm": 0.8716362118721008,
      "learning_rate": 0.0002859873404569089,
      "loss": 4.232,
      "step": 68290
    },
    {
      "epoch": 0.14229166666666668,
      "grad_norm": 0.9597999453544617,
      "learning_rate": 0.0002859831795660703,
      "loss": 4.1967,
      "step": 68300
    },
    {
      "epoch": 0.1423125,
      "grad_norm": 0.8942611813545227,
      "learning_rate": 0.0002859790180878381,
      "loss": 4.0655,
      "step": 68310
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 0.8420579433441162,
      "learning_rate": 0.00028597485602223046,
      "loss": 4.0537,
      "step": 68320
    },
    {
      "epoch": 0.14235416666666667,
      "grad_norm": 0.8581598401069641,
      "learning_rate": 0.0002859706933692652,
      "loss": 4.2266,
      "step": 68330
    },
    {
      "epoch": 0.142375,
      "grad_norm": 0.8213979601860046,
      "learning_rate": 0.00028596653012896034,
      "loss": 4.1123,
      "step": 68340
    },
    {
      "epoch": 0.14239583333333333,
      "grad_norm": 0.8142606019973755,
      "learning_rate": 0.00028596236630133395,
      "loss": 4.2457,
      "step": 68350
    },
    {
      "epoch": 0.14241666666666666,
      "grad_norm": 0.8889976143836975,
      "learning_rate": 0.0002859582018864039,
      "loss": 4.2208,
      "step": 68360
    },
    {
      "epoch": 0.1424375,
      "grad_norm": 0.8723263144493103,
      "learning_rate": 0.0002859540368841883,
      "loss": 4.0531,
      "step": 68370
    },
    {
      "epoch": 0.14245833333333333,
      "grad_norm": 0.9211260676383972,
      "learning_rate": 0.00028594987129470503,
      "loss": 4.0921,
      "step": 68380
    },
    {
      "epoch": 0.14247916666666666,
      "grad_norm": 0.9326570630073547,
      "learning_rate": 0.00028594570511797216,
      "loss": 4.0426,
      "step": 68390
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.8752220273017883,
      "learning_rate": 0.00028594153835400765,
      "loss": 4.1127,
      "step": 68400
    },
    {
      "epoch": 0.14252083333333335,
      "grad_norm": 0.7909083366394043,
      "learning_rate": 0.0002859373710028295,
      "loss": 4.1868,
      "step": 68410
    },
    {
      "epoch": 0.14254166666666668,
      "grad_norm": 0.8264455795288086,
      "learning_rate": 0.0002859332030644557,
      "loss": 4.1099,
      "step": 68420
    },
    {
      "epoch": 0.1425625,
      "grad_norm": 0.8035625219345093,
      "learning_rate": 0.00028592903453890427,
      "loss": 4.0625,
      "step": 68430
    },
    {
      "epoch": 0.14258333333333334,
      "grad_norm": 0.873417854309082,
      "learning_rate": 0.00028592486542619323,
      "loss": 4.0305,
      "step": 68440
    },
    {
      "epoch": 0.14260416666666667,
      "grad_norm": 0.828944206237793,
      "learning_rate": 0.0002859206957263406,
      "loss": 4.1365,
      "step": 68450
    },
    {
      "epoch": 0.142625,
      "grad_norm": 0.8255214691162109,
      "learning_rate": 0.0002859165254393643,
      "loss": 4.1329,
      "step": 68460
    },
    {
      "epoch": 0.14264583333333333,
      "grad_norm": 0.8391264081001282,
      "learning_rate": 0.00028591235456528244,
      "loss": 4.1025,
      "step": 68470
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.9829015135765076,
      "learning_rate": 0.000285908183104113,
      "loss": 4.3469,
      "step": 68480
    },
    {
      "epoch": 0.1426875,
      "grad_norm": 0.9380241632461548,
      "learning_rate": 0.00028590401105587406,
      "loss": 4.0124,
      "step": 68490
    },
    {
      "epoch": 0.14270833333333333,
      "grad_norm": 0.8992862105369568,
      "learning_rate": 0.0002858998384205835,
      "loss": 4.0613,
      "step": 68500
    },
    {
      "epoch": 0.14272916666666666,
      "grad_norm": 0.8325888514518738,
      "learning_rate": 0.00028589566519825947,
      "loss": 4.3216,
      "step": 68510
    },
    {
      "epoch": 0.14275,
      "grad_norm": 0.8763919472694397,
      "learning_rate": 0.00028589149138892,
      "loss": 4.1517,
      "step": 68520
    },
    {
      "epoch": 0.14277083333333335,
      "grad_norm": 0.8313854932785034,
      "learning_rate": 0.000285887316992583,
      "loss": 4.2067,
      "step": 68530
    },
    {
      "epoch": 0.14279166666666668,
      "grad_norm": 0.8158532381057739,
      "learning_rate": 0.0002858831420092666,
      "loss": 3.9333,
      "step": 68540
    },
    {
      "epoch": 0.1428125,
      "grad_norm": 0.7813208699226379,
      "learning_rate": 0.00028587896643898883,
      "loss": 4.2197,
      "step": 68550
    },
    {
      "epoch": 0.14283333333333334,
      "grad_norm": 0.8098560571670532,
      "learning_rate": 0.00028587479028176774,
      "loss": 4.2545,
      "step": 68560
    },
    {
      "epoch": 0.14285416666666667,
      "grad_norm": 0.8761423826217651,
      "learning_rate": 0.0002858706135376213,
      "loss": 4.035,
      "step": 68570
    },
    {
      "epoch": 0.142875,
      "grad_norm": 0.9299693703651428,
      "learning_rate": 0.0002858664362065676,
      "loss": 4.1071,
      "step": 68580
    },
    {
      "epoch": 0.14289583333333333,
      "grad_norm": 0.915766716003418,
      "learning_rate": 0.00028586225828862465,
      "loss": 4.4138,
      "step": 68590
    },
    {
      "epoch": 0.14291666666666666,
      "grad_norm": 0.901135265827179,
      "learning_rate": 0.0002858580797838105,
      "loss": 4.1991,
      "step": 68600
    },
    {
      "epoch": 0.1429375,
      "grad_norm": 0.9274179339408875,
      "learning_rate": 0.0002858539006921433,
      "loss": 4.1239,
      "step": 68610
    },
    {
      "epoch": 0.14295833333333333,
      "grad_norm": 0.8067317008972168,
      "learning_rate": 0.000285849721013641,
      "loss": 4.0573,
      "step": 68620
    },
    {
      "epoch": 0.14297916666666666,
      "grad_norm": 0.7732166647911072,
      "learning_rate": 0.0002858455407483217,
      "loss": 4.17,
      "step": 68630
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.884266197681427,
      "learning_rate": 0.0002858413598962034,
      "loss": 4.0542,
      "step": 68640
    },
    {
      "epoch": 0.14302083333333335,
      "grad_norm": 0.968025267124176,
      "learning_rate": 0.00028583717845730416,
      "loss": 4.1248,
      "step": 68650
    },
    {
      "epoch": 0.14304166666666668,
      "grad_norm": 0.827221155166626,
      "learning_rate": 0.0002858329964316421,
      "loss": 4.0567,
      "step": 68660
    },
    {
      "epoch": 0.1430625,
      "grad_norm": 0.846005380153656,
      "learning_rate": 0.00028582881381923527,
      "loss": 4.0884,
      "step": 68670
    },
    {
      "epoch": 0.14308333333333334,
      "grad_norm": 0.7649610042572021,
      "learning_rate": 0.00028582463062010177,
      "loss": 4.1833,
      "step": 68680
    },
    {
      "epoch": 0.14310416666666667,
      "grad_norm": 0.8642863035202026,
      "learning_rate": 0.0002858204468342596,
      "loss": 4.0888,
      "step": 68690
    },
    {
      "epoch": 0.143125,
      "grad_norm": 0.8260910511016846,
      "learning_rate": 0.0002858162624617268,
      "loss": 3.9279,
      "step": 68700
    },
    {
      "epoch": 0.14314583333333333,
      "grad_norm": 0.8208786845207214,
      "learning_rate": 0.0002858120775025216,
      "loss": 4.0998,
      "step": 68710
    },
    {
      "epoch": 0.14316666666666666,
      "grad_norm": 0.9054465889930725,
      "learning_rate": 0.0002858078919566619,
      "loss": 4.1186,
      "step": 68720
    },
    {
      "epoch": 0.1431875,
      "grad_norm": 0.9462005496025085,
      "learning_rate": 0.00028580370582416593,
      "loss": 4.2006,
      "step": 68730
    },
    {
      "epoch": 0.14320833333333333,
      "grad_norm": 0.8363852500915527,
      "learning_rate": 0.0002857995191050517,
      "loss": 4.0519,
      "step": 68740
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 0.8795152902603149,
      "learning_rate": 0.0002857953317993373,
      "loss": 4.0853,
      "step": 68750
    },
    {
      "epoch": 0.14325,
      "grad_norm": 0.7961037755012512,
      "learning_rate": 0.00028579114390704077,
      "loss": 4.1593,
      "step": 68760
    },
    {
      "epoch": 0.14327083333333332,
      "grad_norm": 0.83623868227005,
      "learning_rate": 0.00028578695542818026,
      "loss": 4.1949,
      "step": 68770
    },
    {
      "epoch": 0.14329166666666668,
      "grad_norm": 0.8527010679244995,
      "learning_rate": 0.0002857827663627739,
      "loss": 4.1665,
      "step": 68780
    },
    {
      "epoch": 0.1433125,
      "grad_norm": 0.9109140038490295,
      "learning_rate": 0.0002857785767108397,
      "loss": 4.2724,
      "step": 68790
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 0.887057363986969,
      "learning_rate": 0.0002857743864723958,
      "loss": 4.1424,
      "step": 68800
    },
    {
      "epoch": 0.14335416666666667,
      "grad_norm": 0.8748496770858765,
      "learning_rate": 0.00028577019564746033,
      "loss": 4.128,
      "step": 68810
    },
    {
      "epoch": 0.143375,
      "grad_norm": 0.8748576641082764,
      "learning_rate": 0.0002857660042360513,
      "loss": 4.2233,
      "step": 68820
    },
    {
      "epoch": 0.14339583333333333,
      "grad_norm": 0.9575037956237793,
      "learning_rate": 0.00028576181223818686,
      "loss": 4.179,
      "step": 68830
    },
    {
      "epoch": 0.14341666666666666,
      "grad_norm": 0.7905541062355042,
      "learning_rate": 0.0002857576196538852,
      "loss": 4.3412,
      "step": 68840
    },
    {
      "epoch": 0.1434375,
      "grad_norm": 0.9815399050712585,
      "learning_rate": 0.0002857534264831643,
      "loss": 4.0114,
      "step": 68850
    },
    {
      "epoch": 0.14345833333333333,
      "grad_norm": 0.9178603887557983,
      "learning_rate": 0.0002857492327260424,
      "loss": 4.212,
      "step": 68860
    },
    {
      "epoch": 0.14347916666666666,
      "grad_norm": 0.9214532375335693,
      "learning_rate": 0.00028574503838253745,
      "loss": 4.2486,
      "step": 68870
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.8402735590934753,
      "learning_rate": 0.0002857408434526677,
      "loss": 4.0537,
      "step": 68880
    },
    {
      "epoch": 0.14352083333333332,
      "grad_norm": 1.0677872896194458,
      "learning_rate": 0.00028573664793645127,
      "loss": 4.0447,
      "step": 68890
    },
    {
      "epoch": 0.14354166666666668,
      "grad_norm": 0.8745750784873962,
      "learning_rate": 0.00028573245183390625,
      "loss": 4.2875,
      "step": 68900
    },
    {
      "epoch": 0.1435625,
      "grad_norm": 0.8645766973495483,
      "learning_rate": 0.00028572825514505077,
      "loss": 4.2274,
      "step": 68910
    },
    {
      "epoch": 0.14358333333333334,
      "grad_norm": 0.8566694259643555,
      "learning_rate": 0.00028572405786990294,
      "loss": 4.099,
      "step": 68920
    },
    {
      "epoch": 0.14360416666666667,
      "grad_norm": 0.9053966403007507,
      "learning_rate": 0.00028571986000848086,
      "loss": 4.1874,
      "step": 68930
    },
    {
      "epoch": 0.143625,
      "grad_norm": 0.8545424938201904,
      "learning_rate": 0.00028571566156080275,
      "loss": 4.1756,
      "step": 68940
    },
    {
      "epoch": 0.14364583333333333,
      "grad_norm": 0.8239076733589172,
      "learning_rate": 0.0002857114625268867,
      "loss": 4.0079,
      "step": 68950
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 0.7967954277992249,
      "learning_rate": 0.00028570726290675085,
      "loss": 3.9238,
      "step": 68960
    },
    {
      "epoch": 0.1436875,
      "grad_norm": 1.0515048503875732,
      "learning_rate": 0.0002857030627004133,
      "loss": 4.2185,
      "step": 68970
    },
    {
      "epoch": 0.14370833333333333,
      "grad_norm": 0.9356479644775391,
      "learning_rate": 0.00028569886190789225,
      "loss": 4.1426,
      "step": 68980
    },
    {
      "epoch": 0.14372916666666666,
      "grad_norm": 1.339597225189209,
      "learning_rate": 0.0002856946605292059,
      "loss": 4.133,
      "step": 68990
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.888105034828186,
      "learning_rate": 0.00028569045856437225,
      "loss": 4.0332,
      "step": 69000
    },
    {
      "epoch": 0.14375,
      "eval_loss": 3.8688368797302246,
      "eval_runtime": 7.2026,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.417,
      "step": 69000
    },
    {
      "epoch": 0.14377083333333332,
      "grad_norm": 0.8792113065719604,
      "learning_rate": 0.00028568625601340953,
      "loss": 4.1511,
      "step": 69010
    },
    {
      "epoch": 0.14379166666666668,
      "grad_norm": 0.8207540512084961,
      "learning_rate": 0.00028568205287633595,
      "loss": 4.045,
      "step": 69020
    },
    {
      "epoch": 0.1438125,
      "grad_norm": 0.8749343752861023,
      "learning_rate": 0.00028567784915316957,
      "loss": 4.2082,
      "step": 69030
    },
    {
      "epoch": 0.14383333333333334,
      "grad_norm": 0.886013388633728,
      "learning_rate": 0.00028567364484392854,
      "loss": 4.1237,
      "step": 69040
    },
    {
      "epoch": 0.14385416666666667,
      "grad_norm": 0.8210799694061279,
      "learning_rate": 0.0002856694399486312,
      "loss": 4.2314,
      "step": 69050
    },
    {
      "epoch": 0.143875,
      "grad_norm": 0.8565502762794495,
      "learning_rate": 0.00028566523446729546,
      "loss": 4.0684,
      "step": 69060
    },
    {
      "epoch": 0.14389583333333333,
      "grad_norm": 0.7202264666557312,
      "learning_rate": 0.0002856610283999396,
      "loss": 4.1651,
      "step": 69070
    },
    {
      "epoch": 0.14391666666666666,
      "grad_norm": 0.8572533130645752,
      "learning_rate": 0.00028565682174658193,
      "loss": 4.0634,
      "step": 69080
    },
    {
      "epoch": 0.1439375,
      "grad_norm": 0.828751802444458,
      "learning_rate": 0.00028565261450724035,
      "loss": 4.0133,
      "step": 69090
    },
    {
      "epoch": 0.14395833333333333,
      "grad_norm": 0.9590758681297302,
      "learning_rate": 0.00028564840668193325,
      "loss": 4.1764,
      "step": 69100
    },
    {
      "epoch": 0.14397916666666666,
      "grad_norm": 0.8887996673583984,
      "learning_rate": 0.0002856441982706787,
      "loss": 3.971,
      "step": 69110
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.834762454032898,
      "learning_rate": 0.00028563998927349485,
      "loss": 4.0681,
      "step": 69120
    },
    {
      "epoch": 0.14402083333333332,
      "grad_norm": 0.830921471118927,
      "learning_rate": 0.00028563577969040004,
      "loss": 3.9687,
      "step": 69130
    },
    {
      "epoch": 0.14404166666666668,
      "grad_norm": 0.9139390587806702,
      "learning_rate": 0.00028563156952141224,
      "loss": 4.1802,
      "step": 69140
    },
    {
      "epoch": 0.1440625,
      "grad_norm": 0.8810616135597229,
      "learning_rate": 0.0002856273587665499,
      "loss": 4.105,
      "step": 69150
    },
    {
      "epoch": 0.14408333333333334,
      "grad_norm": 0.9738754034042358,
      "learning_rate": 0.0002856231474258309,
      "loss": 4.0644,
      "step": 69160
    },
    {
      "epoch": 0.14410416666666667,
      "grad_norm": 0.7931938767433167,
      "learning_rate": 0.00028561893549927366,
      "loss": 4.0741,
      "step": 69170
    },
    {
      "epoch": 0.144125,
      "grad_norm": 0.8825342655181885,
      "learning_rate": 0.00028561472298689627,
      "loss": 4.0964,
      "step": 69180
    },
    {
      "epoch": 0.14414583333333333,
      "grad_norm": 1.1124985218048096,
      "learning_rate": 0.000285610509888717,
      "loss": 4.0649,
      "step": 69190
    },
    {
      "epoch": 0.14416666666666667,
      "grad_norm": 0.9890658259391785,
      "learning_rate": 0.00028560629620475396,
      "loss": 4.2169,
      "step": 69200
    },
    {
      "epoch": 0.1441875,
      "grad_norm": 1.1373440027236938,
      "learning_rate": 0.0002856020819350254,
      "loss": 4.0302,
      "step": 69210
    },
    {
      "epoch": 0.14420833333333333,
      "grad_norm": 0.9096050262451172,
      "learning_rate": 0.00028559786707954955,
      "loss": 4.3329,
      "step": 69220
    },
    {
      "epoch": 0.14422916666666666,
      "grad_norm": 0.838712751865387,
      "learning_rate": 0.0002855936516383446,
      "loss": 4.0561,
      "step": 69230
    },
    {
      "epoch": 0.14425,
      "grad_norm": 0.9154341220855713,
      "learning_rate": 0.0002855894356114287,
      "loss": 4.1672,
      "step": 69240
    },
    {
      "epoch": 0.14427083333333332,
      "grad_norm": 0.8582090139389038,
      "learning_rate": 0.00028558521899882015,
      "loss": 4.0176,
      "step": 69250
    },
    {
      "epoch": 0.14429166666666668,
      "grad_norm": 0.8494462966918945,
      "learning_rate": 0.00028558100180053707,
      "loss": 4.267,
      "step": 69260
    },
    {
      "epoch": 0.1443125,
      "grad_norm": 0.8226059079170227,
      "learning_rate": 0.0002855767840165978,
      "loss": 4.28,
      "step": 69270
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 0.8476154208183289,
      "learning_rate": 0.00028557256564702043,
      "loss": 4.1652,
      "step": 69280
    },
    {
      "epoch": 0.14435416666666667,
      "grad_norm": 0.8745426535606384,
      "learning_rate": 0.0002855683466918233,
      "loss": 4.0755,
      "step": 69290
    },
    {
      "epoch": 0.144375,
      "grad_norm": 0.8512212038040161,
      "learning_rate": 0.0002855641271510245,
      "loss": 4.1634,
      "step": 69300
    },
    {
      "epoch": 0.14439583333333333,
      "grad_norm": 0.9430440664291382,
      "learning_rate": 0.00028555990702464236,
      "loss": 4.1168,
      "step": 69310
    },
    {
      "epoch": 0.14441666666666667,
      "grad_norm": 0.8096699714660645,
      "learning_rate": 0.0002855556863126951,
      "loss": 4.1763,
      "step": 69320
    },
    {
      "epoch": 0.1444375,
      "grad_norm": 0.9317424297332764,
      "learning_rate": 0.00028555146501520087,
      "loss": 4.1431,
      "step": 69330
    },
    {
      "epoch": 0.14445833333333333,
      "grad_norm": 0.8512444496154785,
      "learning_rate": 0.00028554724313217806,
      "loss": 4.3488,
      "step": 69340
    },
    {
      "epoch": 0.14447916666666666,
      "grad_norm": 0.8097223043441772,
      "learning_rate": 0.0002855430206636447,
      "loss": 4.1625,
      "step": 69350
    },
    {
      "epoch": 0.1445,
      "grad_norm": 1.7447640895843506,
      "learning_rate": 0.00028553879760961925,
      "loss": 4.2314,
      "step": 69360
    },
    {
      "epoch": 0.14452083333333332,
      "grad_norm": 0.8363973498344421,
      "learning_rate": 0.0002855345739701198,
      "loss": 4.2378,
      "step": 69370
    },
    {
      "epoch": 0.14454166666666668,
      "grad_norm": 0.8725893497467041,
      "learning_rate": 0.0002855303497451646,
      "loss": 4.1642,
      "step": 69380
    },
    {
      "epoch": 0.1445625,
      "grad_norm": 0.8384851813316345,
      "learning_rate": 0.00028552612493477203,
      "loss": 4.0859,
      "step": 69390
    },
    {
      "epoch": 0.14458333333333334,
      "grad_norm": 0.8959019184112549,
      "learning_rate": 0.00028552189953896014,
      "loss": 3.9597,
      "step": 69400
    },
    {
      "epoch": 0.14460416666666667,
      "grad_norm": 0.8035444617271423,
      "learning_rate": 0.00028551767355774733,
      "loss": 4.2702,
      "step": 69410
    },
    {
      "epoch": 0.144625,
      "grad_norm": 0.810326874256134,
      "learning_rate": 0.00028551344699115187,
      "loss": 4.2394,
      "step": 69420
    },
    {
      "epoch": 0.14464583333333333,
      "grad_norm": 0.8189544081687927,
      "learning_rate": 0.00028550921983919186,
      "loss": 4.2726,
      "step": 69430
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 0.8120620846748352,
      "learning_rate": 0.00028550499210188573,
      "loss": 4.1878,
      "step": 69440
    },
    {
      "epoch": 0.1446875,
      "grad_norm": 0.8481889367103577,
      "learning_rate": 0.0002855007637792517,
      "loss": 4.1324,
      "step": 69450
    },
    {
      "epoch": 0.14470833333333333,
      "grad_norm": 0.8131565451622009,
      "learning_rate": 0.00028549653487130794,
      "loss": 4.1775,
      "step": 69460
    },
    {
      "epoch": 0.14472916666666666,
      "grad_norm": 0.8258563876152039,
      "learning_rate": 0.0002854923053780728,
      "loss": 4.1249,
      "step": 69470
    },
    {
      "epoch": 0.14475,
      "grad_norm": 0.7918816208839417,
      "learning_rate": 0.00028548807529956446,
      "loss": 4.2513,
      "step": 69480
    },
    {
      "epoch": 0.14477083333333332,
      "grad_norm": 0.8676666021347046,
      "learning_rate": 0.00028548384463580135,
      "loss": 4.1945,
      "step": 69490
    },
    {
      "epoch": 0.14479166666666668,
      "grad_norm": 0.9053540229797363,
      "learning_rate": 0.00028547961338680163,
      "loss": 4.0565,
      "step": 69500
    },
    {
      "epoch": 0.1448125,
      "grad_norm": 0.8344717621803284,
      "learning_rate": 0.0002854753815525837,
      "loss": 4.0869,
      "step": 69510
    },
    {
      "epoch": 0.14483333333333334,
      "grad_norm": 0.8938793540000916,
      "learning_rate": 0.00028547114913316565,
      "loss": 4.2939,
      "step": 69520
    },
    {
      "epoch": 0.14485416666666667,
      "grad_norm": 0.8483728170394897,
      "learning_rate": 0.00028546691612856587,
      "loss": 4.1857,
      "step": 69530
    },
    {
      "epoch": 0.144875,
      "grad_norm": 0.8168748021125793,
      "learning_rate": 0.0002854626825388026,
      "loss": 4.235,
      "step": 69540
    },
    {
      "epoch": 0.14489583333333333,
      "grad_norm": 0.918186366558075,
      "learning_rate": 0.00028545844836389423,
      "loss": 4.1228,
      "step": 69550
    },
    {
      "epoch": 0.14491666666666667,
      "grad_norm": 0.9755639433860779,
      "learning_rate": 0.0002854542136038589,
      "loss": 4.1849,
      "step": 69560
    },
    {
      "epoch": 0.1449375,
      "grad_norm": 0.7687746286392212,
      "learning_rate": 0.0002854499782587151,
      "loss": 3.9653,
      "step": 69570
    },
    {
      "epoch": 0.14495833333333333,
      "grad_norm": 0.9001683592796326,
      "learning_rate": 0.0002854457423284809,
      "loss": 3.9958,
      "step": 69580
    },
    {
      "epoch": 0.14497916666666666,
      "grad_norm": 0.8061875104904175,
      "learning_rate": 0.00028544150581317476,
      "loss": 4.1701,
      "step": 69590
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.9254112243652344,
      "learning_rate": 0.00028543726871281495,
      "loss": 4.2468,
      "step": 69600
    },
    {
      "epoch": 0.14502083333333332,
      "grad_norm": 0.8326354622840881,
      "learning_rate": 0.0002854330310274197,
      "loss": 4.2072,
      "step": 69610
    },
    {
      "epoch": 0.14504166666666668,
      "grad_norm": 0.9568073153495789,
      "learning_rate": 0.0002854287927570074,
      "loss": 4.1393,
      "step": 69620
    },
    {
      "epoch": 0.1450625,
      "grad_norm": 0.8366189002990723,
      "learning_rate": 0.00028542455390159624,
      "loss": 3.9345,
      "step": 69630
    },
    {
      "epoch": 0.14508333333333334,
      "grad_norm": 0.7138123512268066,
      "learning_rate": 0.00028542031446120473,
      "loss": 4.1876,
      "step": 69640
    },
    {
      "epoch": 0.14510416666666667,
      "grad_norm": 0.8835156559944153,
      "learning_rate": 0.00028541607443585096,
      "loss": 4.3161,
      "step": 69650
    },
    {
      "epoch": 0.145125,
      "grad_norm": 0.8322023749351501,
      "learning_rate": 0.0002854118338255534,
      "loss": 4.0166,
      "step": 69660
    },
    {
      "epoch": 0.14514583333333334,
      "grad_norm": 0.8365790247917175,
      "learning_rate": 0.00028540759263033033,
      "loss": 4.0884,
      "step": 69670
    },
    {
      "epoch": 0.14516666666666667,
      "grad_norm": 0.8589973449707031,
      "learning_rate": 0.0002854033508502,
      "loss": 4.1393,
      "step": 69680
    },
    {
      "epoch": 0.1451875,
      "grad_norm": 0.8167702555656433,
      "learning_rate": 0.0002853991084851809,
      "loss": 4.1387,
      "step": 69690
    },
    {
      "epoch": 0.14520833333333333,
      "grad_norm": 0.9249286651611328,
      "learning_rate": 0.0002853948655352912,
      "loss": 3.992,
      "step": 69700
    },
    {
      "epoch": 0.14522916666666666,
      "grad_norm": 0.9113544821739197,
      "learning_rate": 0.0002853906220005492,
      "loss": 4.0254,
      "step": 69710
    },
    {
      "epoch": 0.14525,
      "grad_norm": 0.8981879949569702,
      "learning_rate": 0.00028538637788097336,
      "loss": 4.2233,
      "step": 69720
    },
    {
      "epoch": 0.14527083333333332,
      "grad_norm": 0.8893377780914307,
      "learning_rate": 0.00028538213317658194,
      "loss": 4.2791,
      "step": 69730
    },
    {
      "epoch": 0.14529166666666668,
      "grad_norm": 0.9435198903083801,
      "learning_rate": 0.00028537788788739334,
      "loss": 4.2897,
      "step": 69740
    },
    {
      "epoch": 0.1453125,
      "grad_norm": 0.8740633726119995,
      "learning_rate": 0.00028537364201342583,
      "loss": 4.1046,
      "step": 69750
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.8505759239196777,
      "learning_rate": 0.0002853693955546977,
      "loss": 4.0301,
      "step": 69760
    },
    {
      "epoch": 0.14535416666666667,
      "grad_norm": 0.8367546200752258,
      "learning_rate": 0.00028536514851122745,
      "loss": 3.9777,
      "step": 69770
    },
    {
      "epoch": 0.145375,
      "grad_norm": 0.7594881057739258,
      "learning_rate": 0.00028536090088303334,
      "loss": 4.2996,
      "step": 69780
    },
    {
      "epoch": 0.14539583333333334,
      "grad_norm": 0.8591715693473816,
      "learning_rate": 0.0002853566526701337,
      "loss": 4.2171,
      "step": 69790
    },
    {
      "epoch": 0.14541666666666667,
      "grad_norm": 0.8930371999740601,
      "learning_rate": 0.0002853524038725469,
      "loss": 4.1327,
      "step": 69800
    },
    {
      "epoch": 0.1454375,
      "grad_norm": 0.8610072731971741,
      "learning_rate": 0.00028534815449029127,
      "loss": 4.0909,
      "step": 69810
    },
    {
      "epoch": 0.14545833333333333,
      "grad_norm": 0.8902775645256042,
      "learning_rate": 0.0002853439045233852,
      "loss": 4.285,
      "step": 69820
    },
    {
      "epoch": 0.14547916666666666,
      "grad_norm": 0.8045735359191895,
      "learning_rate": 0.000285339653971847,
      "loss": 4.2485,
      "step": 69830
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.9757993817329407,
      "learning_rate": 0.0002853354028356951,
      "loss": 3.9905,
      "step": 69840
    },
    {
      "epoch": 0.14552083333333332,
      "grad_norm": 0.8492425680160522,
      "learning_rate": 0.0002853311511149478,
      "loss": 4.2532,
      "step": 69850
    },
    {
      "epoch": 0.14554166666666668,
      "grad_norm": 0.8108595013618469,
      "learning_rate": 0.00028532689880962354,
      "loss": 4.0457,
      "step": 69860
    },
    {
      "epoch": 0.1455625,
      "grad_norm": 0.8571054339408875,
      "learning_rate": 0.0002853226459197406,
      "loss": 3.9642,
      "step": 69870
    },
    {
      "epoch": 0.14558333333333334,
      "grad_norm": 1.0166378021240234,
      "learning_rate": 0.0002853183924453175,
      "loss": 4.3231,
      "step": 69880
    },
    {
      "epoch": 0.14560416666666667,
      "grad_norm": 0.8458345532417297,
      "learning_rate": 0.0002853141383863724,
      "loss": 4.1646,
      "step": 69890
    },
    {
      "epoch": 0.145625,
      "grad_norm": 0.8992285132408142,
      "learning_rate": 0.0002853098837429238,
      "loss": 3.9468,
      "step": 69900
    },
    {
      "epoch": 0.14564583333333334,
      "grad_norm": 0.8567721843719482,
      "learning_rate": 0.0002853056285149901,
      "loss": 3.9476,
      "step": 69910
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 0.784981906414032,
      "learning_rate": 0.0002853013727025896,
      "loss": 4.1663,
      "step": 69920
    },
    {
      "epoch": 0.1456875,
      "grad_norm": 0.9774602651596069,
      "learning_rate": 0.00028529711630574076,
      "loss": 4.1445,
      "step": 69930
    },
    {
      "epoch": 0.14570833333333333,
      "grad_norm": 0.8764129877090454,
      "learning_rate": 0.0002852928593244619,
      "loss": 4.1627,
      "step": 69940
    },
    {
      "epoch": 0.14572916666666666,
      "grad_norm": 0.8665479421615601,
      "learning_rate": 0.00028528860175877147,
      "loss": 4.2587,
      "step": 69950
    },
    {
      "epoch": 0.14575,
      "grad_norm": 0.8251287341117859,
      "learning_rate": 0.0002852843436086878,
      "loss": 4.1198,
      "step": 69960
    },
    {
      "epoch": 0.14577083333333332,
      "grad_norm": 0.9378317594528198,
      "learning_rate": 0.0002852800848742293,
      "loss": 4.2116,
      "step": 69970
    },
    {
      "epoch": 0.14579166666666668,
      "grad_norm": 0.8295000195503235,
      "learning_rate": 0.00028527582555541443,
      "loss": 4.0193,
      "step": 69980
    },
    {
      "epoch": 0.1458125,
      "grad_norm": 0.8696466684341431,
      "learning_rate": 0.0002852715656522615,
      "loss": 4.1515,
      "step": 69990
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 0.8598281741142273,
      "learning_rate": 0.000285267305164789,
      "loss": 4.2808,
      "step": 70000
    },
    {
      "epoch": 0.14583333333333334,
      "eval_loss": 3.869361162185669,
      "eval_runtime": 7.194,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 70000
    },
    {
      "epoch": 0.14585416666666667,
      "grad_norm": 0.8545527458190918,
      "learning_rate": 0.0002852630440930153,
      "loss": 4.1796,
      "step": 70010
    },
    {
      "epoch": 0.145875,
      "grad_norm": 0.7963939309120178,
      "learning_rate": 0.0002852587824369587,
      "loss": 4.2987,
      "step": 70020
    },
    {
      "epoch": 0.14589583333333334,
      "grad_norm": 0.8131532073020935,
      "learning_rate": 0.00028525452019663775,
      "loss": 4.1484,
      "step": 70030
    },
    {
      "epoch": 0.14591666666666667,
      "grad_norm": 0.8425694704055786,
      "learning_rate": 0.0002852502573720708,
      "loss": 4.0779,
      "step": 70040
    },
    {
      "epoch": 0.1459375,
      "grad_norm": 0.9432331323623657,
      "learning_rate": 0.00028524599396327627,
      "loss": 4.1786,
      "step": 70050
    },
    {
      "epoch": 0.14595833333333333,
      "grad_norm": 0.8330170512199402,
      "learning_rate": 0.0002852417299702726,
      "loss": 4.0917,
      "step": 70060
    },
    {
      "epoch": 0.14597916666666666,
      "grad_norm": 0.8348734378814697,
      "learning_rate": 0.00028523746539307817,
      "loss": 4.2138,
      "step": 70070
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.8404502868652344,
      "learning_rate": 0.00028523320023171144,
      "loss": 4.2591,
      "step": 70080
    },
    {
      "epoch": 0.14602083333333332,
      "grad_norm": 0.8082022070884705,
      "learning_rate": 0.0002852289344861908,
      "loss": 4.1189,
      "step": 70090
    },
    {
      "epoch": 0.14604166666666665,
      "grad_norm": 0.9106526970863342,
      "learning_rate": 0.00028522466815653465,
      "loss": 4.0232,
      "step": 70100
    },
    {
      "epoch": 0.1460625,
      "grad_norm": 0.8271533250808716,
      "learning_rate": 0.00028522040124276155,
      "loss": 4.0495,
      "step": 70110
    },
    {
      "epoch": 0.14608333333333334,
      "grad_norm": 0.8735189437866211,
      "learning_rate": 0.00028521613374488976,
      "loss": 4.04,
      "step": 70120
    },
    {
      "epoch": 0.14610416666666667,
      "grad_norm": 0.8610254526138306,
      "learning_rate": 0.0002852118656629378,
      "loss": 4.2275,
      "step": 70130
    },
    {
      "epoch": 0.146125,
      "grad_norm": 0.9490978717803955,
      "learning_rate": 0.00028520759699692417,
      "loss": 4.1993,
      "step": 70140
    },
    {
      "epoch": 0.14614583333333334,
      "grad_norm": 0.8829022645950317,
      "learning_rate": 0.00028520332774686723,
      "loss": 4.0573,
      "step": 70150
    },
    {
      "epoch": 0.14616666666666667,
      "grad_norm": 0.792007565498352,
      "learning_rate": 0.0002851990579127854,
      "loss": 4.1633,
      "step": 70160
    },
    {
      "epoch": 0.1461875,
      "grad_norm": 0.8585339784622192,
      "learning_rate": 0.0002851947874946971,
      "loss": 4.1341,
      "step": 70170
    },
    {
      "epoch": 0.14620833333333333,
      "grad_norm": 0.8632799386978149,
      "learning_rate": 0.0002851905164926209,
      "loss": 4.0876,
      "step": 70180
    },
    {
      "epoch": 0.14622916666666666,
      "grad_norm": 0.8106867074966431,
      "learning_rate": 0.00028518624490657515,
      "loss": 3.9281,
      "step": 70190
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.8650306463241577,
      "learning_rate": 0.00028518197273657837,
      "loss": 4.087,
      "step": 70200
    },
    {
      "epoch": 0.14627083333333332,
      "grad_norm": 0.8428492546081543,
      "learning_rate": 0.00028517769998264895,
      "loss": 4.005,
      "step": 70210
    },
    {
      "epoch": 0.14629166666666665,
      "grad_norm": 0.8474724292755127,
      "learning_rate": 0.00028517342664480537,
      "loss": 4.1086,
      "step": 70220
    },
    {
      "epoch": 0.1463125,
      "grad_norm": 0.8541086912155151,
      "learning_rate": 0.0002851691527230661,
      "loss": 4.2136,
      "step": 70230
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 0.8739999532699585,
      "learning_rate": 0.0002851648782174496,
      "loss": 4.1049,
      "step": 70240
    },
    {
      "epoch": 0.14635416666666667,
      "grad_norm": 0.8836192488670349,
      "learning_rate": 0.0002851606031279743,
      "loss": 4.3395,
      "step": 70250
    },
    {
      "epoch": 0.146375,
      "grad_norm": 0.9488911628723145,
      "learning_rate": 0.00028515632745465877,
      "loss": 4.165,
      "step": 70260
    },
    {
      "epoch": 0.14639583333333334,
      "grad_norm": 0.762704610824585,
      "learning_rate": 0.0002851520511975213,
      "loss": 4.4287,
      "step": 70270
    },
    {
      "epoch": 0.14641666666666667,
      "grad_norm": 0.9353862404823303,
      "learning_rate": 0.00028514777435658057,
      "loss": 4.2303,
      "step": 70280
    },
    {
      "epoch": 0.1464375,
      "grad_norm": 0.8160333633422852,
      "learning_rate": 0.0002851434969318549,
      "loss": 4.2192,
      "step": 70290
    },
    {
      "epoch": 0.14645833333333333,
      "grad_norm": 1.033823013305664,
      "learning_rate": 0.0002851392189233628,
      "loss": 4.1818,
      "step": 70300
    },
    {
      "epoch": 0.14647916666666666,
      "grad_norm": 0.9610210061073303,
      "learning_rate": 0.0002851349403311228,
      "loss": 4.1258,
      "step": 70310
    },
    {
      "epoch": 0.1465,
      "grad_norm": 1.013234257698059,
      "learning_rate": 0.00028513066115515333,
      "loss": 4.0713,
      "step": 70320
    },
    {
      "epoch": 0.14652083333333332,
      "grad_norm": 0.9620381593704224,
      "learning_rate": 0.00028512638139547284,
      "loss": 4.2133,
      "step": 70330
    },
    {
      "epoch": 0.14654166666666665,
      "grad_norm": 0.9002705812454224,
      "learning_rate": 0.00028512210105209997,
      "loss": 4.1592,
      "step": 70340
    },
    {
      "epoch": 0.1465625,
      "grad_norm": 0.8149887919425964,
      "learning_rate": 0.00028511782012505303,
      "loss": 4.2096,
      "step": 70350
    },
    {
      "epoch": 0.14658333333333334,
      "grad_norm": 0.8372067213058472,
      "learning_rate": 0.00028511353861435064,
      "loss": 4.123,
      "step": 70360
    },
    {
      "epoch": 0.14660416666666667,
      "grad_norm": 0.8563677668571472,
      "learning_rate": 0.0002851092565200112,
      "loss": 4.1859,
      "step": 70370
    },
    {
      "epoch": 0.146625,
      "grad_norm": 0.81917405128479,
      "learning_rate": 0.0002851049738420533,
      "loss": 4.0064,
      "step": 70380
    },
    {
      "epoch": 0.14664583333333334,
      "grad_norm": 0.880710780620575,
      "learning_rate": 0.00028510069058049534,
      "loss": 4.1861,
      "step": 70390
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 1.0428259372711182,
      "learning_rate": 0.00028509640673535594,
      "loss": 4.0714,
      "step": 70400
    },
    {
      "epoch": 0.1466875,
      "grad_norm": 0.7949856519699097,
      "learning_rate": 0.00028509212230665344,
      "loss": 4.0978,
      "step": 70410
    },
    {
      "epoch": 0.14670833333333333,
      "grad_norm": 0.962258517742157,
      "learning_rate": 0.00028508783729440655,
      "loss": 4.1491,
      "step": 70420
    },
    {
      "epoch": 0.14672916666666666,
      "grad_norm": 0.891342043876648,
      "learning_rate": 0.0002850835516986336,
      "loss": 4.0508,
      "step": 70430
    },
    {
      "epoch": 0.14675,
      "grad_norm": 0.8336912989616394,
      "learning_rate": 0.0002850792655193532,
      "loss": 3.9509,
      "step": 70440
    },
    {
      "epoch": 0.14677083333333332,
      "grad_norm": 0.8068900108337402,
      "learning_rate": 0.0002850749787565838,
      "loss": 4.1861,
      "step": 70450
    },
    {
      "epoch": 0.14679166666666665,
      "grad_norm": 0.8134188055992126,
      "learning_rate": 0.0002850706914103441,
      "loss": 4.1931,
      "step": 70460
    },
    {
      "epoch": 0.1468125,
      "grad_norm": 0.8363661766052246,
      "learning_rate": 0.00028506640348065237,
      "loss": 4.0473,
      "step": 70470
    },
    {
      "epoch": 0.14683333333333334,
      "grad_norm": 0.8231990337371826,
      "learning_rate": 0.0002850621149675272,
      "loss": 4.0984,
      "step": 70480
    },
    {
      "epoch": 0.14685416666666667,
      "grad_norm": 0.8316988945007324,
      "learning_rate": 0.0002850578258709872,
      "loss": 4.2787,
      "step": 70490
    },
    {
      "epoch": 0.146875,
      "grad_norm": 0.8644038438796997,
      "learning_rate": 0.0002850535361910509,
      "loss": 4.0403,
      "step": 70500
    },
    {
      "epoch": 0.14689583333333334,
      "grad_norm": 0.8426945209503174,
      "learning_rate": 0.0002850492459277367,
      "loss": 4.2354,
      "step": 70510
    },
    {
      "epoch": 0.14691666666666667,
      "grad_norm": 0.8666895031929016,
      "learning_rate": 0.00028504495508106326,
      "loss": 4.0737,
      "step": 70520
    },
    {
      "epoch": 0.1469375,
      "grad_norm": 0.8468948006629944,
      "learning_rate": 0.00028504066365104907,
      "loss": 4.1889,
      "step": 70530
    },
    {
      "epoch": 0.14695833333333333,
      "grad_norm": 0.8919554948806763,
      "learning_rate": 0.00028503637163771264,
      "loss": 4.0248,
      "step": 70540
    },
    {
      "epoch": 0.14697916666666666,
      "grad_norm": 0.8954260349273682,
      "learning_rate": 0.0002850320790410726,
      "loss": 4.0483,
      "step": 70550
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.9435336589813232,
      "learning_rate": 0.00028502778586114735,
      "loss": 4.1529,
      "step": 70560
    },
    {
      "epoch": 0.14702083333333332,
      "grad_norm": 0.981966495513916,
      "learning_rate": 0.0002850234920979555,
      "loss": 4.3459,
      "step": 70570
    },
    {
      "epoch": 0.14704166666666665,
      "grad_norm": 0.8464450240135193,
      "learning_rate": 0.0002850191977515157,
      "loss": 4.186,
      "step": 70580
    },
    {
      "epoch": 0.1470625,
      "grad_norm": 0.8259351849555969,
      "learning_rate": 0.00028501490282184635,
      "loss": 4.2451,
      "step": 70590
    },
    {
      "epoch": 0.14708333333333334,
      "grad_norm": 0.9907898306846619,
      "learning_rate": 0.00028501060730896607,
      "loss": 4.2341,
      "step": 70600
    },
    {
      "epoch": 0.14710416666666667,
      "grad_norm": 0.8758800029754639,
      "learning_rate": 0.0002850063112128934,
      "loss": 4.0561,
      "step": 70610
    },
    {
      "epoch": 0.147125,
      "grad_norm": 0.8138332962989807,
      "learning_rate": 0.00028500201453364693,
      "loss": 4.1559,
      "step": 70620
    },
    {
      "epoch": 0.14714583333333334,
      "grad_norm": 0.8435713052749634,
      "learning_rate": 0.00028499771727124516,
      "loss": 4.1024,
      "step": 70630
    },
    {
      "epoch": 0.14716666666666667,
      "grad_norm": 0.8717334270477295,
      "learning_rate": 0.00028499341942570677,
      "loss": 4.1087,
      "step": 70640
    },
    {
      "epoch": 0.1471875,
      "grad_norm": 1.1343433856964111,
      "learning_rate": 0.00028498912099705014,
      "loss": 4.4026,
      "step": 70650
    },
    {
      "epoch": 0.14720833333333333,
      "grad_norm": 0.750724732875824,
      "learning_rate": 0.00028498482198529397,
      "loss": 4.2903,
      "step": 70660
    },
    {
      "epoch": 0.14722916666666666,
      "grad_norm": 0.8120587468147278,
      "learning_rate": 0.00028498052239045685,
      "loss": 3.8861,
      "step": 70670
    },
    {
      "epoch": 0.14725,
      "grad_norm": 0.8118436932563782,
      "learning_rate": 0.0002849762222125572,
      "loss": 4.1772,
      "step": 70680
    },
    {
      "epoch": 0.14727083333333332,
      "grad_norm": 0.881767213344574,
      "learning_rate": 0.00028497192145161376,
      "loss": 4.187,
      "step": 70690
    },
    {
      "epoch": 0.14729166666666665,
      "grad_norm": 0.7945947051048279,
      "learning_rate": 0.0002849676201076451,
      "loss": 4.094,
      "step": 70700
    },
    {
      "epoch": 0.1473125,
      "grad_norm": 0.8107850551605225,
      "learning_rate": 0.00028496331818066964,
      "loss": 4.1521,
      "step": 70710
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 0.867320716381073,
      "learning_rate": 0.00028495901567070615,
      "loss": 4.0982,
      "step": 70720
    },
    {
      "epoch": 0.14735416666666667,
      "grad_norm": 0.9248985648155212,
      "learning_rate": 0.0002849547125777731,
      "loss": 4.0749,
      "step": 70730
    },
    {
      "epoch": 0.147375,
      "grad_norm": 0.7996951341629028,
      "learning_rate": 0.00028495040890188914,
      "loss": 4.1455,
      "step": 70740
    },
    {
      "epoch": 0.14739583333333334,
      "grad_norm": 0.8625279068946838,
      "learning_rate": 0.00028494610464307275,
      "loss": 3.9379,
      "step": 70750
    },
    {
      "epoch": 0.14741666666666667,
      "grad_norm": 0.7894810438156128,
      "learning_rate": 0.00028494179980134265,
      "loss": 4.249,
      "step": 70760
    },
    {
      "epoch": 0.1474375,
      "grad_norm": 0.7748916745185852,
      "learning_rate": 0.00028493749437671743,
      "loss": 4.0384,
      "step": 70770
    },
    {
      "epoch": 0.14745833333333333,
      "grad_norm": 0.8529612421989441,
      "learning_rate": 0.0002849331883692156,
      "loss": 4.1111,
      "step": 70780
    },
    {
      "epoch": 0.14747916666666666,
      "grad_norm": 0.8247402906417847,
      "learning_rate": 0.0002849288817788558,
      "loss": 4.3425,
      "step": 70790
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.8181763887405396,
      "learning_rate": 0.00028492457460565666,
      "loss": 4.0333,
      "step": 70800
    },
    {
      "epoch": 0.14752083333333332,
      "grad_norm": 0.9117509126663208,
      "learning_rate": 0.00028492026684963676,
      "loss": 4.0022,
      "step": 70810
    },
    {
      "epoch": 0.14754166666666665,
      "grad_norm": 0.8241742253303528,
      "learning_rate": 0.0002849159585108147,
      "loss": 4.0274,
      "step": 70820
    },
    {
      "epoch": 0.1475625,
      "grad_norm": 0.837225615978241,
      "learning_rate": 0.00028491164958920913,
      "loss": 3.959,
      "step": 70830
    },
    {
      "epoch": 0.14758333333333334,
      "grad_norm": 0.8039551973342896,
      "learning_rate": 0.00028490734008483864,
      "loss": 4.3123,
      "step": 70840
    },
    {
      "epoch": 0.14760416666666668,
      "grad_norm": 0.8576088547706604,
      "learning_rate": 0.00028490302999772184,
      "loss": 3.9282,
      "step": 70850
    },
    {
      "epoch": 0.147625,
      "grad_norm": 0.8005886673927307,
      "learning_rate": 0.0002848987193278773,
      "loss": 4.3284,
      "step": 70860
    },
    {
      "epoch": 0.14764583333333334,
      "grad_norm": 0.9941521883010864,
      "learning_rate": 0.00028489440807532375,
      "loss": 4.1492,
      "step": 70870
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 0.8333271741867065,
      "learning_rate": 0.0002848900962400797,
      "loss": 4.1366,
      "step": 70880
    },
    {
      "epoch": 0.1476875,
      "grad_norm": 0.793663501739502,
      "learning_rate": 0.0002848857838221638,
      "loss": 3.9303,
      "step": 70890
    },
    {
      "epoch": 0.14770833333333333,
      "grad_norm": 0.9058645367622375,
      "learning_rate": 0.0002848814708215948,
      "loss": 4.0195,
      "step": 70900
    },
    {
      "epoch": 0.14772916666666666,
      "grad_norm": 0.9957073330879211,
      "learning_rate": 0.0002848771572383912,
      "loss": 4.1018,
      "step": 70910
    },
    {
      "epoch": 0.14775,
      "grad_norm": 0.9015527963638306,
      "learning_rate": 0.00028487284307257164,
      "loss": 4.1293,
      "step": 70920
    },
    {
      "epoch": 0.14777083333333332,
      "grad_norm": 0.9008901715278625,
      "learning_rate": 0.0002848685283241548,
      "loss": 4.1203,
      "step": 70930
    },
    {
      "epoch": 0.14779166666666665,
      "grad_norm": 0.7700980305671692,
      "learning_rate": 0.0002848642129931593,
      "loss": 4.0587,
      "step": 70940
    },
    {
      "epoch": 0.1478125,
      "grad_norm": 0.8448195457458496,
      "learning_rate": 0.0002848598970796038,
      "loss": 4.2277,
      "step": 70950
    },
    {
      "epoch": 0.14783333333333334,
      "grad_norm": 0.8180203437805176,
      "learning_rate": 0.0002848555805835069,
      "loss": 4.1612,
      "step": 70960
    },
    {
      "epoch": 0.14785416666666668,
      "grad_norm": 0.8900696039199829,
      "learning_rate": 0.0002848512635048873,
      "loss": 4.198,
      "step": 70970
    },
    {
      "epoch": 0.147875,
      "grad_norm": 0.9288679957389832,
      "learning_rate": 0.0002848469458437636,
      "loss": 4.2605,
      "step": 70980
    },
    {
      "epoch": 0.14789583333333334,
      "grad_norm": 0.7889244556427002,
      "learning_rate": 0.0002848426276001545,
      "loss": 4.3025,
      "step": 70990
    },
    {
      "epoch": 0.14791666666666667,
      "grad_norm": 0.7775811553001404,
      "learning_rate": 0.00028483830877407856,
      "loss": 4.1921,
      "step": 71000
    },
    {
      "epoch": 0.14791666666666667,
      "eval_loss": 3.8743019104003906,
      "eval_runtime": 6.7637,
      "eval_samples_per_second": 1.478,
      "eval_steps_per_second": 0.444,
      "step": 71000
    },
    {
      "epoch": 0.1479375,
      "grad_norm": 0.8624486327171326,
      "learning_rate": 0.00028483398936555456,
      "loss": 4.1619,
      "step": 71010
    },
    {
      "epoch": 0.14795833333333333,
      "grad_norm": 0.8268713355064392,
      "learning_rate": 0.00028482966937460106,
      "loss": 4.0358,
      "step": 71020
    },
    {
      "epoch": 0.14797916666666666,
      "grad_norm": 0.8888849020004272,
      "learning_rate": 0.00028482534880123675,
      "loss": 4.0075,
      "step": 71030
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.8103265762329102,
      "learning_rate": 0.00028482102764548035,
      "loss": 4.0788,
      "step": 71040
    },
    {
      "epoch": 0.14802083333333332,
      "grad_norm": 0.9235312342643738,
      "learning_rate": 0.00028481670590735044,
      "loss": 4.1678,
      "step": 71050
    },
    {
      "epoch": 0.14804166666666665,
      "grad_norm": 0.8490609526634216,
      "learning_rate": 0.00028481238358686573,
      "loss": 4.2922,
      "step": 71060
    },
    {
      "epoch": 0.1480625,
      "grad_norm": 0.873218297958374,
      "learning_rate": 0.00028480806068404487,
      "loss": 4.16,
      "step": 71070
    },
    {
      "epoch": 0.14808333333333334,
      "grad_norm": 0.8090618848800659,
      "learning_rate": 0.0002848037371989066,
      "loss": 4.2323,
      "step": 71080
    },
    {
      "epoch": 0.14810416666666668,
      "grad_norm": 0.7924894690513611,
      "learning_rate": 0.0002847994131314695,
      "loss": 4.176,
      "step": 71090
    },
    {
      "epoch": 0.148125,
      "grad_norm": 0.8294870853424072,
      "learning_rate": 0.0002847950884817523,
      "loss": 4.2188,
      "step": 71100
    },
    {
      "epoch": 0.14814583333333334,
      "grad_norm": 0.8150889277458191,
      "learning_rate": 0.0002847907632497737,
      "loss": 4.152,
      "step": 71110
    },
    {
      "epoch": 0.14816666666666667,
      "grad_norm": 0.8351749777793884,
      "learning_rate": 0.00028478643743555233,
      "loss": 4.2622,
      "step": 71120
    },
    {
      "epoch": 0.1481875,
      "grad_norm": 1.106211543083191,
      "learning_rate": 0.0002847821110391069,
      "loss": 4.1205,
      "step": 71130
    },
    {
      "epoch": 0.14820833333333333,
      "grad_norm": 0.8430184721946716,
      "learning_rate": 0.0002847777840604561,
      "loss": 3.9652,
      "step": 71140
    },
    {
      "epoch": 0.14822916666666666,
      "grad_norm": 0.9286984205245972,
      "learning_rate": 0.00028477345649961864,
      "loss": 4.2567,
      "step": 71150
    },
    {
      "epoch": 0.14825,
      "grad_norm": 0.884055495262146,
      "learning_rate": 0.0002847691283566132,
      "loss": 4.1478,
      "step": 71160
    },
    {
      "epoch": 0.14827083333333332,
      "grad_norm": 0.7655249834060669,
      "learning_rate": 0.00028476479963145845,
      "loss": 4.1387,
      "step": 71170
    },
    {
      "epoch": 0.14829166666666665,
      "grad_norm": 0.7987268567085266,
      "learning_rate": 0.0002847604703241731,
      "loss": 4.3875,
      "step": 71180
    },
    {
      "epoch": 0.1483125,
      "grad_norm": 0.7996379733085632,
      "learning_rate": 0.0002847561404347759,
      "loss": 4.1044,
      "step": 71190
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 0.8603354692459106,
      "learning_rate": 0.0002847518099632855,
      "loss": 4.345,
      "step": 71200
    },
    {
      "epoch": 0.14835416666666668,
      "grad_norm": 0.8821666836738586,
      "learning_rate": 0.0002847474789097206,
      "loss": 4.1153,
      "step": 71210
    },
    {
      "epoch": 0.148375,
      "grad_norm": 1.0343270301818848,
      "learning_rate": 0.00028474314727409993,
      "loss": 4.1401,
      "step": 71220
    },
    {
      "epoch": 0.14839583333333334,
      "grad_norm": 0.9622129201889038,
      "learning_rate": 0.0002847388150564422,
      "loss": 4.0526,
      "step": 71230
    },
    {
      "epoch": 0.14841666666666667,
      "grad_norm": 0.8024263978004456,
      "learning_rate": 0.0002847344822567661,
      "loss": 4.2262,
      "step": 71240
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 0.8940723538398743,
      "learning_rate": 0.0002847301488750904,
      "loss": 4.096,
      "step": 71250
    },
    {
      "epoch": 0.14845833333333333,
      "grad_norm": 0.8814542293548584,
      "learning_rate": 0.0002847258149114338,
      "loss": 4.2515,
      "step": 71260
    },
    {
      "epoch": 0.14847916666666666,
      "grad_norm": 0.8777387142181396,
      "learning_rate": 0.000284721480365815,
      "loss": 4.2095,
      "step": 71270
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.8901814222335815,
      "learning_rate": 0.0002847171452382527,
      "loss": 3.9582,
      "step": 71280
    },
    {
      "epoch": 0.14852083333333332,
      "grad_norm": 1.0378015041351318,
      "learning_rate": 0.0002847128095287657,
      "loss": 4.1088,
      "step": 71290
    },
    {
      "epoch": 0.14854166666666666,
      "grad_norm": 0.8482935428619385,
      "learning_rate": 0.00028470847323737263,
      "loss": 4.0346,
      "step": 71300
    },
    {
      "epoch": 0.1485625,
      "grad_norm": 0.8580365180969238,
      "learning_rate": 0.0002847041363640923,
      "loss": 4.0738,
      "step": 71310
    },
    {
      "epoch": 0.14858333333333335,
      "grad_norm": 0.9390097260475159,
      "learning_rate": 0.00028469979890894347,
      "loss": 4.0865,
      "step": 71320
    },
    {
      "epoch": 0.14860416666666668,
      "grad_norm": 0.8640239238739014,
      "learning_rate": 0.0002846954608719448,
      "loss": 4.2555,
      "step": 71330
    },
    {
      "epoch": 0.148625,
      "grad_norm": 0.8683689832687378,
      "learning_rate": 0.000284691122253115,
      "loss": 4.1304,
      "step": 71340
    },
    {
      "epoch": 0.14864583333333334,
      "grad_norm": 0.9103648662567139,
      "learning_rate": 0.0002846867830524729,
      "loss": 4.0309,
      "step": 71350
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 0.7911681532859802,
      "learning_rate": 0.00028468244327003724,
      "loss": 4.029,
      "step": 71360
    },
    {
      "epoch": 0.1486875,
      "grad_norm": 0.8585189580917358,
      "learning_rate": 0.0002846781029058267,
      "loss": 4.0118,
      "step": 71370
    },
    {
      "epoch": 0.14870833333333333,
      "grad_norm": 0.8091416954994202,
      "learning_rate": 0.0002846737619598601,
      "loss": 4.2577,
      "step": 71380
    },
    {
      "epoch": 0.14872916666666666,
      "grad_norm": 0.793495774269104,
      "learning_rate": 0.00028466942043215614,
      "loss": 4.1927,
      "step": 71390
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.9688921570777893,
      "learning_rate": 0.0002846650783227336,
      "loss": 4.0947,
      "step": 71400
    },
    {
      "epoch": 0.14877083333333332,
      "grad_norm": 0.8388399481773376,
      "learning_rate": 0.0002846607356316112,
      "loss": 4.2794,
      "step": 71410
    },
    {
      "epoch": 0.14879166666666666,
      "grad_norm": 0.9178236722946167,
      "learning_rate": 0.0002846563923588077,
      "loss": 4.2048,
      "step": 71420
    },
    {
      "epoch": 0.1488125,
      "grad_norm": 0.8585566282272339,
      "learning_rate": 0.00028465204850434197,
      "loss": 4.3087,
      "step": 71430
    },
    {
      "epoch": 0.14883333333333335,
      "grad_norm": 0.7380571365356445,
      "learning_rate": 0.0002846477040682326,
      "loss": 3.864,
      "step": 71440
    },
    {
      "epoch": 0.14885416666666668,
      "grad_norm": 0.8409698605537415,
      "learning_rate": 0.0002846433590504985,
      "loss": 3.9862,
      "step": 71450
    },
    {
      "epoch": 0.148875,
      "grad_norm": 0.893734335899353,
      "learning_rate": 0.00028463901345115837,
      "loss": 4.2379,
      "step": 71460
    },
    {
      "epoch": 0.14889583333333334,
      "grad_norm": 0.7939103841781616,
      "learning_rate": 0.000284634667270231,
      "loss": 4.1192,
      "step": 71470
    },
    {
      "epoch": 0.14891666666666667,
      "grad_norm": 0.8350599408149719,
      "learning_rate": 0.00028463032050773517,
      "loss": 4.122,
      "step": 71480
    },
    {
      "epoch": 0.1489375,
      "grad_norm": 0.9207702279090881,
      "learning_rate": 0.0002846259731636896,
      "loss": 4.2888,
      "step": 71490
    },
    {
      "epoch": 0.14895833333333333,
      "grad_norm": 0.803001880645752,
      "learning_rate": 0.00028462162523811317,
      "loss": 4.0757,
      "step": 71500
    },
    {
      "epoch": 0.14897916666666666,
      "grad_norm": 0.8495805263519287,
      "learning_rate": 0.00028461727673102457,
      "loss": 4.0646,
      "step": 71510
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.8353910446166992,
      "learning_rate": 0.00028461292764244263,
      "loss": 4.1417,
      "step": 71520
    },
    {
      "epoch": 0.14902083333333332,
      "grad_norm": 0.8288791179656982,
      "learning_rate": 0.00028460857797238615,
      "loss": 4.1113,
      "step": 71530
    },
    {
      "epoch": 0.14904166666666666,
      "grad_norm": 0.7967208027839661,
      "learning_rate": 0.00028460422772087383,
      "loss": 4.2147,
      "step": 71540
    },
    {
      "epoch": 0.1490625,
      "grad_norm": 0.8794112801551819,
      "learning_rate": 0.0002845998768879246,
      "loss": 4.0546,
      "step": 71550
    },
    {
      "epoch": 0.14908333333333335,
      "grad_norm": 0.8589935898780823,
      "learning_rate": 0.00028459552547355715,
      "loss": 4.2268,
      "step": 71560
    },
    {
      "epoch": 0.14910416666666668,
      "grad_norm": 0.8721378445625305,
      "learning_rate": 0.0002845911734777903,
      "loss": 4.1091,
      "step": 71570
    },
    {
      "epoch": 0.149125,
      "grad_norm": 0.9441536664962769,
      "learning_rate": 0.0002845868209006429,
      "loss": 4.2976,
      "step": 71580
    },
    {
      "epoch": 0.14914583333333334,
      "grad_norm": 0.7841700911521912,
      "learning_rate": 0.0002845824677421336,
      "loss": 4.2106,
      "step": 71590
    },
    {
      "epoch": 0.14916666666666667,
      "grad_norm": 0.8522637486457825,
      "learning_rate": 0.0002845781140022814,
      "loss": 4.1004,
      "step": 71600
    },
    {
      "epoch": 0.1491875,
      "grad_norm": 0.8109657168388367,
      "learning_rate": 0.000284573759681105,
      "loss": 4.1388,
      "step": 71610
    },
    {
      "epoch": 0.14920833333333333,
      "grad_norm": 0.9982186555862427,
      "learning_rate": 0.0002845694047786232,
      "loss": 4.2819,
      "step": 71620
    },
    {
      "epoch": 0.14922916666666666,
      "grad_norm": 0.7989278435707092,
      "learning_rate": 0.0002845650492948549,
      "loss": 4.1934,
      "step": 71630
    },
    {
      "epoch": 0.14925,
      "grad_norm": 0.9404854774475098,
      "learning_rate": 0.0002845606932298188,
      "loss": 4.1357,
      "step": 71640
    },
    {
      "epoch": 0.14927083333333332,
      "grad_norm": 0.782896876335144,
      "learning_rate": 0.0002845563365835338,
      "loss": 4.1028,
      "step": 71650
    },
    {
      "epoch": 0.14929166666666666,
      "grad_norm": 0.8692500591278076,
      "learning_rate": 0.0002845519793560186,
      "loss": 4.3232,
      "step": 71660
    },
    {
      "epoch": 0.1493125,
      "grad_norm": 0.8341169953346252,
      "learning_rate": 0.0002845476215472922,
      "loss": 4.2487,
      "step": 71670
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.8838779330253601,
      "learning_rate": 0.00028454326315737334,
      "loss": 4.1003,
      "step": 71680
    },
    {
      "epoch": 0.14935416666666668,
      "grad_norm": 0.8664653897285461,
      "learning_rate": 0.00028453890418628084,
      "loss": 4.2132,
      "step": 71690
    },
    {
      "epoch": 0.149375,
      "grad_norm": 0.8285130858421326,
      "learning_rate": 0.0002845345446340334,
      "loss": 4.2137,
      "step": 71700
    },
    {
      "epoch": 0.14939583333333334,
      "grad_norm": 0.7923365831375122,
      "learning_rate": 0.0002845301845006501,
      "loss": 4.1569,
      "step": 71710
    },
    {
      "epoch": 0.14941666666666667,
      "grad_norm": 0.8226146697998047,
      "learning_rate": 0.0002845258237861497,
      "loss": 4.1891,
      "step": 71720
    },
    {
      "epoch": 0.1494375,
      "grad_norm": 0.8613479137420654,
      "learning_rate": 0.0002845214624905509,
      "loss": 4.1194,
      "step": 71730
    },
    {
      "epoch": 0.14945833333333333,
      "grad_norm": 0.9110957980155945,
      "learning_rate": 0.0002845171006138726,
      "loss": 4.1226,
      "step": 71740
    },
    {
      "epoch": 0.14947916666666666,
      "grad_norm": 0.8830592632293701,
      "learning_rate": 0.00028451273815613377,
      "loss": 4.1786,
      "step": 71750
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.876208484172821,
      "learning_rate": 0.0002845083751173531,
      "loss": 4.2295,
      "step": 71760
    },
    {
      "epoch": 0.14952083333333333,
      "grad_norm": 0.7547310590744019,
      "learning_rate": 0.0002845040114975495,
      "loss": 4.3589,
      "step": 71770
    },
    {
      "epoch": 0.14954166666666666,
      "grad_norm": 0.7726516723632812,
      "learning_rate": 0.0002844996472967418,
      "loss": 4.0672,
      "step": 71780
    },
    {
      "epoch": 0.1495625,
      "grad_norm": 0.7650739550590515,
      "learning_rate": 0.00028449528251494883,
      "loss": 4.0892,
      "step": 71790
    },
    {
      "epoch": 0.14958333333333335,
      "grad_norm": 0.8421100378036499,
      "learning_rate": 0.00028449091715218957,
      "loss": 4.1853,
      "step": 71800
    },
    {
      "epoch": 0.14960416666666668,
      "grad_norm": 0.8272718191146851,
      "learning_rate": 0.0002844865512084827,
      "loss": 4.056,
      "step": 71810
    },
    {
      "epoch": 0.149625,
      "grad_norm": 1.0830912590026855,
      "learning_rate": 0.00028448218468384717,
      "loss": 4.1184,
      "step": 71820
    },
    {
      "epoch": 0.14964583333333334,
      "grad_norm": 0.8690724968910217,
      "learning_rate": 0.0002844778175783019,
      "loss": 4.1226,
      "step": 71830
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 0.885455310344696,
      "learning_rate": 0.0002844734498918656,
      "loss": 4.2307,
      "step": 71840
    },
    {
      "epoch": 0.1496875,
      "grad_norm": 0.791287362575531,
      "learning_rate": 0.0002844690816245573,
      "loss": 4.082,
      "step": 71850
    },
    {
      "epoch": 0.14970833333333333,
      "grad_norm": 0.8201959729194641,
      "learning_rate": 0.00028446471277639575,
      "loss": 4.0635,
      "step": 71860
    },
    {
      "epoch": 0.14972916666666666,
      "grad_norm": 0.867480456829071,
      "learning_rate": 0.0002844603433473999,
      "loss": 4.1143,
      "step": 71870
    },
    {
      "epoch": 0.14975,
      "grad_norm": 0.8508557677268982,
      "learning_rate": 0.0002844559733375885,
      "loss": 4.1758,
      "step": 71880
    },
    {
      "epoch": 0.14977083333333333,
      "grad_norm": 0.8246159553527832,
      "learning_rate": 0.0002844516027469806,
      "loss": 4.3018,
      "step": 71890
    },
    {
      "epoch": 0.14979166666666666,
      "grad_norm": 0.8245514035224915,
      "learning_rate": 0.000284447231575595,
      "loss": 4.0204,
      "step": 71900
    },
    {
      "epoch": 0.1498125,
      "grad_norm": 1.7772897481918335,
      "learning_rate": 0.00028444285982345054,
      "loss": 4.1054,
      "step": 71910
    },
    {
      "epoch": 0.14983333333333335,
      "grad_norm": 0.9338704943656921,
      "learning_rate": 0.0002844384874905662,
      "loss": 4.1381,
      "step": 71920
    },
    {
      "epoch": 0.14985416666666668,
      "grad_norm": 0.9147884249687195,
      "learning_rate": 0.0002844341145769608,
      "loss": 4.2084,
      "step": 71930
    },
    {
      "epoch": 0.149875,
      "grad_norm": 0.8223167061805725,
      "learning_rate": 0.00028442974108265314,
      "loss": 4.2615,
      "step": 71940
    },
    {
      "epoch": 0.14989583333333334,
      "grad_norm": 0.935027539730072,
      "learning_rate": 0.00028442536700766226,
      "loss": 4.2158,
      "step": 71950
    },
    {
      "epoch": 0.14991666666666667,
      "grad_norm": 0.8252679109573364,
      "learning_rate": 0.00028442099235200706,
      "loss": 4.1746,
      "step": 71960
    },
    {
      "epoch": 0.1499375,
      "grad_norm": 0.8059673309326172,
      "learning_rate": 0.0002844166171157063,
      "loss": 4.2086,
      "step": 71970
    },
    {
      "epoch": 0.14995833333333333,
      "grad_norm": 0.849766731262207,
      "learning_rate": 0.00028441224129877897,
      "loss": 4.1132,
      "step": 71980
    },
    {
      "epoch": 0.14997916666666666,
      "grad_norm": 0.898402214050293,
      "learning_rate": 0.000284407864901244,
      "loss": 4.1425,
      "step": 71990
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7618348002433777,
      "learning_rate": 0.0002844034879231203,
      "loss": 4.2636,
      "step": 72000
    },
    {
      "epoch": 0.15,
      "eval_loss": 3.867342710494995,
      "eval_runtime": 6.8002,
      "eval_samples_per_second": 1.471,
      "eval_steps_per_second": 0.441,
      "step": 72000
    },
    {
      "epoch": 0.15002083333333333,
      "grad_norm": 0.7933075428009033,
      "learning_rate": 0.0002843991103644267,
      "loss": 4.2798,
      "step": 72010
    },
    {
      "epoch": 0.15004166666666666,
      "grad_norm": 0.8217605948448181,
      "learning_rate": 0.00028439473222518206,
      "loss": 4.2379,
      "step": 72020
    },
    {
      "epoch": 0.1500625,
      "grad_norm": 0.9205800890922546,
      "learning_rate": 0.00028439035350540543,
      "loss": 4.1626,
      "step": 72030
    },
    {
      "epoch": 0.15008333333333335,
      "grad_norm": 0.819474458694458,
      "learning_rate": 0.00028438597420511573,
      "loss": 4.1605,
      "step": 72040
    },
    {
      "epoch": 0.15010416666666668,
      "grad_norm": 0.8392186164855957,
      "learning_rate": 0.0002843815943243317,
      "loss": 4.0829,
      "step": 72050
    },
    {
      "epoch": 0.150125,
      "grad_norm": 0.8454686999320984,
      "learning_rate": 0.0002843772138630725,
      "loss": 4.2514,
      "step": 72060
    },
    {
      "epoch": 0.15014583333333334,
      "grad_norm": 0.808356523513794,
      "learning_rate": 0.0002843728328213568,
      "loss": 3.8861,
      "step": 72070
    },
    {
      "epoch": 0.15016666666666667,
      "grad_norm": 0.7493045330047607,
      "learning_rate": 0.00028436845119920377,
      "loss": 4.2314,
      "step": 72080
    },
    {
      "epoch": 0.1501875,
      "grad_norm": 0.8372435569763184,
      "learning_rate": 0.00028436406899663214,
      "loss": 4.0556,
      "step": 72090
    },
    {
      "epoch": 0.15020833333333333,
      "grad_norm": 0.8323356509208679,
      "learning_rate": 0.0002843596862136609,
      "loss": 4.1951,
      "step": 72100
    },
    {
      "epoch": 0.15022916666666666,
      "grad_norm": 0.8954214453697205,
      "learning_rate": 0.00028435530285030904,
      "loss": 3.9972,
      "step": 72110
    },
    {
      "epoch": 0.15025,
      "grad_norm": 0.9285204410552979,
      "learning_rate": 0.00028435091890659545,
      "loss": 4.2229,
      "step": 72120
    },
    {
      "epoch": 0.15027083333333333,
      "grad_norm": 0.8627070188522339,
      "learning_rate": 0.0002843465343825391,
      "loss": 3.9763,
      "step": 72130
    },
    {
      "epoch": 0.15029166666666666,
      "grad_norm": 0.9377022981643677,
      "learning_rate": 0.0002843421492781588,
      "loss": 4.1948,
      "step": 72140
    },
    {
      "epoch": 0.1503125,
      "grad_norm": 0.8868229389190674,
      "learning_rate": 0.0002843377635934737,
      "loss": 4.1018,
      "step": 72150
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 0.8195494413375854,
      "learning_rate": 0.00028433337732850254,
      "loss": 4.2271,
      "step": 72160
    },
    {
      "epoch": 0.15035416666666668,
      "grad_norm": 0.8720971941947937,
      "learning_rate": 0.00028432899048326445,
      "loss": 4.1648,
      "step": 72170
    },
    {
      "epoch": 0.150375,
      "grad_norm": 0.7909911274909973,
      "learning_rate": 0.0002843246030577782,
      "loss": 4.3092,
      "step": 72180
    },
    {
      "epoch": 0.15039583333333334,
      "grad_norm": 0.8100500106811523,
      "learning_rate": 0.000284320215052063,
      "loss": 3.9051,
      "step": 72190
    },
    {
      "epoch": 0.15041666666666667,
      "grad_norm": 0.8250316977500916,
      "learning_rate": 0.0002843158264661375,
      "loss": 4.0734,
      "step": 72200
    },
    {
      "epoch": 0.1504375,
      "grad_norm": 0.8872097730636597,
      "learning_rate": 0.00028431143730002083,
      "loss": 4.0383,
      "step": 72210
    },
    {
      "epoch": 0.15045833333333333,
      "grad_norm": 0.896214485168457,
      "learning_rate": 0.0002843070475537319,
      "loss": 4.2444,
      "step": 72220
    },
    {
      "epoch": 0.15047916666666666,
      "grad_norm": 0.7811224460601807,
      "learning_rate": 0.0002843026572272897,
      "loss": 4.1005,
      "step": 72230
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.8471633791923523,
      "learning_rate": 0.0002842982663207132,
      "loss": 4.0639,
      "step": 72240
    },
    {
      "epoch": 0.15052083333333333,
      "grad_norm": 0.9540991187095642,
      "learning_rate": 0.0002842938748340213,
      "loss": 4.1318,
      "step": 72250
    },
    {
      "epoch": 0.15054166666666666,
      "grad_norm": 2.0225985050201416,
      "learning_rate": 0.000284289482767233,
      "loss": 4.1358,
      "step": 72260
    },
    {
      "epoch": 0.1505625,
      "grad_norm": 0.9025654196739197,
      "learning_rate": 0.0002842850901203674,
      "loss": 4.4095,
      "step": 72270
    },
    {
      "epoch": 0.15058333333333335,
      "grad_norm": 0.8352377414703369,
      "learning_rate": 0.00028428069689344327,
      "loss": 4.4255,
      "step": 72280
    },
    {
      "epoch": 0.15060416666666668,
      "grad_norm": 0.7868649959564209,
      "learning_rate": 0.0002842763030864797,
      "loss": 4.1281,
      "step": 72290
    },
    {
      "epoch": 0.150625,
      "grad_norm": 0.8397467136383057,
      "learning_rate": 0.0002842719086994957,
      "loss": 4.3057,
      "step": 72300
    },
    {
      "epoch": 0.15064583333333334,
      "grad_norm": 0.7988139390945435,
      "learning_rate": 0.00028426751373251014,
      "loss": 4.1139,
      "step": 72310
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.8155728578567505,
      "learning_rate": 0.0002842631181855421,
      "loss": 4.0604,
      "step": 72320
    },
    {
      "epoch": 0.1506875,
      "grad_norm": 0.8597630262374878,
      "learning_rate": 0.0002842587220586105,
      "loss": 4.1989,
      "step": 72330
    },
    {
      "epoch": 0.15070833333333333,
      "grad_norm": 0.8872015476226807,
      "learning_rate": 0.00028425432535173444,
      "loss": 4.09,
      "step": 72340
    },
    {
      "epoch": 0.15072916666666666,
      "grad_norm": 0.8476540446281433,
      "learning_rate": 0.0002842499280649328,
      "loss": 4.0114,
      "step": 72350
    },
    {
      "epoch": 0.15075,
      "grad_norm": 1.010467767715454,
      "learning_rate": 0.00028424553019822454,
      "loss": 4.1479,
      "step": 72360
    },
    {
      "epoch": 0.15077083333333333,
      "grad_norm": 0.8035850524902344,
      "learning_rate": 0.00028424113175162883,
      "loss": 3.9429,
      "step": 72370
    },
    {
      "epoch": 0.15079166666666666,
      "grad_norm": 0.9342857599258423,
      "learning_rate": 0.0002842367327251645,
      "loss": 4.2772,
      "step": 72380
    },
    {
      "epoch": 0.1508125,
      "grad_norm": 0.8058494329452515,
      "learning_rate": 0.0002842323331188507,
      "loss": 4.0163,
      "step": 72390
    },
    {
      "epoch": 0.15083333333333335,
      "grad_norm": 0.798596203327179,
      "learning_rate": 0.00028422793293270625,
      "loss": 4.1167,
      "step": 72400
    },
    {
      "epoch": 0.15085416666666668,
      "grad_norm": 0.9468969702720642,
      "learning_rate": 0.0002842235321667503,
      "loss": 4.193,
      "step": 72410
    },
    {
      "epoch": 0.150875,
      "grad_norm": 0.8557062149047852,
      "learning_rate": 0.0002842191308210018,
      "loss": 3.9282,
      "step": 72420
    },
    {
      "epoch": 0.15089583333333334,
      "grad_norm": 0.9632946252822876,
      "learning_rate": 0.00028421472889547986,
      "loss": 4.0417,
      "step": 72430
    },
    {
      "epoch": 0.15091666666666667,
      "grad_norm": 0.7970291376113892,
      "learning_rate": 0.00028421032639020335,
      "loss": 4.1297,
      "step": 72440
    },
    {
      "epoch": 0.1509375,
      "grad_norm": 0.8678916692733765,
      "learning_rate": 0.0002842059233051914,
      "loss": 4.0103,
      "step": 72450
    },
    {
      "epoch": 0.15095833333333333,
      "grad_norm": 0.8550204038619995,
      "learning_rate": 0.0002842015196404629,
      "loss": 4.3098,
      "step": 72460
    },
    {
      "epoch": 0.15097916666666666,
      "grad_norm": 0.8227178454399109,
      "learning_rate": 0.00028419711539603705,
      "loss": 4.2116,
      "step": 72470
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.9345822930335999,
      "learning_rate": 0.00028419271057193273,
      "loss": 4.0815,
      "step": 72480
    },
    {
      "epoch": 0.15102083333333333,
      "grad_norm": 0.8776127099990845,
      "learning_rate": 0.00028418830516816905,
      "loss": 4.2497,
      "step": 72490
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 0.813051164150238,
      "learning_rate": 0.000284183899184765,
      "loss": 4.2859,
      "step": 72500
    },
    {
      "epoch": 0.1510625,
      "grad_norm": 0.8464831709861755,
      "learning_rate": 0.0002841794926217396,
      "loss": 4.2003,
      "step": 72510
    },
    {
      "epoch": 0.15108333333333332,
      "grad_norm": 0.8783292174339294,
      "learning_rate": 0.00028417508547911186,
      "loss": 3.9562,
      "step": 72520
    },
    {
      "epoch": 0.15110416666666668,
      "grad_norm": 0.795699954032898,
      "learning_rate": 0.00028417067775690093,
      "loss": 4.2858,
      "step": 72530
    },
    {
      "epoch": 0.151125,
      "grad_norm": 0.8856622576713562,
      "learning_rate": 0.0002841662694551258,
      "loss": 4.0407,
      "step": 72540
    },
    {
      "epoch": 0.15114583333333334,
      "grad_norm": 0.7963166832923889,
      "learning_rate": 0.0002841618605738054,
      "loss": 4.2373,
      "step": 72550
    },
    {
      "epoch": 0.15116666666666667,
      "grad_norm": 0.8341985940933228,
      "learning_rate": 0.00028415745111295894,
      "loss": 4.1548,
      "step": 72560
    },
    {
      "epoch": 0.1511875,
      "grad_norm": 0.8292232155799866,
      "learning_rate": 0.0002841530410726054,
      "loss": 4.3895,
      "step": 72570
    },
    {
      "epoch": 0.15120833333333333,
      "grad_norm": 0.8809466361999512,
      "learning_rate": 0.0002841486304527638,
      "loss": 4.06,
      "step": 72580
    },
    {
      "epoch": 0.15122916666666666,
      "grad_norm": 0.8221679925918579,
      "learning_rate": 0.0002841442192534532,
      "loss": 4.1205,
      "step": 72590
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.8579828143119812,
      "learning_rate": 0.00028413980747469267,
      "loss": 3.9935,
      "step": 72600
    },
    {
      "epoch": 0.15127083333333333,
      "grad_norm": 0.8101217746734619,
      "learning_rate": 0.0002841353951165013,
      "loss": 4.1153,
      "step": 72610
    },
    {
      "epoch": 0.15129166666666666,
      "grad_norm": 0.934264063835144,
      "learning_rate": 0.00028413098217889806,
      "loss": 4.0424,
      "step": 72620
    },
    {
      "epoch": 0.1513125,
      "grad_norm": 0.8701834082603455,
      "learning_rate": 0.0002841265686619021,
      "loss": 4.041,
      "step": 72630
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 0.8109937310218811,
      "learning_rate": 0.00028412215456553245,
      "loss": 4.1594,
      "step": 72640
    },
    {
      "epoch": 0.15135416666666668,
      "grad_norm": 0.9218535423278809,
      "learning_rate": 0.00028411773988980824,
      "loss": 4.2002,
      "step": 72650
    },
    {
      "epoch": 0.151375,
      "grad_norm": 0.8316851258277893,
      "learning_rate": 0.00028411332463474845,
      "loss": 4.1065,
      "step": 72660
    },
    {
      "epoch": 0.15139583333333334,
      "grad_norm": 0.8270371556282043,
      "learning_rate": 0.0002841089088003721,
      "loss": 4.1657,
      "step": 72670
    },
    {
      "epoch": 0.15141666666666667,
      "grad_norm": 0.8546463251113892,
      "learning_rate": 0.00028410449238669845,
      "loss": 3.9902,
      "step": 72680
    },
    {
      "epoch": 0.1514375,
      "grad_norm": 0.9475865960121155,
      "learning_rate": 0.00028410007539374644,
      "loss": 4.1353,
      "step": 72690
    },
    {
      "epoch": 0.15145833333333333,
      "grad_norm": 0.7683250904083252,
      "learning_rate": 0.0002840956578215352,
      "loss": 4.2797,
      "step": 72700
    },
    {
      "epoch": 0.15147916666666666,
      "grad_norm": 0.8521454334259033,
      "learning_rate": 0.0002840912396700838,
      "loss": 4.2583,
      "step": 72710
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.8279450535774231,
      "learning_rate": 0.0002840868209394113,
      "loss": 4.3528,
      "step": 72720
    },
    {
      "epoch": 0.15152083333333333,
      "grad_norm": 0.7829427123069763,
      "learning_rate": 0.0002840824016295368,
      "loss": 4.2529,
      "step": 72730
    },
    {
      "epoch": 0.15154166666666666,
      "grad_norm": 0.8977162837982178,
      "learning_rate": 0.0002840779817404794,
      "loss": 4.1839,
      "step": 72740
    },
    {
      "epoch": 0.1515625,
      "grad_norm": 0.8252869844436646,
      "learning_rate": 0.00028407356127225825,
      "loss": 3.962,
      "step": 72750
    },
    {
      "epoch": 0.15158333333333332,
      "grad_norm": 0.8143267035484314,
      "learning_rate": 0.0002840691402248923,
      "loss": 4.2097,
      "step": 72760
    },
    {
      "epoch": 0.15160416666666668,
      "grad_norm": 0.7009255886077881,
      "learning_rate": 0.00028406471859840083,
      "loss": 4.2456,
      "step": 72770
    },
    {
      "epoch": 0.151625,
      "grad_norm": 0.9244325757026672,
      "learning_rate": 0.00028406029639280276,
      "loss": 4.0947,
      "step": 72780
    },
    {
      "epoch": 0.15164583333333334,
      "grad_norm": 0.8539887070655823,
      "learning_rate": 0.0002840558736081173,
      "loss": 4.1673,
      "step": 72790
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 0.9800919890403748,
      "learning_rate": 0.00028405145024436356,
      "loss": 4.1707,
      "step": 72800
    },
    {
      "epoch": 0.1516875,
      "grad_norm": 0.8065639734268188,
      "learning_rate": 0.00028404702630156054,
      "loss": 4.1502,
      "step": 72810
    },
    {
      "epoch": 0.15170833333333333,
      "grad_norm": 0.819710910320282,
      "learning_rate": 0.0002840426017797275,
      "loss": 4.3835,
      "step": 72820
    },
    {
      "epoch": 0.15172916666666666,
      "grad_norm": 0.8646714687347412,
      "learning_rate": 0.00028403817667888346,
      "loss": 4.1579,
      "step": 72830
    },
    {
      "epoch": 0.15175,
      "grad_norm": 0.8850083351135254,
      "learning_rate": 0.0002840337509990475,
      "loss": 4.2978,
      "step": 72840
    },
    {
      "epoch": 0.15177083333333333,
      "grad_norm": 0.8020105957984924,
      "learning_rate": 0.0002840293247402388,
      "loss": 3.9834,
      "step": 72850
    },
    {
      "epoch": 0.15179166666666666,
      "grad_norm": 0.8384653329849243,
      "learning_rate": 0.0002840248979024765,
      "loss": 4.0126,
      "step": 72860
    },
    {
      "epoch": 0.1518125,
      "grad_norm": 0.7997090816497803,
      "learning_rate": 0.00028402047048577974,
      "loss": 4.0585,
      "step": 72870
    },
    {
      "epoch": 0.15183333333333332,
      "grad_norm": 1.068175196647644,
      "learning_rate": 0.0002840160424901676,
      "loss": 4.1769,
      "step": 72880
    },
    {
      "epoch": 0.15185416666666668,
      "grad_norm": 0.8183382749557495,
      "learning_rate": 0.00028401161391565906,
      "loss": 4.0343,
      "step": 72890
    },
    {
      "epoch": 0.151875,
      "grad_norm": 0.8309537768363953,
      "learning_rate": 0.00028400718476227353,
      "loss": 4.1906,
      "step": 72900
    },
    {
      "epoch": 0.15189583333333334,
      "grad_norm": 0.9344305396080017,
      "learning_rate": 0.00028400275503003,
      "loss": 4.2707,
      "step": 72910
    },
    {
      "epoch": 0.15191666666666667,
      "grad_norm": 0.8768814206123352,
      "learning_rate": 0.0002839983247189475,
      "loss": 4.1042,
      "step": 72920
    },
    {
      "epoch": 0.1519375,
      "grad_norm": 0.8259264230728149,
      "learning_rate": 0.00028399389382904535,
      "loss": 4.0359,
      "step": 72930
    },
    {
      "epoch": 0.15195833333333333,
      "grad_norm": 0.8432446718215942,
      "learning_rate": 0.0002839894623603426,
      "loss": 4.174,
      "step": 72940
    },
    {
      "epoch": 0.15197916666666667,
      "grad_norm": 0.9163107872009277,
      "learning_rate": 0.00028398503031285845,
      "loss": 4.1346,
      "step": 72950
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.9873649477958679,
      "learning_rate": 0.00028398059768661204,
      "loss": 4.1547,
      "step": 72960
    },
    {
      "epoch": 0.15202083333333333,
      "grad_norm": 0.9000191688537598,
      "learning_rate": 0.00028397616448162235,
      "loss": 4.1781,
      "step": 72970
    },
    {
      "epoch": 0.15204166666666666,
      "grad_norm": 0.879064679145813,
      "learning_rate": 0.00028397173069790875,
      "loss": 4.2853,
      "step": 72980
    },
    {
      "epoch": 0.1520625,
      "grad_norm": 0.7864410281181335,
      "learning_rate": 0.00028396729633549026,
      "loss": 4.2619,
      "step": 72990
    },
    {
      "epoch": 0.15208333333333332,
      "grad_norm": 0.8437813520431519,
      "learning_rate": 0.0002839628613943861,
      "loss": 4.1798,
      "step": 73000
    },
    {
      "epoch": 0.15208333333333332,
      "eval_loss": 3.872903823852539,
      "eval_runtime": 6.8272,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.439,
      "step": 73000
    },
    {
      "epoch": 0.15210416666666668,
      "grad_norm": 0.8579222559928894,
      "learning_rate": 0.0002839584258746154,
      "loss": 4.0691,
      "step": 73010
    },
    {
      "epoch": 0.152125,
      "grad_norm": 0.8721255660057068,
      "learning_rate": 0.00028395398977619735,
      "loss": 4.3373,
      "step": 73020
    },
    {
      "epoch": 0.15214583333333334,
      "grad_norm": 0.8518233895301819,
      "learning_rate": 0.0002839495530991511,
      "loss": 4.0394,
      "step": 73030
    },
    {
      "epoch": 0.15216666666666667,
      "grad_norm": 0.896690309047699,
      "learning_rate": 0.0002839451158434958,
      "loss": 3.9281,
      "step": 73040
    },
    {
      "epoch": 0.1521875,
      "grad_norm": 0.9194319844245911,
      "learning_rate": 0.00028394067800925057,
      "loss": 4.3152,
      "step": 73050
    },
    {
      "epoch": 0.15220833333333333,
      "grad_norm": 0.8351115584373474,
      "learning_rate": 0.0002839362395964346,
      "loss": 4.1624,
      "step": 73060
    },
    {
      "epoch": 0.15222916666666667,
      "grad_norm": 0.8346782922744751,
      "learning_rate": 0.0002839318006050672,
      "loss": 4.2654,
      "step": 73070
    },
    {
      "epoch": 0.15225,
      "grad_norm": 0.9359272718429565,
      "learning_rate": 0.0002839273610351674,
      "loss": 4.2448,
      "step": 73080
    },
    {
      "epoch": 0.15227083333333333,
      "grad_norm": 0.8148699998855591,
      "learning_rate": 0.00028392292088675437,
      "loss": 4.0829,
      "step": 73090
    },
    {
      "epoch": 0.15229166666666666,
      "grad_norm": 0.9141435027122498,
      "learning_rate": 0.0002839184801598473,
      "loss": 4.1668,
      "step": 73100
    },
    {
      "epoch": 0.1523125,
      "grad_norm": 0.8668314814567566,
      "learning_rate": 0.0002839140388544655,
      "loss": 4.1426,
      "step": 73110
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 0.7959186434745789,
      "learning_rate": 0.000283909596970628,
      "loss": 4.2148,
      "step": 73120
    },
    {
      "epoch": 0.15235416666666668,
      "grad_norm": 0.9054257869720459,
      "learning_rate": 0.000283905154508354,
      "loss": 4.0893,
      "step": 73130
    },
    {
      "epoch": 0.152375,
      "grad_norm": 1.005338191986084,
      "learning_rate": 0.0002839007114676628,
      "loss": 4.0285,
      "step": 73140
    },
    {
      "epoch": 0.15239583333333334,
      "grad_norm": 0.839845597743988,
      "learning_rate": 0.00028389626784857357,
      "loss": 4.0555,
      "step": 73150
    },
    {
      "epoch": 0.15241666666666667,
      "grad_norm": 0.8052757382392883,
      "learning_rate": 0.0002838918236511054,
      "loss": 4.0845,
      "step": 73160
    },
    {
      "epoch": 0.1524375,
      "grad_norm": 0.8764341473579407,
      "learning_rate": 0.00028388737887527753,
      "loss": 4.0282,
      "step": 73170
    },
    {
      "epoch": 0.15245833333333333,
      "grad_norm": 1.1049139499664307,
      "learning_rate": 0.00028388293352110927,
      "loss": 4.2378,
      "step": 73180
    },
    {
      "epoch": 0.15247916666666667,
      "grad_norm": 0.8471013903617859,
      "learning_rate": 0.0002838784875886196,
      "loss": 4.1314,
      "step": 73190
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.8996737003326416,
      "learning_rate": 0.000283874041077828,
      "loss": 4.2981,
      "step": 73200
    },
    {
      "epoch": 0.15252083333333333,
      "grad_norm": 0.7885604500770569,
      "learning_rate": 0.0002838695939887535,
      "loss": 4.0238,
      "step": 73210
    },
    {
      "epoch": 0.15254166666666666,
      "grad_norm": 0.799880862236023,
      "learning_rate": 0.0002838651463214152,
      "loss": 3.959,
      "step": 73220
    },
    {
      "epoch": 0.1525625,
      "grad_norm": 0.9115926027297974,
      "learning_rate": 0.00028386069807583264,
      "loss": 4.1788,
      "step": 73230
    },
    {
      "epoch": 0.15258333333333332,
      "grad_norm": 0.8306249380111694,
      "learning_rate": 0.00028385624925202476,
      "loss": 4.1236,
      "step": 73240
    },
    {
      "epoch": 0.15260416666666668,
      "grad_norm": 0.7937423586845398,
      "learning_rate": 0.0002838517998500108,
      "loss": 4.1008,
      "step": 73250
    },
    {
      "epoch": 0.152625,
      "grad_norm": 0.818385660648346,
      "learning_rate": 0.0002838473498698102,
      "loss": 4.1067,
      "step": 73260
    },
    {
      "epoch": 0.15264583333333334,
      "grad_norm": 0.8386120200157166,
      "learning_rate": 0.00028384289931144196,
      "loss": 3.9908,
      "step": 73270
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 0.8567933440208435,
      "learning_rate": 0.00028383844817492536,
      "loss": 4.1928,
      "step": 73280
    },
    {
      "epoch": 0.1526875,
      "grad_norm": 0.9850640296936035,
      "learning_rate": 0.0002838339964602797,
      "loss": 4.2441,
      "step": 73290
    },
    {
      "epoch": 0.15270833333333333,
      "grad_norm": 0.806394636631012,
      "learning_rate": 0.00028382954416752407,
      "loss": 4.2497,
      "step": 73300
    },
    {
      "epoch": 0.15272916666666667,
      "grad_norm": 0.8914094567298889,
      "learning_rate": 0.0002838250912966778,
      "loss": 4.0209,
      "step": 73310
    },
    {
      "epoch": 0.15275,
      "grad_norm": 0.9112488627433777,
      "learning_rate": 0.00028382063784776013,
      "loss": 4.1364,
      "step": 73320
    },
    {
      "epoch": 0.15277083333333333,
      "grad_norm": 0.771261990070343,
      "learning_rate": 0.00028381618382079024,
      "loss": 4.1365,
      "step": 73330
    },
    {
      "epoch": 0.15279166666666666,
      "grad_norm": 0.8049445748329163,
      "learning_rate": 0.00028381172921578744,
      "loss": 4.0541,
      "step": 73340
    },
    {
      "epoch": 0.1528125,
      "grad_norm": 0.8087431788444519,
      "learning_rate": 0.00028380727403277094,
      "loss": 4.2239,
      "step": 73350
    },
    {
      "epoch": 0.15283333333333332,
      "grad_norm": 0.8281452655792236,
      "learning_rate": 0.00028380281827175997,
      "loss": 4.2766,
      "step": 73360
    },
    {
      "epoch": 0.15285416666666668,
      "grad_norm": 0.8725406527519226,
      "learning_rate": 0.00028379836193277377,
      "loss": 4.0501,
      "step": 73370
    },
    {
      "epoch": 0.152875,
      "grad_norm": 0.8028421401977539,
      "learning_rate": 0.00028379390501583166,
      "loss": 4.1298,
      "step": 73380
    },
    {
      "epoch": 0.15289583333333334,
      "grad_norm": 0.9076528549194336,
      "learning_rate": 0.0002837894475209528,
      "loss": 4.2462,
      "step": 73390
    },
    {
      "epoch": 0.15291666666666667,
      "grad_norm": 0.8394501805305481,
      "learning_rate": 0.00028378498944815647,
      "loss": 4.0045,
      "step": 73400
    },
    {
      "epoch": 0.1529375,
      "grad_norm": 1.1819071769714355,
      "learning_rate": 0.00028378053079746194,
      "loss": 4.06,
      "step": 73410
    },
    {
      "epoch": 0.15295833333333334,
      "grad_norm": 0.8459697365760803,
      "learning_rate": 0.00028377607156888847,
      "loss": 4.1278,
      "step": 73420
    },
    {
      "epoch": 0.15297916666666667,
      "grad_norm": 0.8495963215827942,
      "learning_rate": 0.0002837716117624554,
      "loss": 4.1673,
      "step": 73430
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.7644486427307129,
      "learning_rate": 0.00028376715137818184,
      "loss": 4.0997,
      "step": 73440
    },
    {
      "epoch": 0.15302083333333333,
      "grad_norm": 0.8077127933502197,
      "learning_rate": 0.00028376269041608716,
      "loss": 4.2634,
      "step": 73450
    },
    {
      "epoch": 0.15304166666666666,
      "grad_norm": 0.880500078201294,
      "learning_rate": 0.00028375822887619057,
      "loss": 4.1372,
      "step": 73460
    },
    {
      "epoch": 0.1530625,
      "grad_norm": 0.8369247913360596,
      "learning_rate": 0.0002837537667585114,
      "loss": 4.115,
      "step": 73470
    },
    {
      "epoch": 0.15308333333333332,
      "grad_norm": 1.1177374124526978,
      "learning_rate": 0.00028374930406306896,
      "loss": 4.1884,
      "step": 73480
    },
    {
      "epoch": 0.15310416666666668,
      "grad_norm": 0.8078526258468628,
      "learning_rate": 0.0002837448407898824,
      "loss": 4.0666,
      "step": 73490
    },
    {
      "epoch": 0.153125,
      "grad_norm": 0.8324916958808899,
      "learning_rate": 0.0002837403769389711,
      "loss": 4.3478,
      "step": 73500
    },
    {
      "epoch": 0.15314583333333334,
      "grad_norm": 0.7940410375595093,
      "learning_rate": 0.00028373591251035425,
      "loss": 4.0245,
      "step": 73510
    },
    {
      "epoch": 0.15316666666666667,
      "grad_norm": 0.7565882205963135,
      "learning_rate": 0.00028373144750405124,
      "loss": 4.2457,
      "step": 73520
    },
    {
      "epoch": 0.1531875,
      "grad_norm": 0.8324229717254639,
      "learning_rate": 0.0002837269819200813,
      "loss": 4.1894,
      "step": 73530
    },
    {
      "epoch": 0.15320833333333334,
      "grad_norm": 0.8158864378929138,
      "learning_rate": 0.00028372251575846375,
      "loss": 4.3357,
      "step": 73540
    },
    {
      "epoch": 0.15322916666666667,
      "grad_norm": 0.9112265110015869,
      "learning_rate": 0.00028371804901921785,
      "loss": 4.2063,
      "step": 73550
    },
    {
      "epoch": 0.15325,
      "grad_norm": 0.7859649062156677,
      "learning_rate": 0.0002837135817023629,
      "loss": 3.8818,
      "step": 73560
    },
    {
      "epoch": 0.15327083333333333,
      "grad_norm": 0.8259900212287903,
      "learning_rate": 0.0002837091138079182,
      "loss": 3.866,
      "step": 73570
    },
    {
      "epoch": 0.15329166666666666,
      "grad_norm": 0.836732029914856,
      "learning_rate": 0.0002837046453359031,
      "loss": 4.1227,
      "step": 73580
    },
    {
      "epoch": 0.1533125,
      "grad_norm": 0.7985181212425232,
      "learning_rate": 0.00028370017628633683,
      "loss": 4.284,
      "step": 73590
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.8374508619308472,
      "learning_rate": 0.0002836957066592387,
      "loss": 4.0985,
      "step": 73600
    },
    {
      "epoch": 0.15335416666666668,
      "grad_norm": 0.8638392686843872,
      "learning_rate": 0.00028369123645462805,
      "loss": 4.2947,
      "step": 73610
    },
    {
      "epoch": 0.153375,
      "grad_norm": 0.866044282913208,
      "learning_rate": 0.0002836867656725242,
      "loss": 4.2473,
      "step": 73620
    },
    {
      "epoch": 0.15339583333333334,
      "grad_norm": 0.8779436349868774,
      "learning_rate": 0.0002836822943129464,
      "loss": 4.0707,
      "step": 73630
    },
    {
      "epoch": 0.15341666666666667,
      "grad_norm": 0.8467057943344116,
      "learning_rate": 0.00028367782237591403,
      "loss": 4.2973,
      "step": 73640
    },
    {
      "epoch": 0.1534375,
      "grad_norm": 0.874993622303009,
      "learning_rate": 0.00028367334986144637,
      "loss": 4.1668,
      "step": 73650
    },
    {
      "epoch": 0.15345833333333334,
      "grad_norm": 0.7954837679862976,
      "learning_rate": 0.00028366887676956276,
      "loss": 4.1763,
      "step": 73660
    },
    {
      "epoch": 0.15347916666666667,
      "grad_norm": 0.7945029139518738,
      "learning_rate": 0.00028366440310028247,
      "loss": 4.1709,
      "step": 73670
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.8647133708000183,
      "learning_rate": 0.00028365992885362495,
      "loss": 4.2378,
      "step": 73680
    },
    {
      "epoch": 0.15352083333333333,
      "grad_norm": 0.8759845495223999,
      "learning_rate": 0.0002836554540296094,
      "loss": 4.1532,
      "step": 73690
    },
    {
      "epoch": 0.15354166666666666,
      "grad_norm": 0.9198369383811951,
      "learning_rate": 0.00028365097862825513,
      "loss": 4.1725,
      "step": 73700
    },
    {
      "epoch": 0.1535625,
      "grad_norm": 0.8423687219619751,
      "learning_rate": 0.00028364650264958165,
      "loss": 4.0647,
      "step": 73710
    },
    {
      "epoch": 0.15358333333333332,
      "grad_norm": 0.7685789465904236,
      "learning_rate": 0.0002836420260936081,
      "loss": 3.9476,
      "step": 73720
    },
    {
      "epoch": 0.15360416666666668,
      "grad_norm": 0.7905040979385376,
      "learning_rate": 0.00028363754896035395,
      "loss": 4.1558,
      "step": 73730
    },
    {
      "epoch": 0.153625,
      "grad_norm": 0.860365629196167,
      "learning_rate": 0.0002836330712498384,
      "loss": 4.2591,
      "step": 73740
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 0.835586667060852,
      "learning_rate": 0.00028362859296208093,
      "loss": 4.1318,
      "step": 73750
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 0.9229878783226013,
      "learning_rate": 0.00028362411409710086,
      "loss": 4.1649,
      "step": 73760
    },
    {
      "epoch": 0.1536875,
      "grad_norm": 0.9019641876220703,
      "learning_rate": 0.00028361963465491747,
      "loss": 4.2684,
      "step": 73770
    },
    {
      "epoch": 0.15370833333333334,
      "grad_norm": 0.8050775527954102,
      "learning_rate": 0.00028361515463555016,
      "loss": 4.1532,
      "step": 73780
    },
    {
      "epoch": 0.15372916666666667,
      "grad_norm": 0.8196358680725098,
      "learning_rate": 0.0002836106740390183,
      "loss": 4.0666,
      "step": 73790
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.820733368396759,
      "learning_rate": 0.0002836061928653412,
      "loss": 4.0156,
      "step": 73800
    },
    {
      "epoch": 0.15377083333333333,
      "grad_norm": 0.8088135719299316,
      "learning_rate": 0.00028360171111453816,
      "loss": 4.1161,
      "step": 73810
    },
    {
      "epoch": 0.15379166666666666,
      "grad_norm": 0.8511945009231567,
      "learning_rate": 0.0002835972287866287,
      "loss": 4.0777,
      "step": 73820
    },
    {
      "epoch": 0.1538125,
      "grad_norm": 0.8331955075263977,
      "learning_rate": 0.00028359274588163206,
      "loss": 4.1335,
      "step": 73830
    },
    {
      "epoch": 0.15383333333333332,
      "grad_norm": 0.8158172369003296,
      "learning_rate": 0.00028358826239956766,
      "loss": 3.9427,
      "step": 73840
    },
    {
      "epoch": 0.15385416666666665,
      "grad_norm": 0.7425746321678162,
      "learning_rate": 0.0002835837783404548,
      "loss": 3.9814,
      "step": 73850
    },
    {
      "epoch": 0.153875,
      "grad_norm": 0.8538336753845215,
      "learning_rate": 0.00028357929370431294,
      "loss": 4.261,
      "step": 73860
    },
    {
      "epoch": 0.15389583333333334,
      "grad_norm": 0.8826068043708801,
      "learning_rate": 0.0002835748084911614,
      "loss": 4.0069,
      "step": 73870
    },
    {
      "epoch": 0.15391666666666667,
      "grad_norm": 0.8046848177909851,
      "learning_rate": 0.0002835703227010196,
      "loss": 4.1625,
      "step": 73880
    },
    {
      "epoch": 0.1539375,
      "grad_norm": 0.8415055274963379,
      "learning_rate": 0.00028356583633390675,
      "loss": 4.1022,
      "step": 73890
    },
    {
      "epoch": 0.15395833333333334,
      "grad_norm": 0.8442366719245911,
      "learning_rate": 0.00028356134938984246,
      "loss": 4.1254,
      "step": 73900
    },
    {
      "epoch": 0.15397916666666667,
      "grad_norm": 0.8415218591690063,
      "learning_rate": 0.00028355686186884595,
      "loss": 4.2054,
      "step": 73910
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.9745089411735535,
      "learning_rate": 0.0002835523737709367,
      "loss": 4.1219,
      "step": 73920
    },
    {
      "epoch": 0.15402083333333333,
      "grad_norm": 0.8764694929122925,
      "learning_rate": 0.000283547885096134,
      "loss": 4.055,
      "step": 73930
    },
    {
      "epoch": 0.15404166666666666,
      "grad_norm": 0.9252042770385742,
      "learning_rate": 0.0002835433958444574,
      "loss": 4.0706,
      "step": 73940
    },
    {
      "epoch": 0.1540625,
      "grad_norm": 0.8217566609382629,
      "learning_rate": 0.00028353890601592614,
      "loss": 4.277,
      "step": 73950
    },
    {
      "epoch": 0.15408333333333332,
      "grad_norm": 0.8076140284538269,
      "learning_rate": 0.00028353441561055964,
      "loss": 4.2731,
      "step": 73960
    },
    {
      "epoch": 0.15410416666666665,
      "grad_norm": 0.7910528182983398,
      "learning_rate": 0.00028352992462837736,
      "loss": 4.2369,
      "step": 73970
    },
    {
      "epoch": 0.154125,
      "grad_norm": 0.7921415567398071,
      "learning_rate": 0.0002835254330693986,
      "loss": 4.1962,
      "step": 73980
    },
    {
      "epoch": 0.15414583333333334,
      "grad_norm": 0.8800235390663147,
      "learning_rate": 0.0002835209409336429,
      "loss": 4.1743,
      "step": 73990
    },
    {
      "epoch": 0.15416666666666667,
      "grad_norm": 0.8408018946647644,
      "learning_rate": 0.0002835164482211295,
      "loss": 4.1839,
      "step": 74000
    },
    {
      "epoch": 0.15416666666666667,
      "eval_loss": 3.871436595916748,
      "eval_runtime": 6.8246,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.44,
      "step": 74000
    },
    {
      "epoch": 0.1541875,
      "grad_norm": 0.8497956991195679,
      "learning_rate": 0.00028351195493187795,
      "loss": 4.2863,
      "step": 74010
    },
    {
      "epoch": 0.15420833333333334,
      "grad_norm": 0.937881350517273,
      "learning_rate": 0.00028350746106590763,
      "loss": 4.2008,
      "step": 74020
    },
    {
      "epoch": 0.15422916666666667,
      "grad_norm": 0.9237712621688843,
      "learning_rate": 0.00028350296662323787,
      "loss": 4.1956,
      "step": 74030
    },
    {
      "epoch": 0.15425,
      "grad_norm": 0.8722120523452759,
      "learning_rate": 0.0002834984716038882,
      "loss": 4.1355,
      "step": 74040
    },
    {
      "epoch": 0.15427083333333333,
      "grad_norm": 0.8351487517356873,
      "learning_rate": 0.00028349397600787793,
      "loss": 4.2643,
      "step": 74050
    },
    {
      "epoch": 0.15429166666666666,
      "grad_norm": 0.8833941221237183,
      "learning_rate": 0.0002834894798352265,
      "loss": 4.0793,
      "step": 74060
    },
    {
      "epoch": 0.1543125,
      "grad_norm": 0.7775695323944092,
      "learning_rate": 0.0002834849830859534,
      "loss": 4.3267,
      "step": 74070
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 0.7879143357276917,
      "learning_rate": 0.000283480485760078,
      "loss": 4.1694,
      "step": 74080
    },
    {
      "epoch": 0.15435416666666665,
      "grad_norm": 0.7770894765853882,
      "learning_rate": 0.00028347598785761975,
      "loss": 4.1237,
      "step": 74090
    },
    {
      "epoch": 0.154375,
      "grad_norm": 0.8098240494728088,
      "learning_rate": 0.000283471489378598,
      "loss": 4.1248,
      "step": 74100
    },
    {
      "epoch": 0.15439583333333334,
      "grad_norm": 0.8102631568908691,
      "learning_rate": 0.0002834669903230323,
      "loss": 4.1122,
      "step": 74110
    },
    {
      "epoch": 0.15441666666666667,
      "grad_norm": 0.8459537625312805,
      "learning_rate": 0.00028346249069094204,
      "loss": 4.0506,
      "step": 74120
    },
    {
      "epoch": 0.1544375,
      "grad_norm": 0.8897213339805603,
      "learning_rate": 0.0002834579904823467,
      "loss": 4.1652,
      "step": 74130
    },
    {
      "epoch": 0.15445833333333334,
      "grad_norm": 0.7985584735870361,
      "learning_rate": 0.00028345348969726556,
      "loss": 4.1281,
      "step": 74140
    },
    {
      "epoch": 0.15447916666666667,
      "grad_norm": 0.8819072246551514,
      "learning_rate": 0.00028344898833571817,
      "loss": 3.9035,
      "step": 74150
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.9328129291534424,
      "learning_rate": 0.000283444486397724,
      "loss": 4.1255,
      "step": 74160
    },
    {
      "epoch": 0.15452083333333333,
      "grad_norm": 0.8324270248413086,
      "learning_rate": 0.0002834399838833025,
      "loss": 3.9729,
      "step": 74170
    },
    {
      "epoch": 0.15454166666666666,
      "grad_norm": 0.8901928067207336,
      "learning_rate": 0.00028343548079247307,
      "loss": 4.0718,
      "step": 74180
    },
    {
      "epoch": 0.1545625,
      "grad_norm": 0.8284536600112915,
      "learning_rate": 0.0002834309771252552,
      "loss": 4.1598,
      "step": 74190
    },
    {
      "epoch": 0.15458333333333332,
      "grad_norm": 0.9233298897743225,
      "learning_rate": 0.0002834264728816683,
      "loss": 3.9302,
      "step": 74200
    },
    {
      "epoch": 0.15460416666666665,
      "grad_norm": 0.8460274338722229,
      "learning_rate": 0.00028342196806173186,
      "loss": 4.087,
      "step": 74210
    },
    {
      "epoch": 0.154625,
      "grad_norm": 0.8109540343284607,
      "learning_rate": 0.00028341746266546535,
      "loss": 4.1002,
      "step": 74220
    },
    {
      "epoch": 0.15464583333333334,
      "grad_norm": 0.9926044344902039,
      "learning_rate": 0.0002834129566928882,
      "loss": 4.2215,
      "step": 74230
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.8286610245704651,
      "learning_rate": 0.00028340845014401985,
      "loss": 4.2133,
      "step": 74240
    },
    {
      "epoch": 0.1546875,
      "grad_norm": 0.8240143656730652,
      "learning_rate": 0.00028340394301887983,
      "loss": 4.1622,
      "step": 74250
    },
    {
      "epoch": 0.15470833333333334,
      "grad_norm": 0.7496386170387268,
      "learning_rate": 0.0002833994353174876,
      "loss": 4.195,
      "step": 74260
    },
    {
      "epoch": 0.15472916666666667,
      "grad_norm": 0.8640137910842896,
      "learning_rate": 0.0002833949270398626,
      "loss": 3.9914,
      "step": 74270
    },
    {
      "epoch": 0.15475,
      "grad_norm": 0.8374426960945129,
      "learning_rate": 0.0002833904181860243,
      "loss": 4.1685,
      "step": 74280
    },
    {
      "epoch": 0.15477083333333333,
      "grad_norm": 0.8970100283622742,
      "learning_rate": 0.00028338590875599215,
      "loss": 4.0503,
      "step": 74290
    },
    {
      "epoch": 0.15479166666666666,
      "grad_norm": 0.7864412069320679,
      "learning_rate": 0.0002833813987497857,
      "loss": 4.173,
      "step": 74300
    },
    {
      "epoch": 0.1548125,
      "grad_norm": 0.8172029852867126,
      "learning_rate": 0.00028337688816742443,
      "loss": 4.1124,
      "step": 74310
    },
    {
      "epoch": 0.15483333333333332,
      "grad_norm": 0.849861741065979,
      "learning_rate": 0.0002833723770089278,
      "loss": 4.0733,
      "step": 74320
    },
    {
      "epoch": 0.15485416666666665,
      "grad_norm": 0.8009597659111023,
      "learning_rate": 0.00028336786527431533,
      "loss": 4.0848,
      "step": 74330
    },
    {
      "epoch": 0.154875,
      "grad_norm": 0.8539988398551941,
      "learning_rate": 0.00028336335296360644,
      "loss": 4.3507,
      "step": 74340
    },
    {
      "epoch": 0.15489583333333334,
      "grad_norm": 0.9443647861480713,
      "learning_rate": 0.00028335884007682065,
      "loss": 4.1852,
      "step": 74350
    },
    {
      "epoch": 0.15491666666666667,
      "grad_norm": 0.8985183238983154,
      "learning_rate": 0.00028335432661397744,
      "loss": 4.1056,
      "step": 74360
    },
    {
      "epoch": 0.1549375,
      "grad_norm": 0.795485258102417,
      "learning_rate": 0.00028334981257509636,
      "loss": 4.1225,
      "step": 74370
    },
    {
      "epoch": 0.15495833333333334,
      "grad_norm": 0.9049758911132812,
      "learning_rate": 0.00028334529796019683,
      "loss": 4.1813,
      "step": 74380
    },
    {
      "epoch": 0.15497916666666667,
      "grad_norm": 0.8278778195381165,
      "learning_rate": 0.0002833407827692984,
      "loss": 4.2788,
      "step": 74390
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.8015841841697693,
      "learning_rate": 0.0002833362670024206,
      "loss": 4.3053,
      "step": 74400
    },
    {
      "epoch": 0.15502083333333333,
      "grad_norm": 0.8356271982192993,
      "learning_rate": 0.0002833317506595829,
      "loss": 4.1458,
      "step": 74410
    },
    {
      "epoch": 0.15504166666666666,
      "grad_norm": 0.8164114952087402,
      "learning_rate": 0.00028332723374080475,
      "loss": 4.2155,
      "step": 74420
    },
    {
      "epoch": 0.1550625,
      "grad_norm": 0.8836851119995117,
      "learning_rate": 0.0002833227162461058,
      "loss": 4.3037,
      "step": 74430
    },
    {
      "epoch": 0.15508333333333332,
      "grad_norm": 0.8965924382209778,
      "learning_rate": 0.0002833181981755055,
      "loss": 4.1087,
      "step": 74440
    },
    {
      "epoch": 0.15510416666666665,
      "grad_norm": 0.8759450316429138,
      "learning_rate": 0.00028331367952902326,
      "loss": 4.0761,
      "step": 74450
    },
    {
      "epoch": 0.155125,
      "grad_norm": 0.807360053062439,
      "learning_rate": 0.0002833091603066788,
      "loss": 3.9721,
      "step": 74460
    },
    {
      "epoch": 0.15514583333333334,
      "grad_norm": 0.9024627208709717,
      "learning_rate": 0.00028330464050849147,
      "loss": 3.9936,
      "step": 74470
    },
    {
      "epoch": 0.15516666666666667,
      "grad_norm": 0.8610404133796692,
      "learning_rate": 0.00028330012013448087,
      "loss": 4.1514,
      "step": 74480
    },
    {
      "epoch": 0.1551875,
      "grad_norm": 1.4501006603240967,
      "learning_rate": 0.00028329559918466654,
      "loss": 4.1303,
      "step": 74490
    },
    {
      "epoch": 0.15520833333333334,
      "grad_norm": 0.8592519760131836,
      "learning_rate": 0.00028329107765906795,
      "loss": 4.0284,
      "step": 74500
    },
    {
      "epoch": 0.15522916666666667,
      "grad_norm": 0.845856785774231,
      "learning_rate": 0.0002832865555577047,
      "loss": 4.0617,
      "step": 74510
    },
    {
      "epoch": 0.15525,
      "grad_norm": 0.8784416913986206,
      "learning_rate": 0.00028328203288059624,
      "loss": 4.1569,
      "step": 74520
    },
    {
      "epoch": 0.15527083333333333,
      "grad_norm": 0.8437800407409668,
      "learning_rate": 0.0002832775096277622,
      "loss": 4.11,
      "step": 74530
    },
    {
      "epoch": 0.15529166666666666,
      "grad_norm": 0.9225496053695679,
      "learning_rate": 0.00028327298579922203,
      "loss": 4.1162,
      "step": 74540
    },
    {
      "epoch": 0.1553125,
      "grad_norm": 0.8271478414535522,
      "learning_rate": 0.00028326846139499533,
      "loss": 3.9806,
      "step": 74550
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 0.7878422737121582,
      "learning_rate": 0.00028326393641510167,
      "loss": 4.1521,
      "step": 74560
    },
    {
      "epoch": 0.15535416666666665,
      "grad_norm": 0.7756233215332031,
      "learning_rate": 0.0002832594108595605,
      "loss": 4.1799,
      "step": 74570
    },
    {
      "epoch": 0.155375,
      "grad_norm": 0.8328835368156433,
      "learning_rate": 0.00028325488472839144,
      "loss": 4.1859,
      "step": 74580
    },
    {
      "epoch": 0.15539583333333334,
      "grad_norm": 0.8023136854171753,
      "learning_rate": 0.00028325035802161406,
      "loss": 4.2059,
      "step": 74590
    },
    {
      "epoch": 0.15541666666666668,
      "grad_norm": 0.8266851305961609,
      "learning_rate": 0.00028324583073924785,
      "loss": 4.1702,
      "step": 74600
    },
    {
      "epoch": 0.1554375,
      "grad_norm": 0.777258574962616,
      "learning_rate": 0.0002832413028813124,
      "loss": 3.8426,
      "step": 74610
    },
    {
      "epoch": 0.15545833333333334,
      "grad_norm": 0.8401235342025757,
      "learning_rate": 0.00028323677444782723,
      "loss": 4.1073,
      "step": 74620
    },
    {
      "epoch": 0.15547916666666667,
      "grad_norm": 0.8050790429115295,
      "learning_rate": 0.000283232245438812,
      "loss": 4.0146,
      "step": 74630
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.8563116192817688,
      "learning_rate": 0.0002832277158542861,
      "loss": 4.0363,
      "step": 74640
    },
    {
      "epoch": 0.15552083333333333,
      "grad_norm": 0.8086302280426025,
      "learning_rate": 0.0002832231856942693,
      "loss": 3.9652,
      "step": 74650
    },
    {
      "epoch": 0.15554166666666666,
      "grad_norm": 0.7712333798408508,
      "learning_rate": 0.000283218654958781,
      "loss": 4.0428,
      "step": 74660
    },
    {
      "epoch": 0.1555625,
      "grad_norm": 0.9811122417449951,
      "learning_rate": 0.0002832141236478409,
      "loss": 4.0733,
      "step": 74670
    },
    {
      "epoch": 0.15558333333333332,
      "grad_norm": 0.8860672116279602,
      "learning_rate": 0.0002832095917614685,
      "loss": 4.0421,
      "step": 74680
    },
    {
      "epoch": 0.15560416666666665,
      "grad_norm": 0.8231545090675354,
      "learning_rate": 0.0002832050592996834,
      "loss": 4.2741,
      "step": 74690
    },
    {
      "epoch": 0.155625,
      "grad_norm": 0.8622195720672607,
      "learning_rate": 0.00028320052626250514,
      "loss": 3.9112,
      "step": 74700
    },
    {
      "epoch": 0.15564583333333334,
      "grad_norm": 0.8511938452720642,
      "learning_rate": 0.00028319599264995337,
      "loss": 4.2329,
      "step": 74710
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 0.8789461255073547,
      "learning_rate": 0.0002831914584620476,
      "loss": 4.1335,
      "step": 74720
    },
    {
      "epoch": 0.1556875,
      "grad_norm": 0.7823075652122498,
      "learning_rate": 0.00028318692369880743,
      "loss": 4.306,
      "step": 74730
    },
    {
      "epoch": 0.15570833333333334,
      "grad_norm": 0.8728189468383789,
      "learning_rate": 0.0002831823883602525,
      "loss": 4.3169,
      "step": 74740
    },
    {
      "epoch": 0.15572916666666667,
      "grad_norm": 0.9017170667648315,
      "learning_rate": 0.0002831778524464024,
      "loss": 4.309,
      "step": 74750
    },
    {
      "epoch": 0.15575,
      "grad_norm": 0.9018763899803162,
      "learning_rate": 0.0002831733159572767,
      "loss": 4.1474,
      "step": 74760
    },
    {
      "epoch": 0.15577083333333333,
      "grad_norm": 0.8162197470664978,
      "learning_rate": 0.00028316877889289493,
      "loss": 4.0884,
      "step": 74770
    },
    {
      "epoch": 0.15579166666666666,
      "grad_norm": 0.9981333017349243,
      "learning_rate": 0.00028316424125327677,
      "loss": 4.0432,
      "step": 74780
    },
    {
      "epoch": 0.1558125,
      "grad_norm": 0.9915395379066467,
      "learning_rate": 0.00028315970303844176,
      "loss": 4.1063,
      "step": 74790
    },
    {
      "epoch": 0.15583333333333332,
      "grad_norm": 0.7721767425537109,
      "learning_rate": 0.00028315516424840963,
      "loss": 4.0585,
      "step": 74800
    },
    {
      "epoch": 0.15585416666666665,
      "grad_norm": 0.8263862133026123,
      "learning_rate": 0.00028315062488319984,
      "loss": 3.9508,
      "step": 74810
    },
    {
      "epoch": 0.155875,
      "grad_norm": 0.8725813627243042,
      "learning_rate": 0.000283146084942832,
      "loss": 4.1097,
      "step": 74820
    },
    {
      "epoch": 0.15589583333333334,
      "grad_norm": 0.8488046526908875,
      "learning_rate": 0.00028314154442732586,
      "loss": 4.1281,
      "step": 74830
    },
    {
      "epoch": 0.15591666666666668,
      "grad_norm": 0.8410381078720093,
      "learning_rate": 0.0002831370033367009,
      "loss": 4.2168,
      "step": 74840
    },
    {
      "epoch": 0.1559375,
      "grad_norm": 0.9268632531166077,
      "learning_rate": 0.00028313246167097685,
      "loss": 4.1819,
      "step": 74850
    },
    {
      "epoch": 0.15595833333333334,
      "grad_norm": 0.8186191916465759,
      "learning_rate": 0.0002831279194301732,
      "loss": 4.1265,
      "step": 74860
    },
    {
      "epoch": 0.15597916666666667,
      "grad_norm": 0.8415780067443848,
      "learning_rate": 0.00028312337661430965,
      "loss": 4.1865,
      "step": 74870
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.7545207142829895,
      "learning_rate": 0.0002831188332234058,
      "loss": 3.8958,
      "step": 74880
    },
    {
      "epoch": 0.15602083333333333,
      "grad_norm": 0.87469881772995,
      "learning_rate": 0.00028311428925748136,
      "loss": 4.0571,
      "step": 74890
    },
    {
      "epoch": 0.15604166666666666,
      "grad_norm": 0.7828395366668701,
      "learning_rate": 0.00028310974471655576,
      "loss": 4.0056,
      "step": 74900
    },
    {
      "epoch": 0.1560625,
      "grad_norm": 0.769357442855835,
      "learning_rate": 0.0002831051996006488,
      "loss": 3.9201,
      "step": 74910
    },
    {
      "epoch": 0.15608333333333332,
      "grad_norm": 1.5061821937561035,
      "learning_rate": 0.0002831006539097801,
      "loss": 4.3843,
      "step": 74920
    },
    {
      "epoch": 0.15610416666666665,
      "grad_norm": 0.8133761882781982,
      "learning_rate": 0.0002830961076439692,
      "loss": 4.1068,
      "step": 74930
    },
    {
      "epoch": 0.156125,
      "grad_norm": 0.8031749129295349,
      "learning_rate": 0.00028309156080323584,
      "loss": 4.177,
      "step": 74940
    },
    {
      "epoch": 0.15614583333333334,
      "grad_norm": 0.8532628417015076,
      "learning_rate": 0.00028308701338759963,
      "loss": 4.1272,
      "step": 74950
    },
    {
      "epoch": 0.15616666666666668,
      "grad_norm": 0.8751035928726196,
      "learning_rate": 0.0002830824653970802,
      "loss": 4.114,
      "step": 74960
    },
    {
      "epoch": 0.1561875,
      "grad_norm": 0.8903301954269409,
      "learning_rate": 0.00028307791683169716,
      "loss": 4.0875,
      "step": 74970
    },
    {
      "epoch": 0.15620833333333334,
      "grad_norm": 0.787018358707428,
      "learning_rate": 0.0002830733676914702,
      "loss": 4.1885,
      "step": 74980
    },
    {
      "epoch": 0.15622916666666667,
      "grad_norm": 0.8119689226150513,
      "learning_rate": 0.000283068817976419,
      "loss": 3.8663,
      "step": 74990
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.8825644850730896,
      "learning_rate": 0.00028306426768656315,
      "loss": 4.1718,
      "step": 75000
    },
    {
      "epoch": 0.15625,
      "eval_loss": 3.8536038398742676,
      "eval_runtime": 6.7719,
      "eval_samples_per_second": 1.477,
      "eval_steps_per_second": 0.443,
      "step": 75000
    },
    {
      "epoch": 0.15627083333333333,
      "grad_norm": 1.2694852352142334,
      "learning_rate": 0.00028305971682192235,
      "loss": 4.2446,
      "step": 75010
    },
    {
      "epoch": 0.15629166666666666,
      "grad_norm": 0.8911360502243042,
      "learning_rate": 0.0002830551653825162,
      "loss": 4.0713,
      "step": 75020
    },
    {
      "epoch": 0.1563125,
      "grad_norm": 1.267599105834961,
      "learning_rate": 0.0002830506133683645,
      "loss": 4.4457,
      "step": 75030
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 0.9491174221038818,
      "learning_rate": 0.0002830460607794867,
      "loss": 4.0183,
      "step": 75040
    },
    {
      "epoch": 0.15635416666666666,
      "grad_norm": 0.8428274989128113,
      "learning_rate": 0.00028304150761590264,
      "loss": 4.2863,
      "step": 75050
    },
    {
      "epoch": 0.156375,
      "grad_norm": 0.7904595732688904,
      "learning_rate": 0.00028303695387763196,
      "loss": 4.0749,
      "step": 75060
    },
    {
      "epoch": 0.15639583333333335,
      "grad_norm": 0.8345943689346313,
      "learning_rate": 0.0002830323995646943,
      "loss": 4.1563,
      "step": 75070
    },
    {
      "epoch": 0.15641666666666668,
      "grad_norm": 0.8001584410667419,
      "learning_rate": 0.0002830278446771092,
      "loss": 3.9748,
      "step": 75080
    },
    {
      "epoch": 0.1564375,
      "grad_norm": 0.8702452182769775,
      "learning_rate": 0.0002830232892148966,
      "loss": 4.2147,
      "step": 75090
    },
    {
      "epoch": 0.15645833333333334,
      "grad_norm": 0.9349555373191833,
      "learning_rate": 0.000283018733178076,
      "loss": 3.8599,
      "step": 75100
    },
    {
      "epoch": 0.15647916666666667,
      "grad_norm": 0.8618231415748596,
      "learning_rate": 0.0002830141765666671,
      "loss": 3.9131,
      "step": 75110
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.83338862657547,
      "learning_rate": 0.00028300961938068967,
      "loss": 4.2837,
      "step": 75120
    },
    {
      "epoch": 0.15652083333333333,
      "grad_norm": 0.8176785111427307,
      "learning_rate": 0.0002830050616201633,
      "loss": 4.2612,
      "step": 75130
    },
    {
      "epoch": 0.15654166666666666,
      "grad_norm": 0.834917426109314,
      "learning_rate": 0.0002830005032851077,
      "loss": 4.0392,
      "step": 75140
    },
    {
      "epoch": 0.1565625,
      "grad_norm": 1.041205644607544,
      "learning_rate": 0.0002829959443755426,
      "loss": 4.1586,
      "step": 75150
    },
    {
      "epoch": 0.15658333333333332,
      "grad_norm": 0.8040873408317566,
      "learning_rate": 0.0002829913848914876,
      "loss": 3.9987,
      "step": 75160
    },
    {
      "epoch": 0.15660416666666666,
      "grad_norm": 0.9820667505264282,
      "learning_rate": 0.0002829868248329625,
      "loss": 4.1435,
      "step": 75170
    },
    {
      "epoch": 0.156625,
      "grad_norm": 0.8312572836875916,
      "learning_rate": 0.000282982264199987,
      "loss": 4.271,
      "step": 75180
    },
    {
      "epoch": 0.15664583333333335,
      "grad_norm": 0.7898625731468201,
      "learning_rate": 0.0002829777029925807,
      "loss": 4.281,
      "step": 75190
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.7838312387466431,
      "learning_rate": 0.0002829731412107634,
      "loss": 3.9899,
      "step": 75200
    },
    {
      "epoch": 0.1566875,
      "grad_norm": 0.8219974040985107,
      "learning_rate": 0.0002829685788545547,
      "loss": 4.0179,
      "step": 75210
    },
    {
      "epoch": 0.15670833333333334,
      "grad_norm": 0.7249184250831604,
      "learning_rate": 0.0002829640159239744,
      "loss": 4.0054,
      "step": 75220
    },
    {
      "epoch": 0.15672916666666667,
      "grad_norm": 0.8694708347320557,
      "learning_rate": 0.0002829594524190422,
      "loss": 4.1901,
      "step": 75230
    },
    {
      "epoch": 0.15675,
      "grad_norm": 0.92243492603302,
      "learning_rate": 0.0002829548883397778,
      "loss": 4.1871,
      "step": 75240
    },
    {
      "epoch": 0.15677083333333333,
      "grad_norm": 0.8744173645973206,
      "learning_rate": 0.0002829503236862009,
      "loss": 4.1065,
      "step": 75250
    },
    {
      "epoch": 0.15679166666666666,
      "grad_norm": 0.9640555381774902,
      "learning_rate": 0.00028294575845833124,
      "loss": 4.1729,
      "step": 75260
    },
    {
      "epoch": 0.1568125,
      "grad_norm": 1.0593005418777466,
      "learning_rate": 0.0002829411926561885,
      "loss": 4.2246,
      "step": 75270
    },
    {
      "epoch": 0.15683333333333332,
      "grad_norm": 0.841366171836853,
      "learning_rate": 0.0002829366262797925,
      "loss": 4.0272,
      "step": 75280
    },
    {
      "epoch": 0.15685416666666666,
      "grad_norm": 0.9955478310585022,
      "learning_rate": 0.0002829320593291628,
      "loss": 4.1474,
      "step": 75290
    },
    {
      "epoch": 0.156875,
      "grad_norm": 0.8502157330513,
      "learning_rate": 0.00028292749180431926,
      "loss": 4.1985,
      "step": 75300
    },
    {
      "epoch": 0.15689583333333335,
      "grad_norm": 0.8283053636550903,
      "learning_rate": 0.00028292292370528155,
      "loss": 4.04,
      "step": 75310
    },
    {
      "epoch": 0.15691666666666668,
      "grad_norm": 0.8649501204490662,
      "learning_rate": 0.00028291835503206945,
      "loss": 4.0701,
      "step": 75320
    },
    {
      "epoch": 0.1569375,
      "grad_norm": 0.9253791570663452,
      "learning_rate": 0.00028291378578470264,
      "loss": 4.1869,
      "step": 75330
    },
    {
      "epoch": 0.15695833333333334,
      "grad_norm": 1.0582698583602905,
      "learning_rate": 0.00028290921596320096,
      "loss": 3.9769,
      "step": 75340
    },
    {
      "epoch": 0.15697916666666667,
      "grad_norm": 0.810880720615387,
      "learning_rate": 0.000282904645567584,
      "loss": 4.0402,
      "step": 75350
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.9814828634262085,
      "learning_rate": 0.0002829000745978716,
      "loss": 3.9699,
      "step": 75360
    },
    {
      "epoch": 0.15702083333333333,
      "grad_norm": 0.861527144908905,
      "learning_rate": 0.0002828955030540835,
      "loss": 4.1562,
      "step": 75370
    },
    {
      "epoch": 0.15704166666666666,
      "grad_norm": 0.8916001319885254,
      "learning_rate": 0.00028289093093623944,
      "loss": 3.9257,
      "step": 75380
    },
    {
      "epoch": 0.1570625,
      "grad_norm": 0.8261982798576355,
      "learning_rate": 0.00028288635824435913,
      "loss": 4.0702,
      "step": 75390
    },
    {
      "epoch": 0.15708333333333332,
      "grad_norm": 0.8976117968559265,
      "learning_rate": 0.00028288178497846235,
      "loss": 4.0669,
      "step": 75400
    },
    {
      "epoch": 0.15710416666666666,
      "grad_norm": 0.7803845405578613,
      "learning_rate": 0.0002828772111385689,
      "loss": 4.19,
      "step": 75410
    },
    {
      "epoch": 0.157125,
      "grad_norm": 0.97159343957901,
      "learning_rate": 0.00028287263672469845,
      "loss": 4.1082,
      "step": 75420
    },
    {
      "epoch": 0.15714583333333335,
      "grad_norm": 0.8741718530654907,
      "learning_rate": 0.0002828680617368708,
      "loss": 4.3299,
      "step": 75430
    },
    {
      "epoch": 0.15716666666666668,
      "grad_norm": 0.8285888433456421,
      "learning_rate": 0.0002828634861751057,
      "loss": 4.0478,
      "step": 75440
    },
    {
      "epoch": 0.1571875,
      "grad_norm": 0.927038311958313,
      "learning_rate": 0.000282858910039423,
      "loss": 4.1359,
      "step": 75450
    },
    {
      "epoch": 0.15720833333333334,
      "grad_norm": 0.7622686624526978,
      "learning_rate": 0.0002828543333298424,
      "loss": 4.1474,
      "step": 75460
    },
    {
      "epoch": 0.15722916666666667,
      "grad_norm": 0.8444673418998718,
      "learning_rate": 0.0002828497560463836,
      "loss": 4.2748,
      "step": 75470
    },
    {
      "epoch": 0.15725,
      "grad_norm": 0.8433659672737122,
      "learning_rate": 0.00028284517818906647,
      "loss": 3.9874,
      "step": 75480
    },
    {
      "epoch": 0.15727083333333333,
      "grad_norm": 0.8179491758346558,
      "learning_rate": 0.00028284059975791073,
      "loss": 4.0947,
      "step": 75490
    },
    {
      "epoch": 0.15729166666666666,
      "grad_norm": 0.7832548022270203,
      "learning_rate": 0.0002828360207529362,
      "loss": 4.0662,
      "step": 75500
    },
    {
      "epoch": 0.1573125,
      "grad_norm": 0.8874412775039673,
      "learning_rate": 0.0002828314411741627,
      "loss": 3.9888,
      "step": 75510
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.7749356031417847,
      "learning_rate": 0.0002828268610216099,
      "loss": 3.9809,
      "step": 75520
    },
    {
      "epoch": 0.15735416666666666,
      "grad_norm": 0.8354629278182983,
      "learning_rate": 0.00028282228029529756,
      "loss": 4.1377,
      "step": 75530
    },
    {
      "epoch": 0.157375,
      "grad_norm": 0.8530081510543823,
      "learning_rate": 0.0002828176989952457,
      "loss": 4.0509,
      "step": 75540
    },
    {
      "epoch": 0.15739583333333335,
      "grad_norm": 0.8302436470985413,
      "learning_rate": 0.0002828131171214738,
      "loss": 4.0279,
      "step": 75550
    },
    {
      "epoch": 0.15741666666666668,
      "grad_norm": 0.8164113759994507,
      "learning_rate": 0.0002828085346740019,
      "loss": 4.2222,
      "step": 75560
    },
    {
      "epoch": 0.1574375,
      "grad_norm": 0.831107497215271,
      "learning_rate": 0.00028280395165284966,
      "loss": 4.1213,
      "step": 75570
    },
    {
      "epoch": 0.15745833333333334,
      "grad_norm": 0.7947114109992981,
      "learning_rate": 0.00028279936805803693,
      "loss": 4.0852,
      "step": 75580
    },
    {
      "epoch": 0.15747916666666667,
      "grad_norm": 0.806511402130127,
      "learning_rate": 0.00028279478388958346,
      "loss": 4.0988,
      "step": 75590
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.8306264877319336,
      "learning_rate": 0.00028279019914750913,
      "loss": 4.0481,
      "step": 75600
    },
    {
      "epoch": 0.15752083333333333,
      "grad_norm": 0.8861369490623474,
      "learning_rate": 0.00028278561383183375,
      "loss": 4.2636,
      "step": 75610
    },
    {
      "epoch": 0.15754166666666666,
      "grad_norm": 0.7859627604484558,
      "learning_rate": 0.000282781027942577,
      "loss": 4.2133,
      "step": 75620
    },
    {
      "epoch": 0.1575625,
      "grad_norm": 0.8646330237388611,
      "learning_rate": 0.0002827764414797588,
      "loss": 4.1642,
      "step": 75630
    },
    {
      "epoch": 0.15758333333333333,
      "grad_norm": 1.1409499645233154,
      "learning_rate": 0.0002827718544433989,
      "loss": 4.0983,
      "step": 75640
    },
    {
      "epoch": 0.15760416666666666,
      "grad_norm": 0.8702101111412048,
      "learning_rate": 0.0002827672668335172,
      "loss": 4.2588,
      "step": 75650
    },
    {
      "epoch": 0.157625,
      "grad_norm": 0.7883472442626953,
      "learning_rate": 0.0002827626786501334,
      "loss": 4.1525,
      "step": 75660
    },
    {
      "epoch": 0.15764583333333335,
      "grad_norm": 0.865688145160675,
      "learning_rate": 0.00028275808989326745,
      "loss": 4.2401,
      "step": 75670
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 0.8461674451828003,
      "learning_rate": 0.00028275350056293903,
      "loss": 4.0131,
      "step": 75680
    },
    {
      "epoch": 0.1576875,
      "grad_norm": 0.9523751735687256,
      "learning_rate": 0.00028274891065916807,
      "loss": 4.0016,
      "step": 75690
    },
    {
      "epoch": 0.15770833333333334,
      "grad_norm": 0.8870347142219543,
      "learning_rate": 0.00028274432018197433,
      "loss": 4.1649,
      "step": 75700
    },
    {
      "epoch": 0.15772916666666667,
      "grad_norm": 0.8261807560920715,
      "learning_rate": 0.0002827397291313777,
      "loss": 4.0001,
      "step": 75710
    },
    {
      "epoch": 0.15775,
      "grad_norm": 0.8945447206497192,
      "learning_rate": 0.000282735137507398,
      "loss": 4.0819,
      "step": 75720
    },
    {
      "epoch": 0.15777083333333333,
      "grad_norm": 0.7626144886016846,
      "learning_rate": 0.000282730545310055,
      "loss": 4.2065,
      "step": 75730
    },
    {
      "epoch": 0.15779166666666666,
      "grad_norm": 0.789337694644928,
      "learning_rate": 0.0002827259525393686,
      "loss": 4.0327,
      "step": 75740
    },
    {
      "epoch": 0.1578125,
      "grad_norm": 0.9547308087348938,
      "learning_rate": 0.0002827213591953586,
      "loss": 4.2191,
      "step": 75750
    },
    {
      "epoch": 0.15783333333333333,
      "grad_norm": 0.8892831802368164,
      "learning_rate": 0.0002827167652780449,
      "loss": 4.0282,
      "step": 75760
    },
    {
      "epoch": 0.15785416666666666,
      "grad_norm": 0.8667500615119934,
      "learning_rate": 0.0002827121707874473,
      "loss": 4.1177,
      "step": 75770
    },
    {
      "epoch": 0.157875,
      "grad_norm": 0.8769574761390686,
      "learning_rate": 0.00028270757572358566,
      "loss": 4.2612,
      "step": 75780
    },
    {
      "epoch": 0.15789583333333335,
      "grad_norm": 0.9940600991249084,
      "learning_rate": 0.0002827029800864798,
      "loss": 3.9026,
      "step": 75790
    },
    {
      "epoch": 0.15791666666666668,
      "grad_norm": 0.930560827255249,
      "learning_rate": 0.00028269838387614963,
      "loss": 4.0518,
      "step": 75800
    },
    {
      "epoch": 0.1579375,
      "grad_norm": 0.8057029843330383,
      "learning_rate": 0.0002826937870926149,
      "loss": 3.9475,
      "step": 75810
    },
    {
      "epoch": 0.15795833333333334,
      "grad_norm": 0.8377306461334229,
      "learning_rate": 0.0002826891897358956,
      "loss": 4.2213,
      "step": 75820
    },
    {
      "epoch": 0.15797916666666667,
      "grad_norm": 0.8756352066993713,
      "learning_rate": 0.0002826845918060115,
      "loss": 3.8799,
      "step": 75830
    },
    {
      "epoch": 0.158,
      "grad_norm": 1.0132591724395752,
      "learning_rate": 0.0002826799933029825,
      "loss": 4.3254,
      "step": 75840
    },
    {
      "epoch": 0.15802083333333333,
      "grad_norm": 0.8964514136314392,
      "learning_rate": 0.00028267539422682845,
      "loss": 4.2986,
      "step": 75850
    },
    {
      "epoch": 0.15804166666666666,
      "grad_norm": 0.8726548552513123,
      "learning_rate": 0.00028267079457756916,
      "loss": 4.0566,
      "step": 75860
    },
    {
      "epoch": 0.1580625,
      "grad_norm": 0.9167823195457458,
      "learning_rate": 0.00028266619435522456,
      "loss": 4.2163,
      "step": 75870
    },
    {
      "epoch": 0.15808333333333333,
      "grad_norm": 0.838969886302948,
      "learning_rate": 0.00028266159355981455,
      "loss": 4.163,
      "step": 75880
    },
    {
      "epoch": 0.15810416666666666,
      "grad_norm": 0.7856587767601013,
      "learning_rate": 0.00028265699219135897,
      "loss": 4.2237,
      "step": 75890
    },
    {
      "epoch": 0.158125,
      "grad_norm": 0.835617184638977,
      "learning_rate": 0.00028265239024987765,
      "loss": 4.1448,
      "step": 75900
    },
    {
      "epoch": 0.15814583333333335,
      "grad_norm": 0.7809287905693054,
      "learning_rate": 0.00028264778773539055,
      "loss": 4.2187,
      "step": 75910
    },
    {
      "epoch": 0.15816666666666668,
      "grad_norm": 0.8346167802810669,
      "learning_rate": 0.0002826431846479175,
      "loss": 4.2681,
      "step": 75920
    },
    {
      "epoch": 0.1581875,
      "grad_norm": 0.8667784333229065,
      "learning_rate": 0.0002826385809874784,
      "loss": 4.2267,
      "step": 75930
    },
    {
      "epoch": 0.15820833333333334,
      "grad_norm": 0.8813807368278503,
      "learning_rate": 0.0002826339767540931,
      "loss": 4.2137,
      "step": 75940
    },
    {
      "epoch": 0.15822916666666667,
      "grad_norm": 0.803220272064209,
      "learning_rate": 0.0002826293719477816,
      "loss": 4.0353,
      "step": 75950
    },
    {
      "epoch": 0.15825,
      "grad_norm": 0.7818241119384766,
      "learning_rate": 0.00028262476656856365,
      "loss": 4.2377,
      "step": 75960
    },
    {
      "epoch": 0.15827083333333333,
      "grad_norm": 0.8332731127738953,
      "learning_rate": 0.00028262016061645923,
      "loss": 4.0415,
      "step": 75970
    },
    {
      "epoch": 0.15829166666666666,
      "grad_norm": 1.185210108757019,
      "learning_rate": 0.0002826155540914882,
      "loss": 4.0544,
      "step": 75980
    },
    {
      "epoch": 0.1583125,
      "grad_norm": 0.8361872434616089,
      "learning_rate": 0.0002826109469936704,
      "loss": 4.183,
      "step": 75990
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 0.7899562120437622,
      "learning_rate": 0.0002826063393230259,
      "loss": 4.0316,
      "step": 76000
    },
    {
      "epoch": 0.15833333333333333,
      "eval_loss": 3.8605422973632812,
      "eval_runtime": 7.2324,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 76000
    },
    {
      "epoch": 0.15835416666666666,
      "grad_norm": 0.9053452610969543,
      "learning_rate": 0.00028260173107957454,
      "loss": 4.0517,
      "step": 76010
    },
    {
      "epoch": 0.158375,
      "grad_norm": 0.790431797504425,
      "learning_rate": 0.00028259712226333606,
      "loss": 4.2018,
      "step": 76020
    },
    {
      "epoch": 0.15839583333333335,
      "grad_norm": 0.7955266833305359,
      "learning_rate": 0.0002825925128743306,
      "loss": 3.8215,
      "step": 76030
    },
    {
      "epoch": 0.15841666666666668,
      "grad_norm": 0.8935329914093018,
      "learning_rate": 0.0002825879029125779,
      "loss": 4.0645,
      "step": 76040
    },
    {
      "epoch": 0.1584375,
      "grad_norm": 0.7656924724578857,
      "learning_rate": 0.00028258329237809796,
      "loss": 4.1147,
      "step": 76050
    },
    {
      "epoch": 0.15845833333333334,
      "grad_norm": 0.8285855054855347,
      "learning_rate": 0.0002825786812709107,
      "loss": 4.1444,
      "step": 76060
    },
    {
      "epoch": 0.15847916666666667,
      "grad_norm": 0.9230244755744934,
      "learning_rate": 0.000282574069591036,
      "loss": 4.2108,
      "step": 76070
    },
    {
      "epoch": 0.1585,
      "grad_norm": 0.8000686764717102,
      "learning_rate": 0.0002825694573384938,
      "loss": 4.0937,
      "step": 76080
    },
    {
      "epoch": 0.15852083333333333,
      "grad_norm": 0.8563593626022339,
      "learning_rate": 0.00028256484451330403,
      "loss": 4.0537,
      "step": 76090
    },
    {
      "epoch": 0.15854166666666666,
      "grad_norm": 0.8468310832977295,
      "learning_rate": 0.00028256023111548656,
      "loss": 4.3024,
      "step": 76100
    },
    {
      "epoch": 0.1585625,
      "grad_norm": 0.8214155435562134,
      "learning_rate": 0.0002825556171450614,
      "loss": 4.1904,
      "step": 76110
    },
    {
      "epoch": 0.15858333333333333,
      "grad_norm": 0.863140344619751,
      "learning_rate": 0.00028255100260204843,
      "loss": 4.216,
      "step": 76120
    },
    {
      "epoch": 0.15860416666666666,
      "grad_norm": 0.8656866550445557,
      "learning_rate": 0.0002825463874864676,
      "loss": 4.0184,
      "step": 76130
    },
    {
      "epoch": 0.158625,
      "grad_norm": 0.9502271413803101,
      "learning_rate": 0.0002825417717983388,
      "loss": 4.0291,
      "step": 76140
    },
    {
      "epoch": 0.15864583333333335,
      "grad_norm": 0.8180139660835266,
      "learning_rate": 0.0002825371555376821,
      "loss": 4.2078,
      "step": 76150
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.8406869769096375,
      "learning_rate": 0.0002825325387045173,
      "loss": 4.1741,
      "step": 76160
    },
    {
      "epoch": 0.1586875,
      "grad_norm": 0.9045135974884033,
      "learning_rate": 0.0002825279212988644,
      "loss": 4.306,
      "step": 76170
    },
    {
      "epoch": 0.15870833333333334,
      "grad_norm": 0.8735708594322205,
      "learning_rate": 0.0002825233033207433,
      "loss": 4.2381,
      "step": 76180
    },
    {
      "epoch": 0.15872916666666667,
      "grad_norm": 0.7837254405021667,
      "learning_rate": 0.00028251868477017404,
      "loss": 4.0049,
      "step": 76190
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.9313592314720154,
      "learning_rate": 0.0002825140656471765,
      "loss": 4.3457,
      "step": 76200
    },
    {
      "epoch": 0.15877083333333333,
      "grad_norm": 0.8581035733222961,
      "learning_rate": 0.0002825094459517706,
      "loss": 4.1417,
      "step": 76210
    },
    {
      "epoch": 0.15879166666666666,
      "grad_norm": 0.8914719820022583,
      "learning_rate": 0.00028250482568397637,
      "loss": 4.1517,
      "step": 76220
    },
    {
      "epoch": 0.1588125,
      "grad_norm": 0.8045346736907959,
      "learning_rate": 0.0002825002048438138,
      "loss": 4.2536,
      "step": 76230
    },
    {
      "epoch": 0.15883333333333333,
      "grad_norm": 0.8112636208534241,
      "learning_rate": 0.00028249558343130274,
      "loss": 3.9685,
      "step": 76240
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 0.829628586769104,
      "learning_rate": 0.00028249096144646323,
      "loss": 4.1323,
      "step": 76250
    },
    {
      "epoch": 0.158875,
      "grad_norm": 0.8258901834487915,
      "learning_rate": 0.0002824863388893152,
      "loss": 4.2145,
      "step": 76260
    },
    {
      "epoch": 0.15889583333333332,
      "grad_norm": 0.8166697025299072,
      "learning_rate": 0.0002824817157598786,
      "loss": 4.0604,
      "step": 76270
    },
    {
      "epoch": 0.15891666666666668,
      "grad_norm": 0.8518900275230408,
      "learning_rate": 0.0002824770920581735,
      "loss": 4.2079,
      "step": 76280
    },
    {
      "epoch": 0.1589375,
      "grad_norm": 0.8792696595191956,
      "learning_rate": 0.00028247246778421975,
      "loss": 4.0649,
      "step": 76290
    },
    {
      "epoch": 0.15895833333333334,
      "grad_norm": 0.8338361978530884,
      "learning_rate": 0.00028246784293803736,
      "loss": 4.0587,
      "step": 76300
    },
    {
      "epoch": 0.15897916666666667,
      "grad_norm": 0.7983812689781189,
      "learning_rate": 0.00028246321751964633,
      "loss": 4.0808,
      "step": 76310
    },
    {
      "epoch": 0.159,
      "grad_norm": 1.01896333694458,
      "learning_rate": 0.00028245859152906664,
      "loss": 4.2311,
      "step": 76320
    },
    {
      "epoch": 0.15902083333333333,
      "grad_norm": 0.7696061730384827,
      "learning_rate": 0.0002824539649663183,
      "loss": 4.1555,
      "step": 76330
    },
    {
      "epoch": 0.15904166666666666,
      "grad_norm": 0.8230576515197754,
      "learning_rate": 0.0002824493378314212,
      "loss": 4.2454,
      "step": 76340
    },
    {
      "epoch": 0.1590625,
      "grad_norm": 0.7973648309707642,
      "learning_rate": 0.0002824447101243954,
      "loss": 4.2343,
      "step": 76350
    },
    {
      "epoch": 0.15908333333333333,
      "grad_norm": 0.9254984259605408,
      "learning_rate": 0.0002824400818452609,
      "loss": 3.9739,
      "step": 76360
    },
    {
      "epoch": 0.15910416666666666,
      "grad_norm": 0.8009182810783386,
      "learning_rate": 0.00028243545299403767,
      "loss": 4.212,
      "step": 76370
    },
    {
      "epoch": 0.159125,
      "grad_norm": 0.7984839677810669,
      "learning_rate": 0.0002824308235707457,
      "loss": 4.1768,
      "step": 76380
    },
    {
      "epoch": 0.15914583333333332,
      "grad_norm": 0.8737035393714905,
      "learning_rate": 0.000282426193575405,
      "loss": 4.1024,
      "step": 76390
    },
    {
      "epoch": 0.15916666666666668,
      "grad_norm": 0.8572366237640381,
      "learning_rate": 0.0002824215630080356,
      "loss": 4.0741,
      "step": 76400
    },
    {
      "epoch": 0.1591875,
      "grad_norm": 0.9130403995513916,
      "learning_rate": 0.0002824169318686574,
      "loss": 4.0293,
      "step": 76410
    },
    {
      "epoch": 0.15920833333333334,
      "grad_norm": 0.8799346685409546,
      "learning_rate": 0.00028241230015729047,
      "loss": 4.2408,
      "step": 76420
    },
    {
      "epoch": 0.15922916666666667,
      "grad_norm": 0.8634562492370605,
      "learning_rate": 0.00028240766787395485,
      "loss": 4.243,
      "step": 76430
    },
    {
      "epoch": 0.15925,
      "grad_norm": 0.8274569511413574,
      "learning_rate": 0.0002824030350186705,
      "loss": 3.966,
      "step": 76440
    },
    {
      "epoch": 0.15927083333333333,
      "grad_norm": 0.8102479577064514,
      "learning_rate": 0.0002823984015914574,
      "loss": 4.0232,
      "step": 76450
    },
    {
      "epoch": 0.15929166666666666,
      "grad_norm": 0.8318132758140564,
      "learning_rate": 0.0002823937675923357,
      "loss": 4.1176,
      "step": 76460
    },
    {
      "epoch": 0.1593125,
      "grad_norm": 0.7933847904205322,
      "learning_rate": 0.00028238913302132526,
      "loss": 4.0503,
      "step": 76470
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 0.822691023349762,
      "learning_rate": 0.0002823844978784462,
      "loss": 4.1517,
      "step": 76480
    },
    {
      "epoch": 0.15935416666666666,
      "grad_norm": 0.8604323267936707,
      "learning_rate": 0.0002823798621637185,
      "loss": 4.1399,
      "step": 76490
    },
    {
      "epoch": 0.159375,
      "grad_norm": 0.8387013077735901,
      "learning_rate": 0.0002823752258771622,
      "loss": 3.88,
      "step": 76500
    },
    {
      "epoch": 0.15939583333333332,
      "grad_norm": 0.8968395590782166,
      "learning_rate": 0.00028237058901879733,
      "loss": 4.1528,
      "step": 76510
    },
    {
      "epoch": 0.15941666666666668,
      "grad_norm": 0.7992287874221802,
      "learning_rate": 0.0002823659515886439,
      "loss": 4.1455,
      "step": 76520
    },
    {
      "epoch": 0.1594375,
      "grad_norm": 0.8884223103523254,
      "learning_rate": 0.0002823613135867219,
      "loss": 4.1473,
      "step": 76530
    },
    {
      "epoch": 0.15945833333333334,
      "grad_norm": 0.8799331188201904,
      "learning_rate": 0.0002823566750130515,
      "loss": 4.199,
      "step": 76540
    },
    {
      "epoch": 0.15947916666666667,
      "grad_norm": 0.795673131942749,
      "learning_rate": 0.00028235203586765263,
      "loss": 4.2486,
      "step": 76550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.827114462852478,
      "learning_rate": 0.0002823473961505454,
      "loss": 4.0525,
      "step": 76560
    },
    {
      "epoch": 0.15952083333333333,
      "grad_norm": 0.790838360786438,
      "learning_rate": 0.00028234275586174975,
      "loss": 4.1958,
      "step": 76570
    },
    {
      "epoch": 0.15954166666666666,
      "grad_norm": 0.8196991682052612,
      "learning_rate": 0.00028233811500128576,
      "loss": 4.2925,
      "step": 76580
    },
    {
      "epoch": 0.1595625,
      "grad_norm": 0.9129819869995117,
      "learning_rate": 0.0002823334735691736,
      "loss": 4.2686,
      "step": 76590
    },
    {
      "epoch": 0.15958333333333333,
      "grad_norm": 0.8879945874214172,
      "learning_rate": 0.0002823288315654331,
      "loss": 4.0374,
      "step": 76600
    },
    {
      "epoch": 0.15960416666666666,
      "grad_norm": 0.8048588633537292,
      "learning_rate": 0.0002823241889900844,
      "loss": 4.0243,
      "step": 76610
    },
    {
      "epoch": 0.159625,
      "grad_norm": 0.7950271368026733,
      "learning_rate": 0.00028231954584314765,
      "loss": 4.1078,
      "step": 76620
    },
    {
      "epoch": 0.15964583333333332,
      "grad_norm": 0.800313413143158,
      "learning_rate": 0.00028231490212464287,
      "loss": 4.1325,
      "step": 76630
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 1.7808396816253662,
      "learning_rate": 0.0002823102578345901,
      "loss": 4.0148,
      "step": 76640
    },
    {
      "epoch": 0.1596875,
      "grad_norm": 0.7925341725349426,
      "learning_rate": 0.0002823056129730093,
      "loss": 4.0473,
      "step": 76650
    },
    {
      "epoch": 0.15970833333333334,
      "grad_norm": 0.9230359196662903,
      "learning_rate": 0.00028230096753992066,
      "loss": 4.1021,
      "step": 76660
    },
    {
      "epoch": 0.15972916666666667,
      "grad_norm": 0.9399831891059875,
      "learning_rate": 0.00028229632153534416,
      "loss": 4.261,
      "step": 76670
    },
    {
      "epoch": 0.15975,
      "grad_norm": 0.7965891361236572,
      "learning_rate": 0.0002822916749593,
      "loss": 4.1737,
      "step": 76680
    },
    {
      "epoch": 0.15977083333333333,
      "grad_norm": 0.8244149088859558,
      "learning_rate": 0.0002822870278118082,
      "loss": 4.0309,
      "step": 76690
    },
    {
      "epoch": 0.15979166666666667,
      "grad_norm": 0.818636953830719,
      "learning_rate": 0.0002822823800928887,
      "loss": 4.2884,
      "step": 76700
    },
    {
      "epoch": 0.1598125,
      "grad_norm": 0.7604424357414246,
      "learning_rate": 0.0002822777318025617,
      "loss": 3.872,
      "step": 76710
    },
    {
      "epoch": 0.15983333333333333,
      "grad_norm": 0.8210691213607788,
      "learning_rate": 0.00028227308294084726,
      "loss": 4.0859,
      "step": 76720
    },
    {
      "epoch": 0.15985416666666666,
      "grad_norm": 0.7866397500038147,
      "learning_rate": 0.0002822684335077655,
      "loss": 4.1137,
      "step": 76730
    },
    {
      "epoch": 0.159875,
      "grad_norm": 0.788830041885376,
      "learning_rate": 0.0002822637835033364,
      "loss": 4.1523,
      "step": 76740
    },
    {
      "epoch": 0.15989583333333332,
      "grad_norm": 0.9414590001106262,
      "learning_rate": 0.0002822591329275802,
      "loss": 4.0215,
      "step": 76750
    },
    {
      "epoch": 0.15991666666666668,
      "grad_norm": 0.8289808630943298,
      "learning_rate": 0.00028225448178051686,
      "loss": 4.1663,
      "step": 76760
    },
    {
      "epoch": 0.1599375,
      "grad_norm": 0.8566505908966064,
      "learning_rate": 0.00028224983006216645,
      "loss": 4.0226,
      "step": 76770
    },
    {
      "epoch": 0.15995833333333334,
      "grad_norm": 0.8301358819007874,
      "learning_rate": 0.00028224517777254916,
      "loss": 4.2077,
      "step": 76780
    },
    {
      "epoch": 0.15997916666666667,
      "grad_norm": 0.8859506249427795,
      "learning_rate": 0.00028224052491168504,
      "loss": 4.1586,
      "step": 76790
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7697843909263611,
      "learning_rate": 0.00028223587147959426,
      "loss": 4.1455,
      "step": 76800
    },
    {
      "epoch": 0.16002083333333333,
      "grad_norm": 0.8440530896186829,
      "learning_rate": 0.00028223121747629677,
      "loss": 4.2581,
      "step": 76810
    },
    {
      "epoch": 0.16004166666666667,
      "grad_norm": 0.8824443221092224,
      "learning_rate": 0.0002822265629018128,
      "loss": 4.0809,
      "step": 76820
    },
    {
      "epoch": 0.1600625,
      "grad_norm": 0.7785770297050476,
      "learning_rate": 0.00028222190775616243,
      "loss": 4.0133,
      "step": 76830
    },
    {
      "epoch": 0.16008333333333333,
      "grad_norm": 1.4100087881088257,
      "learning_rate": 0.00028221725203936575,
      "loss": 4.2464,
      "step": 76840
    },
    {
      "epoch": 0.16010416666666666,
      "grad_norm": 0.7769907712936401,
      "learning_rate": 0.00028221259575144286,
      "loss": 4.1294,
      "step": 76850
    },
    {
      "epoch": 0.160125,
      "grad_norm": 0.741031289100647,
      "learning_rate": 0.0002822079388924139,
      "loss": 3.9472,
      "step": 76860
    },
    {
      "epoch": 0.16014583333333332,
      "grad_norm": 0.8809858560562134,
      "learning_rate": 0.00028220328146229897,
      "loss": 4.1649,
      "step": 76870
    },
    {
      "epoch": 0.16016666666666668,
      "grad_norm": 0.8855958580970764,
      "learning_rate": 0.0002821986234611182,
      "loss": 4.2477,
      "step": 76880
    },
    {
      "epoch": 0.1601875,
      "grad_norm": 0.7951402068138123,
      "learning_rate": 0.0002821939648888917,
      "loss": 4.2011,
      "step": 76890
    },
    {
      "epoch": 0.16020833333333334,
      "grad_norm": 0.9139118194580078,
      "learning_rate": 0.0002821893057456396,
      "loss": 3.9972,
      "step": 76900
    },
    {
      "epoch": 0.16022916666666667,
      "grad_norm": 0.8285968899726868,
      "learning_rate": 0.00028218464603138203,
      "loss": 3.9239,
      "step": 76910
    },
    {
      "epoch": 0.16025,
      "grad_norm": 0.7936974763870239,
      "learning_rate": 0.0002821799857461391,
      "loss": 4.0028,
      "step": 76920
    },
    {
      "epoch": 0.16027083333333333,
      "grad_norm": 0.8446122407913208,
      "learning_rate": 0.00028217532488993095,
      "loss": 4.0985,
      "step": 76930
    },
    {
      "epoch": 0.16029166666666667,
      "grad_norm": 0.7618459463119507,
      "learning_rate": 0.0002821706634627777,
      "loss": 4.1372,
      "step": 76940
    },
    {
      "epoch": 0.1603125,
      "grad_norm": 0.9294995069503784,
      "learning_rate": 0.00028216600146469955,
      "loss": 4.1624,
      "step": 76950
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 0.7958827614784241,
      "learning_rate": 0.00028216133889571657,
      "loss": 3.9781,
      "step": 76960
    },
    {
      "epoch": 0.16035416666666666,
      "grad_norm": 0.8288766741752625,
      "learning_rate": 0.0002821566757558489,
      "loss": 4.1319,
      "step": 76970
    },
    {
      "epoch": 0.160375,
      "grad_norm": 0.8719657063484192,
      "learning_rate": 0.00028215201204511667,
      "loss": 4.0485,
      "step": 76980
    },
    {
      "epoch": 0.16039583333333332,
      "grad_norm": 0.9151906371116638,
      "learning_rate": 0.00028214734776354014,
      "loss": 4.315,
      "step": 76990
    },
    {
      "epoch": 0.16041666666666668,
      "grad_norm": 0.7831223011016846,
      "learning_rate": 0.00028214268291113935,
      "loss": 4.01,
      "step": 77000
    },
    {
      "epoch": 0.16041666666666668,
      "eval_loss": 3.8587632179260254,
      "eval_runtime": 7.2104,
      "eval_samples_per_second": 1.387,
      "eval_steps_per_second": 0.416,
      "step": 77000
    },
    {
      "epoch": 0.1604375,
      "grad_norm": 0.8107367753982544,
      "learning_rate": 0.0002821380174879344,
      "loss": 4.1797,
      "step": 77010
    },
    {
      "epoch": 0.16045833333333334,
      "grad_norm": 0.8228021860122681,
      "learning_rate": 0.0002821333514939456,
      "loss": 4.2822,
      "step": 77020
    },
    {
      "epoch": 0.16047916666666667,
      "grad_norm": 0.7868633270263672,
      "learning_rate": 0.00028212868492919304,
      "loss": 4.168,
      "step": 77030
    },
    {
      "epoch": 0.1605,
      "grad_norm": 1.1496882438659668,
      "learning_rate": 0.0002821240177936968,
      "loss": 4.3191,
      "step": 77040
    },
    {
      "epoch": 0.16052083333333333,
      "grad_norm": 0.8034688234329224,
      "learning_rate": 0.00028211935008747713,
      "loss": 4.0865,
      "step": 77050
    },
    {
      "epoch": 0.16054166666666667,
      "grad_norm": 0.8471912741661072,
      "learning_rate": 0.00028211468181055417,
      "loss": 4.0963,
      "step": 77060
    },
    {
      "epoch": 0.1605625,
      "grad_norm": 0.8477620482444763,
      "learning_rate": 0.00028211001296294806,
      "loss": 3.8456,
      "step": 77070
    },
    {
      "epoch": 0.16058333333333333,
      "grad_norm": 0.842485249042511,
      "learning_rate": 0.000282105343544679,
      "loss": 4.2697,
      "step": 77080
    },
    {
      "epoch": 0.16060416666666666,
      "grad_norm": 0.8160442113876343,
      "learning_rate": 0.0002821006735557671,
      "loss": 4.1115,
      "step": 77090
    },
    {
      "epoch": 0.160625,
      "grad_norm": 0.7524081468582153,
      "learning_rate": 0.0002820960029962327,
      "loss": 4.1806,
      "step": 77100
    },
    {
      "epoch": 0.16064583333333332,
      "grad_norm": 0.8993080258369446,
      "learning_rate": 0.00028209133186609574,
      "loss": 4.0611,
      "step": 77110
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 0.8166856169700623,
      "learning_rate": 0.00028208666016537654,
      "loss": 4.2884,
      "step": 77120
    },
    {
      "epoch": 0.1606875,
      "grad_norm": 0.8127991557121277,
      "learning_rate": 0.00028208198789409525,
      "loss": 4.1378,
      "step": 77130
    },
    {
      "epoch": 0.16070833333333334,
      "grad_norm": 0.8905995488166809,
      "learning_rate": 0.0002820773150522721,
      "loss": 4.21,
      "step": 77140
    },
    {
      "epoch": 0.16072916666666667,
      "grad_norm": 0.9274703860282898,
      "learning_rate": 0.00028207264163992714,
      "loss": 4.1503,
      "step": 77150
    },
    {
      "epoch": 0.16075,
      "grad_norm": 0.8929402232170105,
      "learning_rate": 0.0002820679676570807,
      "loss": 3.8991,
      "step": 77160
    },
    {
      "epoch": 0.16077083333333334,
      "grad_norm": 0.8739826083183289,
      "learning_rate": 0.0002820632931037529,
      "loss": 4.1742,
      "step": 77170
    },
    {
      "epoch": 0.16079166666666667,
      "grad_norm": 0.7956387400627136,
      "learning_rate": 0.000282058617979964,
      "loss": 4.3553,
      "step": 77180
    },
    {
      "epoch": 0.1608125,
      "grad_norm": 0.9266675114631653,
      "learning_rate": 0.0002820539422857341,
      "loss": 3.9457,
      "step": 77190
    },
    {
      "epoch": 0.16083333333333333,
      "grad_norm": 0.8013766407966614,
      "learning_rate": 0.00028204926602108345,
      "loss": 3.9538,
      "step": 77200
    },
    {
      "epoch": 0.16085416666666666,
      "grad_norm": 0.8162744045257568,
      "learning_rate": 0.0002820445891860322,
      "loss": 4.1635,
      "step": 77210
    },
    {
      "epoch": 0.160875,
      "grad_norm": 0.8297529816627502,
      "learning_rate": 0.00028203991178060066,
      "loss": 4.2013,
      "step": 77220
    },
    {
      "epoch": 0.16089583333333332,
      "grad_norm": 1.0075935125350952,
      "learning_rate": 0.0002820352338048089,
      "loss": 4.2057,
      "step": 77230
    },
    {
      "epoch": 0.16091666666666668,
      "grad_norm": 0.7767626643180847,
      "learning_rate": 0.0002820305552586772,
      "loss": 4.1097,
      "step": 77240
    },
    {
      "epoch": 0.1609375,
      "grad_norm": 0.8269417881965637,
      "learning_rate": 0.0002820258761422258,
      "loss": 4.0726,
      "step": 77250
    },
    {
      "epoch": 0.16095833333333334,
      "grad_norm": 0.8488893508911133,
      "learning_rate": 0.00028202119645547486,
      "loss": 4.0438,
      "step": 77260
    },
    {
      "epoch": 0.16097916666666667,
      "grad_norm": 1.146167278289795,
      "learning_rate": 0.0002820165161984446,
      "loss": 4.1832,
      "step": 77270
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.9887827038764954,
      "learning_rate": 0.00028201183537115526,
      "loss": 4.0459,
      "step": 77280
    },
    {
      "epoch": 0.16102083333333334,
      "grad_norm": 0.8009351491928101,
      "learning_rate": 0.00028200715397362706,
      "loss": 4.2934,
      "step": 77290
    },
    {
      "epoch": 0.16104166666666667,
      "grad_norm": 0.8387262225151062,
      "learning_rate": 0.0002820024720058802,
      "loss": 4.1432,
      "step": 77300
    },
    {
      "epoch": 0.1610625,
      "grad_norm": 0.8714051842689514,
      "learning_rate": 0.0002819977894679349,
      "loss": 4.0933,
      "step": 77310
    },
    {
      "epoch": 0.16108333333333333,
      "grad_norm": 0.7743530869483948,
      "learning_rate": 0.0002819931063598114,
      "loss": 4.3061,
      "step": 77320
    },
    {
      "epoch": 0.16110416666666666,
      "grad_norm": 0.8051902651786804,
      "learning_rate": 0.0002819884226815299,
      "loss": 4.1366,
      "step": 77330
    },
    {
      "epoch": 0.161125,
      "grad_norm": 0.8508358001708984,
      "learning_rate": 0.0002819837384331107,
      "loss": 4.2149,
      "step": 77340
    },
    {
      "epoch": 0.16114583333333332,
      "grad_norm": 0.8198323249816895,
      "learning_rate": 0.00028197905361457395,
      "loss": 4.1141,
      "step": 77350
    },
    {
      "epoch": 0.16116666666666668,
      "grad_norm": 0.8580665588378906,
      "learning_rate": 0.00028197436822593997,
      "loss": 4.2054,
      "step": 77360
    },
    {
      "epoch": 0.1611875,
      "grad_norm": 0.8417206406593323,
      "learning_rate": 0.00028196968226722896,
      "loss": 4.273,
      "step": 77370
    },
    {
      "epoch": 0.16120833333333334,
      "grad_norm": 0.8558734059333801,
      "learning_rate": 0.00028196499573846114,
      "loss": 4.2701,
      "step": 77380
    },
    {
      "epoch": 0.16122916666666667,
      "grad_norm": 0.7719360589981079,
      "learning_rate": 0.00028196030863965674,
      "loss": 4.2091,
      "step": 77390
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.821435272693634,
      "learning_rate": 0.0002819556209708361,
      "loss": 4.0387,
      "step": 77400
    },
    {
      "epoch": 0.16127083333333334,
      "grad_norm": 0.8939261436462402,
      "learning_rate": 0.0002819509327320194,
      "loss": 4.0551,
      "step": 77410
    },
    {
      "epoch": 0.16129166666666667,
      "grad_norm": 0.927547037601471,
      "learning_rate": 0.0002819462439232269,
      "loss": 3.9534,
      "step": 77420
    },
    {
      "epoch": 0.1613125,
      "grad_norm": 0.8478536605834961,
      "learning_rate": 0.0002819415545444788,
      "loss": 4.2372,
      "step": 77430
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.7943955063819885,
      "learning_rate": 0.00028193686459579545,
      "loss": 4.1644,
      "step": 77440
    },
    {
      "epoch": 0.16135416666666666,
      "grad_norm": 0.8240696787834167,
      "learning_rate": 0.0002819321740771971,
      "loss": 3.9925,
      "step": 77450
    },
    {
      "epoch": 0.161375,
      "grad_norm": 0.9188721776008606,
      "learning_rate": 0.0002819274829887039,
      "loss": 4.1145,
      "step": 77460
    },
    {
      "epoch": 0.16139583333333332,
      "grad_norm": 0.8134123086929321,
      "learning_rate": 0.00028192279133033626,
      "loss": 3.8897,
      "step": 77470
    },
    {
      "epoch": 0.16141666666666668,
      "grad_norm": 0.8105260729789734,
      "learning_rate": 0.0002819180991021144,
      "loss": 4.0872,
      "step": 77480
    },
    {
      "epoch": 0.1614375,
      "grad_norm": 0.9069945216178894,
      "learning_rate": 0.0002819134063040585,
      "loss": 4.2312,
      "step": 77490
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 0.8416247367858887,
      "learning_rate": 0.00028190871293618896,
      "loss": 4.1552,
      "step": 77500
    },
    {
      "epoch": 0.16147916666666667,
      "grad_norm": 0.8957505822181702,
      "learning_rate": 0.00028190401899852593,
      "loss": 4.1187,
      "step": 77510
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.7555935978889465,
      "learning_rate": 0.0002818993244910898,
      "loss": 4.2997,
      "step": 77520
    },
    {
      "epoch": 0.16152083333333334,
      "grad_norm": 0.9069982171058655,
      "learning_rate": 0.0002818946294139008,
      "loss": 4.2003,
      "step": 77530
    },
    {
      "epoch": 0.16154166666666667,
      "grad_norm": 0.7893081307411194,
      "learning_rate": 0.00028188993376697917,
      "loss": 4.2352,
      "step": 77540
    },
    {
      "epoch": 0.1615625,
      "grad_norm": 0.9594970941543579,
      "learning_rate": 0.0002818852375503453,
      "loss": 4.2233,
      "step": 77550
    },
    {
      "epoch": 0.16158333333333333,
      "grad_norm": 0.84127277135849,
      "learning_rate": 0.0002818805407640193,
      "loss": 3.8364,
      "step": 77560
    },
    {
      "epoch": 0.16160416666666666,
      "grad_norm": 0.8325818181037903,
      "learning_rate": 0.00028187584340802165,
      "loss": 4.0246,
      "step": 77570
    },
    {
      "epoch": 0.161625,
      "grad_norm": 0.8201082944869995,
      "learning_rate": 0.0002818711454823725,
      "loss": 4.1652,
      "step": 77580
    },
    {
      "epoch": 0.16164583333333332,
      "grad_norm": 0.888798177242279,
      "learning_rate": 0.0002818664469870923,
      "loss": 4.0948,
      "step": 77590
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 0.8583735823631287,
      "learning_rate": 0.00028186174792220117,
      "loss": 3.9972,
      "step": 77600
    },
    {
      "epoch": 0.1616875,
      "grad_norm": 0.8878483176231384,
      "learning_rate": 0.00028185704828771947,
      "loss": 3.9677,
      "step": 77610
    },
    {
      "epoch": 0.16170833333333334,
      "grad_norm": 0.8553779721260071,
      "learning_rate": 0.00028185234808366755,
      "loss": 4.1414,
      "step": 77620
    },
    {
      "epoch": 0.16172916666666667,
      "grad_norm": 0.8577033281326294,
      "learning_rate": 0.00028184764731006563,
      "loss": 4.185,
      "step": 77630
    },
    {
      "epoch": 0.16175,
      "grad_norm": 0.8679558634757996,
      "learning_rate": 0.0002818429459669341,
      "loss": 4.0985,
      "step": 77640
    },
    {
      "epoch": 0.16177083333333334,
      "grad_norm": 0.8155368566513062,
      "learning_rate": 0.00028183824405429323,
      "loss": 4.1633,
      "step": 77650
    },
    {
      "epoch": 0.16179166666666667,
      "grad_norm": 0.7851731181144714,
      "learning_rate": 0.00028183354157216336,
      "loss": 4.4868,
      "step": 77660
    },
    {
      "epoch": 0.1618125,
      "grad_norm": 0.8309613466262817,
      "learning_rate": 0.0002818288385205647,
      "loss": 4.3487,
      "step": 77670
    },
    {
      "epoch": 0.16183333333333333,
      "grad_norm": 0.7862884998321533,
      "learning_rate": 0.0002818241348995177,
      "loss": 4.1196,
      "step": 77680
    },
    {
      "epoch": 0.16185416666666666,
      "grad_norm": 0.8248232007026672,
      "learning_rate": 0.0002818194307090426,
      "loss": 4.2217,
      "step": 77690
    },
    {
      "epoch": 0.161875,
      "grad_norm": 0.9266732335090637,
      "learning_rate": 0.00028181472594915975,
      "loss": 4.0497,
      "step": 77700
    },
    {
      "epoch": 0.16189583333333332,
      "grad_norm": 0.9087115526199341,
      "learning_rate": 0.00028181002061988944,
      "loss": 3.9767,
      "step": 77710
    },
    {
      "epoch": 0.16191666666666665,
      "grad_norm": 0.944995641708374,
      "learning_rate": 0.00028180531472125203,
      "loss": 3.9061,
      "step": 77720
    },
    {
      "epoch": 0.1619375,
      "grad_norm": 0.8572715520858765,
      "learning_rate": 0.0002818006082532678,
      "loss": 4.1133,
      "step": 77730
    },
    {
      "epoch": 0.16195833333333334,
      "grad_norm": 0.8597405552864075,
      "learning_rate": 0.00028179590121595716,
      "loss": 4.246,
      "step": 77740
    },
    {
      "epoch": 0.16197916666666667,
      "grad_norm": 0.8229890465736389,
      "learning_rate": 0.00028179119360934035,
      "loss": 4.0023,
      "step": 77750
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.8559842109680176,
      "learning_rate": 0.0002817864854334377,
      "loss": 3.9358,
      "step": 77760
    },
    {
      "epoch": 0.16202083333333334,
      "grad_norm": 0.8042746782302856,
      "learning_rate": 0.00028178177668826973,
      "loss": 4.1415,
      "step": 77770
    },
    {
      "epoch": 0.16204166666666667,
      "grad_norm": 0.8466607332229614,
      "learning_rate": 0.0002817770673738566,
      "loss": 4.0876,
      "step": 77780
    },
    {
      "epoch": 0.1620625,
      "grad_norm": 0.7749250531196594,
      "learning_rate": 0.00028177235749021865,
      "loss": 4.3972,
      "step": 77790
    },
    {
      "epoch": 0.16208333333333333,
      "grad_norm": 0.7809014320373535,
      "learning_rate": 0.0002817676470373763,
      "loss": 3.9756,
      "step": 77800
    },
    {
      "epoch": 0.16210416666666666,
      "grad_norm": 0.8535622954368591,
      "learning_rate": 0.0002817629360153499,
      "loss": 4.1497,
      "step": 77810
    },
    {
      "epoch": 0.162125,
      "grad_norm": 0.7899521589279175,
      "learning_rate": 0.00028175822442415977,
      "loss": 4.1609,
      "step": 77820
    },
    {
      "epoch": 0.16214583333333332,
      "grad_norm": 0.8520585298538208,
      "learning_rate": 0.00028175351226382623,
      "loss": 4.1147,
      "step": 77830
    },
    {
      "epoch": 0.16216666666666665,
      "grad_norm": 0.7877472043037415,
      "learning_rate": 0.00028174879953436966,
      "loss": 4.189,
      "step": 77840
    },
    {
      "epoch": 0.1621875,
      "grad_norm": 0.8002445101737976,
      "learning_rate": 0.0002817440862358105,
      "loss": 4.278,
      "step": 77850
    },
    {
      "epoch": 0.16220833333333334,
      "grad_norm": 0.8072497844696045,
      "learning_rate": 0.00028173937236816894,
      "loss": 4.1513,
      "step": 77860
    },
    {
      "epoch": 0.16222916666666667,
      "grad_norm": 0.8631955981254578,
      "learning_rate": 0.0002817346579314655,
      "loss": 4.1194,
      "step": 77870
    },
    {
      "epoch": 0.16225,
      "grad_norm": 0.9263330698013306,
      "learning_rate": 0.0002817299429257205,
      "loss": 3.9317,
      "step": 77880
    },
    {
      "epoch": 0.16227083333333334,
      "grad_norm": 0.9650924801826477,
      "learning_rate": 0.00028172522735095423,
      "loss": 4.0042,
      "step": 77890
    },
    {
      "epoch": 0.16229166666666667,
      "grad_norm": 0.8063531517982483,
      "learning_rate": 0.00028172051120718716,
      "loss": 4.1116,
      "step": 77900
    },
    {
      "epoch": 0.1623125,
      "grad_norm": 0.8148784637451172,
      "learning_rate": 0.0002817157944944396,
      "loss": 4.0282,
      "step": 77910
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 0.8819785714149475,
      "learning_rate": 0.00028171107721273195,
      "loss": 4.3456,
      "step": 77920
    },
    {
      "epoch": 0.16235416666666666,
      "grad_norm": 0.9357069730758667,
      "learning_rate": 0.0002817063593620846,
      "loss": 4.2081,
      "step": 77930
    },
    {
      "epoch": 0.162375,
      "grad_norm": 0.8309789299964905,
      "learning_rate": 0.00028170164094251784,
      "loss": 4.1008,
      "step": 77940
    },
    {
      "epoch": 0.16239583333333332,
      "grad_norm": 0.8166738748550415,
      "learning_rate": 0.00028169692195405217,
      "loss": 3.9361,
      "step": 77950
    },
    {
      "epoch": 0.16241666666666665,
      "grad_norm": 0.8612306714057922,
      "learning_rate": 0.00028169220239670795,
      "loss": 4.1139,
      "step": 77960
    },
    {
      "epoch": 0.1624375,
      "grad_norm": 0.8224307894706726,
      "learning_rate": 0.0002816874822705055,
      "loss": 4.1212,
      "step": 77970
    },
    {
      "epoch": 0.16245833333333334,
      "grad_norm": 0.8411370515823364,
      "learning_rate": 0.0002816827615754653,
      "loss": 4.211,
      "step": 77980
    },
    {
      "epoch": 0.16247916666666667,
      "grad_norm": 0.7882641553878784,
      "learning_rate": 0.0002816780403116076,
      "loss": 4.1884,
      "step": 77990
    },
    {
      "epoch": 0.1625,
      "grad_norm": 1.0233643054962158,
      "learning_rate": 0.00028167331847895303,
      "loss": 4.0895,
      "step": 78000
    },
    {
      "epoch": 0.1625,
      "eval_loss": 3.858994245529175,
      "eval_runtime": 6.743,
      "eval_samples_per_second": 1.483,
      "eval_steps_per_second": 0.445,
      "step": 78000
    },
    {
      "epoch": 0.16252083333333334,
      "grad_norm": 0.979383111000061,
      "learning_rate": 0.0002816685960775217,
      "loss": 4.054,
      "step": 78010
    },
    {
      "epoch": 0.16254166666666667,
      "grad_norm": 1.2842843532562256,
      "learning_rate": 0.00028166387310733424,
      "loss": 4.1314,
      "step": 78020
    },
    {
      "epoch": 0.1625625,
      "grad_norm": 0.852594792842865,
      "learning_rate": 0.00028165914956841096,
      "loss": 4.1912,
      "step": 78030
    },
    {
      "epoch": 0.16258333333333333,
      "grad_norm": 0.8632032871246338,
      "learning_rate": 0.0002816544254607723,
      "loss": 3.974,
      "step": 78040
    },
    {
      "epoch": 0.16260416666666666,
      "grad_norm": 0.7934204936027527,
      "learning_rate": 0.00028164970078443854,
      "loss": 4.1204,
      "step": 78050
    },
    {
      "epoch": 0.162625,
      "grad_norm": 0.8192898035049438,
      "learning_rate": 0.00028164497553943027,
      "loss": 4.1161,
      "step": 78060
    },
    {
      "epoch": 0.16264583333333332,
      "grad_norm": 0.7736024856567383,
      "learning_rate": 0.00028164024972576773,
      "loss": 4.0968,
      "step": 78070
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.8209960460662842,
      "learning_rate": 0.0002816355233434715,
      "loss": 4.0705,
      "step": 78080
    },
    {
      "epoch": 0.1626875,
      "grad_norm": 0.7756345868110657,
      "learning_rate": 0.00028163079639256187,
      "loss": 4.1711,
      "step": 78090
    },
    {
      "epoch": 0.16270833333333334,
      "grad_norm": 0.9690355658531189,
      "learning_rate": 0.0002816260688730593,
      "loss": 4.2808,
      "step": 78100
    },
    {
      "epoch": 0.16272916666666667,
      "grad_norm": 0.7754703164100647,
      "learning_rate": 0.00028162134078498424,
      "loss": 4.0732,
      "step": 78110
    },
    {
      "epoch": 0.16275,
      "grad_norm": 0.81523597240448,
      "learning_rate": 0.00028161661212835706,
      "loss": 4.1419,
      "step": 78120
    },
    {
      "epoch": 0.16277083333333334,
      "grad_norm": 0.7959699034690857,
      "learning_rate": 0.0002816118829031982,
      "loss": 4.1678,
      "step": 78130
    },
    {
      "epoch": 0.16279166666666667,
      "grad_norm": 0.8028051257133484,
      "learning_rate": 0.00028160715310952816,
      "loss": 4.09,
      "step": 78140
    },
    {
      "epoch": 0.1628125,
      "grad_norm": 0.7918217778205872,
      "learning_rate": 0.00028160242274736727,
      "loss": 4.0576,
      "step": 78150
    },
    {
      "epoch": 0.16283333333333333,
      "grad_norm": 0.8669942617416382,
      "learning_rate": 0.000281597691816736,
      "loss": 4.1159,
      "step": 78160
    },
    {
      "epoch": 0.16285416666666666,
      "grad_norm": 0.7839893102645874,
      "learning_rate": 0.0002815929603176548,
      "loss": 4.0862,
      "step": 78170
    },
    {
      "epoch": 0.162875,
      "grad_norm": 0.821412205696106,
      "learning_rate": 0.0002815882282501441,
      "loss": 4.1709,
      "step": 78180
    },
    {
      "epoch": 0.16289583333333332,
      "grad_norm": 0.8623076677322388,
      "learning_rate": 0.0002815834956142244,
      "loss": 4.0788,
      "step": 78190
    },
    {
      "epoch": 0.16291666666666665,
      "grad_norm": 0.7834730744361877,
      "learning_rate": 0.000281578762409916,
      "loss": 4.1349,
      "step": 78200
    },
    {
      "epoch": 0.1629375,
      "grad_norm": 0.8633233904838562,
      "learning_rate": 0.0002815740286372395,
      "loss": 4.1001,
      "step": 78210
    },
    {
      "epoch": 0.16295833333333334,
      "grad_norm": 0.8492172360420227,
      "learning_rate": 0.0002815692942962152,
      "loss": 3.8337,
      "step": 78220
    },
    {
      "epoch": 0.16297916666666667,
      "grad_norm": 0.855103075504303,
      "learning_rate": 0.00028156455938686364,
      "loss": 4.1138,
      "step": 78230
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.8022626042366028,
      "learning_rate": 0.0002815598239092053,
      "loss": 3.9476,
      "step": 78240
    },
    {
      "epoch": 0.16302083333333334,
      "grad_norm": 0.8420491814613342,
      "learning_rate": 0.00028155508786326057,
      "loss": 4.1764,
      "step": 78250
    },
    {
      "epoch": 0.16304166666666667,
      "grad_norm": 0.8125797510147095,
      "learning_rate": 0.00028155035124904996,
      "loss": 4.1679,
      "step": 78260
    },
    {
      "epoch": 0.1630625,
      "grad_norm": 0.8062410354614258,
      "learning_rate": 0.00028154561406659387,
      "loss": 4.1615,
      "step": 78270
    },
    {
      "epoch": 0.16308333333333333,
      "grad_norm": 0.8143901824951172,
      "learning_rate": 0.00028154087631591284,
      "loss": 4.1409,
      "step": 78280
    },
    {
      "epoch": 0.16310416666666666,
      "grad_norm": 0.8248363137245178,
      "learning_rate": 0.00028153613799702725,
      "loss": 4.2086,
      "step": 78290
    },
    {
      "epoch": 0.163125,
      "grad_norm": 0.7861084938049316,
      "learning_rate": 0.00028153139910995766,
      "loss": 4.2315,
      "step": 78300
    },
    {
      "epoch": 0.16314583333333332,
      "grad_norm": 0.7956331372261047,
      "learning_rate": 0.0002815266596547244,
      "loss": 4.1943,
      "step": 78310
    },
    {
      "epoch": 0.16316666666666665,
      "grad_norm": 0.7725206613540649,
      "learning_rate": 0.0002815219196313481,
      "loss": 4.1312,
      "step": 78320
    },
    {
      "epoch": 0.1631875,
      "grad_norm": 0.8756237030029297,
      "learning_rate": 0.00028151717903984914,
      "loss": 4.2339,
      "step": 78330
    },
    {
      "epoch": 0.16320833333333334,
      "grad_norm": 0.8321564197540283,
      "learning_rate": 0.000281512437880248,
      "loss": 4.1334,
      "step": 78340
    },
    {
      "epoch": 0.16322916666666668,
      "grad_norm": 0.8644928336143494,
      "learning_rate": 0.00028150769615256524,
      "loss": 4.2901,
      "step": 78350
    },
    {
      "epoch": 0.16325,
      "grad_norm": 0.8063199520111084,
      "learning_rate": 0.00028150295385682126,
      "loss": 3.9909,
      "step": 78360
    },
    {
      "epoch": 0.16327083333333334,
      "grad_norm": 0.8511790633201599,
      "learning_rate": 0.0002814982109930366,
      "loss": 3.9261,
      "step": 78370
    },
    {
      "epoch": 0.16329166666666667,
      "grad_norm": 1.013174057006836,
      "learning_rate": 0.0002814934675612317,
      "loss": 3.9809,
      "step": 78380
    },
    {
      "epoch": 0.1633125,
      "grad_norm": 0.9438073635101318,
      "learning_rate": 0.00028148872356142707,
      "loss": 4.1044,
      "step": 78390
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.8558810353279114,
      "learning_rate": 0.00028148397899364317,
      "loss": 4.1781,
      "step": 78400
    },
    {
      "epoch": 0.16335416666666666,
      "grad_norm": 0.8595650792121887,
      "learning_rate": 0.0002814792338579006,
      "loss": 4.1284,
      "step": 78410
    },
    {
      "epoch": 0.163375,
      "grad_norm": 0.9086300134658813,
      "learning_rate": 0.0002814744881542198,
      "loss": 4.1043,
      "step": 78420
    },
    {
      "epoch": 0.16339583333333332,
      "grad_norm": 0.7974334359169006,
      "learning_rate": 0.00028146974188262116,
      "loss": 4.314,
      "step": 78430
    },
    {
      "epoch": 0.16341666666666665,
      "grad_norm": 0.8061252236366272,
      "learning_rate": 0.00028146499504312525,
      "loss": 4.1398,
      "step": 78440
    },
    {
      "epoch": 0.1634375,
      "grad_norm": 0.8256607055664062,
      "learning_rate": 0.00028146024763575265,
      "loss": 4.1684,
      "step": 78450
    },
    {
      "epoch": 0.16345833333333334,
      "grad_norm": 0.9509069323539734,
      "learning_rate": 0.00028145549966052385,
      "loss": 4.0472,
      "step": 78460
    },
    {
      "epoch": 0.16347916666666668,
      "grad_norm": 0.8191961646080017,
      "learning_rate": 0.0002814507511174593,
      "loss": 4.1837,
      "step": 78470
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.8321966528892517,
      "learning_rate": 0.0002814460020065795,
      "loss": 4.2172,
      "step": 78480
    },
    {
      "epoch": 0.16352083333333334,
      "grad_norm": 0.8362028002738953,
      "learning_rate": 0.00028144125232790505,
      "loss": 4.214,
      "step": 78490
    },
    {
      "epoch": 0.16354166666666667,
      "grad_norm": 0.8247608542442322,
      "learning_rate": 0.0002814365020814564,
      "loss": 4.1147,
      "step": 78500
    },
    {
      "epoch": 0.1635625,
      "grad_norm": 0.8427650332450867,
      "learning_rate": 0.0002814317512672541,
      "loss": 4.0374,
      "step": 78510
    },
    {
      "epoch": 0.16358333333333333,
      "grad_norm": 1.1222137212753296,
      "learning_rate": 0.0002814269998853186,
      "loss": 3.9733,
      "step": 78520
    },
    {
      "epoch": 0.16360416666666666,
      "grad_norm": 0.841189980506897,
      "learning_rate": 0.00028142224793567056,
      "loss": 3.9664,
      "step": 78530
    },
    {
      "epoch": 0.163625,
      "grad_norm": 0.8319728374481201,
      "learning_rate": 0.0002814174954183304,
      "loss": 4.1116,
      "step": 78540
    },
    {
      "epoch": 0.16364583333333332,
      "grad_norm": 0.8301905393600464,
      "learning_rate": 0.0002814127423333187,
      "loss": 4.0626,
      "step": 78550
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 0.8287264108657837,
      "learning_rate": 0.00028140798868065596,
      "loss": 4.2992,
      "step": 78560
    },
    {
      "epoch": 0.1636875,
      "grad_norm": 0.8768622875213623,
      "learning_rate": 0.0002814032344603627,
      "loss": 4.2622,
      "step": 78570
    },
    {
      "epoch": 0.16370833333333334,
      "grad_norm": 0.9304608106613159,
      "learning_rate": 0.00028139847967245945,
      "loss": 4.2858,
      "step": 78580
    },
    {
      "epoch": 0.16372916666666668,
      "grad_norm": 0.8144904375076294,
      "learning_rate": 0.00028139372431696687,
      "loss": 4.2486,
      "step": 78590
    },
    {
      "epoch": 0.16375,
      "grad_norm": 1.0023798942565918,
      "learning_rate": 0.00028138896839390536,
      "loss": 3.9402,
      "step": 78600
    },
    {
      "epoch": 0.16377083333333334,
      "grad_norm": 0.8626355528831482,
      "learning_rate": 0.0002813842119032955,
      "loss": 3.998,
      "step": 78610
    },
    {
      "epoch": 0.16379166666666667,
      "grad_norm": 0.859221339225769,
      "learning_rate": 0.00028137945484515785,
      "loss": 4.0769,
      "step": 78620
    },
    {
      "epoch": 0.1638125,
      "grad_norm": 0.8458750247955322,
      "learning_rate": 0.00028137469721951295,
      "loss": 4.3279,
      "step": 78630
    },
    {
      "epoch": 0.16383333333333333,
      "grad_norm": 0.8891435861587524,
      "learning_rate": 0.0002813699390263814,
      "loss": 3.9596,
      "step": 78640
    },
    {
      "epoch": 0.16385416666666666,
      "grad_norm": 0.8542735576629639,
      "learning_rate": 0.0002813651802657837,
      "loss": 4.0441,
      "step": 78650
    },
    {
      "epoch": 0.163875,
      "grad_norm": 0.8804919719696045,
      "learning_rate": 0.0002813604209377404,
      "loss": 4.1181,
      "step": 78660
    },
    {
      "epoch": 0.16389583333333332,
      "grad_norm": 0.9181951880455017,
      "learning_rate": 0.00028135566104227214,
      "loss": 4.015,
      "step": 78670
    },
    {
      "epoch": 0.16391666666666665,
      "grad_norm": 0.8905037045478821,
      "learning_rate": 0.00028135090057939934,
      "loss": 4.0694,
      "step": 78680
    },
    {
      "epoch": 0.1639375,
      "grad_norm": 0.8070739507675171,
      "learning_rate": 0.00028134613954914267,
      "loss": 4.2017,
      "step": 78690
    },
    {
      "epoch": 0.16395833333333334,
      "grad_norm": 0.8686255216598511,
      "learning_rate": 0.0002813413779515227,
      "loss": 4.1214,
      "step": 78700
    },
    {
      "epoch": 0.16397916666666668,
      "grad_norm": 0.8694541454315186,
      "learning_rate": 0.0002813366157865599,
      "loss": 4.2378,
      "step": 78710
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.8382689356803894,
      "learning_rate": 0.00028133185305427496,
      "loss": 4.1552,
      "step": 78720
    },
    {
      "epoch": 0.16402083333333334,
      "grad_norm": 0.7917263507843018,
      "learning_rate": 0.0002813270897546884,
      "loss": 4.1832,
      "step": 78730
    },
    {
      "epoch": 0.16404166666666667,
      "grad_norm": 0.8889341354370117,
      "learning_rate": 0.00028132232588782077,
      "loss": 4.1973,
      "step": 78740
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.8972108960151672,
      "learning_rate": 0.0002813175614536927,
      "loss": 3.9034,
      "step": 78750
    },
    {
      "epoch": 0.16408333333333333,
      "grad_norm": 0.8393842577934265,
      "learning_rate": 0.0002813127964523247,
      "loss": 4.0106,
      "step": 78760
    },
    {
      "epoch": 0.16410416666666666,
      "grad_norm": 0.7973425984382629,
      "learning_rate": 0.0002813080308837374,
      "loss": 4.0732,
      "step": 78770
    },
    {
      "epoch": 0.164125,
      "grad_norm": 0.9198852777481079,
      "learning_rate": 0.0002813032647479514,
      "loss": 4.1325,
      "step": 78780
    },
    {
      "epoch": 0.16414583333333332,
      "grad_norm": 0.9062359929084778,
      "learning_rate": 0.0002812984980449873,
      "loss": 4.0765,
      "step": 78790
    },
    {
      "epoch": 0.16416666666666666,
      "grad_norm": 0.8875688910484314,
      "learning_rate": 0.0002812937307748656,
      "loss": 3.9662,
      "step": 78800
    },
    {
      "epoch": 0.1641875,
      "grad_norm": 0.886978805065155,
      "learning_rate": 0.000281288962937607,
      "loss": 4.0479,
      "step": 78810
    },
    {
      "epoch": 0.16420833333333335,
      "grad_norm": 0.7953600287437439,
      "learning_rate": 0.00028128419453323205,
      "loss": 3.9454,
      "step": 78820
    },
    {
      "epoch": 0.16422916666666668,
      "grad_norm": 0.8889585137367249,
      "learning_rate": 0.00028127942556176134,
      "loss": 3.9398,
      "step": 78830
    },
    {
      "epoch": 0.16425,
      "grad_norm": 0.8847696185112,
      "learning_rate": 0.00028127465602321544,
      "loss": 4.0878,
      "step": 78840
    },
    {
      "epoch": 0.16427083333333334,
      "grad_norm": 0.8223148584365845,
      "learning_rate": 0.000281269885917615,
      "loss": 4.2682,
      "step": 78850
    },
    {
      "epoch": 0.16429166666666667,
      "grad_norm": 0.7897420525550842,
      "learning_rate": 0.00028126511524498066,
      "loss": 4.0284,
      "step": 78860
    },
    {
      "epoch": 0.1643125,
      "grad_norm": 0.85774165391922,
      "learning_rate": 0.00028126034400533293,
      "loss": 4.2235,
      "step": 78870
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 0.8130697011947632,
      "learning_rate": 0.0002812555721986925,
      "loss": 4.1632,
      "step": 78880
    },
    {
      "epoch": 0.16435416666666666,
      "grad_norm": 0.8495492935180664,
      "learning_rate": 0.00028125079982507995,
      "loss": 4.0556,
      "step": 78890
    },
    {
      "epoch": 0.164375,
      "grad_norm": 0.8469392657279968,
      "learning_rate": 0.00028124602688451585,
      "loss": 4.1245,
      "step": 78900
    },
    {
      "epoch": 0.16439583333333332,
      "grad_norm": 0.9061227440834045,
      "learning_rate": 0.0002812412533770209,
      "loss": 4.0473,
      "step": 78910
    },
    {
      "epoch": 0.16441666666666666,
      "grad_norm": 0.8562473058700562,
      "learning_rate": 0.0002812364793026157,
      "loss": 4.1076,
      "step": 78920
    },
    {
      "epoch": 0.1644375,
      "grad_norm": 0.8163448572158813,
      "learning_rate": 0.00028123170466132084,
      "loss": 4.22,
      "step": 78930
    },
    {
      "epoch": 0.16445833333333335,
      "grad_norm": 0.8133481740951538,
      "learning_rate": 0.00028122692945315694,
      "loss": 4.0187,
      "step": 78940
    },
    {
      "epoch": 0.16447916666666668,
      "grad_norm": 0.8778418302536011,
      "learning_rate": 0.00028122215367814467,
      "loss": 4.0334,
      "step": 78950
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.8545873165130615,
      "learning_rate": 0.0002812173773363047,
      "loss": 4.0627,
      "step": 78960
    },
    {
      "epoch": 0.16452083333333334,
      "grad_norm": 0.8669893145561218,
      "learning_rate": 0.0002812126004276575,
      "loss": 4.0999,
      "step": 78970
    },
    {
      "epoch": 0.16454166666666667,
      "grad_norm": 0.8103246092796326,
      "learning_rate": 0.00028120782295222384,
      "loss": 4.3782,
      "step": 78980
    },
    {
      "epoch": 0.1645625,
      "grad_norm": 0.8382444381713867,
      "learning_rate": 0.0002812030449100243,
      "loss": 3.931,
      "step": 78990
    },
    {
      "epoch": 0.16458333333333333,
      "grad_norm": 0.8119548559188843,
      "learning_rate": 0.0002811982663010796,
      "loss": 4.1559,
      "step": 79000
    },
    {
      "epoch": 0.16458333333333333,
      "eval_loss": 3.8426547050476074,
      "eval_runtime": 7.2173,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 79000
    },
    {
      "epoch": 0.16460416666666666,
      "grad_norm": 0.9125587344169617,
      "learning_rate": 0.00028119348712541027,
      "loss": 3.8858,
      "step": 79010
    },
    {
      "epoch": 0.164625,
      "grad_norm": 0.8435229659080505,
      "learning_rate": 0.000281188707383037,
      "loss": 3.9752,
      "step": 79020
    },
    {
      "epoch": 0.16464583333333332,
      "grad_norm": 0.8868350386619568,
      "learning_rate": 0.00028118392707398047,
      "loss": 4.2099,
      "step": 79030
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 0.7658435702323914,
      "learning_rate": 0.0002811791461982613,
      "loss": 4.3394,
      "step": 79040
    },
    {
      "epoch": 0.1646875,
      "grad_norm": 0.8610420227050781,
      "learning_rate": 0.0002811743647559001,
      "loss": 4.0799,
      "step": 79050
    },
    {
      "epoch": 0.16470833333333335,
      "grad_norm": 0.8574577569961548,
      "learning_rate": 0.0002811695827469176,
      "loss": 4.0628,
      "step": 79060
    },
    {
      "epoch": 0.16472916666666668,
      "grad_norm": 1.0052177906036377,
      "learning_rate": 0.00028116480017133445,
      "loss": 4.2676,
      "step": 79070
    },
    {
      "epoch": 0.16475,
      "grad_norm": 0.9006770253181458,
      "learning_rate": 0.0002811600170291713,
      "loss": 4.0154,
      "step": 79080
    },
    {
      "epoch": 0.16477083333333334,
      "grad_norm": 0.8287029266357422,
      "learning_rate": 0.00028115523332044874,
      "loss": 3.9581,
      "step": 79090
    },
    {
      "epoch": 0.16479166666666667,
      "grad_norm": 0.8929895758628845,
      "learning_rate": 0.0002811504490451875,
      "loss": 3.9777,
      "step": 79100
    },
    {
      "epoch": 0.1648125,
      "grad_norm": 0.8632538914680481,
      "learning_rate": 0.0002811456642034082,
      "loss": 4.1707,
      "step": 79110
    },
    {
      "epoch": 0.16483333333333333,
      "grad_norm": 0.794312596321106,
      "learning_rate": 0.0002811408787951316,
      "loss": 4.1386,
      "step": 79120
    },
    {
      "epoch": 0.16485416666666666,
      "grad_norm": 0.8726323843002319,
      "learning_rate": 0.00028113609282037826,
      "loss": 4.013,
      "step": 79130
    },
    {
      "epoch": 0.164875,
      "grad_norm": 0.8278220295906067,
      "learning_rate": 0.0002811313062791689,
      "loss": 4.2239,
      "step": 79140
    },
    {
      "epoch": 0.16489583333333332,
      "grad_norm": 0.9174314141273499,
      "learning_rate": 0.00028112651917152427,
      "loss": 4.2446,
      "step": 79150
    },
    {
      "epoch": 0.16491666666666666,
      "grad_norm": 0.8951126933097839,
      "learning_rate": 0.00028112173149746493,
      "loss": 3.9363,
      "step": 79160
    },
    {
      "epoch": 0.1649375,
      "grad_norm": 0.89186030626297,
      "learning_rate": 0.0002811169432570116,
      "loss": 3.8176,
      "step": 79170
    },
    {
      "epoch": 0.16495833333333335,
      "grad_norm": 0.7899237871170044,
      "learning_rate": 0.00028111215445018504,
      "loss": 4.1447,
      "step": 79180
    },
    {
      "epoch": 0.16497916666666668,
      "grad_norm": 0.7849763631820679,
      "learning_rate": 0.0002811073650770058,
      "loss": 4.1523,
      "step": 79190
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.7431624531745911,
      "learning_rate": 0.0002811025751374947,
      "loss": 4.2816,
      "step": 79200
    },
    {
      "epoch": 0.16502083333333334,
      "grad_norm": 0.814649224281311,
      "learning_rate": 0.00028109778463167236,
      "loss": 4.0473,
      "step": 79210
    },
    {
      "epoch": 0.16504166666666667,
      "grad_norm": 0.8069833517074585,
      "learning_rate": 0.0002810929935595594,
      "loss": 4.0656,
      "step": 79220
    },
    {
      "epoch": 0.1650625,
      "grad_norm": 0.9072267413139343,
      "learning_rate": 0.0002810882019211767,
      "loss": 4.1311,
      "step": 79230
    },
    {
      "epoch": 0.16508333333333333,
      "grad_norm": 0.9112207889556885,
      "learning_rate": 0.00028108340971654477,
      "loss": 4.0934,
      "step": 79240
    },
    {
      "epoch": 0.16510416666666666,
      "grad_norm": 0.8211116194725037,
      "learning_rate": 0.00028107861694568446,
      "loss": 4.124,
      "step": 79250
    },
    {
      "epoch": 0.165125,
      "grad_norm": 0.8515443801879883,
      "learning_rate": 0.0002810738236086164,
      "loss": 3.9752,
      "step": 79260
    },
    {
      "epoch": 0.16514583333333333,
      "grad_norm": 0.813579261302948,
      "learning_rate": 0.0002810690297053613,
      "loss": 4.2963,
      "step": 79270
    },
    {
      "epoch": 0.16516666666666666,
      "grad_norm": 0.8013723492622375,
      "learning_rate": 0.00028106423523593986,
      "loss": 4.0583,
      "step": 79280
    },
    {
      "epoch": 0.1651875,
      "grad_norm": 0.9037740230560303,
      "learning_rate": 0.0002810594402003728,
      "loss": 4.0261,
      "step": 79290
    },
    {
      "epoch": 0.16520833333333335,
      "grad_norm": 0.8712670207023621,
      "learning_rate": 0.00028105464459868084,
      "loss": 4.1982,
      "step": 79300
    },
    {
      "epoch": 0.16522916666666668,
      "grad_norm": 0.9425675868988037,
      "learning_rate": 0.0002810498484308847,
      "loss": 4.1057,
      "step": 79310
    },
    {
      "epoch": 0.16525,
      "grad_norm": 0.9043643474578857,
      "learning_rate": 0.00028104505169700513,
      "loss": 3.9445,
      "step": 79320
    },
    {
      "epoch": 0.16527083333333334,
      "grad_norm": 0.8583290576934814,
      "learning_rate": 0.00028104025439706275,
      "loss": 3.9454,
      "step": 79330
    },
    {
      "epoch": 0.16529166666666667,
      "grad_norm": 0.8348708152770996,
      "learning_rate": 0.0002810354565310783,
      "loss": 4.2012,
      "step": 79340
    },
    {
      "epoch": 0.1653125,
      "grad_norm": 0.8169229626655579,
      "learning_rate": 0.0002810306580990726,
      "loss": 4.1125,
      "step": 79350
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.8028941750526428,
      "learning_rate": 0.00028102585910106634,
      "loss": 4.1331,
      "step": 79360
    },
    {
      "epoch": 0.16535416666666666,
      "grad_norm": 0.8297994136810303,
      "learning_rate": 0.0002810210595370802,
      "loss": 4.1693,
      "step": 79370
    },
    {
      "epoch": 0.165375,
      "grad_norm": 0.9827543497085571,
      "learning_rate": 0.00028101625940713497,
      "loss": 4.2389,
      "step": 79380
    },
    {
      "epoch": 0.16539583333333333,
      "grad_norm": 0.8144542574882507,
      "learning_rate": 0.00028101145871125134,
      "loss": 4.188,
      "step": 79390
    },
    {
      "epoch": 0.16541666666666666,
      "grad_norm": 0.8525446057319641,
      "learning_rate": 0.00028100665744945006,
      "loss": 4.0304,
      "step": 79400
    },
    {
      "epoch": 0.1654375,
      "grad_norm": 0.8200593590736389,
      "learning_rate": 0.0002810018556217519,
      "loss": 3.9362,
      "step": 79410
    },
    {
      "epoch": 0.16545833333333335,
      "grad_norm": 0.8795623183250427,
      "learning_rate": 0.00028099705322817757,
      "loss": 4.1063,
      "step": 79420
    },
    {
      "epoch": 0.16547916666666668,
      "grad_norm": 0.8897538781166077,
      "learning_rate": 0.0002809922502687478,
      "loss": 3.9635,
      "step": 79430
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.8918092250823975,
      "learning_rate": 0.00028098744674348336,
      "loss": 4.0978,
      "step": 79440
    },
    {
      "epoch": 0.16552083333333334,
      "grad_norm": 0.8596000075340271,
      "learning_rate": 0.000280982642652405,
      "loss": 3.9707,
      "step": 79450
    },
    {
      "epoch": 0.16554166666666667,
      "grad_norm": 0.8886560797691345,
      "learning_rate": 0.00028097783799553355,
      "loss": 4.0843,
      "step": 79460
    },
    {
      "epoch": 0.1655625,
      "grad_norm": 1.1162464618682861,
      "learning_rate": 0.0002809730327728896,
      "loss": 4.1118,
      "step": 79470
    },
    {
      "epoch": 0.16558333333333333,
      "grad_norm": 0.8253206014633179,
      "learning_rate": 0.000280968226984494,
      "loss": 4.0081,
      "step": 79480
    },
    {
      "epoch": 0.16560416666666666,
      "grad_norm": 0.7672308087348938,
      "learning_rate": 0.0002809634206303675,
      "loss": 4.1949,
      "step": 79490
    },
    {
      "epoch": 0.165625,
      "grad_norm": 0.9026516079902649,
      "learning_rate": 0.0002809586137105309,
      "loss": 4.1594,
      "step": 79500
    },
    {
      "epoch": 0.16564583333333333,
      "grad_norm": 0.8509668111801147,
      "learning_rate": 0.0002809538062250049,
      "loss": 4.1443,
      "step": 79510
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 0.825198769569397,
      "learning_rate": 0.0002809489981738103,
      "loss": 4.1164,
      "step": 79520
    },
    {
      "epoch": 0.1656875,
      "grad_norm": 0.7972188591957092,
      "learning_rate": 0.00028094418955696787,
      "loss": 4.1737,
      "step": 79530
    },
    {
      "epoch": 0.16570833333333335,
      "grad_norm": 0.8653455972671509,
      "learning_rate": 0.00028093938037449835,
      "loss": 4.1441,
      "step": 79540
    },
    {
      "epoch": 0.16572916666666668,
      "grad_norm": 0.8408419489860535,
      "learning_rate": 0.0002809345706264225,
      "loss": 4.1997,
      "step": 79550
    },
    {
      "epoch": 0.16575,
      "grad_norm": 0.798293948173523,
      "learning_rate": 0.00028092976031276123,
      "loss": 4.1778,
      "step": 79560
    },
    {
      "epoch": 0.16577083333333334,
      "grad_norm": 0.85252445936203,
      "learning_rate": 0.00028092494943353515,
      "loss": 3.9948,
      "step": 79570
    },
    {
      "epoch": 0.16579166666666667,
      "grad_norm": 0.879504919052124,
      "learning_rate": 0.0002809201379887651,
      "loss": 3.9274,
      "step": 79580
    },
    {
      "epoch": 0.1658125,
      "grad_norm": 1.0538077354431152,
      "learning_rate": 0.00028091532597847193,
      "loss": 4.3029,
      "step": 79590
    },
    {
      "epoch": 0.16583333333333333,
      "grad_norm": 0.8410687446594238,
      "learning_rate": 0.0002809105134026763,
      "loss": 4.1208,
      "step": 79600
    },
    {
      "epoch": 0.16585416666666666,
      "grad_norm": 0.891442596912384,
      "learning_rate": 0.00028090570026139913,
      "loss": 3.8489,
      "step": 79610
    },
    {
      "epoch": 0.165875,
      "grad_norm": 0.8418998122215271,
      "learning_rate": 0.00028090088655466117,
      "loss": 4.0526,
      "step": 79620
    },
    {
      "epoch": 0.16589583333333333,
      "grad_norm": 0.8025652766227722,
      "learning_rate": 0.0002808960722824831,
      "loss": 4.0109,
      "step": 79630
    },
    {
      "epoch": 0.16591666666666666,
      "grad_norm": 0.8105834722518921,
      "learning_rate": 0.0002808912574448859,
      "loss": 4.1322,
      "step": 79640
    },
    {
      "epoch": 0.1659375,
      "grad_norm": 0.8331348896026611,
      "learning_rate": 0.00028088644204189023,
      "loss": 4.0491,
      "step": 79650
    },
    {
      "epoch": 0.16595833333333335,
      "grad_norm": 0.8210223317146301,
      "learning_rate": 0.000280881626073517,
      "loss": 3.9566,
      "step": 79660
    },
    {
      "epoch": 0.16597916666666668,
      "grad_norm": 0.9260345697402954,
      "learning_rate": 0.0002808768095397869,
      "loss": 4.2405,
      "step": 79670
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.8410853147506714,
      "learning_rate": 0.0002808719924407208,
      "loss": 4.0222,
      "step": 79680
    },
    {
      "epoch": 0.16602083333333334,
      "grad_norm": 0.773247241973877,
      "learning_rate": 0.00028086717477633947,
      "loss": 4.009,
      "step": 79690
    },
    {
      "epoch": 0.16604166666666667,
      "grad_norm": 0.8268994092941284,
      "learning_rate": 0.00028086235654666377,
      "loss": 4.0437,
      "step": 79700
    },
    {
      "epoch": 0.1660625,
      "grad_norm": 0.9629040360450745,
      "learning_rate": 0.0002808575377517145,
      "loss": 3.9989,
      "step": 79710
    },
    {
      "epoch": 0.16608333333333333,
      "grad_norm": 0.8064395785331726,
      "learning_rate": 0.00028085271839151246,
      "loss": 4.2093,
      "step": 79720
    },
    {
      "epoch": 0.16610416666666666,
      "grad_norm": 0.819953203201294,
      "learning_rate": 0.0002808478984660785,
      "loss": 4.365,
      "step": 79730
    },
    {
      "epoch": 0.166125,
      "grad_norm": 0.8686676621437073,
      "learning_rate": 0.0002808430779754333,
      "loss": 4.0305,
      "step": 79740
    },
    {
      "epoch": 0.16614583333333333,
      "grad_norm": 0.993669331073761,
      "learning_rate": 0.00028083825691959784,
      "loss": 4.1688,
      "step": 79750
    },
    {
      "epoch": 0.16616666666666666,
      "grad_norm": 0.8143575191497803,
      "learning_rate": 0.000280833435298593,
      "loss": 3.9188,
      "step": 79760
    },
    {
      "epoch": 0.1661875,
      "grad_norm": 0.8249759674072266,
      "learning_rate": 0.0002808286131124394,
      "loss": 4.064,
      "step": 79770
    },
    {
      "epoch": 0.16620833333333335,
      "grad_norm": 0.7729774713516235,
      "learning_rate": 0.000280823790361158,
      "loss": 4.0912,
      "step": 79780
    },
    {
      "epoch": 0.16622916666666668,
      "grad_norm": 0.8169253468513489,
      "learning_rate": 0.00028081896704476963,
      "loss": 3.986,
      "step": 79790
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.8268126845359802,
      "learning_rate": 0.00028081414316329513,
      "loss": 4.3022,
      "step": 79800
    },
    {
      "epoch": 0.16627083333333334,
      "grad_norm": 0.7806804180145264,
      "learning_rate": 0.00028080931871675527,
      "loss": 3.9941,
      "step": 79810
    },
    {
      "epoch": 0.16629166666666667,
      "grad_norm": 0.8143953084945679,
      "learning_rate": 0.00028080449370517093,
      "loss": 4.0319,
      "step": 79820
    },
    {
      "epoch": 0.1663125,
      "grad_norm": 0.923640787601471,
      "learning_rate": 0.000280799668128563,
      "loss": 4.125,
      "step": 79830
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 0.9070751667022705,
      "learning_rate": 0.0002807948419869522,
      "loss": 4.1205,
      "step": 79840
    },
    {
      "epoch": 0.16635416666666666,
      "grad_norm": 0.9089393615722656,
      "learning_rate": 0.0002807900152803595,
      "loss": 4.1665,
      "step": 79850
    },
    {
      "epoch": 0.166375,
      "grad_norm": 0.8414421677589417,
      "learning_rate": 0.00028078518800880566,
      "loss": 4.0396,
      "step": 79860
    },
    {
      "epoch": 0.16639583333333333,
      "grad_norm": 0.835890531539917,
      "learning_rate": 0.0002807803601723116,
      "loss": 4.0107,
      "step": 79870
    },
    {
      "epoch": 0.16641666666666666,
      "grad_norm": 0.8580713868141174,
      "learning_rate": 0.0002807755317708982,
      "loss": 4.133,
      "step": 79880
    },
    {
      "epoch": 0.1664375,
      "grad_norm": 0.9797911047935486,
      "learning_rate": 0.00028077070280458624,
      "loss": 4.0434,
      "step": 79890
    },
    {
      "epoch": 0.16645833333333335,
      "grad_norm": 0.8432111144065857,
      "learning_rate": 0.0002807658732733966,
      "loss": 4.3002,
      "step": 79900
    },
    {
      "epoch": 0.16647916666666668,
      "grad_norm": 0.7886663675308228,
      "learning_rate": 0.00028076104317735013,
      "loss": 4.1386,
      "step": 79910
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.8010157942771912,
      "learning_rate": 0.0002807562125164677,
      "loss": 4.1381,
      "step": 79920
    },
    {
      "epoch": 0.16652083333333334,
      "grad_norm": 0.802979588508606,
      "learning_rate": 0.00028075138129077026,
      "loss": 4.112,
      "step": 79930
    },
    {
      "epoch": 0.16654166666666667,
      "grad_norm": 0.8613293766975403,
      "learning_rate": 0.00028074654950027857,
      "loss": 4.1646,
      "step": 79940
    },
    {
      "epoch": 0.1665625,
      "grad_norm": 0.9214317202568054,
      "learning_rate": 0.0002807417171450135,
      "loss": 4.0486,
      "step": 79950
    },
    {
      "epoch": 0.16658333333333333,
      "grad_norm": 0.7886694669723511,
      "learning_rate": 0.000280736884224996,
      "loss": 3.9009,
      "step": 79960
    },
    {
      "epoch": 0.16660416666666666,
      "grad_norm": 0.8610941767692566,
      "learning_rate": 0.0002807320507402469,
      "loss": 3.9419,
      "step": 79970
    },
    {
      "epoch": 0.166625,
      "grad_norm": 0.9156580567359924,
      "learning_rate": 0.00028072721669078715,
      "loss": 4.1567,
      "step": 79980
    },
    {
      "epoch": 0.16664583333333333,
      "grad_norm": 0.9339553117752075,
      "learning_rate": 0.0002807223820766375,
      "loss": 3.9632,
      "step": 79990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.7569006085395813,
      "learning_rate": 0.0002807175468978189,
      "loss": 3.9592,
      "step": 80000
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 3.8471267223358154,
      "eval_runtime": 7.1943,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 80000
    },
    {
      "epoch": 0.1666875,
      "grad_norm": 0.7896223068237305,
      "learning_rate": 0.0002807127111543523,
      "loss": 4.0727,
      "step": 80010
    },
    {
      "epoch": 0.16670833333333332,
      "grad_norm": 0.8249102830886841,
      "learning_rate": 0.0002807078748462584,
      "loss": 4.0695,
      "step": 80020
    },
    {
      "epoch": 0.16672916666666668,
      "grad_norm": 0.8446899652481079,
      "learning_rate": 0.0002807030379735583,
      "loss": 4.1623,
      "step": 80030
    },
    {
      "epoch": 0.16675,
      "grad_norm": 0.7815660238265991,
      "learning_rate": 0.0002806982005362728,
      "loss": 4.1583,
      "step": 80040
    },
    {
      "epoch": 0.16677083333333334,
      "grad_norm": 0.8773915767669678,
      "learning_rate": 0.0002806933625344229,
      "loss": 3.9686,
      "step": 80050
    },
    {
      "epoch": 0.16679166666666667,
      "grad_norm": 0.8896158337593079,
      "learning_rate": 0.0002806885239680293,
      "loss": 4.0651,
      "step": 80060
    },
    {
      "epoch": 0.1668125,
      "grad_norm": 0.8320703506469727,
      "learning_rate": 0.000280683684837113,
      "loss": 3.9603,
      "step": 80070
    },
    {
      "epoch": 0.16683333333333333,
      "grad_norm": 0.8045276403427124,
      "learning_rate": 0.000280678845141695,
      "loss": 4.2389,
      "step": 80080
    },
    {
      "epoch": 0.16685416666666666,
      "grad_norm": 0.8143761157989502,
      "learning_rate": 0.00028067400488179605,
      "loss": 4.2127,
      "step": 80090
    },
    {
      "epoch": 0.166875,
      "grad_norm": 0.8337296843528748,
      "learning_rate": 0.0002806691640574371,
      "loss": 4.0867,
      "step": 80100
    },
    {
      "epoch": 0.16689583333333333,
      "grad_norm": 0.8241526484489441,
      "learning_rate": 0.0002806643226686391,
      "loss": 4.0932,
      "step": 80110
    },
    {
      "epoch": 0.16691666666666666,
      "grad_norm": 0.954163134098053,
      "learning_rate": 0.000280659480715423,
      "loss": 4.1619,
      "step": 80120
    },
    {
      "epoch": 0.1669375,
      "grad_norm": 0.8259220123291016,
      "learning_rate": 0.0002806546381978096,
      "loss": 4.1381,
      "step": 80130
    },
    {
      "epoch": 0.16695833333333332,
      "grad_norm": 0.8976938128471375,
      "learning_rate": 0.00028064979511581987,
      "loss": 4.1064,
      "step": 80140
    },
    {
      "epoch": 0.16697916666666668,
      "grad_norm": 0.9482538104057312,
      "learning_rate": 0.0002806449514694748,
      "loss": 4.141,
      "step": 80150
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.8677237033843994,
      "learning_rate": 0.00028064010725879524,
      "loss": 4.0734,
      "step": 80160
    },
    {
      "epoch": 0.16702083333333334,
      "grad_norm": 0.8499444127082825,
      "learning_rate": 0.0002806352624838021,
      "loss": 3.8628,
      "step": 80170
    },
    {
      "epoch": 0.16704166666666667,
      "grad_norm": 0.9455634355545044,
      "learning_rate": 0.0002806304171445164,
      "loss": 4.1195,
      "step": 80180
    },
    {
      "epoch": 0.1670625,
      "grad_norm": 0.8504419326782227,
      "learning_rate": 0.0002806255712409589,
      "loss": 4.1732,
      "step": 80190
    },
    {
      "epoch": 0.16708333333333333,
      "grad_norm": 0.8543108701705933,
      "learning_rate": 0.0002806207247731507,
      "loss": 4.1373,
      "step": 80200
    },
    {
      "epoch": 0.16710416666666666,
      "grad_norm": 0.8227998614311218,
      "learning_rate": 0.00028061587774111266,
      "loss": 4.0195,
      "step": 80210
    },
    {
      "epoch": 0.167125,
      "grad_norm": 0.8749751448631287,
      "learning_rate": 0.0002806110301448657,
      "loss": 4.0994,
      "step": 80220
    },
    {
      "epoch": 0.16714583333333333,
      "grad_norm": 0.8324103951454163,
      "learning_rate": 0.00028060618198443086,
      "loss": 4.0744,
      "step": 80230
    },
    {
      "epoch": 0.16716666666666666,
      "grad_norm": 0.9014171361923218,
      "learning_rate": 0.00028060133325982897,
      "loss": 4.0865,
      "step": 80240
    },
    {
      "epoch": 0.1671875,
      "grad_norm": 0.8249258995056152,
      "learning_rate": 0.000280596483971081,
      "loss": 4.0755,
      "step": 80250
    },
    {
      "epoch": 0.16720833333333332,
      "grad_norm": 0.7982913255691528,
      "learning_rate": 0.000280591634118208,
      "loss": 4.0881,
      "step": 80260
    },
    {
      "epoch": 0.16722916666666668,
      "grad_norm": 0.8030089735984802,
      "learning_rate": 0.00028058678370123074,
      "loss": 4.332,
      "step": 80270
    },
    {
      "epoch": 0.16725,
      "grad_norm": 0.7780844569206238,
      "learning_rate": 0.00028058193272017027,
      "loss": 4.3334,
      "step": 80280
    },
    {
      "epoch": 0.16727083333333334,
      "grad_norm": 0.8021790385246277,
      "learning_rate": 0.0002805770811750476,
      "loss": 3.9683,
      "step": 80290
    },
    {
      "epoch": 0.16729166666666667,
      "grad_norm": 0.7802023887634277,
      "learning_rate": 0.00028057222906588354,
      "loss": 4.1439,
      "step": 80300
    },
    {
      "epoch": 0.1673125,
      "grad_norm": 0.8327587246894836,
      "learning_rate": 0.0002805673763926992,
      "loss": 4.276,
      "step": 80310
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 0.9283930063247681,
      "learning_rate": 0.0002805625231555154,
      "loss": 4.0189,
      "step": 80320
    },
    {
      "epoch": 0.16735416666666666,
      "grad_norm": 0.9745842814445496,
      "learning_rate": 0.00028055766935435327,
      "loss": 4.0864,
      "step": 80330
    },
    {
      "epoch": 0.167375,
      "grad_norm": 0.8210384249687195,
      "learning_rate": 0.00028055281498923364,
      "loss": 4.3167,
      "step": 80340
    },
    {
      "epoch": 0.16739583333333333,
      "grad_norm": 0.864247739315033,
      "learning_rate": 0.00028054796006017754,
      "loss": 4.0211,
      "step": 80350
    },
    {
      "epoch": 0.16741666666666666,
      "grad_norm": 0.8464381098747253,
      "learning_rate": 0.00028054310456720593,
      "loss": 4.1242,
      "step": 80360
    },
    {
      "epoch": 0.1674375,
      "grad_norm": 0.9339602589607239,
      "learning_rate": 0.0002805382485103398,
      "loss": 4.2697,
      "step": 80370
    },
    {
      "epoch": 0.16745833333333332,
      "grad_norm": 0.7923420667648315,
      "learning_rate": 0.00028053339188960005,
      "loss": 3.8518,
      "step": 80380
    },
    {
      "epoch": 0.16747916666666668,
      "grad_norm": 0.7997480630874634,
      "learning_rate": 0.00028052853470500775,
      "loss": 3.9939,
      "step": 80390
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.8468123078346252,
      "learning_rate": 0.00028052367695658386,
      "loss": 4.2465,
      "step": 80400
    },
    {
      "epoch": 0.16752083333333334,
      "grad_norm": 0.8154744505882263,
      "learning_rate": 0.0002805188186443493,
      "loss": 4.0039,
      "step": 80410
    },
    {
      "epoch": 0.16754166666666667,
      "grad_norm": 0.9145876169204712,
      "learning_rate": 0.0002805139597683252,
      "loss": 4.0323,
      "step": 80420
    },
    {
      "epoch": 0.1675625,
      "grad_norm": 0.8881068229675293,
      "learning_rate": 0.00028050910032853234,
      "loss": 4.0442,
      "step": 80430
    },
    {
      "epoch": 0.16758333333333333,
      "grad_norm": 1.035094976425171,
      "learning_rate": 0.0002805042403249919,
      "loss": 4.2287,
      "step": 80440
    },
    {
      "epoch": 0.16760416666666667,
      "grad_norm": 0.8119146823883057,
      "learning_rate": 0.0002804993797577248,
      "loss": 4.2121,
      "step": 80450
    },
    {
      "epoch": 0.167625,
      "grad_norm": 0.960699200630188,
      "learning_rate": 0.000280494518626752,
      "loss": 4.006,
      "step": 80460
    },
    {
      "epoch": 0.16764583333333333,
      "grad_norm": 0.8013748526573181,
      "learning_rate": 0.00028048965693209453,
      "loss": 4.1388,
      "step": 80470
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 0.8046630620956421,
      "learning_rate": 0.0002804847946737734,
      "loss": 4.0705,
      "step": 80480
    },
    {
      "epoch": 0.1676875,
      "grad_norm": 0.9701215624809265,
      "learning_rate": 0.0002804799318518096,
      "loss": 4.1119,
      "step": 80490
    },
    {
      "epoch": 0.16770833333333332,
      "grad_norm": 0.8359657526016235,
      "learning_rate": 0.0002804750684662242,
      "loss": 4.1611,
      "step": 80500
    },
    {
      "epoch": 0.16772916666666668,
      "grad_norm": 0.8063834309577942,
      "learning_rate": 0.0002804702045170381,
      "loss": 4.0916,
      "step": 80510
    },
    {
      "epoch": 0.16775,
      "grad_norm": 1.452019214630127,
      "learning_rate": 0.0002804653400042724,
      "loss": 4.138,
      "step": 80520
    },
    {
      "epoch": 0.16777083333333334,
      "grad_norm": 0.9308847188949585,
      "learning_rate": 0.00028046047492794805,
      "loss": 4.3709,
      "step": 80530
    },
    {
      "epoch": 0.16779166666666667,
      "grad_norm": 0.7526811957359314,
      "learning_rate": 0.00028045560928808606,
      "loss": 4.129,
      "step": 80540
    },
    {
      "epoch": 0.1678125,
      "grad_norm": 0.8740196824073792,
      "learning_rate": 0.0002804507430847075,
      "loss": 4.0991,
      "step": 80550
    },
    {
      "epoch": 0.16783333333333333,
      "grad_norm": 0.851487934589386,
      "learning_rate": 0.00028044587631783334,
      "loss": 3.9868,
      "step": 80560
    },
    {
      "epoch": 0.16785416666666667,
      "grad_norm": 0.7740389704704285,
      "learning_rate": 0.0002804410089874846,
      "loss": 3.9603,
      "step": 80570
    },
    {
      "epoch": 0.167875,
      "grad_norm": 0.950337827205658,
      "learning_rate": 0.00028043614109368243,
      "loss": 4.1596,
      "step": 80580
    },
    {
      "epoch": 0.16789583333333333,
      "grad_norm": 0.878241240978241,
      "learning_rate": 0.00028043127263644775,
      "loss": 4.1902,
      "step": 80590
    },
    {
      "epoch": 0.16791666666666666,
      "grad_norm": 1.015178918838501,
      "learning_rate": 0.00028042640361580155,
      "loss": 4.2824,
      "step": 80600
    },
    {
      "epoch": 0.1679375,
      "grad_norm": 0.7830345630645752,
      "learning_rate": 0.0002804215340317649,
      "loss": 3.9731,
      "step": 80610
    },
    {
      "epoch": 0.16795833333333332,
      "grad_norm": 0.7816493511199951,
      "learning_rate": 0.00028041666388435886,
      "loss": 4.2151,
      "step": 80620
    },
    {
      "epoch": 0.16797916666666668,
      "grad_norm": 0.989652693271637,
      "learning_rate": 0.0002804117931736045,
      "loss": 3.8935,
      "step": 80630
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.8852576613426208,
      "learning_rate": 0.0002804069218995228,
      "loss": 3.9402,
      "step": 80640
    },
    {
      "epoch": 0.16802083333333334,
      "grad_norm": 0.851189911365509,
      "learning_rate": 0.0002804020500621348,
      "loss": 3.9841,
      "step": 80650
    },
    {
      "epoch": 0.16804166666666667,
      "grad_norm": 0.8363277912139893,
      "learning_rate": 0.00028039717766146154,
      "loss": 3.9978,
      "step": 80660
    },
    {
      "epoch": 0.1680625,
      "grad_norm": 0.9273102283477783,
      "learning_rate": 0.00028039230469752407,
      "loss": 4.1946,
      "step": 80670
    },
    {
      "epoch": 0.16808333333333333,
      "grad_norm": 0.9297008514404297,
      "learning_rate": 0.00028038743117034357,
      "loss": 4.1728,
      "step": 80680
    },
    {
      "epoch": 0.16810416666666667,
      "grad_norm": 0.8759754300117493,
      "learning_rate": 0.00028038255707994085,
      "loss": 4.1378,
      "step": 80690
    },
    {
      "epoch": 0.168125,
      "grad_norm": 0.8929643034934998,
      "learning_rate": 0.0002803776824263372,
      "loss": 4.0625,
      "step": 80700
    },
    {
      "epoch": 0.16814583333333333,
      "grad_norm": 0.9884732961654663,
      "learning_rate": 0.00028037280720955346,
      "loss": 4.0927,
      "step": 80710
    },
    {
      "epoch": 0.16816666666666666,
      "grad_norm": 0.8986707925796509,
      "learning_rate": 0.00028036793142961086,
      "loss": 3.9351,
      "step": 80720
    },
    {
      "epoch": 0.1681875,
      "grad_norm": 0.8607059121131897,
      "learning_rate": 0.0002803630550865304,
      "loss": 4.1357,
      "step": 80730
    },
    {
      "epoch": 0.16820833333333332,
      "grad_norm": 0.7862783670425415,
      "learning_rate": 0.00028035817818033315,
      "loss": 4.1474,
      "step": 80740
    },
    {
      "epoch": 0.16822916666666668,
      "grad_norm": 0.8966134786605835,
      "learning_rate": 0.0002803533007110401,
      "loss": 4.1008,
      "step": 80750
    },
    {
      "epoch": 0.16825,
      "grad_norm": 0.8585490584373474,
      "learning_rate": 0.0002803484226786725,
      "loss": 4.0064,
      "step": 80760
    },
    {
      "epoch": 0.16827083333333334,
      "grad_norm": 0.794388473033905,
      "learning_rate": 0.0002803435440832512,
      "loss": 3.9116,
      "step": 80770
    },
    {
      "epoch": 0.16829166666666667,
      "grad_norm": 0.8082303404808044,
      "learning_rate": 0.0002803386649247975,
      "loss": 4.0112,
      "step": 80780
    },
    {
      "epoch": 0.1683125,
      "grad_norm": 0.8170761466026306,
      "learning_rate": 0.0002803337852033323,
      "loss": 4.0603,
      "step": 80790
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 0.9064999222755432,
      "learning_rate": 0.0002803289049188767,
      "loss": 4.0396,
      "step": 80800
    },
    {
      "epoch": 0.16835416666666667,
      "grad_norm": 0.8713269233703613,
      "learning_rate": 0.00028032402407145184,
      "loss": 4.0826,
      "step": 80810
    },
    {
      "epoch": 0.168375,
      "grad_norm": 0.8440210819244385,
      "learning_rate": 0.00028031914266107876,
      "loss": 4.1478,
      "step": 80820
    },
    {
      "epoch": 0.16839583333333333,
      "grad_norm": 0.8881034851074219,
      "learning_rate": 0.00028031426068777864,
      "loss": 4.0614,
      "step": 80830
    },
    {
      "epoch": 0.16841666666666666,
      "grad_norm": 0.8120086193084717,
      "learning_rate": 0.00028030937815157246,
      "loss": 4.056,
      "step": 80840
    },
    {
      "epoch": 0.1684375,
      "grad_norm": 0.8281517028808594,
      "learning_rate": 0.0002803044950524813,
      "loss": 4.0397,
      "step": 80850
    },
    {
      "epoch": 0.16845833333333332,
      "grad_norm": 0.8534073233604431,
      "learning_rate": 0.0002802996113905264,
      "loss": 3.9446,
      "step": 80860
    },
    {
      "epoch": 0.16847916666666668,
      "grad_norm": 0.8662796020507812,
      "learning_rate": 0.00028029472716572867,
      "loss": 4.0564,
      "step": 80870
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.8968623280525208,
      "learning_rate": 0.0002802898423781093,
      "loss": 4.1884,
      "step": 80880
    },
    {
      "epoch": 0.16852083333333334,
      "grad_norm": 0.8744120001792908,
      "learning_rate": 0.0002802849570276894,
      "loss": 4.1767,
      "step": 80890
    },
    {
      "epoch": 0.16854166666666667,
      "grad_norm": 0.8562678694725037,
      "learning_rate": 0.0002802800711144901,
      "loss": 4.0125,
      "step": 80900
    },
    {
      "epoch": 0.1685625,
      "grad_norm": 0.8693408966064453,
      "learning_rate": 0.0002802751846385324,
      "loss": 4.0401,
      "step": 80910
    },
    {
      "epoch": 0.16858333333333334,
      "grad_norm": 0.8888222575187683,
      "learning_rate": 0.00028027029759983746,
      "loss": 4.1618,
      "step": 80920
    },
    {
      "epoch": 0.16860416666666667,
      "grad_norm": 0.8615597486495972,
      "learning_rate": 0.00028026540999842646,
      "loss": 3.9884,
      "step": 80930
    },
    {
      "epoch": 0.168625,
      "grad_norm": 0.8358708620071411,
      "learning_rate": 0.0002802605218343204,
      "loss": 3.9214,
      "step": 80940
    },
    {
      "epoch": 0.16864583333333333,
      "grad_norm": 0.7796348333358765,
      "learning_rate": 0.0002802556331075405,
      "loss": 4.0569,
      "step": 80950
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 0.8348937034606934,
      "learning_rate": 0.00028025074381810776,
      "loss": 4.0663,
      "step": 80960
    },
    {
      "epoch": 0.1686875,
      "grad_norm": 0.8861473798751831,
      "learning_rate": 0.0002802458539660434,
      "loss": 4.1129,
      "step": 80970
    },
    {
      "epoch": 0.16870833333333332,
      "grad_norm": 0.8028486371040344,
      "learning_rate": 0.00028024096355136854,
      "loss": 4.104,
      "step": 80980
    },
    {
      "epoch": 0.16872916666666668,
      "grad_norm": 0.8320558667182922,
      "learning_rate": 0.0002802360725741042,
      "loss": 3.9128,
      "step": 80990
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.947953999042511,
      "learning_rate": 0.0002802311810342716,
      "loss": 4.0736,
      "step": 81000
    },
    {
      "epoch": 0.16875,
      "eval_loss": 3.846442461013794,
      "eval_runtime": 7.2412,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 81000
    },
    {
      "epoch": 0.16877083333333334,
      "grad_norm": 0.8280061483383179,
      "learning_rate": 0.0002802262889318918,
      "loss": 3.9507,
      "step": 81010
    },
    {
      "epoch": 0.16879166666666667,
      "grad_norm": 0.8824617266654968,
      "learning_rate": 0.00028022139626698606,
      "loss": 4.1647,
      "step": 81020
    },
    {
      "epoch": 0.1688125,
      "grad_norm": 0.9661827087402344,
      "learning_rate": 0.00028021650303957545,
      "loss": 4.0893,
      "step": 81030
    },
    {
      "epoch": 0.16883333333333334,
      "grad_norm": 0.8095500469207764,
      "learning_rate": 0.000280211609249681,
      "loss": 4.066,
      "step": 81040
    },
    {
      "epoch": 0.16885416666666667,
      "grad_norm": 0.8561674952507019,
      "learning_rate": 0.000280206714897324,
      "loss": 4.0481,
      "step": 81050
    },
    {
      "epoch": 0.168875,
      "grad_norm": 0.9146625995635986,
      "learning_rate": 0.0002802018199825255,
      "loss": 4.1096,
      "step": 81060
    },
    {
      "epoch": 0.16889583333333333,
      "grad_norm": 0.7797393798828125,
      "learning_rate": 0.0002801969245053067,
      "loss": 4.0642,
      "step": 81070
    },
    {
      "epoch": 0.16891666666666666,
      "grad_norm": 0.8757011294364929,
      "learning_rate": 0.0002801920284656887,
      "loss": 3.9753,
      "step": 81080
    },
    {
      "epoch": 0.1689375,
      "grad_norm": 0.8174533247947693,
      "learning_rate": 0.0002801871318636927,
      "loss": 4.0586,
      "step": 81090
    },
    {
      "epoch": 0.16895833333333332,
      "grad_norm": 0.7912397980690002,
      "learning_rate": 0.0002801822346993398,
      "loss": 4.1858,
      "step": 81100
    },
    {
      "epoch": 0.16897916666666668,
      "grad_norm": 0.8363229632377625,
      "learning_rate": 0.00028017733697265117,
      "loss": 3.8171,
      "step": 81110
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.8621578812599182,
      "learning_rate": 0.000280172438683648,
      "loss": 4.1843,
      "step": 81120
    },
    {
      "epoch": 0.16902083333333334,
      "grad_norm": 0.8493368625640869,
      "learning_rate": 0.0002801675398323514,
      "loss": 4.14,
      "step": 81130
    },
    {
      "epoch": 0.16904166666666667,
      "grad_norm": 0.871731698513031,
      "learning_rate": 0.0002801626404187826,
      "loss": 3.8772,
      "step": 81140
    },
    {
      "epoch": 0.1690625,
      "grad_norm": 0.8660675287246704,
      "learning_rate": 0.0002801577404429626,
      "loss": 3.8964,
      "step": 81150
    },
    {
      "epoch": 0.16908333333333334,
      "grad_norm": 0.8091455101966858,
      "learning_rate": 0.0002801528399049128,
      "loss": 4.0297,
      "step": 81160
    },
    {
      "epoch": 0.16910416666666667,
      "grad_norm": 0.8248870968818665,
      "learning_rate": 0.0002801479388046542,
      "loss": 4.0245,
      "step": 81170
    },
    {
      "epoch": 0.169125,
      "grad_norm": 0.8787612318992615,
      "learning_rate": 0.00028014303714220804,
      "loss": 3.9941,
      "step": 81180
    },
    {
      "epoch": 0.16914583333333333,
      "grad_norm": 1.283952236175537,
      "learning_rate": 0.00028013813491759547,
      "loss": 4.0711,
      "step": 81190
    },
    {
      "epoch": 0.16916666666666666,
      "grad_norm": 0.8837092518806458,
      "learning_rate": 0.0002801332321308376,
      "loss": 4.0964,
      "step": 81200
    },
    {
      "epoch": 0.1691875,
      "grad_norm": 0.8059207797050476,
      "learning_rate": 0.00028012832878195575,
      "loss": 4.1093,
      "step": 81210
    },
    {
      "epoch": 0.16920833333333332,
      "grad_norm": 0.8577534556388855,
      "learning_rate": 0.000280123424870971,
      "loss": 3.9988,
      "step": 81220
    },
    {
      "epoch": 0.16922916666666668,
      "grad_norm": 0.8028525114059448,
      "learning_rate": 0.0002801185203979046,
      "loss": 4.0452,
      "step": 81230
    },
    {
      "epoch": 0.16925,
      "grad_norm": 0.8258671760559082,
      "learning_rate": 0.0002801136153627777,
      "loss": 4.158,
      "step": 81240
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 0.8910724520683289,
      "learning_rate": 0.0002801087097656114,
      "loss": 4.0633,
      "step": 81250
    },
    {
      "epoch": 0.16929166666666667,
      "grad_norm": 1.0609443187713623,
      "learning_rate": 0.00028010380360642703,
      "loss": 4.1763,
      "step": 81260
    },
    {
      "epoch": 0.1693125,
      "grad_norm": 0.8927850723266602,
      "learning_rate": 0.0002800988968852457,
      "loss": 4.0041,
      "step": 81270
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.7906434535980225,
      "learning_rate": 0.0002800939896020887,
      "loss": 4.1982,
      "step": 81280
    },
    {
      "epoch": 0.16935416666666667,
      "grad_norm": 0.8130666613578796,
      "learning_rate": 0.0002800890817569771,
      "loss": 4.267,
      "step": 81290
    },
    {
      "epoch": 0.169375,
      "grad_norm": 0.8717628121376038,
      "learning_rate": 0.00028008417334993217,
      "loss": 3.9985,
      "step": 81300
    },
    {
      "epoch": 0.16939583333333333,
      "grad_norm": 0.8874466419219971,
      "learning_rate": 0.0002800792643809751,
      "loss": 3.9492,
      "step": 81310
    },
    {
      "epoch": 0.16941666666666666,
      "grad_norm": 0.9453596472740173,
      "learning_rate": 0.0002800743548501271,
      "loss": 4.0278,
      "step": 81320
    },
    {
      "epoch": 0.1694375,
      "grad_norm": 0.838506817817688,
      "learning_rate": 0.00028006944475740943,
      "loss": 3.9827,
      "step": 81330
    },
    {
      "epoch": 0.16945833333333332,
      "grad_norm": 0.8587402701377869,
      "learning_rate": 0.0002800645341028432,
      "loss": 4.1524,
      "step": 81340
    },
    {
      "epoch": 0.16947916666666665,
      "grad_norm": 0.8135903477668762,
      "learning_rate": 0.0002800596228864496,
      "loss": 4.0727,
      "step": 81350
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.8042080998420715,
      "learning_rate": 0.00028005471110825,
      "loss": 4.0024,
      "step": 81360
    },
    {
      "epoch": 0.16952083333333334,
      "grad_norm": 0.8501240015029907,
      "learning_rate": 0.00028004979876826544,
      "loss": 4.0977,
      "step": 81370
    },
    {
      "epoch": 0.16954166666666667,
      "grad_norm": 0.7705793380737305,
      "learning_rate": 0.00028004488586651737,
      "loss": 4.0002,
      "step": 81380
    },
    {
      "epoch": 0.1695625,
      "grad_norm": 0.7868468165397644,
      "learning_rate": 0.00028003997240302675,
      "loss": 4.0528,
      "step": 81390
    },
    {
      "epoch": 0.16958333333333334,
      "grad_norm": 0.8422499299049377,
      "learning_rate": 0.00028003505837781494,
      "loss": 4.1789,
      "step": 81400
    },
    {
      "epoch": 0.16960416666666667,
      "grad_norm": 0.8656946420669556,
      "learning_rate": 0.00028003014379090314,
      "loss": 4.039,
      "step": 81410
    },
    {
      "epoch": 0.169625,
      "grad_norm": 0.8651094436645508,
      "learning_rate": 0.00028002522864231265,
      "loss": 4.0927,
      "step": 81420
    },
    {
      "epoch": 0.16964583333333333,
      "grad_norm": 0.8121965527534485,
      "learning_rate": 0.00028002031293206456,
      "loss": 4.0994,
      "step": 81430
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 0.8500776290893555,
      "learning_rate": 0.00028001539666018023,
      "loss": 4.0048,
      "step": 81440
    },
    {
      "epoch": 0.1696875,
      "grad_norm": 0.8862177729606628,
      "learning_rate": 0.00028001047982668085,
      "loss": 3.9605,
      "step": 81450
    },
    {
      "epoch": 0.16970833333333332,
      "grad_norm": 0.7867428660392761,
      "learning_rate": 0.00028000556243158763,
      "loss": 4.0175,
      "step": 81460
    },
    {
      "epoch": 0.16972916666666665,
      "grad_norm": 0.7576916217803955,
      "learning_rate": 0.00028000064447492186,
      "loss": 4.0223,
      "step": 81470
    },
    {
      "epoch": 0.16975,
      "grad_norm": 0.8821545243263245,
      "learning_rate": 0.0002799957259567048,
      "loss": 4.2071,
      "step": 81480
    },
    {
      "epoch": 0.16977083333333334,
      "grad_norm": 0.8507280945777893,
      "learning_rate": 0.00027999080687695764,
      "loss": 4.1349,
      "step": 81490
    },
    {
      "epoch": 0.16979166666666667,
      "grad_norm": 0.8395779132843018,
      "learning_rate": 0.00027998588723570164,
      "loss": 4.012,
      "step": 81500
    },
    {
      "epoch": 0.1698125,
      "grad_norm": 0.7643851041793823,
      "learning_rate": 0.00027998096703295804,
      "loss": 4.2369,
      "step": 81510
    },
    {
      "epoch": 0.16983333333333334,
      "grad_norm": 0.8230376839637756,
      "learning_rate": 0.00027997604626874814,
      "loss": 4.2673,
      "step": 81520
    },
    {
      "epoch": 0.16985416666666667,
      "grad_norm": 0.8485577702522278,
      "learning_rate": 0.00027997112494309315,
      "loss": 4.2039,
      "step": 81530
    },
    {
      "epoch": 0.169875,
      "grad_norm": 0.8490616083145142,
      "learning_rate": 0.00027996620305601437,
      "loss": 4.1252,
      "step": 81540
    },
    {
      "epoch": 0.16989583333333333,
      "grad_norm": 0.9537847638130188,
      "learning_rate": 0.000279961280607533,
      "loss": 3.9287,
      "step": 81550
    },
    {
      "epoch": 0.16991666666666666,
      "grad_norm": 0.9297653436660767,
      "learning_rate": 0.0002799563575976704,
      "loss": 3.9541,
      "step": 81560
    },
    {
      "epoch": 0.1699375,
      "grad_norm": 0.8399255871772766,
      "learning_rate": 0.00027995143402644767,
      "loss": 4.0914,
      "step": 81570
    },
    {
      "epoch": 0.16995833333333332,
      "grad_norm": 0.7983774542808533,
      "learning_rate": 0.0002799465098938863,
      "loss": 4.008,
      "step": 81580
    },
    {
      "epoch": 0.16997916666666665,
      "grad_norm": 0.7366503477096558,
      "learning_rate": 0.00027994158520000734,
      "loss": 3.9255,
      "step": 81590
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8005902767181396,
      "learning_rate": 0.00027993665994483223,
      "loss": 3.8771,
      "step": 81600
    },
    {
      "epoch": 0.17002083333333334,
      "grad_norm": 0.8148255348205566,
      "learning_rate": 0.00027993173412838214,
      "loss": 4.0349,
      "step": 81610
    },
    {
      "epoch": 0.17004166666666667,
      "grad_norm": 0.8363559246063232,
      "learning_rate": 0.0002799268077506784,
      "loss": 4.2293,
      "step": 81620
    },
    {
      "epoch": 0.1700625,
      "grad_norm": 0.8047759532928467,
      "learning_rate": 0.0002799218808117423,
      "loss": 4.2127,
      "step": 81630
    },
    {
      "epoch": 0.17008333333333334,
      "grad_norm": 0.8104610443115234,
      "learning_rate": 0.00027991695331159515,
      "loss": 4.0529,
      "step": 81640
    },
    {
      "epoch": 0.17010416666666667,
      "grad_norm": 0.7967701554298401,
      "learning_rate": 0.0002799120252502581,
      "loss": 3.9442,
      "step": 81650
    },
    {
      "epoch": 0.170125,
      "grad_norm": 0.8503361940383911,
      "learning_rate": 0.0002799070966277526,
      "loss": 4.0725,
      "step": 81660
    },
    {
      "epoch": 0.17014583333333333,
      "grad_norm": 0.8524686694145203,
      "learning_rate": 0.00027990216744409977,
      "loss": 4.1817,
      "step": 81670
    },
    {
      "epoch": 0.17016666666666666,
      "grad_norm": 0.8700870275497437,
      "learning_rate": 0.0002798972376993211,
      "loss": 4.0888,
      "step": 81680
    },
    {
      "epoch": 0.1701875,
      "grad_norm": 0.7700706720352173,
      "learning_rate": 0.0002798923073934377,
      "loss": 4.0943,
      "step": 81690
    },
    {
      "epoch": 0.17020833333333332,
      "grad_norm": 0.9079373478889465,
      "learning_rate": 0.00027988737652647096,
      "loss": 4.0793,
      "step": 81700
    },
    {
      "epoch": 0.17022916666666665,
      "grad_norm": 1.0698926448822021,
      "learning_rate": 0.0002798824450984422,
      "loss": 3.9461,
      "step": 81710
    },
    {
      "epoch": 0.17025,
      "grad_norm": 0.7691323757171631,
      "learning_rate": 0.0002798775131093727,
      "loss": 4.1546,
      "step": 81720
    },
    {
      "epoch": 0.17027083333333334,
      "grad_norm": 0.8265663385391235,
      "learning_rate": 0.0002798725805592837,
      "loss": 4.1755,
      "step": 81730
    },
    {
      "epoch": 0.17029166666666667,
      "grad_norm": 0.7366888523101807,
      "learning_rate": 0.00027986764744819656,
      "loss": 3.9784,
      "step": 81740
    },
    {
      "epoch": 0.1703125,
      "grad_norm": 0.8154224157333374,
      "learning_rate": 0.0002798627137761326,
      "loss": 4.0484,
      "step": 81750
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 0.9080823063850403,
      "learning_rate": 0.00027985777954311317,
      "loss": 3.9482,
      "step": 81760
    },
    {
      "epoch": 0.17035416666666667,
      "grad_norm": 0.8082841038703918,
      "learning_rate": 0.0002798528447491595,
      "loss": 3.9453,
      "step": 81770
    },
    {
      "epoch": 0.170375,
      "grad_norm": 0.7699036598205566,
      "learning_rate": 0.0002798479093942929,
      "loss": 4.0808,
      "step": 81780
    },
    {
      "epoch": 0.17039583333333333,
      "grad_norm": 0.8463187217712402,
      "learning_rate": 0.00027984297347853474,
      "loss": 4.0751,
      "step": 81790
    },
    {
      "epoch": 0.17041666666666666,
      "grad_norm": 0.8605725765228271,
      "learning_rate": 0.0002798380370019064,
      "loss": 4.2186,
      "step": 81800
    },
    {
      "epoch": 0.1704375,
      "grad_norm": 0.7527908086776733,
      "learning_rate": 0.0002798330999644291,
      "loss": 3.9011,
      "step": 81810
    },
    {
      "epoch": 0.17045833333333332,
      "grad_norm": 0.802912712097168,
      "learning_rate": 0.0002798281623661241,
      "loss": 4.3297,
      "step": 81820
    },
    {
      "epoch": 0.17047916666666665,
      "grad_norm": 0.863197386264801,
      "learning_rate": 0.000279823224207013,
      "loss": 3.9871,
      "step": 81830
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.8407027721405029,
      "learning_rate": 0.00027981828548711684,
      "loss": 4.2229,
      "step": 81840
    },
    {
      "epoch": 0.17052083333333334,
      "grad_norm": 1.0507251024246216,
      "learning_rate": 0.0002798133462064571,
      "loss": 3.9014,
      "step": 81850
    },
    {
      "epoch": 0.17054166666666667,
      "grad_norm": 1.1005767583847046,
      "learning_rate": 0.0002798084063650551,
      "loss": 3.9617,
      "step": 81860
    },
    {
      "epoch": 0.1705625,
      "grad_norm": 0.8479955792427063,
      "learning_rate": 0.0002798034659629321,
      "loss": 4.391,
      "step": 81870
    },
    {
      "epoch": 0.17058333333333334,
      "grad_norm": 0.8144485354423523,
      "learning_rate": 0.0002797985250001096,
      "loss": 4.0137,
      "step": 81880
    },
    {
      "epoch": 0.17060416666666667,
      "grad_norm": 0.7850152254104614,
      "learning_rate": 0.0002797935834766088,
      "loss": 4.1725,
      "step": 81890
    },
    {
      "epoch": 0.170625,
      "grad_norm": 0.8993389010429382,
      "learning_rate": 0.00027978864139245114,
      "loss": 4.1069,
      "step": 81900
    },
    {
      "epoch": 0.17064583333333333,
      "grad_norm": 0.8070537447929382,
      "learning_rate": 0.0002797836987476579,
      "loss": 4.2755,
      "step": 81910
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.8181905150413513,
      "learning_rate": 0.0002797787555422504,
      "loss": 4.1614,
      "step": 81920
    },
    {
      "epoch": 0.1706875,
      "grad_norm": 0.8347012996673584,
      "learning_rate": 0.0002797738117762501,
      "loss": 3.9521,
      "step": 81930
    },
    {
      "epoch": 0.17070833333333332,
      "grad_norm": 0.9429890513420105,
      "learning_rate": 0.00027976886744967834,
      "loss": 4.0456,
      "step": 81940
    },
    {
      "epoch": 0.17072916666666665,
      "grad_norm": 0.7807631492614746,
      "learning_rate": 0.0002797639225625564,
      "loss": 4.1265,
      "step": 81950
    },
    {
      "epoch": 0.17075,
      "grad_norm": 0.7863271236419678,
      "learning_rate": 0.00027975897711490566,
      "loss": 3.9956,
      "step": 81960
    },
    {
      "epoch": 0.17077083333333334,
      "grad_norm": 0.8746356964111328,
      "learning_rate": 0.0002797540311067475,
      "loss": 4.0311,
      "step": 81970
    },
    {
      "epoch": 0.17079166666666667,
      "grad_norm": 0.9461462497711182,
      "learning_rate": 0.00027974908453810333,
      "loss": 4.0545,
      "step": 81980
    },
    {
      "epoch": 0.1708125,
      "grad_norm": 0.8329858183860779,
      "learning_rate": 0.0002797441374089944,
      "loss": 4.0319,
      "step": 81990
    },
    {
      "epoch": 0.17083333333333334,
      "grad_norm": 0.935676634311676,
      "learning_rate": 0.00027973918971944224,
      "loss": 4.0589,
      "step": 82000
    },
    {
      "epoch": 0.17083333333333334,
      "eval_loss": 3.8425705432891846,
      "eval_runtime": 6.7884,
      "eval_samples_per_second": 1.473,
      "eval_steps_per_second": 0.442,
      "step": 82000
    },
    {
      "epoch": 0.17085416666666667,
      "grad_norm": 0.7808593511581421,
      "learning_rate": 0.0002797342414694681,
      "loss": 4.1047,
      "step": 82010
    },
    {
      "epoch": 0.170875,
      "grad_norm": 0.8274518251419067,
      "learning_rate": 0.00027972929265909335,
      "loss": 4.0937,
      "step": 82020
    },
    {
      "epoch": 0.17089583333333333,
      "grad_norm": 0.9065127372741699,
      "learning_rate": 0.0002797243432883394,
      "loss": 4.0669,
      "step": 82030
    },
    {
      "epoch": 0.17091666666666666,
      "grad_norm": 0.824576735496521,
      "learning_rate": 0.00027971939335722765,
      "loss": 3.8613,
      "step": 82040
    },
    {
      "epoch": 0.1709375,
      "grad_norm": 0.8197376132011414,
      "learning_rate": 0.0002797144428657795,
      "loss": 4.1859,
      "step": 82050
    },
    {
      "epoch": 0.17095833333333332,
      "grad_norm": 0.8841830492019653,
      "learning_rate": 0.0002797094918140163,
      "loss": 3.9673,
      "step": 82060
    },
    {
      "epoch": 0.17097916666666665,
      "grad_norm": 0.8098402619361877,
      "learning_rate": 0.0002797045402019594,
      "loss": 3.9469,
      "step": 82070
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.8245934844017029,
      "learning_rate": 0.00027969958802963026,
      "loss": 4.0779,
      "step": 82080
    },
    {
      "epoch": 0.17102083333333334,
      "grad_norm": 0.7973279356956482,
      "learning_rate": 0.0002796946352970503,
      "loss": 4.0838,
      "step": 82090
    },
    {
      "epoch": 0.17104166666666668,
      "grad_norm": 0.9818766117095947,
      "learning_rate": 0.00027968968200424075,
      "loss": 4.0942,
      "step": 82100
    },
    {
      "epoch": 0.1710625,
      "grad_norm": 0.8124275207519531,
      "learning_rate": 0.0002796847281512231,
      "loss": 4.2271,
      "step": 82110
    },
    {
      "epoch": 0.17108333333333334,
      "grad_norm": 0.8454697132110596,
      "learning_rate": 0.0002796797737380188,
      "loss": 3.9793,
      "step": 82120
    },
    {
      "epoch": 0.17110416666666667,
      "grad_norm": 0.9542981386184692,
      "learning_rate": 0.0002796748187646493,
      "loss": 4.0456,
      "step": 82130
    },
    {
      "epoch": 0.171125,
      "grad_norm": 0.791391134262085,
      "learning_rate": 0.00027966986323113574,
      "loss": 4.1306,
      "step": 82140
    },
    {
      "epoch": 0.17114583333333333,
      "grad_norm": 0.9662635922431946,
      "learning_rate": 0.00027966490713749977,
      "loss": 3.8044,
      "step": 82150
    },
    {
      "epoch": 0.17116666666666666,
      "grad_norm": 0.911027193069458,
      "learning_rate": 0.0002796599504837628,
      "loss": 3.937,
      "step": 82160
    },
    {
      "epoch": 0.1711875,
      "grad_norm": 0.8086408376693726,
      "learning_rate": 0.00027965499326994606,
      "loss": 4.2198,
      "step": 82170
    },
    {
      "epoch": 0.17120833333333332,
      "grad_norm": 1.3373149633407593,
      "learning_rate": 0.0002796500354960711,
      "loss": 4.1083,
      "step": 82180
    },
    {
      "epoch": 0.17122916666666665,
      "grad_norm": 0.8722994923591614,
      "learning_rate": 0.00027964507716215934,
      "loss": 3.9032,
      "step": 82190
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.8683324456214905,
      "learning_rate": 0.0002796401182682321,
      "loss": 4.0618,
      "step": 82200
    },
    {
      "epoch": 0.17127083333333334,
      "grad_norm": 0.9279810786247253,
      "learning_rate": 0.0002796351588143109,
      "loss": 4.2135,
      "step": 82210
    },
    {
      "epoch": 0.17129166666666668,
      "grad_norm": 0.9035681486129761,
      "learning_rate": 0.00027963019880041716,
      "loss": 4.0672,
      "step": 82220
    },
    {
      "epoch": 0.1713125,
      "grad_norm": 0.9205466508865356,
      "learning_rate": 0.00027962523822657224,
      "loss": 4.077,
      "step": 82230
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 0.8404949307441711,
      "learning_rate": 0.0002796202770927976,
      "loss": 4.0559,
      "step": 82240
    },
    {
      "epoch": 0.17135416666666667,
      "grad_norm": 0.8307220935821533,
      "learning_rate": 0.0002796153153991147,
      "loss": 3.9612,
      "step": 82250
    },
    {
      "epoch": 0.171375,
      "grad_norm": 0.7914096713066101,
      "learning_rate": 0.0002796103531455449,
      "loss": 3.7926,
      "step": 82260
    },
    {
      "epoch": 0.17139583333333333,
      "grad_norm": 0.8763898611068726,
      "learning_rate": 0.00027960539033210967,
      "loss": 4.1852,
      "step": 82270
    },
    {
      "epoch": 0.17141666666666666,
      "grad_norm": 0.8387898802757263,
      "learning_rate": 0.0002796004269588305,
      "loss": 3.977,
      "step": 82280
    },
    {
      "epoch": 0.1714375,
      "grad_norm": 0.8780505657196045,
      "learning_rate": 0.00027959546302572876,
      "loss": 4.1422,
      "step": 82290
    },
    {
      "epoch": 0.17145833333333332,
      "grad_norm": 0.8506795167922974,
      "learning_rate": 0.0002795904985328259,
      "loss": 4.0623,
      "step": 82300
    },
    {
      "epoch": 0.17147916666666665,
      "grad_norm": 1.0131622552871704,
      "learning_rate": 0.0002795855334801434,
      "loss": 4.2829,
      "step": 82310
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.7864448428153992,
      "learning_rate": 0.0002795805678677027,
      "loss": 4.1976,
      "step": 82320
    },
    {
      "epoch": 0.17152083333333334,
      "grad_norm": 0.7720207571983337,
      "learning_rate": 0.0002795756016955252,
      "loss": 3.9749,
      "step": 82330
    },
    {
      "epoch": 0.17154166666666668,
      "grad_norm": 0.8274533152580261,
      "learning_rate": 0.00027957063496363244,
      "loss": 4.1333,
      "step": 82340
    },
    {
      "epoch": 0.1715625,
      "grad_norm": 0.7932230830192566,
      "learning_rate": 0.00027956566767204586,
      "loss": 4.0519,
      "step": 82350
    },
    {
      "epoch": 0.17158333333333334,
      "grad_norm": 0.8195585012435913,
      "learning_rate": 0.00027956069982078676,
      "loss": 4.0582,
      "step": 82360
    },
    {
      "epoch": 0.17160416666666667,
      "grad_norm": 0.9705146551132202,
      "learning_rate": 0.00027955573140987685,
      "loss": 4.1348,
      "step": 82370
    },
    {
      "epoch": 0.171625,
      "grad_norm": 0.7982970476150513,
      "learning_rate": 0.00027955076243933735,
      "loss": 4.0668,
      "step": 82380
    },
    {
      "epoch": 0.17164583333333333,
      "grad_norm": 0.8414603471755981,
      "learning_rate": 0.0002795457929091899,
      "loss": 4.0989,
      "step": 82390
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 0.910362720489502,
      "learning_rate": 0.00027954082281945585,
      "loss": 4.0886,
      "step": 82400
    },
    {
      "epoch": 0.1716875,
      "grad_norm": 0.7414552569389343,
      "learning_rate": 0.0002795358521701568,
      "loss": 4.057,
      "step": 82410
    },
    {
      "epoch": 0.17170833333333332,
      "grad_norm": 0.8331683278083801,
      "learning_rate": 0.00027953088096131415,
      "loss": 4.2516,
      "step": 82420
    },
    {
      "epoch": 0.17172916666666665,
      "grad_norm": 0.8060528635978699,
      "learning_rate": 0.00027952590919294926,
      "loss": 3.9452,
      "step": 82430
    },
    {
      "epoch": 0.17175,
      "grad_norm": 0.7779815196990967,
      "learning_rate": 0.0002795209368650838,
      "loss": 4.1776,
      "step": 82440
    },
    {
      "epoch": 0.17177083333333334,
      "grad_norm": 0.7850737571716309,
      "learning_rate": 0.0002795159639777391,
      "loss": 4.1466,
      "step": 82450
    },
    {
      "epoch": 0.17179166666666668,
      "grad_norm": 0.8518806099891663,
      "learning_rate": 0.0002795109905309367,
      "loss": 4.096,
      "step": 82460
    },
    {
      "epoch": 0.1718125,
      "grad_norm": 0.7663475275039673,
      "learning_rate": 0.00027950601652469817,
      "loss": 4.1029,
      "step": 82470
    },
    {
      "epoch": 0.17183333333333334,
      "grad_norm": 0.8576276898384094,
      "learning_rate": 0.00027950104195904483,
      "loss": 3.9192,
      "step": 82480
    },
    {
      "epoch": 0.17185416666666667,
      "grad_norm": 0.8347390294075012,
      "learning_rate": 0.00027949606683399825,
      "loss": 4.0477,
      "step": 82490
    },
    {
      "epoch": 0.171875,
      "grad_norm": 0.7658951282501221,
      "learning_rate": 0.00027949109114958,
      "loss": 4.1134,
      "step": 82500
    },
    {
      "epoch": 0.17189583333333333,
      "grad_norm": 0.8370394110679626,
      "learning_rate": 0.0002794861149058114,
      "loss": 4.0805,
      "step": 82510
    },
    {
      "epoch": 0.17191666666666666,
      "grad_norm": 0.8363386988639832,
      "learning_rate": 0.0002794811381027141,
      "loss": 4.0878,
      "step": 82520
    },
    {
      "epoch": 0.1719375,
      "grad_norm": 0.9548530578613281,
      "learning_rate": 0.0002794761607403095,
      "loss": 4.3098,
      "step": 82530
    },
    {
      "epoch": 0.17195833333333332,
      "grad_norm": 0.8839901685714722,
      "learning_rate": 0.0002794711828186192,
      "loss": 3.9679,
      "step": 82540
    },
    {
      "epoch": 0.17197916666666666,
      "grad_norm": 0.8216754794120789,
      "learning_rate": 0.00027946620433766454,
      "loss": 3.9894,
      "step": 82550
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.7644413709640503,
      "learning_rate": 0.00027946122529746715,
      "loss": 3.8961,
      "step": 82560
    },
    {
      "epoch": 0.17202083333333335,
      "grad_norm": 0.9092370867729187,
      "learning_rate": 0.0002794562456980486,
      "loss": 4.1007,
      "step": 82570
    },
    {
      "epoch": 0.17204166666666668,
      "grad_norm": 0.999941885471344,
      "learning_rate": 0.0002794512655394302,
      "loss": 4.0878,
      "step": 82580
    },
    {
      "epoch": 0.1720625,
      "grad_norm": 0.7949510216712952,
      "learning_rate": 0.0002794462848216336,
      "loss": 4.1316,
      "step": 82590
    },
    {
      "epoch": 0.17208333333333334,
      "grad_norm": 0.8065469861030579,
      "learning_rate": 0.0002794413035446803,
      "loss": 4.0174,
      "step": 82600
    },
    {
      "epoch": 0.17210416666666667,
      "grad_norm": 0.8280643820762634,
      "learning_rate": 0.0002794363217085918,
      "loss": 3.8881,
      "step": 82610
    },
    {
      "epoch": 0.172125,
      "grad_norm": 0.8610954284667969,
      "learning_rate": 0.00027943133931338963,
      "loss": 4.0337,
      "step": 82620
    },
    {
      "epoch": 0.17214583333333333,
      "grad_norm": 0.8527693748474121,
      "learning_rate": 0.0002794263563590953,
      "loss": 3.8692,
      "step": 82630
    },
    {
      "epoch": 0.17216666666666666,
      "grad_norm": 0.8883806467056274,
      "learning_rate": 0.0002794213728457304,
      "loss": 4.0799,
      "step": 82640
    },
    {
      "epoch": 0.1721875,
      "grad_norm": 0.8543834090232849,
      "learning_rate": 0.0002794163887733163,
      "loss": 4.0703,
      "step": 82650
    },
    {
      "epoch": 0.17220833333333332,
      "grad_norm": 0.821838915348053,
      "learning_rate": 0.00027941140414187467,
      "loss": 4.1764,
      "step": 82660
    },
    {
      "epoch": 0.17222916666666666,
      "grad_norm": 0.8280549645423889,
      "learning_rate": 0.00027940641895142705,
      "loss": 4.0553,
      "step": 82670
    },
    {
      "epoch": 0.17225,
      "grad_norm": 0.7953128218650818,
      "learning_rate": 0.00027940143320199487,
      "loss": 4.1258,
      "step": 82680
    },
    {
      "epoch": 0.17227083333333335,
      "grad_norm": 0.8257424235343933,
      "learning_rate": 0.00027939644689359966,
      "loss": 3.787,
      "step": 82690
    },
    {
      "epoch": 0.17229166666666668,
      "grad_norm": 0.910420298576355,
      "learning_rate": 0.00027939146002626316,
      "loss": 3.9898,
      "step": 82700
    },
    {
      "epoch": 0.1723125,
      "grad_norm": 0.8188930153846741,
      "learning_rate": 0.00027938647260000667,
      "loss": 4.0992,
      "step": 82710
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 0.9497165083885193,
      "learning_rate": 0.0002793814846148518,
      "loss": 4.0051,
      "step": 82720
    },
    {
      "epoch": 0.17235416666666667,
      "grad_norm": 0.7660208940505981,
      "learning_rate": 0.00027937649607082023,
      "loss": 3.9368,
      "step": 82730
    },
    {
      "epoch": 0.172375,
      "grad_norm": 0.7706897854804993,
      "learning_rate": 0.00027937150696793334,
      "loss": 4.0645,
      "step": 82740
    },
    {
      "epoch": 0.17239583333333333,
      "grad_norm": 0.8144943714141846,
      "learning_rate": 0.0002793665173062128,
      "loss": 3.959,
      "step": 82750
    },
    {
      "epoch": 0.17241666666666666,
      "grad_norm": 0.8718593716621399,
      "learning_rate": 0.0002793615270856801,
      "loss": 4.0513,
      "step": 82760
    },
    {
      "epoch": 0.1724375,
      "grad_norm": 0.7752339243888855,
      "learning_rate": 0.0002793565363063568,
      "loss": 4.0531,
      "step": 82770
    },
    {
      "epoch": 0.17245833333333332,
      "grad_norm": 0.8395320773124695,
      "learning_rate": 0.0002793515449682644,
      "loss": 4.0765,
      "step": 82780
    },
    {
      "epoch": 0.17247916666666666,
      "grad_norm": 0.8752659559249878,
      "learning_rate": 0.00027934655307142463,
      "loss": 4.1325,
      "step": 82790
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.8948319554328918,
      "learning_rate": 0.0002793415606158589,
      "loss": 3.94,
      "step": 82800
    },
    {
      "epoch": 0.17252083333333335,
      "grad_norm": 0.9971328973770142,
      "learning_rate": 0.0002793365676015888,
      "loss": 3.9492,
      "step": 82810
    },
    {
      "epoch": 0.17254166666666668,
      "grad_norm": 0.8281412124633789,
      "learning_rate": 0.00027933157402863594,
      "loss": 4.0193,
      "step": 82820
    },
    {
      "epoch": 0.1725625,
      "grad_norm": 0.7612331509590149,
      "learning_rate": 0.0002793265798970219,
      "loss": 3.8938,
      "step": 82830
    },
    {
      "epoch": 0.17258333333333334,
      "grad_norm": 0.8187685012817383,
      "learning_rate": 0.00027932158520676826,
      "loss": 4.0292,
      "step": 82840
    },
    {
      "epoch": 0.17260416666666667,
      "grad_norm": 0.8788174986839294,
      "learning_rate": 0.00027931658995789644,
      "loss": 4.0422,
      "step": 82850
    },
    {
      "epoch": 0.172625,
      "grad_norm": 0.7675736546516418,
      "learning_rate": 0.00027931159415042826,
      "loss": 4.0518,
      "step": 82860
    },
    {
      "epoch": 0.17264583333333333,
      "grad_norm": 0.7347196340560913,
      "learning_rate": 0.00027930659778438514,
      "loss": 3.8608,
      "step": 82870
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 0.8616870641708374,
      "learning_rate": 0.00027930160085978866,
      "loss": 4.1146,
      "step": 82880
    },
    {
      "epoch": 0.1726875,
      "grad_norm": 0.8896926641464233,
      "learning_rate": 0.0002792966033766605,
      "loss": 4.0956,
      "step": 82890
    },
    {
      "epoch": 0.17270833333333332,
      "grad_norm": 0.88973069190979,
      "learning_rate": 0.00027929160533502216,
      "loss": 4.1146,
      "step": 82900
    },
    {
      "epoch": 0.17272916666666666,
      "grad_norm": 0.7949478626251221,
      "learning_rate": 0.00027928660673489524,
      "loss": 4.1238,
      "step": 82910
    },
    {
      "epoch": 0.17275,
      "grad_norm": 0.8295621275901794,
      "learning_rate": 0.00027928160757630143,
      "loss": 4.0186,
      "step": 82920
    },
    {
      "epoch": 0.17277083333333335,
      "grad_norm": 0.791033923625946,
      "learning_rate": 0.0002792766078592622,
      "loss": 4.0198,
      "step": 82930
    },
    {
      "epoch": 0.17279166666666668,
      "grad_norm": 0.8259990215301514,
      "learning_rate": 0.0002792716075837991,
      "loss": 3.9673,
      "step": 82940
    },
    {
      "epoch": 0.1728125,
      "grad_norm": 0.8015537261962891,
      "learning_rate": 0.000279266606749934,
      "loss": 4.1933,
      "step": 82950
    },
    {
      "epoch": 0.17283333333333334,
      "grad_norm": 0.9701594114303589,
      "learning_rate": 0.00027926160535768823,
      "loss": 4.0497,
      "step": 82960
    },
    {
      "epoch": 0.17285416666666667,
      "grad_norm": 0.9435232877731323,
      "learning_rate": 0.00027925660340708355,
      "loss": 3.9156,
      "step": 82970
    },
    {
      "epoch": 0.172875,
      "grad_norm": 0.8383180499076843,
      "learning_rate": 0.00027925160089814147,
      "loss": 3.9468,
      "step": 82980
    },
    {
      "epoch": 0.17289583333333333,
      "grad_norm": 0.7540397644042969,
      "learning_rate": 0.00027924659783088357,
      "loss": 4.0653,
      "step": 82990
    },
    {
      "epoch": 0.17291666666666666,
      "grad_norm": 0.7907747030258179,
      "learning_rate": 0.0002792415942053316,
      "loss": 4.0019,
      "step": 83000
    },
    {
      "epoch": 0.17291666666666666,
      "eval_loss": 3.8348357677459717,
      "eval_runtime": 6.7885,
      "eval_samples_per_second": 1.473,
      "eval_steps_per_second": 0.442,
      "step": 83000
    },
    {
      "epoch": 0.1729375,
      "grad_norm": 0.7973644137382507,
      "learning_rate": 0.0002792365900215071,
      "loss": 3.924,
      "step": 83010
    },
    {
      "epoch": 0.17295833333333333,
      "grad_norm": 0.798334002494812,
      "learning_rate": 0.00027923158527943165,
      "loss": 4.071,
      "step": 83020
    },
    {
      "epoch": 0.17297916666666666,
      "grad_norm": 0.8388005495071411,
      "learning_rate": 0.00027922657997912694,
      "loss": 4.1157,
      "step": 83030
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.8782281875610352,
      "learning_rate": 0.0002792215741206145,
      "loss": 4.2719,
      "step": 83040
    },
    {
      "epoch": 0.17302083333333335,
      "grad_norm": 0.7776656746864319,
      "learning_rate": 0.0002792165677039161,
      "loss": 4.1483,
      "step": 83050
    },
    {
      "epoch": 0.17304166666666668,
      "grad_norm": 0.8386545777320862,
      "learning_rate": 0.0002792115607290532,
      "loss": 4.1146,
      "step": 83060
    },
    {
      "epoch": 0.1730625,
      "grad_norm": 0.8292790055274963,
      "learning_rate": 0.00027920655319604756,
      "loss": 4.2439,
      "step": 83070
    },
    {
      "epoch": 0.17308333333333334,
      "grad_norm": 0.8767805099487305,
      "learning_rate": 0.00027920154510492075,
      "loss": 4.1031,
      "step": 83080
    },
    {
      "epoch": 0.17310416666666667,
      "grad_norm": 0.9211999177932739,
      "learning_rate": 0.0002791965364556944,
      "loss": 3.9735,
      "step": 83090
    },
    {
      "epoch": 0.173125,
      "grad_norm": 0.8839459419250488,
      "learning_rate": 0.0002791915272483901,
      "loss": 4.1045,
      "step": 83100
    },
    {
      "epoch": 0.17314583333333333,
      "grad_norm": 0.8933843970298767,
      "learning_rate": 0.0002791865174830295,
      "loss": 3.9612,
      "step": 83110
    },
    {
      "epoch": 0.17316666666666666,
      "grad_norm": 0.8355484008789062,
      "learning_rate": 0.0002791815071596344,
      "loss": 3.9774,
      "step": 83120
    },
    {
      "epoch": 0.1731875,
      "grad_norm": 0.8423643112182617,
      "learning_rate": 0.0002791764962782263,
      "loss": 4.2005,
      "step": 83130
    },
    {
      "epoch": 0.17320833333333333,
      "grad_norm": 0.8465436100959778,
      "learning_rate": 0.00027917148483882684,
      "loss": 4.118,
      "step": 83140
    },
    {
      "epoch": 0.17322916666666666,
      "grad_norm": 0.8541119694709778,
      "learning_rate": 0.0002791664728414577,
      "loss": 4.0857,
      "step": 83150
    },
    {
      "epoch": 0.17325,
      "grad_norm": 0.7919397950172424,
      "learning_rate": 0.0002791614602861405,
      "loss": 4.1947,
      "step": 83160
    },
    {
      "epoch": 0.17327083333333335,
      "grad_norm": 0.9075780510902405,
      "learning_rate": 0.00027915644717289693,
      "loss": 3.9308,
      "step": 83170
    },
    {
      "epoch": 0.17329166666666668,
      "grad_norm": 0.794951856136322,
      "learning_rate": 0.00027915143350174866,
      "loss": 4.1332,
      "step": 83180
    },
    {
      "epoch": 0.1733125,
      "grad_norm": 0.9180009961128235,
      "learning_rate": 0.0002791464192727173,
      "loss": 3.9366,
      "step": 83190
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.7782922983169556,
      "learning_rate": 0.00027914140448582456,
      "loss": 3.996,
      "step": 83200
    },
    {
      "epoch": 0.17335416666666667,
      "grad_norm": 0.9073405265808105,
      "learning_rate": 0.00027913638914109205,
      "loss": 4.1145,
      "step": 83210
    },
    {
      "epoch": 0.173375,
      "grad_norm": 0.7199215888977051,
      "learning_rate": 0.0002791313732385414,
      "loss": 3.9885,
      "step": 83220
    },
    {
      "epoch": 0.17339583333333333,
      "grad_norm": 0.7637438178062439,
      "learning_rate": 0.0002791263567781944,
      "loss": 4.0042,
      "step": 83230
    },
    {
      "epoch": 0.17341666666666666,
      "grad_norm": 0.7973371744155884,
      "learning_rate": 0.00027912133976007263,
      "loss": 4.3589,
      "step": 83240
    },
    {
      "epoch": 0.1734375,
      "grad_norm": 0.7744503617286682,
      "learning_rate": 0.00027911632218419777,
      "loss": 4.0808,
      "step": 83250
    },
    {
      "epoch": 0.17345833333333333,
      "grad_norm": 0.9661783576011658,
      "learning_rate": 0.0002791113040505915,
      "loss": 4.0836,
      "step": 83260
    },
    {
      "epoch": 0.17347916666666666,
      "grad_norm": 0.8930646181106567,
      "learning_rate": 0.00027910628535927554,
      "loss": 4.0412,
      "step": 83270
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.8260272741317749,
      "learning_rate": 0.0002791012661102715,
      "loss": 4.0772,
      "step": 83280
    },
    {
      "epoch": 0.17352083333333335,
      "grad_norm": 0.8732414841651917,
      "learning_rate": 0.0002790962463036011,
      "loss": 4.0947,
      "step": 83290
    },
    {
      "epoch": 0.17354166666666668,
      "grad_norm": 0.8294745683670044,
      "learning_rate": 0.000279091225939286,
      "loss": 4.0163,
      "step": 83300
    },
    {
      "epoch": 0.1735625,
      "grad_norm": 0.8072516918182373,
      "learning_rate": 0.00027908620501734794,
      "loss": 3.9956,
      "step": 83310
    },
    {
      "epoch": 0.17358333333333334,
      "grad_norm": 0.7958746552467346,
      "learning_rate": 0.0002790811835378086,
      "loss": 4.0282,
      "step": 83320
    },
    {
      "epoch": 0.17360416666666667,
      "grad_norm": 0.9800163507461548,
      "learning_rate": 0.00027907616150068957,
      "loss": 4.0065,
      "step": 83330
    },
    {
      "epoch": 0.173625,
      "grad_norm": 0.8347679376602173,
      "learning_rate": 0.0002790711389060126,
      "loss": 3.9161,
      "step": 83340
    },
    {
      "epoch": 0.17364583333333333,
      "grad_norm": 0.8557382225990295,
      "learning_rate": 0.00027906611575379946,
      "loss": 4.0788,
      "step": 83350
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 0.8112560510635376,
      "learning_rate": 0.00027906109204407174,
      "loss": 4.0466,
      "step": 83360
    },
    {
      "epoch": 0.1736875,
      "grad_norm": 0.9472852945327759,
      "learning_rate": 0.0002790560677768512,
      "loss": 4.002,
      "step": 83370
    },
    {
      "epoch": 0.17370833333333333,
      "grad_norm": 0.9633449912071228,
      "learning_rate": 0.00027905104295215957,
      "loss": 4.0358,
      "step": 83380
    },
    {
      "epoch": 0.17372916666666666,
      "grad_norm": 0.826143741607666,
      "learning_rate": 0.0002790460175700185,
      "loss": 4.1585,
      "step": 83390
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.8629569411277771,
      "learning_rate": 0.00027904099163044967,
      "loss": 4.037,
      "step": 83400
    },
    {
      "epoch": 0.17377083333333335,
      "grad_norm": 0.8648793697357178,
      "learning_rate": 0.00027903596513347484,
      "loss": 4.073,
      "step": 83410
    },
    {
      "epoch": 0.17379166666666668,
      "grad_norm": 0.874748945236206,
      "learning_rate": 0.0002790309380791158,
      "loss": 4.2476,
      "step": 83420
    },
    {
      "epoch": 0.1738125,
      "grad_norm": 0.8051634430885315,
      "learning_rate": 0.0002790259104673941,
      "loss": 4.0494,
      "step": 83430
    },
    {
      "epoch": 0.17383333333333334,
      "grad_norm": 0.8605344891548157,
      "learning_rate": 0.00027902088229833156,
      "loss": 4.1369,
      "step": 83440
    },
    {
      "epoch": 0.17385416666666667,
      "grad_norm": 0.9272587299346924,
      "learning_rate": 0.00027901585357194985,
      "loss": 3.8424,
      "step": 83450
    },
    {
      "epoch": 0.173875,
      "grad_norm": 0.8138169646263123,
      "learning_rate": 0.0002790108242882708,
      "loss": 3.9935,
      "step": 83460
    },
    {
      "epoch": 0.17389583333333333,
      "grad_norm": 0.7919169068336487,
      "learning_rate": 0.000279005794447316,
      "loss": 4.1451,
      "step": 83470
    },
    {
      "epoch": 0.17391666666666666,
      "grad_norm": 0.7684864401817322,
      "learning_rate": 0.0002790007640491072,
      "loss": 4.1634,
      "step": 83480
    },
    {
      "epoch": 0.1739375,
      "grad_norm": 0.7379146814346313,
      "learning_rate": 0.0002789957330936662,
      "loss": 4.1393,
      "step": 83490
    },
    {
      "epoch": 0.17395833333333333,
      "grad_norm": 0.9173180460929871,
      "learning_rate": 0.0002789907015810147,
      "loss": 3.9807,
      "step": 83500
    },
    {
      "epoch": 0.17397916666666666,
      "grad_norm": 0.8294771909713745,
      "learning_rate": 0.0002789856695111744,
      "loss": 3.9833,
      "step": 83510
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.9365782737731934,
      "learning_rate": 0.0002789806368841671,
      "loss": 4.3576,
      "step": 83520
    },
    {
      "epoch": 0.17402083333333335,
      "grad_norm": 0.8970034122467041,
      "learning_rate": 0.0002789756037000145,
      "loss": 4.0934,
      "step": 83530
    },
    {
      "epoch": 0.17404166666666668,
      "grad_norm": 0.9016311764717102,
      "learning_rate": 0.0002789705699587384,
      "loss": 3.9488,
      "step": 83540
    },
    {
      "epoch": 0.1740625,
      "grad_norm": 0.7958075404167175,
      "learning_rate": 0.00027896553566036036,
      "loss": 4.1694,
      "step": 83550
    },
    {
      "epoch": 0.17408333333333334,
      "grad_norm": 0.8654614090919495,
      "learning_rate": 0.0002789605008049023,
      "loss": 4.023,
      "step": 83560
    },
    {
      "epoch": 0.17410416666666667,
      "grad_norm": 0.8100141882896423,
      "learning_rate": 0.000278955465392386,
      "loss": 4.1932,
      "step": 83570
    },
    {
      "epoch": 0.174125,
      "grad_norm": 0.8989676237106323,
      "learning_rate": 0.00027895042942283304,
      "loss": 4.1173,
      "step": 83580
    },
    {
      "epoch": 0.17414583333333333,
      "grad_norm": 0.8215698599815369,
      "learning_rate": 0.0002789453928962653,
      "loss": 4.1071,
      "step": 83590
    },
    {
      "epoch": 0.17416666666666666,
      "grad_norm": 0.8217732310295105,
      "learning_rate": 0.0002789403558127045,
      "loss": 4.0077,
      "step": 83600
    },
    {
      "epoch": 0.1741875,
      "grad_norm": 0.9045181274414062,
      "learning_rate": 0.00027893531817217243,
      "loss": 4.0852,
      "step": 83610
    },
    {
      "epoch": 0.17420833333333333,
      "grad_norm": 0.8288904428482056,
      "learning_rate": 0.0002789302799746907,
      "loss": 4.0996,
      "step": 83620
    },
    {
      "epoch": 0.17422916666666666,
      "grad_norm": 0.8528786301612854,
      "learning_rate": 0.00027892524122028134,
      "loss": 3.7934,
      "step": 83630
    },
    {
      "epoch": 0.17425,
      "grad_norm": 0.8546310067176819,
      "learning_rate": 0.00027892020190896594,
      "loss": 4.2201,
      "step": 83640
    },
    {
      "epoch": 0.17427083333333335,
      "grad_norm": 0.8314618468284607,
      "learning_rate": 0.00027891516204076624,
      "loss": 4.0351,
      "step": 83650
    },
    {
      "epoch": 0.17429166666666668,
      "grad_norm": 0.8283030986785889,
      "learning_rate": 0.0002789101216157041,
      "loss": 4.071,
      "step": 83660
    },
    {
      "epoch": 0.1743125,
      "grad_norm": 0.9218018054962158,
      "learning_rate": 0.00027890508063380126,
      "loss": 3.7779,
      "step": 83670
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 0.8278861045837402,
      "learning_rate": 0.0002789000390950795,
      "loss": 3.8525,
      "step": 83680
    },
    {
      "epoch": 0.17435416666666667,
      "grad_norm": 0.8327763676643372,
      "learning_rate": 0.0002788949969995606,
      "loss": 4.1187,
      "step": 83690
    },
    {
      "epoch": 0.174375,
      "grad_norm": 0.9095965027809143,
      "learning_rate": 0.0002788899543472663,
      "loss": 4.094,
      "step": 83700
    },
    {
      "epoch": 0.17439583333333333,
      "grad_norm": 0.8330807089805603,
      "learning_rate": 0.00027888491113821844,
      "loss": 3.9654,
      "step": 83710
    },
    {
      "epoch": 0.17441666666666666,
      "grad_norm": 0.7832508683204651,
      "learning_rate": 0.00027887986737243884,
      "loss": 4.2751,
      "step": 83720
    },
    {
      "epoch": 0.1744375,
      "grad_norm": 0.8229192495346069,
      "learning_rate": 0.00027887482304994913,
      "loss": 3.82,
      "step": 83730
    },
    {
      "epoch": 0.17445833333333333,
      "grad_norm": 0.8638087511062622,
      "learning_rate": 0.00027886977817077126,
      "loss": 4.0012,
      "step": 83740
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 0.8149909973144531,
      "learning_rate": 0.0002788647327349269,
      "loss": 4.1733,
      "step": 83750
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.8374578356742859,
      "learning_rate": 0.00027885968674243794,
      "loss": 4.2476,
      "step": 83760
    },
    {
      "epoch": 0.17452083333333332,
      "grad_norm": 0.754852294921875,
      "learning_rate": 0.0002788546401933262,
      "loss": 4.2372,
      "step": 83770
    },
    {
      "epoch": 0.17454166666666668,
      "grad_norm": 0.7674617767333984,
      "learning_rate": 0.0002788495930876133,
      "loss": 4.0989,
      "step": 83780
    },
    {
      "epoch": 0.1745625,
      "grad_norm": 1.5742340087890625,
      "learning_rate": 0.0002788445454253212,
      "loss": 4.0033,
      "step": 83790
    },
    {
      "epoch": 0.17458333333333334,
      "grad_norm": 0.8748852014541626,
      "learning_rate": 0.0002788394972064717,
      "loss": 4.1021,
      "step": 83800
    },
    {
      "epoch": 0.17460416666666667,
      "grad_norm": 0.8778692483901978,
      "learning_rate": 0.00027883444843108653,
      "loss": 4.1797,
      "step": 83810
    },
    {
      "epoch": 0.174625,
      "grad_norm": 0.8171151280403137,
      "learning_rate": 0.0002788293990991876,
      "loss": 4.1469,
      "step": 83820
    },
    {
      "epoch": 0.17464583333333333,
      "grad_norm": 0.7237130999565125,
      "learning_rate": 0.0002788243492107966,
      "loss": 4.2729,
      "step": 83830
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.867476224899292,
      "learning_rate": 0.0002788192987659354,
      "loss": 4.0495,
      "step": 83840
    },
    {
      "epoch": 0.1746875,
      "grad_norm": 0.8847655057907104,
      "learning_rate": 0.0002788142477646259,
      "loss": 4.1471,
      "step": 83850
    },
    {
      "epoch": 0.17470833333333333,
      "grad_norm": 0.8708106875419617,
      "learning_rate": 0.00027880919620688974,
      "loss": 3.8436,
      "step": 83860
    },
    {
      "epoch": 0.17472916666666666,
      "grad_norm": 0.7694075703620911,
      "learning_rate": 0.00027880414409274886,
      "loss": 3.9806,
      "step": 83870
    },
    {
      "epoch": 0.17475,
      "grad_norm": 0.818066418170929,
      "learning_rate": 0.0002787990914222251,
      "loss": 4.1841,
      "step": 83880
    },
    {
      "epoch": 0.17477083333333332,
      "grad_norm": 0.8274542093276978,
      "learning_rate": 0.00027879403819534024,
      "loss": 4.0464,
      "step": 83890
    },
    {
      "epoch": 0.17479166666666668,
      "grad_norm": 0.9621331095695496,
      "learning_rate": 0.00027878898441211603,
      "loss": 3.9885,
      "step": 83900
    },
    {
      "epoch": 0.1748125,
      "grad_norm": 0.7865047454833984,
      "learning_rate": 0.0002787839300725745,
      "loss": 4.217,
      "step": 83910
    },
    {
      "epoch": 0.17483333333333334,
      "grad_norm": 0.9387997984886169,
      "learning_rate": 0.0002787788751767373,
      "loss": 4.0074,
      "step": 83920
    },
    {
      "epoch": 0.17485416666666667,
      "grad_norm": 0.8207735419273376,
      "learning_rate": 0.0002787738197246264,
      "loss": 4.2344,
      "step": 83930
    },
    {
      "epoch": 0.174875,
      "grad_norm": 0.905844509601593,
      "learning_rate": 0.00027876876371626355,
      "loss": 4.1028,
      "step": 83940
    },
    {
      "epoch": 0.17489583333333333,
      "grad_norm": 0.979832112789154,
      "learning_rate": 0.00027876370715167057,
      "loss": 4.0759,
      "step": 83950
    },
    {
      "epoch": 0.17491666666666666,
      "grad_norm": 1.2724659442901611,
      "learning_rate": 0.00027875865003086934,
      "loss": 4.1578,
      "step": 83960
    },
    {
      "epoch": 0.1749375,
      "grad_norm": 0.8451639413833618,
      "learning_rate": 0.00027875359235388173,
      "loss": 3.9521,
      "step": 83970
    },
    {
      "epoch": 0.17495833333333333,
      "grad_norm": 0.7947473526000977,
      "learning_rate": 0.0002787485341207296,
      "loss": 4.2719,
      "step": 83980
    },
    {
      "epoch": 0.17497916666666666,
      "grad_norm": 0.8455547094345093,
      "learning_rate": 0.0002787434753314347,
      "loss": 4.1872,
      "step": 83990
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.8283053040504456,
      "learning_rate": 0.000278738415986019,
      "loss": 4.1604,
      "step": 84000
    },
    {
      "epoch": 0.175,
      "eval_loss": 3.8170406818389893,
      "eval_runtime": 7.2,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 84000
    },
    {
      "epoch": 0.17502083333333332,
      "grad_norm": 0.812113344669342,
      "learning_rate": 0.0002787333560845043,
      "loss": 4.2539,
      "step": 84010
    },
    {
      "epoch": 0.17504166666666668,
      "grad_norm": 0.8777794241905212,
      "learning_rate": 0.00027872829562691244,
      "loss": 4.0126,
      "step": 84020
    },
    {
      "epoch": 0.1750625,
      "grad_norm": 0.7476444244384766,
      "learning_rate": 0.00027872323461326527,
      "loss": 4.0826,
      "step": 84030
    },
    {
      "epoch": 0.17508333333333334,
      "grad_norm": 0.8819907903671265,
      "learning_rate": 0.0002787181730435847,
      "loss": 4.0123,
      "step": 84040
    },
    {
      "epoch": 0.17510416666666667,
      "grad_norm": 0.7729537487030029,
      "learning_rate": 0.0002787131109178926,
      "loss": 4.1846,
      "step": 84050
    },
    {
      "epoch": 0.175125,
      "grad_norm": 0.8199918866157532,
      "learning_rate": 0.0002787080482362108,
      "loss": 4.0586,
      "step": 84060
    },
    {
      "epoch": 0.17514583333333333,
      "grad_norm": 0.8140752911567688,
      "learning_rate": 0.0002787029849985611,
      "loss": 3.895,
      "step": 84070
    },
    {
      "epoch": 0.17516666666666666,
      "grad_norm": 0.7840390205383301,
      "learning_rate": 0.00027869792120496556,
      "loss": 4.1201,
      "step": 84080
    },
    {
      "epoch": 0.1751875,
      "grad_norm": 0.8817487359046936,
      "learning_rate": 0.00027869285685544584,
      "loss": 4.0975,
      "step": 84090
    },
    {
      "epoch": 0.17520833333333333,
      "grad_norm": 0.7869139313697815,
      "learning_rate": 0.000278687791950024,
      "loss": 4.0369,
      "step": 84100
    },
    {
      "epoch": 0.17522916666666666,
      "grad_norm": 0.864615261554718,
      "learning_rate": 0.00027868272648872187,
      "loss": 3.9655,
      "step": 84110
    },
    {
      "epoch": 0.17525,
      "grad_norm": 0.7893834710121155,
      "learning_rate": 0.0002786776604715612,
      "loss": 3.9988,
      "step": 84120
    },
    {
      "epoch": 0.17527083333333332,
      "grad_norm": 0.8111075162887573,
      "learning_rate": 0.000278672593898564,
      "loss": 4.1066,
      "step": 84130
    },
    {
      "epoch": 0.17529166666666668,
      "grad_norm": 1.0299346446990967,
      "learning_rate": 0.00027866752676975213,
      "loss": 4.0434,
      "step": 84140
    },
    {
      "epoch": 0.1753125,
      "grad_norm": 0.8860450387001038,
      "learning_rate": 0.0002786624590851475,
      "loss": 3.988,
      "step": 84150
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 0.7585910558700562,
      "learning_rate": 0.00027865739084477194,
      "loss": 3.8931,
      "step": 84160
    },
    {
      "epoch": 0.17535416666666667,
      "grad_norm": 0.8346822261810303,
      "learning_rate": 0.0002786523220486474,
      "loss": 4.1522,
      "step": 84170
    },
    {
      "epoch": 0.175375,
      "grad_norm": 1.1266297101974487,
      "learning_rate": 0.00027864725269679576,
      "loss": 4.0089,
      "step": 84180
    },
    {
      "epoch": 0.17539583333333333,
      "grad_norm": 0.837310254573822,
      "learning_rate": 0.0002786421827892389,
      "loss": 4.1388,
      "step": 84190
    },
    {
      "epoch": 0.17541666666666667,
      "grad_norm": 0.7912153601646423,
      "learning_rate": 0.0002786371123259987,
      "loss": 4.1449,
      "step": 84200
    },
    {
      "epoch": 0.1754375,
      "grad_norm": 0.9622679948806763,
      "learning_rate": 0.00027863204130709713,
      "loss": 4.1702,
      "step": 84210
    },
    {
      "epoch": 0.17545833333333333,
      "grad_norm": 0.8601998090744019,
      "learning_rate": 0.00027862696973255605,
      "loss": 4.0222,
      "step": 84220
    },
    {
      "epoch": 0.17547916666666666,
      "grad_norm": 0.804101288318634,
      "learning_rate": 0.00027862189760239736,
      "loss": 3.9107,
      "step": 84230
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.7807655930519104,
      "learning_rate": 0.000278616824916643,
      "loss": 4.2512,
      "step": 84240
    },
    {
      "epoch": 0.17552083333333332,
      "grad_norm": 0.8067281246185303,
      "learning_rate": 0.0002786117516753149,
      "loss": 4.0146,
      "step": 84250
    },
    {
      "epoch": 0.17554166666666668,
      "grad_norm": 0.8045032620429993,
      "learning_rate": 0.0002786066778784349,
      "loss": 4.1499,
      "step": 84260
    },
    {
      "epoch": 0.1755625,
      "grad_norm": 0.8574052453041077,
      "learning_rate": 0.00027860160352602496,
      "loss": 3.7537,
      "step": 84270
    },
    {
      "epoch": 0.17558333333333334,
      "grad_norm": 0.7951016426086426,
      "learning_rate": 0.00027859652861810696,
      "loss": 4.1663,
      "step": 84280
    },
    {
      "epoch": 0.17560416666666667,
      "grad_norm": 0.8748337030410767,
      "learning_rate": 0.0002785914531547029,
      "loss": 4.1767,
      "step": 84290
    },
    {
      "epoch": 0.175625,
      "grad_norm": 0.8521572351455688,
      "learning_rate": 0.00027858637713583465,
      "loss": 4.2046,
      "step": 84300
    },
    {
      "epoch": 0.17564583333333333,
      "grad_norm": 0.8723707795143127,
      "learning_rate": 0.0002785813005615242,
      "loss": 4.1528,
      "step": 84310
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 0.8917532563209534,
      "learning_rate": 0.00027857622343179335,
      "loss": 3.9392,
      "step": 84320
    },
    {
      "epoch": 0.1756875,
      "grad_norm": 0.850618302822113,
      "learning_rate": 0.00027857114574666417,
      "loss": 4.051,
      "step": 84330
    },
    {
      "epoch": 0.17570833333333333,
      "grad_norm": 0.878075122833252,
      "learning_rate": 0.0002785660675061585,
      "loss": 4.17,
      "step": 84340
    },
    {
      "epoch": 0.17572916666666666,
      "grad_norm": 0.8119350075721741,
      "learning_rate": 0.00027856098871029833,
      "loss": 3.9074,
      "step": 84350
    },
    {
      "epoch": 0.17575,
      "grad_norm": 0.8224665522575378,
      "learning_rate": 0.00027855590935910553,
      "loss": 3.9797,
      "step": 84360
    },
    {
      "epoch": 0.17577083333333332,
      "grad_norm": 0.9104640483856201,
      "learning_rate": 0.00027855082945260216,
      "loss": 4.0355,
      "step": 84370
    },
    {
      "epoch": 0.17579166666666668,
      "grad_norm": 0.7971768379211426,
      "learning_rate": 0.00027854574899081,
      "loss": 4.1397,
      "step": 84380
    },
    {
      "epoch": 0.1758125,
      "grad_norm": 0.7935994267463684,
      "learning_rate": 0.00027854066797375115,
      "loss": 4.1087,
      "step": 84390
    },
    {
      "epoch": 0.17583333333333334,
      "grad_norm": 0.8294938802719116,
      "learning_rate": 0.0002785355864014475,
      "loss": 4.1086,
      "step": 84400
    },
    {
      "epoch": 0.17585416666666667,
      "grad_norm": 0.8779646754264832,
      "learning_rate": 0.00027853050427392094,
      "loss": 4.2017,
      "step": 84410
    },
    {
      "epoch": 0.175875,
      "grad_norm": 0.8450040817260742,
      "learning_rate": 0.00027852542159119355,
      "loss": 4.082,
      "step": 84420
    },
    {
      "epoch": 0.17589583333333333,
      "grad_norm": 0.8495193123817444,
      "learning_rate": 0.00027852033835328716,
      "loss": 4.1331,
      "step": 84430
    },
    {
      "epoch": 0.17591666666666667,
      "grad_norm": 0.8755261301994324,
      "learning_rate": 0.0002785152545602238,
      "loss": 4.1675,
      "step": 84440
    },
    {
      "epoch": 0.1759375,
      "grad_norm": 0.9988810420036316,
      "learning_rate": 0.0002785101702120254,
      "loss": 3.9872,
      "step": 84450
    },
    {
      "epoch": 0.17595833333333333,
      "grad_norm": 0.8874143362045288,
      "learning_rate": 0.00027850508530871394,
      "loss": 3.921,
      "step": 84460
    },
    {
      "epoch": 0.17597916666666666,
      "grad_norm": 0.7908613085746765,
      "learning_rate": 0.00027849999985031135,
      "loss": 3.935,
      "step": 84470
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.7669950723648071,
      "learning_rate": 0.00027849491383683965,
      "loss": 4.0504,
      "step": 84480
    },
    {
      "epoch": 0.17602083333333332,
      "grad_norm": 0.817766010761261,
      "learning_rate": 0.0002784898272683208,
      "loss": 4.051,
      "step": 84490
    },
    {
      "epoch": 0.17604166666666668,
      "grad_norm": 0.803774356842041,
      "learning_rate": 0.00027848474014477675,
      "loss": 4.1234,
      "step": 84500
    },
    {
      "epoch": 0.1760625,
      "grad_norm": 0.9339714050292969,
      "learning_rate": 0.00027847965246622947,
      "loss": 4.003,
      "step": 84510
    },
    {
      "epoch": 0.17608333333333334,
      "grad_norm": 0.791359007358551,
      "learning_rate": 0.00027847456423270094,
      "loss": 4.1036,
      "step": 84520
    },
    {
      "epoch": 0.17610416666666667,
      "grad_norm": 0.8466843962669373,
      "learning_rate": 0.0002784694754442131,
      "loss": 3.9451,
      "step": 84530
    },
    {
      "epoch": 0.176125,
      "grad_norm": 0.901561439037323,
      "learning_rate": 0.0002784643861007881,
      "loss": 4.1406,
      "step": 84540
    },
    {
      "epoch": 0.17614583333333333,
      "grad_norm": 0.8315447568893433,
      "learning_rate": 0.0002784592962024477,
      "loss": 4.0572,
      "step": 84550
    },
    {
      "epoch": 0.17616666666666667,
      "grad_norm": 0.8173991441726685,
      "learning_rate": 0.000278454205749214,
      "loss": 3.9669,
      "step": 84560
    },
    {
      "epoch": 0.1761875,
      "grad_norm": 0.8368900418281555,
      "learning_rate": 0.00027844911474110903,
      "loss": 4.2314,
      "step": 84570
    },
    {
      "epoch": 0.17620833333333333,
      "grad_norm": 0.8234150409698486,
      "learning_rate": 0.0002784440231781547,
      "loss": 4.2508,
      "step": 84580
    },
    {
      "epoch": 0.17622916666666666,
      "grad_norm": 0.9324492812156677,
      "learning_rate": 0.00027843893106037305,
      "loss": 4.065,
      "step": 84590
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.7752087712287903,
      "learning_rate": 0.00027843383838778603,
      "loss": 4.1757,
      "step": 84600
    },
    {
      "epoch": 0.17627083333333332,
      "grad_norm": 0.7787575721740723,
      "learning_rate": 0.00027842874516041563,
      "loss": 3.9757,
      "step": 84610
    },
    {
      "epoch": 0.17629166666666668,
      "grad_norm": 0.833801805973053,
      "learning_rate": 0.00027842365137828397,
      "loss": 4.1202,
      "step": 84620
    },
    {
      "epoch": 0.1763125,
      "grad_norm": 0.8335170745849609,
      "learning_rate": 0.0002784185570414129,
      "loss": 4.0057,
      "step": 84630
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 0.7469356060028076,
      "learning_rate": 0.0002784134621498245,
      "loss": 4.1362,
      "step": 84640
    },
    {
      "epoch": 0.17635416666666667,
      "grad_norm": 0.7997044324874878,
      "learning_rate": 0.0002784083667035408,
      "loss": 4.1225,
      "step": 84650
    },
    {
      "epoch": 0.176375,
      "grad_norm": 0.8513321280479431,
      "learning_rate": 0.0002784032707025838,
      "loss": 4.0772,
      "step": 84660
    },
    {
      "epoch": 0.17639583333333334,
      "grad_norm": 0.7920180559158325,
      "learning_rate": 0.0002783981741469755,
      "loss": 4.1364,
      "step": 84670
    },
    {
      "epoch": 0.17641666666666667,
      "grad_norm": 0.8131687045097351,
      "learning_rate": 0.00027839307703673787,
      "loss": 4.07,
      "step": 84680
    },
    {
      "epoch": 0.1764375,
      "grad_norm": 0.7871131896972656,
      "learning_rate": 0.000278387979371893,
      "loss": 4.1696,
      "step": 84690
    },
    {
      "epoch": 0.17645833333333333,
      "grad_norm": 0.8058137893676758,
      "learning_rate": 0.0002783828811524628,
      "loss": 3.9302,
      "step": 84700
    },
    {
      "epoch": 0.17647916666666666,
      "grad_norm": 0.822909951210022,
      "learning_rate": 0.0002783777823784695,
      "loss": 3.9223,
      "step": 84710
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.8443593978881836,
      "learning_rate": 0.0002783726830499349,
      "loss": 4.1218,
      "step": 84720
    },
    {
      "epoch": 0.17652083333333332,
      "grad_norm": 0.8202345371246338,
      "learning_rate": 0.00027836758316688117,
      "loss": 4.0534,
      "step": 84730
    },
    {
      "epoch": 0.17654166666666668,
      "grad_norm": 0.8590395450592041,
      "learning_rate": 0.0002783624827293303,
      "loss": 4.2307,
      "step": 84740
    },
    {
      "epoch": 0.1765625,
      "grad_norm": 0.818295955657959,
      "learning_rate": 0.0002783573817373042,
      "loss": 4.1041,
      "step": 84750
    },
    {
      "epoch": 0.17658333333333334,
      "grad_norm": 0.8353276252746582,
      "learning_rate": 0.0002783522801908252,
      "loss": 4.3526,
      "step": 84760
    },
    {
      "epoch": 0.17660416666666667,
      "grad_norm": 0.8713843822479248,
      "learning_rate": 0.000278347178089915,
      "loss": 4.2463,
      "step": 84770
    },
    {
      "epoch": 0.176625,
      "grad_norm": 0.7766910195350647,
      "learning_rate": 0.0002783420754345959,
      "loss": 4.1832,
      "step": 84780
    },
    {
      "epoch": 0.17664583333333334,
      "grad_norm": 0.9305720329284668,
      "learning_rate": 0.0002783369722248898,
      "loss": 4.0764,
      "step": 84790
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.8824342489242554,
      "learning_rate": 0.00027833186846081876,
      "loss": 3.9873,
      "step": 84800
    },
    {
      "epoch": 0.1766875,
      "grad_norm": 0.7627677321434021,
      "learning_rate": 0.00027832676414240486,
      "loss": 4.2223,
      "step": 84810
    },
    {
      "epoch": 0.17670833333333333,
      "grad_norm": 0.8426201343536377,
      "learning_rate": 0.0002783216592696701,
      "loss": 4.1497,
      "step": 84820
    },
    {
      "epoch": 0.17672916666666666,
      "grad_norm": 0.8709180951118469,
      "learning_rate": 0.0002783165538426366,
      "loss": 4.1902,
      "step": 84830
    },
    {
      "epoch": 0.17675,
      "grad_norm": 0.7230162024497986,
      "learning_rate": 0.0002783114478613264,
      "loss": 4.2074,
      "step": 84840
    },
    {
      "epoch": 0.17677083333333332,
      "grad_norm": 0.7589895129203796,
      "learning_rate": 0.0002783063413257615,
      "loss": 4.2419,
      "step": 84850
    },
    {
      "epoch": 0.17679166666666668,
      "grad_norm": 0.7372986674308777,
      "learning_rate": 0.000278301234235964,
      "loss": 4.0096,
      "step": 84860
    },
    {
      "epoch": 0.1768125,
      "grad_norm": 0.7697782516479492,
      "learning_rate": 0.0002782961265919559,
      "loss": 4.115,
      "step": 84870
    },
    {
      "epoch": 0.17683333333333334,
      "grad_norm": 0.823946475982666,
      "learning_rate": 0.0002782910183937594,
      "loss": 4.1919,
      "step": 84880
    },
    {
      "epoch": 0.17685416666666667,
      "grad_norm": 0.9016669988632202,
      "learning_rate": 0.00027828590964139646,
      "loss": 3.8702,
      "step": 84890
    },
    {
      "epoch": 0.176875,
      "grad_norm": 0.8544644117355347,
      "learning_rate": 0.0002782808003348892,
      "loss": 4.087,
      "step": 84900
    },
    {
      "epoch": 0.17689583333333334,
      "grad_norm": 0.8636199235916138,
      "learning_rate": 0.0002782756904742596,
      "loss": 3.8736,
      "step": 84910
    },
    {
      "epoch": 0.17691666666666667,
      "grad_norm": 0.8601601719856262,
      "learning_rate": 0.0002782705800595298,
      "loss": 3.8998,
      "step": 84920
    },
    {
      "epoch": 0.1769375,
      "grad_norm": 0.8416188359260559,
      "learning_rate": 0.00027826546909072187,
      "loss": 4.2649,
      "step": 84930
    },
    {
      "epoch": 0.17695833333333333,
      "grad_norm": 0.9936310648918152,
      "learning_rate": 0.0002782603575678579,
      "loss": 4.1298,
      "step": 84940
    },
    {
      "epoch": 0.17697916666666666,
      "grad_norm": 0.825864851474762,
      "learning_rate": 0.00027825524549095996,
      "loss": 4.2094,
      "step": 84950
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.779400646686554,
      "learning_rate": 0.0002782501328600501,
      "loss": 4.1396,
      "step": 84960
    },
    {
      "epoch": 0.17702083333333332,
      "grad_norm": 0.7764236330986023,
      "learning_rate": 0.00027824501967515044,
      "loss": 4.0471,
      "step": 84970
    },
    {
      "epoch": 0.17704166666666668,
      "grad_norm": 0.9402742385864258,
      "learning_rate": 0.0002782399059362831,
      "loss": 4.1497,
      "step": 84980
    },
    {
      "epoch": 0.1770625,
      "grad_norm": 0.8568266034126282,
      "learning_rate": 0.0002782347916434701,
      "loss": 4.0147,
      "step": 84990
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 0.7764521837234497,
      "learning_rate": 0.0002782296767967335,
      "loss": 4.0986,
      "step": 85000
    },
    {
      "epoch": 0.17708333333333334,
      "eval_loss": 3.841492176055908,
      "eval_runtime": 7.1806,
      "eval_samples_per_second": 1.393,
      "eval_steps_per_second": 0.418,
      "step": 85000
    },
    {
      "epoch": 0.17710416666666667,
      "grad_norm": 0.7722721099853516,
      "learning_rate": 0.00027822456139609556,
      "loss": 4.094,
      "step": 85010
    },
    {
      "epoch": 0.177125,
      "grad_norm": 0.9719061851501465,
      "learning_rate": 0.00027821944544157817,
      "loss": 4.0902,
      "step": 85020
    },
    {
      "epoch": 0.17714583333333334,
      "grad_norm": 0.8558812737464905,
      "learning_rate": 0.00027821432893320364,
      "loss": 4.0304,
      "step": 85030
    },
    {
      "epoch": 0.17716666666666667,
      "grad_norm": 0.7804543972015381,
      "learning_rate": 0.00027820921187099386,
      "loss": 3.8943,
      "step": 85040
    },
    {
      "epoch": 0.1771875,
      "grad_norm": 0.91476970911026,
      "learning_rate": 0.000278204094254971,
      "loss": 4.2671,
      "step": 85050
    },
    {
      "epoch": 0.17720833333333333,
      "grad_norm": 0.9331930875778198,
      "learning_rate": 0.0002781989760851573,
      "loss": 4.0229,
      "step": 85060
    },
    {
      "epoch": 0.17722916666666666,
      "grad_norm": 0.7931216955184937,
      "learning_rate": 0.00027819385736157473,
      "loss": 3.9273,
      "step": 85070
    },
    {
      "epoch": 0.17725,
      "grad_norm": 0.8246438503265381,
      "learning_rate": 0.00027818873808424543,
      "loss": 4.1811,
      "step": 85080
    },
    {
      "epoch": 0.17727083333333332,
      "grad_norm": 0.8085991144180298,
      "learning_rate": 0.0002781836182531916,
      "loss": 4.1142,
      "step": 85090
    },
    {
      "epoch": 0.17729166666666665,
      "grad_norm": 0.8411245346069336,
      "learning_rate": 0.0002781784978684352,
      "loss": 4.1543,
      "step": 85100
    },
    {
      "epoch": 0.1773125,
      "grad_norm": 0.821969747543335,
      "learning_rate": 0.00027817337692999844,
      "loss": 4.0761,
      "step": 85110
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.7782419919967651,
      "learning_rate": 0.0002781682554379034,
      "loss": 4.0792,
      "step": 85120
    },
    {
      "epoch": 0.17735416666666667,
      "grad_norm": 0.8619340658187866,
      "learning_rate": 0.00027816313339217225,
      "loss": 4.0796,
      "step": 85130
    },
    {
      "epoch": 0.177375,
      "grad_norm": 0.7867127060890198,
      "learning_rate": 0.0002781580107928271,
      "loss": 4.0093,
      "step": 85140
    },
    {
      "epoch": 0.17739583333333334,
      "grad_norm": 0.8026443719863892,
      "learning_rate": 0.0002781528876398901,
      "loss": 4.0306,
      "step": 85150
    },
    {
      "epoch": 0.17741666666666667,
      "grad_norm": 0.8387154936790466,
      "learning_rate": 0.0002781477639333833,
      "loss": 4.0123,
      "step": 85160
    },
    {
      "epoch": 0.1774375,
      "grad_norm": 0.8461119532585144,
      "learning_rate": 0.0002781426396733289,
      "loss": 4.0093,
      "step": 85170
    },
    {
      "epoch": 0.17745833333333333,
      "grad_norm": 0.8147733211517334,
      "learning_rate": 0.00027813751485974904,
      "loss": 4.0354,
      "step": 85180
    },
    {
      "epoch": 0.17747916666666666,
      "grad_norm": 0.8490781188011169,
      "learning_rate": 0.00027813238949266577,
      "loss": 4.271,
      "step": 85190
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.8160959482192993,
      "learning_rate": 0.0002781272635721014,
      "loss": 4.0797,
      "step": 85200
    },
    {
      "epoch": 0.17752083333333332,
      "grad_norm": 0.8407064080238342,
      "learning_rate": 0.0002781221370980779,
      "loss": 4.1326,
      "step": 85210
    },
    {
      "epoch": 0.17754166666666665,
      "grad_norm": 0.8118313550949097,
      "learning_rate": 0.0002781170100706175,
      "loss": 3.9909,
      "step": 85220
    },
    {
      "epoch": 0.1775625,
      "grad_norm": 0.8689950108528137,
      "learning_rate": 0.0002781118824897423,
      "loss": 4.1243,
      "step": 85230
    },
    {
      "epoch": 0.17758333333333334,
      "grad_norm": 0.8580880761146545,
      "learning_rate": 0.00027810675435547454,
      "loss": 4.1145,
      "step": 85240
    },
    {
      "epoch": 0.17760416666666667,
      "grad_norm": 0.8190048933029175,
      "learning_rate": 0.0002781016256678362,
      "loss": 4.1273,
      "step": 85250
    },
    {
      "epoch": 0.177625,
      "grad_norm": 0.7693073153495789,
      "learning_rate": 0.00027809649642684963,
      "loss": 4.3199,
      "step": 85260
    },
    {
      "epoch": 0.17764583333333334,
      "grad_norm": 0.8685495257377625,
      "learning_rate": 0.00027809136663253694,
      "loss": 4.0968,
      "step": 85270
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 0.8209944367408752,
      "learning_rate": 0.00027808623628492016,
      "loss": 4.1629,
      "step": 85280
    },
    {
      "epoch": 0.1776875,
      "grad_norm": 0.7899757623672485,
      "learning_rate": 0.00027808110538402156,
      "loss": 4.2334,
      "step": 85290
    },
    {
      "epoch": 0.17770833333333333,
      "grad_norm": 0.7963981032371521,
      "learning_rate": 0.0002780759739298633,
      "loss": 3.9496,
      "step": 85300
    },
    {
      "epoch": 0.17772916666666666,
      "grad_norm": 0.7996887564659119,
      "learning_rate": 0.00027807084192246756,
      "loss": 4.1216,
      "step": 85310
    },
    {
      "epoch": 0.17775,
      "grad_norm": 0.8114545941352844,
      "learning_rate": 0.0002780657093618564,
      "loss": 4.0427,
      "step": 85320
    },
    {
      "epoch": 0.17777083333333332,
      "grad_norm": 0.8414340615272522,
      "learning_rate": 0.00027806057624805216,
      "loss": 4.1222,
      "step": 85330
    },
    {
      "epoch": 0.17779166666666665,
      "grad_norm": 0.7912638187408447,
      "learning_rate": 0.0002780554425810768,
      "loss": 3.9451,
      "step": 85340
    },
    {
      "epoch": 0.1778125,
      "grad_norm": 0.8068109750747681,
      "learning_rate": 0.0002780503083609527,
      "loss": 4.0498,
      "step": 85350
    },
    {
      "epoch": 0.17783333333333334,
      "grad_norm": 0.749387264251709,
      "learning_rate": 0.000278045173587702,
      "loss": 4.1281,
      "step": 85360
    },
    {
      "epoch": 0.17785416666666667,
      "grad_norm": 0.8675116300582886,
      "learning_rate": 0.00027804003826134674,
      "loss": 4.0513,
      "step": 85370
    },
    {
      "epoch": 0.177875,
      "grad_norm": 0.7969659566879272,
      "learning_rate": 0.00027803490238190924,
      "loss": 4.18,
      "step": 85380
    },
    {
      "epoch": 0.17789583333333334,
      "grad_norm": 0.9602451920509338,
      "learning_rate": 0.0002780297659494116,
      "loss": 4.2012,
      "step": 85390
    },
    {
      "epoch": 0.17791666666666667,
      "grad_norm": 0.8840639591217041,
      "learning_rate": 0.0002780246289638761,
      "loss": 4.1492,
      "step": 85400
    },
    {
      "epoch": 0.1779375,
      "grad_norm": 0.887414276599884,
      "learning_rate": 0.0002780194914253248,
      "loss": 4.1069,
      "step": 85410
    },
    {
      "epoch": 0.17795833333333333,
      "grad_norm": 0.7352907061576843,
      "learning_rate": 0.0002780143533337801,
      "loss": 4.0754,
      "step": 85420
    },
    {
      "epoch": 0.17797916666666666,
      "grad_norm": 0.8040556311607361,
      "learning_rate": 0.00027800921468926394,
      "loss": 4.2096,
      "step": 85430
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.8566308617591858,
      "learning_rate": 0.00027800407549179873,
      "loss": 4.0408,
      "step": 85440
    },
    {
      "epoch": 0.17802083333333332,
      "grad_norm": 0.8060546517372131,
      "learning_rate": 0.0002779989357414065,
      "loss": 4.1145,
      "step": 85450
    },
    {
      "epoch": 0.17804166666666665,
      "grad_norm": 0.8630377650260925,
      "learning_rate": 0.0002779937954381096,
      "loss": 3.8554,
      "step": 85460
    },
    {
      "epoch": 0.1780625,
      "grad_norm": 0.8634667992591858,
      "learning_rate": 0.00027798865458193017,
      "loss": 4.1913,
      "step": 85470
    },
    {
      "epoch": 0.17808333333333334,
      "grad_norm": 0.8249370455741882,
      "learning_rate": 0.0002779835131728904,
      "loss": 3.8918,
      "step": 85480
    },
    {
      "epoch": 0.17810416666666667,
      "grad_norm": 0.8309935331344604,
      "learning_rate": 0.00027797837121101246,
      "loss": 4.1379,
      "step": 85490
    },
    {
      "epoch": 0.178125,
      "grad_norm": 0.8756946325302124,
      "learning_rate": 0.00027797322869631865,
      "loss": 4.0436,
      "step": 85500
    },
    {
      "epoch": 0.17814583333333334,
      "grad_norm": 0.813573956489563,
      "learning_rate": 0.0002779680856288312,
      "loss": 4.062,
      "step": 85510
    },
    {
      "epoch": 0.17816666666666667,
      "grad_norm": 0.8009282946586609,
      "learning_rate": 0.0002779629420085722,
      "loss": 4.1222,
      "step": 85520
    },
    {
      "epoch": 0.1781875,
      "grad_norm": 0.786450982093811,
      "learning_rate": 0.00027795779783556395,
      "loss": 4.0472,
      "step": 85530
    },
    {
      "epoch": 0.17820833333333333,
      "grad_norm": 0.8479490876197815,
      "learning_rate": 0.0002779526531098287,
      "loss": 4.0793,
      "step": 85540
    },
    {
      "epoch": 0.17822916666666666,
      "grad_norm": 0.8240767121315002,
      "learning_rate": 0.0002779475078313886,
      "loss": 4.164,
      "step": 85550
    },
    {
      "epoch": 0.17825,
      "grad_norm": 0.7379968762397766,
      "learning_rate": 0.00027794236200026596,
      "loss": 4.0656,
      "step": 85560
    },
    {
      "epoch": 0.17827083333333332,
      "grad_norm": 0.8300508260726929,
      "learning_rate": 0.0002779372156164829,
      "loss": 4.1646,
      "step": 85570
    },
    {
      "epoch": 0.17829166666666665,
      "grad_norm": 0.9168738126754761,
      "learning_rate": 0.00027793206868006174,
      "loss": 4.0787,
      "step": 85580
    },
    {
      "epoch": 0.1783125,
      "grad_norm": 0.9066579341888428,
      "learning_rate": 0.00027792692119102473,
      "loss": 3.9715,
      "step": 85590
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 0.8491570353507996,
      "learning_rate": 0.00027792177314939394,
      "loss": 4.1241,
      "step": 85600
    },
    {
      "epoch": 0.17835416666666667,
      "grad_norm": 1.071945309638977,
      "learning_rate": 0.0002779166245551918,
      "loss": 4.0477,
      "step": 85610
    },
    {
      "epoch": 0.178375,
      "grad_norm": 0.7963135838508606,
      "learning_rate": 0.0002779114754084405,
      "loss": 4.1009,
      "step": 85620
    },
    {
      "epoch": 0.17839583333333334,
      "grad_norm": 0.7936278581619263,
      "learning_rate": 0.00027790632570916224,
      "loss": 4.123,
      "step": 85630
    },
    {
      "epoch": 0.17841666666666667,
      "grad_norm": 0.7452402710914612,
      "learning_rate": 0.00027790117545737925,
      "loss": 3.8123,
      "step": 85640
    },
    {
      "epoch": 0.1784375,
      "grad_norm": 0.7780908942222595,
      "learning_rate": 0.0002778960246531138,
      "loss": 3.9441,
      "step": 85650
    },
    {
      "epoch": 0.17845833333333333,
      "grad_norm": 1.0719858407974243,
      "learning_rate": 0.0002778908732963882,
      "loss": 4.1709,
      "step": 85660
    },
    {
      "epoch": 0.17847916666666666,
      "grad_norm": 0.7776637077331543,
      "learning_rate": 0.0002778857213872246,
      "loss": 4.0163,
      "step": 85670
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.7680726647377014,
      "learning_rate": 0.00027788056892564535,
      "loss": 4.1782,
      "step": 85680
    },
    {
      "epoch": 0.17852083333333332,
      "grad_norm": 0.7828512787818909,
      "learning_rate": 0.00027787541591167263,
      "loss": 4.1536,
      "step": 85690
    },
    {
      "epoch": 0.17854166666666665,
      "grad_norm": 0.7598096132278442,
      "learning_rate": 0.0002778702623453287,
      "loss": 4.2843,
      "step": 85700
    },
    {
      "epoch": 0.1785625,
      "grad_norm": 0.9455732703208923,
      "learning_rate": 0.0002778651082266359,
      "loss": 4.1957,
      "step": 85710
    },
    {
      "epoch": 0.17858333333333334,
      "grad_norm": 0.8307785391807556,
      "learning_rate": 0.00027785995355561645,
      "loss": 4.0709,
      "step": 85720
    },
    {
      "epoch": 0.17860416666666667,
      "grad_norm": 0.8161828517913818,
      "learning_rate": 0.0002778547983322926,
      "loss": 4.1409,
      "step": 85730
    },
    {
      "epoch": 0.178625,
      "grad_norm": 0.7938456535339355,
      "learning_rate": 0.0002778496425566866,
      "loss": 4.1467,
      "step": 85740
    },
    {
      "epoch": 0.17864583333333334,
      "grad_norm": 0.8271335363388062,
      "learning_rate": 0.0002778444862288208,
      "loss": 4.1142,
      "step": 85750
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.824908971786499,
      "learning_rate": 0.0002778393293487174,
      "loss": 4.0827,
      "step": 85760
    },
    {
      "epoch": 0.1786875,
      "grad_norm": 0.7841039896011353,
      "learning_rate": 0.0002778341719163987,
      "loss": 4.2892,
      "step": 85770
    },
    {
      "epoch": 0.17870833333333333,
      "grad_norm": 0.7746387124061584,
      "learning_rate": 0.000277829013931887,
      "loss": 4.0577,
      "step": 85780
    },
    {
      "epoch": 0.17872916666666666,
      "grad_norm": 0.9529871344566345,
      "learning_rate": 0.0002778238553952045,
      "loss": 3.9163,
      "step": 85790
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.8395010232925415,
      "learning_rate": 0.00027781869630637355,
      "loss": 4.2975,
      "step": 85800
    },
    {
      "epoch": 0.17877083333333332,
      "grad_norm": 0.8160423040390015,
      "learning_rate": 0.0002778135366654165,
      "loss": 4.0955,
      "step": 85810
    },
    {
      "epoch": 0.17879166666666665,
      "grad_norm": 0.9310237765312195,
      "learning_rate": 0.0002778083764723555,
      "loss": 3.9947,
      "step": 85820
    },
    {
      "epoch": 0.1788125,
      "grad_norm": 0.8870741724967957,
      "learning_rate": 0.0002778032157272129,
      "loss": 4.0827,
      "step": 85830
    },
    {
      "epoch": 0.17883333333333334,
      "grad_norm": 0.8133472204208374,
      "learning_rate": 0.00027779805443001106,
      "loss": 4.244,
      "step": 85840
    },
    {
      "epoch": 0.17885416666666668,
      "grad_norm": 0.7577813863754272,
      "learning_rate": 0.0002777928925807721,
      "loss": 4.145,
      "step": 85850
    },
    {
      "epoch": 0.178875,
      "grad_norm": 0.7209917902946472,
      "learning_rate": 0.0002777877301795185,
      "loss": 4.2107,
      "step": 85860
    },
    {
      "epoch": 0.17889583333333334,
      "grad_norm": 0.8109222650527954,
      "learning_rate": 0.00027778256722627253,
      "loss": 4.1522,
      "step": 85870
    },
    {
      "epoch": 0.17891666666666667,
      "grad_norm": 0.8514030575752258,
      "learning_rate": 0.0002777774037210564,
      "loss": 3.9836,
      "step": 85880
    },
    {
      "epoch": 0.1789375,
      "grad_norm": 0.8669331073760986,
      "learning_rate": 0.00027777223966389243,
      "loss": 4.125,
      "step": 85890
    },
    {
      "epoch": 0.17895833333333333,
      "grad_norm": 0.7873603105545044,
      "learning_rate": 0.00027776707505480303,
      "loss": 4.0418,
      "step": 85900
    },
    {
      "epoch": 0.17897916666666666,
      "grad_norm": 0.7652546167373657,
      "learning_rate": 0.0002777619098938104,
      "loss": 4.1342,
      "step": 85910
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.8123572468757629,
      "learning_rate": 0.00027775674418093686,
      "loss": 4.146,
      "step": 85920
    },
    {
      "epoch": 0.17902083333333332,
      "grad_norm": 0.8924161195755005,
      "learning_rate": 0.0002777515779162048,
      "loss": 3.8117,
      "step": 85930
    },
    {
      "epoch": 0.17904166666666665,
      "grad_norm": 0.8101804256439209,
      "learning_rate": 0.0002777464110996365,
      "loss": 4.1366,
      "step": 85940
    },
    {
      "epoch": 0.1790625,
      "grad_norm": 0.7770198583602905,
      "learning_rate": 0.0002777412437312542,
      "loss": 4.015,
      "step": 85950
    },
    {
      "epoch": 0.17908333333333334,
      "grad_norm": 0.8758339285850525,
      "learning_rate": 0.0002777360758110804,
      "loss": 4.0823,
      "step": 85960
    },
    {
      "epoch": 0.17910416666666668,
      "grad_norm": 0.8631137609481812,
      "learning_rate": 0.00027773090733913727,
      "loss": 4.0644,
      "step": 85970
    },
    {
      "epoch": 0.179125,
      "grad_norm": 0.8351184129714966,
      "learning_rate": 0.0002777257383154471,
      "loss": 4.0377,
      "step": 85980
    },
    {
      "epoch": 0.17914583333333334,
      "grad_norm": 0.7321304678916931,
      "learning_rate": 0.0002777205687400324,
      "loss": 4.1172,
      "step": 85990
    },
    {
      "epoch": 0.17916666666666667,
      "grad_norm": 0.837441086769104,
      "learning_rate": 0.00027771539861291535,
      "loss": 4.07,
      "step": 86000
    },
    {
      "epoch": 0.17916666666666667,
      "eval_loss": 3.8292250633239746,
      "eval_runtime": 7.227,
      "eval_samples_per_second": 1.384,
      "eval_steps_per_second": 0.415,
      "step": 86000
    },
    {
      "epoch": 0.1791875,
      "grad_norm": 0.839186429977417,
      "learning_rate": 0.0002777102279341183,
      "loss": 4.0241,
      "step": 86010
    },
    {
      "epoch": 0.17920833333333333,
      "grad_norm": 0.8269410729408264,
      "learning_rate": 0.0002777050567036637,
      "loss": 3.9099,
      "step": 86020
    },
    {
      "epoch": 0.17922916666666666,
      "grad_norm": 0.9309351444244385,
      "learning_rate": 0.0002776998849215738,
      "loss": 4.1826,
      "step": 86030
    },
    {
      "epoch": 0.17925,
      "grad_norm": 0.776558518409729,
      "learning_rate": 0.00027769471258787086,
      "loss": 4.0909,
      "step": 86040
    },
    {
      "epoch": 0.17927083333333332,
      "grad_norm": 0.7988104224205017,
      "learning_rate": 0.0002776895397025774,
      "loss": 4.3045,
      "step": 86050
    },
    {
      "epoch": 0.17929166666666665,
      "grad_norm": 0.8524045944213867,
      "learning_rate": 0.0002776843662657156,
      "loss": 4.0626,
      "step": 86060
    },
    {
      "epoch": 0.1793125,
      "grad_norm": 0.7592160105705261,
      "learning_rate": 0.0002776791922773079,
      "loss": 3.9538,
      "step": 86070
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 0.9504411816596985,
      "learning_rate": 0.0002776740177373766,
      "loss": 4.0058,
      "step": 86080
    },
    {
      "epoch": 0.17935416666666668,
      "grad_norm": 0.74704509973526,
      "learning_rate": 0.00027766884264594414,
      "loss": 4.1544,
      "step": 86090
    },
    {
      "epoch": 0.179375,
      "grad_norm": 0.7764597535133362,
      "learning_rate": 0.0002776636670030328,
      "loss": 4.2247,
      "step": 86100
    },
    {
      "epoch": 0.17939583333333334,
      "grad_norm": 0.7732434868812561,
      "learning_rate": 0.00027765849080866494,
      "loss": 4.2451,
      "step": 86110
    },
    {
      "epoch": 0.17941666666666667,
      "grad_norm": 0.84328293800354,
      "learning_rate": 0.0002776533140628629,
      "loss": 4.2669,
      "step": 86120
    },
    {
      "epoch": 0.1794375,
      "grad_norm": 0.8383294343948364,
      "learning_rate": 0.0002776481367656491,
      "loss": 3.9708,
      "step": 86130
    },
    {
      "epoch": 0.17945833333333333,
      "grad_norm": 0.819452702999115,
      "learning_rate": 0.0002776429589170459,
      "loss": 3.9847,
      "step": 86140
    },
    {
      "epoch": 0.17947916666666666,
      "grad_norm": 0.8804678320884705,
      "learning_rate": 0.0002776377805170756,
      "loss": 4.3536,
      "step": 86150
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.8035730123519897,
      "learning_rate": 0.0002776326015657607,
      "loss": 4.1874,
      "step": 86160
    },
    {
      "epoch": 0.17952083333333332,
      "grad_norm": 0.840765118598938,
      "learning_rate": 0.00027762742206312335,
      "loss": 4.2225,
      "step": 86170
    },
    {
      "epoch": 0.17954166666666665,
      "grad_norm": 0.7613939642906189,
      "learning_rate": 0.0002776222420091861,
      "loss": 4.0933,
      "step": 86180
    },
    {
      "epoch": 0.1795625,
      "grad_norm": 0.8039113283157349,
      "learning_rate": 0.00027761706140397134,
      "loss": 4.2651,
      "step": 86190
    },
    {
      "epoch": 0.17958333333333334,
      "grad_norm": 0.7719810009002686,
      "learning_rate": 0.00027761188024750134,
      "loss": 4.0905,
      "step": 86200
    },
    {
      "epoch": 0.17960416666666668,
      "grad_norm": 1.0507094860076904,
      "learning_rate": 0.0002776066985397985,
      "loss": 4.1278,
      "step": 86210
    },
    {
      "epoch": 0.179625,
      "grad_norm": 0.7444389462471008,
      "learning_rate": 0.00027760151628088527,
      "loss": 4.1821,
      "step": 86220
    },
    {
      "epoch": 0.17964583333333334,
      "grad_norm": 0.8683565258979797,
      "learning_rate": 0.000277596333470784,
      "loss": 4.1649,
      "step": 86230
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 0.8962079882621765,
      "learning_rate": 0.0002775911501095171,
      "loss": 4.126,
      "step": 86240
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 0.8948954939842224,
      "learning_rate": 0.0002775859661971069,
      "loss": 4.0313,
      "step": 86250
    },
    {
      "epoch": 0.17970833333333333,
      "grad_norm": 0.9300376772880554,
      "learning_rate": 0.00027758078173357586,
      "loss": 4.1983,
      "step": 86260
    },
    {
      "epoch": 0.17972916666666666,
      "grad_norm": 0.8275570869445801,
      "learning_rate": 0.0002775755967189463,
      "loss": 4.2176,
      "step": 86270
    },
    {
      "epoch": 0.17975,
      "grad_norm": 1.1918282508850098,
      "learning_rate": 0.0002775704111532407,
      "loss": 4.0325,
      "step": 86280
    },
    {
      "epoch": 0.17977083333333332,
      "grad_norm": 0.7626468539237976,
      "learning_rate": 0.0002775652250364814,
      "loss": 4.1507,
      "step": 86290
    },
    {
      "epoch": 0.17979166666666666,
      "grad_norm": 0.8141337037086487,
      "learning_rate": 0.0002775600383686908,
      "loss": 4.2363,
      "step": 86300
    },
    {
      "epoch": 0.1798125,
      "grad_norm": 0.8027202486991882,
      "learning_rate": 0.00027755485114989135,
      "loss": 3.9224,
      "step": 86310
    },
    {
      "epoch": 0.17983333333333335,
      "grad_norm": 0.8306020498275757,
      "learning_rate": 0.00027754966338010544,
      "loss": 3.9683,
      "step": 86320
    },
    {
      "epoch": 0.17985416666666668,
      "grad_norm": 0.8781797885894775,
      "learning_rate": 0.00027754447505935547,
      "loss": 4.0982,
      "step": 86330
    },
    {
      "epoch": 0.179875,
      "grad_norm": 0.752692699432373,
      "learning_rate": 0.00027753928618766383,
      "loss": 4.1627,
      "step": 86340
    },
    {
      "epoch": 0.17989583333333334,
      "grad_norm": 0.8768824934959412,
      "learning_rate": 0.00027753409676505296,
      "loss": 4.1876,
      "step": 86350
    },
    {
      "epoch": 0.17991666666666667,
      "grad_norm": 0.8244251608848572,
      "learning_rate": 0.0002775289067915453,
      "loss": 4.1702,
      "step": 86360
    },
    {
      "epoch": 0.1799375,
      "grad_norm": 0.7983388900756836,
      "learning_rate": 0.0002775237162671632,
      "loss": 4.0373,
      "step": 86370
    },
    {
      "epoch": 0.17995833333333333,
      "grad_norm": 0.8025562167167664,
      "learning_rate": 0.0002775185251919292,
      "loss": 4.1514,
      "step": 86380
    },
    {
      "epoch": 0.17997916666666666,
      "grad_norm": 0.8240658640861511,
      "learning_rate": 0.00027751333356586553,
      "loss": 4.1868,
      "step": 86390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7679529190063477,
      "learning_rate": 0.00027750814138899485,
      "loss": 4.2934,
      "step": 86400
    },
    {
      "epoch": 0.18002083333333332,
      "grad_norm": 0.7437841892242432,
      "learning_rate": 0.0002775029486613394,
      "loss": 4.1915,
      "step": 86410
    },
    {
      "epoch": 0.18004166666666666,
      "grad_norm": 0.8761411309242249,
      "learning_rate": 0.00027749775538292166,
      "loss": 4.26,
      "step": 86420
    },
    {
      "epoch": 0.1800625,
      "grad_norm": 0.9352916479110718,
      "learning_rate": 0.00027749256155376416,
      "loss": 4.1281,
      "step": 86430
    },
    {
      "epoch": 0.18008333333333335,
      "grad_norm": 0.7561374306678772,
      "learning_rate": 0.00027748736717388926,
      "loss": 4.1321,
      "step": 86440
    },
    {
      "epoch": 0.18010416666666668,
      "grad_norm": 0.8333389163017273,
      "learning_rate": 0.00027748217224331934,
      "loss": 3.8973,
      "step": 86450
    },
    {
      "epoch": 0.180125,
      "grad_norm": 0.7739907503128052,
      "learning_rate": 0.0002774769767620769,
      "loss": 4.0628,
      "step": 86460
    },
    {
      "epoch": 0.18014583333333334,
      "grad_norm": 0.8189461827278137,
      "learning_rate": 0.0002774717807301844,
      "loss": 4.2267,
      "step": 86470
    },
    {
      "epoch": 0.18016666666666667,
      "grad_norm": 0.7865299582481384,
      "learning_rate": 0.0002774665841476643,
      "loss": 4.0794,
      "step": 86480
    },
    {
      "epoch": 0.1801875,
      "grad_norm": 0.9579877853393555,
      "learning_rate": 0.0002774613870145389,
      "loss": 4.1751,
      "step": 86490
    },
    {
      "epoch": 0.18020833333333333,
      "grad_norm": 0.8025365471839905,
      "learning_rate": 0.00027745618933083083,
      "loss": 4.1417,
      "step": 86500
    },
    {
      "epoch": 0.18022916666666666,
      "grad_norm": 0.9288583397865295,
      "learning_rate": 0.0002774509910965625,
      "loss": 3.9787,
      "step": 86510
    },
    {
      "epoch": 0.18025,
      "grad_norm": 0.8777593374252319,
      "learning_rate": 0.0002774457923117563,
      "loss": 4.2435,
      "step": 86520
    },
    {
      "epoch": 0.18027083333333332,
      "grad_norm": 0.7854729890823364,
      "learning_rate": 0.0002774405929764348,
      "loss": 3.7793,
      "step": 86530
    },
    {
      "epoch": 0.18029166666666666,
      "grad_norm": 0.8905299305915833,
      "learning_rate": 0.0002774353930906203,
      "loss": 4.2982,
      "step": 86540
    },
    {
      "epoch": 0.1803125,
      "grad_norm": 0.8228440880775452,
      "learning_rate": 0.00027743019265433536,
      "loss": 4.1682,
      "step": 86550
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 0.8390126824378967,
      "learning_rate": 0.0002774249916676024,
      "loss": 4.0766,
      "step": 86560
    },
    {
      "epoch": 0.18035416666666668,
      "grad_norm": 0.7678541541099548,
      "learning_rate": 0.0002774197901304439,
      "loss": 3.973,
      "step": 86570
    },
    {
      "epoch": 0.180375,
      "grad_norm": 0.7915734648704529,
      "learning_rate": 0.0002774145880428824,
      "loss": 4.1107,
      "step": 86580
    },
    {
      "epoch": 0.18039583333333334,
      "grad_norm": 0.7876185178756714,
      "learning_rate": 0.00027740938540494033,
      "loss": 3.9767,
      "step": 86590
    },
    {
      "epoch": 0.18041666666666667,
      "grad_norm": 0.7957941293716431,
      "learning_rate": 0.00027740418221664014,
      "loss": 4.2133,
      "step": 86600
    },
    {
      "epoch": 0.1804375,
      "grad_norm": 0.7747277021408081,
      "learning_rate": 0.0002773989784780043,
      "loss": 4.1705,
      "step": 86610
    },
    {
      "epoch": 0.18045833333333333,
      "grad_norm": 0.8697227239608765,
      "learning_rate": 0.0002773937741890553,
      "loss": 4.2397,
      "step": 86620
    },
    {
      "epoch": 0.18047916666666666,
      "grad_norm": 0.801838755607605,
      "learning_rate": 0.0002773885693498156,
      "loss": 4.2363,
      "step": 86630
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.8156282305717468,
      "learning_rate": 0.0002773833639603077,
      "loss": 4.1595,
      "step": 86640
    },
    {
      "epoch": 0.18052083333333332,
      "grad_norm": 0.8659400343894958,
      "learning_rate": 0.0002773781580205541,
      "loss": 4.1094,
      "step": 86650
    },
    {
      "epoch": 0.18054166666666666,
      "grad_norm": 0.8597400188446045,
      "learning_rate": 0.0002773729515305773,
      "loss": 4.1687,
      "step": 86660
    },
    {
      "epoch": 0.1805625,
      "grad_norm": 0.76726895570755,
      "learning_rate": 0.00027736774449039976,
      "loss": 4.1966,
      "step": 86670
    },
    {
      "epoch": 0.18058333333333335,
      "grad_norm": 0.7896936535835266,
      "learning_rate": 0.000277362536900044,
      "loss": 4.0821,
      "step": 86680
    },
    {
      "epoch": 0.18060416666666668,
      "grad_norm": 0.7639804482460022,
      "learning_rate": 0.00027735732875953245,
      "loss": 3.9508,
      "step": 86690
    },
    {
      "epoch": 0.180625,
      "grad_norm": 0.8254949450492859,
      "learning_rate": 0.00027735212006888764,
      "loss": 4.2129,
      "step": 86700
    },
    {
      "epoch": 0.18064583333333334,
      "grad_norm": 0.8763409852981567,
      "learning_rate": 0.0002773469108281321,
      "loss": 4.0722,
      "step": 86710
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 0.7930814027786255,
      "learning_rate": 0.00027734170103728835,
      "loss": 3.9902,
      "step": 86720
    },
    {
      "epoch": 0.1806875,
      "grad_norm": 0.8438319563865662,
      "learning_rate": 0.0002773364906963788,
      "loss": 4.1322,
      "step": 86730
    },
    {
      "epoch": 0.18070833333333333,
      "grad_norm": 0.796586275100708,
      "learning_rate": 0.000277331279805426,
      "loss": 3.9229,
      "step": 86740
    },
    {
      "epoch": 0.18072916666666666,
      "grad_norm": 0.788781464099884,
      "learning_rate": 0.0002773260683644526,
      "loss": 4.0881,
      "step": 86750
    },
    {
      "epoch": 0.18075,
      "grad_norm": 0.7997498512268066,
      "learning_rate": 0.00027732085637348087,
      "loss": 4.0116,
      "step": 86760
    },
    {
      "epoch": 0.18077083333333333,
      "grad_norm": 0.8530145883560181,
      "learning_rate": 0.00027731564383253344,
      "loss": 3.903,
      "step": 86770
    },
    {
      "epoch": 0.18079166666666666,
      "grad_norm": 0.828169047832489,
      "learning_rate": 0.00027731043074163286,
      "loss": 4.0759,
      "step": 86780
    },
    {
      "epoch": 0.1808125,
      "grad_norm": 0.8027153015136719,
      "learning_rate": 0.0002773052171008016,
      "loss": 4.2481,
      "step": 86790
    },
    {
      "epoch": 0.18083333333333335,
      "grad_norm": 0.8594033122062683,
      "learning_rate": 0.0002773000029100622,
      "loss": 4.066,
      "step": 86800
    },
    {
      "epoch": 0.18085416666666668,
      "grad_norm": 0.8032947182655334,
      "learning_rate": 0.0002772947881694372,
      "loss": 4.0184,
      "step": 86810
    },
    {
      "epoch": 0.180875,
      "grad_norm": 0.887902021408081,
      "learning_rate": 0.00027728957287894904,
      "loss": 4.2127,
      "step": 86820
    },
    {
      "epoch": 0.18089583333333334,
      "grad_norm": 0.8616406917572021,
      "learning_rate": 0.0002772843570386204,
      "loss": 3.9813,
      "step": 86830
    },
    {
      "epoch": 0.18091666666666667,
      "grad_norm": 0.7753582000732422,
      "learning_rate": 0.0002772791406484736,
      "loss": 3.9793,
      "step": 86840
    },
    {
      "epoch": 0.1809375,
      "grad_norm": 0.8029698729515076,
      "learning_rate": 0.00027727392370853135,
      "loss": 4.0795,
      "step": 86850
    },
    {
      "epoch": 0.18095833333333333,
      "grad_norm": 0.7964575886726379,
      "learning_rate": 0.0002772687062188162,
      "loss": 4.0702,
      "step": 86860
    },
    {
      "epoch": 0.18097916666666666,
      "grad_norm": 0.7974332571029663,
      "learning_rate": 0.0002772634881793505,
      "loss": 4.1086,
      "step": 86870
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.8643117547035217,
      "learning_rate": 0.00027725826959015695,
      "loss": 4.5486,
      "step": 86880
    },
    {
      "epoch": 0.18102083333333333,
      "grad_norm": 0.8549030423164368,
      "learning_rate": 0.00027725305045125806,
      "loss": 4.0474,
      "step": 86890
    },
    {
      "epoch": 0.18104166666666666,
      "grad_norm": 0.8729086518287659,
      "learning_rate": 0.00027724783076267637,
      "loss": 4.1472,
      "step": 86900
    },
    {
      "epoch": 0.1810625,
      "grad_norm": 0.8337657451629639,
      "learning_rate": 0.00027724261052443437,
      "loss": 4.1893,
      "step": 86910
    },
    {
      "epoch": 0.18108333333333335,
      "grad_norm": 0.8330178260803223,
      "learning_rate": 0.0002772373897365547,
      "loss": 4.1193,
      "step": 86920
    },
    {
      "epoch": 0.18110416666666668,
      "grad_norm": 0.8053310513496399,
      "learning_rate": 0.00027723216839905987,
      "loss": 3.9726,
      "step": 86930
    },
    {
      "epoch": 0.181125,
      "grad_norm": 0.7886685132980347,
      "learning_rate": 0.0002772269465119724,
      "loss": 4.3011,
      "step": 86940
    },
    {
      "epoch": 0.18114583333333334,
      "grad_norm": 0.7833478450775146,
      "learning_rate": 0.0002772217240753149,
      "loss": 3.9765,
      "step": 86950
    },
    {
      "epoch": 0.18116666666666667,
      "grad_norm": 0.7916086316108704,
      "learning_rate": 0.00027721650108911,
      "loss": 3.9756,
      "step": 86960
    },
    {
      "epoch": 0.1811875,
      "grad_norm": 0.7553592324256897,
      "learning_rate": 0.00027721127755338005,
      "loss": 4.1372,
      "step": 86970
    },
    {
      "epoch": 0.18120833333333333,
      "grad_norm": 0.8152154684066772,
      "learning_rate": 0.00027720605346814777,
      "loss": 4.0749,
      "step": 86980
    },
    {
      "epoch": 0.18122916666666666,
      "grad_norm": 0.8474438190460205,
      "learning_rate": 0.0002772008288334357,
      "loss": 4.1947,
      "step": 86990
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.864436149597168,
      "learning_rate": 0.0002771956036492664,
      "loss": 4.0258,
      "step": 87000
    },
    {
      "epoch": 0.18125,
      "eval_loss": 3.808974504470825,
      "eval_runtime": 7.3574,
      "eval_samples_per_second": 1.359,
      "eval_steps_per_second": 0.408,
      "step": 87000
    },
    {
      "epoch": 0.18127083333333333,
      "grad_norm": 0.8441409468650818,
      "learning_rate": 0.00027719037791566244,
      "loss": 3.992,
      "step": 87010
    },
    {
      "epoch": 0.18129166666666666,
      "grad_norm": 0.8353598117828369,
      "learning_rate": 0.0002771851516326464,
      "loss": 4.0601,
      "step": 87020
    },
    {
      "epoch": 0.1813125,
      "grad_norm": 0.7860276103019714,
      "learning_rate": 0.0002771799248002408,
      "loss": 4.1675,
      "step": 87030
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.9242676496505737,
      "learning_rate": 0.0002771746974184683,
      "loss": 4.1513,
      "step": 87040
    },
    {
      "epoch": 0.18135416666666668,
      "grad_norm": 0.8078800439834595,
      "learning_rate": 0.00027716946948735146,
      "loss": 4.0238,
      "step": 87050
    },
    {
      "epoch": 0.181375,
      "grad_norm": 0.8386186957359314,
      "learning_rate": 0.0002771642410069128,
      "loss": 4.0586,
      "step": 87060
    },
    {
      "epoch": 0.18139583333333334,
      "grad_norm": 0.8091164231300354,
      "learning_rate": 0.000277159011977175,
      "loss": 4.1964,
      "step": 87070
    },
    {
      "epoch": 0.18141666666666667,
      "grad_norm": 0.8016064763069153,
      "learning_rate": 0.0002771537823981606,
      "loss": 3.9515,
      "step": 87080
    },
    {
      "epoch": 0.1814375,
      "grad_norm": 0.8501008152961731,
      "learning_rate": 0.0002771485522698922,
      "loss": 4.4126,
      "step": 87090
    },
    {
      "epoch": 0.18145833333333333,
      "grad_norm": 0.7774987816810608,
      "learning_rate": 0.00027714332159239235,
      "loss": 4.2258,
      "step": 87100
    },
    {
      "epoch": 0.18147916666666666,
      "grad_norm": 0.8243693113327026,
      "learning_rate": 0.0002771380903656837,
      "loss": 3.8997,
      "step": 87110
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.7566091418266296,
      "learning_rate": 0.00027713285858978887,
      "loss": 4.1761,
      "step": 87120
    },
    {
      "epoch": 0.18152083333333333,
      "grad_norm": 0.8128771185874939,
      "learning_rate": 0.0002771276262647303,
      "loss": 3.9616,
      "step": 87130
    },
    {
      "epoch": 0.18154166666666666,
      "grad_norm": 0.8647217154502869,
      "learning_rate": 0.0002771223933905308,
      "loss": 4.1028,
      "step": 87140
    },
    {
      "epoch": 0.1815625,
      "grad_norm": 0.8922029137611389,
      "learning_rate": 0.0002771171599672128,
      "loss": 4.0437,
      "step": 87150
    },
    {
      "epoch": 0.18158333333333335,
      "grad_norm": 0.8318116068840027,
      "learning_rate": 0.00027711192599479904,
      "loss": 4.3023,
      "step": 87160
    },
    {
      "epoch": 0.18160416666666668,
      "grad_norm": 0.7786312103271484,
      "learning_rate": 0.0002771066914733121,
      "loss": 4.1705,
      "step": 87170
    },
    {
      "epoch": 0.181625,
      "grad_norm": 0.8491919040679932,
      "learning_rate": 0.0002771014564027745,
      "loss": 4.1781,
      "step": 87180
    },
    {
      "epoch": 0.18164583333333334,
      "grad_norm": 0.782566249370575,
      "learning_rate": 0.00027709622078320894,
      "loss": 4.0188,
      "step": 87190
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 0.8300671577453613,
      "learning_rate": 0.00027709098461463805,
      "loss": 4.0645,
      "step": 87200
    },
    {
      "epoch": 0.1816875,
      "grad_norm": 0.8476412892341614,
      "learning_rate": 0.00027708574789708437,
      "loss": 4.0507,
      "step": 87210
    },
    {
      "epoch": 0.18170833333333333,
      "grad_norm": 0.8607644438743591,
      "learning_rate": 0.0002770805106305706,
      "loss": 3.9883,
      "step": 87220
    },
    {
      "epoch": 0.18172916666666666,
      "grad_norm": 0.9091302752494812,
      "learning_rate": 0.0002770752728151193,
      "loss": 4.1438,
      "step": 87230
    },
    {
      "epoch": 0.18175,
      "grad_norm": 0.8206290006637573,
      "learning_rate": 0.0002770700344507531,
      "loss": 4.2497,
      "step": 87240
    },
    {
      "epoch": 0.18177083333333333,
      "grad_norm": 0.7593749761581421,
      "learning_rate": 0.0002770647955374947,
      "loss": 3.9704,
      "step": 87250
    },
    {
      "epoch": 0.18179166666666666,
      "grad_norm": 0.8831539750099182,
      "learning_rate": 0.00027705955607536665,
      "loss": 4.1897,
      "step": 87260
    },
    {
      "epoch": 0.1818125,
      "grad_norm": 0.8231103420257568,
      "learning_rate": 0.0002770543160643916,
      "loss": 4.0601,
      "step": 87270
    },
    {
      "epoch": 0.18183333333333335,
      "grad_norm": 0.7969399690628052,
      "learning_rate": 0.0002770490755045922,
      "loss": 4.0875,
      "step": 87280
    },
    {
      "epoch": 0.18185416666666668,
      "grad_norm": 0.8657358884811401,
      "learning_rate": 0.0002770438343959911,
      "loss": 4.0643,
      "step": 87290
    },
    {
      "epoch": 0.181875,
      "grad_norm": 0.9468663930892944,
      "learning_rate": 0.000277038592738611,
      "loss": 4.0845,
      "step": 87300
    },
    {
      "epoch": 0.18189583333333334,
      "grad_norm": 0.9009061455726624,
      "learning_rate": 0.0002770333505324743,
      "loss": 4.0346,
      "step": 87310
    },
    {
      "epoch": 0.18191666666666667,
      "grad_norm": 0.8273589611053467,
      "learning_rate": 0.0002770281077776039,
      "loss": 4.1951,
      "step": 87320
    },
    {
      "epoch": 0.1819375,
      "grad_norm": 0.8799649477005005,
      "learning_rate": 0.00027702286447402235,
      "loss": 3.9182,
      "step": 87330
    },
    {
      "epoch": 0.18195833333333333,
      "grad_norm": 0.8188722729682922,
      "learning_rate": 0.0002770176206217523,
      "loss": 4.3447,
      "step": 87340
    },
    {
      "epoch": 0.18197916666666666,
      "grad_norm": 0.81101393699646,
      "learning_rate": 0.0002770123762208164,
      "loss": 4.066,
      "step": 87350
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.7320986986160278,
      "learning_rate": 0.00027700713127123733,
      "loss": 4.1896,
      "step": 87360
    },
    {
      "epoch": 0.18202083333333333,
      "grad_norm": 0.8767753839492798,
      "learning_rate": 0.0002770018857730377,
      "loss": 3.8984,
      "step": 87370
    },
    {
      "epoch": 0.18204166666666666,
      "grad_norm": 1.017195463180542,
      "learning_rate": 0.0002769966397262402,
      "loss": 4.1218,
      "step": 87380
    },
    {
      "epoch": 0.1820625,
      "grad_norm": 0.9893543720245361,
      "learning_rate": 0.0002769913931308675,
      "loss": 3.9939,
      "step": 87390
    },
    {
      "epoch": 0.18208333333333335,
      "grad_norm": 0.8315539360046387,
      "learning_rate": 0.00027698614598694227,
      "loss": 4.2736,
      "step": 87400
    },
    {
      "epoch": 0.18210416666666668,
      "grad_norm": 0.8961572647094727,
      "learning_rate": 0.0002769808982944871,
      "loss": 4.1562,
      "step": 87410
    },
    {
      "epoch": 0.182125,
      "grad_norm": 0.8627001047134399,
      "learning_rate": 0.00027697565005352473,
      "loss": 3.9976,
      "step": 87420
    },
    {
      "epoch": 0.18214583333333334,
      "grad_norm": 0.8136622905731201,
      "learning_rate": 0.0002769704012640778,
      "loss": 4.221,
      "step": 87430
    },
    {
      "epoch": 0.18216666666666667,
      "grad_norm": 0.9172629117965698,
      "learning_rate": 0.0002769651519261691,
      "loss": 4.0586,
      "step": 87440
    },
    {
      "epoch": 0.1821875,
      "grad_norm": 0.7942827343940735,
      "learning_rate": 0.00027695990203982105,
      "loss": 3.9911,
      "step": 87450
    },
    {
      "epoch": 0.18220833333333333,
      "grad_norm": 0.8457223176956177,
      "learning_rate": 0.0002769546516050566,
      "loss": 3.95,
      "step": 87460
    },
    {
      "epoch": 0.18222916666666666,
      "grad_norm": 0.8670474290847778,
      "learning_rate": 0.0002769494006218982,
      "loss": 4.0909,
      "step": 87470
    },
    {
      "epoch": 0.18225,
      "grad_norm": 0.8783856630325317,
      "learning_rate": 0.0002769441490903687,
      "loss": 4.0867,
      "step": 87480
    },
    {
      "epoch": 0.18227083333333333,
      "grad_norm": 0.7550659775733948,
      "learning_rate": 0.00027693889701049074,
      "loss": 4.0954,
      "step": 87490
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 0.820908784866333,
      "learning_rate": 0.00027693364438228694,
      "loss": 3.9562,
      "step": 87500
    },
    {
      "epoch": 0.1823125,
      "grad_norm": 0.8644694685935974,
      "learning_rate": 0.00027692839120578,
      "loss": 4.0789,
      "step": 87510
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 0.8347219824790955,
      "learning_rate": 0.0002769231374809928,
      "loss": 4.197,
      "step": 87520
    },
    {
      "epoch": 0.18235416666666668,
      "grad_norm": 0.7726537585258484,
      "learning_rate": 0.00027691788320794775,
      "loss": 4.3192,
      "step": 87530
    },
    {
      "epoch": 0.182375,
      "grad_norm": 0.8764117956161499,
      "learning_rate": 0.0002769126283866677,
      "loss": 4.0946,
      "step": 87540
    },
    {
      "epoch": 0.18239583333333334,
      "grad_norm": 0.7762855887413025,
      "learning_rate": 0.0002769073730171754,
      "loss": 4.2119,
      "step": 87550
    },
    {
      "epoch": 0.18241666666666667,
      "grad_norm": 0.7960208058357239,
      "learning_rate": 0.00027690211709949344,
      "loss": 3.9558,
      "step": 87560
    },
    {
      "epoch": 0.1824375,
      "grad_norm": 0.8002504706382751,
      "learning_rate": 0.0002768968606336446,
      "loss": 4.24,
      "step": 87570
    },
    {
      "epoch": 0.18245833333333333,
      "grad_norm": 0.8252477049827576,
      "learning_rate": 0.0002768916036196515,
      "loss": 4.1674,
      "step": 87580
    },
    {
      "epoch": 0.18247916666666666,
      "grad_norm": 0.855682373046875,
      "learning_rate": 0.0002768863460575369,
      "loss": 4.0582,
      "step": 87590
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.8153548836708069,
      "learning_rate": 0.00027688108794732356,
      "loss": 4.2507,
      "step": 87600
    },
    {
      "epoch": 0.18252083333333333,
      "grad_norm": 0.7679471969604492,
      "learning_rate": 0.00027687582928903414,
      "loss": 4.1652,
      "step": 87610
    },
    {
      "epoch": 0.18254166666666666,
      "grad_norm": 0.8141186833381653,
      "learning_rate": 0.0002768705700826913,
      "loss": 4.0825,
      "step": 87620
    },
    {
      "epoch": 0.1825625,
      "grad_norm": 0.8402774333953857,
      "learning_rate": 0.0002768653103283179,
      "loss": 4.0693,
      "step": 87630
    },
    {
      "epoch": 0.18258333333333332,
      "grad_norm": 0.8206295371055603,
      "learning_rate": 0.00027686005002593644,
      "loss": 4.1412,
      "step": 87640
    },
    {
      "epoch": 0.18260416666666668,
      "grad_norm": 0.804027259349823,
      "learning_rate": 0.00027685478917556993,
      "loss": 4.0263,
      "step": 87650
    },
    {
      "epoch": 0.182625,
      "grad_norm": 0.9222381711006165,
      "learning_rate": 0.0002768495277772408,
      "loss": 4.2094,
      "step": 87660
    },
    {
      "epoch": 0.18264583333333334,
      "grad_norm": 0.8867770433425903,
      "learning_rate": 0.00027684426583097203,
      "loss": 4.057,
      "step": 87670
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.7576301693916321,
      "learning_rate": 0.0002768390033367862,
      "loss": 4.1479,
      "step": 87680
    },
    {
      "epoch": 0.1826875,
      "grad_norm": 0.7985619902610779,
      "learning_rate": 0.0002768337402947061,
      "loss": 4.2412,
      "step": 87690
    },
    {
      "epoch": 0.18270833333333333,
      "grad_norm": 0.8715347051620483,
      "learning_rate": 0.00027682847670475446,
      "loss": 4.0415,
      "step": 87700
    },
    {
      "epoch": 0.18272916666666666,
      "grad_norm": 0.8336790204048157,
      "learning_rate": 0.000276823212566954,
      "loss": 4.1567,
      "step": 87710
    },
    {
      "epoch": 0.18275,
      "grad_norm": 0.7652308940887451,
      "learning_rate": 0.0002768179478813274,
      "loss": 4.1739,
      "step": 87720
    },
    {
      "epoch": 0.18277083333333333,
      "grad_norm": 0.8065325617790222,
      "learning_rate": 0.0002768126826478975,
      "loss": 4.0398,
      "step": 87730
    },
    {
      "epoch": 0.18279166666666666,
      "grad_norm": 0.8202908635139465,
      "learning_rate": 0.000276807416866687,
      "loss": 4.1101,
      "step": 87740
    },
    {
      "epoch": 0.1828125,
      "grad_norm": 0.889907956123352,
      "learning_rate": 0.0002768021505377187,
      "loss": 4.3328,
      "step": 87750
    },
    {
      "epoch": 0.18283333333333332,
      "grad_norm": 0.8179619908332825,
      "learning_rate": 0.0002767968836610153,
      "loss": 3.9091,
      "step": 87760
    },
    {
      "epoch": 0.18285416666666668,
      "grad_norm": 0.8100130558013916,
      "learning_rate": 0.0002767916162365995,
      "loss": 4.0154,
      "step": 87770
    },
    {
      "epoch": 0.182875,
      "grad_norm": 0.8712588548660278,
      "learning_rate": 0.00027678634826449407,
      "loss": 3.9296,
      "step": 87780
    },
    {
      "epoch": 0.18289583333333334,
      "grad_norm": 0.7730982899665833,
      "learning_rate": 0.0002767810797447219,
      "loss": 4.1379,
      "step": 87790
    },
    {
      "epoch": 0.18291666666666667,
      "grad_norm": 0.9541148543357849,
      "learning_rate": 0.0002767758106773056,
      "loss": 4.0367,
      "step": 87800
    },
    {
      "epoch": 0.1829375,
      "grad_norm": 1.0033594369888306,
      "learning_rate": 0.000276770541062268,
      "loss": 4.1569,
      "step": 87810
    },
    {
      "epoch": 0.18295833333333333,
      "grad_norm": 0.8296036124229431,
      "learning_rate": 0.00027676527089963177,
      "loss": 4.1657,
      "step": 87820
    },
    {
      "epoch": 0.18297916666666666,
      "grad_norm": 0.857960045337677,
      "learning_rate": 0.0002767600001894198,
      "loss": 4.0515,
      "step": 87830
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.7889879941940308,
      "learning_rate": 0.0002767547289316548,
      "loss": 3.9408,
      "step": 87840
    },
    {
      "epoch": 0.18302083333333333,
      "grad_norm": 0.8732208013534546,
      "learning_rate": 0.00027674945712635957,
      "loss": 4.0903,
      "step": 87850
    },
    {
      "epoch": 0.18304166666666666,
      "grad_norm": 0.9317570328712463,
      "learning_rate": 0.0002767441847735568,
      "loss": 4.178,
      "step": 87860
    },
    {
      "epoch": 0.1830625,
      "grad_norm": 1.1771050691604614,
      "learning_rate": 0.00027673891187326944,
      "loss": 4.0766,
      "step": 87870
    },
    {
      "epoch": 0.18308333333333332,
      "grad_norm": 0.9016015529632568,
      "learning_rate": 0.00027673363842552,
      "loss": 4.2279,
      "step": 87880
    },
    {
      "epoch": 0.18310416666666668,
      "grad_norm": 0.8098405003547668,
      "learning_rate": 0.0002767283644303315,
      "loss": 4.1128,
      "step": 87890
    },
    {
      "epoch": 0.183125,
      "grad_norm": 0.816074550151825,
      "learning_rate": 0.0002767230898877266,
      "loss": 3.9691,
      "step": 87900
    },
    {
      "epoch": 0.18314583333333334,
      "grad_norm": 0.8176007866859436,
      "learning_rate": 0.0002767178147977281,
      "loss": 3.9638,
      "step": 87910
    },
    {
      "epoch": 0.18316666666666667,
      "grad_norm": 0.9019564390182495,
      "learning_rate": 0.0002767125391603588,
      "loss": 4.0381,
      "step": 87920
    },
    {
      "epoch": 0.1831875,
      "grad_norm": 0.9640647768974304,
      "learning_rate": 0.00027670726297564154,
      "loss": 4.1142,
      "step": 87930
    },
    {
      "epoch": 0.18320833333333333,
      "grad_norm": 0.8030238747596741,
      "learning_rate": 0.00027670198624359896,
      "loss": 4.0472,
      "step": 87940
    },
    {
      "epoch": 0.18322916666666667,
      "grad_norm": 0.9197390675544739,
      "learning_rate": 0.000276696708964254,
      "loss": 4.0386,
      "step": 87950
    },
    {
      "epoch": 0.18325,
      "grad_norm": 0.7902013659477234,
      "learning_rate": 0.0002766914311376294,
      "loss": 4.1903,
      "step": 87960
    },
    {
      "epoch": 0.18327083333333333,
      "grad_norm": 1.035928726196289,
      "learning_rate": 0.00027668615276374805,
      "loss": 4.1681,
      "step": 87970
    },
    {
      "epoch": 0.18329166666666666,
      "grad_norm": 0.8462785482406616,
      "learning_rate": 0.00027668087384263255,
      "loss": 3.9376,
      "step": 87980
    },
    {
      "epoch": 0.1833125,
      "grad_norm": 0.8006757497787476,
      "learning_rate": 0.0002766755943743059,
      "loss": 4.2177,
      "step": 87990
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8496724963188171,
      "learning_rate": 0.00027667031435879075,
      "loss": 3.774,
      "step": 88000
    },
    {
      "epoch": 0.18333333333333332,
      "eval_loss": 3.832764148712158,
      "eval_runtime": 7.239,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 88000
    },
    {
      "epoch": 0.18335416666666668,
      "grad_norm": 0.9305897951126099,
      "learning_rate": 0.00027666503379611,
      "loss": 3.975,
      "step": 88010
    },
    {
      "epoch": 0.183375,
      "grad_norm": 0.8971455097198486,
      "learning_rate": 0.0002766597526862865,
      "loss": 4.1314,
      "step": 88020
    },
    {
      "epoch": 0.18339583333333334,
      "grad_norm": 0.7640806436538696,
      "learning_rate": 0.00027665447102934296,
      "loss": 4.0486,
      "step": 88030
    },
    {
      "epoch": 0.18341666666666667,
      "grad_norm": 0.796771764755249,
      "learning_rate": 0.00027664918882530225,
      "loss": 4.0849,
      "step": 88040
    },
    {
      "epoch": 0.1834375,
      "grad_norm": 0.7770707011222839,
      "learning_rate": 0.00027664390607418717,
      "loss": 4.0382,
      "step": 88050
    },
    {
      "epoch": 0.18345833333333333,
      "grad_norm": 0.8181381225585938,
      "learning_rate": 0.00027663862277602054,
      "loss": 4.0197,
      "step": 88060
    },
    {
      "epoch": 0.18347916666666667,
      "grad_norm": 0.8234066963195801,
      "learning_rate": 0.00027663333893082517,
      "loss": 4.0716,
      "step": 88070
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.7869617342948914,
      "learning_rate": 0.00027662805453862395,
      "loss": 4.1117,
      "step": 88080
    },
    {
      "epoch": 0.18352083333333333,
      "grad_norm": 0.9418817758560181,
      "learning_rate": 0.0002766227695994396,
      "loss": 4.1082,
      "step": 88090
    },
    {
      "epoch": 0.18354166666666666,
      "grad_norm": 0.8526221513748169,
      "learning_rate": 0.0002766174841132951,
      "loss": 3.958,
      "step": 88100
    },
    {
      "epoch": 0.1835625,
      "grad_norm": 0.79372638463974,
      "learning_rate": 0.00027661219808021307,
      "loss": 4.017,
      "step": 88110
    },
    {
      "epoch": 0.18358333333333332,
      "grad_norm": 0.796201765537262,
      "learning_rate": 0.0002766069115002165,
      "loss": 4.0248,
      "step": 88120
    },
    {
      "epoch": 0.18360416666666668,
      "grad_norm": 0.8064499497413635,
      "learning_rate": 0.0002766016243733282,
      "loss": 3.9395,
      "step": 88130
    },
    {
      "epoch": 0.183625,
      "grad_norm": 0.7705087065696716,
      "learning_rate": 0.000276596336699571,
      "loss": 3.7794,
      "step": 88140
    },
    {
      "epoch": 0.18364583333333334,
      "grad_norm": 0.7895538210868835,
      "learning_rate": 0.0002765910484789677,
      "loss": 4.2579,
      "step": 88150
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 1.0705628395080566,
      "learning_rate": 0.0002765857597115412,
      "loss": 4.0227,
      "step": 88160
    },
    {
      "epoch": 0.1836875,
      "grad_norm": 0.9169555306434631,
      "learning_rate": 0.0002765804703973144,
      "loss": 4.2027,
      "step": 88170
    },
    {
      "epoch": 0.18370833333333333,
      "grad_norm": 0.9419002532958984,
      "learning_rate": 0.00027657518053630996,
      "loss": 4.0336,
      "step": 88180
    },
    {
      "epoch": 0.18372916666666667,
      "grad_norm": 0.845591127872467,
      "learning_rate": 0.0002765698901285509,
      "loss": 4.1194,
      "step": 88190
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.810487687587738,
      "learning_rate": 0.00027656459917406,
      "loss": 3.9892,
      "step": 88200
    },
    {
      "epoch": 0.18377083333333333,
      "grad_norm": 0.8675146102905273,
      "learning_rate": 0.0002765593076728601,
      "loss": 3.9658,
      "step": 88210
    },
    {
      "epoch": 0.18379166666666666,
      "grad_norm": 0.783664345741272,
      "learning_rate": 0.00027655401562497417,
      "loss": 3.8093,
      "step": 88220
    },
    {
      "epoch": 0.1838125,
      "grad_norm": 0.9576640725135803,
      "learning_rate": 0.0002765487230304249,
      "loss": 4.1037,
      "step": 88230
    },
    {
      "epoch": 0.18383333333333332,
      "grad_norm": 0.8122285008430481,
      "learning_rate": 0.00027654342988923524,
      "loss": 4.1396,
      "step": 88240
    },
    {
      "epoch": 0.18385416666666668,
      "grad_norm": 0.8229724168777466,
      "learning_rate": 0.0002765381362014282,
      "loss": 4.1118,
      "step": 88250
    },
    {
      "epoch": 0.183875,
      "grad_norm": 0.8197808861732483,
      "learning_rate": 0.00027653284196702633,
      "loss": 3.9779,
      "step": 88260
    },
    {
      "epoch": 0.18389583333333334,
      "grad_norm": 0.7960340976715088,
      "learning_rate": 0.0002765275471860527,
      "loss": 4.0509,
      "step": 88270
    },
    {
      "epoch": 0.18391666666666667,
      "grad_norm": 0.8049660921096802,
      "learning_rate": 0.0002765222518585302,
      "loss": 4.1678,
      "step": 88280
    },
    {
      "epoch": 0.1839375,
      "grad_norm": 0.843978226184845,
      "learning_rate": 0.0002765169559844816,
      "loss": 4.1565,
      "step": 88290
    },
    {
      "epoch": 0.18395833333333333,
      "grad_norm": 0.8491439819335938,
      "learning_rate": 0.00027651165956392985,
      "loss": 3.9542,
      "step": 88300
    },
    {
      "epoch": 0.18397916666666667,
      "grad_norm": 0.8954768180847168,
      "learning_rate": 0.0002765063625968978,
      "loss": 4.2191,
      "step": 88310
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.8522188067436218,
      "learning_rate": 0.00027650106508340835,
      "loss": 3.9997,
      "step": 88320
    },
    {
      "epoch": 0.18402083333333333,
      "grad_norm": 0.7810806632041931,
      "learning_rate": 0.00027649576702348436,
      "loss": 4.18,
      "step": 88330
    },
    {
      "epoch": 0.18404166666666666,
      "grad_norm": 0.8601768016815186,
      "learning_rate": 0.0002764904684171487,
      "loss": 4.1026,
      "step": 88340
    },
    {
      "epoch": 0.1840625,
      "grad_norm": 0.8049017786979675,
      "learning_rate": 0.00027648516926442434,
      "loss": 4.1379,
      "step": 88350
    },
    {
      "epoch": 0.18408333333333332,
      "grad_norm": 0.8613789081573486,
      "learning_rate": 0.0002764798695653341,
      "loss": 4.1522,
      "step": 88360
    },
    {
      "epoch": 0.18410416666666668,
      "grad_norm": 0.768467366695404,
      "learning_rate": 0.00027647456931990087,
      "loss": 4.1521,
      "step": 88370
    },
    {
      "epoch": 0.184125,
      "grad_norm": 0.7929286360740662,
      "learning_rate": 0.00027646926852814763,
      "loss": 4.1101,
      "step": 88380
    },
    {
      "epoch": 0.18414583333333334,
      "grad_norm": 0.8251753449440002,
      "learning_rate": 0.0002764639671900971,
      "loss": 4.1816,
      "step": 88390
    },
    {
      "epoch": 0.18416666666666667,
      "grad_norm": 0.7871396541595459,
      "learning_rate": 0.0002764586653057724,
      "loss": 4.122,
      "step": 88400
    },
    {
      "epoch": 0.1841875,
      "grad_norm": 0.7874408960342407,
      "learning_rate": 0.0002764533628751962,
      "loss": 3.9671,
      "step": 88410
    },
    {
      "epoch": 0.18420833333333334,
      "grad_norm": 0.9032360911369324,
      "learning_rate": 0.00027644805989839163,
      "loss": 4.0869,
      "step": 88420
    },
    {
      "epoch": 0.18422916666666667,
      "grad_norm": 0.8316594362258911,
      "learning_rate": 0.00027644275637538144,
      "loss": 4.1655,
      "step": 88430
    },
    {
      "epoch": 0.18425,
      "grad_norm": 0.8099331855773926,
      "learning_rate": 0.00027643745230618863,
      "loss": 4.1201,
      "step": 88440
    },
    {
      "epoch": 0.18427083333333333,
      "grad_norm": 0.9691179990768433,
      "learning_rate": 0.00027643214769083603,
      "loss": 3.9718,
      "step": 88450
    },
    {
      "epoch": 0.18429166666666666,
      "grad_norm": 0.9088476896286011,
      "learning_rate": 0.00027642684252934666,
      "loss": 4.0699,
      "step": 88460
    },
    {
      "epoch": 0.1843125,
      "grad_norm": 0.8619170784950256,
      "learning_rate": 0.0002764215368217433,
      "loss": 3.9588,
      "step": 88470
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 0.7884005308151245,
      "learning_rate": 0.000276416230568049,
      "loss": 4.1898,
      "step": 88480
    },
    {
      "epoch": 0.18435416666666668,
      "grad_norm": 0.8374896049499512,
      "learning_rate": 0.0002764109237682866,
      "loss": 3.9707,
      "step": 88490
    },
    {
      "epoch": 0.184375,
      "grad_norm": 0.8605738282203674,
      "learning_rate": 0.000276405616422479,
      "loss": 4.1426,
      "step": 88500
    },
    {
      "epoch": 0.18439583333333334,
      "grad_norm": 0.7720164060592651,
      "learning_rate": 0.0002764003085306492,
      "loss": 3.9897,
      "step": 88510
    },
    {
      "epoch": 0.18441666666666667,
      "grad_norm": 0.9522304534912109,
      "learning_rate": 0.00027639500009282015,
      "loss": 4.1923,
      "step": 88520
    },
    {
      "epoch": 0.1844375,
      "grad_norm": 0.8436646461486816,
      "learning_rate": 0.00027638969110901473,
      "loss": 4.1484,
      "step": 88530
    },
    {
      "epoch": 0.18445833333333334,
      "grad_norm": 0.7963953018188477,
      "learning_rate": 0.0002763843815792558,
      "loss": 4.1183,
      "step": 88540
    },
    {
      "epoch": 0.18447916666666667,
      "grad_norm": 0.7910854816436768,
      "learning_rate": 0.0002763790715035664,
      "loss": 4.2766,
      "step": 88550
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.7830594182014465,
      "learning_rate": 0.0002763737608819694,
      "loss": 4.1082,
      "step": 88560
    },
    {
      "epoch": 0.18452083333333333,
      "grad_norm": 1.0854839086532593,
      "learning_rate": 0.0002763684497144879,
      "loss": 3.9373,
      "step": 88570
    },
    {
      "epoch": 0.18454166666666666,
      "grad_norm": 0.7875340580940247,
      "learning_rate": 0.0002763631380011446,
      "loss": 4.0149,
      "step": 88580
    },
    {
      "epoch": 0.1845625,
      "grad_norm": 0.8921732902526855,
      "learning_rate": 0.0002763578257419626,
      "loss": 4.0788,
      "step": 88590
    },
    {
      "epoch": 0.18458333333333332,
      "grad_norm": 0.7814614772796631,
      "learning_rate": 0.0002763525129369648,
      "loss": 4.1221,
      "step": 88600
    },
    {
      "epoch": 0.18460416666666668,
      "grad_norm": 0.8356079459190369,
      "learning_rate": 0.00027634719958617417,
      "loss": 4.1339,
      "step": 88610
    },
    {
      "epoch": 0.184625,
      "grad_norm": 0.7986663579940796,
      "learning_rate": 0.00027634188568961365,
      "loss": 4.1751,
      "step": 88620
    },
    {
      "epoch": 0.18464583333333334,
      "grad_norm": 0.8027877807617188,
      "learning_rate": 0.0002763365712473062,
      "loss": 4.1501,
      "step": 88630
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 1.1947517395019531,
      "learning_rate": 0.0002763312562592747,
      "loss": 4.019,
      "step": 88640
    },
    {
      "epoch": 0.1846875,
      "grad_norm": 0.7748700380325317,
      "learning_rate": 0.0002763259407255423,
      "loss": 3.9702,
      "step": 88650
    },
    {
      "epoch": 0.18470833333333334,
      "grad_norm": 0.8974385261535645,
      "learning_rate": 0.00027632062464613173,
      "loss": 4.1208,
      "step": 88660
    },
    {
      "epoch": 0.18472916666666667,
      "grad_norm": 0.79916912317276,
      "learning_rate": 0.00027631530802106613,
      "loss": 4.1087,
      "step": 88670
    },
    {
      "epoch": 0.18475,
      "grad_norm": 0.7653498649597168,
      "learning_rate": 0.00027630999085036836,
      "loss": 4.1509,
      "step": 88680
    },
    {
      "epoch": 0.18477083333333333,
      "grad_norm": 0.7608935832977295,
      "learning_rate": 0.00027630467313406146,
      "loss": 4.0019,
      "step": 88690
    },
    {
      "epoch": 0.18479166666666666,
      "grad_norm": 0.9442552924156189,
      "learning_rate": 0.00027629935487216836,
      "loss": 3.841,
      "step": 88700
    },
    {
      "epoch": 0.1848125,
      "grad_norm": 0.8363921046257019,
      "learning_rate": 0.000276294036064712,
      "loss": 4.0835,
      "step": 88710
    },
    {
      "epoch": 0.18483333333333332,
      "grad_norm": 0.8616824150085449,
      "learning_rate": 0.00027628871671171544,
      "loss": 4.1884,
      "step": 88720
    },
    {
      "epoch": 0.18485416666666668,
      "grad_norm": 0.821174681186676,
      "learning_rate": 0.0002762833968132016,
      "loss": 4.2323,
      "step": 88730
    },
    {
      "epoch": 0.184875,
      "grad_norm": 0.8395837545394897,
      "learning_rate": 0.00027627807636919344,
      "loss": 3.9221,
      "step": 88740
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 0.805022120475769,
      "learning_rate": 0.000276272755379714,
      "loss": 4.1011,
      "step": 88750
    },
    {
      "epoch": 0.18491666666666667,
      "grad_norm": 0.804232120513916,
      "learning_rate": 0.00027626743384478623,
      "loss": 4.1704,
      "step": 88760
    },
    {
      "epoch": 0.1849375,
      "grad_norm": 0.7801509499549866,
      "learning_rate": 0.00027626211176443315,
      "loss": 4.0742,
      "step": 88770
    },
    {
      "epoch": 0.18495833333333334,
      "grad_norm": 0.7916189432144165,
      "learning_rate": 0.0002762567891386777,
      "loss": 3.916,
      "step": 88780
    },
    {
      "epoch": 0.18497916666666667,
      "grad_norm": 0.8002384305000305,
      "learning_rate": 0.0002762514659675429,
      "loss": 4.0989,
      "step": 88790
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.8165314197540283,
      "learning_rate": 0.00027624614225105177,
      "loss": 4.1027,
      "step": 88800
    },
    {
      "epoch": 0.18502083333333333,
      "grad_norm": 0.8277894258499146,
      "learning_rate": 0.00027624081798922727,
      "loss": 4.1135,
      "step": 88810
    },
    {
      "epoch": 0.18504166666666666,
      "grad_norm": 0.8553441762924194,
      "learning_rate": 0.00027623549318209233,
      "loss": 3.9031,
      "step": 88820
    },
    {
      "epoch": 0.1850625,
      "grad_norm": 0.7832905650138855,
      "learning_rate": 0.0002762301678296701,
      "loss": 4.094,
      "step": 88830
    },
    {
      "epoch": 0.18508333333333332,
      "grad_norm": 0.8735815286636353,
      "learning_rate": 0.00027622484193198354,
      "loss": 4.1071,
      "step": 88840
    },
    {
      "epoch": 0.18510416666666665,
      "grad_norm": 0.8109439611434937,
      "learning_rate": 0.00027621951548905554,
      "loss": 4.0409,
      "step": 88850
    },
    {
      "epoch": 0.185125,
      "grad_norm": 0.8739176988601685,
      "learning_rate": 0.0002762141885009092,
      "loss": 4.0638,
      "step": 88860
    },
    {
      "epoch": 0.18514583333333334,
      "grad_norm": 0.9416104555130005,
      "learning_rate": 0.00027620886096756765,
      "loss": 4.1727,
      "step": 88870
    },
    {
      "epoch": 0.18516666666666667,
      "grad_norm": 0.7618234157562256,
      "learning_rate": 0.00027620353288905367,
      "loss": 4.1702,
      "step": 88880
    },
    {
      "epoch": 0.1851875,
      "grad_norm": 0.7956153750419617,
      "learning_rate": 0.00027619820426539037,
      "loss": 4.0931,
      "step": 88890
    },
    {
      "epoch": 0.18520833333333334,
      "grad_norm": 0.8759671449661255,
      "learning_rate": 0.00027619287509660084,
      "loss": 4.1066,
      "step": 88900
    },
    {
      "epoch": 0.18522916666666667,
      "grad_norm": 0.7895867228507996,
      "learning_rate": 0.000276187545382708,
      "loss": 4.1692,
      "step": 88910
    },
    {
      "epoch": 0.18525,
      "grad_norm": 1.835387110710144,
      "learning_rate": 0.000276182215123735,
      "loss": 3.9767,
      "step": 88920
    },
    {
      "epoch": 0.18527083333333333,
      "grad_norm": 0.7532958984375,
      "learning_rate": 0.00027617688431970464,
      "loss": 4.2526,
      "step": 88930
    },
    {
      "epoch": 0.18529166666666666,
      "grad_norm": 0.8064120411872864,
      "learning_rate": 0.00027617155297064017,
      "loss": 4.3034,
      "step": 88940
    },
    {
      "epoch": 0.1853125,
      "grad_norm": 0.8807792067527771,
      "learning_rate": 0.0002761662210765645,
      "loss": 4.1111,
      "step": 88950
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.8558019995689392,
      "learning_rate": 0.00027616088863750073,
      "loss": 4.0973,
      "step": 88960
    },
    {
      "epoch": 0.18535416666666665,
      "grad_norm": 0.8755159974098206,
      "learning_rate": 0.0002761555556534718,
      "loss": 4.2761,
      "step": 88970
    },
    {
      "epoch": 0.185375,
      "grad_norm": 0.772244393825531,
      "learning_rate": 0.0002761502221245009,
      "loss": 4.0553,
      "step": 88980
    },
    {
      "epoch": 0.18539583333333334,
      "grad_norm": 0.8161675930023193,
      "learning_rate": 0.0002761448880506109,
      "loss": 4.0184,
      "step": 88990
    },
    {
      "epoch": 0.18541666666666667,
      "grad_norm": 0.7579035758972168,
      "learning_rate": 0.0002761395534318249,
      "loss": 3.994,
      "step": 89000
    },
    {
      "epoch": 0.18541666666666667,
      "eval_loss": 3.8347525596618652,
      "eval_runtime": 7.2157,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 89000
    },
    {
      "epoch": 0.1854375,
      "grad_norm": 0.8868841528892517,
      "learning_rate": 0.00027613421826816595,
      "loss": 4.152,
      "step": 89010
    },
    {
      "epoch": 0.18545833333333334,
      "grad_norm": 0.837624728679657,
      "learning_rate": 0.00027612888255965724,
      "loss": 4.0302,
      "step": 89020
    },
    {
      "epoch": 0.18547916666666667,
      "grad_norm": 1.6783605813980103,
      "learning_rate": 0.00027612354630632155,
      "loss": 3.9678,
      "step": 89030
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.7813094854354858,
      "learning_rate": 0.00027611820950818207,
      "loss": 4.226,
      "step": 89040
    },
    {
      "epoch": 0.18552083333333333,
      "grad_norm": 0.7729549407958984,
      "learning_rate": 0.0002761128721652619,
      "loss": 4.0414,
      "step": 89050
    },
    {
      "epoch": 0.18554166666666666,
      "grad_norm": 0.8146042227745056,
      "learning_rate": 0.000276107534277584,
      "loss": 4.0782,
      "step": 89060
    },
    {
      "epoch": 0.1855625,
      "grad_norm": 0.897723376750946,
      "learning_rate": 0.0002761021958451715,
      "loss": 4.2655,
      "step": 89070
    },
    {
      "epoch": 0.18558333333333332,
      "grad_norm": 0.8142106533050537,
      "learning_rate": 0.0002760968568680474,
      "loss": 4.118,
      "step": 89080
    },
    {
      "epoch": 0.18560416666666665,
      "grad_norm": 0.7736698389053345,
      "learning_rate": 0.0002760915173462348,
      "loss": 4.1743,
      "step": 89090
    },
    {
      "epoch": 0.185625,
      "grad_norm": 0.8012015223503113,
      "learning_rate": 0.0002760861772797568,
      "loss": 4.2158,
      "step": 89100
    },
    {
      "epoch": 0.18564583333333334,
      "grad_norm": 0.8125114440917969,
      "learning_rate": 0.00027608083666863634,
      "loss": 4.1313,
      "step": 89110
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 0.8719521760940552,
      "learning_rate": 0.00027607549551289664,
      "loss": 4.0314,
      "step": 89120
    },
    {
      "epoch": 0.1856875,
      "grad_norm": 0.7751455307006836,
      "learning_rate": 0.0002760701538125607,
      "loss": 4.139,
      "step": 89130
    },
    {
      "epoch": 0.18570833333333334,
      "grad_norm": 0.8939040303230286,
      "learning_rate": 0.00027606481156765153,
      "loss": 4.1026,
      "step": 89140
    },
    {
      "epoch": 0.18572916666666667,
      "grad_norm": 0.861975908279419,
      "learning_rate": 0.00027605946877819236,
      "loss": 4.0166,
      "step": 89150
    },
    {
      "epoch": 0.18575,
      "grad_norm": 0.8014330863952637,
      "learning_rate": 0.00027605412544420615,
      "loss": 4.1463,
      "step": 89160
    },
    {
      "epoch": 0.18577083333333333,
      "grad_norm": 0.7826949954032898,
      "learning_rate": 0.000276048781565716,
      "loss": 4.0172,
      "step": 89170
    },
    {
      "epoch": 0.18579166666666666,
      "grad_norm": 0.8401944637298584,
      "learning_rate": 0.000276043437142745,
      "loss": 4.2397,
      "step": 89180
    },
    {
      "epoch": 0.1858125,
      "grad_norm": 0.8119806051254272,
      "learning_rate": 0.00027603809217531625,
      "loss": 4.029,
      "step": 89190
    },
    {
      "epoch": 0.18583333333333332,
      "grad_norm": 0.7776821255683899,
      "learning_rate": 0.00027603274666345286,
      "loss": 4.2826,
      "step": 89200
    },
    {
      "epoch": 0.18585416666666665,
      "grad_norm": 0.8699647784233093,
      "learning_rate": 0.00027602740060717783,
      "loss": 4.1878,
      "step": 89210
    },
    {
      "epoch": 0.185875,
      "grad_norm": 0.7419142723083496,
      "learning_rate": 0.0002760220540065144,
      "loss": 4.2839,
      "step": 89220
    },
    {
      "epoch": 0.18589583333333334,
      "grad_norm": 0.8344267010688782,
      "learning_rate": 0.0002760167068614855,
      "loss": 4.2849,
      "step": 89230
    },
    {
      "epoch": 0.18591666666666667,
      "grad_norm": 0.8335482478141785,
      "learning_rate": 0.00027601135917211436,
      "loss": 4.1326,
      "step": 89240
    },
    {
      "epoch": 0.1859375,
      "grad_norm": 0.8573136329650879,
      "learning_rate": 0.00027600601093842397,
      "loss": 4.0872,
      "step": 89250
    },
    {
      "epoch": 0.18595833333333334,
      "grad_norm": 0.8167929649353027,
      "learning_rate": 0.0002760006621604375,
      "loss": 3.9864,
      "step": 89260
    },
    {
      "epoch": 0.18597916666666667,
      "grad_norm": 0.8241136074066162,
      "learning_rate": 0.0002759953128381781,
      "loss": 4.2884,
      "step": 89270
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.8852875828742981,
      "learning_rate": 0.0002759899629716688,
      "loss": 4.0089,
      "step": 89280
    },
    {
      "epoch": 0.18602083333333333,
      "grad_norm": 0.7929352521896362,
      "learning_rate": 0.0002759846125609327,
      "loss": 4.3008,
      "step": 89290
    },
    {
      "epoch": 0.18604166666666666,
      "grad_norm": 0.866682767868042,
      "learning_rate": 0.000275979261605993,
      "loss": 4.2507,
      "step": 89300
    },
    {
      "epoch": 0.1860625,
      "grad_norm": 0.8525865077972412,
      "learning_rate": 0.0002759739101068727,
      "loss": 4.0115,
      "step": 89310
    },
    {
      "epoch": 0.18608333333333332,
      "grad_norm": 0.7716129422187805,
      "learning_rate": 0.00027596855806359503,
      "loss": 4.1361,
      "step": 89320
    },
    {
      "epoch": 0.18610416666666665,
      "grad_norm": 0.8076658844947815,
      "learning_rate": 0.000275963205476183,
      "loss": 3.953,
      "step": 89330
    },
    {
      "epoch": 0.186125,
      "grad_norm": 0.7423975467681885,
      "learning_rate": 0.00027595785234465976,
      "loss": 4.0497,
      "step": 89340
    },
    {
      "epoch": 0.18614583333333334,
      "grad_norm": 0.7511257529258728,
      "learning_rate": 0.0002759524986690485,
      "loss": 4.2097,
      "step": 89350
    },
    {
      "epoch": 0.18616666666666667,
      "grad_norm": 0.7969750165939331,
      "learning_rate": 0.0002759471444493723,
      "loss": 4.1989,
      "step": 89360
    },
    {
      "epoch": 0.1861875,
      "grad_norm": 0.7981334328651428,
      "learning_rate": 0.0002759417896856543,
      "loss": 4.0392,
      "step": 89370
    },
    {
      "epoch": 0.18620833333333334,
      "grad_norm": 1.725911021232605,
      "learning_rate": 0.0002759364343779176,
      "loss": 4.1854,
      "step": 89380
    },
    {
      "epoch": 0.18622916666666667,
      "grad_norm": 0.8439785838127136,
      "learning_rate": 0.0002759310785261854,
      "loss": 4.0584,
      "step": 89390
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.9435657858848572,
      "learning_rate": 0.0002759257221304807,
      "loss": 4.1118,
      "step": 89400
    },
    {
      "epoch": 0.18627083333333333,
      "grad_norm": 0.7480825185775757,
      "learning_rate": 0.0002759203651908267,
      "loss": 4.0129,
      "step": 89410
    },
    {
      "epoch": 0.18629166666666666,
      "grad_norm": 0.9406611323356628,
      "learning_rate": 0.0002759150077072467,
      "loss": 4.1228,
      "step": 89420
    },
    {
      "epoch": 0.1863125,
      "grad_norm": 1.1661794185638428,
      "learning_rate": 0.0002759096496797636,
      "loss": 4.0755,
      "step": 89430
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 0.7503112554550171,
      "learning_rate": 0.0002759042911084007,
      "loss": 4.1744,
      "step": 89440
    },
    {
      "epoch": 0.18635416666666665,
      "grad_norm": 0.7534877061843872,
      "learning_rate": 0.0002758989319931811,
      "loss": 4.1486,
      "step": 89450
    },
    {
      "epoch": 0.186375,
      "grad_norm": 0.8505076766014099,
      "learning_rate": 0.00027589357233412794,
      "loss": 4.0578,
      "step": 89460
    },
    {
      "epoch": 0.18639583333333334,
      "grad_norm": 0.8073272109031677,
      "learning_rate": 0.0002758882121312644,
      "loss": 4.2678,
      "step": 89470
    },
    {
      "epoch": 0.18641666666666667,
      "grad_norm": 0.877799391746521,
      "learning_rate": 0.0002758828513846136,
      "loss": 4.0489,
      "step": 89480
    },
    {
      "epoch": 0.1864375,
      "grad_norm": 0.7496764063835144,
      "learning_rate": 0.0002758774900941987,
      "loss": 4.0226,
      "step": 89490
    },
    {
      "epoch": 0.18645833333333334,
      "grad_norm": 0.8666726350784302,
      "learning_rate": 0.0002758721282600428,
      "loss": 4.0082,
      "step": 89500
    },
    {
      "epoch": 0.18647916666666667,
      "grad_norm": 0.778937578201294,
      "learning_rate": 0.00027586676588216925,
      "loss": 3.9993,
      "step": 89510
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.8374453186988831,
      "learning_rate": 0.00027586140296060105,
      "loss": 4.0403,
      "step": 89520
    },
    {
      "epoch": 0.18652083333333333,
      "grad_norm": 0.8622621893882751,
      "learning_rate": 0.0002758560394953614,
      "loss": 3.9935,
      "step": 89530
    },
    {
      "epoch": 0.18654166666666666,
      "grad_norm": 0.8325918316841125,
      "learning_rate": 0.00027585067548647346,
      "loss": 4.053,
      "step": 89540
    },
    {
      "epoch": 0.1865625,
      "grad_norm": 0.8613885641098022,
      "learning_rate": 0.0002758453109339605,
      "loss": 4.1473,
      "step": 89550
    },
    {
      "epoch": 0.18658333333333332,
      "grad_norm": 0.8219184279441833,
      "learning_rate": 0.0002758399458378455,
      "loss": 4.174,
      "step": 89560
    },
    {
      "epoch": 0.18660416666666665,
      "grad_norm": 0.7773633003234863,
      "learning_rate": 0.0002758345801981518,
      "loss": 4.2588,
      "step": 89570
    },
    {
      "epoch": 0.186625,
      "grad_norm": 0.7256754636764526,
      "learning_rate": 0.0002758292140149025,
      "loss": 4.1061,
      "step": 89580
    },
    {
      "epoch": 0.18664583333333334,
      "grad_norm": 0.8817048668861389,
      "learning_rate": 0.0002758238472881208,
      "loss": 3.9748,
      "step": 89590
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.7798476219177246,
      "learning_rate": 0.0002758184800178299,
      "loss": 4.2504,
      "step": 89600
    },
    {
      "epoch": 0.1866875,
      "grad_norm": 0.9014951586723328,
      "learning_rate": 0.000275813112204053,
      "loss": 3.9965,
      "step": 89610
    },
    {
      "epoch": 0.18670833333333334,
      "grad_norm": 0.8574309945106506,
      "learning_rate": 0.0002758077438468132,
      "loss": 4.2251,
      "step": 89620
    },
    {
      "epoch": 0.18672916666666667,
      "grad_norm": 0.788658082485199,
      "learning_rate": 0.0002758023749461337,
      "loss": 4.1137,
      "step": 89630
    },
    {
      "epoch": 0.18675,
      "grad_norm": 0.8177270293235779,
      "learning_rate": 0.00027579700550203783,
      "loss": 4.1435,
      "step": 89640
    },
    {
      "epoch": 0.18677083333333333,
      "grad_norm": 0.7842280864715576,
      "learning_rate": 0.0002757916355145487,
      "loss": 4.188,
      "step": 89650
    },
    {
      "epoch": 0.18679166666666666,
      "grad_norm": 0.7558413743972778,
      "learning_rate": 0.0002757862649836895,
      "loss": 4.2788,
      "step": 89660
    },
    {
      "epoch": 0.1868125,
      "grad_norm": 0.8268551230430603,
      "learning_rate": 0.0002757808939094834,
      "loss": 4.2459,
      "step": 89670
    },
    {
      "epoch": 0.18683333333333332,
      "grad_norm": 0.878783643245697,
      "learning_rate": 0.0002757755222919536,
      "loss": 4.041,
      "step": 89680
    },
    {
      "epoch": 0.18685416666666665,
      "grad_norm": 0.8818047642707825,
      "learning_rate": 0.0002757701501311233,
      "loss": 4.194,
      "step": 89690
    },
    {
      "epoch": 0.186875,
      "grad_norm": 0.9056170582771301,
      "learning_rate": 0.0002757647774270158,
      "loss": 4.0125,
      "step": 89700
    },
    {
      "epoch": 0.18689583333333334,
      "grad_norm": 0.9280427098274231,
      "learning_rate": 0.0002757594041796542,
      "loss": 3.8381,
      "step": 89710
    },
    {
      "epoch": 0.18691666666666668,
      "grad_norm": 0.7864637970924377,
      "learning_rate": 0.0002757540303890617,
      "loss": 4.182,
      "step": 89720
    },
    {
      "epoch": 0.1869375,
      "grad_norm": 0.9340299963951111,
      "learning_rate": 0.0002757486560552617,
      "loss": 4.1599,
      "step": 89730
    },
    {
      "epoch": 0.18695833333333334,
      "grad_norm": 1.0100888013839722,
      "learning_rate": 0.0002757432811782772,
      "loss": 3.9769,
      "step": 89740
    },
    {
      "epoch": 0.18697916666666667,
      "grad_norm": 0.8256276845932007,
      "learning_rate": 0.00027573790575813155,
      "loss": 4.2647,
      "step": 89750
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.9095343947410583,
      "learning_rate": 0.00027573252979484785,
      "loss": 4.1296,
      "step": 89760
    },
    {
      "epoch": 0.18702083333333333,
      "grad_norm": 0.8307647109031677,
      "learning_rate": 0.00027572715328844945,
      "loss": 3.9947,
      "step": 89770
    },
    {
      "epoch": 0.18704166666666666,
      "grad_norm": 0.8099896311759949,
      "learning_rate": 0.00027572177623895943,
      "loss": 4.1369,
      "step": 89780
    },
    {
      "epoch": 0.1870625,
      "grad_norm": 0.8853451013565063,
      "learning_rate": 0.00027571639864640117,
      "loss": 3.9534,
      "step": 89790
    },
    {
      "epoch": 0.18708333333333332,
      "grad_norm": 0.8374742865562439,
      "learning_rate": 0.0002757110205107978,
      "loss": 4.1393,
      "step": 89800
    },
    {
      "epoch": 0.18710416666666665,
      "grad_norm": 0.8589866757392883,
      "learning_rate": 0.00027570564183217265,
      "loss": 4.1589,
      "step": 89810
    },
    {
      "epoch": 0.187125,
      "grad_norm": 0.8497664928436279,
      "learning_rate": 0.0002757002626105488,
      "loss": 4.1322,
      "step": 89820
    },
    {
      "epoch": 0.18714583333333334,
      "grad_norm": 0.8188146948814392,
      "learning_rate": 0.0002756948828459496,
      "loss": 4.2859,
      "step": 89830
    },
    {
      "epoch": 0.18716666666666668,
      "grad_norm": 0.8271669745445251,
      "learning_rate": 0.0002756895025383983,
      "loss": 3.9859,
      "step": 89840
    },
    {
      "epoch": 0.1871875,
      "grad_norm": 0.8333816528320312,
      "learning_rate": 0.00027568412168791804,
      "loss": 4.04,
      "step": 89850
    },
    {
      "epoch": 0.18720833333333334,
      "grad_norm": 0.8097543716430664,
      "learning_rate": 0.0002756787402945321,
      "loss": 4.1261,
      "step": 89860
    },
    {
      "epoch": 0.18722916666666667,
      "grad_norm": 0.8824127912521362,
      "learning_rate": 0.00027567335835826384,
      "loss": 4.1746,
      "step": 89870
    },
    {
      "epoch": 0.18725,
      "grad_norm": 0.9646767377853394,
      "learning_rate": 0.00027566797587913635,
      "loss": 4.0798,
      "step": 89880
    },
    {
      "epoch": 0.18727083333333333,
      "grad_norm": 0.8031161427497864,
      "learning_rate": 0.000275662592857173,
      "loss": 4.0891,
      "step": 89890
    },
    {
      "epoch": 0.18729166666666666,
      "grad_norm": 0.7500836253166199,
      "learning_rate": 0.00027565720929239695,
      "loss": 4.2117,
      "step": 89900
    },
    {
      "epoch": 0.1873125,
      "grad_norm": 0.7599935531616211,
      "learning_rate": 0.0002756518251848315,
      "loss": 4.1014,
      "step": 89910
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 0.872948408126831,
      "learning_rate": 0.00027564644053449993,
      "loss": 4.0398,
      "step": 89920
    },
    {
      "epoch": 0.18735416666666665,
      "grad_norm": 0.8615636229515076,
      "learning_rate": 0.0002756410553414254,
      "loss": 4.274,
      "step": 89930
    },
    {
      "epoch": 0.187375,
      "grad_norm": 0.8707545399665833,
      "learning_rate": 0.0002756356696056313,
      "loss": 4.1708,
      "step": 89940
    },
    {
      "epoch": 0.18739583333333334,
      "grad_norm": 0.7921503782272339,
      "learning_rate": 0.00027563028332714084,
      "loss": 4.0597,
      "step": 89950
    },
    {
      "epoch": 0.18741666666666668,
      "grad_norm": 0.7748167514801025,
      "learning_rate": 0.0002756248965059773,
      "loss": 4.1118,
      "step": 89960
    },
    {
      "epoch": 0.1874375,
      "grad_norm": 0.8049127459526062,
      "learning_rate": 0.00027561950914216387,
      "loss": 3.9485,
      "step": 89970
    },
    {
      "epoch": 0.18745833333333334,
      "grad_norm": 0.8084933161735535,
      "learning_rate": 0.00027561412123572397,
      "loss": 4.0534,
      "step": 89980
    },
    {
      "epoch": 0.18747916666666667,
      "grad_norm": 0.9360905885696411,
      "learning_rate": 0.0002756087327866807,
      "loss": 4.1113,
      "step": 89990
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.8325279355049133,
      "learning_rate": 0.00027560334379505744,
      "loss": 4.1861,
      "step": 90000
    },
    {
      "epoch": 0.1875,
      "eval_loss": 3.8285605907440186,
      "eval_runtime": 7.1937,
      "eval_samples_per_second": 1.39,
      "eval_steps_per_second": 0.417,
      "step": 90000
    },
    {
      "epoch": 0.18752083333333333,
      "grad_norm": 0.8066368103027344,
      "learning_rate": 0.0002755979542608775,
      "loss": 4.1083,
      "step": 90010
    },
    {
      "epoch": 0.18754166666666666,
      "grad_norm": 0.7951952219009399,
      "learning_rate": 0.0002755925641841641,
      "loss": 3.9467,
      "step": 90020
    },
    {
      "epoch": 0.1875625,
      "grad_norm": 0.7916814684867859,
      "learning_rate": 0.0002755871735649405,
      "loss": 4.0604,
      "step": 90030
    },
    {
      "epoch": 0.18758333333333332,
      "grad_norm": 0.8438534736633301,
      "learning_rate": 0.00027558178240323,
      "loss": 4.1198,
      "step": 90040
    },
    {
      "epoch": 0.18760416666666666,
      "grad_norm": 0.7832930684089661,
      "learning_rate": 0.000275576390699056,
      "loss": 4.2541,
      "step": 90050
    },
    {
      "epoch": 0.187625,
      "grad_norm": 0.8198969960212708,
      "learning_rate": 0.00027557099845244165,
      "loss": 4.1496,
      "step": 90060
    },
    {
      "epoch": 0.18764583333333335,
      "grad_norm": 0.7624475955963135,
      "learning_rate": 0.00027556560566341023,
      "loss": 4.0338,
      "step": 90070
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 0.9813414216041565,
      "learning_rate": 0.0002755602123319852,
      "loss": 4.0464,
      "step": 90080
    },
    {
      "epoch": 0.1876875,
      "grad_norm": 0.8394545316696167,
      "learning_rate": 0.00027555481845818974,
      "loss": 4.0316,
      "step": 90090
    },
    {
      "epoch": 0.18770833333333334,
      "grad_norm": 0.7389699816703796,
      "learning_rate": 0.00027554942404204707,
      "loss": 4.2175,
      "step": 90100
    },
    {
      "epoch": 0.18772916666666667,
      "grad_norm": 0.7938516736030579,
      "learning_rate": 0.00027554402908358067,
      "loss": 4.0493,
      "step": 90110
    },
    {
      "epoch": 0.18775,
      "grad_norm": 0.7821570038795471,
      "learning_rate": 0.00027553863358281374,
      "loss": 4.0511,
      "step": 90120
    },
    {
      "epoch": 0.18777083333333333,
      "grad_norm": 0.8632500171661377,
      "learning_rate": 0.0002755332375397696,
      "loss": 4.1074,
      "step": 90130
    },
    {
      "epoch": 0.18779166666666666,
      "grad_norm": 0.8464341759681702,
      "learning_rate": 0.00027552784095447155,
      "loss": 4.1683,
      "step": 90140
    },
    {
      "epoch": 0.1878125,
      "grad_norm": 0.8036454319953918,
      "learning_rate": 0.00027552244382694297,
      "loss": 4.1414,
      "step": 90150
    },
    {
      "epoch": 0.18783333333333332,
      "grad_norm": 0.7518664598464966,
      "learning_rate": 0.00027551704615720704,
      "loss": 4.0839,
      "step": 90160
    },
    {
      "epoch": 0.18785416666666666,
      "grad_norm": 0.7627589702606201,
      "learning_rate": 0.0002755116479452872,
      "loss": 4.0662,
      "step": 90170
    },
    {
      "epoch": 0.187875,
      "grad_norm": 0.7970364689826965,
      "learning_rate": 0.0002755062491912067,
      "loss": 4.1802,
      "step": 90180
    },
    {
      "epoch": 0.18789583333333335,
      "grad_norm": 0.9123414158821106,
      "learning_rate": 0.0002755008498949889,
      "loss": 4.1411,
      "step": 90190
    },
    {
      "epoch": 0.18791666666666668,
      "grad_norm": 0.7919793725013733,
      "learning_rate": 0.0002754954500566571,
      "loss": 4.1362,
      "step": 90200
    },
    {
      "epoch": 0.1879375,
      "grad_norm": 0.8384314775466919,
      "learning_rate": 0.0002754900496762346,
      "loss": 3.9955,
      "step": 90210
    },
    {
      "epoch": 0.18795833333333334,
      "grad_norm": 0.9731672406196594,
      "learning_rate": 0.0002754846487537448,
      "loss": 4.0848,
      "step": 90220
    },
    {
      "epoch": 0.18797916666666667,
      "grad_norm": 0.8476837873458862,
      "learning_rate": 0.000275479247289211,
      "loss": 4.1524,
      "step": 90230
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.7685437202453613,
      "learning_rate": 0.00027547384528265646,
      "loss": 3.9672,
      "step": 90240
    },
    {
      "epoch": 0.18802083333333333,
      "grad_norm": 0.9195413589477539,
      "learning_rate": 0.0002754684427341046,
      "loss": 4.0704,
      "step": 90250
    },
    {
      "epoch": 0.18804166666666666,
      "grad_norm": 0.8694556355476379,
      "learning_rate": 0.00027546303964357877,
      "loss": 4.2558,
      "step": 90260
    },
    {
      "epoch": 0.1880625,
      "grad_norm": 0.8783197999000549,
      "learning_rate": 0.0002754576360111022,
      "loss": 4.0746,
      "step": 90270
    },
    {
      "epoch": 0.18808333333333332,
      "grad_norm": 0.8487236499786377,
      "learning_rate": 0.0002754522318366983,
      "loss": 3.9887,
      "step": 90280
    },
    {
      "epoch": 0.18810416666666666,
      "grad_norm": 0.7659993767738342,
      "learning_rate": 0.0002754468271203905,
      "loss": 4.1575,
      "step": 90290
    },
    {
      "epoch": 0.188125,
      "grad_norm": 0.7302531003952026,
      "learning_rate": 0.00027544142186220204,
      "loss": 4.0886,
      "step": 90300
    },
    {
      "epoch": 0.18814583333333335,
      "grad_norm": 0.7538695931434631,
      "learning_rate": 0.00027543601606215627,
      "loss": 4.0398,
      "step": 90310
    },
    {
      "epoch": 0.18816666666666668,
      "grad_norm": 0.7932856678962708,
      "learning_rate": 0.00027543060972027656,
      "loss": 4.0429,
      "step": 90320
    },
    {
      "epoch": 0.1881875,
      "grad_norm": 0.7774657607078552,
      "learning_rate": 0.00027542520283658627,
      "loss": 4.1362,
      "step": 90330
    },
    {
      "epoch": 0.18820833333333334,
      "grad_norm": 0.7609128355979919,
      "learning_rate": 0.0002754197954111087,
      "loss": 4.2227,
      "step": 90340
    },
    {
      "epoch": 0.18822916666666667,
      "grad_norm": 0.8867380619049072,
      "learning_rate": 0.00027541438744386733,
      "loss": 4.0253,
      "step": 90350
    },
    {
      "epoch": 0.18825,
      "grad_norm": 0.8705928921699524,
      "learning_rate": 0.0002754089789348854,
      "loss": 3.9944,
      "step": 90360
    },
    {
      "epoch": 0.18827083333333333,
      "grad_norm": 0.8070263862609863,
      "learning_rate": 0.00027540356988418636,
      "loss": 4.3019,
      "step": 90370
    },
    {
      "epoch": 0.18829166666666666,
      "grad_norm": 0.7573865652084351,
      "learning_rate": 0.0002753981602917935,
      "loss": 4.2596,
      "step": 90380
    },
    {
      "epoch": 0.1883125,
      "grad_norm": 0.896860659122467,
      "learning_rate": 0.00027539275015773027,
      "loss": 4.3117,
      "step": 90390
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 0.7751038670539856,
      "learning_rate": 0.00027538733948201995,
      "loss": 4.2103,
      "step": 90400
    },
    {
      "epoch": 0.18835416666666666,
      "grad_norm": 0.8017474412918091,
      "learning_rate": 0.00027538192826468604,
      "loss": 4.1609,
      "step": 90410
    },
    {
      "epoch": 0.188375,
      "grad_norm": 0.8520102500915527,
      "learning_rate": 0.0002753765165057517,
      "loss": 4.2134,
      "step": 90420
    },
    {
      "epoch": 0.18839583333333335,
      "grad_norm": 0.7833532094955444,
      "learning_rate": 0.0002753711042052405,
      "loss": 3.9498,
      "step": 90430
    },
    {
      "epoch": 0.18841666666666668,
      "grad_norm": 0.9433076977729797,
      "learning_rate": 0.00027536569136317576,
      "loss": 4.166,
      "step": 90440
    },
    {
      "epoch": 0.1884375,
      "grad_norm": 0.8118147850036621,
      "learning_rate": 0.00027536027797958086,
      "loss": 3.9335,
      "step": 90450
    },
    {
      "epoch": 0.18845833333333334,
      "grad_norm": 0.8612962961196899,
      "learning_rate": 0.0002753548640544792,
      "loss": 4.0892,
      "step": 90460
    },
    {
      "epoch": 0.18847916666666667,
      "grad_norm": 0.801846444606781,
      "learning_rate": 0.0002753494495878941,
      "loss": 4.1221,
      "step": 90470
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.8182072639465332,
      "learning_rate": 0.000275344034579849,
      "loss": 4.2133,
      "step": 90480
    },
    {
      "epoch": 0.18852083333333333,
      "grad_norm": 0.8178638219833374,
      "learning_rate": 0.0002753386190303673,
      "loss": 4.1284,
      "step": 90490
    },
    {
      "epoch": 0.18854166666666666,
      "grad_norm": 0.8584215641021729,
      "learning_rate": 0.00027533320293947236,
      "loss": 4.0448,
      "step": 90500
    },
    {
      "epoch": 0.1885625,
      "grad_norm": 0.7978513240814209,
      "learning_rate": 0.0002753277863071876,
      "loss": 4.1014,
      "step": 90510
    },
    {
      "epoch": 0.18858333333333333,
      "grad_norm": 0.7529963850975037,
      "learning_rate": 0.00027532236913353645,
      "loss": 4.1833,
      "step": 90520
    },
    {
      "epoch": 0.18860416666666666,
      "grad_norm": 0.8057428598403931,
      "learning_rate": 0.0002753169514185422,
      "loss": 3.9893,
      "step": 90530
    },
    {
      "epoch": 0.188625,
      "grad_norm": 0.9496843814849854,
      "learning_rate": 0.0002753115331622284,
      "loss": 4.2097,
      "step": 90540
    },
    {
      "epoch": 0.18864583333333335,
      "grad_norm": 0.9249568581581116,
      "learning_rate": 0.0002753061143646183,
      "loss": 4.0537,
      "step": 90550
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 0.7408745288848877,
      "learning_rate": 0.00027530069502573545,
      "loss": 4.0602,
      "step": 90560
    },
    {
      "epoch": 0.1886875,
      "grad_norm": 0.7529903054237366,
      "learning_rate": 0.0002752952751456032,
      "loss": 4.2569,
      "step": 90570
    },
    {
      "epoch": 0.18870833333333334,
      "grad_norm": 0.8169240355491638,
      "learning_rate": 0.00027528985472424495,
      "loss": 3.9861,
      "step": 90580
    },
    {
      "epoch": 0.18872916666666667,
      "grad_norm": 0.7347083687782288,
      "learning_rate": 0.00027528443376168406,
      "loss": 4.0917,
      "step": 90590
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.8450599312782288,
      "learning_rate": 0.00027527901225794403,
      "loss": 4.0212,
      "step": 90600
    },
    {
      "epoch": 0.18877083333333333,
      "grad_norm": 0.7990080118179321,
      "learning_rate": 0.0002752735902130483,
      "loss": 4.2103,
      "step": 90610
    },
    {
      "epoch": 0.18879166666666666,
      "grad_norm": 0.7478287816047668,
      "learning_rate": 0.00027526816762702024,
      "loss": 3.9013,
      "step": 90620
    },
    {
      "epoch": 0.1888125,
      "grad_norm": 0.8750905990600586,
      "learning_rate": 0.00027526274449988326,
      "loss": 4.1703,
      "step": 90630
    },
    {
      "epoch": 0.18883333333333333,
      "grad_norm": 0.8535703420639038,
      "learning_rate": 0.00027525732083166077,
      "loss": 4.1851,
      "step": 90640
    },
    {
      "epoch": 0.18885416666666666,
      "grad_norm": 0.8730727434158325,
      "learning_rate": 0.0002752518966223763,
      "loss": 4.1611,
      "step": 90650
    },
    {
      "epoch": 0.188875,
      "grad_norm": 0.8056207299232483,
      "learning_rate": 0.0002752464718720532,
      "loss": 3.9528,
      "step": 90660
    },
    {
      "epoch": 0.18889583333333335,
      "grad_norm": 0.8363258242607117,
      "learning_rate": 0.0002752410465807149,
      "loss": 4.3292,
      "step": 90670
    },
    {
      "epoch": 0.18891666666666668,
      "grad_norm": 0.8744157552719116,
      "learning_rate": 0.00027523562074838485,
      "loss": 4.2499,
      "step": 90680
    },
    {
      "epoch": 0.1889375,
      "grad_norm": 0.7808986902236938,
      "learning_rate": 0.00027523019437508645,
      "loss": 4.0534,
      "step": 90690
    },
    {
      "epoch": 0.18895833333333334,
      "grad_norm": 0.7365450263023376,
      "learning_rate": 0.00027522476746084327,
      "loss": 4.1861,
      "step": 90700
    },
    {
      "epoch": 0.18897916666666667,
      "grad_norm": 0.81940758228302,
      "learning_rate": 0.0002752193400056786,
      "loss": 4.1348,
      "step": 90710
    },
    {
      "epoch": 0.189,
      "grad_norm": 1.6414384841918945,
      "learning_rate": 0.000275213912009616,
      "loss": 4.0702,
      "step": 90720
    },
    {
      "epoch": 0.18902083333333333,
      "grad_norm": 0.8588646054267883,
      "learning_rate": 0.00027520848347267876,
      "loss": 4.1539,
      "step": 90730
    },
    {
      "epoch": 0.18904166666666666,
      "grad_norm": 0.7746647596359253,
      "learning_rate": 0.00027520305439489057,
      "loss": 4.0539,
      "step": 90740
    },
    {
      "epoch": 0.1890625,
      "grad_norm": 0.7754989266395569,
      "learning_rate": 0.0002751976247762747,
      "loss": 4.1761,
      "step": 90750
    },
    {
      "epoch": 0.18908333333333333,
      "grad_norm": 0.8104886412620544,
      "learning_rate": 0.00027519219461685454,
      "loss": 4.2243,
      "step": 90760
    },
    {
      "epoch": 0.18910416666666666,
      "grad_norm": 0.8865258097648621,
      "learning_rate": 0.00027518676391665375,
      "loss": 4.0413,
      "step": 90770
    },
    {
      "epoch": 0.189125,
      "grad_norm": 0.7789079546928406,
      "learning_rate": 0.0002751813326756957,
      "loss": 4.1668,
      "step": 90780
    },
    {
      "epoch": 0.18914583333333335,
      "grad_norm": 0.7751567363739014,
      "learning_rate": 0.0002751759008940038,
      "loss": 3.904,
      "step": 90790
    },
    {
      "epoch": 0.18916666666666668,
      "grad_norm": 0.7478797435760498,
      "learning_rate": 0.0002751704685716016,
      "loss": 4.1459,
      "step": 90800
    },
    {
      "epoch": 0.1891875,
      "grad_norm": 0.8381063342094421,
      "learning_rate": 0.0002751650357085125,
      "loss": 4.1162,
      "step": 90810
    },
    {
      "epoch": 0.18920833333333334,
      "grad_norm": 0.955062747001648,
      "learning_rate": 0.00027515960230475997,
      "loss": 4.1116,
      "step": 90820
    },
    {
      "epoch": 0.18922916666666667,
      "grad_norm": 0.8570314049720764,
      "learning_rate": 0.00027515416836036753,
      "loss": 3.8857,
      "step": 90830
    },
    {
      "epoch": 0.18925,
      "grad_norm": 0.8382310271263123,
      "learning_rate": 0.0002751487338753586,
      "loss": 4.1497,
      "step": 90840
    },
    {
      "epoch": 0.18927083333333333,
      "grad_norm": 0.8627237677574158,
      "learning_rate": 0.00027514329884975673,
      "loss": 4.1115,
      "step": 90850
    },
    {
      "epoch": 0.18929166666666666,
      "grad_norm": 0.8796888589859009,
      "learning_rate": 0.0002751378632835853,
      "loss": 4.1673,
      "step": 90860
    },
    {
      "epoch": 0.1893125,
      "grad_norm": 0.8389661312103271,
      "learning_rate": 0.0002751324271768678,
      "loss": 4.2175,
      "step": 90870
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.8551027178764343,
      "learning_rate": 0.0002751269905296278,
      "loss": 4.1283,
      "step": 90880
    },
    {
      "epoch": 0.18935416666666666,
      "grad_norm": 0.8220476508140564,
      "learning_rate": 0.0002751215533418887,
      "loss": 3.8237,
      "step": 90890
    },
    {
      "epoch": 0.189375,
      "grad_norm": 0.7452929019927979,
      "learning_rate": 0.000275116115613674,
      "loss": 4.0943,
      "step": 90900
    },
    {
      "epoch": 0.18939583333333335,
      "grad_norm": 0.8729634881019592,
      "learning_rate": 0.00027511067734500725,
      "loss": 4.0646,
      "step": 90910
    },
    {
      "epoch": 0.18941666666666668,
      "grad_norm": 0.857841432094574,
      "learning_rate": 0.00027510523853591193,
      "loss": 4.1436,
      "step": 90920
    },
    {
      "epoch": 0.1894375,
      "grad_norm": 0.7717932462692261,
      "learning_rate": 0.00027509979918641144,
      "loss": 4.088,
      "step": 90930
    },
    {
      "epoch": 0.18945833333333334,
      "grad_norm": 0.8358799815177917,
      "learning_rate": 0.0002750943592965293,
      "loss": 4.1145,
      "step": 90940
    },
    {
      "epoch": 0.18947916666666667,
      "grad_norm": 0.8568423390388489,
      "learning_rate": 0.0002750889188662891,
      "loss": 4.0831,
      "step": 90950
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.8189806342124939,
      "learning_rate": 0.0002750834778957143,
      "loss": 3.9469,
      "step": 90960
    },
    {
      "epoch": 0.18952083333333333,
      "grad_norm": 0.8577580451965332,
      "learning_rate": 0.0002750780363848283,
      "loss": 4.062,
      "step": 90970
    },
    {
      "epoch": 0.18954166666666666,
      "grad_norm": 0.9734665751457214,
      "learning_rate": 0.0002750725943336548,
      "loss": 4.1764,
      "step": 90980
    },
    {
      "epoch": 0.1895625,
      "grad_norm": 0.7754459977149963,
      "learning_rate": 0.00027506715174221714,
      "loss": 4.0205,
      "step": 90990
    },
    {
      "epoch": 0.18958333333333333,
      "grad_norm": 1.084497332572937,
      "learning_rate": 0.0002750617086105389,
      "loss": 4.0522,
      "step": 91000
    },
    {
      "epoch": 0.18958333333333333,
      "eval_loss": 3.8463306427001953,
      "eval_runtime": 7.2409,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 91000
    },
    {
      "epoch": 0.18960416666666666,
      "grad_norm": 0.8304557800292969,
      "learning_rate": 0.00027505626493864354,
      "loss": 4.0378,
      "step": 91010
    },
    {
      "epoch": 0.189625,
      "grad_norm": 0.8428384065628052,
      "learning_rate": 0.0002750508207265547,
      "loss": 3.9791,
      "step": 91020
    },
    {
      "epoch": 0.18964583333333335,
      "grad_norm": 0.8088067770004272,
      "learning_rate": 0.00027504537597429577,
      "loss": 3.9063,
      "step": 91030
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 0.8517822623252869,
      "learning_rate": 0.00027503993068189026,
      "loss": 4.0583,
      "step": 91040
    },
    {
      "epoch": 0.1896875,
      "grad_norm": 0.9169725775718689,
      "learning_rate": 0.0002750344848493618,
      "loss": 3.9902,
      "step": 91050
    },
    {
      "epoch": 0.18970833333333334,
      "grad_norm": 0.9423375129699707,
      "learning_rate": 0.0002750290384767339,
      "loss": 4.2096,
      "step": 91060
    },
    {
      "epoch": 0.18972916666666667,
      "grad_norm": 0.9810010194778442,
      "learning_rate": 0.00027502359156402997,
      "loss": 4.0355,
      "step": 91070
    },
    {
      "epoch": 0.18975,
      "grad_norm": 0.7348219156265259,
      "learning_rate": 0.0002750181441112736,
      "loss": 3.9381,
      "step": 91080
    },
    {
      "epoch": 0.18977083333333333,
      "grad_norm": 0.8036338686943054,
      "learning_rate": 0.0002750126961184884,
      "loss": 3.9554,
      "step": 91090
    },
    {
      "epoch": 0.18979166666666666,
      "grad_norm": 0.7765061259269714,
      "learning_rate": 0.00027500724758569784,
      "loss": 3.8887,
      "step": 91100
    },
    {
      "epoch": 0.1898125,
      "grad_norm": 0.7464754581451416,
      "learning_rate": 0.0002750017985129254,
      "loss": 3.9428,
      "step": 91110
    },
    {
      "epoch": 0.18983333333333333,
      "grad_norm": 0.9776300191879272,
      "learning_rate": 0.0002749963489001947,
      "loss": 3.9354,
      "step": 91120
    },
    {
      "epoch": 0.18985416666666666,
      "grad_norm": 0.7746684551239014,
      "learning_rate": 0.0002749908987475292,
      "loss": 3.9442,
      "step": 91130
    },
    {
      "epoch": 0.189875,
      "grad_norm": 0.8184122443199158,
      "learning_rate": 0.00027498544805495257,
      "loss": 4.0347,
      "step": 91140
    },
    {
      "epoch": 0.18989583333333335,
      "grad_norm": 0.812637209892273,
      "learning_rate": 0.0002749799968224882,
      "loss": 4.082,
      "step": 91150
    },
    {
      "epoch": 0.18991666666666668,
      "grad_norm": 0.8109214901924133,
      "learning_rate": 0.0002749745450501598,
      "loss": 4.1473,
      "step": 91160
    },
    {
      "epoch": 0.1899375,
      "grad_norm": 0.7720718383789062,
      "learning_rate": 0.00027496909273799075,
      "loss": 4.0163,
      "step": 91170
    },
    {
      "epoch": 0.18995833333333334,
      "grad_norm": 0.7717811465263367,
      "learning_rate": 0.00027496363988600473,
      "loss": 4.2251,
      "step": 91180
    },
    {
      "epoch": 0.18997916666666667,
      "grad_norm": 0.7510966062545776,
      "learning_rate": 0.00027495818649422523,
      "loss": 4.022,
      "step": 91190
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8143067359924316,
      "learning_rate": 0.00027495273256267585,
      "loss": 4.137,
      "step": 91200
    },
    {
      "epoch": 0.19002083333333333,
      "grad_norm": 0.8241487145423889,
      "learning_rate": 0.0002749472780913801,
      "loss": 4.0189,
      "step": 91210
    },
    {
      "epoch": 0.19004166666666666,
      "grad_norm": 0.8281981945037842,
      "learning_rate": 0.00027494182308036163,
      "loss": 4.1854,
      "step": 91220
    },
    {
      "epoch": 0.1900625,
      "grad_norm": 0.7880203723907471,
      "learning_rate": 0.00027493636752964386,
      "loss": 4.1003,
      "step": 91230
    },
    {
      "epoch": 0.19008333333333333,
      "grad_norm": 0.8660852313041687,
      "learning_rate": 0.00027493091143925046,
      "loss": 4.0516,
      "step": 91240
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 0.7833806872367859,
      "learning_rate": 0.000274925454809205,
      "loss": 4.0519,
      "step": 91250
    },
    {
      "epoch": 0.190125,
      "grad_norm": 0.8218607306480408,
      "learning_rate": 0.000274919997639531,
      "loss": 3.9315,
      "step": 91260
    },
    {
      "epoch": 0.19014583333333332,
      "grad_norm": 0.8037731647491455,
      "learning_rate": 0.00027491453993025206,
      "loss": 4.0373,
      "step": 91270
    },
    {
      "epoch": 0.19016666666666668,
      "grad_norm": 0.785617470741272,
      "learning_rate": 0.00027490908168139173,
      "loss": 4.2196,
      "step": 91280
    },
    {
      "epoch": 0.1901875,
      "grad_norm": 0.8343362212181091,
      "learning_rate": 0.00027490362289297364,
      "loss": 4.1048,
      "step": 91290
    },
    {
      "epoch": 0.19020833333333334,
      "grad_norm": 0.7982953786849976,
      "learning_rate": 0.0002748981635650213,
      "loss": 4.3112,
      "step": 91300
    },
    {
      "epoch": 0.19022916666666667,
      "grad_norm": 0.8587785363197327,
      "learning_rate": 0.0002748927036975584,
      "loss": 4.0592,
      "step": 91310
    },
    {
      "epoch": 0.19025,
      "grad_norm": 0.7617429494857788,
      "learning_rate": 0.0002748872432906084,
      "loss": 4.0986,
      "step": 91320
    },
    {
      "epoch": 0.19027083333333333,
      "grad_norm": 0.758797824382782,
      "learning_rate": 0.000274881782344195,
      "loss": 4.0495,
      "step": 91330
    },
    {
      "epoch": 0.19029166666666666,
      "grad_norm": 0.776375949382782,
      "learning_rate": 0.0002748763208583417,
      "loss": 4.0856,
      "step": 91340
    },
    {
      "epoch": 0.1903125,
      "grad_norm": 0.9714770913124084,
      "learning_rate": 0.00027487085883307207,
      "loss": 3.9594,
      "step": 91350
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 0.7483615279197693,
      "learning_rate": 0.0002748653962684098,
      "loss": 4.0665,
      "step": 91360
    },
    {
      "epoch": 0.19035416666666666,
      "grad_norm": 0.821437418460846,
      "learning_rate": 0.0002748599331643784,
      "loss": 4.0015,
      "step": 91370
    },
    {
      "epoch": 0.190375,
      "grad_norm": 0.8320890069007874,
      "learning_rate": 0.0002748544695210016,
      "loss": 4.3388,
      "step": 91380
    },
    {
      "epoch": 0.19039583333333332,
      "grad_norm": 0.8309922814369202,
      "learning_rate": 0.00027484900533830285,
      "loss": 3.9751,
      "step": 91390
    },
    {
      "epoch": 0.19041666666666668,
      "grad_norm": 0.78875732421875,
      "learning_rate": 0.0002748435406163059,
      "loss": 4.2807,
      "step": 91400
    },
    {
      "epoch": 0.1904375,
      "grad_norm": 0.8481866717338562,
      "learning_rate": 0.0002748380753550342,
      "loss": 4.1192,
      "step": 91410
    },
    {
      "epoch": 0.19045833333333334,
      "grad_norm": 0.8426289558410645,
      "learning_rate": 0.00027483260955451144,
      "loss": 4.0323,
      "step": 91420
    },
    {
      "epoch": 0.19047916666666667,
      "grad_norm": 0.8456532955169678,
      "learning_rate": 0.0002748271432147612,
      "loss": 4.0298,
      "step": 91430
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.7444990277290344,
      "learning_rate": 0.0002748216763358071,
      "loss": 4.1196,
      "step": 91440
    },
    {
      "epoch": 0.19052083333333333,
      "grad_norm": 0.8261952996253967,
      "learning_rate": 0.0002748162089176728,
      "loss": 4.0676,
      "step": 91450
    },
    {
      "epoch": 0.19054166666666666,
      "grad_norm": 0.8253934979438782,
      "learning_rate": 0.00027481074096038187,
      "loss": 4.0892,
      "step": 91460
    },
    {
      "epoch": 0.1905625,
      "grad_norm": 0.8197608590126038,
      "learning_rate": 0.000274805272463958,
      "loss": 4.1699,
      "step": 91470
    },
    {
      "epoch": 0.19058333333333333,
      "grad_norm": 0.8797284364700317,
      "learning_rate": 0.00027479980342842464,
      "loss": 4.1851,
      "step": 91480
    },
    {
      "epoch": 0.19060416666666666,
      "grad_norm": 1.107330322265625,
      "learning_rate": 0.00027479433385380563,
      "loss": 4.2026,
      "step": 91490
    },
    {
      "epoch": 0.190625,
      "grad_norm": 0.8224398493766785,
      "learning_rate": 0.00027478886374012444,
      "loss": 4.1353,
      "step": 91500
    },
    {
      "epoch": 0.19064583333333332,
      "grad_norm": 0.8681405186653137,
      "learning_rate": 0.00027478339308740476,
      "loss": 4.1807,
      "step": 91510
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.8215591907501221,
      "learning_rate": 0.00027477792189567024,
      "loss": 4.1308,
      "step": 91520
    },
    {
      "epoch": 0.1906875,
      "grad_norm": 0.7406283617019653,
      "learning_rate": 0.00027477245016494444,
      "loss": 3.982,
      "step": 91530
    },
    {
      "epoch": 0.19070833333333334,
      "grad_norm": 0.7916778922080994,
      "learning_rate": 0.0002747669778952511,
      "loss": 4.2266,
      "step": 91540
    },
    {
      "epoch": 0.19072916666666667,
      "grad_norm": 1.0314645767211914,
      "learning_rate": 0.00027476150508661375,
      "loss": 3.9217,
      "step": 91550
    },
    {
      "epoch": 0.19075,
      "grad_norm": 0.8340210318565369,
      "learning_rate": 0.0002747560317390561,
      "loss": 4.2506,
      "step": 91560
    },
    {
      "epoch": 0.19077083333333333,
      "grad_norm": 0.8068327903747559,
      "learning_rate": 0.0002747505578526018,
      "loss": 4.1361,
      "step": 91570
    },
    {
      "epoch": 0.19079166666666666,
      "grad_norm": 0.9519054293632507,
      "learning_rate": 0.0002747450834272745,
      "loss": 3.9803,
      "step": 91580
    },
    {
      "epoch": 0.1908125,
      "grad_norm": 0.7236791253089905,
      "learning_rate": 0.00027473960846309775,
      "loss": 4.0608,
      "step": 91590
    },
    {
      "epoch": 0.19083333333333333,
      "grad_norm": 0.7686969041824341,
      "learning_rate": 0.0002747341329600953,
      "loss": 4.0112,
      "step": 91600
    },
    {
      "epoch": 0.19085416666666666,
      "grad_norm": 0.8131546378135681,
      "learning_rate": 0.0002747286569182907,
      "loss": 4.031,
      "step": 91610
    },
    {
      "epoch": 0.190875,
      "grad_norm": 0.8052729964256287,
      "learning_rate": 0.00027472318033770776,
      "loss": 4.3998,
      "step": 91620
    },
    {
      "epoch": 0.19089583333333332,
      "grad_norm": 0.8479630351066589,
      "learning_rate": 0.00027471770321837,
      "loss": 4.1711,
      "step": 91630
    },
    {
      "epoch": 0.19091666666666668,
      "grad_norm": 0.8315016627311707,
      "learning_rate": 0.00027471222556030116,
      "loss": 4.0727,
      "step": 91640
    },
    {
      "epoch": 0.1909375,
      "grad_norm": 0.785326361656189,
      "learning_rate": 0.00027470674736352485,
      "loss": 4.0287,
      "step": 91650
    },
    {
      "epoch": 0.19095833333333334,
      "grad_norm": 0.7927232384681702,
      "learning_rate": 0.00027470126862806475,
      "loss": 4.1191,
      "step": 91660
    },
    {
      "epoch": 0.19097916666666667,
      "grad_norm": 0.8823184967041016,
      "learning_rate": 0.00027469578935394455,
      "loss": 4.0522,
      "step": 91670
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.7732963562011719,
      "learning_rate": 0.0002746903095411879,
      "loss": 4.0872,
      "step": 91680
    },
    {
      "epoch": 0.19102083333333333,
      "grad_norm": 0.8219149112701416,
      "learning_rate": 0.00027468482918981845,
      "loss": 4.0838,
      "step": 91690
    },
    {
      "epoch": 0.19104166666666667,
      "grad_norm": 0.8287469744682312,
      "learning_rate": 0.00027467934829985993,
      "loss": 4.1653,
      "step": 91700
    },
    {
      "epoch": 0.1910625,
      "grad_norm": 0.8444700241088867,
      "learning_rate": 0.0002746738668713359,
      "loss": 4.1298,
      "step": 91710
    },
    {
      "epoch": 0.19108333333333333,
      "grad_norm": 0.8005582094192505,
      "learning_rate": 0.00027466838490427023,
      "loss": 4.2116,
      "step": 91720
    },
    {
      "epoch": 0.19110416666666666,
      "grad_norm": 0.7945547103881836,
      "learning_rate": 0.0002746629023986864,
      "loss": 4.2371,
      "step": 91730
    },
    {
      "epoch": 0.191125,
      "grad_norm": 0.8351811766624451,
      "learning_rate": 0.0002746574193546082,
      "loss": 4.217,
      "step": 91740
    },
    {
      "epoch": 0.19114583333333332,
      "grad_norm": 0.8318141102790833,
      "learning_rate": 0.0002746519357720593,
      "loss": 4.1356,
      "step": 91750
    },
    {
      "epoch": 0.19116666666666668,
      "grad_norm": 0.783259391784668,
      "learning_rate": 0.0002746464516510633,
      "loss": 4.065,
      "step": 91760
    },
    {
      "epoch": 0.1911875,
      "grad_norm": 0.8302801251411438,
      "learning_rate": 0.0002746409669916441,
      "loss": 4.2609,
      "step": 91770
    },
    {
      "epoch": 0.19120833333333334,
      "grad_norm": 0.8068325519561768,
      "learning_rate": 0.0002746354817938251,
      "loss": 3.9635,
      "step": 91780
    },
    {
      "epoch": 0.19122916666666667,
      "grad_norm": 1.091012716293335,
      "learning_rate": 0.0002746299960576303,
      "loss": 4.2217,
      "step": 91790
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.8339791297912598,
      "learning_rate": 0.00027462450978308316,
      "loss": 4.1104,
      "step": 91800
    },
    {
      "epoch": 0.19127083333333333,
      "grad_norm": 0.8606325387954712,
      "learning_rate": 0.0002746190229702075,
      "loss": 4.0237,
      "step": 91810
    },
    {
      "epoch": 0.19129166666666667,
      "grad_norm": 0.8826974034309387,
      "learning_rate": 0.000274613535619027,
      "loss": 3.9636,
      "step": 91820
    },
    {
      "epoch": 0.1913125,
      "grad_norm": 0.8002814054489136,
      "learning_rate": 0.00027460804772956533,
      "loss": 4.0307,
      "step": 91830
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 1.3166131973266602,
      "learning_rate": 0.00027460255930184625,
      "loss": 4.191,
      "step": 91840
    },
    {
      "epoch": 0.19135416666666666,
      "grad_norm": 0.8445581197738647,
      "learning_rate": 0.0002745970703358934,
      "loss": 4.2,
      "step": 91850
    },
    {
      "epoch": 0.191375,
      "grad_norm": 0.8123698830604553,
      "learning_rate": 0.0002745915808317305,
      "loss": 4.141,
      "step": 91860
    },
    {
      "epoch": 0.19139583333333332,
      "grad_norm": 0.8410677909851074,
      "learning_rate": 0.00027458609078938133,
      "loss": 4.0264,
      "step": 91870
    },
    {
      "epoch": 0.19141666666666668,
      "grad_norm": 0.7707160115242004,
      "learning_rate": 0.0002745806002088696,
      "loss": 4.0693,
      "step": 91880
    },
    {
      "epoch": 0.1914375,
      "grad_norm": 0.8355268836021423,
      "learning_rate": 0.0002745751090902189,
      "loss": 4.1123,
      "step": 91890
    },
    {
      "epoch": 0.19145833333333334,
      "grad_norm": 0.8047705888748169,
      "learning_rate": 0.00027456961743345306,
      "loss": 3.9752,
      "step": 91900
    },
    {
      "epoch": 0.19147916666666667,
      "grad_norm": 0.7666589617729187,
      "learning_rate": 0.00027456412523859584,
      "loss": 4.008,
      "step": 91910
    },
    {
      "epoch": 0.1915,
      "grad_norm": 0.8251291513442993,
      "learning_rate": 0.0002745586325056709,
      "loss": 4.1635,
      "step": 91920
    },
    {
      "epoch": 0.19152083333333333,
      "grad_norm": 0.7963640689849854,
      "learning_rate": 0.0002745531392347019,
      "loss": 4.0143,
      "step": 91930
    },
    {
      "epoch": 0.19154166666666667,
      "grad_norm": 0.8012462258338928,
      "learning_rate": 0.00027454764542571264,
      "loss": 4.0986,
      "step": 91940
    },
    {
      "epoch": 0.1915625,
      "grad_norm": 0.8267287611961365,
      "learning_rate": 0.0002745421510787269,
      "loss": 4.1408,
      "step": 91950
    },
    {
      "epoch": 0.19158333333333333,
      "grad_norm": 0.8057341575622559,
      "learning_rate": 0.0002745366561937684,
      "loss": 4.0906,
      "step": 91960
    },
    {
      "epoch": 0.19160416666666666,
      "grad_norm": 0.8564954400062561,
      "learning_rate": 0.00027453116077086077,
      "loss": 3.8898,
      "step": 91970
    },
    {
      "epoch": 0.191625,
      "grad_norm": 0.7937902808189392,
      "learning_rate": 0.00027452566481002785,
      "loss": 3.9442,
      "step": 91980
    },
    {
      "epoch": 0.19164583333333332,
      "grad_norm": 0.8860686421394348,
      "learning_rate": 0.00027452016831129334,
      "loss": 4.0202,
      "step": 91990
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.8193663954734802,
      "learning_rate": 0.000274514671274681,
      "loss": 4.0582,
      "step": 92000
    },
    {
      "epoch": 0.19166666666666668,
      "eval_loss": 3.8335118293762207,
      "eval_runtime": 7.1588,
      "eval_samples_per_second": 1.397,
      "eval_steps_per_second": 0.419,
      "step": 92000
    },
    {
      "epoch": 0.1916875,
      "grad_norm": 0.9169473052024841,
      "learning_rate": 0.00027450917370021457,
      "loss": 4.1444,
      "step": 92010
    },
    {
      "epoch": 0.19170833333333334,
      "grad_norm": 0.8495190739631653,
      "learning_rate": 0.00027450367558791775,
      "loss": 4.2399,
      "step": 92020
    },
    {
      "epoch": 0.19172916666666667,
      "grad_norm": 0.8013218641281128,
      "learning_rate": 0.00027449817693781436,
      "loss": 3.9665,
      "step": 92030
    },
    {
      "epoch": 0.19175,
      "grad_norm": 0.8518190383911133,
      "learning_rate": 0.00027449267774992816,
      "loss": 4.0429,
      "step": 92040
    },
    {
      "epoch": 0.19177083333333333,
      "grad_norm": 0.8287424445152283,
      "learning_rate": 0.00027448717802428283,
      "loss": 4.127,
      "step": 92050
    },
    {
      "epoch": 0.19179166666666667,
      "grad_norm": 0.7875687479972839,
      "learning_rate": 0.0002744816777609022,
      "loss": 3.9827,
      "step": 92060
    },
    {
      "epoch": 0.1918125,
      "grad_norm": 0.7948099374771118,
      "learning_rate": 0.00027447617695981,
      "loss": 4.1044,
      "step": 92070
    },
    {
      "epoch": 0.19183333333333333,
      "grad_norm": 0.8007087111473083,
      "learning_rate": 0.0002744706756210299,
      "loss": 4.1873,
      "step": 92080
    },
    {
      "epoch": 0.19185416666666666,
      "grad_norm": 0.7823050618171692,
      "learning_rate": 0.0002744651737445858,
      "loss": 3.877,
      "step": 92090
    },
    {
      "epoch": 0.191875,
      "grad_norm": 0.8115586042404175,
      "learning_rate": 0.00027445967133050145,
      "loss": 4.0733,
      "step": 92100
    },
    {
      "epoch": 0.19189583333333332,
      "grad_norm": 0.8275198340415955,
      "learning_rate": 0.0002744541683788006,
      "loss": 4.0681,
      "step": 92110
    },
    {
      "epoch": 0.19191666666666668,
      "grad_norm": 0.7245253920555115,
      "learning_rate": 0.00027444866488950695,
      "loss": 4.1025,
      "step": 92120
    },
    {
      "epoch": 0.1919375,
      "grad_norm": 0.9072297811508179,
      "learning_rate": 0.00027444316086264436,
      "loss": 3.9491,
      "step": 92130
    },
    {
      "epoch": 0.19195833333333334,
      "grad_norm": 0.875146746635437,
      "learning_rate": 0.00027443765629823656,
      "loss": 4.1035,
      "step": 92140
    },
    {
      "epoch": 0.19197916666666667,
      "grad_norm": 0.8725554943084717,
      "learning_rate": 0.00027443215119630734,
      "loss": 4.2924,
      "step": 92150
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.9068313837051392,
      "learning_rate": 0.00027442664555688044,
      "loss": 3.9497,
      "step": 92160
    },
    {
      "epoch": 0.19202083333333334,
      "grad_norm": 0.8786731958389282,
      "learning_rate": 0.00027442113937997973,
      "loss": 4.2723,
      "step": 92170
    },
    {
      "epoch": 0.19204166666666667,
      "grad_norm": 1.0586344003677368,
      "learning_rate": 0.000274415632665629,
      "loss": 4.1178,
      "step": 92180
    },
    {
      "epoch": 0.1920625,
      "grad_norm": 0.8043747544288635,
      "learning_rate": 0.0002744101254138519,
      "loss": 3.9592,
      "step": 92190
    },
    {
      "epoch": 0.19208333333333333,
      "grad_norm": 0.8199207782745361,
      "learning_rate": 0.0002744046176246723,
      "loss": 4.123,
      "step": 92200
    },
    {
      "epoch": 0.19210416666666666,
      "grad_norm": 1.016682505607605,
      "learning_rate": 0.000274399109298114,
      "loss": 4.3242,
      "step": 92210
    },
    {
      "epoch": 0.192125,
      "grad_norm": 1.08513343334198,
      "learning_rate": 0.00027439360043420084,
      "loss": 4.2371,
      "step": 92220
    },
    {
      "epoch": 0.19214583333333332,
      "grad_norm": 0.9113661050796509,
      "learning_rate": 0.00027438809103295654,
      "loss": 3.9376,
      "step": 92230
    },
    {
      "epoch": 0.19216666666666668,
      "grad_norm": 0.8074504733085632,
      "learning_rate": 0.0002743825810944049,
      "loss": 3.9248,
      "step": 92240
    },
    {
      "epoch": 0.1921875,
      "grad_norm": 0.8741181492805481,
      "learning_rate": 0.00027437707061856977,
      "loss": 3.8763,
      "step": 92250
    },
    {
      "epoch": 0.19220833333333334,
      "grad_norm": 0.9533849954605103,
      "learning_rate": 0.0002743715596054749,
      "loss": 4.0767,
      "step": 92260
    },
    {
      "epoch": 0.19222916666666667,
      "grad_norm": 0.9033772945404053,
      "learning_rate": 0.00027436604805514413,
      "loss": 4.0339,
      "step": 92270
    },
    {
      "epoch": 0.19225,
      "grad_norm": 0.821900486946106,
      "learning_rate": 0.0002743605359676013,
      "loss": 4.2666,
      "step": 92280
    },
    {
      "epoch": 0.19227083333333334,
      "grad_norm": 0.8329070806503296,
      "learning_rate": 0.0002743550233428701,
      "loss": 4.1286,
      "step": 92290
    },
    {
      "epoch": 0.19229166666666667,
      "grad_norm": 0.7995187044143677,
      "learning_rate": 0.0002743495101809745,
      "loss": 4.1678,
      "step": 92300
    },
    {
      "epoch": 0.1923125,
      "grad_norm": 0.8337507247924805,
      "learning_rate": 0.0002743439964819382,
      "loss": 4.0908,
      "step": 92310
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 0.7757183313369751,
      "learning_rate": 0.0002743384822457851,
      "loss": 4.1399,
      "step": 92320
    },
    {
      "epoch": 0.19235416666666666,
      "grad_norm": 0.7966989874839783,
      "learning_rate": 0.0002743329674725389,
      "loss": 4.1041,
      "step": 92330
    },
    {
      "epoch": 0.192375,
      "grad_norm": 0.8077954649925232,
      "learning_rate": 0.00027432745216222356,
      "loss": 4.0217,
      "step": 92340
    },
    {
      "epoch": 0.19239583333333332,
      "grad_norm": 0.7583378553390503,
      "learning_rate": 0.0002743219363148628,
      "loss": 4.1486,
      "step": 92350
    },
    {
      "epoch": 0.19241666666666668,
      "grad_norm": 0.7725675702095032,
      "learning_rate": 0.0002743164199304805,
      "loss": 3.9584,
      "step": 92360
    },
    {
      "epoch": 0.1924375,
      "grad_norm": 0.8331580758094788,
      "learning_rate": 0.00027431090300910043,
      "loss": 3.9802,
      "step": 92370
    },
    {
      "epoch": 0.19245833333333334,
      "grad_norm": 0.8119769096374512,
      "learning_rate": 0.0002743053855507465,
      "loss": 3.9085,
      "step": 92380
    },
    {
      "epoch": 0.19247916666666667,
      "grad_norm": 0.824932873249054,
      "learning_rate": 0.00027429986755544256,
      "loss": 4.1516,
      "step": 92390
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.8859512209892273,
      "learning_rate": 0.0002742943490232123,
      "loss": 4.0126,
      "step": 92400
    },
    {
      "epoch": 0.19252083333333334,
      "grad_norm": 0.8055599927902222,
      "learning_rate": 0.0002742888299540797,
      "loss": 4.1427,
      "step": 92410
    },
    {
      "epoch": 0.19254166666666667,
      "grad_norm": 0.8414596915245056,
      "learning_rate": 0.0002742833103480686,
      "loss": 4.167,
      "step": 92420
    },
    {
      "epoch": 0.1925625,
      "grad_norm": 0.8084750771522522,
      "learning_rate": 0.0002742777902052027,
      "loss": 4.3005,
      "step": 92430
    },
    {
      "epoch": 0.19258333333333333,
      "grad_norm": 0.8335186839103699,
      "learning_rate": 0.000274272269525506,
      "loss": 4.1919,
      "step": 92440
    },
    {
      "epoch": 0.19260416666666666,
      "grad_norm": 0.8030465245246887,
      "learning_rate": 0.0002742667483090023,
      "loss": 4.1741,
      "step": 92450
    },
    {
      "epoch": 0.192625,
      "grad_norm": 0.8423390984535217,
      "learning_rate": 0.00027426122655571536,
      "loss": 4.1514,
      "step": 92460
    },
    {
      "epoch": 0.19264583333333332,
      "grad_norm": 0.9042107462882996,
      "learning_rate": 0.00027425570426566916,
      "loss": 4.1137,
      "step": 92470
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 0.8153442144393921,
      "learning_rate": 0.0002742501814388875,
      "loss": 4.2629,
      "step": 92480
    },
    {
      "epoch": 0.1926875,
      "grad_norm": 0.8522706627845764,
      "learning_rate": 0.00027424465807539424,
      "loss": 4.0915,
      "step": 92490
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 0.9574038982391357,
      "learning_rate": 0.0002742391341752132,
      "loss": 4.0631,
      "step": 92500
    },
    {
      "epoch": 0.19272916666666667,
      "grad_norm": 0.992266833782196,
      "learning_rate": 0.0002742336097383683,
      "loss": 4.1757,
      "step": 92510
    },
    {
      "epoch": 0.19275,
      "grad_norm": 0.8148627877235413,
      "learning_rate": 0.0002742280847648834,
      "loss": 3.8665,
      "step": 92520
    },
    {
      "epoch": 0.19277083333333334,
      "grad_norm": 0.7913162112236023,
      "learning_rate": 0.0002742225592547823,
      "loss": 4.2991,
      "step": 92530
    },
    {
      "epoch": 0.19279166666666667,
      "grad_norm": 0.7556975483894348,
      "learning_rate": 0.00027421703320808894,
      "loss": 3.9644,
      "step": 92540
    },
    {
      "epoch": 0.1928125,
      "grad_norm": 0.9433789849281311,
      "learning_rate": 0.00027421150662482717,
      "loss": 4.2043,
      "step": 92550
    },
    {
      "epoch": 0.19283333333333333,
      "grad_norm": 0.81772381067276,
      "learning_rate": 0.0002742059795050209,
      "loss": 4.2155,
      "step": 92560
    },
    {
      "epoch": 0.19285416666666666,
      "grad_norm": 0.8012089133262634,
      "learning_rate": 0.0002742004518486939,
      "loss": 4.178,
      "step": 92570
    },
    {
      "epoch": 0.192875,
      "grad_norm": 0.8438450694084167,
      "learning_rate": 0.0002741949236558701,
      "loss": 4.1432,
      "step": 92580
    },
    {
      "epoch": 0.19289583333333332,
      "grad_norm": 0.7959575057029724,
      "learning_rate": 0.00027418939492657347,
      "loss": 3.9439,
      "step": 92590
    },
    {
      "epoch": 0.19291666666666665,
      "grad_norm": 0.8460789322853088,
      "learning_rate": 0.00027418386566082774,
      "loss": 4.3833,
      "step": 92600
    },
    {
      "epoch": 0.1929375,
      "grad_norm": 0.8475528359413147,
      "learning_rate": 0.0002741783358586569,
      "loss": 4.1173,
      "step": 92610
    },
    {
      "epoch": 0.19295833333333334,
      "grad_norm": 0.7483302354812622,
      "learning_rate": 0.00027417280552008476,
      "loss": 3.8997,
      "step": 92620
    },
    {
      "epoch": 0.19297916666666667,
      "grad_norm": 1.2904460430145264,
      "learning_rate": 0.0002741672746451353,
      "loss": 4.1841,
      "step": 92630
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.8149571418762207,
      "learning_rate": 0.0002741617432338323,
      "loss": 4.0082,
      "step": 92640
    },
    {
      "epoch": 0.19302083333333334,
      "grad_norm": 0.8082787990570068,
      "learning_rate": 0.0002741562112861998,
      "loss": 4.1247,
      "step": 92650
    },
    {
      "epoch": 0.19304166666666667,
      "grad_norm": 0.781068742275238,
      "learning_rate": 0.00027415067880226155,
      "loss": 4.0365,
      "step": 92660
    },
    {
      "epoch": 0.1930625,
      "grad_norm": 0.821823239326477,
      "learning_rate": 0.00027414514578204155,
      "loss": 4.0267,
      "step": 92670
    },
    {
      "epoch": 0.19308333333333333,
      "grad_norm": 0.8182571530342102,
      "learning_rate": 0.0002741396122255636,
      "loss": 4.174,
      "step": 92680
    },
    {
      "epoch": 0.19310416666666666,
      "grad_norm": 0.8648881316184998,
      "learning_rate": 0.00027413407813285174,
      "loss": 4.0084,
      "step": 92690
    },
    {
      "epoch": 0.193125,
      "grad_norm": 0.8130515217781067,
      "learning_rate": 0.0002741285435039298,
      "loss": 3.8598,
      "step": 92700
    },
    {
      "epoch": 0.19314583333333332,
      "grad_norm": 1.100975513458252,
      "learning_rate": 0.00027412300833882164,
      "loss": 4.093,
      "step": 92710
    },
    {
      "epoch": 0.19316666666666665,
      "grad_norm": 0.8463243842124939,
      "learning_rate": 0.00027411747263755116,
      "loss": 4.1445,
      "step": 92720
    },
    {
      "epoch": 0.1931875,
      "grad_norm": 0.8164792656898499,
      "learning_rate": 0.00027411193640014244,
      "loss": 4.0532,
      "step": 92730
    },
    {
      "epoch": 0.19320833333333334,
      "grad_norm": 0.7947279214859009,
      "learning_rate": 0.0002741063996266192,
      "loss": 4.0357,
      "step": 92740
    },
    {
      "epoch": 0.19322916666666667,
      "grad_norm": 0.77735435962677,
      "learning_rate": 0.0002741008623170055,
      "loss": 4.1214,
      "step": 92750
    },
    {
      "epoch": 0.19325,
      "grad_norm": 0.9703471064567566,
      "learning_rate": 0.00027409532447132516,
      "loss": 4.1473,
      "step": 92760
    },
    {
      "epoch": 0.19327083333333334,
      "grad_norm": 0.9617034196853638,
      "learning_rate": 0.00027408978608960214,
      "loss": 4.1595,
      "step": 92770
    },
    {
      "epoch": 0.19329166666666667,
      "grad_norm": 0.7401905059814453,
      "learning_rate": 0.00027408424717186036,
      "loss": 4.1471,
      "step": 92780
    },
    {
      "epoch": 0.1933125,
      "grad_norm": 0.7845919132232666,
      "learning_rate": 0.00027407870771812377,
      "loss": 3.8829,
      "step": 92790
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.8308357000350952,
      "learning_rate": 0.0002740731677284163,
      "loss": 3.9509,
      "step": 92800
    },
    {
      "epoch": 0.19335416666666666,
      "grad_norm": 0.8112037777900696,
      "learning_rate": 0.00027406762720276175,
      "loss": 4.0593,
      "step": 92810
    },
    {
      "epoch": 0.193375,
      "grad_norm": 0.7769085168838501,
      "learning_rate": 0.00027406208614118424,
      "loss": 4.037,
      "step": 92820
    },
    {
      "epoch": 0.19339583333333332,
      "grad_norm": 0.7724210023880005,
      "learning_rate": 0.00027405654454370766,
      "loss": 4.047,
      "step": 92830
    },
    {
      "epoch": 0.19341666666666665,
      "grad_norm": 0.7949715256690979,
      "learning_rate": 0.0002740510024103558,
      "loss": 4.0908,
      "step": 92840
    },
    {
      "epoch": 0.1934375,
      "grad_norm": 0.7739090919494629,
      "learning_rate": 0.0002740454597411528,
      "loss": 3.9226,
      "step": 92850
    },
    {
      "epoch": 0.19345833333333334,
      "grad_norm": 0.8611613512039185,
      "learning_rate": 0.0002740399165361225,
      "loss": 3.9679,
      "step": 92860
    },
    {
      "epoch": 0.19347916666666667,
      "grad_norm": 0.7723033428192139,
      "learning_rate": 0.0002740343727952888,
      "loss": 4.1609,
      "step": 92870
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.7845843434333801,
      "learning_rate": 0.0002740288285186758,
      "loss": 3.9576,
      "step": 92880
    },
    {
      "epoch": 0.19352083333333334,
      "grad_norm": 0.7435341477394104,
      "learning_rate": 0.0002740232837063073,
      "loss": 3.9795,
      "step": 92890
    },
    {
      "epoch": 0.19354166666666667,
      "grad_norm": 0.8344957828521729,
      "learning_rate": 0.00027401773835820735,
      "loss": 4.044,
      "step": 92900
    },
    {
      "epoch": 0.1935625,
      "grad_norm": 0.7446497678756714,
      "learning_rate": 0.0002740121924743998,
      "loss": 4.1609,
      "step": 92910
    },
    {
      "epoch": 0.19358333333333333,
      "grad_norm": 0.7844669222831726,
      "learning_rate": 0.0002740066460549087,
      "loss": 4.0448,
      "step": 92920
    },
    {
      "epoch": 0.19360416666666666,
      "grad_norm": 0.8770215511322021,
      "learning_rate": 0.000274001099099758,
      "loss": 4.1802,
      "step": 92930
    },
    {
      "epoch": 0.193625,
      "grad_norm": 0.8917517066001892,
      "learning_rate": 0.00027399555160897163,
      "loss": 4.0808,
      "step": 92940
    },
    {
      "epoch": 0.19364583333333332,
      "grad_norm": 0.7751548886299133,
      "learning_rate": 0.00027399000358257347,
      "loss": 3.8479,
      "step": 92950
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 0.7701559066772461,
      "learning_rate": 0.0002739844550205877,
      "loss": 4.153,
      "step": 92960
    },
    {
      "epoch": 0.1936875,
      "grad_norm": 0.7531595826148987,
      "learning_rate": 0.0002739789059230381,
      "loss": 4.2326,
      "step": 92970
    },
    {
      "epoch": 0.19370833333333334,
      "grad_norm": 0.7531319856643677,
      "learning_rate": 0.00027397335628994866,
      "loss": 4.0301,
      "step": 92980
    },
    {
      "epoch": 0.19372916666666667,
      "grad_norm": 0.8801102638244629,
      "learning_rate": 0.0002739678061213434,
      "loss": 3.9668,
      "step": 92990
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.8461627960205078,
      "learning_rate": 0.00027396225541724637,
      "loss": 4.2788,
      "step": 93000
    },
    {
      "epoch": 0.19375,
      "eval_loss": 3.8239986896514893,
      "eval_runtime": 7.2049,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 93000
    },
    {
      "epoch": 0.19377083333333334,
      "grad_norm": 0.7565168142318726,
      "learning_rate": 0.0002739567041776814,
      "loss": 4.0093,
      "step": 93010
    },
    {
      "epoch": 0.19379166666666667,
      "grad_norm": 0.7902243137359619,
      "learning_rate": 0.00027395115240267255,
      "loss": 3.9597,
      "step": 93020
    },
    {
      "epoch": 0.1938125,
      "grad_norm": 0.9789015054702759,
      "learning_rate": 0.0002739456000922438,
      "loss": 3.9987,
      "step": 93030
    },
    {
      "epoch": 0.19383333333333333,
      "grad_norm": 0.8589679002761841,
      "learning_rate": 0.0002739400472464191,
      "loss": 4.1684,
      "step": 93040
    },
    {
      "epoch": 0.19385416666666666,
      "grad_norm": 0.8113738298416138,
      "learning_rate": 0.0002739344938652224,
      "loss": 4.0399,
      "step": 93050
    },
    {
      "epoch": 0.193875,
      "grad_norm": 0.7659626603126526,
      "learning_rate": 0.0002739289399486778,
      "loss": 4.0133,
      "step": 93060
    },
    {
      "epoch": 0.19389583333333332,
      "grad_norm": 0.7412170171737671,
      "learning_rate": 0.00027392338549680925,
      "loss": 3.9681,
      "step": 93070
    },
    {
      "epoch": 0.19391666666666665,
      "grad_norm": 0.7249529957771301,
      "learning_rate": 0.0002739178305096407,
      "loss": 4.138,
      "step": 93080
    },
    {
      "epoch": 0.1939375,
      "grad_norm": 0.7867005467414856,
      "learning_rate": 0.00027391227498719617,
      "loss": 4.2897,
      "step": 93090
    },
    {
      "epoch": 0.19395833333333334,
      "grad_norm": 0.8140541911125183,
      "learning_rate": 0.0002739067189294997,
      "loss": 4.2125,
      "step": 93100
    },
    {
      "epoch": 0.19397916666666667,
      "grad_norm": 0.8775906562805176,
      "learning_rate": 0.00027390116233657523,
      "loss": 4.1525,
      "step": 93110
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.8087900280952454,
      "learning_rate": 0.00027389560520844675,
      "loss": 4.0607,
      "step": 93120
    },
    {
      "epoch": 0.19402083333333334,
      "grad_norm": 0.7769986391067505,
      "learning_rate": 0.00027389004754513834,
      "loss": 4.0436,
      "step": 93130
    },
    {
      "epoch": 0.19404166666666667,
      "grad_norm": 0.7548762559890747,
      "learning_rate": 0.0002738844893466739,
      "loss": 4.2028,
      "step": 93140
    },
    {
      "epoch": 0.1940625,
      "grad_norm": 0.7579063773155212,
      "learning_rate": 0.00027387893061307756,
      "loss": 4.1521,
      "step": 93150
    },
    {
      "epoch": 0.19408333333333333,
      "grad_norm": 0.6917431950569153,
      "learning_rate": 0.00027387337134437327,
      "loss": 4.1903,
      "step": 93160
    },
    {
      "epoch": 0.19410416666666666,
      "grad_norm": 0.8060645461082458,
      "learning_rate": 0.000273867811540585,
      "loss": 4.0551,
      "step": 93170
    },
    {
      "epoch": 0.194125,
      "grad_norm": 0.7815741300582886,
      "learning_rate": 0.00027386225120173686,
      "loss": 4.1181,
      "step": 93180
    },
    {
      "epoch": 0.19414583333333332,
      "grad_norm": 0.7532389760017395,
      "learning_rate": 0.0002738566903278528,
      "loss": 4.0277,
      "step": 93190
    },
    {
      "epoch": 0.19416666666666665,
      "grad_norm": 0.8224504590034485,
      "learning_rate": 0.0002738511289189569,
      "loss": 4.0604,
      "step": 93200
    },
    {
      "epoch": 0.1941875,
      "grad_norm": 0.9543482065200806,
      "learning_rate": 0.00027384556697507316,
      "loss": 3.9757,
      "step": 93210
    },
    {
      "epoch": 0.19420833333333334,
      "grad_norm": 0.8980084657669067,
      "learning_rate": 0.00027384000449622557,
      "loss": 4.0707,
      "step": 93220
    },
    {
      "epoch": 0.19422916666666667,
      "grad_norm": 0.8574973940849304,
      "learning_rate": 0.00027383444148243815,
      "loss": 4.2427,
      "step": 93230
    },
    {
      "epoch": 0.19425,
      "grad_norm": 0.8713086247444153,
      "learning_rate": 0.000273828877933735,
      "loss": 4.0608,
      "step": 93240
    },
    {
      "epoch": 0.19427083333333334,
      "grad_norm": 0.7746562957763672,
      "learning_rate": 0.0002738233138501401,
      "loss": 4.1994,
      "step": 93250
    },
    {
      "epoch": 0.19429166666666667,
      "grad_norm": 1.3875106573104858,
      "learning_rate": 0.00027381774923167744,
      "loss": 4.1708,
      "step": 93260
    },
    {
      "epoch": 0.1943125,
      "grad_norm": 0.7341024279594421,
      "learning_rate": 0.00027381218407837116,
      "loss": 4.001,
      "step": 93270
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 0.7824889421463013,
      "learning_rate": 0.00027380661839024523,
      "loss": 4.0638,
      "step": 93280
    },
    {
      "epoch": 0.19435416666666666,
      "grad_norm": 0.7880210280418396,
      "learning_rate": 0.0002738010521673238,
      "loss": 4.1773,
      "step": 93290
    },
    {
      "epoch": 0.194375,
      "grad_norm": 0.7761557102203369,
      "learning_rate": 0.00027379548540963075,
      "loss": 4.1734,
      "step": 93300
    },
    {
      "epoch": 0.19439583333333332,
      "grad_norm": 0.768447995185852,
      "learning_rate": 0.0002737899181171902,
      "loss": 4.0861,
      "step": 93310
    },
    {
      "epoch": 0.19441666666666665,
      "grad_norm": 0.8512250781059265,
      "learning_rate": 0.00027378435029002627,
      "loss": 4.0976,
      "step": 93320
    },
    {
      "epoch": 0.1944375,
      "grad_norm": 0.8526445627212524,
      "learning_rate": 0.00027377878192816286,
      "loss": 3.9425,
      "step": 93330
    },
    {
      "epoch": 0.19445833333333334,
      "grad_norm": 0.8162125945091248,
      "learning_rate": 0.0002737732130316242,
      "loss": 4.0067,
      "step": 93340
    },
    {
      "epoch": 0.19447916666666668,
      "grad_norm": 0.706824004650116,
      "learning_rate": 0.00027376764360043413,
      "loss": 4.274,
      "step": 93350
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.830726146697998,
      "learning_rate": 0.00027376207363461694,
      "loss": 4.2643,
      "step": 93360
    },
    {
      "epoch": 0.19452083333333334,
      "grad_norm": 0.8344564437866211,
      "learning_rate": 0.0002737565031341965,
      "loss": 4.07,
      "step": 93370
    },
    {
      "epoch": 0.19454166666666667,
      "grad_norm": 0.8744246363639832,
      "learning_rate": 0.00027375093209919705,
      "loss": 4.0465,
      "step": 93380
    },
    {
      "epoch": 0.1945625,
      "grad_norm": 0.870795726776123,
      "learning_rate": 0.0002737453605296424,
      "loss": 4.139,
      "step": 93390
    },
    {
      "epoch": 0.19458333333333333,
      "grad_norm": 0.8712577223777771,
      "learning_rate": 0.0002737397884255569,
      "loss": 4.2228,
      "step": 93400
    },
    {
      "epoch": 0.19460416666666666,
      "grad_norm": 0.7999395132064819,
      "learning_rate": 0.0002737342157869645,
      "loss": 4.0968,
      "step": 93410
    },
    {
      "epoch": 0.194625,
      "grad_norm": 0.7705698013305664,
      "learning_rate": 0.00027372864261388923,
      "loss": 3.9596,
      "step": 93420
    },
    {
      "epoch": 0.19464583333333332,
      "grad_norm": 0.810508668422699,
      "learning_rate": 0.0002737230689063552,
      "loss": 3.9167,
      "step": 93430
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.7166005373001099,
      "learning_rate": 0.0002737174946643865,
      "loss": 3.9688,
      "step": 93440
    },
    {
      "epoch": 0.1946875,
      "grad_norm": 0.7683188915252686,
      "learning_rate": 0.0002737119198880072,
      "loss": 3.8956,
      "step": 93450
    },
    {
      "epoch": 0.19470833333333334,
      "grad_norm": 0.8280608057975769,
      "learning_rate": 0.00027370634457724133,
      "loss": 4.1076,
      "step": 93460
    },
    {
      "epoch": 0.19472916666666668,
      "grad_norm": 0.9748682379722595,
      "learning_rate": 0.00027370076873211305,
      "loss": 3.9274,
      "step": 93470
    },
    {
      "epoch": 0.19475,
      "grad_norm": 0.8930444121360779,
      "learning_rate": 0.0002736951923526464,
      "loss": 4.2413,
      "step": 93480
    },
    {
      "epoch": 0.19477083333333334,
      "grad_norm": 0.7692378163337708,
      "learning_rate": 0.0002736896154388655,
      "loss": 4.0035,
      "step": 93490
    },
    {
      "epoch": 0.19479166666666667,
      "grad_norm": 0.8225904703140259,
      "learning_rate": 0.0002736840379907944,
      "loss": 4.0027,
      "step": 93500
    },
    {
      "epoch": 0.1948125,
      "grad_norm": 0.7518354654312134,
      "learning_rate": 0.0002736784600084572,
      "loss": 4.0247,
      "step": 93510
    },
    {
      "epoch": 0.19483333333333333,
      "grad_norm": 1.6376820802688599,
      "learning_rate": 0.00027367288149187806,
      "loss": 3.9632,
      "step": 93520
    },
    {
      "epoch": 0.19485416666666666,
      "grad_norm": 0.9059153199195862,
      "learning_rate": 0.000273667302441081,
      "loss": 4.1252,
      "step": 93530
    },
    {
      "epoch": 0.194875,
      "grad_norm": 0.8133431673049927,
      "learning_rate": 0.0002736617228560901,
      "loss": 4.1953,
      "step": 93540
    },
    {
      "epoch": 0.19489583333333332,
      "grad_norm": 0.883027195930481,
      "learning_rate": 0.0002736561427369296,
      "loss": 4.1229,
      "step": 93550
    },
    {
      "epoch": 0.19491666666666665,
      "grad_norm": 0.9155953526496887,
      "learning_rate": 0.0002736505620836234,
      "loss": 4.1027,
      "step": 93560
    },
    {
      "epoch": 0.1949375,
      "grad_norm": 0.7651931047439575,
      "learning_rate": 0.0002736449808961958,
      "loss": 3.8924,
      "step": 93570
    },
    {
      "epoch": 0.19495833333333334,
      "grad_norm": 0.8434445261955261,
      "learning_rate": 0.0002736393991746708,
      "loss": 4.0823,
      "step": 93580
    },
    {
      "epoch": 0.19497916666666668,
      "grad_norm": 0.8479905128479004,
      "learning_rate": 0.0002736338169190725,
      "loss": 4.0446,
      "step": 93590
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.890256941318512,
      "learning_rate": 0.0002736282341294251,
      "loss": 4.1764,
      "step": 93600
    },
    {
      "epoch": 0.19502083333333334,
      "grad_norm": 0.7977705597877502,
      "learning_rate": 0.0002736226508057526,
      "loss": 3.8939,
      "step": 93610
    },
    {
      "epoch": 0.19504166666666667,
      "grad_norm": 1.0028116703033447,
      "learning_rate": 0.0002736170669480793,
      "loss": 4.2021,
      "step": 93620
    },
    {
      "epoch": 0.1950625,
      "grad_norm": 0.7844282984733582,
      "learning_rate": 0.0002736114825564291,
      "loss": 4.0629,
      "step": 93630
    },
    {
      "epoch": 0.19508333333333333,
      "grad_norm": 0.7714745998382568,
      "learning_rate": 0.00027360589763082623,
      "loss": 4.1339,
      "step": 93640
    },
    {
      "epoch": 0.19510416666666666,
      "grad_norm": 0.8572016954421997,
      "learning_rate": 0.0002736003121712948,
      "loss": 3.9463,
      "step": 93650
    },
    {
      "epoch": 0.195125,
      "grad_norm": 0.7064626216888428,
      "learning_rate": 0.000273594726177859,
      "loss": 3.9827,
      "step": 93660
    },
    {
      "epoch": 0.19514583333333332,
      "grad_norm": 0.8357344269752502,
      "learning_rate": 0.0002735891396505429,
      "loss": 4.1322,
      "step": 93670
    },
    {
      "epoch": 0.19516666666666665,
      "grad_norm": 0.8504316210746765,
      "learning_rate": 0.0002735835525893706,
      "loss": 4.0355,
      "step": 93680
    },
    {
      "epoch": 0.1951875,
      "grad_norm": 0.7541447281837463,
      "learning_rate": 0.00027357796499436626,
      "loss": 4.0595,
      "step": 93690
    },
    {
      "epoch": 0.19520833333333334,
      "grad_norm": 0.7791979908943176,
      "learning_rate": 0.0002735723768655541,
      "loss": 4.0812,
      "step": 93700
    },
    {
      "epoch": 0.19522916666666668,
      "grad_norm": 0.7754725813865662,
      "learning_rate": 0.00027356678820295813,
      "loss": 4.1066,
      "step": 93710
    },
    {
      "epoch": 0.19525,
      "grad_norm": 0.9273662567138672,
      "learning_rate": 0.00027356119900660256,
      "loss": 3.9596,
      "step": 93720
    },
    {
      "epoch": 0.19527083333333334,
      "grad_norm": 0.7794941663742065,
      "learning_rate": 0.0002735556092765115,
      "loss": 3.9888,
      "step": 93730
    },
    {
      "epoch": 0.19529166666666667,
      "grad_norm": 0.7797770500183105,
      "learning_rate": 0.00027355001901270917,
      "loss": 4.1496,
      "step": 93740
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 0.797327995300293,
      "learning_rate": 0.0002735444282152196,
      "loss": 4.1125,
      "step": 93750
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 0.7924789190292358,
      "learning_rate": 0.000273538836884067,
      "loss": 4.194,
      "step": 93760
    },
    {
      "epoch": 0.19535416666666666,
      "grad_norm": 0.7904629707336426,
      "learning_rate": 0.0002735332450192756,
      "loss": 3.8379,
      "step": 93770
    },
    {
      "epoch": 0.195375,
      "grad_norm": 0.8294367790222168,
      "learning_rate": 0.0002735276526208694,
      "loss": 4.0691,
      "step": 93780
    },
    {
      "epoch": 0.19539583333333332,
      "grad_norm": 0.8250601291656494,
      "learning_rate": 0.00027352205968887266,
      "loss": 3.8701,
      "step": 93790
    },
    {
      "epoch": 0.19541666666666666,
      "grad_norm": 0.8564147353172302,
      "learning_rate": 0.00027351646622330954,
      "loss": 4.2889,
      "step": 93800
    },
    {
      "epoch": 0.1954375,
      "grad_norm": 0.789616584777832,
      "learning_rate": 0.00027351087222420413,
      "loss": 4.1706,
      "step": 93810
    },
    {
      "epoch": 0.19545833333333335,
      "grad_norm": 1.0078896284103394,
      "learning_rate": 0.00027350527769158067,
      "loss": 4.2458,
      "step": 93820
    },
    {
      "epoch": 0.19547916666666668,
      "grad_norm": 0.8312621712684631,
      "learning_rate": 0.00027349968262546334,
      "loss": 4.0195,
      "step": 93830
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.7617730498313904,
      "learning_rate": 0.0002734940870258762,
      "loss": 4.0673,
      "step": 93840
    },
    {
      "epoch": 0.19552083333333334,
      "grad_norm": 0.7974388003349304,
      "learning_rate": 0.0002734884908928435,
      "loss": 4.0065,
      "step": 93850
    },
    {
      "epoch": 0.19554166666666667,
      "grad_norm": 0.7515712976455688,
      "learning_rate": 0.0002734828942263894,
      "loss": 4.1569,
      "step": 93860
    },
    {
      "epoch": 0.1955625,
      "grad_norm": 0.8399726152420044,
      "learning_rate": 0.00027347729702653813,
      "loss": 4.1194,
      "step": 93870
    },
    {
      "epoch": 0.19558333333333333,
      "grad_norm": 0.8283847570419312,
      "learning_rate": 0.00027347169929331375,
      "loss": 3.9578,
      "step": 93880
    },
    {
      "epoch": 0.19560416666666666,
      "grad_norm": 0.852072536945343,
      "learning_rate": 0.0002734661010267405,
      "loss": 4.0254,
      "step": 93890
    },
    {
      "epoch": 0.195625,
      "grad_norm": 0.784454882144928,
      "learning_rate": 0.0002734605022268426,
      "loss": 4.146,
      "step": 93900
    },
    {
      "epoch": 0.19564583333333332,
      "grad_norm": 0.7547793984413147,
      "learning_rate": 0.0002734549028936442,
      "loss": 4.0974,
      "step": 93910
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 0.7860662937164307,
      "learning_rate": 0.00027344930302716943,
      "loss": 4.1208,
      "step": 93920
    },
    {
      "epoch": 0.1956875,
      "grad_norm": 0.7582306861877441,
      "learning_rate": 0.00027344370262744256,
      "loss": 3.9698,
      "step": 93930
    },
    {
      "epoch": 0.19570833333333335,
      "grad_norm": 0.9818486571311951,
      "learning_rate": 0.00027343810169448777,
      "loss": 4.1419,
      "step": 93940
    },
    {
      "epoch": 0.19572916666666668,
      "grad_norm": 0.8924025893211365,
      "learning_rate": 0.0002734325002283293,
      "loss": 4.1523,
      "step": 93950
    },
    {
      "epoch": 0.19575,
      "grad_norm": 0.7982458472251892,
      "learning_rate": 0.0002734268982289912,
      "loss": 4.0326,
      "step": 93960
    },
    {
      "epoch": 0.19577083333333334,
      "grad_norm": 0.8119502663612366,
      "learning_rate": 0.0002734212956964978,
      "loss": 4.113,
      "step": 93970
    },
    {
      "epoch": 0.19579166666666667,
      "grad_norm": 0.7914912700653076,
      "learning_rate": 0.00027341569263087317,
      "loss": 4.0281,
      "step": 93980
    },
    {
      "epoch": 0.1958125,
      "grad_norm": 0.8241627216339111,
      "learning_rate": 0.0002734100890321417,
      "loss": 4.1431,
      "step": 93990
    },
    {
      "epoch": 0.19583333333333333,
      "grad_norm": 0.8069867491722107,
      "learning_rate": 0.0002734044849003275,
      "loss": 4.1649,
      "step": 94000
    },
    {
      "epoch": 0.19583333333333333,
      "eval_loss": 3.83648419380188,
      "eval_runtime": 7.2153,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 94000
    },
    {
      "epoch": 0.19585416666666666,
      "grad_norm": 0.8114016056060791,
      "learning_rate": 0.0002733988802354547,
      "loss": 4.1286,
      "step": 94010
    },
    {
      "epoch": 0.195875,
      "grad_norm": 0.747734785079956,
      "learning_rate": 0.0002733932750375476,
      "loss": 4.182,
      "step": 94020
    },
    {
      "epoch": 0.19589583333333332,
      "grad_norm": 0.7838202118873596,
      "learning_rate": 0.00027338766930663045,
      "loss": 4.066,
      "step": 94030
    },
    {
      "epoch": 0.19591666666666666,
      "grad_norm": 0.8904224038124084,
      "learning_rate": 0.00027338206304272736,
      "loss": 4.0022,
      "step": 94040
    },
    {
      "epoch": 0.1959375,
      "grad_norm": 0.8002927303314209,
      "learning_rate": 0.00027337645624586263,
      "loss": 4.1174,
      "step": 94050
    },
    {
      "epoch": 0.19595833333333335,
      "grad_norm": 0.8443108201026917,
      "learning_rate": 0.0002733708489160604,
      "loss": 4.0991,
      "step": 94060
    },
    {
      "epoch": 0.19597916666666668,
      "grad_norm": 0.8211760520935059,
      "learning_rate": 0.00027336524105334495,
      "loss": 3.8156,
      "step": 94070
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.8421331644058228,
      "learning_rate": 0.0002733596326577405,
      "loss": 3.9623,
      "step": 94080
    },
    {
      "epoch": 0.19602083333333334,
      "grad_norm": 0.8249264359474182,
      "learning_rate": 0.0002733540237292713,
      "loss": 4.2339,
      "step": 94090
    },
    {
      "epoch": 0.19604166666666667,
      "grad_norm": 0.769403874874115,
      "learning_rate": 0.0002733484142679615,
      "loss": 4.3551,
      "step": 94100
    },
    {
      "epoch": 0.1960625,
      "grad_norm": 0.9987229108810425,
      "learning_rate": 0.00027334280427383534,
      "loss": 4.2304,
      "step": 94110
    },
    {
      "epoch": 0.19608333333333333,
      "grad_norm": 0.8630918264389038,
      "learning_rate": 0.0002733371937469172,
      "loss": 4.0907,
      "step": 94120
    },
    {
      "epoch": 0.19610416666666666,
      "grad_norm": 0.79463130235672,
      "learning_rate": 0.00027333158268723107,
      "loss": 4.1275,
      "step": 94130
    },
    {
      "epoch": 0.196125,
      "grad_norm": 0.7515931129455566,
      "learning_rate": 0.0002733259710948014,
      "loss": 4.0037,
      "step": 94140
    },
    {
      "epoch": 0.19614583333333332,
      "grad_norm": 0.7336545586585999,
      "learning_rate": 0.00027332035896965236,
      "loss": 4.1517,
      "step": 94150
    },
    {
      "epoch": 0.19616666666666666,
      "grad_norm": 0.8240501880645752,
      "learning_rate": 0.0002733147463118081,
      "loss": 4.0196,
      "step": 94160
    },
    {
      "epoch": 0.1961875,
      "grad_norm": 0.8212359547615051,
      "learning_rate": 0.000273309133121293,
      "loss": 4.1143,
      "step": 94170
    },
    {
      "epoch": 0.19620833333333335,
      "grad_norm": 0.8835207223892212,
      "learning_rate": 0.0002733035193981313,
      "loss": 4.075,
      "step": 94180
    },
    {
      "epoch": 0.19622916666666668,
      "grad_norm": 0.8829875588417053,
      "learning_rate": 0.0002732979051423472,
      "loss": 4.098,
      "step": 94190
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.838016152381897,
      "learning_rate": 0.0002732922903539649,
      "loss": 3.9804,
      "step": 94200
    },
    {
      "epoch": 0.19627083333333334,
      "grad_norm": 0.8118611574172974,
      "learning_rate": 0.00027328667503300874,
      "loss": 4.0398,
      "step": 94210
    },
    {
      "epoch": 0.19629166666666667,
      "grad_norm": 0.845731794834137,
      "learning_rate": 0.0002732810591795029,
      "loss": 4.1832,
      "step": 94220
    },
    {
      "epoch": 0.1963125,
      "grad_norm": 0.8626313209533691,
      "learning_rate": 0.0002732754427934717,
      "loss": 4.097,
      "step": 94230
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 0.7987069487571716,
      "learning_rate": 0.00027326982587493943,
      "loss": 3.9977,
      "step": 94240
    },
    {
      "epoch": 0.19635416666666666,
      "grad_norm": 0.7878769636154175,
      "learning_rate": 0.00027326420842393025,
      "loss": 4.183,
      "step": 94250
    },
    {
      "epoch": 0.196375,
      "grad_norm": 0.8180264830589294,
      "learning_rate": 0.0002732585904404685,
      "loss": 4.0428,
      "step": 94260
    },
    {
      "epoch": 0.19639583333333333,
      "grad_norm": 0.7246956825256348,
      "learning_rate": 0.00027325297192457845,
      "loss": 4.2551,
      "step": 94270
    },
    {
      "epoch": 0.19641666666666666,
      "grad_norm": 0.8925074338912964,
      "learning_rate": 0.0002732473528762843,
      "loss": 4.0889,
      "step": 94280
    },
    {
      "epoch": 0.1964375,
      "grad_norm": 0.9095484018325806,
      "learning_rate": 0.00027324173329561045,
      "loss": 4.1139,
      "step": 94290
    },
    {
      "epoch": 0.19645833333333335,
      "grad_norm": 0.7518903613090515,
      "learning_rate": 0.000273236113182581,
      "loss": 3.8554,
      "step": 94300
    },
    {
      "epoch": 0.19647916666666668,
      "grad_norm": 0.8735262751579285,
      "learning_rate": 0.0002732304925372204,
      "loss": 4.1718,
      "step": 94310
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.784743070602417,
      "learning_rate": 0.0002732248713595528,
      "loss": 4.0429,
      "step": 94320
    },
    {
      "epoch": 0.19652083333333334,
      "grad_norm": 0.7850537300109863,
      "learning_rate": 0.00027321924964960253,
      "loss": 4.1557,
      "step": 94330
    },
    {
      "epoch": 0.19654166666666667,
      "grad_norm": 0.8628331422805786,
      "learning_rate": 0.0002732136274073939,
      "loss": 4.1743,
      "step": 94340
    },
    {
      "epoch": 0.1965625,
      "grad_norm": 0.8310613632202148,
      "learning_rate": 0.0002732080046329512,
      "loss": 4.2618,
      "step": 94350
    },
    {
      "epoch": 0.19658333333333333,
      "grad_norm": 0.7976582050323486,
      "learning_rate": 0.0002732023813262986,
      "loss": 3.9073,
      "step": 94360
    },
    {
      "epoch": 0.19660416666666666,
      "grad_norm": 0.8401394486427307,
      "learning_rate": 0.0002731967574874606,
      "loss": 4.1872,
      "step": 94370
    },
    {
      "epoch": 0.196625,
      "grad_norm": 0.7890869975090027,
      "learning_rate": 0.00027319113311646126,
      "loss": 3.8824,
      "step": 94380
    },
    {
      "epoch": 0.19664583333333333,
      "grad_norm": 0.8079408407211304,
      "learning_rate": 0.00027318550821332506,
      "loss": 4.0456,
      "step": 94390
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.7765531539916992,
      "learning_rate": 0.00027317988277807614,
      "loss": 4.067,
      "step": 94400
    },
    {
      "epoch": 0.1966875,
      "grad_norm": 1.396937370300293,
      "learning_rate": 0.00027317425681073896,
      "loss": 4.0455,
      "step": 94410
    },
    {
      "epoch": 0.19670833333333335,
      "grad_norm": 0.9881860017776489,
      "learning_rate": 0.00027316863031133775,
      "loss": 4.14,
      "step": 94420
    },
    {
      "epoch": 0.19672916666666668,
      "grad_norm": 0.7800525426864624,
      "learning_rate": 0.0002731630032798968,
      "loss": 4.1511,
      "step": 94430
    },
    {
      "epoch": 0.19675,
      "grad_norm": 0.9039857983589172,
      "learning_rate": 0.0002731573757164404,
      "loss": 4.1268,
      "step": 94440
    },
    {
      "epoch": 0.19677083333333334,
      "grad_norm": 0.849601686000824,
      "learning_rate": 0.0002731517476209929,
      "loss": 3.8336,
      "step": 94450
    },
    {
      "epoch": 0.19679166666666667,
      "grad_norm": 0.9898260235786438,
      "learning_rate": 0.00027314611899357854,
      "loss": 4.1375,
      "step": 94460
    },
    {
      "epoch": 0.1968125,
      "grad_norm": 0.8114457726478577,
      "learning_rate": 0.0002731404898342218,
      "loss": 4.0725,
      "step": 94470
    },
    {
      "epoch": 0.19683333333333333,
      "grad_norm": 0.7894630432128906,
      "learning_rate": 0.00027313486014294685,
      "loss": 4.2384,
      "step": 94480
    },
    {
      "epoch": 0.19685416666666666,
      "grad_norm": 0.7357164025306702,
      "learning_rate": 0.00027312922991977803,
      "loss": 4.0585,
      "step": 94490
    },
    {
      "epoch": 0.196875,
      "grad_norm": 0.8153685331344604,
      "learning_rate": 0.00027312359916473964,
      "loss": 4.2888,
      "step": 94500
    },
    {
      "epoch": 0.19689583333333333,
      "grad_norm": 0.7606809139251709,
      "learning_rate": 0.00027311796787785606,
      "loss": 4.2562,
      "step": 94510
    },
    {
      "epoch": 0.19691666666666666,
      "grad_norm": 0.8019193410873413,
      "learning_rate": 0.00027311233605915164,
      "loss": 4.2276,
      "step": 94520
    },
    {
      "epoch": 0.1969375,
      "grad_norm": 0.7948675751686096,
      "learning_rate": 0.0002731067037086506,
      "loss": 4.0788,
      "step": 94530
    },
    {
      "epoch": 0.19695833333333335,
      "grad_norm": 0.7819876074790955,
      "learning_rate": 0.00027310107082637736,
      "loss": 4.1614,
      "step": 94540
    },
    {
      "epoch": 0.19697916666666668,
      "grad_norm": 0.8343663811683655,
      "learning_rate": 0.00027309543741235623,
      "loss": 3.963,
      "step": 94550
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.825245201587677,
      "learning_rate": 0.0002730898034666115,
      "loss": 3.9633,
      "step": 94560
    },
    {
      "epoch": 0.19702083333333334,
      "grad_norm": 0.8669081926345825,
      "learning_rate": 0.00027308416898916754,
      "loss": 4.0501,
      "step": 94570
    },
    {
      "epoch": 0.19704166666666667,
      "grad_norm": 0.8096964359283447,
      "learning_rate": 0.0002730785339800487,
      "loss": 3.9632,
      "step": 94580
    },
    {
      "epoch": 0.1970625,
      "grad_norm": 0.8269779086112976,
      "learning_rate": 0.0002730728984392793,
      "loss": 4.3237,
      "step": 94590
    },
    {
      "epoch": 0.19708333333333333,
      "grad_norm": 0.7950183749198914,
      "learning_rate": 0.00027306726236688375,
      "loss": 3.9887,
      "step": 94600
    },
    {
      "epoch": 0.19710416666666666,
      "grad_norm": 0.7796509861946106,
      "learning_rate": 0.00027306162576288634,
      "loss": 4.1688,
      "step": 94610
    },
    {
      "epoch": 0.197125,
      "grad_norm": 0.8518235683441162,
      "learning_rate": 0.0002730559886273114,
      "loss": 4.2108,
      "step": 94620
    },
    {
      "epoch": 0.19714583333333333,
      "grad_norm": 0.7998871207237244,
      "learning_rate": 0.0002730503509601833,
      "loss": 4.0757,
      "step": 94630
    },
    {
      "epoch": 0.19716666666666666,
      "grad_norm": 0.7751455903053284,
      "learning_rate": 0.0002730447127615263,
      "loss": 4.1138,
      "step": 94640
    },
    {
      "epoch": 0.1971875,
      "grad_norm": 0.8186302185058594,
      "learning_rate": 0.0002730390740313649,
      "loss": 4.058,
      "step": 94650
    },
    {
      "epoch": 0.19720833333333335,
      "grad_norm": 0.7821121215820312,
      "learning_rate": 0.0002730334347697235,
      "loss": 4.0823,
      "step": 94660
    },
    {
      "epoch": 0.19722916666666668,
      "grad_norm": 0.8390856981277466,
      "learning_rate": 0.0002730277949766262,
      "loss": 3.9503,
      "step": 94670
    },
    {
      "epoch": 0.19725,
      "grad_norm": 0.724182665348053,
      "learning_rate": 0.00027302215465209765,
      "loss": 4.1232,
      "step": 94680
    },
    {
      "epoch": 0.19727083333333334,
      "grad_norm": 0.7520306706428528,
      "learning_rate": 0.00027301651379616203,
      "loss": 4.0151,
      "step": 94690
    },
    {
      "epoch": 0.19729166666666667,
      "grad_norm": 0.797472357749939,
      "learning_rate": 0.0002730108724088438,
      "loss": 4.2651,
      "step": 94700
    },
    {
      "epoch": 0.1973125,
      "grad_norm": 0.759928822517395,
      "learning_rate": 0.00027300523049016726,
      "loss": 4.1196,
      "step": 94710
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.7895833849906921,
      "learning_rate": 0.0002729995880401568,
      "loss": 4.1061,
      "step": 94720
    },
    {
      "epoch": 0.19735416666666666,
      "grad_norm": 0.7872493863105774,
      "learning_rate": 0.0002729939450588368,
      "loss": 4.2133,
      "step": 94730
    },
    {
      "epoch": 0.197375,
      "grad_norm": 0.8493540287017822,
      "learning_rate": 0.00027298830154623167,
      "loss": 4.1572,
      "step": 94740
    },
    {
      "epoch": 0.19739583333333333,
      "grad_norm": 0.831045389175415,
      "learning_rate": 0.00027298265750236577,
      "loss": 4.0682,
      "step": 94750
    },
    {
      "epoch": 0.19741666666666666,
      "grad_norm": 0.798319399356842,
      "learning_rate": 0.00027297701292726347,
      "loss": 3.9344,
      "step": 94760
    },
    {
      "epoch": 0.1974375,
      "grad_norm": 0.8051132559776306,
      "learning_rate": 0.00027297136782094915,
      "loss": 4.1551,
      "step": 94770
    },
    {
      "epoch": 0.19745833333333335,
      "grad_norm": 0.7198694944381714,
      "learning_rate": 0.00027296572218344717,
      "loss": 4.3044,
      "step": 94780
    },
    {
      "epoch": 0.19747916666666668,
      "grad_norm": 0.7883285880088806,
      "learning_rate": 0.00027296007601478197,
      "loss": 4.181,
      "step": 94790
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.7821948528289795,
      "learning_rate": 0.0002729544293149779,
      "loss": 4.005,
      "step": 94800
    },
    {
      "epoch": 0.19752083333333334,
      "grad_norm": 0.7425816059112549,
      "learning_rate": 0.00027294878208405937,
      "loss": 4.1008,
      "step": 94810
    },
    {
      "epoch": 0.19754166666666667,
      "grad_norm": 0.7831119298934937,
      "learning_rate": 0.0002729431343220507,
      "loss": 4.0452,
      "step": 94820
    },
    {
      "epoch": 0.1975625,
      "grad_norm": 0.9659468531608582,
      "learning_rate": 0.00027293748602897646,
      "loss": 4.016,
      "step": 94830
    },
    {
      "epoch": 0.19758333333333333,
      "grad_norm": 0.8034144639968872,
      "learning_rate": 0.00027293183720486096,
      "loss": 3.8581,
      "step": 94840
    },
    {
      "epoch": 0.19760416666666666,
      "grad_norm": 0.8423346877098083,
      "learning_rate": 0.0002729261878497285,
      "loss": 4.2017,
      "step": 94850
    },
    {
      "epoch": 0.197625,
      "grad_norm": 0.7934087514877319,
      "learning_rate": 0.0002729205379636036,
      "loss": 3.9747,
      "step": 94860
    },
    {
      "epoch": 0.19764583333333333,
      "grad_norm": 0.8290667533874512,
      "learning_rate": 0.0002729148875465106,
      "loss": 4.0545,
      "step": 94870
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 0.9377138614654541,
      "learning_rate": 0.00027290923659847394,
      "loss": 4.0704,
      "step": 94880
    },
    {
      "epoch": 0.1976875,
      "grad_norm": 0.7765331268310547,
      "learning_rate": 0.00027290358511951806,
      "loss": 3.9324,
      "step": 94890
    },
    {
      "epoch": 0.19770833333333335,
      "grad_norm": 0.8751084208488464,
      "learning_rate": 0.0002728979331096673,
      "loss": 4.2182,
      "step": 94900
    },
    {
      "epoch": 0.19772916666666668,
      "grad_norm": 0.757804274559021,
      "learning_rate": 0.00027289228056894617,
      "loss": 4.11,
      "step": 94910
    },
    {
      "epoch": 0.19775,
      "grad_norm": 0.931257426738739,
      "learning_rate": 0.000272886627497379,
      "loss": 3.8384,
      "step": 94920
    },
    {
      "epoch": 0.19777083333333334,
      "grad_norm": 0.7960344552993774,
      "learning_rate": 0.00027288097389499024,
      "loss": 4.0872,
      "step": 94930
    },
    {
      "epoch": 0.19779166666666667,
      "grad_norm": 0.7957929968833923,
      "learning_rate": 0.00027287531976180433,
      "loss": 3.8882,
      "step": 94940
    },
    {
      "epoch": 0.1978125,
      "grad_norm": 0.8496412038803101,
      "learning_rate": 0.00027286966509784563,
      "loss": 4.0644,
      "step": 94950
    },
    {
      "epoch": 0.19783333333333333,
      "grad_norm": 0.8879269957542419,
      "learning_rate": 0.0002728640099031387,
      "loss": 4.0812,
      "step": 94960
    },
    {
      "epoch": 0.19785416666666666,
      "grad_norm": 0.8501294255256653,
      "learning_rate": 0.00027285835417770784,
      "loss": 4.1176,
      "step": 94970
    },
    {
      "epoch": 0.197875,
      "grad_norm": 0.8045133948326111,
      "learning_rate": 0.0002728526979215775,
      "loss": 4.067,
      "step": 94980
    },
    {
      "epoch": 0.19789583333333333,
      "grad_norm": 1.6560213565826416,
      "learning_rate": 0.00027284704113477213,
      "loss": 4.191,
      "step": 94990
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 0.9171658754348755,
      "learning_rate": 0.00027284138381731616,
      "loss": 3.9257,
      "step": 95000
    },
    {
      "epoch": 0.19791666666666666,
      "eval_loss": 3.840153932571411,
      "eval_runtime": 7.2453,
      "eval_samples_per_second": 1.38,
      "eval_steps_per_second": 0.414,
      "step": 95000
    },
    {
      "epoch": 0.1979375,
      "grad_norm": 0.8298556208610535,
      "learning_rate": 0.0002728357259692341,
      "loss": 4.0649,
      "step": 95010
    },
    {
      "epoch": 0.19795833333333332,
      "grad_norm": 0.7591439485549927,
      "learning_rate": 0.00027283006759055024,
      "loss": 3.9987,
      "step": 95020
    },
    {
      "epoch": 0.19797916666666668,
      "grad_norm": 0.7866159081459045,
      "learning_rate": 0.00027282440868128913,
      "loss": 4.0607,
      "step": 95030
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.8766241669654846,
      "learning_rate": 0.0002728187492414752,
      "loss": 4.0156,
      "step": 95040
    },
    {
      "epoch": 0.19802083333333334,
      "grad_norm": 0.8776485919952393,
      "learning_rate": 0.00027281308927113297,
      "loss": 4.1629,
      "step": 95050
    },
    {
      "epoch": 0.19804166666666667,
      "grad_norm": 0.7668585777282715,
      "learning_rate": 0.0002728074287702867,
      "loss": 4.0753,
      "step": 95060
    },
    {
      "epoch": 0.1980625,
      "grad_norm": 0.7388772368431091,
      "learning_rate": 0.000272801767738961,
      "loss": 4.1395,
      "step": 95070
    },
    {
      "epoch": 0.19808333333333333,
      "grad_norm": 0.7728411555290222,
      "learning_rate": 0.0002727961061771803,
      "loss": 3.8311,
      "step": 95080
    },
    {
      "epoch": 0.19810416666666666,
      "grad_norm": 0.8517137169837952,
      "learning_rate": 0.00027279044408496896,
      "loss": 4.0508,
      "step": 95090
    },
    {
      "epoch": 0.198125,
      "grad_norm": 0.8527838587760925,
      "learning_rate": 0.0002727847814623515,
      "loss": 4.031,
      "step": 95100
    },
    {
      "epoch": 0.19814583333333333,
      "grad_norm": 0.7814484238624573,
      "learning_rate": 0.0002727791183093524,
      "loss": 4.0937,
      "step": 95110
    },
    {
      "epoch": 0.19816666666666666,
      "grad_norm": 1.0225166082382202,
      "learning_rate": 0.00027277345462599616,
      "loss": 4.0025,
      "step": 95120
    },
    {
      "epoch": 0.1981875,
      "grad_norm": 0.7197061777114868,
      "learning_rate": 0.00027276779041230715,
      "loss": 4.3163,
      "step": 95130
    },
    {
      "epoch": 0.19820833333333332,
      "grad_norm": 0.8615539073944092,
      "learning_rate": 0.00027276212566830987,
      "loss": 3.9514,
      "step": 95140
    },
    {
      "epoch": 0.19822916666666668,
      "grad_norm": 0.833019495010376,
      "learning_rate": 0.0002727564603940288,
      "loss": 3.9918,
      "step": 95150
    },
    {
      "epoch": 0.19825,
      "grad_norm": 0.8505231738090515,
      "learning_rate": 0.00027275079458948843,
      "loss": 4.104,
      "step": 95160
    },
    {
      "epoch": 0.19827083333333334,
      "grad_norm": 0.8168176412582397,
      "learning_rate": 0.00027274512825471324,
      "loss": 4.0797,
      "step": 95170
    },
    {
      "epoch": 0.19829166666666667,
      "grad_norm": 0.8100387454032898,
      "learning_rate": 0.00027273946138972767,
      "loss": 4.1696,
      "step": 95180
    },
    {
      "epoch": 0.1983125,
      "grad_norm": 0.7729374766349792,
      "learning_rate": 0.0002727337939945562,
      "loss": 4.0757,
      "step": 95190
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 0.7694321274757385,
      "learning_rate": 0.0002727281260692233,
      "loss": 3.9877,
      "step": 95200
    },
    {
      "epoch": 0.19835416666666666,
      "grad_norm": 0.8339294195175171,
      "learning_rate": 0.0002727224576137535,
      "loss": 4.0484,
      "step": 95210
    },
    {
      "epoch": 0.198375,
      "grad_norm": 0.7853124141693115,
      "learning_rate": 0.0002727167886281713,
      "loss": 4.1992,
      "step": 95220
    },
    {
      "epoch": 0.19839583333333333,
      "grad_norm": 0.7922194600105286,
      "learning_rate": 0.00027271111911250103,
      "loss": 4.065,
      "step": 95230
    },
    {
      "epoch": 0.19841666666666666,
      "grad_norm": 0.8077561259269714,
      "learning_rate": 0.00027270544906676737,
      "loss": 4.2632,
      "step": 95240
    },
    {
      "epoch": 0.1984375,
      "grad_norm": 0.7960140109062195,
      "learning_rate": 0.00027269977849099476,
      "loss": 4.1499,
      "step": 95250
    },
    {
      "epoch": 0.19845833333333332,
      "grad_norm": 0.8134769797325134,
      "learning_rate": 0.0002726941073852077,
      "loss": 3.9785,
      "step": 95260
    },
    {
      "epoch": 0.19847916666666668,
      "grad_norm": 0.8669283390045166,
      "learning_rate": 0.00027268843574943056,
      "loss": 3.9881,
      "step": 95270
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.7724703550338745,
      "learning_rate": 0.00027268276358368804,
      "loss": 4.0263,
      "step": 95280
    },
    {
      "epoch": 0.19852083333333334,
      "grad_norm": 0.8359062075614929,
      "learning_rate": 0.00027267709088800446,
      "loss": 4.273,
      "step": 95290
    },
    {
      "epoch": 0.19854166666666667,
      "grad_norm": 0.8345577120780945,
      "learning_rate": 0.00027267141766240444,
      "loss": 4.1231,
      "step": 95300
    },
    {
      "epoch": 0.1985625,
      "grad_norm": 0.8387987017631531,
      "learning_rate": 0.0002726657439069125,
      "loss": 4.0498,
      "step": 95310
    },
    {
      "epoch": 0.19858333333333333,
      "grad_norm": 0.8427444696426392,
      "learning_rate": 0.000272660069621553,
      "loss": 3.9927,
      "step": 95320
    },
    {
      "epoch": 0.19860416666666666,
      "grad_norm": 0.9049769043922424,
      "learning_rate": 0.00027265439480635064,
      "loss": 4.1184,
      "step": 95330
    },
    {
      "epoch": 0.198625,
      "grad_norm": 0.8142593502998352,
      "learning_rate": 0.00027264871946132977,
      "loss": 4.0805,
      "step": 95340
    },
    {
      "epoch": 0.19864583333333333,
      "grad_norm": 0.7728054523468018,
      "learning_rate": 0.000272643043586515,
      "loss": 4.1682,
      "step": 95350
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.8313374519348145,
      "learning_rate": 0.0002726373671819309,
      "loss": 4.0227,
      "step": 95360
    },
    {
      "epoch": 0.1986875,
      "grad_norm": 0.8484329581260681,
      "learning_rate": 0.00027263169024760187,
      "loss": 4.0076,
      "step": 95370
    },
    {
      "epoch": 0.19870833333333332,
      "grad_norm": 0.77115797996521,
      "learning_rate": 0.00027262601278355247,
      "loss": 4.1035,
      "step": 95380
    },
    {
      "epoch": 0.19872916666666668,
      "grad_norm": 0.805493175983429,
      "learning_rate": 0.00027262033478980726,
      "loss": 4.0908,
      "step": 95390
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.8720775246620178,
      "learning_rate": 0.0002726146562663907,
      "loss": 4.0738,
      "step": 95400
    },
    {
      "epoch": 0.19877083333333334,
      "grad_norm": 0.7865287065505981,
      "learning_rate": 0.0002726089772133274,
      "loss": 4.0373,
      "step": 95410
    },
    {
      "epoch": 0.19879166666666667,
      "grad_norm": 0.7835864424705505,
      "learning_rate": 0.0002726032976306418,
      "loss": 4.0185,
      "step": 95420
    },
    {
      "epoch": 0.1988125,
      "grad_norm": 0.891350507736206,
      "learning_rate": 0.0002725976175183585,
      "loss": 4.0977,
      "step": 95430
    },
    {
      "epoch": 0.19883333333333333,
      "grad_norm": 0.8268057107925415,
      "learning_rate": 0.00027259193687650203,
      "loss": 4.1493,
      "step": 95440
    },
    {
      "epoch": 0.19885416666666667,
      "grad_norm": 0.8155099153518677,
      "learning_rate": 0.0002725862557050969,
      "loss": 4.2179,
      "step": 95450
    },
    {
      "epoch": 0.198875,
      "grad_norm": 0.7790567278862,
      "learning_rate": 0.00027258057400416773,
      "loss": 3.8578,
      "step": 95460
    },
    {
      "epoch": 0.19889583333333333,
      "grad_norm": 0.8615493774414062,
      "learning_rate": 0.000272574891773739,
      "loss": 4.2051,
      "step": 95470
    },
    {
      "epoch": 0.19891666666666666,
      "grad_norm": 0.7626338601112366,
      "learning_rate": 0.0002725692090138352,
      "loss": 4.0764,
      "step": 95480
    },
    {
      "epoch": 0.1989375,
      "grad_norm": 0.784608006477356,
      "learning_rate": 0.00027256352572448096,
      "loss": 4.1248,
      "step": 95490
    },
    {
      "epoch": 0.19895833333333332,
      "grad_norm": 0.7669182419776917,
      "learning_rate": 0.0002725578419057008,
      "loss": 3.8804,
      "step": 95500
    },
    {
      "epoch": 0.19897916666666668,
      "grad_norm": 0.8799868822097778,
      "learning_rate": 0.00027255215755751924,
      "loss": 4.1214,
      "step": 95510
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.7820672392845154,
      "learning_rate": 0.0002725464726799609,
      "loss": 4.2463,
      "step": 95520
    },
    {
      "epoch": 0.19902083333333334,
      "grad_norm": 0.8276137709617615,
      "learning_rate": 0.0002725407872730503,
      "loss": 3.9277,
      "step": 95530
    },
    {
      "epoch": 0.19904166666666667,
      "grad_norm": 0.8028682470321655,
      "learning_rate": 0.000272535101336812,
      "loss": 4.0937,
      "step": 95540
    },
    {
      "epoch": 0.1990625,
      "grad_norm": 0.8271220922470093,
      "learning_rate": 0.00027252941487127056,
      "loss": 3.9344,
      "step": 95550
    },
    {
      "epoch": 0.19908333333333333,
      "grad_norm": 0.7829822897911072,
      "learning_rate": 0.0002725237278764506,
      "loss": 3.9961,
      "step": 95560
    },
    {
      "epoch": 0.19910416666666667,
      "grad_norm": 0.8254513144493103,
      "learning_rate": 0.0002725180403523766,
      "loss": 4.1276,
      "step": 95570
    },
    {
      "epoch": 0.199125,
      "grad_norm": 0.9330539703369141,
      "learning_rate": 0.00027251235229907314,
      "loss": 3.987,
      "step": 95580
    },
    {
      "epoch": 0.19914583333333333,
      "grad_norm": 0.7886010408401489,
      "learning_rate": 0.00027250666371656483,
      "loss": 4.1125,
      "step": 95590
    },
    {
      "epoch": 0.19916666666666666,
      "grad_norm": 0.8638255000114441,
      "learning_rate": 0.0002725009746048762,
      "loss": 4.0604,
      "step": 95600
    },
    {
      "epoch": 0.1991875,
      "grad_norm": 0.8154823184013367,
      "learning_rate": 0.0002724952849640319,
      "loss": 3.9447,
      "step": 95610
    },
    {
      "epoch": 0.19920833333333332,
      "grad_norm": 0.8730976581573486,
      "learning_rate": 0.0002724895947940564,
      "loss": 3.8795,
      "step": 95620
    },
    {
      "epoch": 0.19922916666666668,
      "grad_norm": 0.8988018035888672,
      "learning_rate": 0.00027248390409497435,
      "loss": 4.0534,
      "step": 95630
    },
    {
      "epoch": 0.19925,
      "grad_norm": 0.7995308637619019,
      "learning_rate": 0.0002724782128668103,
      "loss": 4.0427,
      "step": 95640
    },
    {
      "epoch": 0.19927083333333334,
      "grad_norm": 0.8686575889587402,
      "learning_rate": 0.0002724725211095889,
      "loss": 4.0289,
      "step": 95650
    },
    {
      "epoch": 0.19929166666666667,
      "grad_norm": 0.7710319757461548,
      "learning_rate": 0.0002724668288233347,
      "loss": 3.9566,
      "step": 95660
    },
    {
      "epoch": 0.1993125,
      "grad_norm": 0.7780218720436096,
      "learning_rate": 0.0002724611360080722,
      "loss": 3.9833,
      "step": 95670
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 0.7607446908950806,
      "learning_rate": 0.0002724554426638261,
      "loss": 4.0873,
      "step": 95680
    },
    {
      "epoch": 0.19935416666666667,
      "grad_norm": 0.8128534555435181,
      "learning_rate": 0.000272449748790621,
      "loss": 4.0519,
      "step": 95690
    },
    {
      "epoch": 0.199375,
      "grad_norm": 0.8570430278778076,
      "learning_rate": 0.0002724440543884814,
      "loss": 4.0835,
      "step": 95700
    },
    {
      "epoch": 0.19939583333333333,
      "grad_norm": 0.821952760219574,
      "learning_rate": 0.00027243835945743204,
      "loss": 4.1637,
      "step": 95710
    },
    {
      "epoch": 0.19941666666666666,
      "grad_norm": 0.7970766425132751,
      "learning_rate": 0.0002724326639974973,
      "loss": 3.931,
      "step": 95720
    },
    {
      "epoch": 0.1994375,
      "grad_norm": 0.8579374551773071,
      "learning_rate": 0.000272426968008702,
      "loss": 4.2582,
      "step": 95730
    },
    {
      "epoch": 0.19945833333333332,
      "grad_norm": 0.7792714834213257,
      "learning_rate": 0.00027242127149107063,
      "loss": 4.0373,
      "step": 95740
    },
    {
      "epoch": 0.19947916666666668,
      "grad_norm": 0.7653776407241821,
      "learning_rate": 0.00027241557444462785,
      "loss": 4.1209,
      "step": 95750
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.7928316593170166,
      "learning_rate": 0.0002724098768693982,
      "loss": 4.0799,
      "step": 95760
    },
    {
      "epoch": 0.19952083333333334,
      "grad_norm": 0.8346452116966248,
      "learning_rate": 0.00027240417876540636,
      "loss": 4.1112,
      "step": 95770
    },
    {
      "epoch": 0.19954166666666667,
      "grad_norm": 0.8104017972946167,
      "learning_rate": 0.0002723984801326769,
      "loss": 3.9551,
      "step": 95780
    },
    {
      "epoch": 0.1995625,
      "grad_norm": 0.8606313467025757,
      "learning_rate": 0.0002723927809712345,
      "loss": 3.8445,
      "step": 95790
    },
    {
      "epoch": 0.19958333333333333,
      "grad_norm": 0.7455201148986816,
      "learning_rate": 0.0002723870812811037,
      "loss": 4.0478,
      "step": 95800
    },
    {
      "epoch": 0.19960416666666667,
      "grad_norm": 0.756736695766449,
      "learning_rate": 0.00027238138106230913,
      "loss": 4.0102,
      "step": 95810
    },
    {
      "epoch": 0.199625,
      "grad_norm": 0.7246311902999878,
      "learning_rate": 0.0002723756803148755,
      "loss": 3.8901,
      "step": 95820
    },
    {
      "epoch": 0.19964583333333333,
      "grad_norm": 0.7968958616256714,
      "learning_rate": 0.00027236997903882734,
      "loss": 4.0392,
      "step": 95830
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 0.8733444809913635,
      "learning_rate": 0.0002723642772341893,
      "loss": 4.1738,
      "step": 95840
    },
    {
      "epoch": 0.1996875,
      "grad_norm": 0.8579761385917664,
      "learning_rate": 0.000272358574900986,
      "loss": 3.9249,
      "step": 95850
    },
    {
      "epoch": 0.19970833333333332,
      "grad_norm": 0.7435718178749084,
      "learning_rate": 0.0002723528720392421,
      "loss": 3.9667,
      "step": 95860
    },
    {
      "epoch": 0.19972916666666668,
      "grad_norm": 0.8397058248519897,
      "learning_rate": 0.00027234716864898224,
      "loss": 3.9962,
      "step": 95870
    },
    {
      "epoch": 0.19975,
      "grad_norm": 0.9005434513092041,
      "learning_rate": 0.000272341464730231,
      "loss": 4.3532,
      "step": 95880
    },
    {
      "epoch": 0.19977083333333334,
      "grad_norm": 0.8623394966125488,
      "learning_rate": 0.00027233576028301316,
      "loss": 4.141,
      "step": 95890
    },
    {
      "epoch": 0.19979166666666667,
      "grad_norm": 0.8058731555938721,
      "learning_rate": 0.00027233005530735314,
      "loss": 3.9061,
      "step": 95900
    },
    {
      "epoch": 0.1998125,
      "grad_norm": 0.9444544911384583,
      "learning_rate": 0.00027232434980327576,
      "loss": 4.0956,
      "step": 95910
    },
    {
      "epoch": 0.19983333333333334,
      "grad_norm": 0.7694886326789856,
      "learning_rate": 0.0002723186437708056,
      "loss": 4.3328,
      "step": 95920
    },
    {
      "epoch": 0.19985416666666667,
      "grad_norm": 0.9043406844139099,
      "learning_rate": 0.0002723129372099673,
      "loss": 3.9564,
      "step": 95930
    },
    {
      "epoch": 0.199875,
      "grad_norm": 0.745613157749176,
      "learning_rate": 0.00027230723012078555,
      "loss": 4.1288,
      "step": 95940
    },
    {
      "epoch": 0.19989583333333333,
      "grad_norm": 0.9260284900665283,
      "learning_rate": 0.000272301522503285,
      "loss": 4.0099,
      "step": 95950
    },
    {
      "epoch": 0.19991666666666666,
      "grad_norm": 0.9406490921974182,
      "learning_rate": 0.0002722958143574902,
      "loss": 4.0649,
      "step": 95960
    },
    {
      "epoch": 0.1999375,
      "grad_norm": 0.8325135111808777,
      "learning_rate": 0.000272290105683426,
      "loss": 4.0819,
      "step": 95970
    },
    {
      "epoch": 0.19995833333333332,
      "grad_norm": 0.7642491459846497,
      "learning_rate": 0.0002722843964811169,
      "loss": 4.1445,
      "step": 95980
    },
    {
      "epoch": 0.19997916666666668,
      "grad_norm": 0.798185408115387,
      "learning_rate": 0.00027227868675058764,
      "loss": 4.1617,
      "step": 95990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7893002033233643,
      "learning_rate": 0.00027227297649186274,
      "loss": 4.0108,
      "step": 96000
    },
    {
      "epoch": 0.2,
      "eval_loss": 3.810171604156494,
      "eval_runtime": 7.1886,
      "eval_samples_per_second": 1.391,
      "eval_steps_per_second": 0.417,
      "step": 96000
    },
    {
      "epoch": 0.20002083333333334,
      "grad_norm": 0.8386664390563965,
      "learning_rate": 0.0002722672657049671,
      "loss": 4.1804,
      "step": 96010
    },
    {
      "epoch": 0.20004166666666667,
      "grad_norm": 0.8567066788673401,
      "learning_rate": 0.00027226155438992523,
      "loss": 4.03,
      "step": 96020
    },
    {
      "epoch": 0.2000625,
      "grad_norm": 0.8187198042869568,
      "learning_rate": 0.00027225584254676185,
      "loss": 4.2444,
      "step": 96030
    },
    {
      "epoch": 0.20008333333333334,
      "grad_norm": 0.8312805891036987,
      "learning_rate": 0.0002722501301755016,
      "loss": 4.0011,
      "step": 96040
    },
    {
      "epoch": 0.20010416666666667,
      "grad_norm": 0.7387194633483887,
      "learning_rate": 0.0002722444172761692,
      "loss": 4.0353,
      "step": 96050
    },
    {
      "epoch": 0.200125,
      "grad_norm": 0.8144421577453613,
      "learning_rate": 0.00027223870384878926,
      "loss": 4.3014,
      "step": 96060
    },
    {
      "epoch": 0.20014583333333333,
      "grad_norm": 0.8564532995223999,
      "learning_rate": 0.0002722329898933865,
      "loss": 4.2122,
      "step": 96070
    },
    {
      "epoch": 0.20016666666666666,
      "grad_norm": 0.7679547071456909,
      "learning_rate": 0.0002722272754099857,
      "loss": 4.0898,
      "step": 96080
    },
    {
      "epoch": 0.2001875,
      "grad_norm": 0.7748097777366638,
      "learning_rate": 0.00027222156039861137,
      "loss": 4.0432,
      "step": 96090
    },
    {
      "epoch": 0.20020833333333332,
      "grad_norm": 0.8669007420539856,
      "learning_rate": 0.00027221584485928835,
      "loss": 4.1228,
      "step": 96100
    },
    {
      "epoch": 0.20022916666666668,
      "grad_norm": 0.790404200553894,
      "learning_rate": 0.0002722101287920412,
      "loss": 3.9768,
      "step": 96110
    },
    {
      "epoch": 0.20025,
      "grad_norm": 0.840419352054596,
      "learning_rate": 0.00027220441219689463,
      "loss": 4.0645,
      "step": 96120
    },
    {
      "epoch": 0.20027083333333334,
      "grad_norm": 0.8227763772010803,
      "learning_rate": 0.00027219869507387343,
      "loss": 4.1531,
      "step": 96130
    },
    {
      "epoch": 0.20029166666666667,
      "grad_norm": 0.7946677803993225,
      "learning_rate": 0.0002721929774230023,
      "loss": 4.0358,
      "step": 96140
    },
    {
      "epoch": 0.2003125,
      "grad_norm": 0.8736187219619751,
      "learning_rate": 0.0002721872592443057,
      "loss": 4.0241,
      "step": 96150
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 0.8632177710533142,
      "learning_rate": 0.00027218154053780866,
      "loss": 4.2342,
      "step": 96160
    },
    {
      "epoch": 0.20035416666666667,
      "grad_norm": 0.7847643494606018,
      "learning_rate": 0.00027217582130353564,
      "loss": 3.8711,
      "step": 96170
    },
    {
      "epoch": 0.200375,
      "grad_norm": 0.7878913879394531,
      "learning_rate": 0.0002721701015415115,
      "loss": 3.8895,
      "step": 96180
    },
    {
      "epoch": 0.20039583333333333,
      "grad_norm": 0.7962784767150879,
      "learning_rate": 0.0002721643812517608,
      "loss": 3.9887,
      "step": 96190
    },
    {
      "epoch": 0.20041666666666666,
      "grad_norm": 0.8020164966583252,
      "learning_rate": 0.0002721586604343084,
      "loss": 4.0321,
      "step": 96200
    },
    {
      "epoch": 0.2004375,
      "grad_norm": 0.823663592338562,
      "learning_rate": 0.00027215293908917893,
      "loss": 4.0134,
      "step": 96210
    },
    {
      "epoch": 0.20045833333333332,
      "grad_norm": 0.8628712892532349,
      "learning_rate": 0.0002721472172163971,
      "loss": 3.9827,
      "step": 96220
    },
    {
      "epoch": 0.20047916666666668,
      "grad_norm": 0.8609367609024048,
      "learning_rate": 0.00027214149481598766,
      "loss": 4.0759,
      "step": 96230
    },
    {
      "epoch": 0.2005,
      "grad_norm": 0.8630335927009583,
      "learning_rate": 0.00027213577188797526,
      "loss": 3.8658,
      "step": 96240
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 0.8042947053909302,
      "learning_rate": 0.00027213004843238466,
      "loss": 4.0099,
      "step": 96250
    },
    {
      "epoch": 0.20054166666666667,
      "grad_norm": 0.9056425094604492,
      "learning_rate": 0.0002721243244492407,
      "loss": 4.1042,
      "step": 96260
    },
    {
      "epoch": 0.2005625,
      "grad_norm": 0.8549700975418091,
      "learning_rate": 0.0002721185999385679,
      "loss": 4.1596,
      "step": 96270
    },
    {
      "epoch": 0.20058333333333334,
      "grad_norm": 0.7869082689285278,
      "learning_rate": 0.00027211287490039115,
      "loss": 4.1172,
      "step": 96280
    },
    {
      "epoch": 0.20060416666666667,
      "grad_norm": 0.7968348860740662,
      "learning_rate": 0.00027210714933473506,
      "loss": 4.0193,
      "step": 96290
    },
    {
      "epoch": 0.200625,
      "grad_norm": 0.7788780331611633,
      "learning_rate": 0.0002721014232416245,
      "loss": 4.1009,
      "step": 96300
    },
    {
      "epoch": 0.20064583333333333,
      "grad_norm": 0.8143462538719177,
      "learning_rate": 0.00027209569662108404,
      "loss": 4.2029,
      "step": 96310
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 0.8215081095695496,
      "learning_rate": 0.0002720899694731385,
      "loss": 3.9751,
      "step": 96320
    },
    {
      "epoch": 0.2006875,
      "grad_norm": 0.8217347860336304,
      "learning_rate": 0.00027208424179781264,
      "loss": 3.998,
      "step": 96330
    },
    {
      "epoch": 0.20070833333333332,
      "grad_norm": 0.8524181842803955,
      "learning_rate": 0.0002720785135951312,
      "loss": 4.0916,
      "step": 96340
    },
    {
      "epoch": 0.20072916666666665,
      "grad_norm": 0.784079372882843,
      "learning_rate": 0.00027207278486511885,
      "loss": 3.9169,
      "step": 96350
    },
    {
      "epoch": 0.20075,
      "grad_norm": 1.0822330713272095,
      "learning_rate": 0.00027206705560780045,
      "loss": 4.2168,
      "step": 96360
    },
    {
      "epoch": 0.20077083333333334,
      "grad_norm": 0.7947441339492798,
      "learning_rate": 0.0002720613258232007,
      "loss": 3.9993,
      "step": 96370
    },
    {
      "epoch": 0.20079166666666667,
      "grad_norm": 0.8055450320243835,
      "learning_rate": 0.0002720555955113443,
      "loss": 4.1467,
      "step": 96380
    },
    {
      "epoch": 0.2008125,
      "grad_norm": 0.815391480922699,
      "learning_rate": 0.00027204986467225595,
      "loss": 3.9219,
      "step": 96390
    },
    {
      "epoch": 0.20083333333333334,
      "grad_norm": 0.8222524523735046,
      "learning_rate": 0.0002720441333059606,
      "loss": 4.0764,
      "step": 96400
    },
    {
      "epoch": 0.20085416666666667,
      "grad_norm": 0.8560808897018433,
      "learning_rate": 0.00027203840141248295,
      "loss": 4.1256,
      "step": 96410
    },
    {
      "epoch": 0.200875,
      "grad_norm": 0.8034775853157043,
      "learning_rate": 0.0002720326689918476,
      "loss": 4.0435,
      "step": 96420
    },
    {
      "epoch": 0.20089583333333333,
      "grad_norm": 0.8113206624984741,
      "learning_rate": 0.0002720269360440795,
      "loss": 4.1353,
      "step": 96430
    },
    {
      "epoch": 0.20091666666666666,
      "grad_norm": 0.8079638481140137,
      "learning_rate": 0.00027202120256920333,
      "loss": 4.2432,
      "step": 96440
    },
    {
      "epoch": 0.2009375,
      "grad_norm": 0.7806891202926636,
      "learning_rate": 0.00027201546856724383,
      "loss": 4.0686,
      "step": 96450
    },
    {
      "epoch": 0.20095833333333332,
      "grad_norm": 0.7731801867485046,
      "learning_rate": 0.00027200973403822585,
      "loss": 4.0393,
      "step": 96460
    },
    {
      "epoch": 0.20097916666666665,
      "grad_norm": 0.9210364818572998,
      "learning_rate": 0.00027200399898217405,
      "loss": 4.0055,
      "step": 96470
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.8191074728965759,
      "learning_rate": 0.0002719982633991133,
      "loss": 4.2166,
      "step": 96480
    },
    {
      "epoch": 0.20102083333333334,
      "grad_norm": 0.8067865967750549,
      "learning_rate": 0.00027199252728906835,
      "loss": 3.9911,
      "step": 96490
    },
    {
      "epoch": 0.20104166666666667,
      "grad_norm": 0.8690824508666992,
      "learning_rate": 0.00027198679065206394,
      "loss": 3.9929,
      "step": 96500
    },
    {
      "epoch": 0.2010625,
      "grad_norm": 0.7734419107437134,
      "learning_rate": 0.0002719810534881249,
      "loss": 3.882,
      "step": 96510
    },
    {
      "epoch": 0.20108333333333334,
      "grad_norm": 0.8096607327461243,
      "learning_rate": 0.000271975315797276,
      "loss": 4.0337,
      "step": 96520
    },
    {
      "epoch": 0.20110416666666667,
      "grad_norm": 0.7648701071739197,
      "learning_rate": 0.0002719695775795421,
      "loss": 4.0162,
      "step": 96530
    },
    {
      "epoch": 0.201125,
      "grad_norm": 0.7503815293312073,
      "learning_rate": 0.00027196383883494775,
      "loss": 4.1064,
      "step": 96540
    },
    {
      "epoch": 0.20114583333333333,
      "grad_norm": 0.8101256489753723,
      "learning_rate": 0.00027195809956351795,
      "loss": 4.1987,
      "step": 96550
    },
    {
      "epoch": 0.20116666666666666,
      "grad_norm": 0.8087408542633057,
      "learning_rate": 0.00027195235976527747,
      "loss": 4.1287,
      "step": 96560
    },
    {
      "epoch": 0.2011875,
      "grad_norm": 0.8362515568733215,
      "learning_rate": 0.000271946619440251,
      "loss": 3.9458,
      "step": 96570
    },
    {
      "epoch": 0.20120833333333332,
      "grad_norm": 0.8638551235198975,
      "learning_rate": 0.00027194087858846346,
      "loss": 4.2144,
      "step": 96580
    },
    {
      "epoch": 0.20122916666666665,
      "grad_norm": 0.7695045471191406,
      "learning_rate": 0.0002719351372099396,
      "loss": 4.0307,
      "step": 96590
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.7855997681617737,
      "learning_rate": 0.0002719293953047042,
      "loss": 4.1275,
      "step": 96600
    },
    {
      "epoch": 0.20127083333333334,
      "grad_norm": 0.8415133953094482,
      "learning_rate": 0.0002719236528727821,
      "loss": 4.1846,
      "step": 96610
    },
    {
      "epoch": 0.20129166666666667,
      "grad_norm": 0.9701976776123047,
      "learning_rate": 0.00027191790991419796,
      "loss": 4.1474,
      "step": 96620
    },
    {
      "epoch": 0.2013125,
      "grad_norm": 0.9207755923271179,
      "learning_rate": 0.0002719121664289768,
      "loss": 4.1875,
      "step": 96630
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 0.8275293111801147,
      "learning_rate": 0.00027190642241714335,
      "loss": 3.9041,
      "step": 96640
    },
    {
      "epoch": 0.20135416666666667,
      "grad_norm": 0.8159192204475403,
      "learning_rate": 0.0002719006778787224,
      "loss": 4.2225,
      "step": 96650
    },
    {
      "epoch": 0.201375,
      "grad_norm": 0.8238793015480042,
      "learning_rate": 0.00027189493281373875,
      "loss": 3.9428,
      "step": 96660
    },
    {
      "epoch": 0.20139583333333333,
      "grad_norm": 0.851318895816803,
      "learning_rate": 0.00027188918722221726,
      "loss": 4.0673,
      "step": 96670
    },
    {
      "epoch": 0.20141666666666666,
      "grad_norm": 0.7898029088973999,
      "learning_rate": 0.0002718834411041827,
      "loss": 3.9347,
      "step": 96680
    },
    {
      "epoch": 0.2014375,
      "grad_norm": 0.7480296492576599,
      "learning_rate": 0.00027187769445966,
      "loss": 4.0172,
      "step": 96690
    },
    {
      "epoch": 0.20145833333333332,
      "grad_norm": 0.7647519707679749,
      "learning_rate": 0.0002718719472886738,
      "loss": 4.053,
      "step": 96700
    },
    {
      "epoch": 0.20147916666666665,
      "grad_norm": 0.7856869101524353,
      "learning_rate": 0.000271866199591249,
      "loss": 4.0595,
      "step": 96710
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.7791488170623779,
      "learning_rate": 0.0002718604513674106,
      "loss": 4.2354,
      "step": 96720
    },
    {
      "epoch": 0.20152083333333334,
      "grad_norm": 0.8102249503135681,
      "learning_rate": 0.0002718547026171832,
      "loss": 4.0304,
      "step": 96730
    },
    {
      "epoch": 0.20154166666666667,
      "grad_norm": 0.8446133136749268,
      "learning_rate": 0.00027184895334059173,
      "loss": 3.9664,
      "step": 96740
    },
    {
      "epoch": 0.2015625,
      "grad_norm": 0.8331587314605713,
      "learning_rate": 0.00027184320353766103,
      "loss": 4.139,
      "step": 96750
    },
    {
      "epoch": 0.20158333333333334,
      "grad_norm": 0.7816557884216309,
      "learning_rate": 0.00027183745320841587,
      "loss": 4.1078,
      "step": 96760
    },
    {
      "epoch": 0.20160416666666667,
      "grad_norm": 0.7772954106330872,
      "learning_rate": 0.0002718317023528812,
      "loss": 3.8967,
      "step": 96770
    },
    {
      "epoch": 0.201625,
      "grad_norm": 0.858920156955719,
      "learning_rate": 0.00027182595097108173,
      "loss": 4.0929,
      "step": 96780
    },
    {
      "epoch": 0.20164583333333333,
      "grad_norm": 0.7644591927528381,
      "learning_rate": 0.00027182019906304245,
      "loss": 4.185,
      "step": 96790
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 0.7491010427474976,
      "learning_rate": 0.00027181444662878804,
      "loss": 4.0865,
      "step": 96800
    },
    {
      "epoch": 0.2016875,
      "grad_norm": 1.0728583335876465,
      "learning_rate": 0.00027180869366834353,
      "loss": 4.0523,
      "step": 96810
    },
    {
      "epoch": 0.20170833333333332,
      "grad_norm": 0.823553740978241,
      "learning_rate": 0.00027180294018173365,
      "loss": 4.0075,
      "step": 96820
    },
    {
      "epoch": 0.20172916666666665,
      "grad_norm": 0.9560333490371704,
      "learning_rate": 0.0002717971861689833,
      "loss": 4.074,
      "step": 96830
    },
    {
      "epoch": 0.20175,
      "grad_norm": 0.814309298992157,
      "learning_rate": 0.0002717914316301173,
      "loss": 4.0337,
      "step": 96840
    },
    {
      "epoch": 0.20177083333333334,
      "grad_norm": 1.02829110622406,
      "learning_rate": 0.0002717856765651605,
      "loss": 4.0408,
      "step": 96850
    },
    {
      "epoch": 0.20179166666666667,
      "grad_norm": 0.7263979315757751,
      "learning_rate": 0.00027177992097413776,
      "loss": 4.1139,
      "step": 96860
    },
    {
      "epoch": 0.2018125,
      "grad_norm": 0.8134010434150696,
      "learning_rate": 0.000271774164857074,
      "loss": 3.9588,
      "step": 96870
    },
    {
      "epoch": 0.20183333333333334,
      "grad_norm": 0.8500458598136902,
      "learning_rate": 0.00027176840821399405,
      "loss": 4.4179,
      "step": 96880
    },
    {
      "epoch": 0.20185416666666667,
      "grad_norm": 0.8242732286453247,
      "learning_rate": 0.00027176265104492277,
      "loss": 4.0587,
      "step": 96890
    },
    {
      "epoch": 0.201875,
      "grad_norm": 0.7677000164985657,
      "learning_rate": 0.00027175689334988507,
      "loss": 4.1805,
      "step": 96900
    },
    {
      "epoch": 0.20189583333333333,
      "grad_norm": 0.8373843431472778,
      "learning_rate": 0.00027175113512890577,
      "loss": 4.0827,
      "step": 96910
    },
    {
      "epoch": 0.20191666666666666,
      "grad_norm": 0.7749556303024292,
      "learning_rate": 0.0002717453763820097,
      "loss": 4.1125,
      "step": 96920
    },
    {
      "epoch": 0.2019375,
      "grad_norm": 0.7574049830436707,
      "learning_rate": 0.00027173961710922186,
      "loss": 4.1078,
      "step": 96930
    },
    {
      "epoch": 0.20195833333333332,
      "grad_norm": 0.8040362000465393,
      "learning_rate": 0.00027173385731056707,
      "loss": 4.045,
      "step": 96940
    },
    {
      "epoch": 0.20197916666666665,
      "grad_norm": 0.8160982728004456,
      "learning_rate": 0.0002717280969860701,
      "loss": 3.9345,
      "step": 96950
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.7584387063980103,
      "learning_rate": 0.00027172233613575607,
      "loss": 4.0086,
      "step": 96960
    },
    {
      "epoch": 0.20202083333333334,
      "grad_norm": 0.7799032330513,
      "learning_rate": 0.0002717165747596496,
      "loss": 4.1535,
      "step": 96970
    },
    {
      "epoch": 0.20204166666666667,
      "grad_norm": 0.7961580157279968,
      "learning_rate": 0.0002717108128577758,
      "loss": 4.3091,
      "step": 96980
    },
    {
      "epoch": 0.2020625,
      "grad_norm": 0.7446858286857605,
      "learning_rate": 0.00027170505043015947,
      "loss": 4.1593,
      "step": 96990
    },
    {
      "epoch": 0.20208333333333334,
      "grad_norm": 0.8188143372535706,
      "learning_rate": 0.0002716992874768254,
      "loss": 4.0671,
      "step": 97000
    },
    {
      "epoch": 0.20208333333333334,
      "eval_loss": 3.8114840984344482,
      "eval_runtime": 7.2372,
      "eval_samples_per_second": 1.382,
      "eval_steps_per_second": 0.415,
      "step": 97000
    },
    {
      "epoch": 0.20210416666666667,
      "grad_norm": 0.8076055645942688,
      "learning_rate": 0.00027169352399779865,
      "loss": 4.2214,
      "step": 97010
    },
    {
      "epoch": 0.202125,
      "grad_norm": 0.7752341628074646,
      "learning_rate": 0.00027168775999310404,
      "loss": 4.0369,
      "step": 97020
    },
    {
      "epoch": 0.20214583333333333,
      "grad_norm": 0.8203482627868652,
      "learning_rate": 0.00027168199546276654,
      "loss": 3.852,
      "step": 97030
    },
    {
      "epoch": 0.20216666666666666,
      "grad_norm": 0.8339908719062805,
      "learning_rate": 0.0002716762304068109,
      "loss": 3.8967,
      "step": 97040
    },
    {
      "epoch": 0.2021875,
      "grad_norm": 0.8623248338699341,
      "learning_rate": 0.0002716704648252621,
      "loss": 4.1239,
      "step": 97050
    },
    {
      "epoch": 0.20220833333333332,
      "grad_norm": 0.7395825386047363,
      "learning_rate": 0.0002716646987181451,
      "loss": 4.0806,
      "step": 97060
    },
    {
      "epoch": 0.20222916666666665,
      "grad_norm": 0.9033839106559753,
      "learning_rate": 0.00027165893208548473,
      "loss": 3.9815,
      "step": 97070
    },
    {
      "epoch": 0.20225,
      "grad_norm": 0.7464567422866821,
      "learning_rate": 0.0002716531649273059,
      "loss": 4.175,
      "step": 97080
    },
    {
      "epoch": 0.20227083333333334,
      "grad_norm": 0.8684966564178467,
      "learning_rate": 0.00027164739724363363,
      "loss": 4.1584,
      "step": 97090
    },
    {
      "epoch": 0.20229166666666668,
      "grad_norm": 0.8292719125747681,
      "learning_rate": 0.0002716416290344927,
      "loss": 3.9188,
      "step": 97100
    },
    {
      "epoch": 0.2023125,
      "grad_norm": 0.8761971592903137,
      "learning_rate": 0.00027163586029990813,
      "loss": 4.2092,
      "step": 97110
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 0.9069449305534363,
      "learning_rate": 0.0002716300910399047,
      "loss": 3.931,
      "step": 97120
    },
    {
      "epoch": 0.20235416666666667,
      "grad_norm": 0.8445494174957275,
      "learning_rate": 0.0002716243212545075,
      "loss": 4.2198,
      "step": 97130
    },
    {
      "epoch": 0.202375,
      "grad_norm": 0.7968681454658508,
      "learning_rate": 0.00027161855094374137,
      "loss": 4.1419,
      "step": 97140
    },
    {
      "epoch": 0.20239583333333333,
      "grad_norm": 0.8193312883377075,
      "learning_rate": 0.00027161278010763123,
      "loss": 4.0547,
      "step": 97150
    },
    {
      "epoch": 0.20241666666666666,
      "grad_norm": 0.9426865577697754,
      "learning_rate": 0.000271607008746202,
      "loss": 4.1593,
      "step": 97160
    },
    {
      "epoch": 0.2024375,
      "grad_norm": 0.8471465110778809,
      "learning_rate": 0.0002716012368594786,
      "loss": 4.0928,
      "step": 97170
    },
    {
      "epoch": 0.20245833333333332,
      "grad_norm": 0.787469208240509,
      "learning_rate": 0.0002715954644474861,
      "loss": 3.9302,
      "step": 97180
    },
    {
      "epoch": 0.20247916666666665,
      "grad_norm": 0.8032261729240417,
      "learning_rate": 0.0002715896915102492,
      "loss": 4.0621,
      "step": 97190
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.8371976017951965,
      "learning_rate": 0.00027158391804779305,
      "loss": 4.1557,
      "step": 97200
    },
    {
      "epoch": 0.20252083333333334,
      "grad_norm": 0.7466803193092346,
      "learning_rate": 0.0002715781440601424,
      "loss": 4.1211,
      "step": 97210
    },
    {
      "epoch": 0.20254166666666668,
      "grad_norm": 0.8382083773612976,
      "learning_rate": 0.0002715723695473224,
      "loss": 4.1037,
      "step": 97220
    },
    {
      "epoch": 0.2025625,
      "grad_norm": 0.8163679838180542,
      "learning_rate": 0.0002715665945093578,
      "loss": 4.0056,
      "step": 97230
    },
    {
      "epoch": 0.20258333333333334,
      "grad_norm": 0.9354762434959412,
      "learning_rate": 0.0002715608189462737,
      "loss": 4.0011,
      "step": 97240
    },
    {
      "epoch": 0.20260416666666667,
      "grad_norm": 0.7882081270217896,
      "learning_rate": 0.00027155504285809493,
      "loss": 3.9484,
      "step": 97250
    },
    {
      "epoch": 0.202625,
      "grad_norm": 0.8803699612617493,
      "learning_rate": 0.00027154926624484653,
      "loss": 4.0202,
      "step": 97260
    },
    {
      "epoch": 0.20264583333333333,
      "grad_norm": 0.8276340365409851,
      "learning_rate": 0.0002715434891065534,
      "loss": 4.0679,
      "step": 97270
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 0.7380028367042542,
      "learning_rate": 0.0002715377114432405,
      "loss": 4.0523,
      "step": 97280
    },
    {
      "epoch": 0.2026875,
      "grad_norm": 0.9920593500137329,
      "learning_rate": 0.0002715319332549328,
      "loss": 4.0072,
      "step": 97290
    },
    {
      "epoch": 0.20270833333333332,
      "grad_norm": 0.7678874135017395,
      "learning_rate": 0.0002715261545416552,
      "loss": 4.0393,
      "step": 97300
    },
    {
      "epoch": 0.20272916666666665,
      "grad_norm": 1.1490436792373657,
      "learning_rate": 0.0002715203753034328,
      "loss": 4.2488,
      "step": 97310
    },
    {
      "epoch": 0.20275,
      "grad_norm": 0.7683571577072144,
      "learning_rate": 0.0002715145955402904,
      "loss": 3.9778,
      "step": 97320
    },
    {
      "epoch": 0.20277083333333334,
      "grad_norm": 0.837619423866272,
      "learning_rate": 0.00027150881525225313,
      "loss": 3.9515,
      "step": 97330
    },
    {
      "epoch": 0.20279166666666668,
      "grad_norm": 0.8620008230209351,
      "learning_rate": 0.00027150303443934583,
      "loss": 3.9671,
      "step": 97340
    },
    {
      "epoch": 0.2028125,
      "grad_norm": 0.7548812627792358,
      "learning_rate": 0.0002714972531015935,
      "loss": 4.0288,
      "step": 97350
    },
    {
      "epoch": 0.20283333333333334,
      "grad_norm": 0.7573193311691284,
      "learning_rate": 0.0002714914712390212,
      "loss": 4.1128,
      "step": 97360
    },
    {
      "epoch": 0.20285416666666667,
      "grad_norm": 0.983451783657074,
      "learning_rate": 0.00027148568885165374,
      "loss": 4.1826,
      "step": 97370
    },
    {
      "epoch": 0.202875,
      "grad_norm": 0.9758443236351013,
      "learning_rate": 0.00027147990593951626,
      "loss": 4.0816,
      "step": 97380
    },
    {
      "epoch": 0.20289583333333333,
      "grad_norm": 0.7627912759780884,
      "learning_rate": 0.00027147412250263364,
      "loss": 4.0598,
      "step": 97390
    },
    {
      "epoch": 0.20291666666666666,
      "grad_norm": 0.765188455581665,
      "learning_rate": 0.0002714683385410309,
      "loss": 4.0481,
      "step": 97400
    },
    {
      "epoch": 0.2029375,
      "grad_norm": 1.0487127304077148,
      "learning_rate": 0.000271462554054733,
      "loss": 4.1197,
      "step": 97410
    },
    {
      "epoch": 0.20295833333333332,
      "grad_norm": 0.7793789505958557,
      "learning_rate": 0.000271456769043765,
      "loss": 4.1971,
      "step": 97420
    },
    {
      "epoch": 0.20297916666666665,
      "grad_norm": 0.7746758460998535,
      "learning_rate": 0.0002714509835081518,
      "loss": 4.2617,
      "step": 97430
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.8100396394729614,
      "learning_rate": 0.00027144519744791835,
      "loss": 4.0772,
      "step": 97440
    },
    {
      "epoch": 0.20302083333333334,
      "grad_norm": 0.8074831962585449,
      "learning_rate": 0.0002714394108630898,
      "loss": 4.0434,
      "step": 97450
    },
    {
      "epoch": 0.20304166666666668,
      "grad_norm": 0.7395986318588257,
      "learning_rate": 0.000271433623753691,
      "loss": 3.9842,
      "step": 97460
    },
    {
      "epoch": 0.2030625,
      "grad_norm": 0.800832986831665,
      "learning_rate": 0.00027142783611974714,
      "loss": 4.1524,
      "step": 97470
    },
    {
      "epoch": 0.20308333333333334,
      "grad_norm": 0.8401407599449158,
      "learning_rate": 0.000271422047961283,
      "loss": 4.0406,
      "step": 97480
    },
    {
      "epoch": 0.20310416666666667,
      "grad_norm": 0.7677399516105652,
      "learning_rate": 0.0002714162592783237,
      "loss": 4.169,
      "step": 97490
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.7933504581451416,
      "learning_rate": 0.0002714104700708942,
      "loss": 4.1611,
      "step": 97500
    },
    {
      "epoch": 0.20314583333333333,
      "grad_norm": 0.9158757925033569,
      "learning_rate": 0.00027140468033901954,
      "loss": 4.0928,
      "step": 97510
    },
    {
      "epoch": 0.20316666666666666,
      "grad_norm": 0.8884355425834656,
      "learning_rate": 0.0002713988900827247,
      "loss": 4.0137,
      "step": 97520
    },
    {
      "epoch": 0.2031875,
      "grad_norm": 0.9278073310852051,
      "learning_rate": 0.00027139309930203473,
      "loss": 4.086,
      "step": 97530
    },
    {
      "epoch": 0.20320833333333332,
      "grad_norm": 0.761596143245697,
      "learning_rate": 0.00027138730799697465,
      "loss": 4.1255,
      "step": 97540
    },
    {
      "epoch": 0.20322916666666666,
      "grad_norm": 0.7696484923362732,
      "learning_rate": 0.0002713815161675694,
      "loss": 4.1433,
      "step": 97550
    },
    {
      "epoch": 0.20325,
      "grad_norm": 0.870914876461029,
      "learning_rate": 0.00027137572381384406,
      "loss": 4.0991,
      "step": 97560
    },
    {
      "epoch": 0.20327083333333335,
      "grad_norm": 0.8086801171302795,
      "learning_rate": 0.00027136993093582364,
      "loss": 4.0616,
      "step": 97570
    },
    {
      "epoch": 0.20329166666666668,
      "grad_norm": 0.7629082202911377,
      "learning_rate": 0.00027136413753353313,
      "loss": 4.0846,
      "step": 97580
    },
    {
      "epoch": 0.2033125,
      "grad_norm": 0.8672618269920349,
      "learning_rate": 0.00027135834360699764,
      "loss": 4.1201,
      "step": 97590
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 0.8793469071388245,
      "learning_rate": 0.0002713525491562421,
      "loss": 3.9893,
      "step": 97600
    },
    {
      "epoch": 0.20335416666666667,
      "grad_norm": 0.7470512390136719,
      "learning_rate": 0.0002713467541812916,
      "loss": 4.0951,
      "step": 97610
    },
    {
      "epoch": 0.203375,
      "grad_norm": 0.8100824952125549,
      "learning_rate": 0.0002713409586821711,
      "loss": 4.0044,
      "step": 97620
    },
    {
      "epoch": 0.20339583333333333,
      "grad_norm": 0.8715262413024902,
      "learning_rate": 0.00027133516265890576,
      "loss": 4.1296,
      "step": 97630
    },
    {
      "epoch": 0.20341666666666666,
      "grad_norm": 0.9481729865074158,
      "learning_rate": 0.00027132936611152055,
      "loss": 3.9006,
      "step": 97640
    },
    {
      "epoch": 0.2034375,
      "grad_norm": 0.7829365730285645,
      "learning_rate": 0.0002713235690400405,
      "loss": 3.9569,
      "step": 97650
    },
    {
      "epoch": 0.20345833333333332,
      "grad_norm": 0.7951616644859314,
      "learning_rate": 0.0002713177714444906,
      "loss": 4.2116,
      "step": 97660
    },
    {
      "epoch": 0.20347916666666666,
      "grad_norm": 0.7513270378112793,
      "learning_rate": 0.00027131197332489593,
      "loss": 4.0393,
      "step": 97670
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.7957310676574707,
      "learning_rate": 0.00027130617468128167,
      "loss": 4.0769,
      "step": 97680
    },
    {
      "epoch": 0.20352083333333335,
      "grad_norm": 0.8647753000259399,
      "learning_rate": 0.00027130037551367266,
      "loss": 4.0155,
      "step": 97690
    },
    {
      "epoch": 0.20354166666666668,
      "grad_norm": 0.7897329330444336,
      "learning_rate": 0.0002712945758220941,
      "loss": 4.215,
      "step": 97700
    },
    {
      "epoch": 0.2035625,
      "grad_norm": 0.7509066462516785,
      "learning_rate": 0.00027128877560657095,
      "loss": 3.9764,
      "step": 97710
    },
    {
      "epoch": 0.20358333333333334,
      "grad_norm": 0.828372061252594,
      "learning_rate": 0.0002712829748671283,
      "loss": 4.0571,
      "step": 97720
    },
    {
      "epoch": 0.20360416666666667,
      "grad_norm": 0.8561181426048279,
      "learning_rate": 0.00027127717360379117,
      "loss": 4.16,
      "step": 97730
    },
    {
      "epoch": 0.203625,
      "grad_norm": 0.8473308086395264,
      "learning_rate": 0.0002712713718165847,
      "loss": 3.9589,
      "step": 97740
    },
    {
      "epoch": 0.20364583333333333,
      "grad_norm": 0.9594402313232422,
      "learning_rate": 0.0002712655695055339,
      "loss": 3.9428,
      "step": 97750
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 0.7472921013832092,
      "learning_rate": 0.00027125976667066384,
      "loss": 4.1538,
      "step": 97760
    },
    {
      "epoch": 0.2036875,
      "grad_norm": 0.7742399573326111,
      "learning_rate": 0.0002712539633119996,
      "loss": 4.0102,
      "step": 97770
    },
    {
      "epoch": 0.20370833333333332,
      "grad_norm": 0.8483085632324219,
      "learning_rate": 0.0002712481594295662,
      "loss": 4.0139,
      "step": 97780
    },
    {
      "epoch": 0.20372916666666666,
      "grad_norm": 0.7897641658782959,
      "learning_rate": 0.00027124235502338877,
      "loss": 3.9553,
      "step": 97790
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.8849038481712341,
      "learning_rate": 0.00027123655009349235,
      "loss": 3.9505,
      "step": 97800
    },
    {
      "epoch": 0.20377083333333335,
      "grad_norm": 0.7503173351287842,
      "learning_rate": 0.000271230744639902,
      "loss": 4.0627,
      "step": 97810
    },
    {
      "epoch": 0.20379166666666668,
      "grad_norm": 0.7722023725509644,
      "learning_rate": 0.00027122493866264287,
      "loss": 4.1101,
      "step": 97820
    },
    {
      "epoch": 0.2038125,
      "grad_norm": 0.7891254425048828,
      "learning_rate": 0.00027121913216173995,
      "loss": 4.0256,
      "step": 97830
    },
    {
      "epoch": 0.20383333333333334,
      "grad_norm": 0.7844682931900024,
      "learning_rate": 0.0002712133251372184,
      "loss": 4.1116,
      "step": 97840
    },
    {
      "epoch": 0.20385416666666667,
      "grad_norm": 0.8522047996520996,
      "learning_rate": 0.00027120751758910323,
      "loss": 4.065,
      "step": 97850
    },
    {
      "epoch": 0.203875,
      "grad_norm": 0.7453283071517944,
      "learning_rate": 0.00027120170951741953,
      "loss": 4.0612,
      "step": 97860
    },
    {
      "epoch": 0.20389583333333333,
      "grad_norm": 0.8518952131271362,
      "learning_rate": 0.0002711959009221925,
      "loss": 4.0079,
      "step": 97870
    },
    {
      "epoch": 0.20391666666666666,
      "grad_norm": 0.7962077856063843,
      "learning_rate": 0.00027119009180344704,
      "loss": 4.2561,
      "step": 97880
    },
    {
      "epoch": 0.2039375,
      "grad_norm": 0.8251843452453613,
      "learning_rate": 0.00027118428216120846,
      "loss": 4.256,
      "step": 97890
    },
    {
      "epoch": 0.20395833333333332,
      "grad_norm": 0.7971840500831604,
      "learning_rate": 0.0002711784719955017,
      "loss": 4.1038,
      "step": 97900
    },
    {
      "epoch": 0.20397916666666666,
      "grad_norm": 0.8215255737304688,
      "learning_rate": 0.00027117266130635194,
      "loss": 4.0746,
      "step": 97910
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.7629347443580627,
      "learning_rate": 0.00027116685009378425,
      "loss": 3.9548,
      "step": 97920
    },
    {
      "epoch": 0.20402083333333335,
      "grad_norm": 0.8452991247177124,
      "learning_rate": 0.00027116103835782366,
      "loss": 4.1958,
      "step": 97930
    },
    {
      "epoch": 0.20404166666666668,
      "grad_norm": 0.8349964022636414,
      "learning_rate": 0.00027115522609849537,
      "loss": 4.0248,
      "step": 97940
    },
    {
      "epoch": 0.2040625,
      "grad_norm": 0.7604135274887085,
      "learning_rate": 0.00027114941331582453,
      "loss": 4.2709,
      "step": 97950
    },
    {
      "epoch": 0.20408333333333334,
      "grad_norm": 0.9047379493713379,
      "learning_rate": 0.0002711436000098361,
      "loss": 4.0671,
      "step": 97960
    },
    {
      "epoch": 0.20410416666666667,
      "grad_norm": 0.8420636057853699,
      "learning_rate": 0.0002711377861805553,
      "loss": 4.1487,
      "step": 97970
    },
    {
      "epoch": 0.204125,
      "grad_norm": 0.8144406080245972,
      "learning_rate": 0.0002711319718280072,
      "loss": 4.2511,
      "step": 97980
    },
    {
      "epoch": 0.20414583333333333,
      "grad_norm": 0.8466789722442627,
      "learning_rate": 0.00027112615695221696,
      "loss": 4.182,
      "step": 97990
    },
    {
      "epoch": 0.20416666666666666,
      "grad_norm": 0.7545883059501648,
      "learning_rate": 0.0002711203415532096,
      "loss": 3.9055,
      "step": 98000
    },
    {
      "epoch": 0.20416666666666666,
      "eval_loss": 3.812427520751953,
      "eval_runtime": 6.8369,
      "eval_samples_per_second": 1.463,
      "eval_steps_per_second": 0.439,
      "step": 98000
    },
    {
      "epoch": 0.2041875,
      "grad_norm": 0.8448140621185303,
      "learning_rate": 0.0002711145256310104,
      "loss": 4.0149,
      "step": 98010
    },
    {
      "epoch": 0.20420833333333333,
      "grad_norm": 0.7895330786705017,
      "learning_rate": 0.00027110870918564434,
      "loss": 4.0433,
      "step": 98020
    },
    {
      "epoch": 0.20422916666666666,
      "grad_norm": 0.8630074262619019,
      "learning_rate": 0.0002711028922171366,
      "loss": 4.0772,
      "step": 98030
    },
    {
      "epoch": 0.20425,
      "grad_norm": 1.413719892501831,
      "learning_rate": 0.0002710970747255123,
      "loss": 4.0189,
      "step": 98040
    },
    {
      "epoch": 0.20427083333333335,
      "grad_norm": 0.835357129573822,
      "learning_rate": 0.0002710912567107965,
      "loss": 4.0465,
      "step": 98050
    },
    {
      "epoch": 0.20429166666666668,
      "grad_norm": 0.9459857940673828,
      "learning_rate": 0.00027108543817301454,
      "loss": 4.166,
      "step": 98060
    },
    {
      "epoch": 0.2043125,
      "grad_norm": 0.7855663299560547,
      "learning_rate": 0.00027107961911219133,
      "loss": 4.0678,
      "step": 98070
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 0.9538577795028687,
      "learning_rate": 0.0002710737995283521,
      "loss": 4.1337,
      "step": 98080
    },
    {
      "epoch": 0.20435416666666667,
      "grad_norm": 0.7657943367958069,
      "learning_rate": 0.00027106797942152197,
      "loss": 4.0594,
      "step": 98090
    },
    {
      "epoch": 0.204375,
      "grad_norm": 0.8041248321533203,
      "learning_rate": 0.00027106215879172616,
      "loss": 4.0826,
      "step": 98100
    },
    {
      "epoch": 0.20439583333333333,
      "grad_norm": 0.8845120668411255,
      "learning_rate": 0.0002710563376389896,
      "loss": 4.0779,
      "step": 98110
    },
    {
      "epoch": 0.20441666666666666,
      "grad_norm": 0.7927308678627014,
      "learning_rate": 0.00027105051596333776,
      "loss": 4.1441,
      "step": 98120
    },
    {
      "epoch": 0.2044375,
      "grad_norm": 0.7618995308876038,
      "learning_rate": 0.00027104469376479546,
      "loss": 4.0606,
      "step": 98130
    },
    {
      "epoch": 0.20445833333333333,
      "grad_norm": 0.8242672681808472,
      "learning_rate": 0.0002710388710433881,
      "loss": 4.1977,
      "step": 98140
    },
    {
      "epoch": 0.20447916666666666,
      "grad_norm": 0.8405149579048157,
      "learning_rate": 0.0002710330477991407,
      "loss": 4.1198,
      "step": 98150
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.7960489392280579,
      "learning_rate": 0.0002710272240320784,
      "loss": 4.1717,
      "step": 98160
    },
    {
      "epoch": 0.20452083333333335,
      "grad_norm": 0.8064775466918945,
      "learning_rate": 0.00027102139974222644,
      "loss": 3.9642,
      "step": 98170
    },
    {
      "epoch": 0.20454166666666668,
      "grad_norm": 0.8752922415733337,
      "learning_rate": 0.0002710155749296099,
      "loss": 4.1121,
      "step": 98180
    },
    {
      "epoch": 0.2045625,
      "grad_norm": 0.8882406949996948,
      "learning_rate": 0.00027100974959425397,
      "loss": 4.066,
      "step": 98190
    },
    {
      "epoch": 0.20458333333333334,
      "grad_norm": 0.8450669050216675,
      "learning_rate": 0.00027100392373618387,
      "loss": 3.9824,
      "step": 98200
    },
    {
      "epoch": 0.20460416666666667,
      "grad_norm": 0.7859504222869873,
      "learning_rate": 0.00027099809735542466,
      "loss": 4.0546,
      "step": 98210
    },
    {
      "epoch": 0.204625,
      "grad_norm": 0.8635774850845337,
      "learning_rate": 0.0002709922704520016,
      "loss": 4.1054,
      "step": 98220
    },
    {
      "epoch": 0.20464583333333333,
      "grad_norm": 0.8090526461601257,
      "learning_rate": 0.00027098644302593985,
      "loss": 4.1662,
      "step": 98230
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 0.8106439113616943,
      "learning_rate": 0.00027098061507726455,
      "loss": 4.2135,
      "step": 98240
    },
    {
      "epoch": 0.2046875,
      "grad_norm": 0.7851656079292297,
      "learning_rate": 0.0002709747866060008,
      "loss": 4.107,
      "step": 98250
    },
    {
      "epoch": 0.20470833333333333,
      "grad_norm": 0.8336992859840393,
      "learning_rate": 0.0002709689576121739,
      "loss": 4.1796,
      "step": 98260
    },
    {
      "epoch": 0.20472916666666666,
      "grad_norm": 0.7656981945037842,
      "learning_rate": 0.00027096312809580907,
      "loss": 4.1664,
      "step": 98270
    },
    {
      "epoch": 0.20475,
      "grad_norm": 0.823201596736908,
      "learning_rate": 0.0002709572980569313,
      "loss": 4.1528,
      "step": 98280
    },
    {
      "epoch": 0.20477083333333335,
      "grad_norm": 0.8591280579566956,
      "learning_rate": 0.00027095146749556593,
      "loss": 4.2512,
      "step": 98290
    },
    {
      "epoch": 0.20479166666666668,
      "grad_norm": 0.7247626185417175,
      "learning_rate": 0.00027094563641173806,
      "loss": 4.0363,
      "step": 98300
    },
    {
      "epoch": 0.2048125,
      "grad_norm": 0.8678160309791565,
      "learning_rate": 0.00027093980480547296,
      "loss": 4.1643,
      "step": 98310
    },
    {
      "epoch": 0.20483333333333334,
      "grad_norm": 0.8777691125869751,
      "learning_rate": 0.00027093397267679577,
      "loss": 3.897,
      "step": 98320
    },
    {
      "epoch": 0.20485416666666667,
      "grad_norm": 0.7582410573959351,
      "learning_rate": 0.00027092814002573166,
      "loss": 4.0538,
      "step": 98330
    },
    {
      "epoch": 0.204875,
      "grad_norm": 0.8391611576080322,
      "learning_rate": 0.00027092230685230587,
      "loss": 4.1018,
      "step": 98340
    },
    {
      "epoch": 0.20489583333333333,
      "grad_norm": 0.9362683892250061,
      "learning_rate": 0.0002709164731565436,
      "loss": 4.0722,
      "step": 98350
    },
    {
      "epoch": 0.20491666666666666,
      "grad_norm": 0.8878235816955566,
      "learning_rate": 0.00027091063893846997,
      "loss": 4.0347,
      "step": 98360
    },
    {
      "epoch": 0.2049375,
      "grad_norm": 0.8386423587799072,
      "learning_rate": 0.00027090480419811027,
      "loss": 4.1823,
      "step": 98370
    },
    {
      "epoch": 0.20495833333333333,
      "grad_norm": 0.7575910091400146,
      "learning_rate": 0.00027089896893548967,
      "loss": 4.218,
      "step": 98380
    },
    {
      "epoch": 0.20497916666666666,
      "grad_norm": 0.7778041958808899,
      "learning_rate": 0.00027089313315063334,
      "loss": 3.9425,
      "step": 98390
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.8603763580322266,
      "learning_rate": 0.0002708872968435666,
      "loss": 3.9661,
      "step": 98400
    },
    {
      "epoch": 0.20502083333333335,
      "grad_norm": 0.8906527757644653,
      "learning_rate": 0.00027088146001431456,
      "loss": 4.1176,
      "step": 98410
    },
    {
      "epoch": 0.20504166666666668,
      "grad_norm": 0.8021489381790161,
      "learning_rate": 0.0002708756226629025,
      "loss": 4.2648,
      "step": 98420
    },
    {
      "epoch": 0.2050625,
      "grad_norm": 0.7394929528236389,
      "learning_rate": 0.0002708697847893555,
      "loss": 4.1349,
      "step": 98430
    },
    {
      "epoch": 0.20508333333333334,
      "grad_norm": 0.7795436382293701,
      "learning_rate": 0.0002708639463936989,
      "loss": 4.2028,
      "step": 98440
    },
    {
      "epoch": 0.20510416666666667,
      "grad_norm": 0.84681636095047,
      "learning_rate": 0.00027085810747595794,
      "loss": 4.1022,
      "step": 98450
    },
    {
      "epoch": 0.205125,
      "grad_norm": 0.7575337886810303,
      "learning_rate": 0.0002708522680361578,
      "loss": 4.0675,
      "step": 98460
    },
    {
      "epoch": 0.20514583333333333,
      "grad_norm": 1.0612373352050781,
      "learning_rate": 0.00027084642807432364,
      "loss": 3.9349,
      "step": 98470
    },
    {
      "epoch": 0.20516666666666666,
      "grad_norm": 0.8204355239868164,
      "learning_rate": 0.0002708405875904808,
      "loss": 4.0182,
      "step": 98480
    },
    {
      "epoch": 0.2051875,
      "grad_norm": 0.8299204707145691,
      "learning_rate": 0.0002708347465846544,
      "loss": 4.0841,
      "step": 98490
    },
    {
      "epoch": 0.20520833333333333,
      "grad_norm": 0.9050764441490173,
      "learning_rate": 0.00027082890505686976,
      "loss": 4.0465,
      "step": 98500
    },
    {
      "epoch": 0.20522916666666666,
      "grad_norm": 0.8144531846046448,
      "learning_rate": 0.00027082306300715213,
      "loss": 4.1197,
      "step": 98510
    },
    {
      "epoch": 0.20525,
      "grad_norm": 0.7565730810165405,
      "learning_rate": 0.0002708172204355266,
      "loss": 4.0387,
      "step": 98520
    },
    {
      "epoch": 0.20527083333333335,
      "grad_norm": 0.8882943391799927,
      "learning_rate": 0.0002708113773420185,
      "loss": 4.0339,
      "step": 98530
    },
    {
      "epoch": 0.20529166666666668,
      "grad_norm": 0.8129797577857971,
      "learning_rate": 0.00027080553372665314,
      "loss": 4.1479,
      "step": 98540
    },
    {
      "epoch": 0.2053125,
      "grad_norm": 0.7119548916816711,
      "learning_rate": 0.00027079968958945564,
      "loss": 4.3287,
      "step": 98550
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 0.8444187045097351,
      "learning_rate": 0.00027079384493045136,
      "loss": 4.133,
      "step": 98560
    },
    {
      "epoch": 0.20535416666666667,
      "grad_norm": 0.7887744903564453,
      "learning_rate": 0.0002707879997496654,
      "loss": 4.1572,
      "step": 98570
    },
    {
      "epoch": 0.205375,
      "grad_norm": 0.7941632270812988,
      "learning_rate": 0.00027078215404712316,
      "loss": 4.0855,
      "step": 98580
    },
    {
      "epoch": 0.20539583333333333,
      "grad_norm": 0.8625057935714722,
      "learning_rate": 0.00027077630782284975,
      "loss": 4.0718,
      "step": 98590
    },
    {
      "epoch": 0.20541666666666666,
      "grad_norm": 0.8230882287025452,
      "learning_rate": 0.00027077046107687057,
      "loss": 4.0923,
      "step": 98600
    },
    {
      "epoch": 0.2054375,
      "grad_norm": 0.8019950985908508,
      "learning_rate": 0.00027076461380921076,
      "loss": 3.9484,
      "step": 98610
    },
    {
      "epoch": 0.20545833333333333,
      "grad_norm": 0.8194530010223389,
      "learning_rate": 0.0002707587660198957,
      "loss": 4.2238,
      "step": 98620
    },
    {
      "epoch": 0.20547916666666666,
      "grad_norm": 0.8002209663391113,
      "learning_rate": 0.00027075291770895047,
      "loss": 4.1573,
      "step": 98630
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.9613043665885925,
      "learning_rate": 0.0002707470688764004,
      "loss": 4.1583,
      "step": 98640
    },
    {
      "epoch": 0.20552083333333335,
      "grad_norm": 0.7615858316421509,
      "learning_rate": 0.00027074121952227093,
      "loss": 4.1567,
      "step": 98650
    },
    {
      "epoch": 0.20554166666666668,
      "grad_norm": 0.873214066028595,
      "learning_rate": 0.00027073536964658713,
      "loss": 3.9901,
      "step": 98660
    },
    {
      "epoch": 0.2055625,
      "grad_norm": 0.7878700494766235,
      "learning_rate": 0.0002707295192493743,
      "loss": 4.0618,
      "step": 98670
    },
    {
      "epoch": 0.20558333333333334,
      "grad_norm": 0.8319757580757141,
      "learning_rate": 0.0002707236683306577,
      "loss": 4.0507,
      "step": 98680
    },
    {
      "epoch": 0.20560416666666667,
      "grad_norm": 0.8526924252510071,
      "learning_rate": 0.0002707178168904627,
      "loss": 4.015,
      "step": 98690
    },
    {
      "epoch": 0.205625,
      "grad_norm": 0.8355780243873596,
      "learning_rate": 0.00027071196492881445,
      "loss": 4.0642,
      "step": 98700
    },
    {
      "epoch": 0.20564583333333333,
      "grad_norm": 1.3014802932739258,
      "learning_rate": 0.0002707061124457384,
      "loss": 4.078,
      "step": 98710
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 0.8593719601631165,
      "learning_rate": 0.0002707002594412596,
      "loss": 4.0595,
      "step": 98720
    },
    {
      "epoch": 0.2056875,
      "grad_norm": 0.8214181661605835,
      "learning_rate": 0.00027069440591540354,
      "loss": 3.9436,
      "step": 98730
    },
    {
      "epoch": 0.20570833333333333,
      "grad_norm": 0.8621090650558472,
      "learning_rate": 0.0002706885518681954,
      "loss": 4.0745,
      "step": 98740
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 0.8099132776260376,
      "learning_rate": 0.00027068269729966046,
      "loss": 3.98,
      "step": 98750
    },
    {
      "epoch": 0.20575,
      "grad_norm": 0.7673031687736511,
      "learning_rate": 0.00027067684220982404,
      "loss": 4.1099,
      "step": 98760
    },
    {
      "epoch": 0.20577083333333332,
      "grad_norm": 0.7507549524307251,
      "learning_rate": 0.00027067098659871146,
      "loss": 4.2513,
      "step": 98770
    },
    {
      "epoch": 0.20579166666666668,
      "grad_norm": 0.8025830388069153,
      "learning_rate": 0.00027066513046634797,
      "loss": 4.0496,
      "step": 98780
    },
    {
      "epoch": 0.2058125,
      "grad_norm": 0.8729033470153809,
      "learning_rate": 0.0002706592738127589,
      "loss": 4.0082,
      "step": 98790
    },
    {
      "epoch": 0.20583333333333334,
      "grad_norm": 0.7881631255149841,
      "learning_rate": 0.0002706534166379695,
      "loss": 4.0124,
      "step": 98800
    },
    {
      "epoch": 0.20585416666666667,
      "grad_norm": 0.7652791738510132,
      "learning_rate": 0.0002706475589420051,
      "loss": 4.1274,
      "step": 98810
    },
    {
      "epoch": 0.205875,
      "grad_norm": 0.8405615091323853,
      "learning_rate": 0.000270641700724891,
      "loss": 4.0412,
      "step": 98820
    },
    {
      "epoch": 0.20589583333333333,
      "grad_norm": 0.778876781463623,
      "learning_rate": 0.0002706358419866525,
      "loss": 4.1359,
      "step": 98830
    },
    {
      "epoch": 0.20591666666666666,
      "grad_norm": 0.7394572496414185,
      "learning_rate": 0.00027062998272731493,
      "loss": 3.9768,
      "step": 98840
    },
    {
      "epoch": 0.2059375,
      "grad_norm": 0.8197138905525208,
      "learning_rate": 0.0002706241229469036,
      "loss": 4.028,
      "step": 98850
    },
    {
      "epoch": 0.20595833333333333,
      "grad_norm": 0.8011717200279236,
      "learning_rate": 0.0002706182626454438,
      "loss": 4.2872,
      "step": 98860
    },
    {
      "epoch": 0.20597916666666666,
      "grad_norm": 0.8168233036994934,
      "learning_rate": 0.0002706124018229608,
      "loss": 4.406,
      "step": 98870
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.8408737182617188,
      "learning_rate": 0.00027060654047948,
      "loss": 4.1944,
      "step": 98880
    },
    {
      "epoch": 0.20602083333333332,
      "grad_norm": 0.7940247058868408,
      "learning_rate": 0.0002706006786150267,
      "loss": 4.2597,
      "step": 98890
    },
    {
      "epoch": 0.20604166666666668,
      "grad_norm": 0.7630335688591003,
      "learning_rate": 0.0002705948162296262,
      "loss": 3.9884,
      "step": 98900
    },
    {
      "epoch": 0.2060625,
      "grad_norm": 0.75555419921875,
      "learning_rate": 0.0002705889533233038,
      "loss": 3.9231,
      "step": 98910
    },
    {
      "epoch": 0.20608333333333334,
      "grad_norm": 0.7663459777832031,
      "learning_rate": 0.0002705830898960849,
      "loss": 4.1142,
      "step": 98920
    },
    {
      "epoch": 0.20610416666666667,
      "grad_norm": 0.8125522136688232,
      "learning_rate": 0.0002705772259479947,
      "loss": 4.1479,
      "step": 98930
    },
    {
      "epoch": 0.206125,
      "grad_norm": 0.7792378664016724,
      "learning_rate": 0.0002705713614790587,
      "loss": 3.9687,
      "step": 98940
    },
    {
      "epoch": 0.20614583333333333,
      "grad_norm": 0.7514743804931641,
      "learning_rate": 0.0002705654964893021,
      "loss": 3.9892,
      "step": 98950
    },
    {
      "epoch": 0.20616666666666666,
      "grad_norm": 0.7219027876853943,
      "learning_rate": 0.0002705596309787503,
      "loss": 4.1654,
      "step": 98960
    },
    {
      "epoch": 0.2061875,
      "grad_norm": 0.8353595733642578,
      "learning_rate": 0.00027055376494742857,
      "loss": 4.0989,
      "step": 98970
    },
    {
      "epoch": 0.20620833333333333,
      "grad_norm": 0.9411745667457581,
      "learning_rate": 0.00027054789839536233,
      "loss": 4.0405,
      "step": 98980
    },
    {
      "epoch": 0.20622916666666666,
      "grad_norm": 0.8005685806274414,
      "learning_rate": 0.0002705420313225769,
      "loss": 4.1306,
      "step": 98990
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.7859548926353455,
      "learning_rate": 0.0002705361637290976,
      "loss": 4.148,
      "step": 99000
    },
    {
      "epoch": 0.20625,
      "eval_loss": 3.810962677001953,
      "eval_runtime": 6.7948,
      "eval_samples_per_second": 1.472,
      "eval_steps_per_second": 0.442,
      "step": 99000
    },
    {
      "epoch": 0.20627083333333332,
      "grad_norm": 0.8421257138252258,
      "learning_rate": 0.00027053029561494973,
      "loss": 4.013,
      "step": 99010
    },
    {
      "epoch": 0.20629166666666668,
      "grad_norm": 0.8900210857391357,
      "learning_rate": 0.00027052442698015876,
      "loss": 4.194,
      "step": 99020
    },
    {
      "epoch": 0.2063125,
      "grad_norm": 0.8246490359306335,
      "learning_rate": 0.00027051855782474996,
      "loss": 4.0589,
      "step": 99030
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 0.8041062355041504,
      "learning_rate": 0.0002705126881487487,
      "loss": 4.1119,
      "step": 99040
    },
    {
      "epoch": 0.20635416666666667,
      "grad_norm": 0.804537832736969,
      "learning_rate": 0.0002705068179521803,
      "loss": 4.1341,
      "step": 99050
    },
    {
      "epoch": 0.206375,
      "grad_norm": 0.8619027137756348,
      "learning_rate": 0.00027050094723507013,
      "loss": 4.2078,
      "step": 99060
    },
    {
      "epoch": 0.20639583333333333,
      "grad_norm": 0.761381983757019,
      "learning_rate": 0.0002704950759974436,
      "loss": 4.0168,
      "step": 99070
    },
    {
      "epoch": 0.20641666666666666,
      "grad_norm": 0.7408987879753113,
      "learning_rate": 0.00027048920423932603,
      "loss": 4.1607,
      "step": 99080
    },
    {
      "epoch": 0.2064375,
      "grad_norm": 0.7131932973861694,
      "learning_rate": 0.0002704833319607428,
      "loss": 4.1424,
      "step": 99090
    },
    {
      "epoch": 0.20645833333333333,
      "grad_norm": 0.8253795504570007,
      "learning_rate": 0.00027047745916171926,
      "loss": 3.9991,
      "step": 99100
    },
    {
      "epoch": 0.20647916666666666,
      "grad_norm": 0.7813677191734314,
      "learning_rate": 0.00027047158584228077,
      "loss": 4.1368,
      "step": 99110
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.7860462069511414,
      "learning_rate": 0.00027046571200245277,
      "loss": 3.9896,
      "step": 99120
    },
    {
      "epoch": 0.20652083333333332,
      "grad_norm": 0.9114986658096313,
      "learning_rate": 0.00027045983764226053,
      "loss": 4.0264,
      "step": 99130
    },
    {
      "epoch": 0.20654166666666668,
      "grad_norm": 0.7799288034439087,
      "learning_rate": 0.0002704539627617295,
      "loss": 3.8512,
      "step": 99140
    },
    {
      "epoch": 0.2065625,
      "grad_norm": 0.8692831993103027,
      "learning_rate": 0.000270448087360885,
      "loss": 4.0009,
      "step": 99150
    },
    {
      "epoch": 0.20658333333333334,
      "grad_norm": 0.7513334155082703,
      "learning_rate": 0.0002704422114397524,
      "loss": 4.0186,
      "step": 99160
    },
    {
      "epoch": 0.20660416666666667,
      "grad_norm": 0.9129453301429749,
      "learning_rate": 0.0002704363349983572,
      "loss": 4.1695,
      "step": 99170
    },
    {
      "epoch": 0.206625,
      "grad_norm": 0.8492989540100098,
      "learning_rate": 0.00027043045803672465,
      "loss": 4.002,
      "step": 99180
    },
    {
      "epoch": 0.20664583333333333,
      "grad_norm": 0.8434721231460571,
      "learning_rate": 0.0002704245805548802,
      "loss": 4.0166,
      "step": 99190
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.7930380702018738,
      "learning_rate": 0.00027041870255284926,
      "loss": 4.148,
      "step": 99200
    },
    {
      "epoch": 0.2066875,
      "grad_norm": 0.8336443901062012,
      "learning_rate": 0.00027041282403065717,
      "loss": 4.1745,
      "step": 99210
    },
    {
      "epoch": 0.20670833333333333,
      "grad_norm": 0.8256901502609253,
      "learning_rate": 0.00027040694498832934,
      "loss": 4.0089,
      "step": 99220
    },
    {
      "epoch": 0.20672916666666666,
      "grad_norm": 0.9344187378883362,
      "learning_rate": 0.00027040106542589124,
      "loss": 4.0349,
      "step": 99230
    },
    {
      "epoch": 0.20675,
      "grad_norm": 0.9026296734809875,
      "learning_rate": 0.0002703951853433681,
      "loss": 3.9693,
      "step": 99240
    },
    {
      "epoch": 0.20677083333333332,
      "grad_norm": 0.795028567314148,
      "learning_rate": 0.00027038930474078545,
      "loss": 4.0455,
      "step": 99250
    },
    {
      "epoch": 0.20679166666666668,
      "grad_norm": 0.7514457106590271,
      "learning_rate": 0.00027038342361816866,
      "loss": 4.0148,
      "step": 99260
    },
    {
      "epoch": 0.2068125,
      "grad_norm": 1.0911539793014526,
      "learning_rate": 0.0002703775419755431,
      "loss": 3.8866,
      "step": 99270
    },
    {
      "epoch": 0.20683333333333334,
      "grad_norm": 0.7519829869270325,
      "learning_rate": 0.00027037165981293426,
      "loss": 4.1612,
      "step": 99280
    },
    {
      "epoch": 0.20685416666666667,
      "grad_norm": 0.7535634636878967,
      "learning_rate": 0.00027036577713036744,
      "loss": 4.0783,
      "step": 99290
    },
    {
      "epoch": 0.206875,
      "grad_norm": 0.736751914024353,
      "learning_rate": 0.0002703598939278681,
      "loss": 4.1357,
      "step": 99300
    },
    {
      "epoch": 0.20689583333333333,
      "grad_norm": 0.8223143219947815,
      "learning_rate": 0.00027035401020546174,
      "loss": 4.0299,
      "step": 99310
    },
    {
      "epoch": 0.20691666666666667,
      "grad_norm": 0.7633805274963379,
      "learning_rate": 0.00027034812596317366,
      "loss": 3.9126,
      "step": 99320
    },
    {
      "epoch": 0.2069375,
      "grad_norm": 0.753191351890564,
      "learning_rate": 0.0002703422412010293,
      "loss": 4.1558,
      "step": 99330
    },
    {
      "epoch": 0.20695833333333333,
      "grad_norm": 0.7704654335975647,
      "learning_rate": 0.0002703363559190541,
      "loss": 4.0877,
      "step": 99340
    },
    {
      "epoch": 0.20697916666666666,
      "grad_norm": 0.9030604362487793,
      "learning_rate": 0.00027033047011727345,
      "loss": 4.0064,
      "step": 99350
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.7969346642494202,
      "learning_rate": 0.0002703245837957128,
      "loss": 4.2285,
      "step": 99360
    },
    {
      "epoch": 0.20702083333333332,
      "grad_norm": 0.8265869617462158,
      "learning_rate": 0.00027031869695439765,
      "loss": 3.9974,
      "step": 99370
    },
    {
      "epoch": 0.20704166666666668,
      "grad_norm": 0.7997647523880005,
      "learning_rate": 0.0002703128095933533,
      "loss": 4.0193,
      "step": 99380
    },
    {
      "epoch": 0.2070625,
      "grad_norm": 0.7658373713493347,
      "learning_rate": 0.0002703069217126052,
      "loss": 4.0101,
      "step": 99390
    },
    {
      "epoch": 0.20708333333333334,
      "grad_norm": 0.8564989566802979,
      "learning_rate": 0.0002703010333121789,
      "loss": 4.0167,
      "step": 99400
    },
    {
      "epoch": 0.20710416666666667,
      "grad_norm": 0.7875422239303589,
      "learning_rate": 0.0002702951443920996,
      "loss": 4.1713,
      "step": 99410
    },
    {
      "epoch": 0.207125,
      "grad_norm": 0.7913838028907776,
      "learning_rate": 0.000270289254952393,
      "loss": 4.0498,
      "step": 99420
    },
    {
      "epoch": 0.20714583333333333,
      "grad_norm": 0.8221259713172913,
      "learning_rate": 0.0002702833649930845,
      "loss": 4.0421,
      "step": 99430
    },
    {
      "epoch": 0.20716666666666667,
      "grad_norm": 0.7665061950683594,
      "learning_rate": 0.0002702774745141994,
      "loss": 3.9316,
      "step": 99440
    },
    {
      "epoch": 0.2071875,
      "grad_norm": 0.8052321672439575,
      "learning_rate": 0.00027027158351576326,
      "loss": 4.2228,
      "step": 99450
    },
    {
      "epoch": 0.20720833333333333,
      "grad_norm": 0.8277950882911682,
      "learning_rate": 0.0002702656919978014,
      "loss": 4.2457,
      "step": 99460
    },
    {
      "epoch": 0.20722916666666666,
      "grad_norm": 0.8181566596031189,
      "learning_rate": 0.0002702597999603394,
      "loss": 3.9992,
      "step": 99470
    },
    {
      "epoch": 0.20725,
      "grad_norm": 0.7659640312194824,
      "learning_rate": 0.0002702539074034027,
      "loss": 4.002,
      "step": 99480
    },
    {
      "epoch": 0.20727083333333332,
      "grad_norm": 0.8328359127044678,
      "learning_rate": 0.0002702480143270167,
      "loss": 3.9323,
      "step": 99490
    },
    {
      "epoch": 0.20729166666666668,
      "grad_norm": 0.8244470357894897,
      "learning_rate": 0.00027024212073120684,
      "loss": 4.0605,
      "step": 99500
    },
    {
      "epoch": 0.2073125,
      "grad_norm": 0.8283696174621582,
      "learning_rate": 0.0002702362266159987,
      "loss": 3.9867,
      "step": 99510
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 0.7933076620101929,
      "learning_rate": 0.00027023033198141756,
      "loss": 3.9511,
      "step": 99520
    },
    {
      "epoch": 0.20735416666666667,
      "grad_norm": 0.924606204032898,
      "learning_rate": 0.000270224436827489,
      "loss": 4.0955,
      "step": 99530
    },
    {
      "epoch": 0.207375,
      "grad_norm": 0.8570465445518494,
      "learning_rate": 0.0002702185411542385,
      "loss": 4.179,
      "step": 99540
    },
    {
      "epoch": 0.20739583333333333,
      "grad_norm": 0.8202679753303528,
      "learning_rate": 0.00027021264496169146,
      "loss": 4.0235,
      "step": 99550
    },
    {
      "epoch": 0.20741666666666667,
      "grad_norm": 0.7586590647697449,
      "learning_rate": 0.00027020674824987335,
      "loss": 4.0593,
      "step": 99560
    },
    {
      "epoch": 0.2074375,
      "grad_norm": 0.7722721695899963,
      "learning_rate": 0.00027020085101880974,
      "loss": 4.0661,
      "step": 99570
    },
    {
      "epoch": 0.20745833333333333,
      "grad_norm": 0.8026862740516663,
      "learning_rate": 0.000270194953268526,
      "loss": 4.2252,
      "step": 99580
    },
    {
      "epoch": 0.20747916666666666,
      "grad_norm": 0.7523157000541687,
      "learning_rate": 0.00027018905499904763,
      "loss": 4.1096,
      "step": 99590
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.9306403398513794,
      "learning_rate": 0.0002701831562104001,
      "loss": 4.1714,
      "step": 99600
    },
    {
      "epoch": 0.20752083333333332,
      "grad_norm": 0.7582337856292725,
      "learning_rate": 0.0002701772569026089,
      "loss": 4.0507,
      "step": 99610
    },
    {
      "epoch": 0.20754166666666668,
      "grad_norm": 0.8299885988235474,
      "learning_rate": 0.00027017135707569956,
      "loss": 4.071,
      "step": 99620
    },
    {
      "epoch": 0.2075625,
      "grad_norm": 0.7977860569953918,
      "learning_rate": 0.0002701654567296975,
      "loss": 3.9967,
      "step": 99630
    },
    {
      "epoch": 0.20758333333333334,
      "grad_norm": 0.7834367156028748,
      "learning_rate": 0.00027015955586462827,
      "loss": 4.2735,
      "step": 99640
    },
    {
      "epoch": 0.20760416666666667,
      "grad_norm": 0.7511730790138245,
      "learning_rate": 0.0002701536544805173,
      "loss": 4.0435,
      "step": 99650
    },
    {
      "epoch": 0.207625,
      "grad_norm": 0.7587065696716309,
      "learning_rate": 0.00027014775257739004,
      "loss": 4.1162,
      "step": 99660
    },
    {
      "epoch": 0.20764583333333334,
      "grad_norm": 0.8206498622894287,
      "learning_rate": 0.00027014185015527214,
      "loss": 4.2866,
      "step": 99670
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 0.8878552317619324,
      "learning_rate": 0.00027013594721418894,
      "loss": 3.9644,
      "step": 99680
    },
    {
      "epoch": 0.2076875,
      "grad_norm": 0.778082013130188,
      "learning_rate": 0.000270130043754166,
      "loss": 4.0601,
      "step": 99690
    },
    {
      "epoch": 0.20770833333333333,
      "grad_norm": 0.9968912601470947,
      "learning_rate": 0.0002701241397752289,
      "loss": 4.002,
      "step": 99700
    },
    {
      "epoch": 0.20772916666666666,
      "grad_norm": 1.9907824993133545,
      "learning_rate": 0.00027011823527740294,
      "loss": 4.1003,
      "step": 99710
    },
    {
      "epoch": 0.20775,
      "grad_norm": 0.8909140825271606,
      "learning_rate": 0.0002701123302607139,
      "loss": 4.1149,
      "step": 99720
    },
    {
      "epoch": 0.20777083333333332,
      "grad_norm": 0.8044661283493042,
      "learning_rate": 0.000270106424725187,
      "loss": 4.0496,
      "step": 99730
    },
    {
      "epoch": 0.20779166666666668,
      "grad_norm": 0.8793696761131287,
      "learning_rate": 0.0002701005186708479,
      "loss": 4.17,
      "step": 99740
    },
    {
      "epoch": 0.2078125,
      "grad_norm": 0.7910366058349609,
      "learning_rate": 0.0002700946120977222,
      "loss": 4.2073,
      "step": 99750
    },
    {
      "epoch": 0.20783333333333334,
      "grad_norm": 0.7667478322982788,
      "learning_rate": 0.0002700887050058352,
      "loss": 4.1513,
      "step": 99760
    },
    {
      "epoch": 0.20785416666666667,
      "grad_norm": 0.7690925598144531,
      "learning_rate": 0.0002700827973952126,
      "loss": 4.0762,
      "step": 99770
    },
    {
      "epoch": 0.207875,
      "grad_norm": 0.8352140784263611,
      "learning_rate": 0.00027007688926587985,
      "loss": 4.049,
      "step": 99780
    },
    {
      "epoch": 0.20789583333333334,
      "grad_norm": 0.7854018211364746,
      "learning_rate": 0.00027007098061786243,
      "loss": 4.1355,
      "step": 99790
    },
    {
      "epoch": 0.20791666666666667,
      "grad_norm": 0.8448268175125122,
      "learning_rate": 0.00027006507145118595,
      "loss": 3.9472,
      "step": 99800
    },
    {
      "epoch": 0.2079375,
      "grad_norm": 0.7136433124542236,
      "learning_rate": 0.0002700591617658758,
      "loss": 4.0512,
      "step": 99810
    },
    {
      "epoch": 0.20795833333333333,
      "grad_norm": 0.7644631862640381,
      "learning_rate": 0.0002700532515619577,
      "loss": 4.0447,
      "step": 99820
    },
    {
      "epoch": 0.20797916666666666,
      "grad_norm": 0.8001064658164978,
      "learning_rate": 0.000270047340839457,
      "loss": 4.1858,
      "step": 99830
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.8129987120628357,
      "learning_rate": 0.00027004142959839933,
      "loss": 4.1725,
      "step": 99840
    },
    {
      "epoch": 0.20802083333333332,
      "grad_norm": 0.7489452362060547,
      "learning_rate": 0.0002700355178388102,
      "loss": 4.3563,
      "step": 99850
    },
    {
      "epoch": 0.20804166666666668,
      "grad_norm": 0.8332993388175964,
      "learning_rate": 0.0002700296055607152,
      "loss": 4.1975,
      "step": 99860
    },
    {
      "epoch": 0.2080625,
      "grad_norm": 0.9098689556121826,
      "learning_rate": 0.00027002369276413977,
      "loss": 3.868,
      "step": 99870
    },
    {
      "epoch": 0.20808333333333334,
      "grad_norm": 0.8071696758270264,
      "learning_rate": 0.0002700177794491095,
      "loss": 4.1307,
      "step": 99880
    },
    {
      "epoch": 0.20810416666666667,
      "grad_norm": 1.5672218799591064,
      "learning_rate": 0.00027001186561564987,
      "loss": 4.0799,
      "step": 99890
    },
    {
      "epoch": 0.208125,
      "grad_norm": 0.7887845635414124,
      "learning_rate": 0.0002700059512637865,
      "loss": 4.1206,
      "step": 99900
    },
    {
      "epoch": 0.20814583333333334,
      "grad_norm": 0.7937926650047302,
      "learning_rate": 0.000270000036393545,
      "loss": 4.0905,
      "step": 99910
    },
    {
      "epoch": 0.20816666666666667,
      "grad_norm": 0.8115390539169312,
      "learning_rate": 0.00026999412100495076,
      "loss": 4.1621,
      "step": 99920
    },
    {
      "epoch": 0.2081875,
      "grad_norm": 0.8473036885261536,
      "learning_rate": 0.0002699882050980294,
      "loss": 4.0135,
      "step": 99930
    },
    {
      "epoch": 0.20820833333333333,
      "grad_norm": 0.8796001672744751,
      "learning_rate": 0.00026998228867280657,
      "loss": 4.3358,
      "step": 99940
    },
    {
      "epoch": 0.20822916666666666,
      "grad_norm": 0.7779619693756104,
      "learning_rate": 0.0002699763717293077,
      "loss": 4.0274,
      "step": 99950
    },
    {
      "epoch": 0.20825,
      "grad_norm": 0.8302751183509827,
      "learning_rate": 0.00026997045426755843,
      "loss": 4.1287,
      "step": 99960
    },
    {
      "epoch": 0.20827083333333332,
      "grad_norm": 0.8644839525222778,
      "learning_rate": 0.00026996453628758425,
      "loss": 4.0498,
      "step": 99970
    },
    {
      "epoch": 0.20829166666666668,
      "grad_norm": 1.0629394054412842,
      "learning_rate": 0.00026995861778941077,
      "loss": 3.917,
      "step": 99980
    },
    {
      "epoch": 0.2083125,
      "grad_norm": 0.8308992385864258,
      "learning_rate": 0.00026995269877306356,
      "loss": 3.9512,
      "step": 99990
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.795128583908081,
      "learning_rate": 0.0002699467792385681,
      "loss": 4.1905,
      "step": 100000
    },
    {
      "epoch": 0.20833333333333334,
      "eval_loss": 3.809674024581909,
      "eval_runtime": 6.8511,
      "eval_samples_per_second": 1.46,
      "eval_steps_per_second": 0.438,
      "step": 100000
    },
    {
      "epoch": 0.20835416666666667,
      "grad_norm": 0.8156437873840332,
      "learning_rate": 0.0002699408591859501,
      "loss": 4.0931,
      "step": 100010
    },
    {
      "epoch": 0.208375,
      "grad_norm": 0.8760050535202026,
      "learning_rate": 0.0002699349386152351,
      "loss": 3.9786,
      "step": 100020
    },
    {
      "epoch": 0.20839583333333334,
      "grad_norm": 0.8158338665962219,
      "learning_rate": 0.0002699290175264486,
      "loss": 4.0491,
      "step": 100030
    },
    {
      "epoch": 0.20841666666666667,
      "grad_norm": 0.7593747973442078,
      "learning_rate": 0.0002699230959196162,
      "loss": 4.0059,
      "step": 100040
    },
    {
      "epoch": 0.2084375,
      "grad_norm": 0.8096494674682617,
      "learning_rate": 0.00026991717379476346,
      "loss": 4.0036,
      "step": 100050
    },
    {
      "epoch": 0.20845833333333333,
      "grad_norm": 0.8288711905479431,
      "learning_rate": 0.00026991125115191606,
      "loss": 4.0311,
      "step": 100060
    },
    {
      "epoch": 0.20847916666666666,
      "grad_norm": 0.7442262768745422,
      "learning_rate": 0.00026990532799109953,
      "loss": 3.7656,
      "step": 100070
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.8499212861061096,
      "learning_rate": 0.00026989940431233934,
      "loss": 4.1455,
      "step": 100080
    },
    {
      "epoch": 0.20852083333333332,
      "grad_norm": 0.7917060256004333,
      "learning_rate": 0.0002698934801156613,
      "loss": 4.0713,
      "step": 100090
    },
    {
      "epoch": 0.20854166666666665,
      "grad_norm": 0.8633978962898254,
      "learning_rate": 0.00026988755540109085,
      "loss": 4.2358,
      "step": 100100
    },
    {
      "epoch": 0.2085625,
      "grad_norm": 0.7988418340682983,
      "learning_rate": 0.00026988163016865356,
      "loss": 4.0361,
      "step": 100110
    },
    {
      "epoch": 0.20858333333333334,
      "grad_norm": 0.8212416768074036,
      "learning_rate": 0.0002698757044183752,
      "loss": 4.0879,
      "step": 100120
    },
    {
      "epoch": 0.20860416666666667,
      "grad_norm": 0.8227691650390625,
      "learning_rate": 0.0002698697781502811,
      "loss": 4.0731,
      "step": 100130
    },
    {
      "epoch": 0.208625,
      "grad_norm": 0.7880371809005737,
      "learning_rate": 0.0002698638513643971,
      "loss": 3.9569,
      "step": 100140
    },
    {
      "epoch": 0.20864583333333334,
      "grad_norm": 0.7896161675453186,
      "learning_rate": 0.0002698579240607487,
      "loss": 3.8707,
      "step": 100150
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 0.8489020466804504,
      "learning_rate": 0.00026985199623936145,
      "loss": 4.0451,
      "step": 100160
    },
    {
      "epoch": 0.2086875,
      "grad_norm": 0.7997751235961914,
      "learning_rate": 0.00026984606790026106,
      "loss": 3.968,
      "step": 100170
    },
    {
      "epoch": 0.20870833333333333,
      "grad_norm": 0.8010528087615967,
      "learning_rate": 0.0002698401390434731,
      "loss": 4.0274,
      "step": 100180
    },
    {
      "epoch": 0.20872916666666666,
      "grad_norm": 1.2767568826675415,
      "learning_rate": 0.0002698342096690232,
      "loss": 3.9532,
      "step": 100190
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.8367512822151184,
      "learning_rate": 0.0002698282797769369,
      "loss": 4.0001,
      "step": 100200
    },
    {
      "epoch": 0.20877083333333332,
      "grad_norm": 0.7907548546791077,
      "learning_rate": 0.0002698223493672399,
      "loss": 3.916,
      "step": 100210
    },
    {
      "epoch": 0.20879166666666665,
      "grad_norm": 0.8723434805870056,
      "learning_rate": 0.00026981641843995774,
      "loss": 4.0564,
      "step": 100220
    },
    {
      "epoch": 0.2088125,
      "grad_norm": 0.7675974369049072,
      "learning_rate": 0.0002698104869951161,
      "loss": 4.16,
      "step": 100230
    },
    {
      "epoch": 0.20883333333333334,
      "grad_norm": 0.9093983173370361,
      "learning_rate": 0.0002698045550327406,
      "loss": 4.2388,
      "step": 100240
    },
    {
      "epoch": 0.20885416666666667,
      "grad_norm": 0.8472443222999573,
      "learning_rate": 0.00026979862255285684,
      "loss": 4.1458,
      "step": 100250
    },
    {
      "epoch": 0.208875,
      "grad_norm": 0.8369888663291931,
      "learning_rate": 0.0002697926895554904,
      "loss": 4.1705,
      "step": 100260
    },
    {
      "epoch": 0.20889583333333334,
      "grad_norm": 0.7716792225837708,
      "learning_rate": 0.00026978675604066697,
      "loss": 3.9965,
      "step": 100270
    },
    {
      "epoch": 0.20891666666666667,
      "grad_norm": 0.7934645414352417,
      "learning_rate": 0.0002697808220084122,
      "loss": 4.2001,
      "step": 100280
    },
    {
      "epoch": 0.2089375,
      "grad_norm": 0.7840795516967773,
      "learning_rate": 0.0002697748874587517,
      "loss": 4.1409,
      "step": 100290
    },
    {
      "epoch": 0.20895833333333333,
      "grad_norm": 0.824366569519043,
      "learning_rate": 0.00026976895239171105,
      "loss": 3.9943,
      "step": 100300
    },
    {
      "epoch": 0.20897916666666666,
      "grad_norm": 0.8798367381095886,
      "learning_rate": 0.000269763016807316,
      "loss": 4.1551,
      "step": 100310
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.777365505695343,
      "learning_rate": 0.0002697570807055921,
      "loss": 3.9205,
      "step": 100320
    },
    {
      "epoch": 0.20902083333333332,
      "grad_norm": 0.8130907416343689,
      "learning_rate": 0.000269751144086565,
      "loss": 3.9616,
      "step": 100330
    },
    {
      "epoch": 0.20904166666666665,
      "grad_norm": 1.0916112661361694,
      "learning_rate": 0.0002697452069502603,
      "loss": 4.0822,
      "step": 100340
    },
    {
      "epoch": 0.2090625,
      "grad_norm": 0.7771181464195251,
      "learning_rate": 0.00026973926929670377,
      "loss": 3.9951,
      "step": 100350
    },
    {
      "epoch": 0.20908333333333334,
      "grad_norm": 0.8190047144889832,
      "learning_rate": 0.00026973333112592104,
      "loss": 4.021,
      "step": 100360
    },
    {
      "epoch": 0.20910416666666667,
      "grad_norm": 0.7884758114814758,
      "learning_rate": 0.00026972739243793766,
      "loss": 4.1414,
      "step": 100370
    },
    {
      "epoch": 0.209125,
      "grad_norm": 0.7535364627838135,
      "learning_rate": 0.00026972145323277927,
      "loss": 4.0322,
      "step": 100380
    },
    {
      "epoch": 0.20914583333333334,
      "grad_norm": 0.7974775433540344,
      "learning_rate": 0.0002697155135104717,
      "loss": 3.9731,
      "step": 100390
    },
    {
      "epoch": 0.20916666666666667,
      "grad_norm": 0.7316473126411438,
      "learning_rate": 0.0002697095732710404,
      "loss": 4.2467,
      "step": 100400
    },
    {
      "epoch": 0.2091875,
      "grad_norm": 0.7768187522888184,
      "learning_rate": 0.00026970363251451124,
      "loss": 4.0562,
      "step": 100410
    },
    {
      "epoch": 0.20920833333333333,
      "grad_norm": 0.8042240142822266,
      "learning_rate": 0.00026969769124090973,
      "loss": 4.0829,
      "step": 100420
    },
    {
      "epoch": 0.20922916666666666,
      "grad_norm": 0.7569006681442261,
      "learning_rate": 0.0002696917494502615,
      "loss": 3.9517,
      "step": 100430
    },
    {
      "epoch": 0.20925,
      "grad_norm": 0.7630941271781921,
      "learning_rate": 0.0002696858071425924,
      "loss": 4.0421,
      "step": 100440
    },
    {
      "epoch": 0.20927083333333332,
      "grad_norm": 0.7144214510917664,
      "learning_rate": 0.00026967986431792793,
      "loss": 4.0448,
      "step": 100450
    },
    {
      "epoch": 0.20929166666666665,
      "grad_norm": 0.7847482562065125,
      "learning_rate": 0.0002696739209762938,
      "loss": 3.9513,
      "step": 100460
    },
    {
      "epoch": 0.2093125,
      "grad_norm": 0.8535838723182678,
      "learning_rate": 0.00026966797711771575,
      "loss": 4.0463,
      "step": 100470
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 0.7587004899978638,
      "learning_rate": 0.00026966203274221936,
      "loss": 4.1197,
      "step": 100480
    },
    {
      "epoch": 0.20935416666666667,
      "grad_norm": 0.8571063280105591,
      "learning_rate": 0.0002696560878498304,
      "loss": 4.121,
      "step": 100490
    },
    {
      "epoch": 0.209375,
      "grad_norm": 1.1460496187210083,
      "learning_rate": 0.00026965014244057444,
      "loss": 4.0197,
      "step": 100500
    },
    {
      "epoch": 0.20939583333333334,
      "grad_norm": 0.7697954177856445,
      "learning_rate": 0.00026964419651447725,
      "loss": 3.959,
      "step": 100510
    },
    {
      "epoch": 0.20941666666666667,
      "grad_norm": 0.7708127498626709,
      "learning_rate": 0.0002696382500715645,
      "loss": 4.1273,
      "step": 100520
    },
    {
      "epoch": 0.2094375,
      "grad_norm": 0.8683107495307922,
      "learning_rate": 0.0002696323031118619,
      "loss": 4.0485,
      "step": 100530
    },
    {
      "epoch": 0.20945833333333333,
      "grad_norm": 0.8694855570793152,
      "learning_rate": 0.00026962635563539507,
      "loss": 4.0734,
      "step": 100540
    },
    {
      "epoch": 0.20947916666666666,
      "grad_norm": 0.7843169569969177,
      "learning_rate": 0.00026962040764218974,
      "loss": 4.0234,
      "step": 100550
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.981024980545044,
      "learning_rate": 0.00026961445913227164,
      "loss": 4.3373,
      "step": 100560
    },
    {
      "epoch": 0.20952083333333332,
      "grad_norm": 0.7711754441261292,
      "learning_rate": 0.0002696085101056664,
      "loss": 4.1916,
      "step": 100570
    },
    {
      "epoch": 0.20954166666666665,
      "grad_norm": 0.8485057353973389,
      "learning_rate": 0.00026960256056239964,
      "loss": 4.0267,
      "step": 100580
    },
    {
      "epoch": 0.2095625,
      "grad_norm": 0.7769684195518494,
      "learning_rate": 0.0002695966105024973,
      "loss": 4.1382,
      "step": 100590
    },
    {
      "epoch": 0.20958333333333334,
      "grad_norm": 0.862193763256073,
      "learning_rate": 0.00026959065992598484,
      "loss": 3.9823,
      "step": 100600
    },
    {
      "epoch": 0.20960416666666667,
      "grad_norm": 0.8222656846046448,
      "learning_rate": 0.0002695847088328881,
      "loss": 3.9156,
      "step": 100610
    },
    {
      "epoch": 0.209625,
      "grad_norm": 0.8064054250717163,
      "learning_rate": 0.00026957875722323277,
      "loss": 4.2572,
      "step": 100620
    },
    {
      "epoch": 0.20964583333333334,
      "grad_norm": 0.8763014078140259,
      "learning_rate": 0.0002695728050970445,
      "loss": 4.0718,
      "step": 100630
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 0.8086429238319397,
      "learning_rate": 0.00026956685245434913,
      "loss": 4.2553,
      "step": 100640
    },
    {
      "epoch": 0.2096875,
      "grad_norm": 0.9009082317352295,
      "learning_rate": 0.0002695608992951722,
      "loss": 3.9359,
      "step": 100650
    },
    {
      "epoch": 0.20970833333333333,
      "grad_norm": 0.8039950728416443,
      "learning_rate": 0.00026955494561953957,
      "loss": 3.9637,
      "step": 100660
    },
    {
      "epoch": 0.20972916666666666,
      "grad_norm": 0.7743781208992004,
      "learning_rate": 0.00026954899142747683,
      "loss": 4.0148,
      "step": 100670
    },
    {
      "epoch": 0.20975,
      "grad_norm": 0.7595789432525635,
      "learning_rate": 0.00026954303671900985,
      "loss": 4.1281,
      "step": 100680
    },
    {
      "epoch": 0.20977083333333332,
      "grad_norm": 0.7884635925292969,
      "learning_rate": 0.0002695370814941642,
      "loss": 4.0007,
      "step": 100690
    },
    {
      "epoch": 0.20979166666666665,
      "grad_norm": 0.7702404856681824,
      "learning_rate": 0.0002695311257529657,
      "loss": 4.1147,
      "step": 100700
    },
    {
      "epoch": 0.2098125,
      "grad_norm": 1.0172030925750732,
      "learning_rate": 0.00026952516949544004,
      "loss": 3.9665,
      "step": 100710
    },
    {
      "epoch": 0.20983333333333334,
      "grad_norm": 0.7437588572502136,
      "learning_rate": 0.00026951921272161297,
      "loss": 4.0274,
      "step": 100720
    },
    {
      "epoch": 0.20985416666666667,
      "grad_norm": 0.7677798271179199,
      "learning_rate": 0.00026951325543151023,
      "loss": 4.2059,
      "step": 100730
    },
    {
      "epoch": 0.209875,
      "grad_norm": 0.8163479566574097,
      "learning_rate": 0.0002695072976251575,
      "loss": 4.1223,
      "step": 100740
    },
    {
      "epoch": 0.20989583333333334,
      "grad_norm": 0.7879549860954285,
      "learning_rate": 0.00026950133930258056,
      "loss": 4.0604,
      "step": 100750
    },
    {
      "epoch": 0.20991666666666667,
      "grad_norm": 0.7887284159660339,
      "learning_rate": 0.0002694953804638052,
      "loss": 4.1121,
      "step": 100760
    },
    {
      "epoch": 0.2099375,
      "grad_norm": 0.8238734602928162,
      "learning_rate": 0.00026948942110885697,
      "loss": 4.0675,
      "step": 100770
    },
    {
      "epoch": 0.20995833333333333,
      "grad_norm": 0.8156412243843079,
      "learning_rate": 0.0002694834612377618,
      "loss": 3.9388,
      "step": 100780
    },
    {
      "epoch": 0.20997916666666666,
      "grad_norm": 0.7639725208282471,
      "learning_rate": 0.0002694775008505454,
      "loss": 3.9532,
      "step": 100790
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7556912302970886,
      "learning_rate": 0.0002694715399472335,
      "loss": 3.9573,
      "step": 100800
    },
    {
      "epoch": 0.21002083333333332,
      "grad_norm": 0.8329985737800598,
      "learning_rate": 0.00026946557852785175,
      "loss": 4.0551,
      "step": 100810
    },
    {
      "epoch": 0.21004166666666665,
      "grad_norm": 0.8289855122566223,
      "learning_rate": 0.00026945961659242604,
      "loss": 4.0454,
      "step": 100820
    },
    {
      "epoch": 0.2100625,
      "grad_norm": 1.0041273832321167,
      "learning_rate": 0.00026945365414098206,
      "loss": 4.2714,
      "step": 100830
    },
    {
      "epoch": 0.21008333333333334,
      "grad_norm": 0.7038298845291138,
      "learning_rate": 0.0002694476911735456,
      "loss": 4.0376,
      "step": 100840
    },
    {
      "epoch": 0.21010416666666668,
      "grad_norm": 0.9236478209495544,
      "learning_rate": 0.0002694417276901424,
      "loss": 3.8262,
      "step": 100850
    },
    {
      "epoch": 0.210125,
      "grad_norm": 0.8002549409866333,
      "learning_rate": 0.00026943576369079815,
      "loss": 4.0451,
      "step": 100860
    },
    {
      "epoch": 0.21014583333333334,
      "grad_norm": 0.8642582893371582,
      "learning_rate": 0.00026942979917553875,
      "loss": 4.1297,
      "step": 100870
    },
    {
      "epoch": 0.21016666666666667,
      "grad_norm": 0.8076508045196533,
      "learning_rate": 0.00026942383414438987,
      "loss": 3.8045,
      "step": 100880
    },
    {
      "epoch": 0.2101875,
      "grad_norm": 0.7974867820739746,
      "learning_rate": 0.00026941786859737733,
      "loss": 4.116,
      "step": 100890
    },
    {
      "epoch": 0.21020833333333333,
      "grad_norm": 0.8080035448074341,
      "learning_rate": 0.0002694119025345268,
      "loss": 4.0231,
      "step": 100900
    },
    {
      "epoch": 0.21022916666666666,
      "grad_norm": 0.8381133675575256,
      "learning_rate": 0.00026940593595586415,
      "loss": 4.1489,
      "step": 100910
    },
    {
      "epoch": 0.21025,
      "grad_norm": 0.7828203439712524,
      "learning_rate": 0.0002693999688614151,
      "loss": 4.0745,
      "step": 100920
    },
    {
      "epoch": 0.21027083333333332,
      "grad_norm": 0.7994655966758728,
      "learning_rate": 0.00026939400125120547,
      "loss": 4.1294,
      "step": 100930
    },
    {
      "epoch": 0.21029166666666665,
      "grad_norm": 0.8185460567474365,
      "learning_rate": 0.000269388033125261,
      "loss": 3.94,
      "step": 100940
    },
    {
      "epoch": 0.2103125,
      "grad_norm": 0.8448858261108398,
      "learning_rate": 0.0002693820644836075,
      "loss": 3.8713,
      "step": 100950
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 0.8333989977836609,
      "learning_rate": 0.00026937609532627074,
      "loss": 4.1193,
      "step": 100960
    },
    {
      "epoch": 0.21035416666666668,
      "grad_norm": 0.7793554067611694,
      "learning_rate": 0.00026937012565327647,
      "loss": 3.9508,
      "step": 100970
    },
    {
      "epoch": 0.210375,
      "grad_norm": 0.7927942872047424,
      "learning_rate": 0.00026936415546465056,
      "loss": 4.0271,
      "step": 100980
    },
    {
      "epoch": 0.21039583333333334,
      "grad_norm": 0.7915050983428955,
      "learning_rate": 0.0002693581847604187,
      "loss": 4.0507,
      "step": 100990
    },
    {
      "epoch": 0.21041666666666667,
      "grad_norm": 0.7745440006256104,
      "learning_rate": 0.00026935221354060674,
      "loss": 4.0249,
      "step": 101000
    },
    {
      "epoch": 0.21041666666666667,
      "eval_loss": 3.816378116607666,
      "eval_runtime": 6.8377,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 101000
    },
    {
      "epoch": 0.2104375,
      "grad_norm": 0.7543431520462036,
      "learning_rate": 0.0002693462418052405,
      "loss": 4.0839,
      "step": 101010
    },
    {
      "epoch": 0.21045833333333333,
      "grad_norm": 0.7690138220787048,
      "learning_rate": 0.00026934026955434566,
      "loss": 3.9681,
      "step": 101020
    },
    {
      "epoch": 0.21047916666666666,
      "grad_norm": 0.8400731086730957,
      "learning_rate": 0.00026933429678794815,
      "loss": 4.1301,
      "step": 101030
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.8126060962677002,
      "learning_rate": 0.00026932832350607365,
      "loss": 3.9666,
      "step": 101040
    },
    {
      "epoch": 0.21052083333333332,
      "grad_norm": 0.778793454170227,
      "learning_rate": 0.0002693223497087481,
      "loss": 4.2244,
      "step": 101050
    },
    {
      "epoch": 0.21054166666666665,
      "grad_norm": 0.8307747840881348,
      "learning_rate": 0.00026931637539599724,
      "loss": 4.0628,
      "step": 101060
    },
    {
      "epoch": 0.2105625,
      "grad_norm": 0.8012688755989075,
      "learning_rate": 0.0002693104005678468,
      "loss": 4.125,
      "step": 101070
    },
    {
      "epoch": 0.21058333333333334,
      "grad_norm": 0.797913670539856,
      "learning_rate": 0.00026930442522432265,
      "loss": 3.9778,
      "step": 101080
    },
    {
      "epoch": 0.21060416666666668,
      "grad_norm": 0.793756902217865,
      "learning_rate": 0.0002692984493654507,
      "loss": 4.0601,
      "step": 101090
    },
    {
      "epoch": 0.210625,
      "grad_norm": 0.7613043189048767,
      "learning_rate": 0.0002692924729912566,
      "loss": 4.1491,
      "step": 101100
    },
    {
      "epoch": 0.21064583333333334,
      "grad_norm": 0.8020137548446655,
      "learning_rate": 0.0002692864961017662,
      "loss": 4.0481,
      "step": 101110
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 0.7554308772087097,
      "learning_rate": 0.00026928051869700543,
      "loss": 4.141,
      "step": 101120
    },
    {
      "epoch": 0.2106875,
      "grad_norm": 0.7632110714912415,
      "learning_rate": 0.00026927454077699996,
      "loss": 3.9542,
      "step": 101130
    },
    {
      "epoch": 0.21070833333333333,
      "grad_norm": 0.8255361318588257,
      "learning_rate": 0.00026926856234177576,
      "loss": 3.9614,
      "step": 101140
    },
    {
      "epoch": 0.21072916666666666,
      "grad_norm": 0.8608595728874207,
      "learning_rate": 0.00026926258339135854,
      "loss": 4.1115,
      "step": 101150
    },
    {
      "epoch": 0.21075,
      "grad_norm": 0.9422321319580078,
      "learning_rate": 0.0002692566039257742,
      "loss": 4.1311,
      "step": 101160
    },
    {
      "epoch": 0.21077083333333332,
      "grad_norm": 0.7981572151184082,
      "learning_rate": 0.00026925062394504847,
      "loss": 3.9608,
      "step": 101170
    },
    {
      "epoch": 0.21079166666666665,
      "grad_norm": 0.7806919813156128,
      "learning_rate": 0.0002692446434492073,
      "loss": 4.1279,
      "step": 101180
    },
    {
      "epoch": 0.2108125,
      "grad_norm": 0.837522029876709,
      "learning_rate": 0.0002692386624382765,
      "loss": 4.3006,
      "step": 101190
    },
    {
      "epoch": 0.21083333333333334,
      "grad_norm": 0.9212721586227417,
      "learning_rate": 0.0002692326809122818,
      "loss": 3.9577,
      "step": 101200
    },
    {
      "epoch": 0.21085416666666668,
      "grad_norm": 0.7540237903594971,
      "learning_rate": 0.00026922669887124913,
      "loss": 4.0787,
      "step": 101210
    },
    {
      "epoch": 0.210875,
      "grad_norm": 0.883701741695404,
      "learning_rate": 0.0002692207163152044,
      "loss": 4.0883,
      "step": 101220
    },
    {
      "epoch": 0.21089583333333334,
      "grad_norm": 0.9238051176071167,
      "learning_rate": 0.00026921473324417327,
      "loss": 3.8598,
      "step": 101230
    },
    {
      "epoch": 0.21091666666666667,
      "grad_norm": 0.857060968875885,
      "learning_rate": 0.0002692087496581817,
      "loss": 4.0596,
      "step": 101240
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 0.9653505086898804,
      "learning_rate": 0.0002692027655572555,
      "loss": 4.0025,
      "step": 101250
    },
    {
      "epoch": 0.21095833333333333,
      "grad_norm": 0.7999251484870911,
      "learning_rate": 0.0002691967809414206,
      "loss": 3.9791,
      "step": 101260
    },
    {
      "epoch": 0.21097916666666666,
      "grad_norm": 0.883060097694397,
      "learning_rate": 0.00026919079581070275,
      "loss": 4.0964,
      "step": 101270
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.8058837056159973,
      "learning_rate": 0.00026918481016512786,
      "loss": 4.006,
      "step": 101280
    },
    {
      "epoch": 0.21102083333333332,
      "grad_norm": 0.8669881820678711,
      "learning_rate": 0.00026917882400472173,
      "loss": 4.0263,
      "step": 101290
    },
    {
      "epoch": 0.21104166666666666,
      "grad_norm": 0.7904151678085327,
      "learning_rate": 0.00026917283732951034,
      "loss": 4.0251,
      "step": 101300
    },
    {
      "epoch": 0.2110625,
      "grad_norm": 0.8106887340545654,
      "learning_rate": 0.0002691668501395194,
      "loss": 3.8828,
      "step": 101310
    },
    {
      "epoch": 0.21108333333333335,
      "grad_norm": 0.9400151371955872,
      "learning_rate": 0.00026916086243477475,
      "loss": 3.8999,
      "step": 101320
    },
    {
      "epoch": 0.21110416666666668,
      "grad_norm": 0.8302497863769531,
      "learning_rate": 0.0002691548742153025,
      "loss": 3.9831,
      "step": 101330
    },
    {
      "epoch": 0.211125,
      "grad_norm": 0.8187766671180725,
      "learning_rate": 0.00026914888548112823,
      "loss": 4.1102,
      "step": 101340
    },
    {
      "epoch": 0.21114583333333334,
      "grad_norm": 0.8645566701889038,
      "learning_rate": 0.000269142896232278,
      "loss": 3.9469,
      "step": 101350
    },
    {
      "epoch": 0.21116666666666667,
      "grad_norm": 0.8365363478660583,
      "learning_rate": 0.00026913690646877765,
      "loss": 4.0702,
      "step": 101360
    },
    {
      "epoch": 0.2111875,
      "grad_norm": 0.8515235781669617,
      "learning_rate": 0.000269130916190653,
      "loss": 4.0113,
      "step": 101370
    },
    {
      "epoch": 0.21120833333333333,
      "grad_norm": 0.9840582013130188,
      "learning_rate": 0.00026912492539792987,
      "loss": 4.0561,
      "step": 101380
    },
    {
      "epoch": 0.21122916666666666,
      "grad_norm": 0.8480615019798279,
      "learning_rate": 0.0002691189340906343,
      "loss": 4.1147,
      "step": 101390
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.8237758278846741,
      "learning_rate": 0.0002691129422687921,
      "loss": 4.0663,
      "step": 101400
    },
    {
      "epoch": 0.21127083333333332,
      "grad_norm": 0.7243728637695312,
      "learning_rate": 0.00026910694993242907,
      "loss": 4.1387,
      "step": 101410
    },
    {
      "epoch": 0.21129166666666666,
      "grad_norm": 0.887168824672699,
      "learning_rate": 0.0002691009570815712,
      "loss": 4.238,
      "step": 101420
    },
    {
      "epoch": 0.2113125,
      "grad_norm": 0.8264942765235901,
      "learning_rate": 0.00026909496371624433,
      "loss": 4.148,
      "step": 101430
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 0.7600737810134888,
      "learning_rate": 0.0002690889698364744,
      "loss": 4.1497,
      "step": 101440
    },
    {
      "epoch": 0.21135416666666668,
      "grad_norm": 0.8311877250671387,
      "learning_rate": 0.0002690829754422872,
      "loss": 4.0753,
      "step": 101450
    },
    {
      "epoch": 0.211375,
      "grad_norm": 0.9761969447135925,
      "learning_rate": 0.0002690769805337086,
      "loss": 4.1542,
      "step": 101460
    },
    {
      "epoch": 0.21139583333333334,
      "grad_norm": 0.773571789264679,
      "learning_rate": 0.00026907098511076477,
      "loss": 3.9797,
      "step": 101470
    },
    {
      "epoch": 0.21141666666666667,
      "grad_norm": 0.7494015097618103,
      "learning_rate": 0.0002690649891734813,
      "loss": 3.892,
      "step": 101480
    },
    {
      "epoch": 0.2114375,
      "grad_norm": 0.7917500138282776,
      "learning_rate": 0.0002690589927218842,
      "loss": 3.9502,
      "step": 101490
    },
    {
      "epoch": 0.21145833333333333,
      "grad_norm": 0.8109115362167358,
      "learning_rate": 0.00026905299575599945,
      "loss": 3.8946,
      "step": 101500
    },
    {
      "epoch": 0.21147916666666666,
      "grad_norm": 0.9164260625839233,
      "learning_rate": 0.0002690469982758528,
      "loss": 4.1183,
      "step": 101510
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.8331534266471863,
      "learning_rate": 0.0002690410002814703,
      "loss": 3.9379,
      "step": 101520
    },
    {
      "epoch": 0.21152083333333332,
      "grad_norm": 0.8468287587165833,
      "learning_rate": 0.0002690350017728778,
      "loss": 3.9764,
      "step": 101530
    },
    {
      "epoch": 0.21154166666666666,
      "grad_norm": 0.8994452953338623,
      "learning_rate": 0.0002690290027501012,
      "loss": 4.0597,
      "step": 101540
    },
    {
      "epoch": 0.2115625,
      "grad_norm": 0.7550853490829468,
      "learning_rate": 0.0002690230032131664,
      "loss": 4.13,
      "step": 101550
    },
    {
      "epoch": 0.21158333333333335,
      "grad_norm": 0.8157539367675781,
      "learning_rate": 0.00026901700316209936,
      "loss": 4.0411,
      "step": 101560
    },
    {
      "epoch": 0.21160416666666668,
      "grad_norm": 0.794162392616272,
      "learning_rate": 0.0002690110025969259,
      "loss": 3.8688,
      "step": 101570
    },
    {
      "epoch": 0.211625,
      "grad_norm": 0.7984830141067505,
      "learning_rate": 0.00026900500151767217,
      "loss": 3.997,
      "step": 101580
    },
    {
      "epoch": 0.21164583333333334,
      "grad_norm": 0.7387677431106567,
      "learning_rate": 0.0002689989999243638,
      "loss": 4.2277,
      "step": 101590
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 0.7835866212844849,
      "learning_rate": 0.00026899299781702694,
      "loss": 4.012,
      "step": 101600
    },
    {
      "epoch": 0.2116875,
      "grad_norm": 0.7213975191116333,
      "learning_rate": 0.0002689869951956874,
      "loss": 4.1032,
      "step": 101610
    },
    {
      "epoch": 0.21170833333333333,
      "grad_norm": 0.7876285314559937,
      "learning_rate": 0.0002689809920603711,
      "loss": 4.1329,
      "step": 101620
    },
    {
      "epoch": 0.21172916666666666,
      "grad_norm": 0.7306215167045593,
      "learning_rate": 0.00026897498841110405,
      "loss": 3.9886,
      "step": 101630
    },
    {
      "epoch": 0.21175,
      "grad_norm": 0.8250204920768738,
      "learning_rate": 0.00026896898424791214,
      "loss": 4.002,
      "step": 101640
    },
    {
      "epoch": 0.21177083333333332,
      "grad_norm": 1.2382086515426636,
      "learning_rate": 0.00026896297957082135,
      "loss": 4.0233,
      "step": 101650
    },
    {
      "epoch": 0.21179166666666666,
      "grad_norm": 0.8493445515632629,
      "learning_rate": 0.0002689569743798575,
      "loss": 4.2078,
      "step": 101660
    },
    {
      "epoch": 0.2118125,
      "grad_norm": 0.8071038126945496,
      "learning_rate": 0.00026895096867504665,
      "loss": 3.8908,
      "step": 101670
    },
    {
      "epoch": 0.21183333333333335,
      "grad_norm": 0.9197562336921692,
      "learning_rate": 0.0002689449624564147,
      "loss": 3.8687,
      "step": 101680
    },
    {
      "epoch": 0.21185416666666668,
      "grad_norm": 0.8526096940040588,
      "learning_rate": 0.0002689389557239876,
      "loss": 4.1707,
      "step": 101690
    },
    {
      "epoch": 0.211875,
      "grad_norm": 0.7991816997528076,
      "learning_rate": 0.00026893294847779125,
      "loss": 3.825,
      "step": 101700
    },
    {
      "epoch": 0.21189583333333334,
      "grad_norm": 0.9275110960006714,
      "learning_rate": 0.00026892694071785166,
      "loss": 4.0266,
      "step": 101710
    },
    {
      "epoch": 0.21191666666666667,
      "grad_norm": 0.7716827988624573,
      "learning_rate": 0.0002689209324441948,
      "loss": 4.1664,
      "step": 101720
    },
    {
      "epoch": 0.2119375,
      "grad_norm": 0.8505202531814575,
      "learning_rate": 0.0002689149236568465,
      "loss": 3.9643,
      "step": 101730
    },
    {
      "epoch": 0.21195833333333333,
      "grad_norm": 0.7782196998596191,
      "learning_rate": 0.00026890891435583285,
      "loss": 4.1112,
      "step": 101740
    },
    {
      "epoch": 0.21197916666666666,
      "grad_norm": 0.7786447405815125,
      "learning_rate": 0.00026890290454117976,
      "loss": 4.0792,
      "step": 101750
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.7975369691848755,
      "learning_rate": 0.0002688968942129132,
      "loss": 4.1229,
      "step": 101760
    },
    {
      "epoch": 0.21202083333333333,
      "grad_norm": 0.8650585412979126,
      "learning_rate": 0.0002688908833710591,
      "loss": 3.9313,
      "step": 101770
    },
    {
      "epoch": 0.21204166666666666,
      "grad_norm": 0.9706307649612427,
      "learning_rate": 0.00026888487201564345,
      "loss": 4.1052,
      "step": 101780
    },
    {
      "epoch": 0.2120625,
      "grad_norm": 0.7838847041130066,
      "learning_rate": 0.0002688788601466922,
      "loss": 3.9971,
      "step": 101790
    },
    {
      "epoch": 0.21208333333333335,
      "grad_norm": 0.8056705594062805,
      "learning_rate": 0.00026887284776423134,
      "loss": 3.8801,
      "step": 101800
    },
    {
      "epoch": 0.21210416666666668,
      "grad_norm": 1.001657247543335,
      "learning_rate": 0.00026886683486828685,
      "loss": 3.9686,
      "step": 101810
    },
    {
      "epoch": 0.212125,
      "grad_norm": 0.8576212525367737,
      "learning_rate": 0.00026886082145888464,
      "loss": 4.1121,
      "step": 101820
    },
    {
      "epoch": 0.21214583333333334,
      "grad_norm": 0.7997884750366211,
      "learning_rate": 0.0002688548075360508,
      "loss": 4.2126,
      "step": 101830
    },
    {
      "epoch": 0.21216666666666667,
      "grad_norm": 1.0282526016235352,
      "learning_rate": 0.00026884879309981116,
      "loss": 4.0947,
      "step": 101840
    },
    {
      "epoch": 0.2121875,
      "grad_norm": 0.9142971038818359,
      "learning_rate": 0.00026884277815019184,
      "loss": 3.9295,
      "step": 101850
    },
    {
      "epoch": 0.21220833333333333,
      "grad_norm": 0.7605428099632263,
      "learning_rate": 0.0002688367626872187,
      "loss": 3.9626,
      "step": 101860
    },
    {
      "epoch": 0.21222916666666666,
      "grad_norm": 0.8766329288482666,
      "learning_rate": 0.00026883074671091783,
      "loss": 3.9406,
      "step": 101870
    },
    {
      "epoch": 0.21225,
      "grad_norm": 0.7902296781539917,
      "learning_rate": 0.00026882473022131514,
      "loss": 3.9457,
      "step": 101880
    },
    {
      "epoch": 0.21227083333333333,
      "grad_norm": 0.7681081295013428,
      "learning_rate": 0.00026881871321843666,
      "loss": 4.0636,
      "step": 101890
    },
    {
      "epoch": 0.21229166666666666,
      "grad_norm": 0.7589781880378723,
      "learning_rate": 0.00026881269570230837,
      "loss": 4.1005,
      "step": 101900
    },
    {
      "epoch": 0.2123125,
      "grad_norm": 0.8577601909637451,
      "learning_rate": 0.0002688066776729563,
      "loss": 4.0447,
      "step": 101910
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 0.8260096311569214,
      "learning_rate": 0.0002688006591304063,
      "loss": 4.2244,
      "step": 101920
    },
    {
      "epoch": 0.21235416666666668,
      "grad_norm": 0.8329863548278809,
      "learning_rate": 0.00026879464007468465,
      "loss": 3.8084,
      "step": 101930
    },
    {
      "epoch": 0.212375,
      "grad_norm": 0.8612199425697327,
      "learning_rate": 0.00026878862050581703,
      "loss": 4.0519,
      "step": 101940
    },
    {
      "epoch": 0.21239583333333334,
      "grad_norm": 0.9224733114242554,
      "learning_rate": 0.00026878260042382965,
      "loss": 4.2097,
      "step": 101950
    },
    {
      "epoch": 0.21241666666666667,
      "grad_norm": 0.7435914874076843,
      "learning_rate": 0.0002687765798287484,
      "loss": 4.1717,
      "step": 101960
    },
    {
      "epoch": 0.2124375,
      "grad_norm": 0.8469154834747314,
      "learning_rate": 0.0002687705587205994,
      "loss": 4.4001,
      "step": 101970
    },
    {
      "epoch": 0.21245833333333333,
      "grad_norm": 0.8320160508155823,
      "learning_rate": 0.00026876453709940857,
      "loss": 4.07,
      "step": 101980
    },
    {
      "epoch": 0.21247916666666666,
      "grad_norm": 0.8914852142333984,
      "learning_rate": 0.000268758514965202,
      "loss": 4.1172,
      "step": 101990
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.9106850028038025,
      "learning_rate": 0.0002687524923180056,
      "loss": 4.0572,
      "step": 102000
    },
    {
      "epoch": 0.2125,
      "eval_loss": 3.8097519874572754,
      "eval_runtime": 6.9118,
      "eval_samples_per_second": 1.447,
      "eval_steps_per_second": 0.434,
      "step": 102000
    },
    {
      "epoch": 0.21252083333333333,
      "grad_norm": 1.02269446849823,
      "learning_rate": 0.0002687464691578455,
      "loss": 4.2069,
      "step": 102010
    },
    {
      "epoch": 0.21254166666666666,
      "grad_norm": 0.8084234595298767,
      "learning_rate": 0.00026874044548474757,
      "loss": 3.9319,
      "step": 102020
    },
    {
      "epoch": 0.2125625,
      "grad_norm": 0.7335696816444397,
      "learning_rate": 0.000268734421298738,
      "loss": 4.0935,
      "step": 102030
    },
    {
      "epoch": 0.21258333333333335,
      "grad_norm": 0.750279426574707,
      "learning_rate": 0.0002687283965998426,
      "loss": 3.998,
      "step": 102040
    },
    {
      "epoch": 0.21260416666666668,
      "grad_norm": 0.8933357000350952,
      "learning_rate": 0.00026872237138808765,
      "loss": 4.0908,
      "step": 102050
    },
    {
      "epoch": 0.212625,
      "grad_norm": 0.8738593459129333,
      "learning_rate": 0.000268716345663499,
      "loss": 4.2619,
      "step": 102060
    },
    {
      "epoch": 0.21264583333333334,
      "grad_norm": 0.7754786610603333,
      "learning_rate": 0.0002687103194261028,
      "loss": 4.099,
      "step": 102070
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 0.8296108245849609,
      "learning_rate": 0.00026870429267592487,
      "loss": 4.1373,
      "step": 102080
    },
    {
      "epoch": 0.2126875,
      "grad_norm": 0.8096951246261597,
      "learning_rate": 0.00026869826541299144,
      "loss": 4.0466,
      "step": 102090
    },
    {
      "epoch": 0.21270833333333333,
      "grad_norm": 0.7551841139793396,
      "learning_rate": 0.00026869223763732855,
      "loss": 4.1032,
      "step": 102100
    },
    {
      "epoch": 0.21272916666666666,
      "grad_norm": 0.7891960144042969,
      "learning_rate": 0.0002686862093489621,
      "loss": 3.8479,
      "step": 102110
    },
    {
      "epoch": 0.21275,
      "grad_norm": 0.7365805506706238,
      "learning_rate": 0.00026868018054791823,
      "loss": 3.9203,
      "step": 102120
    },
    {
      "epoch": 0.21277083333333333,
      "grad_norm": 0.8506085276603699,
      "learning_rate": 0.000268674151234223,
      "loss": 4.0202,
      "step": 102130
    },
    {
      "epoch": 0.21279166666666666,
      "grad_norm": 0.7359482049942017,
      "learning_rate": 0.00026866812140790235,
      "loss": 4.0501,
      "step": 102140
    },
    {
      "epoch": 0.2128125,
      "grad_norm": 1.030199408531189,
      "learning_rate": 0.00026866209106898246,
      "loss": 4.1535,
      "step": 102150
    },
    {
      "epoch": 0.21283333333333335,
      "grad_norm": 0.8215633034706116,
      "learning_rate": 0.0002686560602174892,
      "loss": 3.9259,
      "step": 102160
    },
    {
      "epoch": 0.21285416666666668,
      "grad_norm": 0.7634922862052917,
      "learning_rate": 0.0002686500288534488,
      "loss": 4.0896,
      "step": 102170
    },
    {
      "epoch": 0.212875,
      "grad_norm": 0.8445219397544861,
      "learning_rate": 0.0002686439969768872,
      "loss": 4.0624,
      "step": 102180
    },
    {
      "epoch": 0.21289583333333334,
      "grad_norm": 1.5738117694854736,
      "learning_rate": 0.00026863796458783057,
      "loss": 4.1804,
      "step": 102190
    },
    {
      "epoch": 0.21291666666666667,
      "grad_norm": 0.7497968673706055,
      "learning_rate": 0.0002686319316863048,
      "loss": 4.1716,
      "step": 102200
    },
    {
      "epoch": 0.2129375,
      "grad_norm": 0.8795133233070374,
      "learning_rate": 0.0002686258982723361,
      "loss": 4.1292,
      "step": 102210
    },
    {
      "epoch": 0.21295833333333333,
      "grad_norm": 0.9533758759498596,
      "learning_rate": 0.00026861986434595044,
      "loss": 4.0159,
      "step": 102220
    },
    {
      "epoch": 0.21297916666666666,
      "grad_norm": 0.8240785598754883,
      "learning_rate": 0.00026861382990717397,
      "loss": 4.0721,
      "step": 102230
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.8557048439979553,
      "learning_rate": 0.00026860779495603267,
      "loss": 4.2234,
      "step": 102240
    },
    {
      "epoch": 0.21302083333333333,
      "grad_norm": 0.7876775860786438,
      "learning_rate": 0.0002686017594925526,
      "loss": 3.9866,
      "step": 102250
    },
    {
      "epoch": 0.21304166666666666,
      "grad_norm": 0.7813699245452881,
      "learning_rate": 0.00026859572351675996,
      "loss": 4.0718,
      "step": 102260
    },
    {
      "epoch": 0.2130625,
      "grad_norm": 0.8697605729103088,
      "learning_rate": 0.0002685896870286807,
      "loss": 3.9106,
      "step": 102270
    },
    {
      "epoch": 0.21308333333333335,
      "grad_norm": 0.8050801753997803,
      "learning_rate": 0.00026858365002834097,
      "loss": 4.1699,
      "step": 102280
    },
    {
      "epoch": 0.21310416666666668,
      "grad_norm": 0.7378998398780823,
      "learning_rate": 0.0002685776125157667,
      "loss": 3.8628,
      "step": 102290
    },
    {
      "epoch": 0.213125,
      "grad_norm": 0.8792833685874939,
      "learning_rate": 0.0002685715744909842,
      "loss": 4.0807,
      "step": 102300
    },
    {
      "epoch": 0.21314583333333334,
      "grad_norm": 0.9107557535171509,
      "learning_rate": 0.00026856553595401935,
      "loss": 4.0233,
      "step": 102310
    },
    {
      "epoch": 0.21316666666666667,
      "grad_norm": 0.8145826458930969,
      "learning_rate": 0.0002685594969048984,
      "loss": 4.0692,
      "step": 102320
    },
    {
      "epoch": 0.2131875,
      "grad_norm": 0.745112419128418,
      "learning_rate": 0.00026855345734364726,
      "loss": 4.122,
      "step": 102330
    },
    {
      "epoch": 0.21320833333333333,
      "grad_norm": 0.9353484511375427,
      "learning_rate": 0.0002685474172702922,
      "loss": 4.096,
      "step": 102340
    },
    {
      "epoch": 0.21322916666666666,
      "grad_norm": 0.8935202956199646,
      "learning_rate": 0.00026854137668485916,
      "loss": 4.1255,
      "step": 102350
    },
    {
      "epoch": 0.21325,
      "grad_norm": 0.7943881154060364,
      "learning_rate": 0.0002685353355873743,
      "loss": 4.1329,
      "step": 102360
    },
    {
      "epoch": 0.21327083333333333,
      "grad_norm": 0.819595217704773,
      "learning_rate": 0.00026852929397786374,
      "loss": 4.1475,
      "step": 102370
    },
    {
      "epoch": 0.21329166666666666,
      "grad_norm": 0.7919608950614929,
      "learning_rate": 0.00026852325185635354,
      "loss": 4.0596,
      "step": 102380
    },
    {
      "epoch": 0.2133125,
      "grad_norm": 0.7937511205673218,
      "learning_rate": 0.0002685172092228698,
      "loss": 4.0211,
      "step": 102390
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.731417179107666,
      "learning_rate": 0.0002685111660774386,
      "loss": 4.3747,
      "step": 102400
    },
    {
      "epoch": 0.21335416666666668,
      "grad_norm": 0.79779452085495,
      "learning_rate": 0.0002685051224200861,
      "loss": 4.1353,
      "step": 102410
    },
    {
      "epoch": 0.213375,
      "grad_norm": 0.7908005118370056,
      "learning_rate": 0.0002684990782508384,
      "loss": 3.8542,
      "step": 102420
    },
    {
      "epoch": 0.21339583333333334,
      "grad_norm": 0.7753896713256836,
      "learning_rate": 0.0002684930335697215,
      "loss": 4.1123,
      "step": 102430
    },
    {
      "epoch": 0.21341666666666667,
      "grad_norm": 0.8030101656913757,
      "learning_rate": 0.00026848698837676175,
      "loss": 3.9368,
      "step": 102440
    },
    {
      "epoch": 0.2134375,
      "grad_norm": 0.7619367837905884,
      "learning_rate": 0.000268480942671985,
      "loss": 4.0454,
      "step": 102450
    },
    {
      "epoch": 0.21345833333333333,
      "grad_norm": 0.7320898771286011,
      "learning_rate": 0.0002684748964554175,
      "loss": 4.0313,
      "step": 102460
    },
    {
      "epoch": 0.21347916666666666,
      "grad_norm": 0.8258717060089111,
      "learning_rate": 0.00026846884972708536,
      "loss": 4.0078,
      "step": 102470
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.8555730581283569,
      "learning_rate": 0.00026846280248701463,
      "loss": 4.0013,
      "step": 102480
    },
    {
      "epoch": 0.21352083333333333,
      "grad_norm": 0.757278323173523,
      "learning_rate": 0.00026845675473523154,
      "loss": 4.0975,
      "step": 102490
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 0.7860239148139954,
      "learning_rate": 0.0002684507064717621,
      "loss": 3.9068,
      "step": 102500
    },
    {
      "epoch": 0.2135625,
      "grad_norm": 0.8309367895126343,
      "learning_rate": 0.0002684446576966325,
      "loss": 4.0837,
      "step": 102510
    },
    {
      "epoch": 0.21358333333333332,
      "grad_norm": 0.7611930966377258,
      "learning_rate": 0.00026843860840986895,
      "loss": 4.0636,
      "step": 102520
    },
    {
      "epoch": 0.21360416666666668,
      "grad_norm": 0.9884158968925476,
      "learning_rate": 0.00026843255861149737,
      "loss": 4.0475,
      "step": 102530
    },
    {
      "epoch": 0.213625,
      "grad_norm": 0.7912003993988037,
      "learning_rate": 0.00026842650830154413,
      "loss": 4.0984,
      "step": 102540
    },
    {
      "epoch": 0.21364583333333334,
      "grad_norm": 0.8131153583526611,
      "learning_rate": 0.0002684204574800352,
      "loss": 4.1633,
      "step": 102550
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 0.72956383228302,
      "learning_rate": 0.0002684144061469968,
      "loss": 3.9707,
      "step": 102560
    },
    {
      "epoch": 0.2136875,
      "grad_norm": 0.8297978043556213,
      "learning_rate": 0.000268408354302455,
      "loss": 4.0392,
      "step": 102570
    },
    {
      "epoch": 0.21370833333333333,
      "grad_norm": 0.8745452761650085,
      "learning_rate": 0.00026840230194643595,
      "loss": 4.0017,
      "step": 102580
    },
    {
      "epoch": 0.21372916666666666,
      "grad_norm": 0.8571467995643616,
      "learning_rate": 0.00026839624907896585,
      "loss": 3.9415,
      "step": 102590
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.8140337467193604,
      "learning_rate": 0.0002683901957000708,
      "loss": 3.9228,
      "step": 102600
    },
    {
      "epoch": 0.21377083333333333,
      "grad_norm": 0.7803714871406555,
      "learning_rate": 0.000268384141809777,
      "loss": 4.0323,
      "step": 102610
    },
    {
      "epoch": 0.21379166666666666,
      "grad_norm": 0.7381273508071899,
      "learning_rate": 0.0002683780874081106,
      "loss": 4.115,
      "step": 102620
    },
    {
      "epoch": 0.2138125,
      "grad_norm": 0.8387776613235474,
      "learning_rate": 0.00026837203249509766,
      "loss": 4.0806,
      "step": 102630
    },
    {
      "epoch": 0.21383333333333332,
      "grad_norm": 0.8283751010894775,
      "learning_rate": 0.00026836597707076437,
      "loss": 4.1334,
      "step": 102640
    },
    {
      "epoch": 0.21385416666666668,
      "grad_norm": 0.7459099292755127,
      "learning_rate": 0.00026835992113513705,
      "loss": 3.9976,
      "step": 102650
    },
    {
      "epoch": 0.213875,
      "grad_norm": 0.9369320273399353,
      "learning_rate": 0.00026835386468824156,
      "loss": 4.1045,
      "step": 102660
    },
    {
      "epoch": 0.21389583333333334,
      "grad_norm": 0.801672101020813,
      "learning_rate": 0.0002683478077301043,
      "loss": 3.8587,
      "step": 102670
    },
    {
      "epoch": 0.21391666666666667,
      "grad_norm": 0.8655540943145752,
      "learning_rate": 0.0002683417502607513,
      "loss": 4.1812,
      "step": 102680
    },
    {
      "epoch": 0.2139375,
      "grad_norm": 0.7422448396682739,
      "learning_rate": 0.0002683356922802089,
      "loss": 3.945,
      "step": 102690
    },
    {
      "epoch": 0.21395833333333333,
      "grad_norm": 0.809268593788147,
      "learning_rate": 0.00026832963378850306,
      "loss": 4.0106,
      "step": 102700
    },
    {
      "epoch": 0.21397916666666666,
      "grad_norm": 0.8088960647583008,
      "learning_rate": 0.00026832357478566004,
      "loss": 4.0249,
      "step": 102710
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.82435542345047,
      "learning_rate": 0.000268317515271706,
      "loss": 4.2754,
      "step": 102720
    },
    {
      "epoch": 0.21402083333333333,
      "grad_norm": 0.7828568816184998,
      "learning_rate": 0.00026831145524666716,
      "loss": 3.9836,
      "step": 102730
    },
    {
      "epoch": 0.21404166666666666,
      "grad_norm": 0.8637444972991943,
      "learning_rate": 0.00026830539471056966,
      "loss": 3.9586,
      "step": 102740
    },
    {
      "epoch": 0.2140625,
      "grad_norm": 0.9689061045646667,
      "learning_rate": 0.0002682993336634397,
      "loss": 4.0667,
      "step": 102750
    },
    {
      "epoch": 0.21408333333333332,
      "grad_norm": 0.7328333854675293,
      "learning_rate": 0.0002682932721053035,
      "loss": 4.0698,
      "step": 102760
    },
    {
      "epoch": 0.21410416666666668,
      "grad_norm": 0.7684637308120728,
      "learning_rate": 0.00026828721003618704,
      "loss": 4.2347,
      "step": 102770
    },
    {
      "epoch": 0.214125,
      "grad_norm": 0.7766453623771667,
      "learning_rate": 0.00026828114745611675,
      "loss": 4.1647,
      "step": 102780
    },
    {
      "epoch": 0.21414583333333334,
      "grad_norm": 1.0627926588058472,
      "learning_rate": 0.0002682750843651187,
      "loss": 4.1181,
      "step": 102790
    },
    {
      "epoch": 0.21416666666666667,
      "grad_norm": 0.759619951248169,
      "learning_rate": 0.00026826902076321907,
      "loss": 4.0854,
      "step": 102800
    },
    {
      "epoch": 0.2141875,
      "grad_norm": 0.7890717387199402,
      "learning_rate": 0.00026826295665044415,
      "loss": 4.0715,
      "step": 102810
    },
    {
      "epoch": 0.21420833333333333,
      "grad_norm": 0.7428137063980103,
      "learning_rate": 0.00026825689202682,
      "loss": 4.1015,
      "step": 102820
    },
    {
      "epoch": 0.21422916666666666,
      "grad_norm": 0.7658412456512451,
      "learning_rate": 0.000268250826892373,
      "loss": 4.0525,
      "step": 102830
    },
    {
      "epoch": 0.21425,
      "grad_norm": 0.7897874712944031,
      "learning_rate": 0.0002682447612471291,
      "loss": 3.9936,
      "step": 102840
    },
    {
      "epoch": 0.21427083333333333,
      "grad_norm": 0.9327775239944458,
      "learning_rate": 0.00026823869509111473,
      "loss": 4.194,
      "step": 102850
    },
    {
      "epoch": 0.21429166666666666,
      "grad_norm": 0.7810042500495911,
      "learning_rate": 0.00026823262842435593,
      "loss": 4.1613,
      "step": 102860
    },
    {
      "epoch": 0.2143125,
      "grad_norm": 0.751116931438446,
      "learning_rate": 0.00026822656124687904,
      "loss": 4.163,
      "step": 102870
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 0.8267722725868225,
      "learning_rate": 0.00026822049355871013,
      "loss": 3.9184,
      "step": 102880
    },
    {
      "epoch": 0.21435416666666668,
      "grad_norm": 0.8756459951400757,
      "learning_rate": 0.00026821442535987554,
      "loss": 3.9457,
      "step": 102890
    },
    {
      "epoch": 0.214375,
      "grad_norm": 0.7856909036636353,
      "learning_rate": 0.0002682083566504014,
      "loss": 3.7956,
      "step": 102900
    },
    {
      "epoch": 0.21439583333333334,
      "grad_norm": 1.304998517036438,
      "learning_rate": 0.00026820228743031397,
      "loss": 3.9758,
      "step": 102910
    },
    {
      "epoch": 0.21441666666666667,
      "grad_norm": 0.777319610118866,
      "learning_rate": 0.00026819621769963946,
      "loss": 4.0703,
      "step": 102920
    },
    {
      "epoch": 0.2144375,
      "grad_norm": 0.831882894039154,
      "learning_rate": 0.000268190147458404,
      "loss": 3.9991,
      "step": 102930
    },
    {
      "epoch": 0.21445833333333333,
      "grad_norm": 0.7779358625411987,
      "learning_rate": 0.00026818407670663397,
      "loss": 3.96,
      "step": 102940
    },
    {
      "epoch": 0.21447916666666667,
      "grad_norm": 0.7457541227340698,
      "learning_rate": 0.00026817800544435546,
      "loss": 3.9833,
      "step": 102950
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.7853528261184692,
      "learning_rate": 0.0002681719336715948,
      "loss": 3.9112,
      "step": 102960
    },
    {
      "epoch": 0.21452083333333333,
      "grad_norm": 0.8129644393920898,
      "learning_rate": 0.00026816586138837806,
      "loss": 3.9224,
      "step": 102970
    },
    {
      "epoch": 0.21454166666666666,
      "grad_norm": 0.8848386406898499,
      "learning_rate": 0.00026815978859473164,
      "loss": 3.8761,
      "step": 102980
    },
    {
      "epoch": 0.2145625,
      "grad_norm": 0.8315751552581787,
      "learning_rate": 0.0002681537152906817,
      "loss": 4.3433,
      "step": 102990
    },
    {
      "epoch": 0.21458333333333332,
      "grad_norm": 0.7613658308982849,
      "learning_rate": 0.0002681476414762545,
      "loss": 4.0048,
      "step": 103000
    },
    {
      "epoch": 0.21458333333333332,
      "eval_loss": 3.7977142333984375,
      "eval_runtime": 7.1984,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 103000
    },
    {
      "epoch": 0.21460416666666668,
      "grad_norm": 0.7786390781402588,
      "learning_rate": 0.00026814156715147623,
      "loss": 4.0488,
      "step": 103010
    },
    {
      "epoch": 0.214625,
      "grad_norm": 0.7838484644889832,
      "learning_rate": 0.00026813549231637313,
      "loss": 4.0542,
      "step": 103020
    },
    {
      "epoch": 0.21464583333333334,
      "grad_norm": 1.0538877248764038,
      "learning_rate": 0.0002681294169709715,
      "loss": 4.0515,
      "step": 103030
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 0.9755815863609314,
      "learning_rate": 0.0002681233411152975,
      "loss": 4.0254,
      "step": 103040
    },
    {
      "epoch": 0.2146875,
      "grad_norm": 0.8414348363876343,
      "learning_rate": 0.0002681172647493775,
      "loss": 4.0445,
      "step": 103050
    },
    {
      "epoch": 0.21470833333333333,
      "grad_norm": 0.7848067283630371,
      "learning_rate": 0.0002681111878732376,
      "loss": 4.1685,
      "step": 103060
    },
    {
      "epoch": 0.21472916666666667,
      "grad_norm": 0.8291212320327759,
      "learning_rate": 0.00026810511048690417,
      "loss": 4.1349,
      "step": 103070
    },
    {
      "epoch": 0.21475,
      "grad_norm": 0.7680128812789917,
      "learning_rate": 0.0002680990325904034,
      "loss": 3.89,
      "step": 103080
    },
    {
      "epoch": 0.21477083333333333,
      "grad_norm": 0.7591516375541687,
      "learning_rate": 0.0002680929541837615,
      "loss": 3.7596,
      "step": 103090
    },
    {
      "epoch": 0.21479166666666666,
      "grad_norm": 0.87107253074646,
      "learning_rate": 0.0002680868752670049,
      "loss": 4.0947,
      "step": 103100
    },
    {
      "epoch": 0.2148125,
      "grad_norm": 0.8614489436149597,
      "learning_rate": 0.00026808079584015964,
      "loss": 4.1752,
      "step": 103110
    },
    {
      "epoch": 0.21483333333333332,
      "grad_norm": 0.8994373083114624,
      "learning_rate": 0.0002680747159032521,
      "loss": 4.0582,
      "step": 103120
    },
    {
      "epoch": 0.21485416666666668,
      "grad_norm": 0.7894630432128906,
      "learning_rate": 0.0002680686354563085,
      "loss": 4.0319,
      "step": 103130
    },
    {
      "epoch": 0.214875,
      "grad_norm": 0.8237269520759583,
      "learning_rate": 0.0002680625544993552,
      "loss": 3.9583,
      "step": 103140
    },
    {
      "epoch": 0.21489583333333334,
      "grad_norm": 0.8040529489517212,
      "learning_rate": 0.0002680564730324184,
      "loss": 4.1492,
      "step": 103150
    },
    {
      "epoch": 0.21491666666666667,
      "grad_norm": 0.7748367190361023,
      "learning_rate": 0.0002680503910555243,
      "loss": 4.1722,
      "step": 103160
    },
    {
      "epoch": 0.2149375,
      "grad_norm": 0.7674107551574707,
      "learning_rate": 0.00026804430856869924,
      "loss": 4.0877,
      "step": 103170
    },
    {
      "epoch": 0.21495833333333333,
      "grad_norm": 0.9224079847335815,
      "learning_rate": 0.00026803822557196953,
      "loss": 4.0554,
      "step": 103180
    },
    {
      "epoch": 0.21497916666666667,
      "grad_norm": 0.8046571016311646,
      "learning_rate": 0.0002680321420653614,
      "loss": 4.168,
      "step": 103190
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.8463704586029053,
      "learning_rate": 0.0002680260580489012,
      "loss": 4.1453,
      "step": 103200
    },
    {
      "epoch": 0.21502083333333333,
      "grad_norm": 0.7975698709487915,
      "learning_rate": 0.000268019973522615,
      "loss": 3.9975,
      "step": 103210
    },
    {
      "epoch": 0.21504166666666666,
      "grad_norm": 0.7907089591026306,
      "learning_rate": 0.00026801388848652935,
      "loss": 4.1046,
      "step": 103220
    },
    {
      "epoch": 0.2150625,
      "grad_norm": 0.8108223676681519,
      "learning_rate": 0.00026800780294067034,
      "loss": 4.1246,
      "step": 103230
    },
    {
      "epoch": 0.21508333333333332,
      "grad_norm": 0.828805685043335,
      "learning_rate": 0.0002680017168850644,
      "loss": 3.9107,
      "step": 103240
    },
    {
      "epoch": 0.21510416666666668,
      "grad_norm": 0.7875069975852966,
      "learning_rate": 0.00026799563031973774,
      "loss": 3.9949,
      "step": 103250
    },
    {
      "epoch": 0.215125,
      "grad_norm": 0.820073127746582,
      "learning_rate": 0.0002679895432447166,
      "loss": 4.079,
      "step": 103260
    },
    {
      "epoch": 0.21514583333333334,
      "grad_norm": 0.7656410336494446,
      "learning_rate": 0.0002679834556600274,
      "loss": 3.921,
      "step": 103270
    },
    {
      "epoch": 0.21516666666666667,
      "grad_norm": 0.8916556239128113,
      "learning_rate": 0.0002679773675656964,
      "loss": 4.1685,
      "step": 103280
    },
    {
      "epoch": 0.2151875,
      "grad_norm": 0.8054330348968506,
      "learning_rate": 0.0002679712789617498,
      "loss": 3.8357,
      "step": 103290
    },
    {
      "epoch": 0.21520833333333333,
      "grad_norm": 0.9118308424949646,
      "learning_rate": 0.00026796518984821397,
      "loss": 3.9739,
      "step": 103300
    },
    {
      "epoch": 0.21522916666666667,
      "grad_norm": 0.7421875596046448,
      "learning_rate": 0.0002679591002251152,
      "loss": 3.8668,
      "step": 103310
    },
    {
      "epoch": 0.21525,
      "grad_norm": 0.7406907081604004,
      "learning_rate": 0.0002679530100924799,
      "loss": 4.0489,
      "step": 103320
    },
    {
      "epoch": 0.21527083333333333,
      "grad_norm": 0.8310609459877014,
      "learning_rate": 0.0002679469194503342,
      "loss": 3.8832,
      "step": 103330
    },
    {
      "epoch": 0.21529166666666666,
      "grad_norm": 0.7446115612983704,
      "learning_rate": 0.0002679408282987045,
      "loss": 4.1461,
      "step": 103340
    },
    {
      "epoch": 0.2153125,
      "grad_norm": 0.8930266499519348,
      "learning_rate": 0.00026793473663761717,
      "loss": 4.1353,
      "step": 103350
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 0.7979187965393066,
      "learning_rate": 0.0002679286444670984,
      "loss": 4.1138,
      "step": 103360
    },
    {
      "epoch": 0.21535416666666668,
      "grad_norm": 0.9105952382087708,
      "learning_rate": 0.00026792255178717463,
      "loss": 4.1149,
      "step": 103370
    },
    {
      "epoch": 0.215375,
      "grad_norm": 0.8122265934944153,
      "learning_rate": 0.00026791645859787207,
      "loss": 3.9753,
      "step": 103380
    },
    {
      "epoch": 0.21539583333333334,
      "grad_norm": 0.8224668502807617,
      "learning_rate": 0.00026791036489921707,
      "loss": 4.0375,
      "step": 103390
    },
    {
      "epoch": 0.21541666666666667,
      "grad_norm": 0.8399943113327026,
      "learning_rate": 0.000267904270691236,
      "loss": 4.1126,
      "step": 103400
    },
    {
      "epoch": 0.2154375,
      "grad_norm": 0.805479109287262,
      "learning_rate": 0.0002678981759739551,
      "loss": 3.8593,
      "step": 103410
    },
    {
      "epoch": 0.21545833333333334,
      "grad_norm": 0.8053501844406128,
      "learning_rate": 0.0002678920807474008,
      "loss": 4.2429,
      "step": 103420
    },
    {
      "epoch": 0.21547916666666667,
      "grad_norm": 0.7290069460868835,
      "learning_rate": 0.00026788598501159935,
      "loss": 4.0816,
      "step": 103430
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.8346442580223083,
      "learning_rate": 0.0002678798887665771,
      "loss": 4.0877,
      "step": 103440
    },
    {
      "epoch": 0.21552083333333333,
      "grad_norm": 0.754619836807251,
      "learning_rate": 0.00026787379201236044,
      "loss": 3.9266,
      "step": 103450
    },
    {
      "epoch": 0.21554166666666666,
      "grad_norm": 0.9539161324501038,
      "learning_rate": 0.00026786769474897556,
      "loss": 4.0553,
      "step": 103460
    },
    {
      "epoch": 0.2155625,
      "grad_norm": 0.7882286906242371,
      "learning_rate": 0.000267861596976449,
      "loss": 4.0267,
      "step": 103470
    },
    {
      "epoch": 0.21558333333333332,
      "grad_norm": 1.115903615951538,
      "learning_rate": 0.0002678554986948069,
      "loss": 4.019,
      "step": 103480
    },
    {
      "epoch": 0.21560416666666668,
      "grad_norm": 0.8149540424346924,
      "learning_rate": 0.00026784939990407575,
      "loss": 4.0428,
      "step": 103490
    },
    {
      "epoch": 0.215625,
      "grad_norm": 1.1009711027145386,
      "learning_rate": 0.00026784330060428184,
      "loss": 3.9658,
      "step": 103500
    },
    {
      "epoch": 0.21564583333333334,
      "grad_norm": 0.7471820712089539,
      "learning_rate": 0.0002678372007954515,
      "loss": 4.0353,
      "step": 103510
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 0.7678751945495605,
      "learning_rate": 0.0002678311004776111,
      "loss": 3.9834,
      "step": 103520
    },
    {
      "epoch": 0.2156875,
      "grad_norm": 0.823584258556366,
      "learning_rate": 0.000267824999650787,
      "loss": 4.1279,
      "step": 103530
    },
    {
      "epoch": 0.21570833333333334,
      "grad_norm": 0.7600060105323792,
      "learning_rate": 0.00026781889831500557,
      "loss": 4.0069,
      "step": 103540
    },
    {
      "epoch": 0.21572916666666667,
      "grad_norm": 0.8458902835845947,
      "learning_rate": 0.00026781279647029307,
      "loss": 3.9597,
      "step": 103550
    },
    {
      "epoch": 0.21575,
      "grad_norm": 0.8857820630073547,
      "learning_rate": 0.00026780669411667596,
      "loss": 3.9559,
      "step": 103560
    },
    {
      "epoch": 0.21577083333333333,
      "grad_norm": 0.8186184167861938,
      "learning_rate": 0.00026780059125418055,
      "loss": 4.0803,
      "step": 103570
    },
    {
      "epoch": 0.21579166666666666,
      "grad_norm": 0.734290361404419,
      "learning_rate": 0.0002677944878828332,
      "loss": 4.0913,
      "step": 103580
    },
    {
      "epoch": 0.2158125,
      "grad_norm": 0.8889702558517456,
      "learning_rate": 0.0002677883840026603,
      "loss": 3.8769,
      "step": 103590
    },
    {
      "epoch": 0.21583333333333332,
      "grad_norm": 0.7960328459739685,
      "learning_rate": 0.0002677822796136882,
      "loss": 3.9581,
      "step": 103600
    },
    {
      "epoch": 0.21585416666666668,
      "grad_norm": 0.7945067286491394,
      "learning_rate": 0.00026777617471594327,
      "loss": 4.1412,
      "step": 103610
    },
    {
      "epoch": 0.215875,
      "grad_norm": 0.8098985552787781,
      "learning_rate": 0.0002677700693094519,
      "loss": 4.1156,
      "step": 103620
    },
    {
      "epoch": 0.21589583333333334,
      "grad_norm": 0.8236299157142639,
      "learning_rate": 0.0002677639633942405,
      "loss": 4.2025,
      "step": 103630
    },
    {
      "epoch": 0.21591666666666667,
      "grad_norm": 0.7940226197242737,
      "learning_rate": 0.00026775785697033533,
      "loss": 4.1931,
      "step": 103640
    },
    {
      "epoch": 0.2159375,
      "grad_norm": 0.7485418915748596,
      "learning_rate": 0.00026775175003776285,
      "loss": 4.0088,
      "step": 103650
    },
    {
      "epoch": 0.21595833333333334,
      "grad_norm": 0.962917685508728,
      "learning_rate": 0.0002677456425965494,
      "loss": 4.1576,
      "step": 103660
    },
    {
      "epoch": 0.21597916666666667,
      "grad_norm": 0.7648068070411682,
      "learning_rate": 0.00026773953464672134,
      "loss": 3.9617,
      "step": 103670
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.8248101472854614,
      "learning_rate": 0.00026773342618830517,
      "loss": 4.0936,
      "step": 103680
    },
    {
      "epoch": 0.21602083333333333,
      "grad_norm": 0.7525261640548706,
      "learning_rate": 0.00026772731722132716,
      "loss": 4.1085,
      "step": 103690
    },
    {
      "epoch": 0.21604166666666666,
      "grad_norm": 0.8419785499572754,
      "learning_rate": 0.0002677212077458138,
      "loss": 4.1731,
      "step": 103700
    },
    {
      "epoch": 0.2160625,
      "grad_norm": 0.8465964198112488,
      "learning_rate": 0.0002677150977617913,
      "loss": 4.2599,
      "step": 103710
    },
    {
      "epoch": 0.21608333333333332,
      "grad_norm": 0.8436692953109741,
      "learning_rate": 0.0002677089872692863,
      "loss": 4.065,
      "step": 103720
    },
    {
      "epoch": 0.21610416666666668,
      "grad_norm": 0.7430591583251953,
      "learning_rate": 0.00026770287626832497,
      "loss": 3.9414,
      "step": 103730
    },
    {
      "epoch": 0.216125,
      "grad_norm": 0.7705928683280945,
      "learning_rate": 0.0002676967647589339,
      "loss": 4.0809,
      "step": 103740
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 0.733764111995697,
      "learning_rate": 0.0002676906527411393,
      "loss": 3.9816,
      "step": 103750
    },
    {
      "epoch": 0.21616666666666667,
      "grad_norm": 0.8021918535232544,
      "learning_rate": 0.0002676845402149677,
      "loss": 3.9092,
      "step": 103760
    },
    {
      "epoch": 0.2161875,
      "grad_norm": 0.8584046363830566,
      "learning_rate": 0.00026767842718044546,
      "loss": 4.0756,
      "step": 103770
    },
    {
      "epoch": 0.21620833333333334,
      "grad_norm": 0.7921270132064819,
      "learning_rate": 0.00026767231363759907,
      "loss": 4.0203,
      "step": 103780
    },
    {
      "epoch": 0.21622916666666667,
      "grad_norm": 0.7490050792694092,
      "learning_rate": 0.0002676661995864548,
      "loss": 4.0977,
      "step": 103790
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.9036313891410828,
      "learning_rate": 0.00026766008502703914,
      "loss": 4.3407,
      "step": 103800
    },
    {
      "epoch": 0.21627083333333333,
      "grad_norm": 0.8470142483711243,
      "learning_rate": 0.00026765396995937846,
      "loss": 4.0511,
      "step": 103810
    },
    {
      "epoch": 0.21629166666666666,
      "grad_norm": 0.8145529627799988,
      "learning_rate": 0.0002676478543834992,
      "loss": 3.9228,
      "step": 103820
    },
    {
      "epoch": 0.2163125,
      "grad_norm": 0.8068323135375977,
      "learning_rate": 0.0002676417382994278,
      "loss": 4.0263,
      "step": 103830
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 0.8914035558700562,
      "learning_rate": 0.0002676356217071906,
      "loss": 4.036,
      "step": 103840
    },
    {
      "epoch": 0.21635416666666665,
      "grad_norm": 0.7766125202178955,
      "learning_rate": 0.00026762950460681415,
      "loss": 4.0718,
      "step": 103850
    },
    {
      "epoch": 0.216375,
      "grad_norm": 0.8848459720611572,
      "learning_rate": 0.00026762338699832475,
      "loss": 4.1409,
      "step": 103860
    },
    {
      "epoch": 0.21639583333333334,
      "grad_norm": 0.8411211967468262,
      "learning_rate": 0.00026761726888174895,
      "loss": 4.1356,
      "step": 103870
    },
    {
      "epoch": 0.21641666666666667,
      "grad_norm": 0.8779765367507935,
      "learning_rate": 0.000267611150257113,
      "loss": 4.0658,
      "step": 103880
    },
    {
      "epoch": 0.2164375,
      "grad_norm": 0.9089166522026062,
      "learning_rate": 0.00026760503112444354,
      "loss": 4.1219,
      "step": 103890
    },
    {
      "epoch": 0.21645833333333334,
      "grad_norm": 0.9058297872543335,
      "learning_rate": 0.00026759891148376685,
      "loss": 3.9889,
      "step": 103900
    },
    {
      "epoch": 0.21647916666666667,
      "grad_norm": 0.8029401302337646,
      "learning_rate": 0.0002675927913351094,
      "loss": 3.8168,
      "step": 103910
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.7560065984725952,
      "learning_rate": 0.00026758667067849765,
      "loss": 4.0145,
      "step": 103920
    },
    {
      "epoch": 0.21652083333333333,
      "grad_norm": 0.7956606149673462,
      "learning_rate": 0.000267580549513958,
      "loss": 4.0229,
      "step": 103930
    },
    {
      "epoch": 0.21654166666666666,
      "grad_norm": 0.7922462224960327,
      "learning_rate": 0.00026757442784151696,
      "loss": 3.875,
      "step": 103940
    },
    {
      "epoch": 0.2165625,
      "grad_norm": 0.7874967455863953,
      "learning_rate": 0.00026756830566120087,
      "loss": 4.0481,
      "step": 103950
    },
    {
      "epoch": 0.21658333333333332,
      "grad_norm": 0.992752730846405,
      "learning_rate": 0.0002675621829730363,
      "loss": 4.0572,
      "step": 103960
    },
    {
      "epoch": 0.21660416666666665,
      "grad_norm": 0.8264480233192444,
      "learning_rate": 0.00026755605977704964,
      "loss": 4.054,
      "step": 103970
    },
    {
      "epoch": 0.216625,
      "grad_norm": 0.8375687003135681,
      "learning_rate": 0.0002675499360732673,
      "loss": 3.8456,
      "step": 103980
    },
    {
      "epoch": 0.21664583333333334,
      "grad_norm": 0.9090831279754639,
      "learning_rate": 0.00026754381186171574,
      "loss": 4.0267,
      "step": 103990
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.8163721561431885,
      "learning_rate": 0.0002675376871424215,
      "loss": 4.0949,
      "step": 104000
    },
    {
      "epoch": 0.21666666666666667,
      "eval_loss": 3.7842800617218018,
      "eval_runtime": 7.2661,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 104000
    },
    {
      "epoch": 0.2166875,
      "grad_norm": 0.8027811646461487,
      "learning_rate": 0.00026753156191541095,
      "loss": 4.1555,
      "step": 104010
    },
    {
      "epoch": 0.21670833333333334,
      "grad_norm": 0.7807466983795166,
      "learning_rate": 0.0002675254361807106,
      "loss": 4.0749,
      "step": 104020
    },
    {
      "epoch": 0.21672916666666667,
      "grad_norm": 0.8244211673736572,
      "learning_rate": 0.0002675193099383468,
      "loss": 4.0753,
      "step": 104030
    },
    {
      "epoch": 0.21675,
      "grad_norm": 0.7682695984840393,
      "learning_rate": 0.0002675131831883462,
      "loss": 4.0201,
      "step": 104040
    },
    {
      "epoch": 0.21677083333333333,
      "grad_norm": 1.045112133026123,
      "learning_rate": 0.00026750705593073514,
      "loss": 4.0574,
      "step": 104050
    },
    {
      "epoch": 0.21679166666666666,
      "grad_norm": 2.067279577255249,
      "learning_rate": 0.00026750092816554003,
      "loss": 4.1139,
      "step": 104060
    },
    {
      "epoch": 0.2168125,
      "grad_norm": 0.7921738028526306,
      "learning_rate": 0.00026749479989278754,
      "loss": 3.8267,
      "step": 104070
    },
    {
      "epoch": 0.21683333333333332,
      "grad_norm": 0.810477614402771,
      "learning_rate": 0.0002674886711125039,
      "loss": 3.9697,
      "step": 104080
    },
    {
      "epoch": 0.21685416666666665,
      "grad_norm": 0.7826613187789917,
      "learning_rate": 0.0002674825418247158,
      "loss": 4.1757,
      "step": 104090
    },
    {
      "epoch": 0.216875,
      "grad_norm": 0.7237696647644043,
      "learning_rate": 0.0002674764120294496,
      "loss": 3.8291,
      "step": 104100
    },
    {
      "epoch": 0.21689583333333334,
      "grad_norm": 0.7662225961685181,
      "learning_rate": 0.00026747028172673175,
      "loss": 4.0131,
      "step": 104110
    },
    {
      "epoch": 0.21691666666666667,
      "grad_norm": 0.755301296710968,
      "learning_rate": 0.0002674641509165889,
      "loss": 4.0863,
      "step": 104120
    },
    {
      "epoch": 0.2169375,
      "grad_norm": 0.8012794852256775,
      "learning_rate": 0.00026745801959904725,
      "loss": 3.9168,
      "step": 104130
    },
    {
      "epoch": 0.21695833333333334,
      "grad_norm": 1.0578551292419434,
      "learning_rate": 0.0002674518877741336,
      "loss": 4.2395,
      "step": 104140
    },
    {
      "epoch": 0.21697916666666667,
      "grad_norm": 0.7387181520462036,
      "learning_rate": 0.0002674457554418742,
      "loss": 4.0336,
      "step": 104150
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.8475790619850159,
      "learning_rate": 0.00026743962260229563,
      "loss": 4.0119,
      "step": 104160
    },
    {
      "epoch": 0.21702083333333333,
      "grad_norm": 0.7891605496406555,
      "learning_rate": 0.00026743348925542445,
      "loss": 4.0107,
      "step": 104170
    },
    {
      "epoch": 0.21704166666666666,
      "grad_norm": 0.7382881045341492,
      "learning_rate": 0.000267427355401287,
      "loss": 4.0666,
      "step": 104180
    },
    {
      "epoch": 0.2170625,
      "grad_norm": 0.7709349989891052,
      "learning_rate": 0.00026742122103990985,
      "loss": 4.1348,
      "step": 104190
    },
    {
      "epoch": 0.21708333333333332,
      "grad_norm": 0.7900201678276062,
      "learning_rate": 0.00026741508617131955,
      "loss": 4.0849,
      "step": 104200
    },
    {
      "epoch": 0.21710416666666665,
      "grad_norm": 0.8431107997894287,
      "learning_rate": 0.0002674089507955425,
      "loss": 4.151,
      "step": 104210
    },
    {
      "epoch": 0.217125,
      "grad_norm": 0.7971857190132141,
      "learning_rate": 0.0002674028149126053,
      "loss": 4.0542,
      "step": 104220
    },
    {
      "epoch": 0.21714583333333334,
      "grad_norm": 0.7507866621017456,
      "learning_rate": 0.0002673966785225344,
      "loss": 4.0311,
      "step": 104230
    },
    {
      "epoch": 0.21716666666666667,
      "grad_norm": 0.8927109837532043,
      "learning_rate": 0.0002673905416253563,
      "loss": 3.9316,
      "step": 104240
    },
    {
      "epoch": 0.2171875,
      "grad_norm": 0.7852606177330017,
      "learning_rate": 0.0002673844042210976,
      "loss": 3.911,
      "step": 104250
    },
    {
      "epoch": 0.21720833333333334,
      "grad_norm": 0.7920405864715576,
      "learning_rate": 0.00026737826630978464,
      "loss": 4.0107,
      "step": 104260
    },
    {
      "epoch": 0.21722916666666667,
      "grad_norm": 0.7871031165122986,
      "learning_rate": 0.0002673721278914441,
      "loss": 3.8794,
      "step": 104270
    },
    {
      "epoch": 0.21725,
      "grad_norm": 0.8629434704780579,
      "learning_rate": 0.0002673659889661024,
      "loss": 4.0662,
      "step": 104280
    },
    {
      "epoch": 0.21727083333333333,
      "grad_norm": 0.8784129023551941,
      "learning_rate": 0.0002673598495337861,
      "loss": 4.1293,
      "step": 104290
    },
    {
      "epoch": 0.21729166666666666,
      "grad_norm": 0.7793496251106262,
      "learning_rate": 0.00026735370959452166,
      "loss": 4.0205,
      "step": 104300
    },
    {
      "epoch": 0.2173125,
      "grad_norm": 0.8637427687644958,
      "learning_rate": 0.0002673475691483357,
      "loss": 4.1205,
      "step": 104310
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 0.7866992354393005,
      "learning_rate": 0.00026734142819525463,
      "loss": 3.929,
      "step": 104320
    },
    {
      "epoch": 0.21735416666666665,
      "grad_norm": 0.7357718348503113,
      "learning_rate": 0.0002673352867353051,
      "loss": 4.0451,
      "step": 104330
    },
    {
      "epoch": 0.217375,
      "grad_norm": 0.8104493618011475,
      "learning_rate": 0.00026732914476851354,
      "loss": 4.0492,
      "step": 104340
    },
    {
      "epoch": 0.21739583333333334,
      "grad_norm": 0.815517783164978,
      "learning_rate": 0.00026732300229490654,
      "loss": 3.9739,
      "step": 104350
    },
    {
      "epoch": 0.21741666666666667,
      "grad_norm": 0.8039553165435791,
      "learning_rate": 0.0002673168593145106,
      "loss": 4.0407,
      "step": 104360
    },
    {
      "epoch": 0.2174375,
      "grad_norm": 0.8654630780220032,
      "learning_rate": 0.00026731071582735224,
      "loss": 4.152,
      "step": 104370
    },
    {
      "epoch": 0.21745833333333334,
      "grad_norm": 0.7283019423484802,
      "learning_rate": 0.0002673045718334581,
      "loss": 3.9268,
      "step": 104380
    },
    {
      "epoch": 0.21747916666666667,
      "grad_norm": 0.7462106347084045,
      "learning_rate": 0.00026729842733285456,
      "loss": 3.9889,
      "step": 104390
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.7997654676437378,
      "learning_rate": 0.0002672922823255682,
      "loss": 3.8945,
      "step": 104400
    },
    {
      "epoch": 0.21752083333333333,
      "grad_norm": 0.8432582020759583,
      "learning_rate": 0.0002672861368116257,
      "loss": 4.2404,
      "step": 104410
    },
    {
      "epoch": 0.21754166666666666,
      "grad_norm": 1.1841846704483032,
      "learning_rate": 0.0002672799907910535,
      "loss": 4.0365,
      "step": 104420
    },
    {
      "epoch": 0.2175625,
      "grad_norm": 0.7635639905929565,
      "learning_rate": 0.00026727384426387816,
      "loss": 4.1024,
      "step": 104430
    },
    {
      "epoch": 0.21758333333333332,
      "grad_norm": 0.8137922883033752,
      "learning_rate": 0.00026726769723012624,
      "loss": 4.0322,
      "step": 104440
    },
    {
      "epoch": 0.21760416666666665,
      "grad_norm": 0.8236117362976074,
      "learning_rate": 0.00026726154968982423,
      "loss": 3.7997,
      "step": 104450
    },
    {
      "epoch": 0.217625,
      "grad_norm": 0.7850374579429626,
      "learning_rate": 0.0002672554016429988,
      "loss": 3.9953,
      "step": 104460
    },
    {
      "epoch": 0.21764583333333334,
      "grad_norm": 0.844311535358429,
      "learning_rate": 0.00026724925308967644,
      "loss": 4.1257,
      "step": 104470
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 1.0278363227844238,
      "learning_rate": 0.00026724310402988374,
      "loss": 3.9261,
      "step": 104480
    },
    {
      "epoch": 0.2176875,
      "grad_norm": 0.7498427629470825,
      "learning_rate": 0.00026723695446364724,
      "loss": 4.1291,
      "step": 104490
    },
    {
      "epoch": 0.21770833333333334,
      "grad_norm": 0.789474368095398,
      "learning_rate": 0.00026723080439099346,
      "loss": 4.2586,
      "step": 104500
    },
    {
      "epoch": 0.21772916666666667,
      "grad_norm": 0.7638832330703735,
      "learning_rate": 0.000267224653811949,
      "loss": 4.0085,
      "step": 104510
    },
    {
      "epoch": 0.21775,
      "grad_norm": 0.7290065884590149,
      "learning_rate": 0.00026721850272654047,
      "loss": 3.9893,
      "step": 104520
    },
    {
      "epoch": 0.21777083333333333,
      "grad_norm": 0.8241989016532898,
      "learning_rate": 0.0002672123511347944,
      "loss": 4.0094,
      "step": 104530
    },
    {
      "epoch": 0.21779166666666666,
      "grad_norm": 0.7233354449272156,
      "learning_rate": 0.0002672061990367373,
      "loss": 3.8286,
      "step": 104540
    },
    {
      "epoch": 0.2178125,
      "grad_norm": 0.8242985010147095,
      "learning_rate": 0.0002672000464323959,
      "loss": 4.0271,
      "step": 104550
    },
    {
      "epoch": 0.21783333333333332,
      "grad_norm": 0.7425262331962585,
      "learning_rate": 0.0002671938933217966,
      "loss": 4.2412,
      "step": 104560
    },
    {
      "epoch": 0.21785416666666665,
      "grad_norm": 0.7831138968467712,
      "learning_rate": 0.00026718773970496617,
      "loss": 4.1115,
      "step": 104570
    },
    {
      "epoch": 0.217875,
      "grad_norm": 1.215546727180481,
      "learning_rate": 0.0002671815855819311,
      "loss": 4.1141,
      "step": 104580
    },
    {
      "epoch": 0.21789583333333334,
      "grad_norm": 0.7966192364692688,
      "learning_rate": 0.0002671754309527179,
      "loss": 3.8794,
      "step": 104590
    },
    {
      "epoch": 0.21791666666666668,
      "grad_norm": 1.026106834411621,
      "learning_rate": 0.0002671692758173532,
      "loss": 4.0705,
      "step": 104600
    },
    {
      "epoch": 0.2179375,
      "grad_norm": 0.7882612943649292,
      "learning_rate": 0.0002671631201758637,
      "loss": 4.0513,
      "step": 104610
    },
    {
      "epoch": 0.21795833333333334,
      "grad_norm": 0.7771412134170532,
      "learning_rate": 0.00026715696402827583,
      "loss": 3.9842,
      "step": 104620
    },
    {
      "epoch": 0.21797916666666667,
      "grad_norm": 0.8232804536819458,
      "learning_rate": 0.00026715080737461623,
      "loss": 4.0629,
      "step": 104630
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.760468602180481,
      "learning_rate": 0.0002671446502149115,
      "loss": 4.224,
      "step": 104640
    },
    {
      "epoch": 0.21802083333333333,
      "grad_norm": 0.8348137140274048,
      "learning_rate": 0.00026713849254918833,
      "loss": 3.9475,
      "step": 104650
    },
    {
      "epoch": 0.21804166666666666,
      "grad_norm": 0.9977343678474426,
      "learning_rate": 0.0002671323343774732,
      "loss": 4.2419,
      "step": 104660
    },
    {
      "epoch": 0.2180625,
      "grad_norm": 0.7890920639038086,
      "learning_rate": 0.00026712617569979273,
      "loss": 3.9057,
      "step": 104670
    },
    {
      "epoch": 0.21808333333333332,
      "grad_norm": 0.8134582042694092,
      "learning_rate": 0.0002671200165161736,
      "loss": 4.0527,
      "step": 104680
    },
    {
      "epoch": 0.21810416666666665,
      "grad_norm": 0.8026990294456482,
      "learning_rate": 0.0002671138568266423,
      "loss": 4.1631,
      "step": 104690
    },
    {
      "epoch": 0.218125,
      "grad_norm": 0.7732480764389038,
      "learning_rate": 0.00026710769663122557,
      "loss": 4.0928,
      "step": 104700
    },
    {
      "epoch": 0.21814583333333334,
      "grad_norm": 0.8089451193809509,
      "learning_rate": 0.0002671015359299499,
      "loss": 4.0902,
      "step": 104710
    },
    {
      "epoch": 0.21816666666666668,
      "grad_norm": 0.748107373714447,
      "learning_rate": 0.0002670953747228419,
      "loss": 3.9507,
      "step": 104720
    },
    {
      "epoch": 0.2181875,
      "grad_norm": 0.7621724009513855,
      "learning_rate": 0.0002670892130099283,
      "loss": 3.8908,
      "step": 104730
    },
    {
      "epoch": 0.21820833333333334,
      "grad_norm": 0.8008098602294922,
      "learning_rate": 0.00026708305079123563,
      "loss": 3.9234,
      "step": 104740
    },
    {
      "epoch": 0.21822916666666667,
      "grad_norm": 0.7907018661499023,
      "learning_rate": 0.0002670768880667905,
      "loss": 3.8526,
      "step": 104750
    },
    {
      "epoch": 0.21825,
      "grad_norm": 0.8136606812477112,
      "learning_rate": 0.00026707072483661955,
      "loss": 3.9596,
      "step": 104760
    },
    {
      "epoch": 0.21827083333333333,
      "grad_norm": 0.8058430552482605,
      "learning_rate": 0.00026706456110074943,
      "loss": 4.1469,
      "step": 104770
    },
    {
      "epoch": 0.21829166666666666,
      "grad_norm": 0.7976253628730774,
      "learning_rate": 0.00026705839685920677,
      "loss": 4.107,
      "step": 104780
    },
    {
      "epoch": 0.2183125,
      "grad_norm": 0.897626519203186,
      "learning_rate": 0.0002670522321120181,
      "loss": 3.9934,
      "step": 104790
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 0.745498776435852,
      "learning_rate": 0.0002670460668592102,
      "loss": 4.2027,
      "step": 104800
    },
    {
      "epoch": 0.21835416666666665,
      "grad_norm": 0.8891316056251526,
      "learning_rate": 0.0002670399011008096,
      "loss": 3.9698,
      "step": 104810
    },
    {
      "epoch": 0.218375,
      "grad_norm": 0.8791980147361755,
      "learning_rate": 0.0002670337348368429,
      "loss": 4.0749,
      "step": 104820
    },
    {
      "epoch": 0.21839583333333334,
      "grad_norm": 0.8722354769706726,
      "learning_rate": 0.00026702756806733685,
      "loss": 3.9948,
      "step": 104830
    },
    {
      "epoch": 0.21841666666666668,
      "grad_norm": 0.730813205242157,
      "learning_rate": 0.000267021400792318,
      "loss": 4.145,
      "step": 104840
    },
    {
      "epoch": 0.2184375,
      "grad_norm": 0.8533070087432861,
      "learning_rate": 0.00026701523301181303,
      "loss": 4.0438,
      "step": 104850
    },
    {
      "epoch": 0.21845833333333334,
      "grad_norm": 0.7482762932777405,
      "learning_rate": 0.00026700906472584856,
      "loss": 3.973,
      "step": 104860
    },
    {
      "epoch": 0.21847916666666667,
      "grad_norm": 0.8359620571136475,
      "learning_rate": 0.00026700289593445126,
      "loss": 3.9589,
      "step": 104870
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.7895350456237793,
      "learning_rate": 0.00026699672663764776,
      "loss": 4.0234,
      "step": 104880
    },
    {
      "epoch": 0.21852083333333333,
      "grad_norm": 0.7664796710014343,
      "learning_rate": 0.00026699055683546466,
      "loss": 4.0773,
      "step": 104890
    },
    {
      "epoch": 0.21854166666666666,
      "grad_norm": 0.7348588109016418,
      "learning_rate": 0.00026698438652792875,
      "loss": 4.0288,
      "step": 104900
    },
    {
      "epoch": 0.2185625,
      "grad_norm": 0.8004348278045654,
      "learning_rate": 0.00026697821571506654,
      "loss": 4.0833,
      "step": 104910
    },
    {
      "epoch": 0.21858333333333332,
      "grad_norm": 0.8117988705635071,
      "learning_rate": 0.0002669720443969048,
      "loss": 4.1065,
      "step": 104920
    },
    {
      "epoch": 0.21860416666666665,
      "grad_norm": 0.8768620491027832,
      "learning_rate": 0.00026696587257347005,
      "loss": 4.0883,
      "step": 104930
    },
    {
      "epoch": 0.218625,
      "grad_norm": 0.8327138423919678,
      "learning_rate": 0.00026695970024478906,
      "loss": 4.0036,
      "step": 104940
    },
    {
      "epoch": 0.21864583333333334,
      "grad_norm": 0.8450058102607727,
      "learning_rate": 0.00026695352741088846,
      "loss": 3.9167,
      "step": 104950
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 0.7794047594070435,
      "learning_rate": 0.0002669473540717949,
      "loss": 4.0735,
      "step": 104960
    },
    {
      "epoch": 0.2186875,
      "grad_norm": 0.9087540507316589,
      "learning_rate": 0.00026694118022753513,
      "loss": 4.2466,
      "step": 104970
    },
    {
      "epoch": 0.21870833333333334,
      "grad_norm": 0.7810425758361816,
      "learning_rate": 0.0002669350058781357,
      "loss": 4.1361,
      "step": 104980
    },
    {
      "epoch": 0.21872916666666667,
      "grad_norm": 0.7981441617012024,
      "learning_rate": 0.00026692883102362333,
      "loss": 4.0194,
      "step": 104990
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.7817906141281128,
      "learning_rate": 0.00026692265566402465,
      "loss": 4.0705,
      "step": 105000
    },
    {
      "epoch": 0.21875,
      "eval_loss": 3.787977695465088,
      "eval_runtime": 7.2364,
      "eval_samples_per_second": 1.382,
      "eval_steps_per_second": 0.415,
      "step": 105000
    },
    {
      "epoch": 0.21877083333333333,
      "grad_norm": 0.7463657855987549,
      "learning_rate": 0.00026691647979936643,
      "loss": 4.1086,
      "step": 105010
    },
    {
      "epoch": 0.21879166666666666,
      "grad_norm": 0.8816244006156921,
      "learning_rate": 0.00026691030342967535,
      "loss": 4.0905,
      "step": 105020
    },
    {
      "epoch": 0.2188125,
      "grad_norm": 0.7770898938179016,
      "learning_rate": 0.00026690412655497797,
      "loss": 3.9775,
      "step": 105030
    },
    {
      "epoch": 0.21883333333333332,
      "grad_norm": 0.799821138381958,
      "learning_rate": 0.000266897949175301,
      "loss": 4.0076,
      "step": 105040
    },
    {
      "epoch": 0.21885416666666666,
      "grad_norm": 0.806206226348877,
      "learning_rate": 0.00026689177129067125,
      "loss": 3.978,
      "step": 105050
    },
    {
      "epoch": 0.218875,
      "grad_norm": 0.7708792686462402,
      "learning_rate": 0.00026688559290111527,
      "loss": 3.9612,
      "step": 105060
    },
    {
      "epoch": 0.21889583333333335,
      "grad_norm": 0.7870502471923828,
      "learning_rate": 0.00026687941400665977,
      "loss": 3.999,
      "step": 105070
    },
    {
      "epoch": 0.21891666666666668,
      "grad_norm": 0.890267550945282,
      "learning_rate": 0.0002668732346073315,
      "loss": 4.2506,
      "step": 105080
    },
    {
      "epoch": 0.2189375,
      "grad_norm": 0.7522571682929993,
      "learning_rate": 0.0002668670547031571,
      "loss": 4.1214,
      "step": 105090
    },
    {
      "epoch": 0.21895833333333334,
      "grad_norm": 0.7531981468200684,
      "learning_rate": 0.0002668608742941633,
      "loss": 3.9701,
      "step": 105100
    },
    {
      "epoch": 0.21897916666666667,
      "grad_norm": 0.7613190412521362,
      "learning_rate": 0.0002668546933803768,
      "loss": 3.969,
      "step": 105110
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.7619218826293945,
      "learning_rate": 0.0002668485119618242,
      "loss": 4.0694,
      "step": 105120
    },
    {
      "epoch": 0.21902083333333333,
      "grad_norm": 0.7492316961288452,
      "learning_rate": 0.00026684233003853236,
      "loss": 4.0169,
      "step": 105130
    },
    {
      "epoch": 0.21904166666666666,
      "grad_norm": 0.853562593460083,
      "learning_rate": 0.00026683614761052786,
      "loss": 4.1515,
      "step": 105140
    },
    {
      "epoch": 0.2190625,
      "grad_norm": 0.8052555322647095,
      "learning_rate": 0.00026682996467783745,
      "loss": 4.1762,
      "step": 105150
    },
    {
      "epoch": 0.21908333333333332,
      "grad_norm": 0.7907126545906067,
      "learning_rate": 0.0002668237812404879,
      "loss": 3.9929,
      "step": 105160
    },
    {
      "epoch": 0.21910416666666666,
      "grad_norm": 0.8831974864006042,
      "learning_rate": 0.0002668175972985058,
      "loss": 4.1652,
      "step": 105170
    },
    {
      "epoch": 0.219125,
      "grad_norm": 0.7664172649383545,
      "learning_rate": 0.0002668114128519179,
      "loss": 4.1467,
      "step": 105180
    },
    {
      "epoch": 0.21914583333333335,
      "grad_norm": 0.741655707359314,
      "learning_rate": 0.000266805227900751,
      "loss": 3.9627,
      "step": 105190
    },
    {
      "epoch": 0.21916666666666668,
      "grad_norm": 0.801847517490387,
      "learning_rate": 0.00026679904244503167,
      "loss": 3.9463,
      "step": 105200
    },
    {
      "epoch": 0.2191875,
      "grad_norm": 0.7576131820678711,
      "learning_rate": 0.00026679285648478676,
      "loss": 4.0409,
      "step": 105210
    },
    {
      "epoch": 0.21920833333333334,
      "grad_norm": 0.8619261384010315,
      "learning_rate": 0.00026678667002004295,
      "loss": 3.9625,
      "step": 105220
    },
    {
      "epoch": 0.21922916666666667,
      "grad_norm": 0.7998061776161194,
      "learning_rate": 0.0002667804830508269,
      "loss": 4.0211,
      "step": 105230
    },
    {
      "epoch": 0.21925,
      "grad_norm": 0.7667085528373718,
      "learning_rate": 0.00026677429557716545,
      "loss": 3.948,
      "step": 105240
    },
    {
      "epoch": 0.21927083333333333,
      "grad_norm": 0.8096663355827332,
      "learning_rate": 0.00026676810759908526,
      "loss": 4.0134,
      "step": 105250
    },
    {
      "epoch": 0.21929166666666666,
      "grad_norm": 0.739216148853302,
      "learning_rate": 0.000266761919116613,
      "loss": 4.083,
      "step": 105260
    },
    {
      "epoch": 0.2193125,
      "grad_norm": 0.8275642991065979,
      "learning_rate": 0.0002667557301297755,
      "loss": 4.1955,
      "step": 105270
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 0.8091804385185242,
      "learning_rate": 0.00026674954063859947,
      "loss": 4.1437,
      "step": 105280
    },
    {
      "epoch": 0.21935416666666666,
      "grad_norm": 0.9004032611846924,
      "learning_rate": 0.00026674335064311166,
      "loss": 4.1358,
      "step": 105290
    },
    {
      "epoch": 0.219375,
      "grad_norm": 0.7504943013191223,
      "learning_rate": 0.00026673716014333877,
      "loss": 4.1134,
      "step": 105300
    },
    {
      "epoch": 0.21939583333333335,
      "grad_norm": 0.9614701867103577,
      "learning_rate": 0.00026673096913930756,
      "loss": 3.9724,
      "step": 105310
    },
    {
      "epoch": 0.21941666666666668,
      "grad_norm": 0.7417181730270386,
      "learning_rate": 0.00026672477763104477,
      "loss": 3.9532,
      "step": 105320
    },
    {
      "epoch": 0.2194375,
      "grad_norm": 0.7856623530387878,
      "learning_rate": 0.0002667185856185771,
      "loss": 4.1025,
      "step": 105330
    },
    {
      "epoch": 0.21945833333333334,
      "grad_norm": 0.8268787264823914,
      "learning_rate": 0.0002667123931019314,
      "loss": 4.1351,
      "step": 105340
    },
    {
      "epoch": 0.21947916666666667,
      "grad_norm": 0.8254899978637695,
      "learning_rate": 0.0002667062000811343,
      "loss": 4.1189,
      "step": 105350
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.7449004650115967,
      "learning_rate": 0.00026670000655621264,
      "loss": 4.116,
      "step": 105360
    },
    {
      "epoch": 0.21952083333333333,
      "grad_norm": 0.7569503784179688,
      "learning_rate": 0.0002666938125271932,
      "loss": 3.8968,
      "step": 105370
    },
    {
      "epoch": 0.21954166666666666,
      "grad_norm": 0.7049281597137451,
      "learning_rate": 0.0002666876179941026,
      "loss": 4.0811,
      "step": 105380
    },
    {
      "epoch": 0.2195625,
      "grad_norm": 0.7843179702758789,
      "learning_rate": 0.0002666814229569677,
      "loss": 3.9622,
      "step": 105390
    },
    {
      "epoch": 0.21958333333333332,
      "grad_norm": 0.8837876319885254,
      "learning_rate": 0.00026667522741581525,
      "loss": 3.9231,
      "step": 105400
    },
    {
      "epoch": 0.21960416666666666,
      "grad_norm": 0.829645574092865,
      "learning_rate": 0.000266669031370672,
      "loss": 4.0289,
      "step": 105410
    },
    {
      "epoch": 0.219625,
      "grad_norm": 0.7686697840690613,
      "learning_rate": 0.0002666628348215647,
      "loss": 4.0438,
      "step": 105420
    },
    {
      "epoch": 0.21964583333333335,
      "grad_norm": 0.776127815246582,
      "learning_rate": 0.00026665663776852017,
      "loss": 3.978,
      "step": 105430
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 0.8648552298545837,
      "learning_rate": 0.0002666504402115651,
      "loss": 4.2105,
      "step": 105440
    },
    {
      "epoch": 0.2196875,
      "grad_norm": 0.7290766835212708,
      "learning_rate": 0.0002666442421507263,
      "loss": 3.9426,
      "step": 105450
    },
    {
      "epoch": 0.21970833333333334,
      "grad_norm": 0.7811577320098877,
      "learning_rate": 0.00026663804358603054,
      "loss": 3.9475,
      "step": 105460
    },
    {
      "epoch": 0.21972916666666667,
      "grad_norm": 0.8876771330833435,
      "learning_rate": 0.0002666318445175047,
      "loss": 4.2218,
      "step": 105470
    },
    {
      "epoch": 0.21975,
      "grad_norm": 0.802199125289917,
      "learning_rate": 0.0002666256449451753,
      "loss": 4.067,
      "step": 105480
    },
    {
      "epoch": 0.21977083333333333,
      "grad_norm": 0.708318829536438,
      "learning_rate": 0.0002666194448690694,
      "loss": 4.0524,
      "step": 105490
    },
    {
      "epoch": 0.21979166666666666,
      "grad_norm": 0.7646233439445496,
      "learning_rate": 0.0002666132442892136,
      "loss": 4.0721,
      "step": 105500
    },
    {
      "epoch": 0.2198125,
      "grad_norm": 0.744515597820282,
      "learning_rate": 0.0002666070432056348,
      "loss": 4.1327,
      "step": 105510
    },
    {
      "epoch": 0.21983333333333333,
      "grad_norm": 0.794762909412384,
      "learning_rate": 0.00026660084161835967,
      "loss": 3.9866,
      "step": 105520
    },
    {
      "epoch": 0.21985416666666666,
      "grad_norm": 0.7779746651649475,
      "learning_rate": 0.00026659463952741506,
      "loss": 4.0699,
      "step": 105530
    },
    {
      "epoch": 0.219875,
      "grad_norm": 0.9620674252510071,
      "learning_rate": 0.00026658843693282776,
      "loss": 4.0094,
      "step": 105540
    },
    {
      "epoch": 0.21989583333333335,
      "grad_norm": 0.7494041323661804,
      "learning_rate": 0.0002665822338346246,
      "loss": 4.1186,
      "step": 105550
    },
    {
      "epoch": 0.21991666666666668,
      "grad_norm": 0.7717195749282837,
      "learning_rate": 0.0002665760302328323,
      "loss": 4.1104,
      "step": 105560
    },
    {
      "epoch": 0.2199375,
      "grad_norm": 0.7721746563911438,
      "learning_rate": 0.0002665698261274777,
      "loss": 4.0225,
      "step": 105570
    },
    {
      "epoch": 0.21995833333333334,
      "grad_norm": 0.7626214623451233,
      "learning_rate": 0.0002665636215185876,
      "loss": 3.9832,
      "step": 105580
    },
    {
      "epoch": 0.21997916666666667,
      "grad_norm": 0.7417530417442322,
      "learning_rate": 0.0002665574164061888,
      "loss": 4.13,
      "step": 105590
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8241193294525146,
      "learning_rate": 0.0002665512107903081,
      "loss": 4.0369,
      "step": 105600
    },
    {
      "epoch": 0.22002083333333333,
      "grad_norm": 0.8746474981307983,
      "learning_rate": 0.0002665450046709723,
      "loss": 4.1444,
      "step": 105610
    },
    {
      "epoch": 0.22004166666666666,
      "grad_norm": 0.9111981391906738,
      "learning_rate": 0.00026653879804820817,
      "loss": 3.9561,
      "step": 105620
    },
    {
      "epoch": 0.2200625,
      "grad_norm": 0.7990854382514954,
      "learning_rate": 0.0002665325909220426,
      "loss": 4.0409,
      "step": 105630
    },
    {
      "epoch": 0.22008333333333333,
      "grad_norm": 0.7331029176712036,
      "learning_rate": 0.0002665263832925024,
      "loss": 4.0201,
      "step": 105640
    },
    {
      "epoch": 0.22010416666666666,
      "grad_norm": 0.7116540670394897,
      "learning_rate": 0.00026652017515961426,
      "loss": 4.1731,
      "step": 105650
    },
    {
      "epoch": 0.220125,
      "grad_norm": 0.8580676913261414,
      "learning_rate": 0.00026651396652340516,
      "loss": 3.9765,
      "step": 105660
    },
    {
      "epoch": 0.22014583333333335,
      "grad_norm": 0.7816846966743469,
      "learning_rate": 0.0002665077573839018,
      "loss": 3.998,
      "step": 105670
    },
    {
      "epoch": 0.22016666666666668,
      "grad_norm": 0.8027017116546631,
      "learning_rate": 0.0002665015477411311,
      "loss": 4.2681,
      "step": 105680
    },
    {
      "epoch": 0.2201875,
      "grad_norm": 0.7875690460205078,
      "learning_rate": 0.0002664953375951198,
      "loss": 3.9007,
      "step": 105690
    },
    {
      "epoch": 0.22020833333333334,
      "grad_norm": 0.7768688797950745,
      "learning_rate": 0.00026648912694589473,
      "loss": 4.2274,
      "step": 105700
    },
    {
      "epoch": 0.22022916666666667,
      "grad_norm": 0.809932291507721,
      "learning_rate": 0.00026648291579348273,
      "loss": 3.8501,
      "step": 105710
    },
    {
      "epoch": 0.22025,
      "grad_norm": 0.7498131990432739,
      "learning_rate": 0.0002664767041379107,
      "loss": 4.0627,
      "step": 105720
    },
    {
      "epoch": 0.22027083333333333,
      "grad_norm": 0.866282045841217,
      "learning_rate": 0.00026647049197920536,
      "loss": 3.9201,
      "step": 105730
    },
    {
      "epoch": 0.22029166666666666,
      "grad_norm": 0.7442351579666138,
      "learning_rate": 0.00026646427931739365,
      "loss": 3.9455,
      "step": 105740
    },
    {
      "epoch": 0.2203125,
      "grad_norm": 0.8212143182754517,
      "learning_rate": 0.00026645806615250233,
      "loss": 4.077,
      "step": 105750
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 0.7998502254486084,
      "learning_rate": 0.0002664518524845582,
      "loss": 4.0488,
      "step": 105760
    },
    {
      "epoch": 0.22035416666666666,
      "grad_norm": 0.851905345916748,
      "learning_rate": 0.0002664456383135882,
      "loss": 3.9327,
      "step": 105770
    },
    {
      "epoch": 0.220375,
      "grad_norm": 0.7932753562927246,
      "learning_rate": 0.0002664394236396192,
      "loss": 4.0432,
      "step": 105780
    },
    {
      "epoch": 0.22039583333333335,
      "grad_norm": 0.7388318181037903,
      "learning_rate": 0.0002664332084626779,
      "loss": 4.1224,
      "step": 105790
    },
    {
      "epoch": 0.22041666666666668,
      "grad_norm": 0.7897617816925049,
      "learning_rate": 0.00026642699278279125,
      "loss": 4.1642,
      "step": 105800
    },
    {
      "epoch": 0.2204375,
      "grad_norm": 0.7541139721870422,
      "learning_rate": 0.0002664207765999861,
      "loss": 4.1248,
      "step": 105810
    },
    {
      "epoch": 0.22045833333333334,
      "grad_norm": 0.9889540672302246,
      "learning_rate": 0.0002664145599142893,
      "loss": 4.1705,
      "step": 105820
    },
    {
      "epoch": 0.22047916666666667,
      "grad_norm": 0.8007799386978149,
      "learning_rate": 0.0002664083427257276,
      "loss": 3.8986,
      "step": 105830
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.8234007954597473,
      "learning_rate": 0.000266402125034328,
      "loss": 3.8231,
      "step": 105840
    },
    {
      "epoch": 0.22052083333333333,
      "grad_norm": 0.9008132219314575,
      "learning_rate": 0.00026639590684011727,
      "loss": 3.9987,
      "step": 105850
    },
    {
      "epoch": 0.22054166666666666,
      "grad_norm": 0.8180028200149536,
      "learning_rate": 0.0002663896881431223,
      "loss": 4.0632,
      "step": 105860
    },
    {
      "epoch": 0.2205625,
      "grad_norm": 0.7770786881446838,
      "learning_rate": 0.0002663834689433699,
      "loss": 4.1005,
      "step": 105870
    },
    {
      "epoch": 0.22058333333333333,
      "grad_norm": 0.8484609127044678,
      "learning_rate": 0.0002663772492408871,
      "loss": 3.9839,
      "step": 105880
    },
    {
      "epoch": 0.22060416666666666,
      "grad_norm": 0.8024892210960388,
      "learning_rate": 0.00026637102903570055,
      "loss": 4.1049,
      "step": 105890
    },
    {
      "epoch": 0.220625,
      "grad_norm": 0.8176752328872681,
      "learning_rate": 0.00026636480832783723,
      "loss": 4.3584,
      "step": 105900
    },
    {
      "epoch": 0.22064583333333335,
      "grad_norm": 0.7843438386917114,
      "learning_rate": 0.000266358587117324,
      "loss": 3.9957,
      "step": 105910
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 0.8353188037872314,
      "learning_rate": 0.00026635236540418773,
      "loss": 4.046,
      "step": 105920
    },
    {
      "epoch": 0.2206875,
      "grad_norm": 0.8295000195503235,
      "learning_rate": 0.00026634614318845533,
      "loss": 4.0026,
      "step": 105930
    },
    {
      "epoch": 0.22070833333333334,
      "grad_norm": 0.8435686230659485,
      "learning_rate": 0.00026633992047015364,
      "loss": 4.0337,
      "step": 105940
    },
    {
      "epoch": 0.22072916666666667,
      "grad_norm": 0.8628356456756592,
      "learning_rate": 0.0002663336972493095,
      "loss": 4.0272,
      "step": 105950
    },
    {
      "epoch": 0.22075,
      "grad_norm": 0.8153338432312012,
      "learning_rate": 0.0002663274735259499,
      "loss": 4.1506,
      "step": 105960
    },
    {
      "epoch": 0.22077083333333333,
      "grad_norm": 0.8239125609397888,
      "learning_rate": 0.0002663212493001016,
      "loss": 3.9655,
      "step": 105970
    },
    {
      "epoch": 0.22079166666666666,
      "grad_norm": 0.7929583787918091,
      "learning_rate": 0.0002663150245717916,
      "loss": 3.8415,
      "step": 105980
    },
    {
      "epoch": 0.2208125,
      "grad_norm": 0.7539079785346985,
      "learning_rate": 0.0002663087993410467,
      "loss": 3.9466,
      "step": 105990
    },
    {
      "epoch": 0.22083333333333333,
      "grad_norm": 0.7924642562866211,
      "learning_rate": 0.0002663025736078938,
      "loss": 3.9206,
      "step": 106000
    },
    {
      "epoch": 0.22083333333333333,
      "eval_loss": 3.7836875915527344,
      "eval_runtime": 7.2259,
      "eval_samples_per_second": 1.384,
      "eval_steps_per_second": 0.415,
      "step": 106000
    },
    {
      "epoch": 0.22085416666666666,
      "grad_norm": 0.8478860855102539,
      "learning_rate": 0.0002662963473723599,
      "loss": 3.9904,
      "step": 106010
    },
    {
      "epoch": 0.220875,
      "grad_norm": 0.7146785259246826,
      "learning_rate": 0.00026629012063447173,
      "loss": 3.9256,
      "step": 106020
    },
    {
      "epoch": 0.22089583333333335,
      "grad_norm": 0.8211041688919067,
      "learning_rate": 0.0002662838933942563,
      "loss": 4.1953,
      "step": 106030
    },
    {
      "epoch": 0.22091666666666668,
      "grad_norm": 0.7763963341712952,
      "learning_rate": 0.0002662776656517405,
      "loss": 4.0802,
      "step": 106040
    },
    {
      "epoch": 0.2209375,
      "grad_norm": 0.8845061659812927,
      "learning_rate": 0.00026627143740695115,
      "loss": 4.0591,
      "step": 106050
    },
    {
      "epoch": 0.22095833333333334,
      "grad_norm": 0.7846490144729614,
      "learning_rate": 0.00026626520865991526,
      "loss": 4.1309,
      "step": 106060
    },
    {
      "epoch": 0.22097916666666667,
      "grad_norm": 0.85560142993927,
      "learning_rate": 0.00026625897941065974,
      "loss": 4.1237,
      "step": 106070
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.7766693234443665,
      "learning_rate": 0.00026625274965921136,
      "loss": 4.0886,
      "step": 106080
    },
    {
      "epoch": 0.22102083333333333,
      "grad_norm": 0.7924078106880188,
      "learning_rate": 0.00026624651940559713,
      "loss": 4.1267,
      "step": 106090
    },
    {
      "epoch": 0.22104166666666666,
      "grad_norm": 0.7442067265510559,
      "learning_rate": 0.000266240288649844,
      "loss": 4.1088,
      "step": 106100
    },
    {
      "epoch": 0.2210625,
      "grad_norm": 0.7690771222114563,
      "learning_rate": 0.00026623405739197877,
      "loss": 4.093,
      "step": 106110
    },
    {
      "epoch": 0.22108333333333333,
      "grad_norm": 0.9021731615066528,
      "learning_rate": 0.00026622782563202847,
      "loss": 3.8805,
      "step": 106120
    },
    {
      "epoch": 0.22110416666666666,
      "grad_norm": 0.763605535030365,
      "learning_rate": 0.00026622159337002,
      "loss": 3.9893,
      "step": 106130
    },
    {
      "epoch": 0.221125,
      "grad_norm": 0.7728906869888306,
      "learning_rate": 0.0002662153606059801,
      "loss": 4.2363,
      "step": 106140
    },
    {
      "epoch": 0.22114583333333335,
      "grad_norm": 0.8037804365158081,
      "learning_rate": 0.000266209127339936,
      "loss": 4.0243,
      "step": 106150
    },
    {
      "epoch": 0.22116666666666668,
      "grad_norm": 0.7885335683822632,
      "learning_rate": 0.00026620289357191443,
      "loss": 4.0583,
      "step": 106160
    },
    {
      "epoch": 0.2211875,
      "grad_norm": 0.8315443396568298,
      "learning_rate": 0.0002661966593019423,
      "loss": 4.0774,
      "step": 106170
    },
    {
      "epoch": 0.22120833333333334,
      "grad_norm": 0.7986378073692322,
      "learning_rate": 0.00026619042453004667,
      "loss": 4.0422,
      "step": 106180
    },
    {
      "epoch": 0.22122916666666667,
      "grad_norm": 0.7870326042175293,
      "learning_rate": 0.00026618418925625437,
      "loss": 3.961,
      "step": 106190
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.7631251811981201,
      "learning_rate": 0.00026617795348059237,
      "loss": 4.0306,
      "step": 106200
    },
    {
      "epoch": 0.22127083333333333,
      "grad_norm": 0.7756356000900269,
      "learning_rate": 0.00026617171720308755,
      "loss": 4.0636,
      "step": 106210
    },
    {
      "epoch": 0.22129166666666666,
      "grad_norm": 0.7486448884010315,
      "learning_rate": 0.00026616548042376697,
      "loss": 4.1386,
      "step": 106220
    },
    {
      "epoch": 0.2213125,
      "grad_norm": 0.7551019191741943,
      "learning_rate": 0.00026615924314265745,
      "loss": 3.8871,
      "step": 106230
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 0.7590168118476868,
      "learning_rate": 0.00026615300535978595,
      "loss": 3.8884,
      "step": 106240
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 0.7591386437416077,
      "learning_rate": 0.00026614676707517945,
      "loss": 4.0047,
      "step": 106250
    },
    {
      "epoch": 0.221375,
      "grad_norm": 0.716888427734375,
      "learning_rate": 0.00026614052828886496,
      "loss": 3.8776,
      "step": 106260
    },
    {
      "epoch": 0.22139583333333332,
      "grad_norm": 0.8510406613349915,
      "learning_rate": 0.0002661342890008693,
      "loss": 3.9535,
      "step": 106270
    },
    {
      "epoch": 0.22141666666666668,
      "grad_norm": 0.828856885433197,
      "learning_rate": 0.0002661280492112195,
      "loss": 3.9957,
      "step": 106280
    },
    {
      "epoch": 0.2214375,
      "grad_norm": 0.8499388098716736,
      "learning_rate": 0.0002661218089199425,
      "loss": 4.0119,
      "step": 106290
    },
    {
      "epoch": 0.22145833333333334,
      "grad_norm": 0.7678329944610596,
      "learning_rate": 0.00026611556812706523,
      "loss": 4.0374,
      "step": 106300
    },
    {
      "epoch": 0.22147916666666667,
      "grad_norm": 0.7376840710639954,
      "learning_rate": 0.0002661093268326147,
      "loss": 4.2177,
      "step": 106310
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.7501424551010132,
      "learning_rate": 0.00026610308503661784,
      "loss": 4.125,
      "step": 106320
    },
    {
      "epoch": 0.22152083333333333,
      "grad_norm": 0.7834424376487732,
      "learning_rate": 0.00026609684273910155,
      "loss": 4.1412,
      "step": 106330
    },
    {
      "epoch": 0.22154166666666666,
      "grad_norm": 0.7390379309654236,
      "learning_rate": 0.0002660905999400929,
      "loss": 4.1055,
      "step": 106340
    },
    {
      "epoch": 0.2215625,
      "grad_norm": 0.7937422394752502,
      "learning_rate": 0.00026608435663961875,
      "loss": 4.1281,
      "step": 106350
    },
    {
      "epoch": 0.22158333333333333,
      "grad_norm": 0.7800129055976868,
      "learning_rate": 0.0002660781128377062,
      "loss": 4.0405,
      "step": 106360
    },
    {
      "epoch": 0.22160416666666666,
      "grad_norm": 0.787715494632721,
      "learning_rate": 0.00026607186853438216,
      "loss": 3.9594,
      "step": 106370
    },
    {
      "epoch": 0.221625,
      "grad_norm": 0.7187324166297913,
      "learning_rate": 0.00026606562372967355,
      "loss": 4.1705,
      "step": 106380
    },
    {
      "epoch": 0.22164583333333332,
      "grad_norm": 0.8369777202606201,
      "learning_rate": 0.00026605937842360736,
      "loss": 4.1448,
      "step": 106390
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 0.8907676935195923,
      "learning_rate": 0.00026605313261621064,
      "loss": 4.1938,
      "step": 106400
    },
    {
      "epoch": 0.2216875,
      "grad_norm": 0.8125765323638916,
      "learning_rate": 0.00026604688630751033,
      "loss": 4.0439,
      "step": 106410
    },
    {
      "epoch": 0.22170833333333334,
      "grad_norm": 0.7791725993156433,
      "learning_rate": 0.00026604063949753337,
      "loss": 4.1236,
      "step": 106420
    },
    {
      "epoch": 0.22172916666666667,
      "grad_norm": 0.7274289727210999,
      "learning_rate": 0.0002660343921863068,
      "loss": 3.9195,
      "step": 106430
    },
    {
      "epoch": 0.22175,
      "grad_norm": 0.9063898921012878,
      "learning_rate": 0.0002660281443738576,
      "loss": 4.082,
      "step": 106440
    },
    {
      "epoch": 0.22177083333333333,
      "grad_norm": 0.7490639090538025,
      "learning_rate": 0.0002660218960602127,
      "loss": 3.8623,
      "step": 106450
    },
    {
      "epoch": 0.22179166666666666,
      "grad_norm": 0.7820841670036316,
      "learning_rate": 0.0002660156472453992,
      "loss": 3.889,
      "step": 106460
    },
    {
      "epoch": 0.2218125,
      "grad_norm": 0.8484088778495789,
      "learning_rate": 0.000266009397929444,
      "loss": 4.1399,
      "step": 106470
    },
    {
      "epoch": 0.22183333333333333,
      "grad_norm": 0.7582732439041138,
      "learning_rate": 0.0002660031481123741,
      "loss": 3.995,
      "step": 106480
    },
    {
      "epoch": 0.22185416666666666,
      "grad_norm": 0.8645273447036743,
      "learning_rate": 0.0002659968977942165,
      "loss": 4.0267,
      "step": 106490
    },
    {
      "epoch": 0.221875,
      "grad_norm": 0.8699419498443604,
      "learning_rate": 0.0002659906469749983,
      "loss": 3.9834,
      "step": 106500
    },
    {
      "epoch": 0.22189583333333332,
      "grad_norm": 0.75400310754776,
      "learning_rate": 0.0002659843956547463,
      "loss": 3.7935,
      "step": 106510
    },
    {
      "epoch": 0.22191666666666668,
      "grad_norm": 0.7389876842498779,
      "learning_rate": 0.0002659781438334877,
      "loss": 4.1051,
      "step": 106520
    },
    {
      "epoch": 0.2219375,
      "grad_norm": 0.7564364075660706,
      "learning_rate": 0.0002659718915112494,
      "loss": 4.131,
      "step": 106530
    },
    {
      "epoch": 0.22195833333333334,
      "grad_norm": 0.8109747171401978,
      "learning_rate": 0.00026596563868805845,
      "loss": 3.997,
      "step": 106540
    },
    {
      "epoch": 0.22197916666666667,
      "grad_norm": 0.8069784045219421,
      "learning_rate": 0.00026595938536394184,
      "loss": 4.0967,
      "step": 106550
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.7327395081520081,
      "learning_rate": 0.00026595313153892654,
      "loss": 4.0544,
      "step": 106560
    },
    {
      "epoch": 0.22202083333333333,
      "grad_norm": 0.8650150895118713,
      "learning_rate": 0.0002659468772130397,
      "loss": 4.0994,
      "step": 106570
    },
    {
      "epoch": 0.22204166666666666,
      "grad_norm": 0.7384139895439148,
      "learning_rate": 0.00026594062238630817,
      "loss": 4.1139,
      "step": 106580
    },
    {
      "epoch": 0.2220625,
      "grad_norm": 0.8056294322013855,
      "learning_rate": 0.0002659343670587591,
      "loss": 4.1771,
      "step": 106590
    },
    {
      "epoch": 0.22208333333333333,
      "grad_norm": 0.7879402041435242,
      "learning_rate": 0.00026592811123041937,
      "loss": 4.1254,
      "step": 106600
    },
    {
      "epoch": 0.22210416666666666,
      "grad_norm": 0.8759837746620178,
      "learning_rate": 0.00026592185490131615,
      "loss": 4.1032,
      "step": 106610
    },
    {
      "epoch": 0.222125,
      "grad_norm": 0.8726850748062134,
      "learning_rate": 0.00026591559807147643,
      "loss": 3.8938,
      "step": 106620
    },
    {
      "epoch": 0.22214583333333332,
      "grad_norm": 0.8958569169044495,
      "learning_rate": 0.00026590934074092716,
      "loss": 4.1763,
      "step": 106630
    },
    {
      "epoch": 0.22216666666666668,
      "grad_norm": 0.7608907222747803,
      "learning_rate": 0.00026590308290969544,
      "loss": 4.0244,
      "step": 106640
    },
    {
      "epoch": 0.2221875,
      "grad_norm": 1.7131295204162598,
      "learning_rate": 0.00026589682457780827,
      "loss": 4.1574,
      "step": 106650
    },
    {
      "epoch": 0.22220833333333334,
      "grad_norm": 0.8024966716766357,
      "learning_rate": 0.0002658905657452927,
      "loss": 4.0453,
      "step": 106660
    },
    {
      "epoch": 0.22222916666666667,
      "grad_norm": 0.7750852108001709,
      "learning_rate": 0.0002658843064121757,
      "loss": 4.0017,
      "step": 106670
    },
    {
      "epoch": 0.22225,
      "grad_norm": 0.8210187554359436,
      "learning_rate": 0.00026587804657848444,
      "loss": 4.1118,
      "step": 106680
    },
    {
      "epoch": 0.22227083333333333,
      "grad_norm": 0.8083774447441101,
      "learning_rate": 0.00026587178624424586,
      "loss": 3.9867,
      "step": 106690
    },
    {
      "epoch": 0.22229166666666667,
      "grad_norm": 0.7474756836891174,
      "learning_rate": 0.000265865525409487,
      "loss": 3.8391,
      "step": 106700
    },
    {
      "epoch": 0.2223125,
      "grad_norm": 0.8244298100471497,
      "learning_rate": 0.000265859264074235,
      "loss": 4.0053,
      "step": 106710
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 0.786431610584259,
      "learning_rate": 0.0002658530022385168,
      "loss": 4.0702,
      "step": 106720
    },
    {
      "epoch": 0.22235416666666666,
      "grad_norm": 0.7597902417182922,
      "learning_rate": 0.0002658467399023595,
      "loss": 4.1626,
      "step": 106730
    },
    {
      "epoch": 0.222375,
      "grad_norm": 0.8282538056373596,
      "learning_rate": 0.00026584047706579013,
      "loss": 4.0048,
      "step": 106740
    },
    {
      "epoch": 0.22239583333333332,
      "grad_norm": 0.8034006357192993,
      "learning_rate": 0.00026583421372883574,
      "loss": 4.1617,
      "step": 106750
    },
    {
      "epoch": 0.22241666666666668,
      "grad_norm": 0.7745166420936584,
      "learning_rate": 0.0002658279498915234,
      "loss": 4.1805,
      "step": 106760
    },
    {
      "epoch": 0.2224375,
      "grad_norm": 0.8598931431770325,
      "learning_rate": 0.00026582168555388017,
      "loss": 4.0733,
      "step": 106770
    },
    {
      "epoch": 0.22245833333333334,
      "grad_norm": 0.7406313419342041,
      "learning_rate": 0.00026581542071593315,
      "loss": 4.0101,
      "step": 106780
    },
    {
      "epoch": 0.22247916666666667,
      "grad_norm": 0.7527744174003601,
      "learning_rate": 0.0002658091553777093,
      "loss": 4.138,
      "step": 106790
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.8325592875480652,
      "learning_rate": 0.0002658028895392357,
      "loss": 3.8912,
      "step": 106800
    },
    {
      "epoch": 0.22252083333333333,
      "grad_norm": 0.7915371656417847,
      "learning_rate": 0.00026579662320053957,
      "loss": 4.0751,
      "step": 106810
    },
    {
      "epoch": 0.22254166666666667,
      "grad_norm": 0.7697408199310303,
      "learning_rate": 0.0002657903563616478,
      "loss": 3.8901,
      "step": 106820
    },
    {
      "epoch": 0.2225625,
      "grad_norm": 0.7892683148384094,
      "learning_rate": 0.0002657840890225875,
      "loss": 4.1011,
      "step": 106830
    },
    {
      "epoch": 0.22258333333333333,
      "grad_norm": 0.7885423302650452,
      "learning_rate": 0.0002657778211833858,
      "loss": 3.9574,
      "step": 106840
    },
    {
      "epoch": 0.22260416666666666,
      "grad_norm": 0.7474990487098694,
      "learning_rate": 0.00026577155284406977,
      "loss": 4.1167,
      "step": 106850
    },
    {
      "epoch": 0.222625,
      "grad_norm": 0.7383453845977783,
      "learning_rate": 0.00026576528400466636,
      "loss": 4.028,
      "step": 106860
    },
    {
      "epoch": 0.22264583333333332,
      "grad_norm": 0.790831983089447,
      "learning_rate": 0.0002657590146652028,
      "loss": 3.8733,
      "step": 106870
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 0.7830307483673096,
      "learning_rate": 0.00026575274482570617,
      "loss": 4.0277,
      "step": 106880
    },
    {
      "epoch": 0.2226875,
      "grad_norm": 0.7483856081962585,
      "learning_rate": 0.00026574647448620345,
      "loss": 4.1967,
      "step": 106890
    },
    {
      "epoch": 0.22270833333333334,
      "grad_norm": 0.8206515908241272,
      "learning_rate": 0.00026574020364672176,
      "loss": 4.2374,
      "step": 106900
    },
    {
      "epoch": 0.22272916666666667,
      "grad_norm": 0.7820309400558472,
      "learning_rate": 0.0002657339323072882,
      "loss": 3.9677,
      "step": 106910
    },
    {
      "epoch": 0.22275,
      "grad_norm": 0.7412703037261963,
      "learning_rate": 0.00026572766046792986,
      "loss": 4.0056,
      "step": 106920
    },
    {
      "epoch": 0.22277083333333333,
      "grad_norm": 0.7795372605323792,
      "learning_rate": 0.0002657213881286739,
      "loss": 4.0594,
      "step": 106930
    },
    {
      "epoch": 0.22279166666666667,
      "grad_norm": 0.8596785664558411,
      "learning_rate": 0.0002657151152895473,
      "loss": 3.9994,
      "step": 106940
    },
    {
      "epoch": 0.2228125,
      "grad_norm": 0.7813541889190674,
      "learning_rate": 0.0002657088419505772,
      "loss": 4.0318,
      "step": 106950
    },
    {
      "epoch": 0.22283333333333333,
      "grad_norm": 0.7538672089576721,
      "learning_rate": 0.0002657025681117907,
      "loss": 4.0449,
      "step": 106960
    },
    {
      "epoch": 0.22285416666666666,
      "grad_norm": 0.7406833171844482,
      "learning_rate": 0.00026569629377321495,
      "loss": 4.2564,
      "step": 106970
    },
    {
      "epoch": 0.222875,
      "grad_norm": 0.7493225932121277,
      "learning_rate": 0.00026569001893487695,
      "loss": 3.9694,
      "step": 106980
    },
    {
      "epoch": 0.22289583333333332,
      "grad_norm": 0.8095901012420654,
      "learning_rate": 0.00026568374359680393,
      "loss": 4.122,
      "step": 106990
    },
    {
      "epoch": 0.22291666666666668,
      "grad_norm": 0.7579479813575745,
      "learning_rate": 0.00026567746775902284,
      "loss": 4.177,
      "step": 107000
    },
    {
      "epoch": 0.22291666666666668,
      "eval_loss": 3.7836647033691406,
      "eval_runtime": 7.1796,
      "eval_samples_per_second": 1.393,
      "eval_steps_per_second": 0.418,
      "step": 107000
    },
    {
      "epoch": 0.2229375,
      "grad_norm": 0.7572616338729858,
      "learning_rate": 0.000265671191421561,
      "loss": 4.0009,
      "step": 107010
    },
    {
      "epoch": 0.22295833333333334,
      "grad_norm": 0.7503728866577148,
      "learning_rate": 0.0002656649145844453,
      "loss": 3.9245,
      "step": 107020
    },
    {
      "epoch": 0.22297916666666667,
      "grad_norm": 0.7454344034194946,
      "learning_rate": 0.00026565863724770295,
      "loss": 3.9737,
      "step": 107030
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.7872163653373718,
      "learning_rate": 0.0002656523594113611,
      "loss": 4.1009,
      "step": 107040
    },
    {
      "epoch": 0.22302083333333333,
      "grad_norm": 0.8106295466423035,
      "learning_rate": 0.00026564608107544684,
      "loss": 3.9876,
      "step": 107050
    },
    {
      "epoch": 0.22304166666666667,
      "grad_norm": 0.8358453512191772,
      "learning_rate": 0.00026563980223998725,
      "loss": 3.9725,
      "step": 107060
    },
    {
      "epoch": 0.2230625,
      "grad_norm": 0.7666507363319397,
      "learning_rate": 0.00026563352290500953,
      "loss": 4.0277,
      "step": 107070
    },
    {
      "epoch": 0.22308333333333333,
      "grad_norm": 0.796969473361969,
      "learning_rate": 0.0002656272430705408,
      "loss": 3.9219,
      "step": 107080
    },
    {
      "epoch": 0.22310416666666666,
      "grad_norm": 0.7156661748886108,
      "learning_rate": 0.0002656209627366081,
      "loss": 3.9868,
      "step": 107090
    },
    {
      "epoch": 0.223125,
      "grad_norm": 0.7325568795204163,
      "learning_rate": 0.00026561468190323853,
      "loss": 4.153,
      "step": 107100
    },
    {
      "epoch": 0.22314583333333332,
      "grad_norm": 0.8133618831634521,
      "learning_rate": 0.00026560840057045937,
      "loss": 3.9116,
      "step": 107110
    },
    {
      "epoch": 0.22316666666666668,
      "grad_norm": 0.7750060558319092,
      "learning_rate": 0.0002656021187382977,
      "loss": 4.0047,
      "step": 107120
    },
    {
      "epoch": 0.2231875,
      "grad_norm": 0.8244130611419678,
      "learning_rate": 0.0002655958364067806,
      "loss": 4.1116,
      "step": 107130
    },
    {
      "epoch": 0.22320833333333334,
      "grad_norm": 0.7770321369171143,
      "learning_rate": 0.00026558955357593525,
      "loss": 4.0189,
      "step": 107140
    },
    {
      "epoch": 0.22322916666666667,
      "grad_norm": 0.8424327373504639,
      "learning_rate": 0.0002655832702457888,
      "loss": 3.9577,
      "step": 107150
    },
    {
      "epoch": 0.22325,
      "grad_norm": 0.772075891494751,
      "learning_rate": 0.00026557698641636835,
      "loss": 3.836,
      "step": 107160
    },
    {
      "epoch": 0.22327083333333334,
      "grad_norm": 0.7692249417304993,
      "learning_rate": 0.0002655707020877011,
      "loss": 3.8757,
      "step": 107170
    },
    {
      "epoch": 0.22329166666666667,
      "grad_norm": 0.817699134349823,
      "learning_rate": 0.00026556441725981414,
      "loss": 3.9479,
      "step": 107180
    },
    {
      "epoch": 0.2233125,
      "grad_norm": 0.7554019689559937,
      "learning_rate": 0.00026555813193273464,
      "loss": 4.1939,
      "step": 107190
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.9655914306640625,
      "learning_rate": 0.00026555184610648977,
      "loss": 4.0501,
      "step": 107200
    },
    {
      "epoch": 0.22335416666666666,
      "grad_norm": 0.9439339637756348,
      "learning_rate": 0.0002655455597811066,
      "loss": 4.0653,
      "step": 107210
    },
    {
      "epoch": 0.223375,
      "grad_norm": 0.7577756643295288,
      "learning_rate": 0.0002655392729566124,
      "loss": 4.0227,
      "step": 107220
    },
    {
      "epoch": 0.22339583333333332,
      "grad_norm": 0.7560799717903137,
      "learning_rate": 0.0002655329856330343,
      "loss": 4.1218,
      "step": 107230
    },
    {
      "epoch": 0.22341666666666668,
      "grad_norm": 0.7912557125091553,
      "learning_rate": 0.0002655266978103994,
      "loss": 4.1727,
      "step": 107240
    },
    {
      "epoch": 0.2234375,
      "grad_norm": 0.7335991263389587,
      "learning_rate": 0.0002655204094887349,
      "loss": 4.2946,
      "step": 107250
    },
    {
      "epoch": 0.22345833333333334,
      "grad_norm": 0.7483848333358765,
      "learning_rate": 0.00026551412066806794,
      "loss": 4.2609,
      "step": 107260
    },
    {
      "epoch": 0.22347916666666667,
      "grad_norm": 0.9115161299705505,
      "learning_rate": 0.0002655078313484257,
      "loss": 3.8187,
      "step": 107270
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.747487485408783,
      "learning_rate": 0.0002655015415298354,
      "loss": 4.1213,
      "step": 107280
    },
    {
      "epoch": 0.22352083333333334,
      "grad_norm": 0.7551231384277344,
      "learning_rate": 0.00026549525121232414,
      "loss": 4.0363,
      "step": 107290
    },
    {
      "epoch": 0.22354166666666667,
      "grad_norm": 0.8004318475723267,
      "learning_rate": 0.00026548896039591907,
      "loss": 3.9877,
      "step": 107300
    },
    {
      "epoch": 0.2235625,
      "grad_norm": 0.7821887135505676,
      "learning_rate": 0.0002654826690806475,
      "loss": 4.2356,
      "step": 107310
    },
    {
      "epoch": 0.22358333333333333,
      "grad_norm": 0.8478411436080933,
      "learning_rate": 0.0002654763772665364,
      "loss": 4.1257,
      "step": 107320
    },
    {
      "epoch": 0.22360416666666666,
      "grad_norm": 1.25251042842865,
      "learning_rate": 0.0002654700849536131,
      "loss": 4.0926,
      "step": 107330
    },
    {
      "epoch": 0.223625,
      "grad_norm": 0.8159557580947876,
      "learning_rate": 0.00026546379214190477,
      "loss": 3.9348,
      "step": 107340
    },
    {
      "epoch": 0.22364583333333332,
      "grad_norm": 0.8460754156112671,
      "learning_rate": 0.00026545749883143853,
      "loss": 3.9993,
      "step": 107350
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 0.8524928689002991,
      "learning_rate": 0.0002654512050222416,
      "loss": 3.9809,
      "step": 107360
    },
    {
      "epoch": 0.2236875,
      "grad_norm": 0.8091263771057129,
      "learning_rate": 0.00026544491071434117,
      "loss": 3.9614,
      "step": 107370
    },
    {
      "epoch": 0.22370833333333334,
      "grad_norm": 0.7525721192359924,
      "learning_rate": 0.00026543861590776435,
      "loss": 4.0093,
      "step": 107380
    },
    {
      "epoch": 0.22372916666666667,
      "grad_norm": 0.8036941289901733,
      "learning_rate": 0.0002654323206025385,
      "loss": 4.1025,
      "step": 107390
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.7359873056411743,
      "learning_rate": 0.00026542602479869064,
      "loss": 3.9646,
      "step": 107400
    },
    {
      "epoch": 0.22377083333333334,
      "grad_norm": 0.8623282313346863,
      "learning_rate": 0.0002654197284962481,
      "loss": 4.0729,
      "step": 107410
    },
    {
      "epoch": 0.22379166666666667,
      "grad_norm": 0.8011261224746704,
      "learning_rate": 0.00026541343169523803,
      "loss": 4.0132,
      "step": 107420
    },
    {
      "epoch": 0.2238125,
      "grad_norm": 0.8011577129364014,
      "learning_rate": 0.0002654071343956876,
      "loss": 3.8445,
      "step": 107430
    },
    {
      "epoch": 0.22383333333333333,
      "grad_norm": 0.8655887842178345,
      "learning_rate": 0.000265400836597624,
      "loss": 3.9654,
      "step": 107440
    },
    {
      "epoch": 0.22385416666666666,
      "grad_norm": 0.8062634468078613,
      "learning_rate": 0.0002653945383010745,
      "loss": 3.9273,
      "step": 107450
    },
    {
      "epoch": 0.223875,
      "grad_norm": 0.7849270701408386,
      "learning_rate": 0.00026538823950606627,
      "loss": 4.0697,
      "step": 107460
    },
    {
      "epoch": 0.22389583333333332,
      "grad_norm": 0.7892578840255737,
      "learning_rate": 0.0002653819402126265,
      "loss": 4.0518,
      "step": 107470
    },
    {
      "epoch": 0.22391666666666668,
      "grad_norm": 0.7579851746559143,
      "learning_rate": 0.0002653756404207824,
      "loss": 4.0639,
      "step": 107480
    },
    {
      "epoch": 0.2239375,
      "grad_norm": 0.8872233033180237,
      "learning_rate": 0.00026536934013056125,
      "loss": 3.9244,
      "step": 107490
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 0.8029157519340515,
      "learning_rate": 0.00026536303934199024,
      "loss": 3.8664,
      "step": 107500
    },
    {
      "epoch": 0.22397916666666667,
      "grad_norm": 0.8267743587493896,
      "learning_rate": 0.0002653567380550965,
      "loss": 3.9342,
      "step": 107510
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.7249518632888794,
      "learning_rate": 0.0002653504362699073,
      "loss": 4.236,
      "step": 107520
    },
    {
      "epoch": 0.22402083333333334,
      "grad_norm": 0.8460354208946228,
      "learning_rate": 0.00026534413398644996,
      "loss": 3.9272,
      "step": 107530
    },
    {
      "epoch": 0.22404166666666667,
      "grad_norm": 0.8528000116348267,
      "learning_rate": 0.00026533783120475155,
      "loss": 4.0646,
      "step": 107540
    },
    {
      "epoch": 0.2240625,
      "grad_norm": 0.8019073605537415,
      "learning_rate": 0.00026533152792483937,
      "loss": 3.9092,
      "step": 107550
    },
    {
      "epoch": 0.22408333333333333,
      "grad_norm": 0.7316341996192932,
      "learning_rate": 0.0002653252241467407,
      "loss": 3.9739,
      "step": 107560
    },
    {
      "epoch": 0.22410416666666666,
      "grad_norm": 0.7406953573226929,
      "learning_rate": 0.0002653189198704826,
      "loss": 4.0534,
      "step": 107570
    },
    {
      "epoch": 0.224125,
      "grad_norm": 0.8733193278312683,
      "learning_rate": 0.00026531261509609247,
      "loss": 4.0959,
      "step": 107580
    },
    {
      "epoch": 0.22414583333333332,
      "grad_norm": 0.7567053437232971,
      "learning_rate": 0.00026530630982359753,
      "loss": 4.0429,
      "step": 107590
    },
    {
      "epoch": 0.22416666666666665,
      "grad_norm": 0.7972638010978699,
      "learning_rate": 0.0002653000040530249,
      "loss": 4.0969,
      "step": 107600
    },
    {
      "epoch": 0.2241875,
      "grad_norm": 0.7701848745346069,
      "learning_rate": 0.0002652936977844019,
      "loss": 4.0419,
      "step": 107610
    },
    {
      "epoch": 0.22420833333333334,
      "grad_norm": 0.7383626699447632,
      "learning_rate": 0.00026528739101775584,
      "loss": 3.9798,
      "step": 107620
    },
    {
      "epoch": 0.22422916666666667,
      "grad_norm": 0.8278000950813293,
      "learning_rate": 0.00026528108375311384,
      "loss": 4.1068,
      "step": 107630
    },
    {
      "epoch": 0.22425,
      "grad_norm": 0.7581173777580261,
      "learning_rate": 0.00026527477599050316,
      "loss": 4.1705,
      "step": 107640
    },
    {
      "epoch": 0.22427083333333334,
      "grad_norm": 0.8514401316642761,
      "learning_rate": 0.0002652684677299511,
      "loss": 4.0982,
      "step": 107650
    },
    {
      "epoch": 0.22429166666666667,
      "grad_norm": 0.8387389779090881,
      "learning_rate": 0.00026526215897148484,
      "loss": 3.9002,
      "step": 107660
    },
    {
      "epoch": 0.2243125,
      "grad_norm": 1.2620354890823364,
      "learning_rate": 0.00026525584971513175,
      "loss": 3.9627,
      "step": 107670
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 0.862716555595398,
      "learning_rate": 0.000265249539960919,
      "loss": 4.0589,
      "step": 107680
    },
    {
      "epoch": 0.22435416666666666,
      "grad_norm": 0.7796455025672913,
      "learning_rate": 0.0002652432297088738,
      "loss": 4.0375,
      "step": 107690
    },
    {
      "epoch": 0.224375,
      "grad_norm": 0.7452188730239868,
      "learning_rate": 0.00026523691895902353,
      "loss": 3.9955,
      "step": 107700
    },
    {
      "epoch": 0.22439583333333332,
      "grad_norm": 0.8108241558074951,
      "learning_rate": 0.00026523060771139535,
      "loss": 4.1238,
      "step": 107710
    },
    {
      "epoch": 0.22441666666666665,
      "grad_norm": 0.8049194812774658,
      "learning_rate": 0.00026522429596601655,
      "loss": 3.9688,
      "step": 107720
    },
    {
      "epoch": 0.2244375,
      "grad_norm": 0.9450768232345581,
      "learning_rate": 0.0002652179837229144,
      "loss": 3.8886,
      "step": 107730
    },
    {
      "epoch": 0.22445833333333334,
      "grad_norm": 0.7994478344917297,
      "learning_rate": 0.00026521167098211623,
      "loss": 3.943,
      "step": 107740
    },
    {
      "epoch": 0.22447916666666667,
      "grad_norm": 0.7591965794563293,
      "learning_rate": 0.0002652053577436491,
      "loss": 3.8085,
      "step": 107750
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.7889588475227356,
      "learning_rate": 0.0002651990440075406,
      "loss": 4.0625,
      "step": 107760
    },
    {
      "epoch": 0.22452083333333334,
      "grad_norm": 0.7344458699226379,
      "learning_rate": 0.00026519272977381774,
      "loss": 4.0647,
      "step": 107770
    },
    {
      "epoch": 0.22454166666666667,
      "grad_norm": 0.7940251231193542,
      "learning_rate": 0.0002651864150425079,
      "loss": 3.9698,
      "step": 107780
    },
    {
      "epoch": 0.2245625,
      "grad_norm": 0.8084420561790466,
      "learning_rate": 0.0002651800998136383,
      "loss": 3.9292,
      "step": 107790
    },
    {
      "epoch": 0.22458333333333333,
      "grad_norm": 0.7773332595825195,
      "learning_rate": 0.00026517378408723633,
      "loss": 4.107,
      "step": 107800
    },
    {
      "epoch": 0.22460416666666666,
      "grad_norm": 0.7005451321601868,
      "learning_rate": 0.00026516746786332915,
      "loss": 4.0284,
      "step": 107810
    },
    {
      "epoch": 0.224625,
      "grad_norm": 0.9773873686790466,
      "learning_rate": 0.0002651611511419441,
      "loss": 3.9744,
      "step": 107820
    },
    {
      "epoch": 0.22464583333333332,
      "grad_norm": 0.7970106601715088,
      "learning_rate": 0.0002651548339231085,
      "loss": 3.8985,
      "step": 107830
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 0.787334144115448,
      "learning_rate": 0.00026514851620684955,
      "loss": 4.1783,
      "step": 107840
    },
    {
      "epoch": 0.2246875,
      "grad_norm": 0.7235532999038696,
      "learning_rate": 0.0002651421979931946,
      "loss": 4.1338,
      "step": 107850
    },
    {
      "epoch": 0.22470833333333334,
      "grad_norm": 0.84722501039505,
      "learning_rate": 0.00026513587928217095,
      "loss": 4.0364,
      "step": 107860
    },
    {
      "epoch": 0.22472916666666667,
      "grad_norm": 0.855399489402771,
      "learning_rate": 0.00026512956007380587,
      "loss": 4.186,
      "step": 107870
    },
    {
      "epoch": 0.22475,
      "grad_norm": 0.8516741394996643,
      "learning_rate": 0.00026512324036812664,
      "loss": 4.0801,
      "step": 107880
    },
    {
      "epoch": 0.22477083333333334,
      "grad_norm": 0.8098417520523071,
      "learning_rate": 0.0002651169201651606,
      "loss": 4.2437,
      "step": 107890
    },
    {
      "epoch": 0.22479166666666667,
      "grad_norm": 0.8247612118721008,
      "learning_rate": 0.00026511059946493504,
      "loss": 4.2214,
      "step": 107900
    },
    {
      "epoch": 0.2248125,
      "grad_norm": 0.824630081653595,
      "learning_rate": 0.00026510427826747726,
      "loss": 3.9463,
      "step": 107910
    },
    {
      "epoch": 0.22483333333333333,
      "grad_norm": 0.7578089833259583,
      "learning_rate": 0.0002650979565728145,
      "loss": 3.8261,
      "step": 107920
    },
    {
      "epoch": 0.22485416666666666,
      "grad_norm": 0.8138747811317444,
      "learning_rate": 0.0002650916343809742,
      "loss": 3.987,
      "step": 107930
    },
    {
      "epoch": 0.224875,
      "grad_norm": 1.0651795864105225,
      "learning_rate": 0.00026508531169198356,
      "loss": 4.0975,
      "step": 107940
    },
    {
      "epoch": 0.22489583333333332,
      "grad_norm": 0.7426192760467529,
      "learning_rate": 0.00026507898850586996,
      "loss": 4.2007,
      "step": 107950
    },
    {
      "epoch": 0.22491666666666665,
      "grad_norm": 0.7744319438934326,
      "learning_rate": 0.0002650726648226606,
      "loss": 3.9948,
      "step": 107960
    },
    {
      "epoch": 0.2249375,
      "grad_norm": 0.7730477452278137,
      "learning_rate": 0.00026506634064238295,
      "loss": 4.1138,
      "step": 107970
    },
    {
      "epoch": 0.22495833333333334,
      "grad_norm": 0.7840330004692078,
      "learning_rate": 0.00026506001596506425,
      "loss": 3.9418,
      "step": 107980
    },
    {
      "epoch": 0.22497916666666667,
      "grad_norm": 0.8508549332618713,
      "learning_rate": 0.0002650536907907318,
      "loss": 4.1768,
      "step": 107990
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.9438714385032654,
      "learning_rate": 0.000265047365119413,
      "loss": 4.0109,
      "step": 108000
    },
    {
      "epoch": 0.225,
      "eval_loss": 3.785667896270752,
      "eval_runtime": 7.2001,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 108000
    },
    {
      "epoch": 0.22502083333333334,
      "grad_norm": 0.7933735251426697,
      "learning_rate": 0.0002650410389511351,
      "loss": 4.036,
      "step": 108010
    },
    {
      "epoch": 0.22504166666666667,
      "grad_norm": 0.7520285248756409,
      "learning_rate": 0.0002650347122859254,
      "loss": 4.0508,
      "step": 108020
    },
    {
      "epoch": 0.2250625,
      "grad_norm": 0.879134476184845,
      "learning_rate": 0.0002650283851238113,
      "loss": 4.11,
      "step": 108030
    },
    {
      "epoch": 0.22508333333333333,
      "grad_norm": 0.9136180877685547,
      "learning_rate": 0.00026502205746482013,
      "loss": 4.2295,
      "step": 108040
    },
    {
      "epoch": 0.22510416666666666,
      "grad_norm": 0.8712113499641418,
      "learning_rate": 0.00026501572930897916,
      "loss": 3.8919,
      "step": 108050
    },
    {
      "epoch": 0.225125,
      "grad_norm": 0.8350488543510437,
      "learning_rate": 0.0002650094006563158,
      "loss": 3.9452,
      "step": 108060
    },
    {
      "epoch": 0.22514583333333332,
      "grad_norm": 0.826511561870575,
      "learning_rate": 0.00026500307150685733,
      "loss": 4.1728,
      "step": 108070
    },
    {
      "epoch": 0.22516666666666665,
      "grad_norm": 0.7353445291519165,
      "learning_rate": 0.0002649967418606311,
      "loss": 3.9998,
      "step": 108080
    },
    {
      "epoch": 0.2251875,
      "grad_norm": 0.8098429441452026,
      "learning_rate": 0.0002649904117176645,
      "loss": 4.057,
      "step": 108090
    },
    {
      "epoch": 0.22520833333333334,
      "grad_norm": 0.7666237354278564,
      "learning_rate": 0.00026498408107798483,
      "loss": 4.0146,
      "step": 108100
    },
    {
      "epoch": 0.22522916666666667,
      "grad_norm": 0.8016970753669739,
      "learning_rate": 0.00026497774994161945,
      "loss": 4.1317,
      "step": 108110
    },
    {
      "epoch": 0.22525,
      "grad_norm": 1.0829825401306152,
      "learning_rate": 0.0002649714183085957,
      "loss": 3.8612,
      "step": 108120
    },
    {
      "epoch": 0.22527083333333334,
      "grad_norm": 0.846393346786499,
      "learning_rate": 0.0002649650861789409,
      "loss": 4.0428,
      "step": 108130
    },
    {
      "epoch": 0.22529166666666667,
      "grad_norm": 0.7617869973182678,
      "learning_rate": 0.00026495875355268247,
      "loss": 4.0335,
      "step": 108140
    },
    {
      "epoch": 0.2253125,
      "grad_norm": 1.1333906650543213,
      "learning_rate": 0.0002649524204298477,
      "loss": 4.0777,
      "step": 108150
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 0.7278079986572266,
      "learning_rate": 0.00026494608681046404,
      "loss": 4.0539,
      "step": 108160
    },
    {
      "epoch": 0.22535416666666666,
      "grad_norm": 0.8828009963035583,
      "learning_rate": 0.0002649397526945587,
      "loss": 4.1253,
      "step": 108170
    },
    {
      "epoch": 0.225375,
      "grad_norm": 0.8068458437919617,
      "learning_rate": 0.00026493341808215914,
      "loss": 4.116,
      "step": 108180
    },
    {
      "epoch": 0.22539583333333332,
      "grad_norm": 0.7495964765548706,
      "learning_rate": 0.00026492708297329277,
      "loss": 4.0662,
      "step": 108190
    },
    {
      "epoch": 0.22541666666666665,
      "grad_norm": 0.8471865653991699,
      "learning_rate": 0.00026492074736798687,
      "loss": 3.9574,
      "step": 108200
    },
    {
      "epoch": 0.2254375,
      "grad_norm": 0.7801384329795837,
      "learning_rate": 0.00026491441126626875,
      "loss": 3.9355,
      "step": 108210
    },
    {
      "epoch": 0.22545833333333334,
      "grad_norm": 0.8259114027023315,
      "learning_rate": 0.00026490807466816597,
      "loss": 4.071,
      "step": 108220
    },
    {
      "epoch": 0.22547916666666667,
      "grad_norm": 0.8321340680122375,
      "learning_rate": 0.0002649017375737057,
      "loss": 3.9907,
      "step": 108230
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.8983010649681091,
      "learning_rate": 0.00026489539998291546,
      "loss": 4.1866,
      "step": 108240
    },
    {
      "epoch": 0.22552083333333334,
      "grad_norm": 0.7640677094459534,
      "learning_rate": 0.0002648890618958226,
      "loss": 4.027,
      "step": 108250
    },
    {
      "epoch": 0.22554166666666667,
      "grad_norm": 0.7495579719543457,
      "learning_rate": 0.0002648827233124544,
      "loss": 3.9457,
      "step": 108260
    },
    {
      "epoch": 0.2255625,
      "grad_norm": 0.7633774876594543,
      "learning_rate": 0.0002648763842328383,
      "loss": 3.9965,
      "step": 108270
    },
    {
      "epoch": 0.22558333333333333,
      "grad_norm": 0.7705707550048828,
      "learning_rate": 0.00026487004465700173,
      "loss": 4.2033,
      "step": 108280
    },
    {
      "epoch": 0.22560416666666666,
      "grad_norm": 0.8348916172981262,
      "learning_rate": 0.000264863704584972,
      "loss": 4.0741,
      "step": 108290
    },
    {
      "epoch": 0.225625,
      "grad_norm": 0.7362837791442871,
      "learning_rate": 0.00026485736401677664,
      "loss": 4.0861,
      "step": 108300
    },
    {
      "epoch": 0.22564583333333332,
      "grad_norm": 0.8384133577346802,
      "learning_rate": 0.0002648510229524428,
      "loss": 4.0648,
      "step": 108310
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 0.7781548500061035,
      "learning_rate": 0.0002648446813919981,
      "loss": 4.2383,
      "step": 108320
    },
    {
      "epoch": 0.2256875,
      "grad_norm": 0.8346216082572937,
      "learning_rate": 0.00026483833933546976,
      "loss": 4.1448,
      "step": 108330
    },
    {
      "epoch": 0.22570833333333334,
      "grad_norm": 0.7682206034660339,
      "learning_rate": 0.0002648319967828853,
      "loss": 4.0136,
      "step": 108340
    },
    {
      "epoch": 0.22572916666666668,
      "grad_norm": 0.7721974849700928,
      "learning_rate": 0.00026482565373427206,
      "loss": 4.0695,
      "step": 108350
    },
    {
      "epoch": 0.22575,
      "grad_norm": 0.731148898601532,
      "learning_rate": 0.0002648193101896574,
      "loss": 3.9521,
      "step": 108360
    },
    {
      "epoch": 0.22577083333333334,
      "grad_norm": 0.9419922232627869,
      "learning_rate": 0.0002648129661490688,
      "loss": 3.9625,
      "step": 108370
    },
    {
      "epoch": 0.22579166666666667,
      "grad_norm": 0.7916900515556335,
      "learning_rate": 0.00026480662161253366,
      "loss": 4.079,
      "step": 108380
    },
    {
      "epoch": 0.2258125,
      "grad_norm": 0.7882691621780396,
      "learning_rate": 0.00026480027658007935,
      "loss": 3.9648,
      "step": 108390
    },
    {
      "epoch": 0.22583333333333333,
      "grad_norm": 0.8007540106773376,
      "learning_rate": 0.00026479393105173325,
      "loss": 4.0122,
      "step": 108400
    },
    {
      "epoch": 0.22585416666666666,
      "grad_norm": 1.0090118646621704,
      "learning_rate": 0.00026478758502752284,
      "loss": 3.8689,
      "step": 108410
    },
    {
      "epoch": 0.225875,
      "grad_norm": 0.7719193696975708,
      "learning_rate": 0.0002647812385074755,
      "loss": 3.9907,
      "step": 108420
    },
    {
      "epoch": 0.22589583333333332,
      "grad_norm": 0.7998467087745667,
      "learning_rate": 0.0002647748914916186,
      "loss": 3.8106,
      "step": 108430
    },
    {
      "epoch": 0.22591666666666665,
      "grad_norm": 0.9221015572547913,
      "learning_rate": 0.00026476854397997963,
      "loss": 4.3054,
      "step": 108440
    },
    {
      "epoch": 0.2259375,
      "grad_norm": 0.8689378499984741,
      "learning_rate": 0.000264762195972586,
      "loss": 4.1792,
      "step": 108450
    },
    {
      "epoch": 0.22595833333333334,
      "grad_norm": 0.7932333946228027,
      "learning_rate": 0.0002647558474694651,
      "loss": 4.002,
      "step": 108460
    },
    {
      "epoch": 0.22597916666666668,
      "grad_norm": 0.7879930734634399,
      "learning_rate": 0.00026474949847064437,
      "loss": 4.0854,
      "step": 108470
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.7241251468658447,
      "learning_rate": 0.0002647431489761512,
      "loss": 3.8879,
      "step": 108480
    },
    {
      "epoch": 0.22602083333333334,
      "grad_norm": 0.7760786414146423,
      "learning_rate": 0.00026473679898601305,
      "loss": 4.1201,
      "step": 108490
    },
    {
      "epoch": 0.22604166666666667,
      "grad_norm": 0.8306965827941895,
      "learning_rate": 0.00026473044850025735,
      "loss": 3.9369,
      "step": 108500
    },
    {
      "epoch": 0.2260625,
      "grad_norm": 0.8129270076751709,
      "learning_rate": 0.0002647240975189115,
      "loss": 4.0104,
      "step": 108510
    },
    {
      "epoch": 0.22608333333333333,
      "grad_norm": 0.9201828241348267,
      "learning_rate": 0.000264717746042003,
      "loss": 4.1097,
      "step": 108520
    },
    {
      "epoch": 0.22610416666666666,
      "grad_norm": 0.7493886947631836,
      "learning_rate": 0.00026471139406955926,
      "loss": 4.0126,
      "step": 108530
    },
    {
      "epoch": 0.226125,
      "grad_norm": 0.9443287253379822,
      "learning_rate": 0.00026470504160160764,
      "loss": 3.9854,
      "step": 108540
    },
    {
      "epoch": 0.22614583333333332,
      "grad_norm": 0.8490076065063477,
      "learning_rate": 0.0002646986886381757,
      "loss": 3.9134,
      "step": 108550
    },
    {
      "epoch": 0.22616666666666665,
      "grad_norm": 0.7542659044265747,
      "learning_rate": 0.0002646923351792908,
      "loss": 4.0211,
      "step": 108560
    },
    {
      "epoch": 0.2261875,
      "grad_norm": 0.8817587494850159,
      "learning_rate": 0.0002646859812249804,
      "loss": 3.9012,
      "step": 108570
    },
    {
      "epoch": 0.22620833333333334,
      "grad_norm": 0.8354748487472534,
      "learning_rate": 0.00026467962677527196,
      "loss": 4.0478,
      "step": 108580
    },
    {
      "epoch": 0.22622916666666668,
      "grad_norm": 0.8176414370536804,
      "learning_rate": 0.00026467327183019295,
      "loss": 4.0531,
      "step": 108590
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.758430004119873,
      "learning_rate": 0.00026466691638977075,
      "loss": 3.9141,
      "step": 108600
    },
    {
      "epoch": 0.22627083333333334,
      "grad_norm": 0.7308377623558044,
      "learning_rate": 0.0002646605604540329,
      "loss": 4.0233,
      "step": 108610
    },
    {
      "epoch": 0.22629166666666667,
      "grad_norm": 0.732552707195282,
      "learning_rate": 0.00026465420402300684,
      "loss": 3.8839,
      "step": 108620
    },
    {
      "epoch": 0.2263125,
      "grad_norm": 0.7566819787025452,
      "learning_rate": 0.00026464784709671993,
      "loss": 4.0079,
      "step": 108630
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 0.7692893743515015,
      "learning_rate": 0.0002646414896751997,
      "loss": 3.9323,
      "step": 108640
    },
    {
      "epoch": 0.22635416666666666,
      "grad_norm": 0.7574669122695923,
      "learning_rate": 0.0002646351317584737,
      "loss": 3.9975,
      "step": 108650
    },
    {
      "epoch": 0.226375,
      "grad_norm": 0.7799844145774841,
      "learning_rate": 0.0002646287733465693,
      "loss": 3.7674,
      "step": 108660
    },
    {
      "epoch": 0.22639583333333332,
      "grad_norm": 0.881449818611145,
      "learning_rate": 0.0002646224144395139,
      "loss": 4.0108,
      "step": 108670
    },
    {
      "epoch": 0.22641666666666665,
      "grad_norm": 0.7469725608825684,
      "learning_rate": 0.00026461605503733506,
      "loss": 3.8867,
      "step": 108680
    },
    {
      "epoch": 0.2264375,
      "grad_norm": 0.7952242493629456,
      "learning_rate": 0.0002646096951400603,
      "loss": 4.2431,
      "step": 108690
    },
    {
      "epoch": 0.22645833333333334,
      "grad_norm": 0.786613404750824,
      "learning_rate": 0.00026460333474771693,
      "loss": 4.0911,
      "step": 108700
    },
    {
      "epoch": 0.22647916666666668,
      "grad_norm": 0.704596757888794,
      "learning_rate": 0.00026459697386033257,
      "loss": 3.9736,
      "step": 108710
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.8113592863082886,
      "learning_rate": 0.00026459061247793457,
      "loss": 4.0526,
      "step": 108720
    },
    {
      "epoch": 0.22652083333333334,
      "grad_norm": 0.8402955532073975,
      "learning_rate": 0.00026458425060055056,
      "loss": 4.234,
      "step": 108730
    },
    {
      "epoch": 0.22654166666666667,
      "grad_norm": 0.9136911034584045,
      "learning_rate": 0.0002645778882282079,
      "loss": 4.0058,
      "step": 108740
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 1.0463095903396606,
      "learning_rate": 0.0002645715253609342,
      "loss": 4.161,
      "step": 108750
    },
    {
      "epoch": 0.22658333333333333,
      "grad_norm": 0.8029552102088928,
      "learning_rate": 0.0002645651619987568,
      "loss": 3.9991,
      "step": 108760
    },
    {
      "epoch": 0.22660416666666666,
      "grad_norm": 0.7968006730079651,
      "learning_rate": 0.0002645587981417032,
      "loss": 3.921,
      "step": 108770
    },
    {
      "epoch": 0.226625,
      "grad_norm": 0.8741642236709595,
      "learning_rate": 0.000264552433789801,
      "loss": 4.022,
      "step": 108780
    },
    {
      "epoch": 0.22664583333333332,
      "grad_norm": 0.762168288230896,
      "learning_rate": 0.0002645460689430776,
      "loss": 3.9447,
      "step": 108790
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.8203997611999512,
      "learning_rate": 0.0002645397036015606,
      "loss": 4.0354,
      "step": 108800
    },
    {
      "epoch": 0.2266875,
      "grad_norm": 0.7436257600784302,
      "learning_rate": 0.00026453333776527735,
      "loss": 3.9108,
      "step": 108810
    },
    {
      "epoch": 0.22670833333333335,
      "grad_norm": 0.8074234127998352,
      "learning_rate": 0.00026452697143425536,
      "loss": 4.1067,
      "step": 108820
    },
    {
      "epoch": 0.22672916666666668,
      "grad_norm": 0.7462684512138367,
      "learning_rate": 0.0002645206046085223,
      "loss": 3.8825,
      "step": 108830
    },
    {
      "epoch": 0.22675,
      "grad_norm": 0.7849990725517273,
      "learning_rate": 0.0002645142372881055,
      "loss": 4.0352,
      "step": 108840
    },
    {
      "epoch": 0.22677083333333334,
      "grad_norm": 0.9749696850776672,
      "learning_rate": 0.0002645078694730325,
      "loss": 3.9965,
      "step": 108850
    },
    {
      "epoch": 0.22679166666666667,
      "grad_norm": 0.738406777381897,
      "learning_rate": 0.0002645015011633309,
      "loss": 4.0523,
      "step": 108860
    },
    {
      "epoch": 0.2268125,
      "grad_norm": 0.7696288228034973,
      "learning_rate": 0.00026449513235902804,
      "loss": 4.2208,
      "step": 108870
    },
    {
      "epoch": 0.22683333333333333,
      "grad_norm": 0.8471109867095947,
      "learning_rate": 0.0002644887630601516,
      "loss": 4.2235,
      "step": 108880
    },
    {
      "epoch": 0.22685416666666666,
      "grad_norm": 0.8858343362808228,
      "learning_rate": 0.000264482393266729,
      "loss": 4.1057,
      "step": 108890
    },
    {
      "epoch": 0.226875,
      "grad_norm": 0.8792240023612976,
      "learning_rate": 0.0002644760229787878,
      "loss": 4.1981,
      "step": 108900
    },
    {
      "epoch": 0.22689583333333332,
      "grad_norm": 1.0192328691482544,
      "learning_rate": 0.00026446965219635544,
      "loss": 4.1076,
      "step": 108910
    },
    {
      "epoch": 0.22691666666666666,
      "grad_norm": 0.8126200437545776,
      "learning_rate": 0.00026446328091945956,
      "loss": 4.0677,
      "step": 108920
    },
    {
      "epoch": 0.2269375,
      "grad_norm": 0.7771753668785095,
      "learning_rate": 0.00026445690914812754,
      "loss": 3.9117,
      "step": 108930
    },
    {
      "epoch": 0.22695833333333335,
      "grad_norm": 0.8010287284851074,
      "learning_rate": 0.000264450536882387,
      "loss": 4.0144,
      "step": 108940
    },
    {
      "epoch": 0.22697916666666668,
      "grad_norm": 0.7840119004249573,
      "learning_rate": 0.0002644441641222655,
      "loss": 3.8718,
      "step": 108950
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.8487440347671509,
      "learning_rate": 0.0002644377908677905,
      "loss": 3.9473,
      "step": 108960
    },
    {
      "epoch": 0.22702083333333334,
      "grad_norm": 0.7932446599006653,
      "learning_rate": 0.00026443141711898944,
      "loss": 3.9226,
      "step": 108970
    },
    {
      "epoch": 0.22704166666666667,
      "grad_norm": 0.7840481400489807,
      "learning_rate": 0.00026442504287589006,
      "loss": 4.0517,
      "step": 108980
    },
    {
      "epoch": 0.2270625,
      "grad_norm": 0.9190971255302429,
      "learning_rate": 0.0002644186681385197,
      "loss": 3.814,
      "step": 108990
    },
    {
      "epoch": 0.22708333333333333,
      "grad_norm": 0.7680810689926147,
      "learning_rate": 0.0002644122929069061,
      "loss": 4.0119,
      "step": 109000
    },
    {
      "epoch": 0.22708333333333333,
      "eval_loss": 3.7832419872283936,
      "eval_runtime": 6.766,
      "eval_samples_per_second": 1.478,
      "eval_steps_per_second": 0.443,
      "step": 109000
    },
    {
      "epoch": 0.22710416666666666,
      "grad_norm": 0.88508540391922,
      "learning_rate": 0.00026440591718107664,
      "loss": 4.2952,
      "step": 109010
    },
    {
      "epoch": 0.227125,
      "grad_norm": 0.8284662961959839,
      "learning_rate": 0.00026439954096105884,
      "loss": 4.1478,
      "step": 109020
    },
    {
      "epoch": 0.22714583333333332,
      "grad_norm": 0.7722451090812683,
      "learning_rate": 0.00026439316424688034,
      "loss": 4.1168,
      "step": 109030
    },
    {
      "epoch": 0.22716666666666666,
      "grad_norm": 0.8181670904159546,
      "learning_rate": 0.0002643867870385687,
      "loss": 3.9695,
      "step": 109040
    },
    {
      "epoch": 0.2271875,
      "grad_norm": 0.7693113088607788,
      "learning_rate": 0.0002643804093361514,
      "loss": 4.0778,
      "step": 109050
    },
    {
      "epoch": 0.22720833333333335,
      "grad_norm": 0.9267428517341614,
      "learning_rate": 0.00026437403113965596,
      "loss": 4.2484,
      "step": 109060
    },
    {
      "epoch": 0.22722916666666668,
      "grad_norm": 0.8120678067207336,
      "learning_rate": 0.00026436765244911,
      "loss": 4.2279,
      "step": 109070
    },
    {
      "epoch": 0.22725,
      "grad_norm": 0.7992202639579773,
      "learning_rate": 0.00026436127326454105,
      "loss": 4.0142,
      "step": 109080
    },
    {
      "epoch": 0.22727083333333334,
      "grad_norm": 0.797904372215271,
      "learning_rate": 0.00026435489358597665,
      "loss": 4.0258,
      "step": 109090
    },
    {
      "epoch": 0.22729166666666667,
      "grad_norm": 0.8110424876213074,
      "learning_rate": 0.0002643485134134444,
      "loss": 3.9847,
      "step": 109100
    },
    {
      "epoch": 0.2273125,
      "grad_norm": 0.7727736234664917,
      "learning_rate": 0.0002643421327469718,
      "loss": 3.9488,
      "step": 109110
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 0.7619687914848328,
      "learning_rate": 0.0002643357515865865,
      "loss": 4.0245,
      "step": 109120
    },
    {
      "epoch": 0.22735416666666666,
      "grad_norm": 0.7364389300346375,
      "learning_rate": 0.000264329369932316,
      "loss": 4.1302,
      "step": 109130
    },
    {
      "epoch": 0.227375,
      "grad_norm": 0.7686312794685364,
      "learning_rate": 0.0002643229877841878,
      "loss": 3.9242,
      "step": 109140
    },
    {
      "epoch": 0.22739583333333332,
      "grad_norm": 0.8035370111465454,
      "learning_rate": 0.0002643166051422297,
      "loss": 3.8734,
      "step": 109150
    },
    {
      "epoch": 0.22741666666666666,
      "grad_norm": 0.7687371969223022,
      "learning_rate": 0.000264310222006469,
      "loss": 4.079,
      "step": 109160
    },
    {
      "epoch": 0.2274375,
      "grad_norm": 0.7594553232192993,
      "learning_rate": 0.0002643038383769334,
      "loss": 3.8544,
      "step": 109170
    },
    {
      "epoch": 0.22745833333333335,
      "grad_norm": 0.8621605038642883,
      "learning_rate": 0.00026429745425365046,
      "loss": 4.0307,
      "step": 109180
    },
    {
      "epoch": 0.22747916666666668,
      "grad_norm": 0.8076496720314026,
      "learning_rate": 0.0002642910696366478,
      "loss": 3.8982,
      "step": 109190
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.7498164176940918,
      "learning_rate": 0.00026428468452595295,
      "loss": 4.1332,
      "step": 109200
    },
    {
      "epoch": 0.22752083333333334,
      "grad_norm": 0.7008220553398132,
      "learning_rate": 0.00026427829892159343,
      "loss": 3.8546,
      "step": 109210
    },
    {
      "epoch": 0.22754166666666667,
      "grad_norm": 0.859944224357605,
      "learning_rate": 0.000264271912823597,
      "loss": 4.0312,
      "step": 109220
    },
    {
      "epoch": 0.2275625,
      "grad_norm": 1.0396642684936523,
      "learning_rate": 0.00026426552623199105,
      "loss": 4.2846,
      "step": 109230
    },
    {
      "epoch": 0.22758333333333333,
      "grad_norm": 0.8099856972694397,
      "learning_rate": 0.00026425913914680327,
      "loss": 4.1034,
      "step": 109240
    },
    {
      "epoch": 0.22760416666666666,
      "grad_norm": 0.8046111464500427,
      "learning_rate": 0.00026425275156806123,
      "loss": 4.1529,
      "step": 109250
    },
    {
      "epoch": 0.227625,
      "grad_norm": 0.8721851110458374,
      "learning_rate": 0.0002642463634957926,
      "loss": 4.1322,
      "step": 109260
    },
    {
      "epoch": 0.22764583333333333,
      "grad_norm": 0.7957665920257568,
      "learning_rate": 0.00026423997493002483,
      "loss": 4.071,
      "step": 109270
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 0.8200547099113464,
      "learning_rate": 0.00026423358587078564,
      "loss": 4.0223,
      "step": 109280
    },
    {
      "epoch": 0.2276875,
      "grad_norm": 0.7714802622795105,
      "learning_rate": 0.0002642271963181025,
      "loss": 4.0621,
      "step": 109290
    },
    {
      "epoch": 0.22770833333333335,
      "grad_norm": 0.8061140775680542,
      "learning_rate": 0.00026422080627200317,
      "loss": 4.0371,
      "step": 109300
    },
    {
      "epoch": 0.22772916666666668,
      "grad_norm": 0.8324567675590515,
      "learning_rate": 0.0002642144157325151,
      "loss": 4.0147,
      "step": 109310
    },
    {
      "epoch": 0.22775,
      "grad_norm": 0.728804886341095,
      "learning_rate": 0.000264208024699666,
      "loss": 3.7602,
      "step": 109320
    },
    {
      "epoch": 0.22777083333333334,
      "grad_norm": 0.9275715351104736,
      "learning_rate": 0.00026420163317348347,
      "loss": 4.0123,
      "step": 109330
    },
    {
      "epoch": 0.22779166666666667,
      "grad_norm": 0.7510822415351868,
      "learning_rate": 0.00026419524115399505,
      "loss": 4.0577,
      "step": 109340
    },
    {
      "epoch": 0.2278125,
      "grad_norm": 0.7567436099052429,
      "learning_rate": 0.0002641888486412284,
      "loss": 4.0141,
      "step": 109350
    },
    {
      "epoch": 0.22783333333333333,
      "grad_norm": 0.9436893463134766,
      "learning_rate": 0.0002641824556352111,
      "loss": 4.2016,
      "step": 109360
    },
    {
      "epoch": 0.22785416666666666,
      "grad_norm": 0.7583976984024048,
      "learning_rate": 0.0002641760621359708,
      "loss": 4.0975,
      "step": 109370
    },
    {
      "epoch": 0.227875,
      "grad_norm": 0.7416496276855469,
      "learning_rate": 0.0002641696681435351,
      "loss": 4.0743,
      "step": 109380
    },
    {
      "epoch": 0.22789583333333333,
      "grad_norm": 0.7766907811164856,
      "learning_rate": 0.00026416327365793164,
      "loss": 4.0912,
      "step": 109390
    },
    {
      "epoch": 0.22791666666666666,
      "grad_norm": 0.7795192003250122,
      "learning_rate": 0.00026415687867918804,
      "loss": 4.1966,
      "step": 109400
    },
    {
      "epoch": 0.2279375,
      "grad_norm": 0.8385568261146545,
      "learning_rate": 0.0002641504832073319,
      "loss": 4.0937,
      "step": 109410
    },
    {
      "epoch": 0.22795833333333335,
      "grad_norm": 0.8341874480247498,
      "learning_rate": 0.00026414408724239084,
      "loss": 4.0115,
      "step": 109420
    },
    {
      "epoch": 0.22797916666666668,
      "grad_norm": 0.7407909035682678,
      "learning_rate": 0.00026413769078439253,
      "loss": 4.0305,
      "step": 109430
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.7766433954238892,
      "learning_rate": 0.0002641312938333645,
      "loss": 3.9804,
      "step": 109440
    },
    {
      "epoch": 0.22802083333333334,
      "grad_norm": 0.7638643980026245,
      "learning_rate": 0.0002641248963893345,
      "loss": 4.1984,
      "step": 109450
    },
    {
      "epoch": 0.22804166666666667,
      "grad_norm": 0.7863910794258118,
      "learning_rate": 0.0002641184984523302,
      "loss": 3.8906,
      "step": 109460
    },
    {
      "epoch": 0.2280625,
      "grad_norm": 0.7930631637573242,
      "learning_rate": 0.0002641121000223791,
      "loss": 4.0225,
      "step": 109470
    },
    {
      "epoch": 0.22808333333333333,
      "grad_norm": 0.7379809617996216,
      "learning_rate": 0.0002641057010995089,
      "loss": 4.0062,
      "step": 109480
    },
    {
      "epoch": 0.22810416666666666,
      "grad_norm": 0.8165243864059448,
      "learning_rate": 0.0002640993016837472,
      "loss": 4.0729,
      "step": 109490
    },
    {
      "epoch": 0.228125,
      "grad_norm": 0.7693384289741516,
      "learning_rate": 0.0002640929017751217,
      "loss": 3.9398,
      "step": 109500
    },
    {
      "epoch": 0.22814583333333333,
      "grad_norm": 0.7782836556434631,
      "learning_rate": 0.00026408650137366006,
      "loss": 3.8599,
      "step": 109510
    },
    {
      "epoch": 0.22816666666666666,
      "grad_norm": 0.8492138981819153,
      "learning_rate": 0.00026408010047938987,
      "loss": 4.0214,
      "step": 109520
    },
    {
      "epoch": 0.2281875,
      "grad_norm": 0.7561057806015015,
      "learning_rate": 0.0002640736990923388,
      "loss": 4.1097,
      "step": 109530
    },
    {
      "epoch": 0.22820833333333335,
      "grad_norm": 0.7662364840507507,
      "learning_rate": 0.0002640672972125345,
      "loss": 3.9384,
      "step": 109540
    },
    {
      "epoch": 0.22822916666666668,
      "grad_norm": 0.9260373711585999,
      "learning_rate": 0.00026406089484000466,
      "loss": 4.1191,
      "step": 109550
    },
    {
      "epoch": 0.22825,
      "grad_norm": 0.7296192049980164,
      "learning_rate": 0.00026405449197477684,
      "loss": 4.0411,
      "step": 109560
    },
    {
      "epoch": 0.22827083333333334,
      "grad_norm": 0.814205527305603,
      "learning_rate": 0.00026404808861687877,
      "loss": 4.1216,
      "step": 109570
    },
    {
      "epoch": 0.22829166666666667,
      "grad_norm": 0.7616153359413147,
      "learning_rate": 0.0002640416847663381,
      "loss": 4.1853,
      "step": 109580
    },
    {
      "epoch": 0.2283125,
      "grad_norm": 0.7931334972381592,
      "learning_rate": 0.00026403528042318253,
      "loss": 4.1474,
      "step": 109590
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 0.8428846597671509,
      "learning_rate": 0.00026402887558743966,
      "loss": 3.9734,
      "step": 109600
    },
    {
      "epoch": 0.22835416666666666,
      "grad_norm": 0.7923513650894165,
      "learning_rate": 0.00026402247025913723,
      "loss": 4.0978,
      "step": 109610
    },
    {
      "epoch": 0.228375,
      "grad_norm": 0.7654905319213867,
      "learning_rate": 0.00026401606443830284,
      "loss": 3.9429,
      "step": 109620
    },
    {
      "epoch": 0.22839583333333333,
      "grad_norm": 0.758517324924469,
      "learning_rate": 0.00026400965812496414,
      "loss": 4.1006,
      "step": 109630
    },
    {
      "epoch": 0.22841666666666666,
      "grad_norm": 0.7865391373634338,
      "learning_rate": 0.00026400325131914894,
      "loss": 4.0597,
      "step": 109640
    },
    {
      "epoch": 0.2284375,
      "grad_norm": 0.7517450451850891,
      "learning_rate": 0.0002639968440208847,
      "loss": 4.0492,
      "step": 109650
    },
    {
      "epoch": 0.22845833333333335,
      "grad_norm": 0.8325934410095215,
      "learning_rate": 0.0002639904362301993,
      "loss": 3.8782,
      "step": 109660
    },
    {
      "epoch": 0.22847916666666668,
      "grad_norm": 0.8046139478683472,
      "learning_rate": 0.0002639840279471203,
      "loss": 4.1291,
      "step": 109670
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.7901192307472229,
      "learning_rate": 0.0002639776191716754,
      "loss": 3.8279,
      "step": 109680
    },
    {
      "epoch": 0.22852083333333334,
      "grad_norm": 0.7265231609344482,
      "learning_rate": 0.00026397120990389233,
      "loss": 3.945,
      "step": 109690
    },
    {
      "epoch": 0.22854166666666667,
      "grad_norm": 0.8236382007598877,
      "learning_rate": 0.00026396480014379876,
      "loss": 3.9337,
      "step": 109700
    },
    {
      "epoch": 0.2285625,
      "grad_norm": 0.8049983382225037,
      "learning_rate": 0.0002639583898914223,
      "loss": 4.0484,
      "step": 109710
    },
    {
      "epoch": 0.22858333333333333,
      "grad_norm": 0.8803815245628357,
      "learning_rate": 0.0002639519791467908,
      "loss": 3.9771,
      "step": 109720
    },
    {
      "epoch": 0.22860416666666666,
      "grad_norm": 0.9185783863067627,
      "learning_rate": 0.0002639455679099318,
      "loss": 4.0034,
      "step": 109730
    },
    {
      "epoch": 0.228625,
      "grad_norm": 0.7830247282981873,
      "learning_rate": 0.00026393915618087307,
      "loss": 4.266,
      "step": 109740
    },
    {
      "epoch": 0.22864583333333333,
      "grad_norm": 0.8244149088859558,
      "learning_rate": 0.00026393274395964224,
      "loss": 4.0178,
      "step": 109750
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 0.8551862835884094,
      "learning_rate": 0.00026392633124626706,
      "loss": 4.2665,
      "step": 109760
    },
    {
      "epoch": 0.2286875,
      "grad_norm": 0.8299363851547241,
      "learning_rate": 0.0002639199180407753,
      "loss": 4.0451,
      "step": 109770
    },
    {
      "epoch": 0.22870833333333335,
      "grad_norm": 0.7632437944412231,
      "learning_rate": 0.0002639135043431945,
      "loss": 3.9469,
      "step": 109780
    },
    {
      "epoch": 0.22872916666666668,
      "grad_norm": 0.7162281274795532,
      "learning_rate": 0.0002639070901535525,
      "loss": 4.1627,
      "step": 109790
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.9697432518005371,
      "learning_rate": 0.00026390067547187696,
      "loss": 3.8477,
      "step": 109800
    },
    {
      "epoch": 0.22877083333333334,
      "grad_norm": 0.7860021591186523,
      "learning_rate": 0.0002638942602981956,
      "loss": 4.1187,
      "step": 109810
    },
    {
      "epoch": 0.22879166666666667,
      "grad_norm": 0.8173010349273682,
      "learning_rate": 0.00026388784463253603,
      "loss": 3.9581,
      "step": 109820
    },
    {
      "epoch": 0.2288125,
      "grad_norm": 0.7843738198280334,
      "learning_rate": 0.00026388142847492616,
      "loss": 3.9975,
      "step": 109830
    },
    {
      "epoch": 0.22883333333333333,
      "grad_norm": 0.7501293420791626,
      "learning_rate": 0.00026387501182539353,
      "loss": 3.8493,
      "step": 109840
    },
    {
      "epoch": 0.22885416666666666,
      "grad_norm": 0.8542681336402893,
      "learning_rate": 0.00026386859468396597,
      "loss": 4.0586,
      "step": 109850
    },
    {
      "epoch": 0.228875,
      "grad_norm": 1.349718451499939,
      "learning_rate": 0.0002638621770506711,
      "loss": 4.261,
      "step": 109860
    },
    {
      "epoch": 0.22889583333333333,
      "grad_norm": 0.8283306956291199,
      "learning_rate": 0.0002638557589255367,
      "loss": 3.9862,
      "step": 109870
    },
    {
      "epoch": 0.22891666666666666,
      "grad_norm": 0.803077757358551,
      "learning_rate": 0.0002638493403085905,
      "loss": 4.0059,
      "step": 109880
    },
    {
      "epoch": 0.2289375,
      "grad_norm": 0.7392536401748657,
      "learning_rate": 0.00026384292119986023,
      "loss": 4.0658,
      "step": 109890
    },
    {
      "epoch": 0.22895833333333335,
      "grad_norm": 0.8548626899719238,
      "learning_rate": 0.00026383650159937357,
      "loss": 3.9276,
      "step": 109900
    },
    {
      "epoch": 0.22897916666666668,
      "grad_norm": 0.8615887761116028,
      "learning_rate": 0.00026383008150715834,
      "loss": 3.926,
      "step": 109910
    },
    {
      "epoch": 0.229,
      "grad_norm": 0.8381723165512085,
      "learning_rate": 0.0002638236609232422,
      "loss": 4.0821,
      "step": 109920
    },
    {
      "epoch": 0.22902083333333334,
      "grad_norm": 0.8447942137718201,
      "learning_rate": 0.00026381723984765287,
      "loss": 3.996,
      "step": 109930
    },
    {
      "epoch": 0.22904166666666667,
      "grad_norm": 0.8163265585899353,
      "learning_rate": 0.0002638108182804181,
      "loss": 4.104,
      "step": 109940
    },
    {
      "epoch": 0.2290625,
      "grad_norm": 0.8032711744308472,
      "learning_rate": 0.00026380439622156567,
      "loss": 3.9551,
      "step": 109950
    },
    {
      "epoch": 0.22908333333333333,
      "grad_norm": 0.8488324880599976,
      "learning_rate": 0.0002637979736711233,
      "loss": 3.8891,
      "step": 109960
    },
    {
      "epoch": 0.22910416666666666,
      "grad_norm": 0.7693626284599304,
      "learning_rate": 0.0002637915506291187,
      "loss": 3.7854,
      "step": 109970
    },
    {
      "epoch": 0.229125,
      "grad_norm": 0.7937644720077515,
      "learning_rate": 0.0002637851270955797,
      "loss": 4.0171,
      "step": 109980
    },
    {
      "epoch": 0.22914583333333333,
      "grad_norm": 0.8523958921432495,
      "learning_rate": 0.00026377870307053397,
      "loss": 3.9166,
      "step": 109990
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 0.7851706147193909,
      "learning_rate": 0.00026377227855400924,
      "loss": 4.0331,
      "step": 110000
    },
    {
      "epoch": 0.22916666666666666,
      "eval_loss": 3.792952299118042,
      "eval_runtime": 6.8089,
      "eval_samples_per_second": 1.469,
      "eval_steps_per_second": 0.441,
      "step": 110000
    },
    {
      "epoch": 0.2291875,
      "grad_norm": 0.7193455696105957,
      "learning_rate": 0.00026376585354603334,
      "loss": 4.1342,
      "step": 110010
    },
    {
      "epoch": 0.22920833333333332,
      "grad_norm": 0.7481595873832703,
      "learning_rate": 0.00026375942804663397,
      "loss": 4.0363,
      "step": 110020
    },
    {
      "epoch": 0.22922916666666668,
      "grad_norm": 0.874100387096405,
      "learning_rate": 0.0002637530020558389,
      "loss": 4.1567,
      "step": 110030
    },
    {
      "epoch": 0.22925,
      "grad_norm": 0.7699899673461914,
      "learning_rate": 0.00026374657557367594,
      "loss": 3.7376,
      "step": 110040
    },
    {
      "epoch": 0.22927083333333334,
      "grad_norm": 1.1172919273376465,
      "learning_rate": 0.00026374014860017274,
      "loss": 4.1215,
      "step": 110050
    },
    {
      "epoch": 0.22929166666666667,
      "grad_norm": 0.813755452632904,
      "learning_rate": 0.0002637337211353571,
      "loss": 4.031,
      "step": 110060
    },
    {
      "epoch": 0.2293125,
      "grad_norm": 0.7598116993904114,
      "learning_rate": 0.0002637272931792568,
      "loss": 4.0895,
      "step": 110070
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 0.8727887272834778,
      "learning_rate": 0.00026372086473189964,
      "loss": 3.9755,
      "step": 110080
    },
    {
      "epoch": 0.22935416666666666,
      "grad_norm": 0.9045281410217285,
      "learning_rate": 0.0002637144357933134,
      "loss": 4.0509,
      "step": 110090
    },
    {
      "epoch": 0.229375,
      "grad_norm": 1.1007529497146606,
      "learning_rate": 0.0002637080063635258,
      "loss": 3.932,
      "step": 110100
    },
    {
      "epoch": 0.22939583333333333,
      "grad_norm": 0.8083750605583191,
      "learning_rate": 0.00026370157644256455,
      "loss": 4.1009,
      "step": 110110
    },
    {
      "epoch": 0.22941666666666666,
      "grad_norm": 0.8136470913887024,
      "learning_rate": 0.0002636951460304575,
      "loss": 4.1253,
      "step": 110120
    },
    {
      "epoch": 0.2294375,
      "grad_norm": 0.7266049385070801,
      "learning_rate": 0.0002636887151272325,
      "loss": 3.8309,
      "step": 110130
    },
    {
      "epoch": 0.22945833333333332,
      "grad_norm": 0.8524529337882996,
      "learning_rate": 0.0002636822837329172,
      "loss": 3.9377,
      "step": 110140
    },
    {
      "epoch": 0.22947916666666668,
      "grad_norm": 0.8369153141975403,
      "learning_rate": 0.00026367585184753945,
      "loss": 4.02,
      "step": 110150
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.7350667119026184,
      "learning_rate": 0.000263669419471127,
      "loss": 4.0034,
      "step": 110160
    },
    {
      "epoch": 0.22952083333333334,
      "grad_norm": 0.9553866386413574,
      "learning_rate": 0.00026366298660370765,
      "loss": 4.1156,
      "step": 110170
    },
    {
      "epoch": 0.22954166666666667,
      "grad_norm": 0.8788570165634155,
      "learning_rate": 0.00026365655324530924,
      "loss": 3.9502,
      "step": 110180
    },
    {
      "epoch": 0.2295625,
      "grad_norm": 1.1455870866775513,
      "learning_rate": 0.0002636501193959594,
      "loss": 4.1053,
      "step": 110190
    },
    {
      "epoch": 0.22958333333333333,
      "grad_norm": 0.7987990975379944,
      "learning_rate": 0.00026364368505568615,
      "loss": 3.9955,
      "step": 110200
    },
    {
      "epoch": 0.22960416666666666,
      "grad_norm": 0.8033604025840759,
      "learning_rate": 0.0002636372502245171,
      "loss": 4.1493,
      "step": 110210
    },
    {
      "epoch": 0.229625,
      "grad_norm": 0.822874128818512,
      "learning_rate": 0.0002636308149024801,
      "loss": 3.9799,
      "step": 110220
    },
    {
      "epoch": 0.22964583333333333,
      "grad_norm": 0.8679856061935425,
      "learning_rate": 0.000263624379089603,
      "loss": 3.9651,
      "step": 110230
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 0.8467958569526672,
      "learning_rate": 0.0002636179427859135,
      "loss": 3.8983,
      "step": 110240
    },
    {
      "epoch": 0.2296875,
      "grad_norm": 0.8555070757865906,
      "learning_rate": 0.0002636115059914395,
      "loss": 4.0911,
      "step": 110250
    },
    {
      "epoch": 0.22970833333333332,
      "grad_norm": 0.9165366291999817,
      "learning_rate": 0.00026360506870620883,
      "loss": 3.8262,
      "step": 110260
    },
    {
      "epoch": 0.22972916666666668,
      "grad_norm": 0.8111552596092224,
      "learning_rate": 0.00026359863093024916,
      "loss": 3.8318,
      "step": 110270
    },
    {
      "epoch": 0.22975,
      "grad_norm": 0.7437289357185364,
      "learning_rate": 0.00026359219266358836,
      "loss": 4.2406,
      "step": 110280
    },
    {
      "epoch": 0.22977083333333334,
      "grad_norm": 0.741053581237793,
      "learning_rate": 0.00026358575390625426,
      "loss": 3.9639,
      "step": 110290
    },
    {
      "epoch": 0.22979166666666667,
      "grad_norm": 0.691051721572876,
      "learning_rate": 0.0002635793146582747,
      "loss": 4.0721,
      "step": 110300
    },
    {
      "epoch": 0.2298125,
      "grad_norm": 0.7857056260108948,
      "learning_rate": 0.0002635728749196774,
      "loss": 3.8671,
      "step": 110310
    },
    {
      "epoch": 0.22983333333333333,
      "grad_norm": 0.8216114044189453,
      "learning_rate": 0.0002635664346904902,
      "loss": 3.8945,
      "step": 110320
    },
    {
      "epoch": 0.22985416666666666,
      "grad_norm": 0.7922141551971436,
      "learning_rate": 0.00026355999397074107,
      "loss": 4.0274,
      "step": 110330
    },
    {
      "epoch": 0.229875,
      "grad_norm": 0.9388704895973206,
      "learning_rate": 0.00026355355276045766,
      "loss": 4.1489,
      "step": 110340
    },
    {
      "epoch": 0.22989583333333333,
      "grad_norm": 0.6917949914932251,
      "learning_rate": 0.00026354711105966785,
      "loss": 3.9105,
      "step": 110350
    },
    {
      "epoch": 0.22991666666666666,
      "grad_norm": 0.847809374332428,
      "learning_rate": 0.00026354066886839946,
      "loss": 3.9977,
      "step": 110360
    },
    {
      "epoch": 0.2299375,
      "grad_norm": 0.8239430785179138,
      "learning_rate": 0.00026353422618668034,
      "loss": 3.9874,
      "step": 110370
    },
    {
      "epoch": 0.22995833333333332,
      "grad_norm": 0.9589524269104004,
      "learning_rate": 0.0002635277830145383,
      "loss": 4.1336,
      "step": 110380
    },
    {
      "epoch": 0.22997916666666668,
      "grad_norm": 0.8858312964439392,
      "learning_rate": 0.00026352133935200116,
      "loss": 4.1449,
      "step": 110390
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7774925231933594,
      "learning_rate": 0.0002635148951990968,
      "loss": 3.903,
      "step": 110400
    },
    {
      "epoch": 0.23002083333333334,
      "grad_norm": 0.8785320520401001,
      "learning_rate": 0.00026350845055585296,
      "loss": 3.8987,
      "step": 110410
    },
    {
      "epoch": 0.23004166666666667,
      "grad_norm": 0.8041248917579651,
      "learning_rate": 0.00026350200542229763,
      "loss": 4.1361,
      "step": 110420
    },
    {
      "epoch": 0.2300625,
      "grad_norm": 0.7792285084724426,
      "learning_rate": 0.0002634955597984585,
      "loss": 3.9204,
      "step": 110430
    },
    {
      "epoch": 0.23008333333333333,
      "grad_norm": 0.810188353061676,
      "learning_rate": 0.00026348911368436346,
      "loss": 4.0917,
      "step": 110440
    },
    {
      "epoch": 0.23010416666666667,
      "grad_norm": 0.9131906628608704,
      "learning_rate": 0.0002634826670800404,
      "loss": 4.2187,
      "step": 110450
    },
    {
      "epoch": 0.230125,
      "grad_norm": 0.8508794903755188,
      "learning_rate": 0.00026347621998551717,
      "loss": 3.9754,
      "step": 110460
    },
    {
      "epoch": 0.23014583333333333,
      "grad_norm": 0.8245636224746704,
      "learning_rate": 0.0002634697724008216,
      "loss": 3.8119,
      "step": 110470
    },
    {
      "epoch": 0.23016666666666666,
      "grad_norm": 0.81049644947052,
      "learning_rate": 0.0002634633243259814,
      "loss": 4.0467,
      "step": 110480
    },
    {
      "epoch": 0.2301875,
      "grad_norm": 0.9168959259986877,
      "learning_rate": 0.0002634568757610247,
      "loss": 4.1588,
      "step": 110490
    },
    {
      "epoch": 0.23020833333333332,
      "grad_norm": 0.8245753049850464,
      "learning_rate": 0.0002634504267059792,
      "loss": 4.0072,
      "step": 110500
    },
    {
      "epoch": 0.23022916666666668,
      "grad_norm": 0.7717046141624451,
      "learning_rate": 0.00026344397716087265,
      "loss": 4.0367,
      "step": 110510
    },
    {
      "epoch": 0.23025,
      "grad_norm": 0.8113659024238586,
      "learning_rate": 0.0002634375271257331,
      "loss": 4.1911,
      "step": 110520
    },
    {
      "epoch": 0.23027083333333334,
      "grad_norm": 0.8796140551567078,
      "learning_rate": 0.0002634310766005883,
      "loss": 3.9476,
      "step": 110530
    },
    {
      "epoch": 0.23029166666666667,
      "grad_norm": 0.7601606845855713,
      "learning_rate": 0.00026342462558546614,
      "loss": 4.1252,
      "step": 110540
    },
    {
      "epoch": 0.2303125,
      "grad_norm": 0.780555248260498,
      "learning_rate": 0.00026341817408039454,
      "loss": 3.9498,
      "step": 110550
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 0.7822740077972412,
      "learning_rate": 0.0002634117220854013,
      "loss": 3.9606,
      "step": 110560
    },
    {
      "epoch": 0.23035416666666667,
      "grad_norm": 0.8713330626487732,
      "learning_rate": 0.0002634052696005143,
      "loss": 4.19,
      "step": 110570
    },
    {
      "epoch": 0.230375,
      "grad_norm": 0.9058020114898682,
      "learning_rate": 0.00026339881662576145,
      "loss": 4.1457,
      "step": 110580
    },
    {
      "epoch": 0.23039583333333333,
      "grad_norm": 0.8073327541351318,
      "learning_rate": 0.00026339236316117056,
      "loss": 3.982,
      "step": 110590
    },
    {
      "epoch": 0.23041666666666666,
      "grad_norm": 0.7680270671844482,
      "learning_rate": 0.0002633859092067696,
      "loss": 3.9469,
      "step": 110600
    },
    {
      "epoch": 0.2304375,
      "grad_norm": 1.4238225221633911,
      "learning_rate": 0.0002633794547625863,
      "loss": 4.0068,
      "step": 110610
    },
    {
      "epoch": 0.23045833333333332,
      "grad_norm": 0.9042189717292786,
      "learning_rate": 0.00026337299982864875,
      "loss": 3.9556,
      "step": 110620
    },
    {
      "epoch": 0.23047916666666668,
      "grad_norm": 0.7655373215675354,
      "learning_rate": 0.0002633665444049847,
      "loss": 4.1554,
      "step": 110630
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.8316372036933899,
      "learning_rate": 0.000263360088491622,
      "loss": 3.9332,
      "step": 110640
    },
    {
      "epoch": 0.23052083333333334,
      "grad_norm": 0.8267584443092346,
      "learning_rate": 0.0002633536320885886,
      "loss": 3.9777,
      "step": 110650
    },
    {
      "epoch": 0.23054166666666667,
      "grad_norm": 0.7539153695106506,
      "learning_rate": 0.0002633471751959124,
      "loss": 3.9218,
      "step": 110660
    },
    {
      "epoch": 0.2305625,
      "grad_norm": 0.8704320788383484,
      "learning_rate": 0.00026334071781362124,
      "loss": 4.105,
      "step": 110670
    },
    {
      "epoch": 0.23058333333333333,
      "grad_norm": 0.8421555161476135,
      "learning_rate": 0.00026333425994174304,
      "loss": 3.9117,
      "step": 110680
    },
    {
      "epoch": 0.23060416666666667,
      "grad_norm": 0.8025552034378052,
      "learning_rate": 0.0002633278015803057,
      "loss": 4.1454,
      "step": 110690
    },
    {
      "epoch": 0.230625,
      "grad_norm": 0.7562878131866455,
      "learning_rate": 0.00026332134272933716,
      "loss": 4.1667,
      "step": 110700
    },
    {
      "epoch": 0.23064583333333333,
      "grad_norm": 0.7935981154441833,
      "learning_rate": 0.0002633148833888652,
      "loss": 4.0058,
      "step": 110710
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 1.9765218496322632,
      "learning_rate": 0.0002633084235589179,
      "loss": 3.8406,
      "step": 110720
    },
    {
      "epoch": 0.2306875,
      "grad_norm": 0.7983478307723999,
      "learning_rate": 0.000263301963239523,
      "loss": 4.0041,
      "step": 110730
    },
    {
      "epoch": 0.23070833333333332,
      "grad_norm": 0.8295613527297974,
      "learning_rate": 0.00026329550243070845,
      "loss": 4.047,
      "step": 110740
    },
    {
      "epoch": 0.23072916666666668,
      "grad_norm": 0.8131280541419983,
      "learning_rate": 0.00026328904113250213,
      "loss": 3.9811,
      "step": 110750
    },
    {
      "epoch": 0.23075,
      "grad_norm": 0.748996913433075,
      "learning_rate": 0.0002632825793449321,
      "loss": 4.035,
      "step": 110760
    },
    {
      "epoch": 0.23077083333333334,
      "grad_norm": 0.8477242588996887,
      "learning_rate": 0.0002632761170680261,
      "loss": 4.2055,
      "step": 110770
    },
    {
      "epoch": 0.23079166666666667,
      "grad_norm": 0.9914905428886414,
      "learning_rate": 0.00026326965430181217,
      "loss": 4.096,
      "step": 110780
    },
    {
      "epoch": 0.2308125,
      "grad_norm": 0.752193808555603,
      "learning_rate": 0.00026326319104631816,
      "loss": 3.9177,
      "step": 110790
    },
    {
      "epoch": 0.23083333333333333,
      "grad_norm": 0.8357939720153809,
      "learning_rate": 0.00026325672730157196,
      "loss": 3.9203,
      "step": 110800
    },
    {
      "epoch": 0.23085416666666667,
      "grad_norm": 0.727762758731842,
      "learning_rate": 0.00026325026306760153,
      "loss": 4.0017,
      "step": 110810
    },
    {
      "epoch": 0.230875,
      "grad_norm": 0.7380456924438477,
      "learning_rate": 0.0002632437983444348,
      "loss": 3.9286,
      "step": 110820
    },
    {
      "epoch": 0.23089583333333333,
      "grad_norm": 0.7677908539772034,
      "learning_rate": 0.0002632373331320997,
      "loss": 3.8832,
      "step": 110830
    },
    {
      "epoch": 0.23091666666666666,
      "grad_norm": 0.7072885632514954,
      "learning_rate": 0.0002632308674306241,
      "loss": 3.7851,
      "step": 110840
    },
    {
      "epoch": 0.2309375,
      "grad_norm": 0.8972508311271667,
      "learning_rate": 0.00026322440124003604,
      "loss": 4.1002,
      "step": 110850
    },
    {
      "epoch": 0.23095833333333332,
      "grad_norm": 0.7933154106140137,
      "learning_rate": 0.0002632179345603633,
      "loss": 3.8892,
      "step": 110860
    },
    {
      "epoch": 0.23097916666666668,
      "grad_norm": 0.7648216485977173,
      "learning_rate": 0.000263211467391634,
      "loss": 4.0174,
      "step": 110870
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.8068758845329285,
      "learning_rate": 0.0002632049997338759,
      "loss": 3.9929,
      "step": 110880
    },
    {
      "epoch": 0.23102083333333334,
      "grad_norm": 0.7906908392906189,
      "learning_rate": 0.000263198531587117,
      "loss": 4.0868,
      "step": 110890
    },
    {
      "epoch": 0.23104166666666667,
      "grad_norm": 0.8309970498085022,
      "learning_rate": 0.0002631920629513853,
      "loss": 3.9438,
      "step": 110900
    },
    {
      "epoch": 0.2310625,
      "grad_norm": 0.7987481951713562,
      "learning_rate": 0.00026318559382670865,
      "loss": 4.098,
      "step": 110910
    },
    {
      "epoch": 0.23108333333333334,
      "grad_norm": 0.7534654140472412,
      "learning_rate": 0.0002631791242131151,
      "loss": 3.9468,
      "step": 110920
    },
    {
      "epoch": 0.23110416666666667,
      "grad_norm": 0.8074918389320374,
      "learning_rate": 0.00026317265411063246,
      "loss": 4.0683,
      "step": 110930
    },
    {
      "epoch": 0.231125,
      "grad_norm": 0.8435472846031189,
      "learning_rate": 0.0002631661835192888,
      "loss": 4.077,
      "step": 110940
    },
    {
      "epoch": 0.23114583333333333,
      "grad_norm": 0.8646624684333801,
      "learning_rate": 0.000263159712439112,
      "loss": 4.0721,
      "step": 110950
    },
    {
      "epoch": 0.23116666666666666,
      "grad_norm": 0.885398805141449,
      "learning_rate": 0.00026315324087013,
      "loss": 3.9702,
      "step": 110960
    },
    {
      "epoch": 0.2311875,
      "grad_norm": 0.792604923248291,
      "learning_rate": 0.0002631467688123709,
      "loss": 4.1723,
      "step": 110970
    },
    {
      "epoch": 0.23120833333333332,
      "grad_norm": 0.9035600423812866,
      "learning_rate": 0.00026314029626586246,
      "loss": 3.9088,
      "step": 110980
    },
    {
      "epoch": 0.23122916666666668,
      "grad_norm": 0.8373833298683167,
      "learning_rate": 0.0002631338232306327,
      "loss": 4.0398,
      "step": 110990
    },
    {
      "epoch": 0.23125,
      "grad_norm": 0.8033260107040405,
      "learning_rate": 0.00026312734970670965,
      "loss": 4.1279,
      "step": 111000
    },
    {
      "epoch": 0.23125,
      "eval_loss": 3.790881395339966,
      "eval_runtime": 6.7746,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.443,
      "step": 111000
    },
    {
      "epoch": 0.23127083333333334,
      "grad_norm": 0.8065053820610046,
      "learning_rate": 0.00026312087569412126,
      "loss": 4.0331,
      "step": 111010
    },
    {
      "epoch": 0.23129166666666667,
      "grad_norm": 0.8448566198348999,
      "learning_rate": 0.0002631144011928954,
      "loss": 4.0679,
      "step": 111020
    },
    {
      "epoch": 0.2313125,
      "grad_norm": 0.7704452872276306,
      "learning_rate": 0.00026310792620306016,
      "loss": 3.9351,
      "step": 111030
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 0.7695115804672241,
      "learning_rate": 0.0002631014507246434,
      "loss": 3.923,
      "step": 111040
    },
    {
      "epoch": 0.23135416666666667,
      "grad_norm": 0.8527766466140747,
      "learning_rate": 0.00026309497475767314,
      "loss": 4.0711,
      "step": 111050
    },
    {
      "epoch": 0.231375,
      "grad_norm": 0.7964807748794556,
      "learning_rate": 0.0002630884983021774,
      "loss": 4.1983,
      "step": 111060
    },
    {
      "epoch": 0.23139583333333333,
      "grad_norm": 0.8862271308898926,
      "learning_rate": 0.00026308202135818403,
      "loss": 4.0039,
      "step": 111070
    },
    {
      "epoch": 0.23141666666666666,
      "grad_norm": 0.8728019595146179,
      "learning_rate": 0.0002630755439257211,
      "loss": 3.854,
      "step": 111080
    },
    {
      "epoch": 0.2314375,
      "grad_norm": 0.789616584777832,
      "learning_rate": 0.0002630690660048167,
      "loss": 3.9519,
      "step": 111090
    },
    {
      "epoch": 0.23145833333333332,
      "grad_norm": 0.7902354598045349,
      "learning_rate": 0.00026306258759549857,
      "loss": 4.0425,
      "step": 111100
    },
    {
      "epoch": 0.23147916666666668,
      "grad_norm": 0.7526888251304626,
      "learning_rate": 0.00026305610869779486,
      "loss": 4.2204,
      "step": 111110
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.9775737524032593,
      "learning_rate": 0.00026304962931173354,
      "loss": 4.0587,
      "step": 111120
    },
    {
      "epoch": 0.23152083333333334,
      "grad_norm": 0.7852484583854675,
      "learning_rate": 0.0002630431494373425,
      "loss": 4.0392,
      "step": 111130
    },
    {
      "epoch": 0.23154166666666667,
      "grad_norm": 0.7913463711738586,
      "learning_rate": 0.0002630366690746498,
      "loss": 3.9789,
      "step": 111140
    },
    {
      "epoch": 0.2315625,
      "grad_norm": 0.8229756951332092,
      "learning_rate": 0.00026303018822368353,
      "loss": 4.123,
      "step": 111150
    },
    {
      "epoch": 0.23158333333333334,
      "grad_norm": 0.7575049996376038,
      "learning_rate": 0.0002630237068844715,
      "loss": 3.8653,
      "step": 111160
    },
    {
      "epoch": 0.23160416666666667,
      "grad_norm": 0.7968912720680237,
      "learning_rate": 0.00026301722505704184,
      "loss": 3.8662,
      "step": 111170
    },
    {
      "epoch": 0.231625,
      "grad_norm": 0.7558269500732422,
      "learning_rate": 0.0002630107427414225,
      "loss": 3.915,
      "step": 111180
    },
    {
      "epoch": 0.23164583333333333,
      "grad_norm": 0.7642988562583923,
      "learning_rate": 0.00026300425993764146,
      "loss": 4.0185,
      "step": 111190
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 0.8236830234527588,
      "learning_rate": 0.0002629977766457268,
      "loss": 4.0484,
      "step": 111200
    },
    {
      "epoch": 0.2316875,
      "grad_norm": 0.7880597114562988,
      "learning_rate": 0.00026299129286570637,
      "loss": 3.9643,
      "step": 111210
    },
    {
      "epoch": 0.23170833333333332,
      "grad_norm": 0.8201814889907837,
      "learning_rate": 0.0002629848085976084,
      "loss": 4.0058,
      "step": 111220
    },
    {
      "epoch": 0.23172916666666668,
      "grad_norm": 0.7360475063323975,
      "learning_rate": 0.0002629783238414607,
      "loss": 4.1137,
      "step": 111230
    },
    {
      "epoch": 0.23175,
      "grad_norm": 0.7955775856971741,
      "learning_rate": 0.00026297183859729135,
      "loss": 4.1442,
      "step": 111240
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 1.2451587915420532,
      "learning_rate": 0.0002629653528651284,
      "loss": 3.8136,
      "step": 111250
    },
    {
      "epoch": 0.23179166666666667,
      "grad_norm": 0.7425330281257629,
      "learning_rate": 0.00026295886664499984,
      "loss": 4.1095,
      "step": 111260
    },
    {
      "epoch": 0.2318125,
      "grad_norm": 0.81561678647995,
      "learning_rate": 0.0002629523799369337,
      "loss": 3.9843,
      "step": 111270
    },
    {
      "epoch": 0.23183333333333334,
      "grad_norm": 0.7204313278198242,
      "learning_rate": 0.000262945892740958,
      "loss": 3.9854,
      "step": 111280
    },
    {
      "epoch": 0.23185416666666667,
      "grad_norm": 0.8175026774406433,
      "learning_rate": 0.00026293940505710067,
      "loss": 4.1725,
      "step": 111290
    },
    {
      "epoch": 0.231875,
      "grad_norm": 0.7882602214813232,
      "learning_rate": 0.0002629329168853899,
      "loss": 4.081,
      "step": 111300
    },
    {
      "epoch": 0.23189583333333333,
      "grad_norm": 0.8232560157775879,
      "learning_rate": 0.0002629264282258536,
      "loss": 3.9667,
      "step": 111310
    },
    {
      "epoch": 0.23191666666666666,
      "grad_norm": 0.77031409740448,
      "learning_rate": 0.00026291993907851983,
      "loss": 4.0866,
      "step": 111320
    },
    {
      "epoch": 0.2319375,
      "grad_norm": 0.828575611114502,
      "learning_rate": 0.00026291344944341666,
      "loss": 4.1094,
      "step": 111330
    },
    {
      "epoch": 0.23195833333333332,
      "grad_norm": 0.7639797925949097,
      "learning_rate": 0.000262906959320572,
      "loss": 4.0244,
      "step": 111340
    },
    {
      "epoch": 0.23197916666666665,
      "grad_norm": 0.7812113761901855,
      "learning_rate": 0.000262900468710014,
      "loss": 3.8726,
      "step": 111350
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.8918123841285706,
      "learning_rate": 0.0002628939776117707,
      "loss": 4.047,
      "step": 111360
    },
    {
      "epoch": 0.23202083333333334,
      "grad_norm": 0.9049177169799805,
      "learning_rate": 0.00026288748602587005,
      "loss": 3.9518,
      "step": 111370
    },
    {
      "epoch": 0.23204166666666667,
      "grad_norm": 0.7305638790130615,
      "learning_rate": 0.0002628809939523402,
      "loss": 4.0721,
      "step": 111380
    },
    {
      "epoch": 0.2320625,
      "grad_norm": 0.7532908916473389,
      "learning_rate": 0.0002628745013912091,
      "loss": 4.1841,
      "step": 111390
    },
    {
      "epoch": 0.23208333333333334,
      "grad_norm": 0.8414992690086365,
      "learning_rate": 0.0002628680083425049,
      "loss": 4.0871,
      "step": 111400
    },
    {
      "epoch": 0.23210416666666667,
      "grad_norm": 0.8076490759849548,
      "learning_rate": 0.0002628615148062555,
      "loss": 4.0492,
      "step": 111410
    },
    {
      "epoch": 0.232125,
      "grad_norm": 0.8834756016731262,
      "learning_rate": 0.00026285502078248905,
      "loss": 4.0877,
      "step": 111420
    },
    {
      "epoch": 0.23214583333333333,
      "grad_norm": 0.829466700553894,
      "learning_rate": 0.00026284852627123356,
      "loss": 3.9386,
      "step": 111430
    },
    {
      "epoch": 0.23216666666666666,
      "grad_norm": 0.7692291736602783,
      "learning_rate": 0.0002628420312725172,
      "loss": 4.1103,
      "step": 111440
    },
    {
      "epoch": 0.2321875,
      "grad_norm": 0.791874349117279,
      "learning_rate": 0.00026283553578636785,
      "loss": 4.0598,
      "step": 111450
    },
    {
      "epoch": 0.23220833333333332,
      "grad_norm": 0.9756159782409668,
      "learning_rate": 0.00026282903981281365,
      "loss": 4.0249,
      "step": 111460
    },
    {
      "epoch": 0.23222916666666665,
      "grad_norm": 0.7667810320854187,
      "learning_rate": 0.00026282254335188265,
      "loss": 3.8807,
      "step": 111470
    },
    {
      "epoch": 0.23225,
      "grad_norm": 0.8115958571434021,
      "learning_rate": 0.00026281604640360294,
      "loss": 4.1324,
      "step": 111480
    },
    {
      "epoch": 0.23227083333333334,
      "grad_norm": 0.8326591849327087,
      "learning_rate": 0.0002628095489680026,
      "loss": 4.0694,
      "step": 111490
    },
    {
      "epoch": 0.23229166666666667,
      "grad_norm": 1.0218766927719116,
      "learning_rate": 0.00026280305104510964,
      "loss": 4.0238,
      "step": 111500
    },
    {
      "epoch": 0.2323125,
      "grad_norm": 0.8623873591423035,
      "learning_rate": 0.0002627965526349521,
      "loss": 4.1159,
      "step": 111510
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 0.7114919424057007,
      "learning_rate": 0.00026279005373755813,
      "loss": 4.0616,
      "step": 111520
    },
    {
      "epoch": 0.23235416666666667,
      "grad_norm": 0.8040233850479126,
      "learning_rate": 0.0002627835543529558,
      "loss": 4.1359,
      "step": 111530
    },
    {
      "epoch": 0.232375,
      "grad_norm": 0.8919273614883423,
      "learning_rate": 0.00026277705448117316,
      "loss": 3.9581,
      "step": 111540
    },
    {
      "epoch": 0.23239583333333333,
      "grad_norm": 0.7354698777198792,
      "learning_rate": 0.0002627705541222382,
      "loss": 3.9416,
      "step": 111550
    },
    {
      "epoch": 0.23241666666666666,
      "grad_norm": 0.9120341539382935,
      "learning_rate": 0.0002627640532761792,
      "loss": 4.0138,
      "step": 111560
    },
    {
      "epoch": 0.2324375,
      "grad_norm": 0.8157859444618225,
      "learning_rate": 0.0002627575519430241,
      "loss": 3.8624,
      "step": 111570
    },
    {
      "epoch": 0.23245833333333332,
      "grad_norm": 0.8188269734382629,
      "learning_rate": 0.00026275105012280096,
      "loss": 4.1155,
      "step": 111580
    },
    {
      "epoch": 0.23247916666666665,
      "grad_norm": 0.8136152625083923,
      "learning_rate": 0.0002627445478155379,
      "loss": 3.9894,
      "step": 111590
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.8122138977050781,
      "learning_rate": 0.0002627380450212631,
      "loss": 4.0438,
      "step": 111600
    },
    {
      "epoch": 0.23252083333333334,
      "grad_norm": 0.849591851234436,
      "learning_rate": 0.00026273154174000457,
      "loss": 4.0664,
      "step": 111610
    },
    {
      "epoch": 0.23254166666666667,
      "grad_norm": 0.7789074778556824,
      "learning_rate": 0.0002627250379717903,
      "loss": 3.9574,
      "step": 111620
    },
    {
      "epoch": 0.2325625,
      "grad_norm": 0.7647982835769653,
      "learning_rate": 0.00026271853371664857,
      "loss": 4.1368,
      "step": 111630
    },
    {
      "epoch": 0.23258333333333334,
      "grad_norm": 0.9279477000236511,
      "learning_rate": 0.00026271202897460734,
      "loss": 4.0186,
      "step": 111640
    },
    {
      "epoch": 0.23260416666666667,
      "grad_norm": 0.74678635597229,
      "learning_rate": 0.0002627055237456948,
      "loss": 4.131,
      "step": 111650
    },
    {
      "epoch": 0.232625,
      "grad_norm": 0.8677830696105957,
      "learning_rate": 0.000262699018029939,
      "loss": 3.834,
      "step": 111660
    },
    {
      "epoch": 0.23264583333333333,
      "grad_norm": 0.8486851453781128,
      "learning_rate": 0.00026269251182736806,
      "loss": 3.956,
      "step": 111670
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 0.7620018720626831,
      "learning_rate": 0.00026268600513801007,
      "loss": 4.1011,
      "step": 111680
    },
    {
      "epoch": 0.2326875,
      "grad_norm": 0.8156833052635193,
      "learning_rate": 0.0002626794979618931,
      "loss": 4.1384,
      "step": 111690
    },
    {
      "epoch": 0.23270833333333332,
      "grad_norm": 0.9173135161399841,
      "learning_rate": 0.00026267299029904533,
      "loss": 4.0152,
      "step": 111700
    },
    {
      "epoch": 0.23272916666666665,
      "grad_norm": 1.0202420949935913,
      "learning_rate": 0.00026266648214949486,
      "loss": 4.0266,
      "step": 111710
    },
    {
      "epoch": 0.23275,
      "grad_norm": 0.7542258501052856,
      "learning_rate": 0.0002626599735132698,
      "loss": 3.9757,
      "step": 111720
    },
    {
      "epoch": 0.23277083333333334,
      "grad_norm": 0.7603523135185242,
      "learning_rate": 0.00026265346439039816,
      "loss": 4.0566,
      "step": 111730
    },
    {
      "epoch": 0.23279166666666667,
      "grad_norm": 0.8588168025016785,
      "learning_rate": 0.00026264695478090826,
      "loss": 3.9215,
      "step": 111740
    },
    {
      "epoch": 0.2328125,
      "grad_norm": 0.7608236074447632,
      "learning_rate": 0.00026264044468482804,
      "loss": 3.9432,
      "step": 111750
    },
    {
      "epoch": 0.23283333333333334,
      "grad_norm": 0.7948823571205139,
      "learning_rate": 0.0002626339341021857,
      "loss": 3.9536,
      "step": 111760
    },
    {
      "epoch": 0.23285416666666667,
      "grad_norm": 0.8865369558334351,
      "learning_rate": 0.0002626274230330093,
      "loss": 4.2413,
      "step": 111770
    },
    {
      "epoch": 0.232875,
      "grad_norm": 0.8031843304634094,
      "learning_rate": 0.000262620911477327,
      "loss": 4.1567,
      "step": 111780
    },
    {
      "epoch": 0.23289583333333333,
      "grad_norm": 0.7842917442321777,
      "learning_rate": 0.00026261439943516706,
      "loss": 4.0278,
      "step": 111790
    },
    {
      "epoch": 0.23291666666666666,
      "grad_norm": 0.7920554876327515,
      "learning_rate": 0.0002626078869065574,
      "loss": 4.1064,
      "step": 111800
    },
    {
      "epoch": 0.2329375,
      "grad_norm": 0.7363864779472351,
      "learning_rate": 0.0002626013738915263,
      "loss": 4.2117,
      "step": 111810
    },
    {
      "epoch": 0.23295833333333332,
      "grad_norm": 0.8914345502853394,
      "learning_rate": 0.0002625948603901018,
      "loss": 4.0935,
      "step": 111820
    },
    {
      "epoch": 0.23297916666666665,
      "grad_norm": 0.8362176418304443,
      "learning_rate": 0.00026258834640231207,
      "loss": 4.1761,
      "step": 111830
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.8157390356063843,
      "learning_rate": 0.00026258183192818526,
      "loss": 4.0076,
      "step": 111840
    },
    {
      "epoch": 0.23302083333333334,
      "grad_norm": 0.8178207874298096,
      "learning_rate": 0.0002625753169677495,
      "loss": 3.8819,
      "step": 111850
    },
    {
      "epoch": 0.23304166666666667,
      "grad_norm": 0.8570380806922913,
      "learning_rate": 0.0002625688015210329,
      "loss": 4.0296,
      "step": 111860
    },
    {
      "epoch": 0.2330625,
      "grad_norm": 0.8157859444618225,
      "learning_rate": 0.00026256228558806365,
      "loss": 3.9499,
      "step": 111870
    },
    {
      "epoch": 0.23308333333333334,
      "grad_norm": 0.939102053642273,
      "learning_rate": 0.0002625557691688699,
      "loss": 3.894,
      "step": 111880
    },
    {
      "epoch": 0.23310416666666667,
      "grad_norm": 0.8081112504005432,
      "learning_rate": 0.0002625492522634798,
      "loss": 4.1019,
      "step": 111890
    },
    {
      "epoch": 0.233125,
      "grad_norm": 0.7430468201637268,
      "learning_rate": 0.00026254273487192145,
      "loss": 4.1613,
      "step": 111900
    },
    {
      "epoch": 0.23314583333333333,
      "grad_norm": 0.8516389727592468,
      "learning_rate": 0.000262536216994223,
      "loss": 4.048,
      "step": 111910
    },
    {
      "epoch": 0.23316666666666666,
      "grad_norm": 0.7860071063041687,
      "learning_rate": 0.0002625296986304127,
      "loss": 4.2026,
      "step": 111920
    },
    {
      "epoch": 0.2331875,
      "grad_norm": 1.0832494497299194,
      "learning_rate": 0.0002625231797805186,
      "loss": 3.9473,
      "step": 111930
    },
    {
      "epoch": 0.23320833333333332,
      "grad_norm": 0.7800877690315247,
      "learning_rate": 0.0002625166604445689,
      "loss": 3.9562,
      "step": 111940
    },
    {
      "epoch": 0.23322916666666665,
      "grad_norm": 0.7702320218086243,
      "learning_rate": 0.00026251014062259184,
      "loss": 3.9806,
      "step": 111950
    },
    {
      "epoch": 0.23325,
      "grad_norm": 0.8369827270507812,
      "learning_rate": 0.0002625036203146154,
      "loss": 4.1693,
      "step": 111960
    },
    {
      "epoch": 0.23327083333333334,
      "grad_norm": 0.7416113615036011,
      "learning_rate": 0.0002624970995206679,
      "loss": 3.9422,
      "step": 111970
    },
    {
      "epoch": 0.23329166666666667,
      "grad_norm": 0.8246186971664429,
      "learning_rate": 0.00026249057824077746,
      "loss": 3.9909,
      "step": 111980
    },
    {
      "epoch": 0.2333125,
      "grad_norm": 0.8385002613067627,
      "learning_rate": 0.0002624840564749722,
      "loss": 4.0372,
      "step": 111990
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.7790787816047668,
      "learning_rate": 0.0002624775342232804,
      "loss": 4.1385,
      "step": 112000
    },
    {
      "epoch": 0.23333333333333334,
      "eval_loss": 3.7726104259490967,
      "eval_runtime": 6.8505,
      "eval_samples_per_second": 1.46,
      "eval_steps_per_second": 0.438,
      "step": 112000
    },
    {
      "epoch": 0.23335416666666667,
      "grad_norm": 0.7671447992324829,
      "learning_rate": 0.00026247101148573024,
      "loss": 4.1499,
      "step": 112010
    },
    {
      "epoch": 0.233375,
      "grad_norm": 0.7310550808906555,
      "learning_rate": 0.00026246448826234973,
      "loss": 4.0504,
      "step": 112020
    },
    {
      "epoch": 0.23339583333333333,
      "grad_norm": 0.7668618559837341,
      "learning_rate": 0.00026245796455316717,
      "loss": 4.122,
      "step": 112030
    },
    {
      "epoch": 0.23341666666666666,
      "grad_norm": 0.7654491662979126,
      "learning_rate": 0.0002624514403582107,
      "loss": 3.8357,
      "step": 112040
    },
    {
      "epoch": 0.2334375,
      "grad_norm": 0.787057638168335,
      "learning_rate": 0.00026244491567750856,
      "loss": 4.0346,
      "step": 112050
    },
    {
      "epoch": 0.23345833333333332,
      "grad_norm": 0.9813565015792847,
      "learning_rate": 0.00026243839051108884,
      "loss": 3.9894,
      "step": 112060
    },
    {
      "epoch": 0.23347916666666665,
      "grad_norm": 0.7727042436599731,
      "learning_rate": 0.0002624318648589798,
      "loss": 4.0417,
      "step": 112070
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.8176316618919373,
      "learning_rate": 0.00026242533872120966,
      "loss": 4.0185,
      "step": 112080
    },
    {
      "epoch": 0.23352083333333334,
      "grad_norm": 0.835611879825592,
      "learning_rate": 0.00026241881209780653,
      "loss": 3.9931,
      "step": 112090
    },
    {
      "epoch": 0.23354166666666668,
      "grad_norm": 0.7707028388977051,
      "learning_rate": 0.00026241228498879857,
      "loss": 3.9118,
      "step": 112100
    },
    {
      "epoch": 0.2335625,
      "grad_norm": 0.8169631958007812,
      "learning_rate": 0.0002624057573942141,
      "loss": 4.001,
      "step": 112110
    },
    {
      "epoch": 0.23358333333333334,
      "grad_norm": 0.7996694445610046,
      "learning_rate": 0.00026239922931408125,
      "loss": 4.1302,
      "step": 112120
    },
    {
      "epoch": 0.23360416666666667,
      "grad_norm": 0.8886083364486694,
      "learning_rate": 0.00026239270074842816,
      "loss": 3.9298,
      "step": 112130
    },
    {
      "epoch": 0.233625,
      "grad_norm": 0.8268107175827026,
      "learning_rate": 0.00026238617169728316,
      "loss": 4.2176,
      "step": 112140
    },
    {
      "epoch": 0.23364583333333333,
      "grad_norm": 0.7775721549987793,
      "learning_rate": 0.00026237964216067433,
      "loss": 3.9625,
      "step": 112150
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 0.8162868022918701,
      "learning_rate": 0.00026237311213862997,
      "loss": 4.1611,
      "step": 112160
    },
    {
      "epoch": 0.2336875,
      "grad_norm": 0.7335553169250488,
      "learning_rate": 0.0002623665816311782,
      "loss": 3.9389,
      "step": 112170
    },
    {
      "epoch": 0.23370833333333332,
      "grad_norm": 0.8150473237037659,
      "learning_rate": 0.0002623600506383473,
      "loss": 4.218,
      "step": 112180
    },
    {
      "epoch": 0.23372916666666665,
      "grad_norm": 1.4412661790847778,
      "learning_rate": 0.0002623535191601655,
      "loss": 3.9415,
      "step": 112190
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.8432551026344299,
      "learning_rate": 0.0002623469871966609,
      "loss": 4.117,
      "step": 112200
    },
    {
      "epoch": 0.23377083333333334,
      "grad_norm": 0.8376937508583069,
      "learning_rate": 0.00026234045474786183,
      "loss": 4.0374,
      "step": 112210
    },
    {
      "epoch": 0.23379166666666668,
      "grad_norm": 0.823697566986084,
      "learning_rate": 0.0002623339218137964,
      "loss": 4.0238,
      "step": 112220
    },
    {
      "epoch": 0.2338125,
      "grad_norm": 0.7468501329421997,
      "learning_rate": 0.000262327388394493,
      "loss": 3.9718,
      "step": 112230
    },
    {
      "epoch": 0.23383333333333334,
      "grad_norm": 0.7811153531074524,
      "learning_rate": 0.0002623208544899797,
      "loss": 4.1539,
      "step": 112240
    },
    {
      "epoch": 0.23385416666666667,
      "grad_norm": 0.8612525463104248,
      "learning_rate": 0.00026231432010028475,
      "loss": 3.992,
      "step": 112250
    },
    {
      "epoch": 0.233875,
      "grad_norm": 0.7785677909851074,
      "learning_rate": 0.0002623077852254364,
      "loss": 4.0582,
      "step": 112260
    },
    {
      "epoch": 0.23389583333333333,
      "grad_norm": 0.7291848063468933,
      "learning_rate": 0.00026230124986546284,
      "loss": 4.1361,
      "step": 112270
    },
    {
      "epoch": 0.23391666666666666,
      "grad_norm": 0.7709469795227051,
      "learning_rate": 0.0002622947140203924,
      "loss": 4.047,
      "step": 112280
    },
    {
      "epoch": 0.2339375,
      "grad_norm": 0.8179019689559937,
      "learning_rate": 0.00026228817769025314,
      "loss": 4.1488,
      "step": 112290
    },
    {
      "epoch": 0.23395833333333332,
      "grad_norm": 0.8040281534194946,
      "learning_rate": 0.0002622816408750735,
      "loss": 3.8497,
      "step": 112300
    },
    {
      "epoch": 0.23397916666666665,
      "grad_norm": 0.7538871169090271,
      "learning_rate": 0.0002622751035748816,
      "loss": 3.8438,
      "step": 112310
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.8516934514045715,
      "learning_rate": 0.0002622685657897057,
      "loss": 4.1322,
      "step": 112320
    },
    {
      "epoch": 0.23402083333333334,
      "grad_norm": 0.832848310470581,
      "learning_rate": 0.000262262027519574,
      "loss": 3.9533,
      "step": 112330
    },
    {
      "epoch": 0.23404166666666668,
      "grad_norm": 0.8572123050689697,
      "learning_rate": 0.0002622554887645148,
      "loss": 3.8078,
      "step": 112340
    },
    {
      "epoch": 0.2340625,
      "grad_norm": 0.7723509669303894,
      "learning_rate": 0.0002622489495245563,
      "loss": 3.8478,
      "step": 112350
    },
    {
      "epoch": 0.23408333333333334,
      "grad_norm": 0.8774447441101074,
      "learning_rate": 0.00026224240979972675,
      "loss": 4.1097,
      "step": 112360
    },
    {
      "epoch": 0.23410416666666667,
      "grad_norm": 0.881454348564148,
      "learning_rate": 0.00026223586959005446,
      "loss": 4.1228,
      "step": 112370
    },
    {
      "epoch": 0.234125,
      "grad_norm": 0.816227376461029,
      "learning_rate": 0.0002622293288955676,
      "loss": 3.8556,
      "step": 112380
    },
    {
      "epoch": 0.23414583333333333,
      "grad_norm": 0.8291455507278442,
      "learning_rate": 0.00026222278771629453,
      "loss": 3.8662,
      "step": 112390
    },
    {
      "epoch": 0.23416666666666666,
      "grad_norm": 0.7357454895973206,
      "learning_rate": 0.00026221624605226343,
      "loss": 4.0729,
      "step": 112400
    },
    {
      "epoch": 0.2341875,
      "grad_norm": 0.8067992329597473,
      "learning_rate": 0.0002622097039035025,
      "loss": 4.0184,
      "step": 112410
    },
    {
      "epoch": 0.23420833333333332,
      "grad_norm": 0.8159613609313965,
      "learning_rate": 0.0002622031612700401,
      "loss": 3.9954,
      "step": 112420
    },
    {
      "epoch": 0.23422916666666665,
      "grad_norm": 0.7707427144050598,
      "learning_rate": 0.00026219661815190447,
      "loss": 3.9979,
      "step": 112430
    },
    {
      "epoch": 0.23425,
      "grad_norm": 0.7848591208457947,
      "learning_rate": 0.00026219007454912385,
      "loss": 4.0057,
      "step": 112440
    },
    {
      "epoch": 0.23427083333333334,
      "grad_norm": 0.7599855065345764,
      "learning_rate": 0.0002621835304617265,
      "loss": 3.9708,
      "step": 112450
    },
    {
      "epoch": 0.23429166666666668,
      "grad_norm": 0.7954902052879333,
      "learning_rate": 0.0002621769858897407,
      "loss": 3.9337,
      "step": 112460
    },
    {
      "epoch": 0.2343125,
      "grad_norm": 0.8020818829536438,
      "learning_rate": 0.00026217044083319476,
      "loss": 4.1386,
      "step": 112470
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 0.8680436611175537,
      "learning_rate": 0.00026216389529211685,
      "loss": 4.1928,
      "step": 112480
    },
    {
      "epoch": 0.23435416666666667,
      "grad_norm": 0.8346511125564575,
      "learning_rate": 0.0002621573492665354,
      "loss": 3.9892,
      "step": 112490
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.8539882898330688,
      "learning_rate": 0.0002621508027564786,
      "loss": 4.004,
      "step": 112500
    },
    {
      "epoch": 0.23439583333333333,
      "grad_norm": 0.7449167370796204,
      "learning_rate": 0.00026214425576197466,
      "loss": 4.1679,
      "step": 112510
    },
    {
      "epoch": 0.23441666666666666,
      "grad_norm": 0.7684084177017212,
      "learning_rate": 0.0002621377082830519,
      "loss": 4.1967,
      "step": 112520
    },
    {
      "epoch": 0.2344375,
      "grad_norm": 0.8313172459602356,
      "learning_rate": 0.0002621311603197387,
      "loss": 3.9875,
      "step": 112530
    },
    {
      "epoch": 0.23445833333333332,
      "grad_norm": 0.9948726296424866,
      "learning_rate": 0.0002621246118720632,
      "loss": 4.0762,
      "step": 112540
    },
    {
      "epoch": 0.23447916666666666,
      "grad_norm": 0.8249549865722656,
      "learning_rate": 0.0002621180629400538,
      "loss": 4.0454,
      "step": 112550
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.8007261753082275,
      "learning_rate": 0.00026211151352373876,
      "loss": 4.0502,
      "step": 112560
    },
    {
      "epoch": 0.23452083333333335,
      "grad_norm": 0.7661985754966736,
      "learning_rate": 0.0002621049636231463,
      "loss": 4.0148,
      "step": 112570
    },
    {
      "epoch": 0.23454166666666668,
      "grad_norm": 0.7555800080299377,
      "learning_rate": 0.00026209841323830485,
      "loss": 4.1174,
      "step": 112580
    },
    {
      "epoch": 0.2345625,
      "grad_norm": 0.829798698425293,
      "learning_rate": 0.00026209186236924263,
      "loss": 4.1447,
      "step": 112590
    },
    {
      "epoch": 0.23458333333333334,
      "grad_norm": 0.8202446103096008,
      "learning_rate": 0.0002620853110159879,
      "loss": 3.8477,
      "step": 112600
    },
    {
      "epoch": 0.23460416666666667,
      "grad_norm": 0.8112756013870239,
      "learning_rate": 0.000262078759178569,
      "loss": 3.9677,
      "step": 112610
    },
    {
      "epoch": 0.234625,
      "grad_norm": 0.7681750655174255,
      "learning_rate": 0.0002620722068570142,
      "loss": 4.0773,
      "step": 112620
    },
    {
      "epoch": 0.23464583333333333,
      "grad_norm": 0.8137499094009399,
      "learning_rate": 0.0002620656540513518,
      "loss": 4.1273,
      "step": 112630
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 0.8062446713447571,
      "learning_rate": 0.0002620591007616102,
      "loss": 4.1275,
      "step": 112640
    },
    {
      "epoch": 0.2346875,
      "grad_norm": 0.8945059180259705,
      "learning_rate": 0.0002620525469878176,
      "loss": 4.0063,
      "step": 112650
    },
    {
      "epoch": 0.23470833333333332,
      "grad_norm": 0.815119743347168,
      "learning_rate": 0.0002620459927300024,
      "loss": 3.9585,
      "step": 112660
    },
    {
      "epoch": 0.23472916666666666,
      "grad_norm": 0.8313152194023132,
      "learning_rate": 0.0002620394379881928,
      "loss": 3.9791,
      "step": 112670
    },
    {
      "epoch": 0.23475,
      "grad_norm": 0.7959699034690857,
      "learning_rate": 0.0002620328827624172,
      "loss": 3.8687,
      "step": 112680
    },
    {
      "epoch": 0.23477083333333335,
      "grad_norm": 0.7621421217918396,
      "learning_rate": 0.00026202632705270393,
      "loss": 4.0581,
      "step": 112690
    },
    {
      "epoch": 0.23479166666666668,
      "grad_norm": 0.803007960319519,
      "learning_rate": 0.0002620197708590812,
      "loss": 3.9177,
      "step": 112700
    },
    {
      "epoch": 0.2348125,
      "grad_norm": 0.7633471488952637,
      "learning_rate": 0.00026201321418157744,
      "loss": 3.9248,
      "step": 112710
    },
    {
      "epoch": 0.23483333333333334,
      "grad_norm": 0.7879371047019958,
      "learning_rate": 0.00026200665702022096,
      "loss": 4.1541,
      "step": 112720
    },
    {
      "epoch": 0.23485416666666667,
      "grad_norm": 0.7682053446769714,
      "learning_rate": 0.00026200009937504,
      "loss": 3.8785,
      "step": 112730
    },
    {
      "epoch": 0.234875,
      "grad_norm": 0.776926577091217,
      "learning_rate": 0.00026199354124606297,
      "loss": 4.0285,
      "step": 112740
    },
    {
      "epoch": 0.23489583333333333,
      "grad_norm": 0.7985106110572815,
      "learning_rate": 0.00026198698263331816,
      "loss": 4.0546,
      "step": 112750
    },
    {
      "epoch": 0.23491666666666666,
      "grad_norm": 1.0453722476959229,
      "learning_rate": 0.00026198042353683395,
      "loss": 4.1735,
      "step": 112760
    },
    {
      "epoch": 0.2349375,
      "grad_norm": 0.8093659281730652,
      "learning_rate": 0.0002619738639566386,
      "loss": 3.9747,
      "step": 112770
    },
    {
      "epoch": 0.23495833333333332,
      "grad_norm": 0.9431856274604797,
      "learning_rate": 0.0002619673038927605,
      "loss": 3.9856,
      "step": 112780
    },
    {
      "epoch": 0.23497916666666666,
      "grad_norm": 0.7949050664901733,
      "learning_rate": 0.0002619607433452279,
      "loss": 3.9255,
      "step": 112790
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.8261229395866394,
      "learning_rate": 0.0002619541823140693,
      "loss": 3.9425,
      "step": 112800
    },
    {
      "epoch": 0.23502083333333335,
      "grad_norm": 0.7693812251091003,
      "learning_rate": 0.0002619476207993129,
      "loss": 3.9457,
      "step": 112810
    },
    {
      "epoch": 0.23504166666666668,
      "grad_norm": 0.7521955370903015,
      "learning_rate": 0.0002619410588009871,
      "loss": 3.9444,
      "step": 112820
    },
    {
      "epoch": 0.2350625,
      "grad_norm": 0.7918210029602051,
      "learning_rate": 0.00026193449631912026,
      "loss": 3.9893,
      "step": 112830
    },
    {
      "epoch": 0.23508333333333334,
      "grad_norm": 0.8183659315109253,
      "learning_rate": 0.00026192793335374066,
      "loss": 3.9144,
      "step": 112840
    },
    {
      "epoch": 0.23510416666666667,
      "grad_norm": 0.821799635887146,
      "learning_rate": 0.0002619213699048767,
      "loss": 3.9856,
      "step": 112850
    },
    {
      "epoch": 0.235125,
      "grad_norm": 0.7791156768798828,
      "learning_rate": 0.0002619148059725568,
      "loss": 4.0887,
      "step": 112860
    },
    {
      "epoch": 0.23514583333333333,
      "grad_norm": 0.7572158575057983,
      "learning_rate": 0.0002619082415568091,
      "loss": 4.1125,
      "step": 112870
    },
    {
      "epoch": 0.23516666666666666,
      "grad_norm": 0.8078274726867676,
      "learning_rate": 0.0002619016766576622,
      "loss": 3.9448,
      "step": 112880
    },
    {
      "epoch": 0.2351875,
      "grad_norm": 0.840559184551239,
      "learning_rate": 0.0002618951112751443,
      "loss": 4.0681,
      "step": 112890
    },
    {
      "epoch": 0.23520833333333332,
      "grad_norm": 0.7855075001716614,
      "learning_rate": 0.0002618885454092838,
      "loss": 3.8637,
      "step": 112900
    },
    {
      "epoch": 0.23522916666666666,
      "grad_norm": 0.7444045543670654,
      "learning_rate": 0.00026188197906010913,
      "loss": 4.0279,
      "step": 112910
    },
    {
      "epoch": 0.23525,
      "grad_norm": 0.7163448929786682,
      "learning_rate": 0.00026187541222764856,
      "loss": 3.9252,
      "step": 112920
    },
    {
      "epoch": 0.23527083333333335,
      "grad_norm": 0.757244348526001,
      "learning_rate": 0.00026186884491193047,
      "loss": 3.8589,
      "step": 112930
    },
    {
      "epoch": 0.23529166666666668,
      "grad_norm": 0.7662259340286255,
      "learning_rate": 0.0002618622771129833,
      "loss": 3.8548,
      "step": 112940
    },
    {
      "epoch": 0.2353125,
      "grad_norm": 0.9738495349884033,
      "learning_rate": 0.0002618557088308353,
      "loss": 3.9038,
      "step": 112950
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 0.8210980296134949,
      "learning_rate": 0.000261849140065515,
      "loss": 3.8712,
      "step": 112960
    },
    {
      "epoch": 0.23535416666666667,
      "grad_norm": 0.7541577816009521,
      "learning_rate": 0.0002618425708170506,
      "loss": 4.1369,
      "step": 112970
    },
    {
      "epoch": 0.235375,
      "grad_norm": 0.8579761385917664,
      "learning_rate": 0.0002618360010854707,
      "loss": 4.0872,
      "step": 112980
    },
    {
      "epoch": 0.23539583333333333,
      "grad_norm": 0.8622299432754517,
      "learning_rate": 0.00026182943087080344,
      "loss": 4.0093,
      "step": 112990
    },
    {
      "epoch": 0.23541666666666666,
      "grad_norm": 0.724718451499939,
      "learning_rate": 0.0002618228601730773,
      "loss": 3.9555,
      "step": 113000
    },
    {
      "epoch": 0.23541666666666666,
      "eval_loss": 3.778704881668091,
      "eval_runtime": 6.9067,
      "eval_samples_per_second": 1.448,
      "eval_steps_per_second": 0.434,
      "step": 113000
    },
    {
      "epoch": 0.2354375,
      "grad_norm": 0.742871880531311,
      "learning_rate": 0.0002618162889923207,
      "loss": 4.0598,
      "step": 113010
    },
    {
      "epoch": 0.23545833333333333,
      "grad_norm": 0.9667338728904724,
      "learning_rate": 0.00026180971732856195,
      "loss": 4.0325,
      "step": 113020
    },
    {
      "epoch": 0.23547916666666666,
      "grad_norm": 0.8733600378036499,
      "learning_rate": 0.0002618031451818295,
      "loss": 4.0489,
      "step": 113030
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.8275716304779053,
      "learning_rate": 0.0002617965725521517,
      "loss": 3.8325,
      "step": 113040
    },
    {
      "epoch": 0.23552083333333335,
      "grad_norm": 0.8504201769828796,
      "learning_rate": 0.000261789999439557,
      "loss": 4.0934,
      "step": 113050
    },
    {
      "epoch": 0.23554166666666668,
      "grad_norm": 0.9823219776153564,
      "learning_rate": 0.00026178342584407373,
      "loss": 3.8649,
      "step": 113060
    },
    {
      "epoch": 0.2355625,
      "grad_norm": 0.7356697916984558,
      "learning_rate": 0.0002617768517657303,
      "loss": 4.0363,
      "step": 113070
    },
    {
      "epoch": 0.23558333333333334,
      "grad_norm": 0.8447166085243225,
      "learning_rate": 0.0002617702772045552,
      "loss": 4.0514,
      "step": 113080
    },
    {
      "epoch": 0.23560416666666667,
      "grad_norm": 0.826888918876648,
      "learning_rate": 0.0002617637021605766,
      "loss": 3.9585,
      "step": 113090
    },
    {
      "epoch": 0.235625,
      "grad_norm": 0.7816527485847473,
      "learning_rate": 0.00026175712663382316,
      "loss": 3.911,
      "step": 113100
    },
    {
      "epoch": 0.23564583333333333,
      "grad_norm": 0.8057812452316284,
      "learning_rate": 0.00026175055062432315,
      "loss": 3.9777,
      "step": 113110
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 0.8449215888977051,
      "learning_rate": 0.00026174397413210494,
      "loss": 4.0068,
      "step": 113120
    },
    {
      "epoch": 0.2356875,
      "grad_norm": 0.7528634071350098,
      "learning_rate": 0.00026173739715719705,
      "loss": 3.8848,
      "step": 113130
    },
    {
      "epoch": 0.23570833333333333,
      "grad_norm": 0.8331155180931091,
      "learning_rate": 0.0002617308196996278,
      "loss": 3.8359,
      "step": 113140
    },
    {
      "epoch": 0.23572916666666666,
      "grad_norm": 0.8927382230758667,
      "learning_rate": 0.00026172424175942565,
      "loss": 4.1494,
      "step": 113150
    },
    {
      "epoch": 0.23575,
      "grad_norm": 0.7558701634407043,
      "learning_rate": 0.00026171766333661894,
      "loss": 4.1586,
      "step": 113160
    },
    {
      "epoch": 0.23577083333333335,
      "grad_norm": 0.8797916173934937,
      "learning_rate": 0.00026171108443123623,
      "loss": 3.9429,
      "step": 113170
    },
    {
      "epoch": 0.23579166666666668,
      "grad_norm": 0.8116592168807983,
      "learning_rate": 0.0002617045050433058,
      "loss": 4.1404,
      "step": 113180
    },
    {
      "epoch": 0.2358125,
      "grad_norm": 0.7950407266616821,
      "learning_rate": 0.00026169792517285616,
      "loss": 3.9881,
      "step": 113190
    },
    {
      "epoch": 0.23583333333333334,
      "grad_norm": 0.7427894473075867,
      "learning_rate": 0.00026169134481991566,
      "loss": 4.1638,
      "step": 113200
    },
    {
      "epoch": 0.23585416666666667,
      "grad_norm": 1.1384042501449585,
      "learning_rate": 0.0002616847639845128,
      "loss": 4.0092,
      "step": 113210
    },
    {
      "epoch": 0.235875,
      "grad_norm": 0.7678726315498352,
      "learning_rate": 0.00026167818266667594,
      "loss": 4.0351,
      "step": 113220
    },
    {
      "epoch": 0.23589583333333333,
      "grad_norm": 0.7085680365562439,
      "learning_rate": 0.00026167160086643354,
      "loss": 4.0549,
      "step": 113230
    },
    {
      "epoch": 0.23591666666666666,
      "grad_norm": 0.7148129940032959,
      "learning_rate": 0.0002616650185838141,
      "loss": 4.0567,
      "step": 113240
    },
    {
      "epoch": 0.2359375,
      "grad_norm": 0.8024031519889832,
      "learning_rate": 0.00026165843581884586,
      "loss": 4.1538,
      "step": 113250
    },
    {
      "epoch": 0.23595833333333333,
      "grad_norm": 0.7853268384933472,
      "learning_rate": 0.0002616518525715574,
      "loss": 4.0526,
      "step": 113260
    },
    {
      "epoch": 0.23597916666666666,
      "grad_norm": 0.7556900382041931,
      "learning_rate": 0.0002616452688419772,
      "loss": 3.9874,
      "step": 113270
    },
    {
      "epoch": 0.236,
      "grad_norm": 1.3113067150115967,
      "learning_rate": 0.0002616386846301336,
      "loss": 4.0637,
      "step": 113280
    },
    {
      "epoch": 0.23602083333333335,
      "grad_norm": 0.8948997259140015,
      "learning_rate": 0.000261632099936055,
      "loss": 3.9154,
      "step": 113290
    },
    {
      "epoch": 0.23604166666666668,
      "grad_norm": 0.7423920035362244,
      "learning_rate": 0.00026162551475977,
      "loss": 4.0566,
      "step": 113300
    },
    {
      "epoch": 0.2360625,
      "grad_norm": 0.996758759021759,
      "learning_rate": 0.00026161892910130693,
      "loss": 3.9727,
      "step": 113310
    },
    {
      "epoch": 0.23608333333333334,
      "grad_norm": 0.8531627058982849,
      "learning_rate": 0.0002616123429606943,
      "loss": 3.9519,
      "step": 113320
    },
    {
      "epoch": 0.23610416666666667,
      "grad_norm": 0.8246544003486633,
      "learning_rate": 0.0002616057563379605,
      "loss": 3.9029,
      "step": 113330
    },
    {
      "epoch": 0.236125,
      "grad_norm": 0.7780665755271912,
      "learning_rate": 0.000261599169233134,
      "loss": 4.0001,
      "step": 113340
    },
    {
      "epoch": 0.23614583333333333,
      "grad_norm": 0.7786883115768433,
      "learning_rate": 0.00026159258164624327,
      "loss": 4.0471,
      "step": 113350
    },
    {
      "epoch": 0.23616666666666666,
      "grad_norm": 0.857050895690918,
      "learning_rate": 0.00026158599357731677,
      "loss": 4.1308,
      "step": 113360
    },
    {
      "epoch": 0.2361875,
      "grad_norm": 0.7465658783912659,
      "learning_rate": 0.00026157940502638294,
      "loss": 4.1027,
      "step": 113370
    },
    {
      "epoch": 0.23620833333333333,
      "grad_norm": 0.7831433415412903,
      "learning_rate": 0.00026157281599347023,
      "loss": 4.0961,
      "step": 113380
    },
    {
      "epoch": 0.23622916666666666,
      "grad_norm": 0.8037919402122498,
      "learning_rate": 0.00026156622647860716,
      "loss": 3.9903,
      "step": 113390
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.7865856289863586,
      "learning_rate": 0.00026155963648182213,
      "loss": 3.9814,
      "step": 113400
    },
    {
      "epoch": 0.23627083333333335,
      "grad_norm": 0.7526233196258545,
      "learning_rate": 0.0002615530460031436,
      "loss": 3.9771,
      "step": 113410
    },
    {
      "epoch": 0.23629166666666668,
      "grad_norm": 0.92507404088974,
      "learning_rate": 0.0002615464550426001,
      "loss": 4.0415,
      "step": 113420
    },
    {
      "epoch": 0.2363125,
      "grad_norm": 0.7735709547996521,
      "learning_rate": 0.00026153986360022007,
      "loss": 4.0119,
      "step": 113430
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 0.727411150932312,
      "learning_rate": 0.000261533271676032,
      "loss": 3.8933,
      "step": 113440
    },
    {
      "epoch": 0.23635416666666667,
      "grad_norm": 0.8021596074104309,
      "learning_rate": 0.0002615266792700643,
      "loss": 3.8221,
      "step": 113450
    },
    {
      "epoch": 0.236375,
      "grad_norm": 0.7461796402931213,
      "learning_rate": 0.0002615200863823455,
      "loss": 3.8099,
      "step": 113460
    },
    {
      "epoch": 0.23639583333333333,
      "grad_norm": 0.7782793641090393,
      "learning_rate": 0.00026151349301290405,
      "loss": 4.0196,
      "step": 113470
    },
    {
      "epoch": 0.23641666666666666,
      "grad_norm": 0.8247779011726379,
      "learning_rate": 0.0002615068991617685,
      "loss": 3.8957,
      "step": 113480
    },
    {
      "epoch": 0.2364375,
      "grad_norm": 0.7458464503288269,
      "learning_rate": 0.0002615003048289673,
      "loss": 4.0408,
      "step": 113490
    },
    {
      "epoch": 0.23645833333333333,
      "grad_norm": 0.7941275238990784,
      "learning_rate": 0.00026149371001452885,
      "loss": 4.1694,
      "step": 113500
    },
    {
      "epoch": 0.23647916666666666,
      "grad_norm": 0.778204083442688,
      "learning_rate": 0.0002614871147184817,
      "loss": 3.8478,
      "step": 113510
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.7973464131355286,
      "learning_rate": 0.0002614805189408544,
      "loss": 3.9857,
      "step": 113520
    },
    {
      "epoch": 0.23652083333333335,
      "grad_norm": 0.8871192336082458,
      "learning_rate": 0.0002614739226816754,
      "loss": 4.0723,
      "step": 113530
    },
    {
      "epoch": 0.23654166666666668,
      "grad_norm": 0.7848644852638245,
      "learning_rate": 0.0002614673259409731,
      "loss": 4.0966,
      "step": 113540
    },
    {
      "epoch": 0.2365625,
      "grad_norm": 0.7839856743812561,
      "learning_rate": 0.0002614607287187761,
      "loss": 4.0309,
      "step": 113550
    },
    {
      "epoch": 0.23658333333333334,
      "grad_norm": 0.7786373496055603,
      "learning_rate": 0.0002614541310151129,
      "loss": 4.136,
      "step": 113560
    },
    {
      "epoch": 0.23660416666666667,
      "grad_norm": 0.7438768744468689,
      "learning_rate": 0.00026144753283001193,
      "loss": 3.934,
      "step": 113570
    },
    {
      "epoch": 0.236625,
      "grad_norm": 0.7969001531600952,
      "learning_rate": 0.0002614409341635018,
      "loss": 4.0356,
      "step": 113580
    },
    {
      "epoch": 0.23664583333333333,
      "grad_norm": 0.7910904288291931,
      "learning_rate": 0.0002614343350156109,
      "loss": 3.8678,
      "step": 113590
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.7672208547592163,
      "learning_rate": 0.0002614277353863678,
      "loss": 4.0164,
      "step": 113600
    },
    {
      "epoch": 0.2366875,
      "grad_norm": 0.7551792860031128,
      "learning_rate": 0.00026142113527580094,
      "loss": 3.9306,
      "step": 113610
    },
    {
      "epoch": 0.23670833333333333,
      "grad_norm": 0.6176618933677673,
      "learning_rate": 0.0002614145346839389,
      "loss": 3.8975,
      "step": 113620
    },
    {
      "epoch": 0.23672916666666666,
      "grad_norm": 0.8099036812782288,
      "learning_rate": 0.0002614079336108102,
      "loss": 3.9975,
      "step": 113630
    },
    {
      "epoch": 0.23675,
      "grad_norm": 0.9287939071655273,
      "learning_rate": 0.0002614013320564433,
      "loss": 4.1316,
      "step": 113640
    },
    {
      "epoch": 0.23677083333333335,
      "grad_norm": 0.8304440975189209,
      "learning_rate": 0.00026139473002086675,
      "loss": 3.9274,
      "step": 113650
    },
    {
      "epoch": 0.23679166666666668,
      "grad_norm": 0.8381656408309937,
      "learning_rate": 0.0002613881275041091,
      "loss": 3.8554,
      "step": 113660
    },
    {
      "epoch": 0.2368125,
      "grad_norm": 0.7243968844413757,
      "learning_rate": 0.00026138152450619876,
      "loss": 3.8448,
      "step": 113670
    },
    {
      "epoch": 0.23683333333333334,
      "grad_norm": 1.2965236902236938,
      "learning_rate": 0.00026137492102716435,
      "loss": 3.9882,
      "step": 113680
    },
    {
      "epoch": 0.23685416666666667,
      "grad_norm": 0.8646531105041504,
      "learning_rate": 0.0002613683170670344,
      "loss": 4.1438,
      "step": 113690
    },
    {
      "epoch": 0.236875,
      "grad_norm": 0.80820232629776,
      "learning_rate": 0.00026136171262583735,
      "loss": 4.0798,
      "step": 113700
    },
    {
      "epoch": 0.23689583333333333,
      "grad_norm": 0.8646311163902283,
      "learning_rate": 0.0002613551077036018,
      "loss": 4.052,
      "step": 113710
    },
    {
      "epoch": 0.23691666666666666,
      "grad_norm": 0.7477523684501648,
      "learning_rate": 0.00026134850230035626,
      "loss": 4.1168,
      "step": 113720
    },
    {
      "epoch": 0.2369375,
      "grad_norm": 0.8320499658584595,
      "learning_rate": 0.0002613418964161293,
      "loss": 4.1418,
      "step": 113730
    },
    {
      "epoch": 0.23695833333333333,
      "grad_norm": 0.8506469130516052,
      "learning_rate": 0.00026133529005094937,
      "loss": 3.7842,
      "step": 113740
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 0.7818139791488647,
      "learning_rate": 0.00026132868320484504,
      "loss": 4.0305,
      "step": 113750
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.7646898031234741,
      "learning_rate": 0.00026132207587784494,
      "loss": 3.9371,
      "step": 113760
    },
    {
      "epoch": 0.23702083333333332,
      "grad_norm": 0.8137490749359131,
      "learning_rate": 0.0002613154680699775,
      "loss": 3.9342,
      "step": 113770
    },
    {
      "epoch": 0.23704166666666668,
      "grad_norm": 0.7932931184768677,
      "learning_rate": 0.00026130885978127127,
      "loss": 4.0601,
      "step": 113780
    },
    {
      "epoch": 0.2370625,
      "grad_norm": 0.9083293676376343,
      "learning_rate": 0.0002613022510117549,
      "loss": 4.1272,
      "step": 113790
    },
    {
      "epoch": 0.23708333333333334,
      "grad_norm": 0.8316816091537476,
      "learning_rate": 0.0002612956417614568,
      "loss": 3.8574,
      "step": 113800
    },
    {
      "epoch": 0.23710416666666667,
      "grad_norm": 0.7338898181915283,
      "learning_rate": 0.00026128903203040556,
      "loss": 3.6925,
      "step": 113810
    },
    {
      "epoch": 0.237125,
      "grad_norm": 0.806719183921814,
      "learning_rate": 0.0002612824218186298,
      "loss": 3.9854,
      "step": 113820
    },
    {
      "epoch": 0.23714583333333333,
      "grad_norm": 0.8673084378242493,
      "learning_rate": 0.00026127581112615804,
      "loss": 3.8747,
      "step": 113830
    },
    {
      "epoch": 0.23716666666666666,
      "grad_norm": 0.7466122508049011,
      "learning_rate": 0.0002612691999530188,
      "loss": 3.9277,
      "step": 113840
    },
    {
      "epoch": 0.2371875,
      "grad_norm": 0.8170424103736877,
      "learning_rate": 0.00026126258829924066,
      "loss": 4.171,
      "step": 113850
    },
    {
      "epoch": 0.23720833333333333,
      "grad_norm": 0.8248835206031799,
      "learning_rate": 0.0002612559761648522,
      "loss": 3.9705,
      "step": 113860
    },
    {
      "epoch": 0.23722916666666666,
      "grad_norm": 0.854515016078949,
      "learning_rate": 0.0002612493635498819,
      "loss": 4.2004,
      "step": 113870
    },
    {
      "epoch": 0.23725,
      "grad_norm": 0.7386806011199951,
      "learning_rate": 0.0002612427504543584,
      "loss": 4.0901,
      "step": 113880
    },
    {
      "epoch": 0.23727083333333332,
      "grad_norm": 0.894056499004364,
      "learning_rate": 0.0002612361368783103,
      "loss": 3.994,
      "step": 113890
    },
    {
      "epoch": 0.23729166666666668,
      "grad_norm": 0.7929330468177795,
      "learning_rate": 0.0002612295228217661,
      "loss": 4.0653,
      "step": 113900
    },
    {
      "epoch": 0.2373125,
      "grad_norm": 0.6876446008682251,
      "learning_rate": 0.00026122290828475435,
      "loss": 4.1333,
      "step": 113910
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 0.7797378897666931,
      "learning_rate": 0.0002612162932673037,
      "loss": 4.0327,
      "step": 113920
    },
    {
      "epoch": 0.23735416666666667,
      "grad_norm": 1.088171362876892,
      "learning_rate": 0.00026120967776944266,
      "loss": 3.9256,
      "step": 113930
    },
    {
      "epoch": 0.237375,
      "grad_norm": 0.7939724326133728,
      "learning_rate": 0.0002612030617911999,
      "loss": 4.1006,
      "step": 113940
    },
    {
      "epoch": 0.23739583333333333,
      "grad_norm": 0.7438984513282776,
      "learning_rate": 0.00026119644533260385,
      "loss": 3.8255,
      "step": 113950
    },
    {
      "epoch": 0.23741666666666666,
      "grad_norm": 0.7057076692581177,
      "learning_rate": 0.00026118982839368324,
      "loss": 4.0876,
      "step": 113960
    },
    {
      "epoch": 0.2374375,
      "grad_norm": 0.7901739478111267,
      "learning_rate": 0.00026118321097446653,
      "loss": 4.1649,
      "step": 113970
    },
    {
      "epoch": 0.23745833333333333,
      "grad_norm": 0.8037692904472351,
      "learning_rate": 0.00026117659307498236,
      "loss": 3.9974,
      "step": 113980
    },
    {
      "epoch": 0.23747916666666666,
      "grad_norm": 0.7676479816436768,
      "learning_rate": 0.0002611699746952593,
      "loss": 3.8385,
      "step": 113990
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.7989610433578491,
      "learning_rate": 0.000261163355835326,
      "loss": 4.0349,
      "step": 114000
    },
    {
      "epoch": 0.2375,
      "eval_loss": 3.7686028480529785,
      "eval_runtime": 7.3725,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 114000
    },
    {
      "epoch": 0.23752083333333332,
      "grad_norm": 0.7240591645240784,
      "learning_rate": 0.000261156736495211,
      "loss": 4.003,
      "step": 114010
    },
    {
      "epoch": 0.23754166666666668,
      "grad_norm": 0.7688340544700623,
      "learning_rate": 0.0002611501166749429,
      "loss": 4.0265,
      "step": 114020
    },
    {
      "epoch": 0.2375625,
      "grad_norm": 0.7719184756278992,
      "learning_rate": 0.00026114349637455027,
      "loss": 3.8982,
      "step": 114030
    },
    {
      "epoch": 0.23758333333333334,
      "grad_norm": 0.8200603127479553,
      "learning_rate": 0.00026113687559406175,
      "loss": 4.0272,
      "step": 114040
    },
    {
      "epoch": 0.23760416666666667,
      "grad_norm": 0.7936255931854248,
      "learning_rate": 0.0002611302543335059,
      "loss": 3.7662,
      "step": 114050
    },
    {
      "epoch": 0.237625,
      "grad_norm": 0.7432333827018738,
      "learning_rate": 0.0002611236325929113,
      "loss": 3.982,
      "step": 114060
    },
    {
      "epoch": 0.23764583333333333,
      "grad_norm": 0.769993782043457,
      "learning_rate": 0.00026111701037230664,
      "loss": 4.0403,
      "step": 114070
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 0.7098253965377808,
      "learning_rate": 0.00026111038767172046,
      "loss": 4.0746,
      "step": 114080
    },
    {
      "epoch": 0.2376875,
      "grad_norm": 0.7617207765579224,
      "learning_rate": 0.0002611037644911814,
      "loss": 3.8479,
      "step": 114090
    },
    {
      "epoch": 0.23770833333333333,
      "grad_norm": 0.8185579180717468,
      "learning_rate": 0.0002610971408307181,
      "loss": 4.113,
      "step": 114100
    },
    {
      "epoch": 0.23772916666666666,
      "grad_norm": 0.8501715064048767,
      "learning_rate": 0.00026109051669035907,
      "loss": 4.2079,
      "step": 114110
    },
    {
      "epoch": 0.23775,
      "grad_norm": 0.8490756750106812,
      "learning_rate": 0.000261083892070133,
      "loss": 3.8186,
      "step": 114120
    },
    {
      "epoch": 0.23777083333333332,
      "grad_norm": 0.7905826568603516,
      "learning_rate": 0.0002610772669700684,
      "loss": 4.0069,
      "step": 114130
    },
    {
      "epoch": 0.23779166666666668,
      "grad_norm": 0.8954800367355347,
      "learning_rate": 0.00026107064139019407,
      "loss": 3.9952,
      "step": 114140
    },
    {
      "epoch": 0.2378125,
      "grad_norm": 0.7659710645675659,
      "learning_rate": 0.0002610640153305386,
      "loss": 3.9934,
      "step": 114150
    },
    {
      "epoch": 0.23783333333333334,
      "grad_norm": 0.723705530166626,
      "learning_rate": 0.0002610573887911304,
      "loss": 4.1233,
      "step": 114160
    },
    {
      "epoch": 0.23785416666666667,
      "grad_norm": 0.7499688267707825,
      "learning_rate": 0.0002610507617719983,
      "loss": 4.056,
      "step": 114170
    },
    {
      "epoch": 0.237875,
      "grad_norm": 0.7833108305931091,
      "learning_rate": 0.00026104413427317086,
      "loss": 4.0324,
      "step": 114180
    },
    {
      "epoch": 0.23789583333333333,
      "grad_norm": 2.3628196716308594,
      "learning_rate": 0.00026103750629467674,
      "loss": 4.0891,
      "step": 114190
    },
    {
      "epoch": 0.23791666666666667,
      "grad_norm": 0.7638871669769287,
      "learning_rate": 0.00026103087783654454,
      "loss": 3.7887,
      "step": 114200
    },
    {
      "epoch": 0.2379375,
      "grad_norm": 0.7871690988540649,
      "learning_rate": 0.0002610242488988029,
      "loss": 4.1047,
      "step": 114210
    },
    {
      "epoch": 0.23795833333333333,
      "grad_norm": 0.7493728399276733,
      "learning_rate": 0.00026101761948148043,
      "loss": 4.0094,
      "step": 114220
    },
    {
      "epoch": 0.23797916666666666,
      "grad_norm": 0.7907513380050659,
      "learning_rate": 0.0002610109895846058,
      "loss": 4.0165,
      "step": 114230
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.8693843483924866,
      "learning_rate": 0.0002610043592082076,
      "loss": 4.0911,
      "step": 114240
    },
    {
      "epoch": 0.23802083333333332,
      "grad_norm": 0.830500066280365,
      "learning_rate": 0.00026099772835231456,
      "loss": 4.1737,
      "step": 114250
    },
    {
      "epoch": 0.23804166666666668,
      "grad_norm": 0.7130254507064819,
      "learning_rate": 0.0002609910970169552,
      "loss": 3.982,
      "step": 114260
    },
    {
      "epoch": 0.2380625,
      "grad_norm": 0.8780804872512817,
      "learning_rate": 0.0002609844652021583,
      "loss": 4.0774,
      "step": 114270
    },
    {
      "epoch": 0.23808333333333334,
      "grad_norm": 0.9840471744537354,
      "learning_rate": 0.0002609778329079524,
      "loss": 4.1395,
      "step": 114280
    },
    {
      "epoch": 0.23810416666666667,
      "grad_norm": 0.7630468010902405,
      "learning_rate": 0.00026097120013436625,
      "loss": 4.1251,
      "step": 114290
    },
    {
      "epoch": 0.238125,
      "grad_norm": 0.837010383605957,
      "learning_rate": 0.0002609645668814284,
      "loss": 3.9377,
      "step": 114300
    },
    {
      "epoch": 0.23814583333333333,
      "grad_norm": 0.7768821120262146,
      "learning_rate": 0.0002609579331491675,
      "loss": 4.088,
      "step": 114310
    },
    {
      "epoch": 0.23816666666666667,
      "grad_norm": 0.8088524341583252,
      "learning_rate": 0.00026095129893761234,
      "loss": 3.9072,
      "step": 114320
    },
    {
      "epoch": 0.2381875,
      "grad_norm": 0.7923360466957092,
      "learning_rate": 0.00026094466424679146,
      "loss": 3.9767,
      "step": 114330
    },
    {
      "epoch": 0.23820833333333333,
      "grad_norm": 0.7832831144332886,
      "learning_rate": 0.0002609380290767335,
      "loss": 3.9532,
      "step": 114340
    },
    {
      "epoch": 0.23822916666666666,
      "grad_norm": 0.8255903720855713,
      "learning_rate": 0.0002609313934274672,
      "loss": 4.0341,
      "step": 114350
    },
    {
      "epoch": 0.23825,
      "grad_norm": 0.7533988952636719,
      "learning_rate": 0.0002609247572990212,
      "loss": 4.1216,
      "step": 114360
    },
    {
      "epoch": 0.23827083333333332,
      "grad_norm": 0.8099973797798157,
      "learning_rate": 0.00026091812069142415,
      "loss": 3.9801,
      "step": 114370
    },
    {
      "epoch": 0.23829166666666668,
      "grad_norm": 0.8317430019378662,
      "learning_rate": 0.0002609114836047047,
      "loss": 4.2189,
      "step": 114380
    },
    {
      "epoch": 0.2383125,
      "grad_norm": 0.8073511719703674,
      "learning_rate": 0.0002609048460388915,
      "loss": 3.9953,
      "step": 114390
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 0.7650595903396606,
      "learning_rate": 0.00026089820799401336,
      "loss": 4.0558,
      "step": 114400
    },
    {
      "epoch": 0.23835416666666667,
      "grad_norm": 0.8340178728103638,
      "learning_rate": 0.0002608915694700988,
      "loss": 4.2151,
      "step": 114410
    },
    {
      "epoch": 0.238375,
      "grad_norm": 0.7376445531845093,
      "learning_rate": 0.0002608849304671766,
      "loss": 3.9936,
      "step": 114420
    },
    {
      "epoch": 0.23839583333333333,
      "grad_norm": 0.7611870765686035,
      "learning_rate": 0.00026087829098527535,
      "loss": 4.0832,
      "step": 114430
    },
    {
      "epoch": 0.23841666666666667,
      "grad_norm": 0.8361775875091553,
      "learning_rate": 0.00026087165102442375,
      "loss": 3.7521,
      "step": 114440
    },
    {
      "epoch": 0.2384375,
      "grad_norm": 0.8314315676689148,
      "learning_rate": 0.00026086501058465055,
      "loss": 4.0494,
      "step": 114450
    },
    {
      "epoch": 0.23845833333333333,
      "grad_norm": 0.831291675567627,
      "learning_rate": 0.0002608583696659844,
      "loss": 4.0366,
      "step": 114460
    },
    {
      "epoch": 0.23847916666666666,
      "grad_norm": 0.8746628165245056,
      "learning_rate": 0.0002608517282684539,
      "loss": 4.0967,
      "step": 114470
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.8542704582214355,
      "learning_rate": 0.0002608450863920879,
      "loss": 3.9366,
      "step": 114480
    },
    {
      "epoch": 0.23852083333333332,
      "grad_norm": 0.7502998113632202,
      "learning_rate": 0.00026083844403691493,
      "loss": 4.1091,
      "step": 114490
    },
    {
      "epoch": 0.23854166666666668,
      "grad_norm": 0.7752555012702942,
      "learning_rate": 0.00026083180120296383,
      "loss": 4.1386,
      "step": 114500
    },
    {
      "epoch": 0.2385625,
      "grad_norm": 0.8873847126960754,
      "learning_rate": 0.00026082515789026316,
      "loss": 4.0475,
      "step": 114510
    },
    {
      "epoch": 0.23858333333333334,
      "grad_norm": 0.8114635348320007,
      "learning_rate": 0.00026081851409884174,
      "loss": 3.9188,
      "step": 114520
    },
    {
      "epoch": 0.23860416666666667,
      "grad_norm": 0.7686921954154968,
      "learning_rate": 0.0002608118698287281,
      "loss": 3.9955,
      "step": 114530
    },
    {
      "epoch": 0.238625,
      "grad_norm": 0.8865053653717041,
      "learning_rate": 0.00026080522507995106,
      "loss": 3.9239,
      "step": 114540
    },
    {
      "epoch": 0.23864583333333333,
      "grad_norm": 0.7584822773933411,
      "learning_rate": 0.0002607985798525394,
      "loss": 4.0838,
      "step": 114550
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 0.7472448945045471,
      "learning_rate": 0.00026079193414652166,
      "loss": 4.0411,
      "step": 114560
    },
    {
      "epoch": 0.2386875,
      "grad_norm": 0.7618100047111511,
      "learning_rate": 0.00026078528796192663,
      "loss": 4.264,
      "step": 114570
    },
    {
      "epoch": 0.23870833333333333,
      "grad_norm": 0.9180086851119995,
      "learning_rate": 0.00026077864129878304,
      "loss": 3.9939,
      "step": 114580
    },
    {
      "epoch": 0.23872916666666666,
      "grad_norm": 0.7799223065376282,
      "learning_rate": 0.00026077199415711956,
      "loss": 3.9187,
      "step": 114590
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.8633448481559753,
      "learning_rate": 0.0002607653465369649,
      "loss": 3.9676,
      "step": 114600
    },
    {
      "epoch": 0.23877083333333332,
      "grad_norm": 0.7771435379981995,
      "learning_rate": 0.0002607586984383478,
      "loss": 3.9703,
      "step": 114610
    },
    {
      "epoch": 0.23879166666666668,
      "grad_norm": 0.9727365374565125,
      "learning_rate": 0.00026075204986129695,
      "loss": 4.2042,
      "step": 114620
    },
    {
      "epoch": 0.2388125,
      "grad_norm": 0.8093048334121704,
      "learning_rate": 0.00026074540080584104,
      "loss": 4.0437,
      "step": 114630
    },
    {
      "epoch": 0.23883333333333334,
      "grad_norm": 0.7555514574050903,
      "learning_rate": 0.0002607387512720089,
      "loss": 3.9665,
      "step": 114640
    },
    {
      "epoch": 0.23885416666666667,
      "grad_norm": 0.8283188343048096,
      "learning_rate": 0.0002607321012598292,
      "loss": 3.8505,
      "step": 114650
    },
    {
      "epoch": 0.238875,
      "grad_norm": 0.7963675856590271,
      "learning_rate": 0.00026072545076933056,
      "loss": 4.1392,
      "step": 114660
    },
    {
      "epoch": 0.23889583333333334,
      "grad_norm": 0.8076101541519165,
      "learning_rate": 0.0002607187998005419,
      "loss": 4.1033,
      "step": 114670
    },
    {
      "epoch": 0.23891666666666667,
      "grad_norm": 0.7370674014091492,
      "learning_rate": 0.0002607121483534918,
      "loss": 4.0153,
      "step": 114680
    },
    {
      "epoch": 0.2389375,
      "grad_norm": 0.7531213760375977,
      "learning_rate": 0.000260705496428209,
      "loss": 3.9818,
      "step": 114690
    },
    {
      "epoch": 0.23895833333333333,
      "grad_norm": 0.7745633721351624,
      "learning_rate": 0.00026069884402472236,
      "loss": 4.0347,
      "step": 114700
    },
    {
      "epoch": 0.23897916666666666,
      "grad_norm": 0.8003516793251038,
      "learning_rate": 0.0002606921911430605,
      "loss": 3.917,
      "step": 114710
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.7619309425354004,
      "learning_rate": 0.0002606855377832522,
      "loss": 4.0885,
      "step": 114720
    },
    {
      "epoch": 0.23902083333333332,
      "grad_norm": 0.9276155829429626,
      "learning_rate": 0.00026067888394532614,
      "loss": 4.0576,
      "step": 114730
    },
    {
      "epoch": 0.23904166666666668,
      "grad_norm": 0.7724955081939697,
      "learning_rate": 0.00026067222962931116,
      "loss": 3.9182,
      "step": 114740
    },
    {
      "epoch": 0.2390625,
      "grad_norm": 0.763675332069397,
      "learning_rate": 0.000260665574835236,
      "loss": 4.2112,
      "step": 114750
    },
    {
      "epoch": 0.23908333333333334,
      "grad_norm": 0.8694198727607727,
      "learning_rate": 0.0002606589195631293,
      "loss": 4.1562,
      "step": 114760
    },
    {
      "epoch": 0.23910416666666667,
      "grad_norm": 0.8071039915084839,
      "learning_rate": 0.0002606522638130198,
      "loss": 4.0258,
      "step": 114770
    },
    {
      "epoch": 0.239125,
      "grad_norm": 0.8777477145195007,
      "learning_rate": 0.00026064560758493646,
      "loss": 3.9526,
      "step": 114780
    },
    {
      "epoch": 0.23914583333333334,
      "grad_norm": 0.861341118812561,
      "learning_rate": 0.0002606389508789078,
      "loss": 4.19,
      "step": 114790
    },
    {
      "epoch": 0.23916666666666667,
      "grad_norm": 0.7732323408126831,
      "learning_rate": 0.00026063229369496267,
      "loss": 3.9664,
      "step": 114800
    },
    {
      "epoch": 0.2391875,
      "grad_norm": 0.873772919178009,
      "learning_rate": 0.00026062563603312987,
      "loss": 4.0799,
      "step": 114810
    },
    {
      "epoch": 0.23920833333333333,
      "grad_norm": 0.8537769317626953,
      "learning_rate": 0.00026061897789343805,
      "loss": 4.0661,
      "step": 114820
    },
    {
      "epoch": 0.23922916666666666,
      "grad_norm": 0.7358611226081848,
      "learning_rate": 0.0002606123192759161,
      "loss": 3.98,
      "step": 114830
    },
    {
      "epoch": 0.23925,
      "grad_norm": 0.7297298908233643,
      "learning_rate": 0.00026060566018059266,
      "loss": 3.8612,
      "step": 114840
    },
    {
      "epoch": 0.23927083333333332,
      "grad_norm": 0.8740100860595703,
      "learning_rate": 0.0002605990006074966,
      "loss": 3.9507,
      "step": 114850
    },
    {
      "epoch": 0.23929166666666668,
      "grad_norm": 1.3175418376922607,
      "learning_rate": 0.00026059234055665663,
      "loss": 4.1521,
      "step": 114860
    },
    {
      "epoch": 0.2393125,
      "grad_norm": 0.7737231850624084,
      "learning_rate": 0.00026058568002810146,
      "loss": 4.1112,
      "step": 114870
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 0.7551736235618591,
      "learning_rate": 0.00026057901902186,
      "loss": 3.8269,
      "step": 114880
    },
    {
      "epoch": 0.23935416666666667,
      "grad_norm": 1.0355056524276733,
      "learning_rate": 0.00026057235753796087,
      "loss": 3.9018,
      "step": 114890
    },
    {
      "epoch": 0.239375,
      "grad_norm": 0.720883846282959,
      "learning_rate": 0.00026056569557643297,
      "loss": 4.1384,
      "step": 114900
    },
    {
      "epoch": 0.23939583333333334,
      "grad_norm": 0.7829256653785706,
      "learning_rate": 0.000260559033137305,
      "loss": 4.1917,
      "step": 114910
    },
    {
      "epoch": 0.23941666666666667,
      "grad_norm": 0.8605973720550537,
      "learning_rate": 0.00026055237022060585,
      "loss": 4.02,
      "step": 114920
    },
    {
      "epoch": 0.2394375,
      "grad_norm": 0.7966497540473938,
      "learning_rate": 0.00026054570682636414,
      "loss": 3.9957,
      "step": 114930
    },
    {
      "epoch": 0.23945833333333333,
      "grad_norm": 0.7517417073249817,
      "learning_rate": 0.00026053904295460874,
      "loss": 3.9649,
      "step": 114940
    },
    {
      "epoch": 0.23947916666666666,
      "grad_norm": 0.8148181438446045,
      "learning_rate": 0.00026053237860536847,
      "loss": 4.0261,
      "step": 114950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.788897693157196,
      "learning_rate": 0.0002605257137786721,
      "loss": 4.1071,
      "step": 114960
    },
    {
      "epoch": 0.23952083333333332,
      "grad_norm": 0.7460221648216248,
      "learning_rate": 0.0002605190484745483,
      "loss": 4.0969,
      "step": 114970
    },
    {
      "epoch": 0.23954166666666668,
      "grad_norm": 0.8652644753456116,
      "learning_rate": 0.000260512382693026,
      "loss": 3.9729,
      "step": 114980
    },
    {
      "epoch": 0.2395625,
      "grad_norm": 0.8375073671340942,
      "learning_rate": 0.000260505716434134,
      "loss": 3.9046,
      "step": 114990
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 0.8398904204368591,
      "learning_rate": 0.00026049904969790093,
      "loss": 3.9498,
      "step": 115000
    },
    {
      "epoch": 0.23958333333333334,
      "eval_loss": 3.7734172344207764,
      "eval_runtime": 7.1995,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 115000
    },
    {
      "epoch": 0.23960416666666667,
      "grad_norm": 0.7721428275108337,
      "learning_rate": 0.0002604923824843558,
      "loss": 4.0417,
      "step": 115010
    },
    {
      "epoch": 0.239625,
      "grad_norm": 0.7571942806243896,
      "learning_rate": 0.0002604857147935273,
      "loss": 4.0357,
      "step": 115020
    },
    {
      "epoch": 0.23964583333333334,
      "grad_norm": 0.863215446472168,
      "learning_rate": 0.0002604790466254442,
      "loss": 3.8706,
      "step": 115030
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 0.944474458694458,
      "learning_rate": 0.0002604723779801354,
      "loss": 4.119,
      "step": 115040
    },
    {
      "epoch": 0.2396875,
      "grad_norm": 0.9522104263305664,
      "learning_rate": 0.00026046570885762964,
      "loss": 3.8872,
      "step": 115050
    },
    {
      "epoch": 0.23970833333333333,
      "grad_norm": 0.8104063868522644,
      "learning_rate": 0.00026045903925795577,
      "loss": 4.2132,
      "step": 115060
    },
    {
      "epoch": 0.23972916666666666,
      "grad_norm": 0.8469722867012024,
      "learning_rate": 0.0002604523691811425,
      "loss": 4.1057,
      "step": 115070
    },
    {
      "epoch": 0.23975,
      "grad_norm": 0.7781627178192139,
      "learning_rate": 0.0002604456986272188,
      "loss": 4.0481,
      "step": 115080
    },
    {
      "epoch": 0.23977083333333332,
      "grad_norm": 0.7389823794364929,
      "learning_rate": 0.0002604390275962134,
      "loss": 3.9247,
      "step": 115090
    },
    {
      "epoch": 0.23979166666666665,
      "grad_norm": 0.7152446508407593,
      "learning_rate": 0.00026043235608815506,
      "loss": 4.2088,
      "step": 115100
    },
    {
      "epoch": 0.2398125,
      "grad_norm": 0.8527310490608215,
      "learning_rate": 0.00026042568410307264,
      "loss": 3.9133,
      "step": 115110
    },
    {
      "epoch": 0.23983333333333334,
      "grad_norm": 1.0222586393356323,
      "learning_rate": 0.00026041901164099504,
      "loss": 3.9166,
      "step": 115120
    },
    {
      "epoch": 0.23985416666666667,
      "grad_norm": 0.825288712978363,
      "learning_rate": 0.00026041233870195094,
      "loss": 4.0144,
      "step": 115130
    },
    {
      "epoch": 0.239875,
      "grad_norm": 0.9409397840499878,
      "learning_rate": 0.0002604056652859693,
      "loss": 3.9715,
      "step": 115140
    },
    {
      "epoch": 0.23989583333333334,
      "grad_norm": 0.7539374828338623,
      "learning_rate": 0.00026039899139307886,
      "loss": 3.9744,
      "step": 115150
    },
    {
      "epoch": 0.23991666666666667,
      "grad_norm": 0.7865347266197205,
      "learning_rate": 0.0002603923170233085,
      "loss": 3.9782,
      "step": 115160
    },
    {
      "epoch": 0.2399375,
      "grad_norm": 0.749096155166626,
      "learning_rate": 0.000260385642176687,
      "loss": 3.9052,
      "step": 115170
    },
    {
      "epoch": 0.23995833333333333,
      "grad_norm": 0.9079263806343079,
      "learning_rate": 0.0002603789668532432,
      "loss": 4.0298,
      "step": 115180
    },
    {
      "epoch": 0.23997916666666666,
      "grad_norm": 0.794019877910614,
      "learning_rate": 0.000260372291053006,
      "loss": 3.9541,
      "step": 115190
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7531992197036743,
      "learning_rate": 0.0002603656147760042,
      "loss": 3.933,
      "step": 115200
    },
    {
      "epoch": 0.24002083333333332,
      "grad_norm": 0.7854853868484497,
      "learning_rate": 0.0002603589380222666,
      "loss": 3.8969,
      "step": 115210
    },
    {
      "epoch": 0.24004166666666665,
      "grad_norm": 0.7082886695861816,
      "learning_rate": 0.0002603522607918221,
      "loss": 3.94,
      "step": 115220
    },
    {
      "epoch": 0.2400625,
      "grad_norm": 0.7888391613960266,
      "learning_rate": 0.0002603455830846995,
      "loss": 3.9968,
      "step": 115230
    },
    {
      "epoch": 0.24008333333333334,
      "grad_norm": 0.924098551273346,
      "learning_rate": 0.0002603389049009276,
      "loss": 3.9793,
      "step": 115240
    },
    {
      "epoch": 0.24010416666666667,
      "grad_norm": 0.7290949821472168,
      "learning_rate": 0.0002603322262405354,
      "loss": 4.0675,
      "step": 115250
    },
    {
      "epoch": 0.240125,
      "grad_norm": 0.7653692960739136,
      "learning_rate": 0.0002603255471035516,
      "loss": 3.9132,
      "step": 115260
    },
    {
      "epoch": 0.24014583333333334,
      "grad_norm": 0.8340135812759399,
      "learning_rate": 0.0002603188674900051,
      "loss": 3.9303,
      "step": 115270
    },
    {
      "epoch": 0.24016666666666667,
      "grad_norm": 0.8241347670555115,
      "learning_rate": 0.0002603121873999248,
      "loss": 4.0897,
      "step": 115280
    },
    {
      "epoch": 0.2401875,
      "grad_norm": 0.7459825277328491,
      "learning_rate": 0.00026030550683333947,
      "loss": 3.9909,
      "step": 115290
    },
    {
      "epoch": 0.24020833333333333,
      "grad_norm": 0.8173620104789734,
      "learning_rate": 0.00026029882579027807,
      "loss": 3.9162,
      "step": 115300
    },
    {
      "epoch": 0.24022916666666666,
      "grad_norm": 0.8153188228607178,
      "learning_rate": 0.00026029214427076934,
      "loss": 3.9183,
      "step": 115310
    },
    {
      "epoch": 0.24025,
      "grad_norm": 0.9116390347480774,
      "learning_rate": 0.0002602854622748423,
      "loss": 4.0836,
      "step": 115320
    },
    {
      "epoch": 0.24027083333333332,
      "grad_norm": 0.7625343203544617,
      "learning_rate": 0.0002602787798025256,
      "loss": 3.9535,
      "step": 115330
    },
    {
      "epoch": 0.24029166666666665,
      "grad_norm": 0.777514636516571,
      "learning_rate": 0.00026027209685384827,
      "loss": 3.8876,
      "step": 115340
    },
    {
      "epoch": 0.2403125,
      "grad_norm": 0.7768011689186096,
      "learning_rate": 0.0002602654134288391,
      "loss": 3.9952,
      "step": 115350
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 0.7723202109336853,
      "learning_rate": 0.000260258729527527,
      "loss": 3.9322,
      "step": 115360
    },
    {
      "epoch": 0.24035416666666667,
      "grad_norm": 0.9292657971382141,
      "learning_rate": 0.0002602520451499409,
      "loss": 4.0968,
      "step": 115370
    },
    {
      "epoch": 0.240375,
      "grad_norm": 0.8456687927246094,
      "learning_rate": 0.00026024536029610956,
      "loss": 3.885,
      "step": 115380
    },
    {
      "epoch": 0.24039583333333334,
      "grad_norm": 0.7899654507637024,
      "learning_rate": 0.00026023867496606187,
      "loss": 4.0705,
      "step": 115390
    },
    {
      "epoch": 0.24041666666666667,
      "grad_norm": 0.7877292037010193,
      "learning_rate": 0.00026023198915982684,
      "loss": 3.8632,
      "step": 115400
    },
    {
      "epoch": 0.2404375,
      "grad_norm": 0.7436681985855103,
      "learning_rate": 0.00026022530287743315,
      "loss": 3.9392,
      "step": 115410
    },
    {
      "epoch": 0.24045833333333333,
      "grad_norm": 0.8243604898452759,
      "learning_rate": 0.0002602186161189098,
      "loss": 4.0645,
      "step": 115420
    },
    {
      "epoch": 0.24047916666666666,
      "grad_norm": 0.8968669772148132,
      "learning_rate": 0.00026021192888428567,
      "loss": 3.9733,
      "step": 115430
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.7318044900894165,
      "learning_rate": 0.0002602052411735896,
      "loss": 3.9881,
      "step": 115440
    },
    {
      "epoch": 0.24052083333333332,
      "grad_norm": 0.8295738101005554,
      "learning_rate": 0.00026019855298685054,
      "loss": 4.0856,
      "step": 115450
    },
    {
      "epoch": 0.24054166666666665,
      "grad_norm": 0.7765659093856812,
      "learning_rate": 0.0002601918643240974,
      "loss": 3.8229,
      "step": 115460
    },
    {
      "epoch": 0.2405625,
      "grad_norm": 1.27976393699646,
      "learning_rate": 0.00026018517518535897,
      "loss": 4.0217,
      "step": 115470
    },
    {
      "epoch": 0.24058333333333334,
      "grad_norm": 0.7993845343589783,
      "learning_rate": 0.00026017848557066415,
      "loss": 3.9528,
      "step": 115480
    },
    {
      "epoch": 0.24060416666666667,
      "grad_norm": 0.7930470108985901,
      "learning_rate": 0.00026017179548004193,
      "loss": 4.0895,
      "step": 115490
    },
    {
      "epoch": 0.240625,
      "grad_norm": 0.8894513249397278,
      "learning_rate": 0.0002601651049135212,
      "loss": 3.8655,
      "step": 115500
    },
    {
      "epoch": 0.24064583333333334,
      "grad_norm": 0.8850545287132263,
      "learning_rate": 0.0002601584138711308,
      "loss": 4.0752,
      "step": 115510
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 0.8592379093170166,
      "learning_rate": 0.00026015172235289963,
      "loss": 3.8889,
      "step": 115520
    },
    {
      "epoch": 0.2406875,
      "grad_norm": 0.8238468766212463,
      "learning_rate": 0.00026014503035885663,
      "loss": 4.0961,
      "step": 115530
    },
    {
      "epoch": 0.24070833333333333,
      "grad_norm": 0.9130922555923462,
      "learning_rate": 0.0002601383378890307,
      "loss": 3.9255,
      "step": 115540
    },
    {
      "epoch": 0.24072916666666666,
      "grad_norm": 0.8214380741119385,
      "learning_rate": 0.00026013164494345073,
      "loss": 3.9161,
      "step": 115550
    },
    {
      "epoch": 0.24075,
      "grad_norm": 0.8316385746002197,
      "learning_rate": 0.00026012495152214567,
      "loss": 3.9478,
      "step": 115560
    },
    {
      "epoch": 0.24077083333333332,
      "grad_norm": 0.9068591594696045,
      "learning_rate": 0.00026011825762514446,
      "loss": 4.0177,
      "step": 115570
    },
    {
      "epoch": 0.24079166666666665,
      "grad_norm": 0.7536137700080872,
      "learning_rate": 0.0002601115632524759,
      "loss": 4.0055,
      "step": 115580
    },
    {
      "epoch": 0.2408125,
      "grad_norm": 0.7274695038795471,
      "learning_rate": 0.000260104868404169,
      "loss": 4.0852,
      "step": 115590
    },
    {
      "epoch": 0.24083333333333334,
      "grad_norm": 0.8714682459831238,
      "learning_rate": 0.0002600981730802526,
      "loss": 4.0391,
      "step": 115600
    },
    {
      "epoch": 0.24085416666666667,
      "grad_norm": 0.7990731596946716,
      "learning_rate": 0.0002600914772807557,
      "loss": 3.9329,
      "step": 115610
    },
    {
      "epoch": 0.240875,
      "grad_norm": 0.7541643381118774,
      "learning_rate": 0.00026008478100570726,
      "loss": 4.1626,
      "step": 115620
    },
    {
      "epoch": 0.24089583333333334,
      "grad_norm": 0.7925792336463928,
      "learning_rate": 0.00026007808425513603,
      "loss": 4.0126,
      "step": 115630
    },
    {
      "epoch": 0.24091666666666667,
      "grad_norm": 0.8441506624221802,
      "learning_rate": 0.00026007138702907113,
      "loss": 3.9481,
      "step": 115640
    },
    {
      "epoch": 0.2409375,
      "grad_norm": 0.764981746673584,
      "learning_rate": 0.00026006468932754135,
      "loss": 4.1373,
      "step": 115650
    },
    {
      "epoch": 0.24095833333333333,
      "grad_norm": 0.8012598752975464,
      "learning_rate": 0.0002600579911505757,
      "loss": 4.1505,
      "step": 115660
    },
    {
      "epoch": 0.24097916666666666,
      "grad_norm": 0.9204806685447693,
      "learning_rate": 0.0002600512924982031,
      "loss": 3.9649,
      "step": 115670
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.7416996359825134,
      "learning_rate": 0.0002600445933704525,
      "loss": 4.0954,
      "step": 115680
    },
    {
      "epoch": 0.24102083333333332,
      "grad_norm": 0.7551013231277466,
      "learning_rate": 0.0002600378937673528,
      "loss": 4.0679,
      "step": 115690
    },
    {
      "epoch": 0.24104166666666665,
      "grad_norm": 0.760573148727417,
      "learning_rate": 0.0002600311936889329,
      "loss": 4.1488,
      "step": 115700
    },
    {
      "epoch": 0.2410625,
      "grad_norm": 0.7825353145599365,
      "learning_rate": 0.00026002449313522187,
      "loss": 4.1349,
      "step": 115710
    },
    {
      "epoch": 0.24108333333333334,
      "grad_norm": 0.9011911153793335,
      "learning_rate": 0.00026001779210624857,
      "loss": 4.0646,
      "step": 115720
    },
    {
      "epoch": 0.24110416666666667,
      "grad_norm": 0.80607670545578,
      "learning_rate": 0.0002600110906020419,
      "loss": 4.064,
      "step": 115730
    },
    {
      "epoch": 0.241125,
      "grad_norm": 0.7805182337760925,
      "learning_rate": 0.00026000438862263097,
      "loss": 4.0965,
      "step": 115740
    },
    {
      "epoch": 0.24114583333333334,
      "grad_norm": 0.8307761549949646,
      "learning_rate": 0.00025999768616804457,
      "loss": 3.9776,
      "step": 115750
    },
    {
      "epoch": 0.24116666666666667,
      "grad_norm": 0.8179779052734375,
      "learning_rate": 0.00025999098323831166,
      "loss": 3.9103,
      "step": 115760
    },
    {
      "epoch": 0.2411875,
      "grad_norm": 0.8446558713912964,
      "learning_rate": 0.0002599842798334613,
      "loss": 3.7529,
      "step": 115770
    },
    {
      "epoch": 0.24120833333333333,
      "grad_norm": 0.7602615356445312,
      "learning_rate": 0.00025997757595352234,
      "loss": 4.0344,
      "step": 115780
    },
    {
      "epoch": 0.24122916666666666,
      "grad_norm": 0.8036434650421143,
      "learning_rate": 0.0002599708715985238,
      "loss": 3.8979,
      "step": 115790
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.7834893465042114,
      "learning_rate": 0.00025996416676849464,
      "loss": 3.791,
      "step": 115800
    },
    {
      "epoch": 0.24127083333333332,
      "grad_norm": 0.8676882982254028,
      "learning_rate": 0.0002599574614634638,
      "loss": 4.0382,
      "step": 115810
    },
    {
      "epoch": 0.24129166666666665,
      "grad_norm": 0.7325049638748169,
      "learning_rate": 0.00025995075568346025,
      "loss": 3.9528,
      "step": 115820
    },
    {
      "epoch": 0.2413125,
      "grad_norm": 0.8631179332733154,
      "learning_rate": 0.0002599440494285129,
      "loss": 4.0635,
      "step": 115830
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 0.7616075277328491,
      "learning_rate": 0.0002599373426986509,
      "loss": 4.0264,
      "step": 115840
    },
    {
      "epoch": 0.24135416666666668,
      "grad_norm": 0.7667379379272461,
      "learning_rate": 0.00025993063549390296,
      "loss": 4.044,
      "step": 115850
    },
    {
      "epoch": 0.241375,
      "grad_norm": 0.8143890500068665,
      "learning_rate": 0.0002599239278142983,
      "loss": 4.0546,
      "step": 115860
    },
    {
      "epoch": 0.24139583333333334,
      "grad_norm": 0.9174289107322693,
      "learning_rate": 0.0002599172196598657,
      "loss": 4.014,
      "step": 115870
    },
    {
      "epoch": 0.24141666666666667,
      "grad_norm": 0.774928629398346,
      "learning_rate": 0.0002599105110306343,
      "loss": 3.8349,
      "step": 115880
    },
    {
      "epoch": 0.2414375,
      "grad_norm": 0.7809617519378662,
      "learning_rate": 0.0002599038019266329,
      "loss": 3.8963,
      "step": 115890
    },
    {
      "epoch": 0.24145833333333333,
      "grad_norm": 0.8840354084968567,
      "learning_rate": 0.00025989709234789066,
      "loss": 3.9429,
      "step": 115900
    },
    {
      "epoch": 0.24147916666666666,
      "grad_norm": 0.733313798904419,
      "learning_rate": 0.00025989038229443643,
      "loss": 4.0164,
      "step": 115910
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.7755120992660522,
      "learning_rate": 0.00025988367176629925,
      "loss": 4.1122,
      "step": 115920
    },
    {
      "epoch": 0.24152083333333332,
      "grad_norm": 0.8732112646102905,
      "learning_rate": 0.0002598769607635081,
      "loss": 4.0017,
      "step": 115930
    },
    {
      "epoch": 0.24154166666666665,
      "grad_norm": 0.8249502182006836,
      "learning_rate": 0.00025987024928609203,
      "loss": 3.9322,
      "step": 115940
    },
    {
      "epoch": 0.2415625,
      "grad_norm": 0.8382759094238281,
      "learning_rate": 0.00025986353733407994,
      "loss": 4.0861,
      "step": 115950
    },
    {
      "epoch": 0.24158333333333334,
      "grad_norm": 0.7652782797813416,
      "learning_rate": 0.00025985682490750085,
      "loss": 3.9848,
      "step": 115960
    },
    {
      "epoch": 0.24160416666666668,
      "grad_norm": 0.76393723487854,
      "learning_rate": 0.00025985011200638377,
      "loss": 4.0298,
      "step": 115970
    },
    {
      "epoch": 0.241625,
      "grad_norm": 0.8198551535606384,
      "learning_rate": 0.0002598433986307577,
      "loss": 3.8912,
      "step": 115980
    },
    {
      "epoch": 0.24164583333333334,
      "grad_norm": 0.7454636096954346,
      "learning_rate": 0.0002598366847806516,
      "loss": 4.1585,
      "step": 115990
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 0.7711819410324097,
      "learning_rate": 0.0002598299704560945,
      "loss": 4.0348,
      "step": 116000
    },
    {
      "epoch": 0.24166666666666667,
      "eval_loss": 3.767718553543091,
      "eval_runtime": 7.2014,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 116000
    },
    {
      "epoch": 0.2416875,
      "grad_norm": 0.87819504737854,
      "learning_rate": 0.0002598232556571154,
      "loss": 3.9432,
      "step": 116010
    },
    {
      "epoch": 0.24170833333333333,
      "grad_norm": 0.7244373559951782,
      "learning_rate": 0.00025981654038374335,
      "loss": 3.8588,
      "step": 116020
    },
    {
      "epoch": 0.24172916666666666,
      "grad_norm": 0.7894805073738098,
      "learning_rate": 0.0002598098246360072,
      "loss": 3.9154,
      "step": 116030
    },
    {
      "epoch": 0.24175,
      "grad_norm": 0.9847631454467773,
      "learning_rate": 0.0002598031084139362,
      "loss": 4.0454,
      "step": 116040
    },
    {
      "epoch": 0.24177083333333332,
      "grad_norm": 0.7941518425941467,
      "learning_rate": 0.0002597963917175592,
      "loss": 3.9485,
      "step": 116050
    },
    {
      "epoch": 0.24179166666666665,
      "grad_norm": 0.826984167098999,
      "learning_rate": 0.0002597896745469052,
      "loss": 4.0659,
      "step": 116060
    },
    {
      "epoch": 0.2418125,
      "grad_norm": 0.9654205441474915,
      "learning_rate": 0.0002597829569020033,
      "loss": 3.9708,
      "step": 116070
    },
    {
      "epoch": 0.24183333333333334,
      "grad_norm": 0.7464155554771423,
      "learning_rate": 0.00025977623878288244,
      "loss": 3.828,
      "step": 116080
    },
    {
      "epoch": 0.24185416666666668,
      "grad_norm": 0.8829661011695862,
      "learning_rate": 0.0002597695201895718,
      "loss": 3.9305,
      "step": 116090
    },
    {
      "epoch": 0.241875,
      "grad_norm": 0.8484018445014954,
      "learning_rate": 0.00025976280112210016,
      "loss": 3.9553,
      "step": 116100
    },
    {
      "epoch": 0.24189583333333334,
      "grad_norm": 1.2074089050292969,
      "learning_rate": 0.0002597560815804967,
      "loss": 4.1425,
      "step": 116110
    },
    {
      "epoch": 0.24191666666666667,
      "grad_norm": 0.8712366819381714,
      "learning_rate": 0.00025974936156479046,
      "loss": 4.0859,
      "step": 116120
    },
    {
      "epoch": 0.2419375,
      "grad_norm": 0.7605733871459961,
      "learning_rate": 0.00025974264107501033,
      "loss": 3.8777,
      "step": 116130
    },
    {
      "epoch": 0.24195833333333333,
      "grad_norm": 0.8209983706474304,
      "learning_rate": 0.0002597359201111855,
      "loss": 4.0706,
      "step": 116140
    },
    {
      "epoch": 0.24197916666666666,
      "grad_norm": 0.7904024124145508,
      "learning_rate": 0.0002597291986733449,
      "loss": 3.994,
      "step": 116150
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.7487887740135193,
      "learning_rate": 0.0002597224767615176,
      "loss": 4.0992,
      "step": 116160
    },
    {
      "epoch": 0.24202083333333332,
      "grad_norm": 0.830546498298645,
      "learning_rate": 0.00025971575437573266,
      "loss": 3.9797,
      "step": 116170
    },
    {
      "epoch": 0.24204166666666665,
      "grad_norm": 0.7720128297805786,
      "learning_rate": 0.00025970903151601907,
      "loss": 4.1562,
      "step": 116180
    },
    {
      "epoch": 0.2420625,
      "grad_norm": 0.9313041567802429,
      "learning_rate": 0.0002597023081824059,
      "loss": 3.9096,
      "step": 116190
    },
    {
      "epoch": 0.24208333333333334,
      "grad_norm": 0.7439307570457458,
      "learning_rate": 0.00025969558437492215,
      "loss": 4.3426,
      "step": 116200
    },
    {
      "epoch": 0.24210416666666668,
      "grad_norm": 0.7397516369819641,
      "learning_rate": 0.00025968886009359693,
      "loss": 4.0538,
      "step": 116210
    },
    {
      "epoch": 0.242125,
      "grad_norm": 0.7625423669815063,
      "learning_rate": 0.0002596821353384592,
      "loss": 3.7801,
      "step": 116220
    },
    {
      "epoch": 0.24214583333333334,
      "grad_norm": 0.8151382803916931,
      "learning_rate": 0.00025967541010953814,
      "loss": 4.1281,
      "step": 116230
    },
    {
      "epoch": 0.24216666666666667,
      "grad_norm": 0.7825552225112915,
      "learning_rate": 0.0002596686844068627,
      "loss": 4.1248,
      "step": 116240
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.8943211436271667,
      "learning_rate": 0.0002596619582304619,
      "loss": 4.1693,
      "step": 116250
    },
    {
      "epoch": 0.24220833333333333,
      "grad_norm": 1.211371660232544,
      "learning_rate": 0.0002596552315803649,
      "loss": 4.1811,
      "step": 116260
    },
    {
      "epoch": 0.24222916666666666,
      "grad_norm": 0.8137722015380859,
      "learning_rate": 0.00025964850445660064,
      "loss": 4.1752,
      "step": 116270
    },
    {
      "epoch": 0.24225,
      "grad_norm": 0.8292628526687622,
      "learning_rate": 0.00025964177685919824,
      "loss": 4.089,
      "step": 116280
    },
    {
      "epoch": 0.24227083333333332,
      "grad_norm": 0.7533396482467651,
      "learning_rate": 0.0002596350487881869,
      "loss": 4.0228,
      "step": 116290
    },
    {
      "epoch": 0.24229166666666666,
      "grad_norm": 0.8391242027282715,
      "learning_rate": 0.0002596283202435954,
      "loss": 4.158,
      "step": 116300
    },
    {
      "epoch": 0.2423125,
      "grad_norm": 1.0230578184127808,
      "learning_rate": 0.000259621591225453,
      "loss": 3.9797,
      "step": 116310
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 0.7534505128860474,
      "learning_rate": 0.00025961486173378874,
      "loss": 3.9092,
      "step": 116320
    },
    {
      "epoch": 0.24235416666666668,
      "grad_norm": 0.7679367065429688,
      "learning_rate": 0.00025960813176863164,
      "loss": 4.0747,
      "step": 116330
    },
    {
      "epoch": 0.242375,
      "grad_norm": 0.8287928104400635,
      "learning_rate": 0.0002596014013300109,
      "loss": 4.0445,
      "step": 116340
    },
    {
      "epoch": 0.24239583333333334,
      "grad_norm": 0.7813810110092163,
      "learning_rate": 0.00025959467041795534,
      "loss": 4.0653,
      "step": 116350
    },
    {
      "epoch": 0.24241666666666667,
      "grad_norm": 0.8137189745903015,
      "learning_rate": 0.00025958793903249427,
      "loss": 4.3326,
      "step": 116360
    },
    {
      "epoch": 0.2424375,
      "grad_norm": 0.7700681686401367,
      "learning_rate": 0.0002595812071736566,
      "loss": 3.8056,
      "step": 116370
    },
    {
      "epoch": 0.24245833333333333,
      "grad_norm": 0.8036996722221375,
      "learning_rate": 0.00025957447484147153,
      "loss": 4.1803,
      "step": 116380
    },
    {
      "epoch": 0.24247916666666666,
      "grad_norm": 0.846712052822113,
      "learning_rate": 0.00025956774203596814,
      "loss": 4.1951,
      "step": 116390
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.8341419100761414,
      "learning_rate": 0.00025956100875717544,
      "loss": 4.0759,
      "step": 116400
    },
    {
      "epoch": 0.24252083333333332,
      "grad_norm": 0.7521907687187195,
      "learning_rate": 0.0002595542750051225,
      "loss": 3.9559,
      "step": 116410
    },
    {
      "epoch": 0.24254166666666666,
      "grad_norm": 0.7586326599121094,
      "learning_rate": 0.00025954754077983855,
      "loss": 4.0433,
      "step": 116420
    },
    {
      "epoch": 0.2425625,
      "grad_norm": 0.8087695837020874,
      "learning_rate": 0.00025954080608135254,
      "loss": 3.9744,
      "step": 116430
    },
    {
      "epoch": 0.24258333333333335,
      "grad_norm": 0.7516381740570068,
      "learning_rate": 0.00025953407090969366,
      "loss": 4.2675,
      "step": 116440
    },
    {
      "epoch": 0.24260416666666668,
      "grad_norm": 0.7486253380775452,
      "learning_rate": 0.0002595273352648909,
      "loss": 3.9712,
      "step": 116450
    },
    {
      "epoch": 0.242625,
      "grad_norm": 0.7843145728111267,
      "learning_rate": 0.0002595205991469734,
      "loss": 4.0272,
      "step": 116460
    },
    {
      "epoch": 0.24264583333333334,
      "grad_norm": 0.7318289875984192,
      "learning_rate": 0.0002595138625559703,
      "loss": 3.929,
      "step": 116470
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 0.7090159058570862,
      "learning_rate": 0.0002595071254919106,
      "loss": 4.1867,
      "step": 116480
    },
    {
      "epoch": 0.2426875,
      "grad_norm": 0.8544352650642395,
      "learning_rate": 0.0002595003879548235,
      "loss": 4.1331,
      "step": 116490
    },
    {
      "epoch": 0.24270833333333333,
      "grad_norm": 0.7193193435668945,
      "learning_rate": 0.0002594936499447381,
      "loss": 4.064,
      "step": 116500
    },
    {
      "epoch": 0.24272916666666666,
      "grad_norm": 0.8134985566139221,
      "learning_rate": 0.00025948691146168343,
      "loss": 4.1678,
      "step": 116510
    },
    {
      "epoch": 0.24275,
      "grad_norm": 0.8362782597541809,
      "learning_rate": 0.00025948017250568864,
      "loss": 3.9702,
      "step": 116520
    },
    {
      "epoch": 0.24277083333333332,
      "grad_norm": 0.7035927772521973,
      "learning_rate": 0.00025947343307678285,
      "loss": 4.0837,
      "step": 116530
    },
    {
      "epoch": 0.24279166666666666,
      "grad_norm": 0.7874905467033386,
      "learning_rate": 0.00025946669317499513,
      "loss": 4.033,
      "step": 116540
    },
    {
      "epoch": 0.2428125,
      "grad_norm": 0.7838902473449707,
      "learning_rate": 0.0002594599528003547,
      "loss": 3.9791,
      "step": 116550
    },
    {
      "epoch": 0.24283333333333335,
      "grad_norm": 0.8008827567100525,
      "learning_rate": 0.00025945321195289055,
      "loss": 4.0034,
      "step": 116560
    },
    {
      "epoch": 0.24285416666666668,
      "grad_norm": 0.9039808511734009,
      "learning_rate": 0.00025944647063263186,
      "loss": 4.064,
      "step": 116570
    },
    {
      "epoch": 0.242875,
      "grad_norm": 0.7896316051483154,
      "learning_rate": 0.00025943972883960773,
      "loss": 4.071,
      "step": 116580
    },
    {
      "epoch": 0.24289583333333334,
      "grad_norm": 0.7518714666366577,
      "learning_rate": 0.0002594329865738473,
      "loss": 4.2231,
      "step": 116590
    },
    {
      "epoch": 0.24291666666666667,
      "grad_norm": 0.732642412185669,
      "learning_rate": 0.00025942624383537967,
      "loss": 4.0467,
      "step": 116600
    },
    {
      "epoch": 0.2429375,
      "grad_norm": 0.8327162861824036,
      "learning_rate": 0.000259419500624234,
      "loss": 4.0136,
      "step": 116610
    },
    {
      "epoch": 0.24295833333333333,
      "grad_norm": 0.7517762780189514,
      "learning_rate": 0.0002594127569404394,
      "loss": 3.9793,
      "step": 116620
    },
    {
      "epoch": 0.24297916666666666,
      "grad_norm": 0.9290133118629456,
      "learning_rate": 0.000259406012784025,
      "loss": 4.0618,
      "step": 116630
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.8650821447372437,
      "learning_rate": 0.0002593992681550199,
      "loss": 3.9824,
      "step": 116640
    },
    {
      "epoch": 0.24302083333333332,
      "grad_norm": 0.9356439709663391,
      "learning_rate": 0.0002593925230534533,
      "loss": 3.9177,
      "step": 116650
    },
    {
      "epoch": 0.24304166666666666,
      "grad_norm": 0.7570834755897522,
      "learning_rate": 0.0002593857774793543,
      "loss": 3.9138,
      "step": 116660
    },
    {
      "epoch": 0.2430625,
      "grad_norm": 0.7909380197525024,
      "learning_rate": 0.00025937903143275203,
      "loss": 3.9303,
      "step": 116670
    },
    {
      "epoch": 0.24308333333333335,
      "grad_norm": 0.7448570132255554,
      "learning_rate": 0.0002593722849136756,
      "loss": 4.0553,
      "step": 116680
    },
    {
      "epoch": 0.24310416666666668,
      "grad_norm": 0.7679811716079712,
      "learning_rate": 0.00025936553792215426,
      "loss": 4.0755,
      "step": 116690
    },
    {
      "epoch": 0.243125,
      "grad_norm": 0.7050314545631409,
      "learning_rate": 0.000259358790458217,
      "loss": 3.9924,
      "step": 116700
    },
    {
      "epoch": 0.24314583333333334,
      "grad_norm": 0.9687657952308655,
      "learning_rate": 0.00025935204252189314,
      "loss": 4.1462,
      "step": 116710
    },
    {
      "epoch": 0.24316666666666667,
      "grad_norm": 0.8400458097457886,
      "learning_rate": 0.0002593452941132117,
      "loss": 3.725,
      "step": 116720
    },
    {
      "epoch": 0.2431875,
      "grad_norm": 0.8060240149497986,
      "learning_rate": 0.0002593385452322019,
      "loss": 3.9537,
      "step": 116730
    },
    {
      "epoch": 0.24320833333333333,
      "grad_norm": 0.8052514791488647,
      "learning_rate": 0.0002593317958788928,
      "loss": 3.6954,
      "step": 116740
    },
    {
      "epoch": 0.24322916666666666,
      "grad_norm": 0.763960599899292,
      "learning_rate": 0.0002593250460533137,
      "loss": 3.8777,
      "step": 116750
    },
    {
      "epoch": 0.24325,
      "grad_norm": 0.7607309222221375,
      "learning_rate": 0.00025931829575549364,
      "loss": 3.8564,
      "step": 116760
    },
    {
      "epoch": 0.24327083333333333,
      "grad_norm": 0.7603082060813904,
      "learning_rate": 0.0002593115449854618,
      "loss": 3.9044,
      "step": 116770
    },
    {
      "epoch": 0.24329166666666666,
      "grad_norm": 0.810555100440979,
      "learning_rate": 0.00025930479374324737,
      "loss": 3.8542,
      "step": 116780
    },
    {
      "epoch": 0.2433125,
      "grad_norm": 0.7352703213691711,
      "learning_rate": 0.0002592980420288795,
      "loss": 4.013,
      "step": 116790
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.8159258365631104,
      "learning_rate": 0.00025929128984238727,
      "loss": 4.0314,
      "step": 116800
    },
    {
      "epoch": 0.24335416666666668,
      "grad_norm": 0.7897706627845764,
      "learning_rate": 0.0002592845371838001,
      "loss": 3.9384,
      "step": 116810
    },
    {
      "epoch": 0.243375,
      "grad_norm": 0.8067224025726318,
      "learning_rate": 0.0002592777840531469,
      "loss": 3.9634,
      "step": 116820
    },
    {
      "epoch": 0.24339583333333334,
      "grad_norm": 0.8098738789558411,
      "learning_rate": 0.0002592710304504568,
      "loss": 4.12,
      "step": 116830
    },
    {
      "epoch": 0.24341666666666667,
      "grad_norm": 0.8242759704589844,
      "learning_rate": 0.00025926427637575924,
      "loss": 3.9512,
      "step": 116840
    },
    {
      "epoch": 0.2434375,
      "grad_norm": 0.9076295495033264,
      "learning_rate": 0.00025925752182908324,
      "loss": 3.857,
      "step": 116850
    },
    {
      "epoch": 0.24345833333333333,
      "grad_norm": 0.7150473594665527,
      "learning_rate": 0.000259250766810458,
      "loss": 3.9101,
      "step": 116860
    },
    {
      "epoch": 0.24347916666666666,
      "grad_norm": 0.7902323007583618,
      "learning_rate": 0.00025924401131991267,
      "loss": 3.9648,
      "step": 116870
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.8562358617782593,
      "learning_rate": 0.00025923725535747643,
      "loss": 3.7481,
      "step": 116880
    },
    {
      "epoch": 0.24352083333333333,
      "grad_norm": 0.8793919682502747,
      "learning_rate": 0.00025923049892317854,
      "loss": 3.8324,
      "step": 116890
    },
    {
      "epoch": 0.24354166666666666,
      "grad_norm": 0.77486652135849,
      "learning_rate": 0.0002592237420170481,
      "loss": 3.9955,
      "step": 116900
    },
    {
      "epoch": 0.2435625,
      "grad_norm": 0.8746513724327087,
      "learning_rate": 0.0002592169846391144,
      "loss": 3.9347,
      "step": 116910
    },
    {
      "epoch": 0.24358333333333335,
      "grad_norm": 0.7718344330787659,
      "learning_rate": 0.00025921022678940643,
      "loss": 4.121,
      "step": 116920
    },
    {
      "epoch": 0.24360416666666668,
      "grad_norm": 0.7443282008171082,
      "learning_rate": 0.0002592034684679536,
      "loss": 4.1492,
      "step": 116930
    },
    {
      "epoch": 0.243625,
      "grad_norm": 0.7360329031944275,
      "learning_rate": 0.000259196709674785,
      "loss": 4.2334,
      "step": 116940
    },
    {
      "epoch": 0.24364583333333334,
      "grad_norm": 0.8198996186256409,
      "learning_rate": 0.00025918995040992974,
      "loss": 4.1213,
      "step": 116950
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 0.914469301700592,
      "learning_rate": 0.00025918319067341723,
      "loss": 4.1552,
      "step": 116960
    },
    {
      "epoch": 0.2436875,
      "grad_norm": 0.8700874447822571,
      "learning_rate": 0.0002591764304652765,
      "loss": 4.1421,
      "step": 116970
    },
    {
      "epoch": 0.24370833333333333,
      "grad_norm": 0.834838330745697,
      "learning_rate": 0.00025916966978553683,
      "loss": 4.1809,
      "step": 116980
    },
    {
      "epoch": 0.24372916666666666,
      "grad_norm": 0.7608925104141235,
      "learning_rate": 0.00025916290863422744,
      "loss": 3.9492,
      "step": 116990
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.7500191330909729,
      "learning_rate": 0.0002591561470113774,
      "loss": 4.1393,
      "step": 117000
    },
    {
      "epoch": 0.24375,
      "eval_loss": 3.777730941772461,
      "eval_runtime": 7.1872,
      "eval_samples_per_second": 1.391,
      "eval_steps_per_second": 0.417,
      "step": 117000
    },
    {
      "epoch": 0.24377083333333333,
      "grad_norm": 0.9684653878211975,
      "learning_rate": 0.0002591493849170161,
      "loss": 3.8911,
      "step": 117010
    },
    {
      "epoch": 0.24379166666666666,
      "grad_norm": 0.8254041075706482,
      "learning_rate": 0.00025914262235117257,
      "loss": 4.165,
      "step": 117020
    },
    {
      "epoch": 0.2438125,
      "grad_norm": 0.8505381941795349,
      "learning_rate": 0.00025913585931387615,
      "loss": 4.1144,
      "step": 117030
    },
    {
      "epoch": 0.24383333333333335,
      "grad_norm": 0.8634100556373596,
      "learning_rate": 0.0002591290958051561,
      "loss": 4.2807,
      "step": 117040
    },
    {
      "epoch": 0.24385416666666668,
      "grad_norm": 0.8693386316299438,
      "learning_rate": 0.00025912233182504143,
      "loss": 4.1286,
      "step": 117050
    },
    {
      "epoch": 0.243875,
      "grad_norm": 0.9191473722457886,
      "learning_rate": 0.0002591155673735616,
      "loss": 4.0404,
      "step": 117060
    },
    {
      "epoch": 0.24389583333333334,
      "grad_norm": 0.813758909702301,
      "learning_rate": 0.0002591088024507456,
      "loss": 3.9294,
      "step": 117070
    },
    {
      "epoch": 0.24391666666666667,
      "grad_norm": 0.7500956058502197,
      "learning_rate": 0.0002591020370566228,
      "loss": 4.2328,
      "step": 117080
    },
    {
      "epoch": 0.2439375,
      "grad_norm": 0.864077091217041,
      "learning_rate": 0.0002590952711912224,
      "loss": 4.0938,
      "step": 117090
    },
    {
      "epoch": 0.24395833333333333,
      "grad_norm": 0.8491624593734741,
      "learning_rate": 0.0002590885048545736,
      "loss": 4.1903,
      "step": 117100
    },
    {
      "epoch": 0.24397916666666666,
      "grad_norm": 0.7421099543571472,
      "learning_rate": 0.00025908173804670565,
      "loss": 4.1283,
      "step": 117110
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.7643954753875732,
      "learning_rate": 0.0002590749707676477,
      "loss": 4.1074,
      "step": 117120
    },
    {
      "epoch": 0.24402083333333333,
      "grad_norm": 0.8414784073829651,
      "learning_rate": 0.00025906820301742914,
      "loss": 3.9893,
      "step": 117130
    },
    {
      "epoch": 0.24404166666666666,
      "grad_norm": 0.7952447533607483,
      "learning_rate": 0.0002590614347960791,
      "loss": 4.082,
      "step": 117140
    },
    {
      "epoch": 0.2440625,
      "grad_norm": 0.8162499070167542,
      "learning_rate": 0.0002590546661036268,
      "loss": 3.9449,
      "step": 117150
    },
    {
      "epoch": 0.24408333333333335,
      "grad_norm": 1.0299773216247559,
      "learning_rate": 0.00025904789694010155,
      "loss": 3.8887,
      "step": 117160
    },
    {
      "epoch": 0.24410416666666668,
      "grad_norm": 0.7565705180168152,
      "learning_rate": 0.0002590411273055325,
      "loss": 4.1765,
      "step": 117170
    },
    {
      "epoch": 0.244125,
      "grad_norm": 0.7507197856903076,
      "learning_rate": 0.000259034357199949,
      "loss": 3.8689,
      "step": 117180
    },
    {
      "epoch": 0.24414583333333334,
      "grad_norm": 0.7644078731536865,
      "learning_rate": 0.0002590275866233802,
      "loss": 4.0282,
      "step": 117190
    },
    {
      "epoch": 0.24416666666666667,
      "grad_norm": 0.7646124958992004,
      "learning_rate": 0.00025902081557585533,
      "loss": 4.0558,
      "step": 117200
    },
    {
      "epoch": 0.2441875,
      "grad_norm": 0.78829026222229,
      "learning_rate": 0.0002590140440574038,
      "loss": 4.0188,
      "step": 117210
    },
    {
      "epoch": 0.24420833333333333,
      "grad_norm": 0.8972770571708679,
      "learning_rate": 0.00025900727206805467,
      "loss": 3.7936,
      "step": 117220
    },
    {
      "epoch": 0.24422916666666666,
      "grad_norm": 0.7681356072425842,
      "learning_rate": 0.0002590004996078373,
      "loss": 4.1594,
      "step": 117230
    },
    {
      "epoch": 0.24425,
      "grad_norm": 0.8082529902458191,
      "learning_rate": 0.00025899372667678093,
      "loss": 3.9939,
      "step": 117240
    },
    {
      "epoch": 0.24427083333333333,
      "grad_norm": 0.8549960255622864,
      "learning_rate": 0.00025898695327491474,
      "loss": 4.2351,
      "step": 117250
    },
    {
      "epoch": 0.24429166666666666,
      "grad_norm": 0.7814837694168091,
      "learning_rate": 0.0002589801794022681,
      "loss": 4.2267,
      "step": 117260
    },
    {
      "epoch": 0.2443125,
      "grad_norm": 0.948632538318634,
      "learning_rate": 0.00025897340505887025,
      "loss": 3.7624,
      "step": 117270
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 0.8575059175491333,
      "learning_rate": 0.0002589666302447504,
      "loss": 4.0313,
      "step": 117280
    },
    {
      "epoch": 0.24435416666666668,
      "grad_norm": 0.7797517776489258,
      "learning_rate": 0.0002589598549599378,
      "loss": 4.0458,
      "step": 117290
    },
    {
      "epoch": 0.244375,
      "grad_norm": 0.8371981382369995,
      "learning_rate": 0.00025895307920446186,
      "loss": 3.7442,
      "step": 117300
    },
    {
      "epoch": 0.24439583333333334,
      "grad_norm": 0.8735531568527222,
      "learning_rate": 0.0002589463029783517,
      "loss": 3.8895,
      "step": 117310
    },
    {
      "epoch": 0.24441666666666667,
      "grad_norm": 0.7916769981384277,
      "learning_rate": 0.00025893952628163657,
      "loss": 3.9229,
      "step": 117320
    },
    {
      "epoch": 0.2444375,
      "grad_norm": 0.811730146408081,
      "learning_rate": 0.0002589327491143458,
      "loss": 3.9524,
      "step": 117330
    },
    {
      "epoch": 0.24445833333333333,
      "grad_norm": 0.7360462546348572,
      "learning_rate": 0.0002589259714765088,
      "loss": 3.8976,
      "step": 117340
    },
    {
      "epoch": 0.24447916666666666,
      "grad_norm": 0.7553591132164001,
      "learning_rate": 0.0002589191933681546,
      "loss": 3.9844,
      "step": 117350
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.7512256503105164,
      "learning_rate": 0.00025891241478931263,
      "loss": 4.1369,
      "step": 117360
    },
    {
      "epoch": 0.24452083333333333,
      "grad_norm": 0.8042604923248291,
      "learning_rate": 0.00025890563574001215,
      "loss": 4.0516,
      "step": 117370
    },
    {
      "epoch": 0.24454166666666666,
      "grad_norm": 0.8502935171127319,
      "learning_rate": 0.0002588988562202824,
      "loss": 3.9942,
      "step": 117380
    },
    {
      "epoch": 0.2445625,
      "grad_norm": 0.8321933150291443,
      "learning_rate": 0.00025889207623015277,
      "loss": 4.2591,
      "step": 117390
    },
    {
      "epoch": 0.24458333333333335,
      "grad_norm": 0.7864925861358643,
      "learning_rate": 0.00025888529576965246,
      "loss": 4.1844,
      "step": 117400
    },
    {
      "epoch": 0.24460416666666668,
      "grad_norm": 0.8230751156806946,
      "learning_rate": 0.00025887851483881073,
      "loss": 3.8324,
      "step": 117410
    },
    {
      "epoch": 0.244625,
      "grad_norm": 1.2439792156219482,
      "learning_rate": 0.00025887173343765694,
      "loss": 4.1417,
      "step": 117420
    },
    {
      "epoch": 0.24464583333333334,
      "grad_norm": 0.786729097366333,
      "learning_rate": 0.0002588649515662203,
      "loss": 3.8053,
      "step": 117430
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 0.8161498308181763,
      "learning_rate": 0.0002588581692245302,
      "loss": 3.9959,
      "step": 117440
    },
    {
      "epoch": 0.2446875,
      "grad_norm": 0.7711161971092224,
      "learning_rate": 0.00025885138641261587,
      "loss": 4.0337,
      "step": 117450
    },
    {
      "epoch": 0.24470833333333333,
      "grad_norm": 0.6950710415840149,
      "learning_rate": 0.0002588446031305067,
      "loss": 4.0396,
      "step": 117460
    },
    {
      "epoch": 0.24472916666666666,
      "grad_norm": 0.7490562796592712,
      "learning_rate": 0.00025883781937823187,
      "loss": 4.1722,
      "step": 117470
    },
    {
      "epoch": 0.24475,
      "grad_norm": 0.8561551570892334,
      "learning_rate": 0.0002588310351558208,
      "loss": 4.0363,
      "step": 117480
    },
    {
      "epoch": 0.24477083333333333,
      "grad_norm": 0.7838200330734253,
      "learning_rate": 0.0002588242504633027,
      "loss": 4.0252,
      "step": 117490
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 0.7629339694976807,
      "learning_rate": 0.0002588174653007069,
      "loss": 4.0131,
      "step": 117500
    },
    {
      "epoch": 0.2448125,
      "grad_norm": 0.7460454702377319,
      "learning_rate": 0.00025881067966806277,
      "loss": 4.1825,
      "step": 117510
    },
    {
      "epoch": 0.24483333333333332,
      "grad_norm": 0.7864120602607727,
      "learning_rate": 0.00025880389356539957,
      "loss": 4.199,
      "step": 117520
    },
    {
      "epoch": 0.24485416666666668,
      "grad_norm": 0.8215348720550537,
      "learning_rate": 0.00025879710699274654,
      "loss": 4.1976,
      "step": 117530
    },
    {
      "epoch": 0.244875,
      "grad_norm": 0.7864413261413574,
      "learning_rate": 0.0002587903199501331,
      "loss": 4.0444,
      "step": 117540
    },
    {
      "epoch": 0.24489583333333334,
      "grad_norm": 0.753131628036499,
      "learning_rate": 0.00025878353243758854,
      "loss": 4.2003,
      "step": 117550
    },
    {
      "epoch": 0.24491666666666667,
      "grad_norm": 0.7726837396621704,
      "learning_rate": 0.00025877674445514223,
      "loss": 4.0197,
      "step": 117560
    },
    {
      "epoch": 0.2449375,
      "grad_norm": 0.7909970283508301,
      "learning_rate": 0.0002587699560028234,
      "loss": 4.0929,
      "step": 117570
    },
    {
      "epoch": 0.24495833333333333,
      "grad_norm": 0.7938942313194275,
      "learning_rate": 0.00025876316708066144,
      "loss": 3.9778,
      "step": 117580
    },
    {
      "epoch": 0.24497916666666666,
      "grad_norm": 0.9019152522087097,
      "learning_rate": 0.0002587563776886857,
      "loss": 4.0049,
      "step": 117590
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.758579671382904,
      "learning_rate": 0.00025874958782692533,
      "loss": 4.0285,
      "step": 117600
    },
    {
      "epoch": 0.24502083333333333,
      "grad_norm": 0.7162660360336304,
      "learning_rate": 0.00025874279749540984,
      "loss": 4.0004,
      "step": 117610
    },
    {
      "epoch": 0.24504166666666666,
      "grad_norm": 0.8126471638679504,
      "learning_rate": 0.0002587360066941686,
      "loss": 4.0687,
      "step": 117620
    },
    {
      "epoch": 0.2450625,
      "grad_norm": 0.8056784272193909,
      "learning_rate": 0.0002587292154232307,
      "loss": 3.8178,
      "step": 117630
    },
    {
      "epoch": 0.24508333333333332,
      "grad_norm": 0.8341822028160095,
      "learning_rate": 0.00025872242368262573,
      "loss": 3.9265,
      "step": 117640
    },
    {
      "epoch": 0.24510416666666668,
      "grad_norm": 0.776634693145752,
      "learning_rate": 0.00025871563147238287,
      "loss": 4.0447,
      "step": 117650
    },
    {
      "epoch": 0.245125,
      "grad_norm": 0.7829893827438354,
      "learning_rate": 0.00025870883879253154,
      "loss": 4.0609,
      "step": 117660
    },
    {
      "epoch": 0.24514583333333334,
      "grad_norm": 0.7318575978279114,
      "learning_rate": 0.00025870204564310104,
      "loss": 4.1803,
      "step": 117670
    },
    {
      "epoch": 0.24516666666666667,
      "grad_norm": 0.7301943302154541,
      "learning_rate": 0.0002586952520241208,
      "loss": 3.9447,
      "step": 117680
    },
    {
      "epoch": 0.2451875,
      "grad_norm": 0.755449116230011,
      "learning_rate": 0.00025868845793562,
      "loss": 3.918,
      "step": 117690
    },
    {
      "epoch": 0.24520833333333333,
      "grad_norm": 0.800108790397644,
      "learning_rate": 0.0002586816633776281,
      "loss": 4.018,
      "step": 117700
    },
    {
      "epoch": 0.24522916666666666,
      "grad_norm": 1.011481523513794,
      "learning_rate": 0.00025867486835017445,
      "loss": 4.1329,
      "step": 117710
    },
    {
      "epoch": 0.24525,
      "grad_norm": 0.7177129983901978,
      "learning_rate": 0.00025866807285328844,
      "loss": 3.9789,
      "step": 117720
    },
    {
      "epoch": 0.24527083333333333,
      "grad_norm": 0.7243716716766357,
      "learning_rate": 0.0002586612768869993,
      "loss": 3.9375,
      "step": 117730
    },
    {
      "epoch": 0.24529166666666666,
      "grad_norm": 0.8695040345191956,
      "learning_rate": 0.00025865448045133646,
      "loss": 4.2102,
      "step": 117740
    },
    {
      "epoch": 0.2453125,
      "grad_norm": 0.8221670985221863,
      "learning_rate": 0.0002586476835463293,
      "loss": 3.9708,
      "step": 117750
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 0.9084315896034241,
      "learning_rate": 0.00025864088617200717,
      "loss": 3.9855,
      "step": 117760
    },
    {
      "epoch": 0.24535416666666668,
      "grad_norm": 0.7712640762329102,
      "learning_rate": 0.0002586340883283994,
      "loss": 3.7961,
      "step": 117770
    },
    {
      "epoch": 0.245375,
      "grad_norm": 0.7654860019683838,
      "learning_rate": 0.0002586272900155353,
      "loss": 3.9799,
      "step": 117780
    },
    {
      "epoch": 0.24539583333333334,
      "grad_norm": 0.8896197080612183,
      "learning_rate": 0.00025862049123344437,
      "loss": 3.9507,
      "step": 117790
    },
    {
      "epoch": 0.24541666666666667,
      "grad_norm": 0.8343129754066467,
      "learning_rate": 0.0002586136919821559,
      "loss": 3.9673,
      "step": 117800
    },
    {
      "epoch": 0.2454375,
      "grad_norm": 0.7763877511024475,
      "learning_rate": 0.0002586068922616993,
      "loss": 4.0728,
      "step": 117810
    },
    {
      "epoch": 0.24545833333333333,
      "grad_norm": 0.7766900658607483,
      "learning_rate": 0.0002586000920721039,
      "loss": 4.1217,
      "step": 117820
    },
    {
      "epoch": 0.24547916666666666,
      "grad_norm": 0.7379899621009827,
      "learning_rate": 0.00025859329141339905,
      "loss": 4.1787,
      "step": 117830
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.7607893943786621,
      "learning_rate": 0.00025858649028561424,
      "loss": 3.8799,
      "step": 117840
    },
    {
      "epoch": 0.24552083333333333,
      "grad_norm": 0.7093480825424194,
      "learning_rate": 0.0002585796886887787,
      "loss": 4.0008,
      "step": 117850
    },
    {
      "epoch": 0.24554166666666666,
      "grad_norm": 0.9716224670410156,
      "learning_rate": 0.0002585728866229219,
      "loss": 3.9625,
      "step": 117860
    },
    {
      "epoch": 0.2455625,
      "grad_norm": 0.7688791155815125,
      "learning_rate": 0.0002585660840880732,
      "loss": 4.0132,
      "step": 117870
    },
    {
      "epoch": 0.24558333333333332,
      "grad_norm": 0.7655282616615295,
      "learning_rate": 0.00025855928108426204,
      "loss": 4.1101,
      "step": 117880
    },
    {
      "epoch": 0.24560416666666668,
      "grad_norm": 0.7570438981056213,
      "learning_rate": 0.0002585524776115177,
      "loss": 4.0865,
      "step": 117890
    },
    {
      "epoch": 0.245625,
      "grad_norm": 0.7955809235572815,
      "learning_rate": 0.00025854567366986967,
      "loss": 4.2063,
      "step": 117900
    },
    {
      "epoch": 0.24564583333333334,
      "grad_norm": 0.7626265287399292,
      "learning_rate": 0.0002585388692593473,
      "loss": 4.1411,
      "step": 117910
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 0.8574162721633911,
      "learning_rate": 0.00025853206437997993,
      "loss": 4.2213,
      "step": 117920
    },
    {
      "epoch": 0.2456875,
      "grad_norm": 0.8205774426460266,
      "learning_rate": 0.00025852525903179705,
      "loss": 3.9987,
      "step": 117930
    },
    {
      "epoch": 0.24570833333333333,
      "grad_norm": 0.7861239314079285,
      "learning_rate": 0.0002585184532148279,
      "loss": 3.8641,
      "step": 117940
    },
    {
      "epoch": 0.24572916666666667,
      "grad_norm": 0.8203258514404297,
      "learning_rate": 0.0002585116469291021,
      "loss": 4.1825,
      "step": 117950
    },
    {
      "epoch": 0.24575,
      "grad_norm": 0.6752439141273499,
      "learning_rate": 0.00025850484017464893,
      "loss": 4.1403,
      "step": 117960
    },
    {
      "epoch": 0.24577083333333333,
      "grad_norm": 0.7852320075035095,
      "learning_rate": 0.0002584980329514978,
      "loss": 3.9869,
      "step": 117970
    },
    {
      "epoch": 0.24579166666666666,
      "grad_norm": 0.8037340641021729,
      "learning_rate": 0.00025849122525967806,
      "loss": 4.0808,
      "step": 117980
    },
    {
      "epoch": 0.2458125,
      "grad_norm": 0.8752880692481995,
      "learning_rate": 0.0002584844170992192,
      "loss": 4.0371,
      "step": 117990
    },
    {
      "epoch": 0.24583333333333332,
      "grad_norm": 0.7503750920295715,
      "learning_rate": 0.0002584776084701506,
      "loss": 3.9934,
      "step": 118000
    },
    {
      "epoch": 0.24583333333333332,
      "eval_loss": 3.7830166816711426,
      "eval_runtime": 6.775,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.443,
      "step": 118000
    },
    {
      "epoch": 0.24585416666666668,
      "grad_norm": 0.9372583627700806,
      "learning_rate": 0.0002584707993725017,
      "loss": 4.0838,
      "step": 118010
    },
    {
      "epoch": 0.245875,
      "grad_norm": 0.7806236147880554,
      "learning_rate": 0.0002584639898063018,
      "loss": 3.8874,
      "step": 118020
    },
    {
      "epoch": 0.24589583333333334,
      "grad_norm": 0.8011734485626221,
      "learning_rate": 0.0002584571797715805,
      "loss": 3.9897,
      "step": 118030
    },
    {
      "epoch": 0.24591666666666667,
      "grad_norm": 0.8289589285850525,
      "learning_rate": 0.00025845036926836704,
      "loss": 3.809,
      "step": 118040
    },
    {
      "epoch": 0.2459375,
      "grad_norm": 0.7183529734611511,
      "learning_rate": 0.0002584435582966909,
      "loss": 4.1991,
      "step": 118050
    },
    {
      "epoch": 0.24595833333333333,
      "grad_norm": 0.8453055620193481,
      "learning_rate": 0.0002584367468565816,
      "loss": 3.9191,
      "step": 118060
    },
    {
      "epoch": 0.24597916666666667,
      "grad_norm": 0.7829388976097107,
      "learning_rate": 0.00025842993494806836,
      "loss": 3.9102,
      "step": 118070
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.7948921918869019,
      "learning_rate": 0.00025842312257118083,
      "loss": 3.7936,
      "step": 118080
    },
    {
      "epoch": 0.24602083333333333,
      "grad_norm": 0.7483583092689514,
      "learning_rate": 0.0002584163097259483,
      "loss": 3.9808,
      "step": 118090
    },
    {
      "epoch": 0.24604166666666666,
      "grad_norm": 0.9364118576049805,
      "learning_rate": 0.0002584094964124002,
      "loss": 3.9167,
      "step": 118100
    },
    {
      "epoch": 0.2460625,
      "grad_norm": 0.8824247121810913,
      "learning_rate": 0.000258402682630566,
      "loss": 3.892,
      "step": 118110
    },
    {
      "epoch": 0.24608333333333332,
      "grad_norm": 0.7456181645393372,
      "learning_rate": 0.0002583958683804751,
      "loss": 4.1264,
      "step": 118120
    },
    {
      "epoch": 0.24610416666666668,
      "grad_norm": 0.7662081122398376,
      "learning_rate": 0.00025838905366215695,
      "loss": 4.0499,
      "step": 118130
    },
    {
      "epoch": 0.246125,
      "grad_norm": 0.727112352848053,
      "learning_rate": 0.000258382238475641,
      "loss": 4.1656,
      "step": 118140
    },
    {
      "epoch": 0.24614583333333334,
      "grad_norm": 0.7517787218093872,
      "learning_rate": 0.0002583754228209567,
      "loss": 4.0519,
      "step": 118150
    },
    {
      "epoch": 0.24616666666666667,
      "grad_norm": 0.8412683010101318,
      "learning_rate": 0.0002583686066981335,
      "loss": 3.931,
      "step": 118160
    },
    {
      "epoch": 0.2461875,
      "grad_norm": 0.8771899342536926,
      "learning_rate": 0.0002583617901072008,
      "loss": 4.0877,
      "step": 118170
    },
    {
      "epoch": 0.24620833333333333,
      "grad_norm": 0.7187510132789612,
      "learning_rate": 0.000258354973048188,
      "loss": 3.8699,
      "step": 118180
    },
    {
      "epoch": 0.24622916666666667,
      "grad_norm": 0.768494725227356,
      "learning_rate": 0.00025834815552112467,
      "loss": 4.013,
      "step": 118190
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.7324539422988892,
      "learning_rate": 0.00025834133752604014,
      "loss": 4.1451,
      "step": 118200
    },
    {
      "epoch": 0.24627083333333333,
      "grad_norm": 0.813012421131134,
      "learning_rate": 0.0002583345190629639,
      "loss": 4.0221,
      "step": 118210
    },
    {
      "epoch": 0.24629166666666666,
      "grad_norm": 0.7578170895576477,
      "learning_rate": 0.0002583277001319255,
      "loss": 4.0127,
      "step": 118220
    },
    {
      "epoch": 0.2463125,
      "grad_norm": 0.7737749218940735,
      "learning_rate": 0.00025832088073295427,
      "loss": 3.9926,
      "step": 118230
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 0.80779629945755,
      "learning_rate": 0.00025831406086607975,
      "loss": 4.0242,
      "step": 118240
    },
    {
      "epoch": 0.24635416666666668,
      "grad_norm": 0.8653876185417175,
      "learning_rate": 0.00025830724053133134,
      "loss": 4.0014,
      "step": 118250
    },
    {
      "epoch": 0.246375,
      "grad_norm": 1.352251648902893,
      "learning_rate": 0.00025830041972873846,
      "loss": 4.0339,
      "step": 118260
    },
    {
      "epoch": 0.24639583333333334,
      "grad_norm": 0.8422773480415344,
      "learning_rate": 0.00025829359845833073,
      "loss": 4.0249,
      "step": 118270
    },
    {
      "epoch": 0.24641666666666667,
      "grad_norm": 0.6979898810386658,
      "learning_rate": 0.00025828677672013747,
      "loss": 4.0753,
      "step": 118280
    },
    {
      "epoch": 0.2464375,
      "grad_norm": 0.7664920687675476,
      "learning_rate": 0.0002582799545141882,
      "loss": 4.1124,
      "step": 118290
    },
    {
      "epoch": 0.24645833333333333,
      "grad_norm": 0.8404867053031921,
      "learning_rate": 0.0002582731318405124,
      "loss": 4.1538,
      "step": 118300
    },
    {
      "epoch": 0.24647916666666667,
      "grad_norm": 0.808615505695343,
      "learning_rate": 0.00025826630869913954,
      "loss": 4.0615,
      "step": 118310
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.7382621765136719,
      "learning_rate": 0.00025825948509009905,
      "loss": 3.8564,
      "step": 118320
    },
    {
      "epoch": 0.24652083333333333,
      "grad_norm": 0.8441649675369263,
      "learning_rate": 0.0002582526610134205,
      "loss": 3.9179,
      "step": 118330
    },
    {
      "epoch": 0.24654166666666666,
      "grad_norm": 0.8310136795043945,
      "learning_rate": 0.00025824583646913315,
      "loss": 4.1175,
      "step": 118340
    },
    {
      "epoch": 0.2465625,
      "grad_norm": 0.7662253379821777,
      "learning_rate": 0.0002582390114572668,
      "loss": 3.875,
      "step": 118350
    },
    {
      "epoch": 0.24658333333333332,
      "grad_norm": 0.8006857633590698,
      "learning_rate": 0.0002582321859778507,
      "loss": 4.1104,
      "step": 118360
    },
    {
      "epoch": 0.24660416666666668,
      "grad_norm": 0.8628975749015808,
      "learning_rate": 0.00025822536003091437,
      "loss": 4.0552,
      "step": 118370
    },
    {
      "epoch": 0.246625,
      "grad_norm": 0.7823787331581116,
      "learning_rate": 0.00025821853361648737,
      "loss": 3.9983,
      "step": 118380
    },
    {
      "epoch": 0.24664583333333334,
      "grad_norm": 0.7110089063644409,
      "learning_rate": 0.0002582117067345991,
      "loss": 4.0087,
      "step": 118390
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.7751911878585815,
      "learning_rate": 0.0002582048793852791,
      "loss": 3.8493,
      "step": 118400
    },
    {
      "epoch": 0.2466875,
      "grad_norm": 0.7813053131103516,
      "learning_rate": 0.0002581980515685569,
      "loss": 4.1681,
      "step": 118410
    },
    {
      "epoch": 0.24670833333333334,
      "grad_norm": 0.7344574332237244,
      "learning_rate": 0.0002581912232844619,
      "loss": 3.9205,
      "step": 118420
    },
    {
      "epoch": 0.24672916666666667,
      "grad_norm": 0.8268182873725891,
      "learning_rate": 0.0002581843945330236,
      "loss": 4.0944,
      "step": 118430
    },
    {
      "epoch": 0.24675,
      "grad_norm": 0.7756754755973816,
      "learning_rate": 0.00025817756531427164,
      "loss": 3.8671,
      "step": 118440
    },
    {
      "epoch": 0.24677083333333333,
      "grad_norm": 0.7713409066200256,
      "learning_rate": 0.00025817073562823536,
      "loss": 4.0173,
      "step": 118450
    },
    {
      "epoch": 0.24679166666666666,
      "grad_norm": 0.7748398184776306,
      "learning_rate": 0.0002581639054749443,
      "loss": 4.027,
      "step": 118460
    },
    {
      "epoch": 0.2468125,
      "grad_norm": 0.745585560798645,
      "learning_rate": 0.000258157074854428,
      "loss": 4.1376,
      "step": 118470
    },
    {
      "epoch": 0.24683333333333332,
      "grad_norm": 0.7792559266090393,
      "learning_rate": 0.000258150243766716,
      "loss": 4.0265,
      "step": 118480
    },
    {
      "epoch": 0.24685416666666668,
      "grad_norm": 0.7622887492179871,
      "learning_rate": 0.0002581434122118377,
      "loss": 4.1268,
      "step": 118490
    },
    {
      "epoch": 0.246875,
      "grad_norm": 0.8357680439949036,
      "learning_rate": 0.00025813658018982263,
      "loss": 3.9287,
      "step": 118500
    },
    {
      "epoch": 0.24689583333333334,
      "grad_norm": 0.8035606741905212,
      "learning_rate": 0.0002581297477007004,
      "loss": 4.0452,
      "step": 118510
    },
    {
      "epoch": 0.24691666666666667,
      "grad_norm": 0.7775382399559021,
      "learning_rate": 0.0002581229147445005,
      "loss": 4.0059,
      "step": 118520
    },
    {
      "epoch": 0.2469375,
      "grad_norm": 0.8702905774116516,
      "learning_rate": 0.0002581160813212523,
      "loss": 3.9751,
      "step": 118530
    },
    {
      "epoch": 0.24695833333333334,
      "grad_norm": 0.7799797654151917,
      "learning_rate": 0.0002581092474309855,
      "loss": 4.1473,
      "step": 118540
    },
    {
      "epoch": 0.24697916666666667,
      "grad_norm": 0.8415635824203491,
      "learning_rate": 0.0002581024130737295,
      "loss": 3.9088,
      "step": 118550
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.770965039730072,
      "learning_rate": 0.0002580955782495139,
      "loss": 4.0579,
      "step": 118560
    },
    {
      "epoch": 0.24702083333333333,
      "grad_norm": 0.817997395992279,
      "learning_rate": 0.0002580887429583681,
      "loss": 3.9523,
      "step": 118570
    },
    {
      "epoch": 0.24704166666666666,
      "grad_norm": 0.8578442931175232,
      "learning_rate": 0.0002580819072003218,
      "loss": 4.0861,
      "step": 118580
    },
    {
      "epoch": 0.2470625,
      "grad_norm": 0.7201186418533325,
      "learning_rate": 0.00025807507097540445,
      "loss": 3.9525,
      "step": 118590
    },
    {
      "epoch": 0.24708333333333332,
      "grad_norm": 0.7246345281600952,
      "learning_rate": 0.0002580682342836455,
      "loss": 4.0946,
      "step": 118600
    },
    {
      "epoch": 0.24710416666666668,
      "grad_norm": 0.7927419543266296,
      "learning_rate": 0.00025806139712507465,
      "loss": 3.8728,
      "step": 118610
    },
    {
      "epoch": 0.247125,
      "grad_norm": 0.8976783156394958,
      "learning_rate": 0.0002580545594997213,
      "loss": 3.941,
      "step": 118620
    },
    {
      "epoch": 0.24714583333333334,
      "grad_norm": 0.7747266888618469,
      "learning_rate": 0.00025804772140761503,
      "loss": 4.0817,
      "step": 118630
    },
    {
      "epoch": 0.24716666666666667,
      "grad_norm": 0.7988553047180176,
      "learning_rate": 0.00025804088284878536,
      "loss": 3.9988,
      "step": 118640
    },
    {
      "epoch": 0.2471875,
      "grad_norm": 0.8277343511581421,
      "learning_rate": 0.00025803404382326184,
      "loss": 4.1168,
      "step": 118650
    },
    {
      "epoch": 0.24720833333333334,
      "grad_norm": 0.749498188495636,
      "learning_rate": 0.000258027204331074,
      "loss": 3.9833,
      "step": 118660
    },
    {
      "epoch": 0.24722916666666667,
      "grad_norm": 0.949794590473175,
      "learning_rate": 0.0002580203643722514,
      "loss": 4.1307,
      "step": 118670
    },
    {
      "epoch": 0.24725,
      "grad_norm": 0.6864510774612427,
      "learning_rate": 0.0002580135239468236,
      "loss": 3.9179,
      "step": 118680
    },
    {
      "epoch": 0.24727083333333333,
      "grad_norm": 0.9395285844802856,
      "learning_rate": 0.00025800668305482014,
      "loss": 4.0756,
      "step": 118690
    },
    {
      "epoch": 0.24729166666666666,
      "grad_norm": 0.8133382797241211,
      "learning_rate": 0.00025799984169627054,
      "loss": 4.2297,
      "step": 118700
    },
    {
      "epoch": 0.2473125,
      "grad_norm": 0.7907117009162903,
      "learning_rate": 0.0002579929998712044,
      "loss": 4.0209,
      "step": 118710
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 0.720611572265625,
      "learning_rate": 0.0002579861575796512,
      "loss": 4.0879,
      "step": 118720
    },
    {
      "epoch": 0.24735416666666668,
      "grad_norm": 0.8242478966712952,
      "learning_rate": 0.0002579793148216406,
      "loss": 4.1452,
      "step": 118730
    },
    {
      "epoch": 0.247375,
      "grad_norm": 0.8144896626472473,
      "learning_rate": 0.000257972471597202,
      "loss": 4.0934,
      "step": 118740
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 0.9594621062278748,
      "learning_rate": 0.0002579656279063652,
      "loss": 4.0538,
      "step": 118750
    },
    {
      "epoch": 0.24741666666666667,
      "grad_norm": 0.794862687587738,
      "learning_rate": 0.00025795878374915957,
      "loss": 3.8917,
      "step": 118760
    },
    {
      "epoch": 0.2474375,
      "grad_norm": 0.667763888835907,
      "learning_rate": 0.0002579519391256147,
      "loss": 3.8469,
      "step": 118770
    },
    {
      "epoch": 0.24745833333333334,
      "grad_norm": 0.748445987701416,
      "learning_rate": 0.0002579450940357602,
      "loss": 3.8501,
      "step": 118780
    },
    {
      "epoch": 0.24747916666666667,
      "grad_norm": 0.735386073589325,
      "learning_rate": 0.0002579382484796256,
      "loss": 3.8649,
      "step": 118790
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.91807621717453,
      "learning_rate": 0.00025793140245724053,
      "loss": 3.9998,
      "step": 118800
    },
    {
      "epoch": 0.24752083333333333,
      "grad_norm": 0.9399318099021912,
      "learning_rate": 0.0002579245559686345,
      "loss": 3.7604,
      "step": 118810
    },
    {
      "epoch": 0.24754166666666666,
      "grad_norm": 0.7536790370941162,
      "learning_rate": 0.0002579177090138371,
      "loss": 3.8438,
      "step": 118820
    },
    {
      "epoch": 0.2475625,
      "grad_norm": 0.7537871599197388,
      "learning_rate": 0.0002579108615928779,
      "loss": 3.9124,
      "step": 118830
    },
    {
      "epoch": 0.24758333333333332,
      "grad_norm": 0.7010511159896851,
      "learning_rate": 0.00025790401370578655,
      "loss": 3.9079,
      "step": 118840
    },
    {
      "epoch": 0.24760416666666665,
      "grad_norm": 0.8280062675476074,
      "learning_rate": 0.00025789716535259255,
      "loss": 3.8854,
      "step": 118850
    },
    {
      "epoch": 0.247625,
      "grad_norm": 0.7945807576179504,
      "learning_rate": 0.0002578903165333255,
      "loss": 4.1321,
      "step": 118860
    },
    {
      "epoch": 0.24764583333333334,
      "grad_norm": 0.8213678598403931,
      "learning_rate": 0.000257883467248015,
      "loss": 3.9425,
      "step": 118870
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 0.9290883541107178,
      "learning_rate": 0.0002578766174966906,
      "loss": 4.0288,
      "step": 118880
    },
    {
      "epoch": 0.2476875,
      "grad_norm": 0.8943524956703186,
      "learning_rate": 0.0002578697672793819,
      "loss": 4.0673,
      "step": 118890
    },
    {
      "epoch": 0.24770833333333334,
      "grad_norm": 0.7366719841957092,
      "learning_rate": 0.0002578629165961185,
      "loss": 4.1376,
      "step": 118900
    },
    {
      "epoch": 0.24772916666666667,
      "grad_norm": 0.9910751581192017,
      "learning_rate": 0.00025785606544693004,
      "loss": 4.0497,
      "step": 118910
    },
    {
      "epoch": 0.24775,
      "grad_norm": 0.7074514627456665,
      "learning_rate": 0.00025784921383184605,
      "loss": 3.9878,
      "step": 118920
    },
    {
      "epoch": 0.24777083333333333,
      "grad_norm": 0.8735138177871704,
      "learning_rate": 0.00025784236175089615,
      "loss": 4.0431,
      "step": 118930
    },
    {
      "epoch": 0.24779166666666666,
      "grad_norm": 0.7740404605865479,
      "learning_rate": 0.00025783550920410996,
      "loss": 4.149,
      "step": 118940
    },
    {
      "epoch": 0.2478125,
      "grad_norm": 0.8047095537185669,
      "learning_rate": 0.00025782865619151696,
      "loss": 3.8229,
      "step": 118950
    },
    {
      "epoch": 0.24783333333333332,
      "grad_norm": 0.7628551125526428,
      "learning_rate": 0.0002578218027131469,
      "loss": 4.182,
      "step": 118960
    },
    {
      "epoch": 0.24785416666666665,
      "grad_norm": 0.7693098783493042,
      "learning_rate": 0.00025781494876902936,
      "loss": 3.9282,
      "step": 118970
    },
    {
      "epoch": 0.247875,
      "grad_norm": 0.8346425890922546,
      "learning_rate": 0.0002578080943591939,
      "loss": 4.0357,
      "step": 118980
    },
    {
      "epoch": 0.24789583333333334,
      "grad_norm": 0.7453978061676025,
      "learning_rate": 0.00025780123948367014,
      "loss": 3.7164,
      "step": 118990
    },
    {
      "epoch": 0.24791666666666667,
      "grad_norm": 0.8718668222427368,
      "learning_rate": 0.0002577943841424877,
      "loss": 4.1066,
      "step": 119000
    },
    {
      "epoch": 0.24791666666666667,
      "eval_loss": 3.768686294555664,
      "eval_runtime": 6.8198,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 119000
    },
    {
      "epoch": 0.2479375,
      "grad_norm": 0.7842354774475098,
      "learning_rate": 0.0002577875283356762,
      "loss": 3.8834,
      "step": 119010
    },
    {
      "epoch": 0.24795833333333334,
      "grad_norm": 0.7425785660743713,
      "learning_rate": 0.0002577806720632652,
      "loss": 3.9325,
      "step": 119020
    },
    {
      "epoch": 0.24797916666666667,
      "grad_norm": 0.8683820366859436,
      "learning_rate": 0.0002577738153252844,
      "loss": 4.0511,
      "step": 119030
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.9253517985343933,
      "learning_rate": 0.0002577669581217634,
      "loss": 4.0533,
      "step": 119040
    },
    {
      "epoch": 0.24802083333333333,
      "grad_norm": 0.7935765385627747,
      "learning_rate": 0.00025776010045273174,
      "loss": 3.8758,
      "step": 119050
    },
    {
      "epoch": 0.24804166666666666,
      "grad_norm": 0.7810953259468079,
      "learning_rate": 0.00025775324231821914,
      "loss": 3.9726,
      "step": 119060
    },
    {
      "epoch": 0.2480625,
      "grad_norm": 0.8001924157142639,
      "learning_rate": 0.0002577463837182552,
      "loss": 3.8272,
      "step": 119070
    },
    {
      "epoch": 0.24808333333333332,
      "grad_norm": 0.8623133897781372,
      "learning_rate": 0.0002577395246528695,
      "loss": 3.9696,
      "step": 119080
    },
    {
      "epoch": 0.24810416666666665,
      "grad_norm": 0.7239261269569397,
      "learning_rate": 0.00025773266512209167,
      "loss": 3.9058,
      "step": 119090
    },
    {
      "epoch": 0.248125,
      "grad_norm": 0.747212827205658,
      "learning_rate": 0.0002577258051259514,
      "loss": 3.9798,
      "step": 119100
    },
    {
      "epoch": 0.24814583333333334,
      "grad_norm": 0.8626038432121277,
      "learning_rate": 0.0002577189446644783,
      "loss": 4.2098,
      "step": 119110
    },
    {
      "epoch": 0.24816666666666667,
      "grad_norm": 0.8032678961753845,
      "learning_rate": 0.000257712083737702,
      "loss": 3.9913,
      "step": 119120
    },
    {
      "epoch": 0.2481875,
      "grad_norm": 0.7454732060432434,
      "learning_rate": 0.00025770522234565214,
      "loss": 3.9241,
      "step": 119130
    },
    {
      "epoch": 0.24820833333333334,
      "grad_norm": 0.7696990370750427,
      "learning_rate": 0.00025769836048835835,
      "loss": 4.0806,
      "step": 119140
    },
    {
      "epoch": 0.24822916666666667,
      "grad_norm": 0.8319581747055054,
      "learning_rate": 0.0002576914981658502,
      "loss": 3.8078,
      "step": 119150
    },
    {
      "epoch": 0.24825,
      "grad_norm": 0.8483098149299622,
      "learning_rate": 0.00025768463537815747,
      "loss": 4.0248,
      "step": 119160
    },
    {
      "epoch": 0.24827083333333333,
      "grad_norm": 0.7671833634376526,
      "learning_rate": 0.00025767777212530975,
      "loss": 3.9812,
      "step": 119170
    },
    {
      "epoch": 0.24829166666666666,
      "grad_norm": 0.8234235048294067,
      "learning_rate": 0.00025767090840733665,
      "loss": 4.081,
      "step": 119180
    },
    {
      "epoch": 0.2483125,
      "grad_norm": 0.7760635614395142,
      "learning_rate": 0.00025766404422426786,
      "loss": 4.1223,
      "step": 119190
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 0.7461920380592346,
      "learning_rate": 0.00025765717957613305,
      "loss": 4.0302,
      "step": 119200
    },
    {
      "epoch": 0.24835416666666665,
      "grad_norm": 0.7822579741477966,
      "learning_rate": 0.0002576503144629618,
      "loss": 4.0482,
      "step": 119210
    },
    {
      "epoch": 0.248375,
      "grad_norm": 0.7806592583656311,
      "learning_rate": 0.00025764344888478384,
      "loss": 4.0356,
      "step": 119220
    },
    {
      "epoch": 0.24839583333333334,
      "grad_norm": 0.8228985667228699,
      "learning_rate": 0.0002576365828416287,
      "loss": 4.0755,
      "step": 119230
    },
    {
      "epoch": 0.24841666666666667,
      "grad_norm": 0.764132022857666,
      "learning_rate": 0.0002576297163335262,
      "loss": 4.1269,
      "step": 119240
    },
    {
      "epoch": 0.2484375,
      "grad_norm": 0.730115532875061,
      "learning_rate": 0.0002576228493605059,
      "loss": 4.1089,
      "step": 119250
    },
    {
      "epoch": 0.24845833333333334,
      "grad_norm": 0.7786586880683899,
      "learning_rate": 0.00025761598192259753,
      "loss": 3.9818,
      "step": 119260
    },
    {
      "epoch": 0.24847916666666667,
      "grad_norm": 0.8063060641288757,
      "learning_rate": 0.00025760911401983064,
      "loss": 3.8088,
      "step": 119270
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.7258913516998291,
      "learning_rate": 0.000257602245652235,
      "loss": 4.141,
      "step": 119280
    },
    {
      "epoch": 0.24852083333333333,
      "grad_norm": 0.7639713883399963,
      "learning_rate": 0.0002575953768198403,
      "loss": 4.1033,
      "step": 119290
    },
    {
      "epoch": 0.24854166666666666,
      "grad_norm": 0.7531896829605103,
      "learning_rate": 0.0002575885075226761,
      "loss": 3.9237,
      "step": 119300
    },
    {
      "epoch": 0.2485625,
      "grad_norm": 0.9294225573539734,
      "learning_rate": 0.0002575816377607722,
      "loss": 4.2662,
      "step": 119310
    },
    {
      "epoch": 0.24858333333333332,
      "grad_norm": 0.7445018887519836,
      "learning_rate": 0.00025757476753415814,
      "loss": 4.0948,
      "step": 119320
    },
    {
      "epoch": 0.24860416666666665,
      "grad_norm": 0.9262980818748474,
      "learning_rate": 0.0002575678968428637,
      "loss": 4.2286,
      "step": 119330
    },
    {
      "epoch": 0.248625,
      "grad_norm": 0.8216423392295837,
      "learning_rate": 0.00025756102568691853,
      "loss": 4.011,
      "step": 119340
    },
    {
      "epoch": 0.24864583333333334,
      "grad_norm": 0.7006592750549316,
      "learning_rate": 0.0002575541540663523,
      "loss": 3.9549,
      "step": 119350
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 0.7919945120811462,
      "learning_rate": 0.0002575472819811947,
      "loss": 3.9103,
      "step": 119360
    },
    {
      "epoch": 0.2486875,
      "grad_norm": 0.7959635257720947,
      "learning_rate": 0.0002575404094314754,
      "loss": 3.9809,
      "step": 119370
    },
    {
      "epoch": 0.24870833333333334,
      "grad_norm": 1.586179494857788,
      "learning_rate": 0.00025753353641722406,
      "loss": 3.98,
      "step": 119380
    },
    {
      "epoch": 0.24872916666666667,
      "grad_norm": 0.7433379888534546,
      "learning_rate": 0.0002575266629384705,
      "loss": 4.1868,
      "step": 119390
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.7380263805389404,
      "learning_rate": 0.00025751978899524425,
      "loss": 4.0761,
      "step": 119400
    },
    {
      "epoch": 0.24877083333333333,
      "grad_norm": 0.8261613845825195,
      "learning_rate": 0.0002575129145875751,
      "loss": 3.9008,
      "step": 119410
    },
    {
      "epoch": 0.24879166666666666,
      "grad_norm": 0.7755618691444397,
      "learning_rate": 0.0002575060397154927,
      "loss": 3.9671,
      "step": 119420
    },
    {
      "epoch": 0.2488125,
      "grad_norm": 0.7271838188171387,
      "learning_rate": 0.0002574991643790268,
      "loss": 4.1076,
      "step": 119430
    },
    {
      "epoch": 0.24883333333333332,
      "grad_norm": 0.8306275606155396,
      "learning_rate": 0.00025749228857820697,
      "loss": 4.06,
      "step": 119440
    },
    {
      "epoch": 0.24885416666666665,
      "grad_norm": 0.7589442133903503,
      "learning_rate": 0.0002574854123130631,
      "loss": 4.1281,
      "step": 119450
    },
    {
      "epoch": 0.248875,
      "grad_norm": 0.771381139755249,
      "learning_rate": 0.0002574785355836247,
      "loss": 4.088,
      "step": 119460
    },
    {
      "epoch": 0.24889583333333334,
      "grad_norm": 0.7217908501625061,
      "learning_rate": 0.00025747165838992163,
      "loss": 3.8991,
      "step": 119470
    },
    {
      "epoch": 0.24891666666666667,
      "grad_norm": 0.874540388584137,
      "learning_rate": 0.00025746478073198357,
      "loss": 4.072,
      "step": 119480
    },
    {
      "epoch": 0.2489375,
      "grad_norm": 0.8366343975067139,
      "learning_rate": 0.0002574579026098401,
      "loss": 3.9901,
      "step": 119490
    },
    {
      "epoch": 0.24895833333333334,
      "grad_norm": 0.7788416743278503,
      "learning_rate": 0.0002574510240235211,
      "loss": 3.9408,
      "step": 119500
    },
    {
      "epoch": 0.24897916666666667,
      "grad_norm": 0.7872400283813477,
      "learning_rate": 0.0002574441449730562,
      "loss": 4.0959,
      "step": 119510
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.7950886487960815,
      "learning_rate": 0.00025743726545847514,
      "loss": 4.2229,
      "step": 119520
    },
    {
      "epoch": 0.24902083333333333,
      "grad_norm": 0.7729738354682922,
      "learning_rate": 0.0002574303854798076,
      "loss": 4.0654,
      "step": 119530
    },
    {
      "epoch": 0.24904166666666666,
      "grad_norm": 0.8049175143241882,
      "learning_rate": 0.0002574235050370833,
      "loss": 4.0553,
      "step": 119540
    },
    {
      "epoch": 0.2490625,
      "grad_norm": 0.839716374874115,
      "learning_rate": 0.000257416624130332,
      "loss": 4.0786,
      "step": 119550
    },
    {
      "epoch": 0.24908333333333332,
      "grad_norm": 0.7389146685600281,
      "learning_rate": 0.0002574097427595834,
      "loss": 4.0076,
      "step": 119560
    },
    {
      "epoch": 0.24910416666666665,
      "grad_norm": 0.7975724935531616,
      "learning_rate": 0.0002574028609248672,
      "loss": 4.0077,
      "step": 119570
    },
    {
      "epoch": 0.249125,
      "grad_norm": 0.7808313965797424,
      "learning_rate": 0.00025739597862621316,
      "loss": 4.0474,
      "step": 119580
    },
    {
      "epoch": 0.24914583333333334,
      "grad_norm": 0.8921520709991455,
      "learning_rate": 0.000257389095863651,
      "loss": 4.1233,
      "step": 119590
    },
    {
      "epoch": 0.24916666666666668,
      "grad_norm": 0.8163062930107117,
      "learning_rate": 0.0002573822126372105,
      "loss": 4.1781,
      "step": 119600
    },
    {
      "epoch": 0.2491875,
      "grad_norm": 0.8028217554092407,
      "learning_rate": 0.00025737532894692125,
      "loss": 3.9752,
      "step": 119610
    },
    {
      "epoch": 0.24920833333333334,
      "grad_norm": 0.7370765805244446,
      "learning_rate": 0.00025736844479281316,
      "loss": 4.0886,
      "step": 119620
    },
    {
      "epoch": 0.24922916666666667,
      "grad_norm": 0.7420530319213867,
      "learning_rate": 0.0002573615601749159,
      "loss": 4.0351,
      "step": 119630
    },
    {
      "epoch": 0.24925,
      "grad_norm": 0.7462126612663269,
      "learning_rate": 0.0002573546750932592,
      "loss": 4.1356,
      "step": 119640
    },
    {
      "epoch": 0.24927083333333333,
      "grad_norm": 0.8458168506622314,
      "learning_rate": 0.0002573477895478727,
      "loss": 3.9426,
      "step": 119650
    },
    {
      "epoch": 0.24929166666666666,
      "grad_norm": 0.7096228003501892,
      "learning_rate": 0.0002573409035387863,
      "loss": 4.0283,
      "step": 119660
    },
    {
      "epoch": 0.2493125,
      "grad_norm": 0.8442222476005554,
      "learning_rate": 0.00025733401706602975,
      "loss": 3.9729,
      "step": 119670
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 0.8209073543548584,
      "learning_rate": 0.00025732713012963267,
      "loss": 4.2171,
      "step": 119680
    },
    {
      "epoch": 0.24935416666666665,
      "grad_norm": 0.7642890810966492,
      "learning_rate": 0.0002573202427296249,
      "loss": 4.0888,
      "step": 119690
    },
    {
      "epoch": 0.249375,
      "grad_norm": 0.830155611038208,
      "learning_rate": 0.00025731335486603614,
      "loss": 4.1061,
      "step": 119700
    },
    {
      "epoch": 0.24939583333333334,
      "grad_norm": 0.7796066999435425,
      "learning_rate": 0.0002573064665388961,
      "loss": 4.1133,
      "step": 119710
    },
    {
      "epoch": 0.24941666666666668,
      "grad_norm": 0.7759795784950256,
      "learning_rate": 0.0002572995777482347,
      "loss": 4.2144,
      "step": 119720
    },
    {
      "epoch": 0.2494375,
      "grad_norm": 0.8090415596961975,
      "learning_rate": 0.0002572926884940815,
      "loss": 4.0919,
      "step": 119730
    },
    {
      "epoch": 0.24945833333333334,
      "grad_norm": 0.7261567711830139,
      "learning_rate": 0.00025728579877646647,
      "loss": 4.0928,
      "step": 119740
    },
    {
      "epoch": 0.24947916666666667,
      "grad_norm": 0.750930905342102,
      "learning_rate": 0.00025727890859541917,
      "loss": 4.1287,
      "step": 119750
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.8427805304527283,
      "learning_rate": 0.0002572720179509695,
      "loss": 3.9851,
      "step": 119760
    },
    {
      "epoch": 0.24952083333333333,
      "grad_norm": 0.7906970977783203,
      "learning_rate": 0.00025726512684314716,
      "loss": 4.1358,
      "step": 119770
    },
    {
      "epoch": 0.24954166666666666,
      "grad_norm": 0.7726696133613586,
      "learning_rate": 0.0002572582352719819,
      "loss": 3.8387,
      "step": 119780
    },
    {
      "epoch": 0.2495625,
      "grad_norm": 0.767365038394928,
      "learning_rate": 0.00025725134323750353,
      "loss": 4.0456,
      "step": 119790
    },
    {
      "epoch": 0.24958333333333332,
      "grad_norm": 0.824571967124939,
      "learning_rate": 0.00025724445073974187,
      "loss": 4.1853,
      "step": 119800
    },
    {
      "epoch": 0.24960416666666665,
      "grad_norm": 0.8827345371246338,
      "learning_rate": 0.00025723755777872653,
      "loss": 4.0543,
      "step": 119810
    },
    {
      "epoch": 0.249625,
      "grad_norm": 0.9336124062538147,
      "learning_rate": 0.00025723066435448744,
      "loss": 4.1255,
      "step": 119820
    },
    {
      "epoch": 0.24964583333333334,
      "grad_norm": 0.8216081857681274,
      "learning_rate": 0.00025722377046705436,
      "loss": 4.125,
      "step": 119830
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 0.773063063621521,
      "learning_rate": 0.000257216876116457,
      "loss": 3.9494,
      "step": 119840
    },
    {
      "epoch": 0.2496875,
      "grad_norm": 0.9559702277183533,
      "learning_rate": 0.00025720998130272516,
      "loss": 3.9955,
      "step": 119850
    },
    {
      "epoch": 0.24970833333333334,
      "grad_norm": 0.7630310654640198,
      "learning_rate": 0.0002572030860258887,
      "loss": 3.8381,
      "step": 119860
    },
    {
      "epoch": 0.24972916666666667,
      "grad_norm": 0.7844847440719604,
      "learning_rate": 0.00025719619028597725,
      "loss": 4.0848,
      "step": 119870
    },
    {
      "epoch": 0.24975,
      "grad_norm": 0.8164692521095276,
      "learning_rate": 0.00025718929408302075,
      "loss": 4.079,
      "step": 119880
    },
    {
      "epoch": 0.24977083333333333,
      "grad_norm": 0.7892867922782898,
      "learning_rate": 0.00025718239741704893,
      "loss": 3.9386,
      "step": 119890
    },
    {
      "epoch": 0.24979166666666666,
      "grad_norm": 0.7765752077102661,
      "learning_rate": 0.00025717550028809156,
      "loss": 3.9608,
      "step": 119900
    },
    {
      "epoch": 0.2498125,
      "grad_norm": 0.8272226452827454,
      "learning_rate": 0.00025716860269617845,
      "loss": 4.0793,
      "step": 119910
    },
    {
      "epoch": 0.24983333333333332,
      "grad_norm": 0.9421401619911194,
      "learning_rate": 0.00025716170464133936,
      "loss": 4.0078,
      "step": 119920
    },
    {
      "epoch": 0.24985416666666665,
      "grad_norm": 0.760209858417511,
      "learning_rate": 0.0002571548061236042,
      "loss": 4.0027,
      "step": 119930
    },
    {
      "epoch": 0.249875,
      "grad_norm": 0.8615164756774902,
      "learning_rate": 0.00025714790714300264,
      "loss": 3.8754,
      "step": 119940
    },
    {
      "epoch": 0.24989583333333334,
      "grad_norm": 0.7505895495414734,
      "learning_rate": 0.0002571410076995646,
      "loss": 4.0209,
      "step": 119950
    },
    {
      "epoch": 0.24991666666666668,
      "grad_norm": 0.829608678817749,
      "learning_rate": 0.0002571341077933197,
      "loss": 4.0209,
      "step": 119960
    },
    {
      "epoch": 0.2499375,
      "grad_norm": 0.7743048667907715,
      "learning_rate": 0.00025712720742429796,
      "loss": 4.0079,
      "step": 119970
    },
    {
      "epoch": 0.24995833333333334,
      "grad_norm": 0.840973436832428,
      "learning_rate": 0.00025712030659252904,
      "loss": 4.0031,
      "step": 119980
    },
    {
      "epoch": 0.24997916666666667,
      "grad_norm": 0.7758581042289734,
      "learning_rate": 0.0002571134052980428,
      "loss": 3.9615,
      "step": 119990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9052844047546387,
      "learning_rate": 0.0002571065035408691,
      "loss": 3.9003,
      "step": 120000
    },
    {
      "epoch": 0.25,
      "eval_loss": 3.7754180431365967,
      "eval_runtime": 6.7899,
      "eval_samples_per_second": 1.473,
      "eval_steps_per_second": 0.442,
      "step": 120000
    },
    {
      "epoch": 0.25002083333333336,
      "grad_norm": 0.852996289730072,
      "learning_rate": 0.0002570996013210376,
      "loss": 3.9981,
      "step": 120010
    },
    {
      "epoch": 0.25004166666666666,
      "grad_norm": 0.7868165373802185,
      "learning_rate": 0.0002570926986385783,
      "loss": 4.0361,
      "step": 120020
    },
    {
      "epoch": 0.2500625,
      "grad_norm": 0.8447722792625427,
      "learning_rate": 0.0002570857954935209,
      "loss": 4.0253,
      "step": 120030
    },
    {
      "epoch": 0.2500833333333333,
      "grad_norm": 0.7810567617416382,
      "learning_rate": 0.0002570788918858952,
      "loss": 3.9655,
      "step": 120040
    },
    {
      "epoch": 0.2501041666666667,
      "grad_norm": 0.7808445692062378,
      "learning_rate": 0.00025707198781573117,
      "loss": 3.953,
      "step": 120050
    },
    {
      "epoch": 0.250125,
      "grad_norm": 0.8289592266082764,
      "learning_rate": 0.0002570650832830585,
      "loss": 4.1799,
      "step": 120060
    },
    {
      "epoch": 0.25014583333333335,
      "grad_norm": 0.7406187653541565,
      "learning_rate": 0.00025705817828790707,
      "loss": 4.0432,
      "step": 120070
    },
    {
      "epoch": 0.25016666666666665,
      "grad_norm": 0.8261538147926331,
      "learning_rate": 0.0002570512728303067,
      "loss": 4.0466,
      "step": 120080
    },
    {
      "epoch": 0.2501875,
      "grad_norm": 0.8142066597938538,
      "learning_rate": 0.0002570443669102871,
      "loss": 3.984,
      "step": 120090
    },
    {
      "epoch": 0.2502083333333333,
      "grad_norm": 0.8011848330497742,
      "learning_rate": 0.00025703746052787826,
      "loss": 3.9972,
      "step": 120100
    },
    {
      "epoch": 0.25022916666666667,
      "grad_norm": 0.7299902439117432,
      "learning_rate": 0.00025703055368311,
      "loss": 4.0353,
      "step": 120110
    },
    {
      "epoch": 0.25025,
      "grad_norm": 1.0321606397628784,
      "learning_rate": 0.00025702364637601206,
      "loss": 3.8509,
      "step": 120120
    },
    {
      "epoch": 0.25027083333333333,
      "grad_norm": 0.8863391280174255,
      "learning_rate": 0.00025701673860661434,
      "loss": 4.1061,
      "step": 120130
    },
    {
      "epoch": 0.2502916666666667,
      "grad_norm": 0.8796961903572083,
      "learning_rate": 0.0002570098303749467,
      "loss": 4.0582,
      "step": 120140
    },
    {
      "epoch": 0.2503125,
      "grad_norm": 0.7431063652038574,
      "learning_rate": 0.00025700292168103893,
      "loss": 4.0655,
      "step": 120150
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 0.7283238172531128,
      "learning_rate": 0.00025699601252492094,
      "loss": 3.8755,
      "step": 120160
    },
    {
      "epoch": 0.25035416666666666,
      "grad_norm": 0.8338326215744019,
      "learning_rate": 0.00025698910290662246,
      "loss": 3.8575,
      "step": 120170
    },
    {
      "epoch": 0.250375,
      "grad_norm": 0.9583545923233032,
      "learning_rate": 0.00025698219282617343,
      "loss": 4.2066,
      "step": 120180
    },
    {
      "epoch": 0.2503958333333333,
      "grad_norm": 0.9498388171195984,
      "learning_rate": 0.00025697528228360366,
      "loss": 4.0115,
      "step": 120190
    },
    {
      "epoch": 0.2504166666666667,
      "grad_norm": 0.8243789076805115,
      "learning_rate": 0.000256968371278943,
      "loss": 3.9128,
      "step": 120200
    },
    {
      "epoch": 0.2504375,
      "grad_norm": 0.7925980091094971,
      "learning_rate": 0.00025696145981222133,
      "loss": 3.9834,
      "step": 120210
    },
    {
      "epoch": 0.25045833333333334,
      "grad_norm": 0.8405677676200867,
      "learning_rate": 0.00025695454788346857,
      "loss": 4.1027,
      "step": 120220
    },
    {
      "epoch": 0.25047916666666664,
      "grad_norm": 0.8396203517913818,
      "learning_rate": 0.00025694763549271443,
      "loss": 3.9529,
      "step": 120230
    },
    {
      "epoch": 0.2505,
      "grad_norm": 0.7629785537719727,
      "learning_rate": 0.0002569407226399888,
      "loss": 4.1613,
      "step": 120240
    },
    {
      "epoch": 0.25052083333333336,
      "grad_norm": 0.7337431907653809,
      "learning_rate": 0.00025693380932532165,
      "loss": 4.1119,
      "step": 120250
    },
    {
      "epoch": 0.25054166666666666,
      "grad_norm": 1.0808873176574707,
      "learning_rate": 0.00025692689554874273,
      "loss": 4.0923,
      "step": 120260
    },
    {
      "epoch": 0.2505625,
      "grad_norm": 0.7928323149681091,
      "learning_rate": 0.00025691998131028193,
      "loss": 3.9687,
      "step": 120270
    },
    {
      "epoch": 0.2505833333333333,
      "grad_norm": 0.8542759418487549,
      "learning_rate": 0.00025691306660996917,
      "loss": 4.0218,
      "step": 120280
    },
    {
      "epoch": 0.2506041666666667,
      "grad_norm": 0.7886260151863098,
      "learning_rate": 0.0002569061514478343,
      "loss": 3.9033,
      "step": 120290
    },
    {
      "epoch": 0.250625,
      "grad_norm": 0.805114209651947,
      "learning_rate": 0.0002568992358239071,
      "loss": 4.0109,
      "step": 120300
    },
    {
      "epoch": 0.25064583333333335,
      "grad_norm": 0.7324678301811218,
      "learning_rate": 0.00025689231973821756,
      "loss": 3.9972,
      "step": 120310
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 0.7637495994567871,
      "learning_rate": 0.0002568854031907955,
      "loss": 4.0607,
      "step": 120320
    },
    {
      "epoch": 0.2506875,
      "grad_norm": 0.7116578221321106,
      "learning_rate": 0.00025687848618167087,
      "loss": 4.0244,
      "step": 120330
    },
    {
      "epoch": 0.2507083333333333,
      "grad_norm": 0.8637128472328186,
      "learning_rate": 0.0002568715687108734,
      "loss": 4.0782,
      "step": 120340
    },
    {
      "epoch": 0.25072916666666667,
      "grad_norm": 0.8300991654396057,
      "learning_rate": 0.0002568646507784331,
      "loss": 4.0535,
      "step": 120350
    },
    {
      "epoch": 0.25075,
      "grad_norm": 0.7906831502914429,
      "learning_rate": 0.0002568577323843798,
      "loss": 4.1965,
      "step": 120360
    },
    {
      "epoch": 0.25077083333333333,
      "grad_norm": 0.736774206161499,
      "learning_rate": 0.0002568508135287434,
      "loss": 4.1095,
      "step": 120370
    },
    {
      "epoch": 0.2507916666666667,
      "grad_norm": 0.7320414781570435,
      "learning_rate": 0.00025684389421155374,
      "loss": 4.0087,
      "step": 120380
    },
    {
      "epoch": 0.2508125,
      "grad_norm": 0.8649514317512512,
      "learning_rate": 0.0002568369744328408,
      "loss": 4.0201,
      "step": 120390
    },
    {
      "epoch": 0.25083333333333335,
      "grad_norm": 0.7477141618728638,
      "learning_rate": 0.00025683005419263437,
      "loss": 4.0339,
      "step": 120400
    },
    {
      "epoch": 0.25085416666666666,
      "grad_norm": 0.7707563042640686,
      "learning_rate": 0.0002568231334909644,
      "loss": 4.0808,
      "step": 120410
    },
    {
      "epoch": 0.250875,
      "grad_norm": 0.7721552848815918,
      "learning_rate": 0.0002568162123278608,
      "loss": 3.8961,
      "step": 120420
    },
    {
      "epoch": 0.2508958333333333,
      "grad_norm": 0.7362686395645142,
      "learning_rate": 0.00025680929070335347,
      "loss": 4.1186,
      "step": 120430
    },
    {
      "epoch": 0.2509166666666667,
      "grad_norm": 0.8006197214126587,
      "learning_rate": 0.00025680236861747225,
      "loss": 4.3087,
      "step": 120440
    },
    {
      "epoch": 0.2509375,
      "grad_norm": 1.0592063665390015,
      "learning_rate": 0.000256795446070247,
      "loss": 4.1524,
      "step": 120450
    },
    {
      "epoch": 0.25095833333333334,
      "grad_norm": 0.8232142329216003,
      "learning_rate": 0.0002567885230617078,
      "loss": 3.9204,
      "step": 120460
    },
    {
      "epoch": 0.25097916666666664,
      "grad_norm": 0.75125652551651,
      "learning_rate": 0.0002567815995918845,
      "loss": 3.9756,
      "step": 120470
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.9341431260108948,
      "learning_rate": 0.0002567746756608068,
      "loss": 4.1065,
      "step": 120480
    },
    {
      "epoch": 0.25102083333333336,
      "grad_norm": 0.9099838137626648,
      "learning_rate": 0.00025676775126850485,
      "loss": 4.0631,
      "step": 120490
    },
    {
      "epoch": 0.25104166666666666,
      "grad_norm": 0.7461243271827698,
      "learning_rate": 0.0002567608264150085,
      "loss": 3.9998,
      "step": 120500
    },
    {
      "epoch": 0.2510625,
      "grad_norm": 0.8527719378471375,
      "learning_rate": 0.0002567539011003476,
      "loss": 4.1424,
      "step": 120510
    },
    {
      "epoch": 0.2510833333333333,
      "grad_norm": 0.7737941145896912,
      "learning_rate": 0.0002567469753245521,
      "loss": 4.0665,
      "step": 120520
    },
    {
      "epoch": 0.2511041666666667,
      "grad_norm": 0.7928746342658997,
      "learning_rate": 0.0002567400490876519,
      "loss": 3.8303,
      "step": 120530
    },
    {
      "epoch": 0.251125,
      "grad_norm": 0.807571530342102,
      "learning_rate": 0.000256733122389677,
      "loss": 3.9174,
      "step": 120540
    },
    {
      "epoch": 0.25114583333333335,
      "grad_norm": 0.772732138633728,
      "learning_rate": 0.00025672619523065725,
      "loss": 3.9886,
      "step": 120550
    },
    {
      "epoch": 0.25116666666666665,
      "grad_norm": 0.823101282119751,
      "learning_rate": 0.00025671926761062255,
      "loss": 4.1013,
      "step": 120560
    },
    {
      "epoch": 0.2511875,
      "grad_norm": 0.7512947916984558,
      "learning_rate": 0.00025671233952960287,
      "loss": 4.0986,
      "step": 120570
    },
    {
      "epoch": 0.2512083333333333,
      "grad_norm": 0.7955498695373535,
      "learning_rate": 0.0002567054109876281,
      "loss": 3.8554,
      "step": 120580
    },
    {
      "epoch": 0.25122916666666667,
      "grad_norm": 0.8639906644821167,
      "learning_rate": 0.0002566984819847282,
      "loss": 3.7265,
      "step": 120590
    },
    {
      "epoch": 0.25125,
      "grad_norm": 0.7537258267402649,
      "learning_rate": 0.0002566915525209331,
      "loss": 3.9962,
      "step": 120600
    },
    {
      "epoch": 0.25127083333333333,
      "grad_norm": 0.9181312918663025,
      "learning_rate": 0.00025668462259627274,
      "loss": 4.1301,
      "step": 120610
    },
    {
      "epoch": 0.2512916666666667,
      "grad_norm": 0.7268566489219666,
      "learning_rate": 0.00025667769221077706,
      "loss": 4.0217,
      "step": 120620
    },
    {
      "epoch": 0.2513125,
      "grad_norm": 0.7904773354530334,
      "learning_rate": 0.0002566707613644759,
      "loss": 3.9419,
      "step": 120630
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 0.7099806666374207,
      "learning_rate": 0.0002566638300573993,
      "loss": 3.8103,
      "step": 120640
    },
    {
      "epoch": 0.25135416666666666,
      "grad_norm": 0.7188153862953186,
      "learning_rate": 0.0002566568982895772,
      "loss": 4.0453,
      "step": 120650
    },
    {
      "epoch": 0.251375,
      "grad_norm": 0.7622998356819153,
      "learning_rate": 0.0002566499660610395,
      "loss": 4.0778,
      "step": 120660
    },
    {
      "epoch": 0.2513958333333333,
      "grad_norm": 0.9113832116127014,
      "learning_rate": 0.00025664303337181614,
      "loss": 4.0375,
      "step": 120670
    },
    {
      "epoch": 0.2514166666666667,
      "grad_norm": 0.8050113320350647,
      "learning_rate": 0.00025663610022193717,
      "loss": 4.0204,
      "step": 120680
    },
    {
      "epoch": 0.2514375,
      "grad_norm": 0.8313995003700256,
      "learning_rate": 0.0002566291666114324,
      "loss": 4.1514,
      "step": 120690
    },
    {
      "epoch": 0.25145833333333334,
      "grad_norm": 0.7649819850921631,
      "learning_rate": 0.00025662223254033185,
      "loss": 4.1658,
      "step": 120700
    },
    {
      "epoch": 0.25147916666666664,
      "grad_norm": 0.7751843333244324,
      "learning_rate": 0.0002566152980086654,
      "loss": 4.0607,
      "step": 120710
    },
    {
      "epoch": 0.2515,
      "grad_norm": 0.7304513454437256,
      "learning_rate": 0.0002566083630164631,
      "loss": 3.9477,
      "step": 120720
    },
    {
      "epoch": 0.25152083333333336,
      "grad_norm": 0.8039370775222778,
      "learning_rate": 0.00025660142756375493,
      "loss": 4.1139,
      "step": 120730
    },
    {
      "epoch": 0.25154166666666666,
      "grad_norm": 0.7669395804405212,
      "learning_rate": 0.0002565944916505707,
      "loss": 3.8513,
      "step": 120740
    },
    {
      "epoch": 0.2515625,
      "grad_norm": 0.7637998461723328,
      "learning_rate": 0.00025658755527694055,
      "loss": 4.1306,
      "step": 120750
    },
    {
      "epoch": 0.2515833333333333,
      "grad_norm": 0.7825281023979187,
      "learning_rate": 0.00025658061844289424,
      "loss": 4.0452,
      "step": 120760
    },
    {
      "epoch": 0.2516041666666667,
      "grad_norm": 0.7332068681716919,
      "learning_rate": 0.00025657368114846197,
      "loss": 4.0014,
      "step": 120770
    },
    {
      "epoch": 0.251625,
      "grad_norm": 0.7762925028800964,
      "learning_rate": 0.0002565667433936735,
      "loss": 3.8323,
      "step": 120780
    },
    {
      "epoch": 0.25164583333333335,
      "grad_norm": 0.8468900918960571,
      "learning_rate": 0.0002565598051785589,
      "loss": 4.0335,
      "step": 120790
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 0.9308092594146729,
      "learning_rate": 0.0002565528665031481,
      "loss": 3.8706,
      "step": 120800
    },
    {
      "epoch": 0.2516875,
      "grad_norm": 0.8974379301071167,
      "learning_rate": 0.0002565459273674711,
      "loss": 4.2365,
      "step": 120810
    },
    {
      "epoch": 0.2517083333333333,
      "grad_norm": 0.7336397767066956,
      "learning_rate": 0.0002565389877715579,
      "loss": 4.2659,
      "step": 120820
    },
    {
      "epoch": 0.25172916666666667,
      "grad_norm": 0.7499676942825317,
      "learning_rate": 0.00025653204771543844,
      "loss": 4.1606,
      "step": 120830
    },
    {
      "epoch": 0.25175,
      "grad_norm": 1.7117737531661987,
      "learning_rate": 0.0002565251071991427,
      "loss": 3.9819,
      "step": 120840
    },
    {
      "epoch": 0.25177083333333333,
      "grad_norm": 0.8957133293151855,
      "learning_rate": 0.0002565181662227006,
      "loss": 3.9928,
      "step": 120850
    },
    {
      "epoch": 0.2517916666666667,
      "grad_norm": 0.732972264289856,
      "learning_rate": 0.0002565112247861423,
      "loss": 3.931,
      "step": 120860
    },
    {
      "epoch": 0.2518125,
      "grad_norm": 0.7319002747535706,
      "learning_rate": 0.0002565042828894976,
      "loss": 4.0362,
      "step": 120870
    },
    {
      "epoch": 0.25183333333333335,
      "grad_norm": 0.7910223603248596,
      "learning_rate": 0.0002564973405327965,
      "loss": 4.0767,
      "step": 120880
    },
    {
      "epoch": 0.25185416666666666,
      "grad_norm": 0.8171082735061646,
      "learning_rate": 0.0002564903977160692,
      "loss": 3.9975,
      "step": 120890
    },
    {
      "epoch": 0.251875,
      "grad_norm": 0.7588559985160828,
      "learning_rate": 0.00025648345443934537,
      "loss": 4.0266,
      "step": 120900
    },
    {
      "epoch": 0.2518958333333333,
      "grad_norm": 0.7761380076408386,
      "learning_rate": 0.00025647651070265524,
      "loss": 3.8366,
      "step": 120910
    },
    {
      "epoch": 0.2519166666666667,
      "grad_norm": 0.8498647212982178,
      "learning_rate": 0.0002564695665060287,
      "loss": 4.1375,
      "step": 120920
    },
    {
      "epoch": 0.2519375,
      "grad_norm": 0.7692264914512634,
      "learning_rate": 0.00025646262184949583,
      "loss": 3.8915,
      "step": 120930
    },
    {
      "epoch": 0.25195833333333334,
      "grad_norm": 0.7521124482154846,
      "learning_rate": 0.00025645567673308656,
      "loss": 4.1299,
      "step": 120940
    },
    {
      "epoch": 0.25197916666666664,
      "grad_norm": 0.8272421360015869,
      "learning_rate": 0.0002564487311568309,
      "loss": 4.13,
      "step": 120950
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.8320716619491577,
      "learning_rate": 0.0002564417851207588,
      "loss": 4.1352,
      "step": 120960
    },
    {
      "epoch": 0.25202083333333336,
      "grad_norm": 0.760227620601654,
      "learning_rate": 0.0002564348386249004,
      "loss": 4.038,
      "step": 120970
    },
    {
      "epoch": 0.25204166666666666,
      "grad_norm": 0.7944304943084717,
      "learning_rate": 0.00025642789166928554,
      "loss": 4.1943,
      "step": 120980
    },
    {
      "epoch": 0.2520625,
      "grad_norm": 0.7969647645950317,
      "learning_rate": 0.0002564209442539444,
      "loss": 4.0014,
      "step": 120990
    },
    {
      "epoch": 0.2520833333333333,
      "grad_norm": 0.7816965579986572,
      "learning_rate": 0.0002564139963789069,
      "loss": 3.9331,
      "step": 121000
    },
    {
      "epoch": 0.2520833333333333,
      "eval_loss": 3.7839157581329346,
      "eval_runtime": 6.8046,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 121000
    },
    {
      "epoch": 0.2521041666666667,
      "grad_norm": 0.8597163558006287,
      "learning_rate": 0.000256407048044203,
      "loss": 4.0878,
      "step": 121010
    },
    {
      "epoch": 0.252125,
      "grad_norm": 0.8218895196914673,
      "learning_rate": 0.00025640009924986283,
      "loss": 3.9674,
      "step": 121020
    },
    {
      "epoch": 0.25214583333333335,
      "grad_norm": 0.9917327761650085,
      "learning_rate": 0.0002563931499959163,
      "loss": 3.9832,
      "step": 121030
    },
    {
      "epoch": 0.25216666666666665,
      "grad_norm": 0.8570525050163269,
      "learning_rate": 0.0002563862002823935,
      "loss": 3.9264,
      "step": 121040
    },
    {
      "epoch": 0.2521875,
      "grad_norm": 0.8554542064666748,
      "learning_rate": 0.0002563792501093244,
      "loss": 4.0652,
      "step": 121050
    },
    {
      "epoch": 0.2522083333333333,
      "grad_norm": 0.8909022212028503,
      "learning_rate": 0.0002563722994767391,
      "loss": 3.9046,
      "step": 121060
    },
    {
      "epoch": 0.25222916666666667,
      "grad_norm": 0.8460888266563416,
      "learning_rate": 0.0002563653483846675,
      "loss": 3.9017,
      "step": 121070
    },
    {
      "epoch": 0.25225,
      "grad_norm": 0.8429702520370483,
      "learning_rate": 0.0002563583968331398,
      "loss": 4.0379,
      "step": 121080
    },
    {
      "epoch": 0.25227083333333333,
      "grad_norm": 0.7411155700683594,
      "learning_rate": 0.0002563514448221858,
      "loss": 4.0623,
      "step": 121090
    },
    {
      "epoch": 0.2522916666666667,
      "grad_norm": 0.7897066473960876,
      "learning_rate": 0.00025634449235183577,
      "loss": 4.025,
      "step": 121100
    },
    {
      "epoch": 0.2523125,
      "grad_norm": 0.8218579292297363,
      "learning_rate": 0.00025633753942211953,
      "loss": 4.1498,
      "step": 121110
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 0.7651854157447815,
      "learning_rate": 0.00025633058603306727,
      "loss": 3.8794,
      "step": 121120
    },
    {
      "epoch": 0.25235416666666666,
      "grad_norm": 0.766977071762085,
      "learning_rate": 0.00025632363218470897,
      "loss": 4.1366,
      "step": 121130
    },
    {
      "epoch": 0.252375,
      "grad_norm": 0.7780105471611023,
      "learning_rate": 0.00025631667787707465,
      "loss": 3.8762,
      "step": 121140
    },
    {
      "epoch": 0.2523958333333333,
      "grad_norm": 0.7622388005256653,
      "learning_rate": 0.00025630972311019436,
      "loss": 4.0903,
      "step": 121150
    },
    {
      "epoch": 0.2524166666666667,
      "grad_norm": 0.8516732454299927,
      "learning_rate": 0.00025630276788409813,
      "loss": 4.0453,
      "step": 121160
    },
    {
      "epoch": 0.2524375,
      "grad_norm": 0.8586606979370117,
      "learning_rate": 0.00025629581219881604,
      "loss": 3.9979,
      "step": 121170
    },
    {
      "epoch": 0.25245833333333334,
      "grad_norm": 0.7379506230354309,
      "learning_rate": 0.0002562888560543781,
      "loss": 3.8626,
      "step": 121180
    },
    {
      "epoch": 0.25247916666666664,
      "grad_norm": 0.9342702031135559,
      "learning_rate": 0.0002562818994508144,
      "loss": 4.1094,
      "step": 121190
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.7761154174804688,
      "learning_rate": 0.00025627494238815495,
      "loss": 3.9119,
      "step": 121200
    },
    {
      "epoch": 0.25252083333333336,
      "grad_norm": 0.8108665943145752,
      "learning_rate": 0.0002562679848664298,
      "loss": 4.1691,
      "step": 121210
    },
    {
      "epoch": 0.25254166666666666,
      "grad_norm": 0.8148819208145142,
      "learning_rate": 0.00025626102688566907,
      "loss": 4.2768,
      "step": 121220
    },
    {
      "epoch": 0.2525625,
      "grad_norm": 0.7536527514457703,
      "learning_rate": 0.00025625406844590273,
      "loss": 3.8029,
      "step": 121230
    },
    {
      "epoch": 0.2525833333333333,
      "grad_norm": 0.8047857880592346,
      "learning_rate": 0.00025624710954716087,
      "loss": 4.0111,
      "step": 121240
    },
    {
      "epoch": 0.2526041666666667,
      "grad_norm": 0.775425136089325,
      "learning_rate": 0.0002562401501894735,
      "loss": 4.0948,
      "step": 121250
    },
    {
      "epoch": 0.252625,
      "grad_norm": 0.7965347170829773,
      "learning_rate": 0.0002562331903728708,
      "loss": 3.9911,
      "step": 121260
    },
    {
      "epoch": 0.25264583333333335,
      "grad_norm": 0.769024670124054,
      "learning_rate": 0.0002562262300973828,
      "loss": 4.092,
      "step": 121270
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 0.8852291107177734,
      "learning_rate": 0.0002562192693630395,
      "loss": 4.0594,
      "step": 121280
    },
    {
      "epoch": 0.2526875,
      "grad_norm": 0.8005444407463074,
      "learning_rate": 0.000256212308169871,
      "loss": 3.9767,
      "step": 121290
    },
    {
      "epoch": 0.2527083333333333,
      "grad_norm": 0.768664538860321,
      "learning_rate": 0.0002562053465179073,
      "loss": 4.1328,
      "step": 121300
    },
    {
      "epoch": 0.25272916666666667,
      "grad_norm": 0.7923789024353027,
      "learning_rate": 0.00025619838440717863,
      "loss": 4.0069,
      "step": 121310
    },
    {
      "epoch": 0.25275,
      "grad_norm": 0.7007291316986084,
      "learning_rate": 0.00025619142183771495,
      "loss": 3.9472,
      "step": 121320
    },
    {
      "epoch": 0.25277083333333333,
      "grad_norm": 0.8131319880485535,
      "learning_rate": 0.0002561844588095464,
      "loss": 3.9859,
      "step": 121330
    },
    {
      "epoch": 0.2527916666666667,
      "grad_norm": 0.7942468523979187,
      "learning_rate": 0.00025617749532270295,
      "loss": 4.007,
      "step": 121340
    },
    {
      "epoch": 0.2528125,
      "grad_norm": 0.8515504002571106,
      "learning_rate": 0.00025617053137721475,
      "loss": 4.0786,
      "step": 121350
    },
    {
      "epoch": 0.25283333333333335,
      "grad_norm": 0.9116436839103699,
      "learning_rate": 0.00025616356697311197,
      "loss": 3.9852,
      "step": 121360
    },
    {
      "epoch": 0.25285416666666666,
      "grad_norm": 0.7399948835372925,
      "learning_rate": 0.0002561566021104245,
      "loss": 4.0881,
      "step": 121370
    },
    {
      "epoch": 0.252875,
      "grad_norm": 0.7793617844581604,
      "learning_rate": 0.0002561496367891826,
      "loss": 4.1798,
      "step": 121380
    },
    {
      "epoch": 0.2528958333333333,
      "grad_norm": 0.85996013879776,
      "learning_rate": 0.00025614267100941627,
      "loss": 4.047,
      "step": 121390
    },
    {
      "epoch": 0.2529166666666667,
      "grad_norm": 0.9111461043357849,
      "learning_rate": 0.00025613570477115555,
      "loss": 4.165,
      "step": 121400
    },
    {
      "epoch": 0.2529375,
      "grad_norm": 0.9518042802810669,
      "learning_rate": 0.00025612873807443067,
      "loss": 4.0954,
      "step": 121410
    },
    {
      "epoch": 0.25295833333333334,
      "grad_norm": 0.7735750675201416,
      "learning_rate": 0.00025612177091927167,
      "loss": 4.0264,
      "step": 121420
    },
    {
      "epoch": 0.25297916666666664,
      "grad_norm": 0.9072365164756775,
      "learning_rate": 0.0002561148033057085,
      "loss": 3.7995,
      "step": 121430
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.802963137626648,
      "learning_rate": 0.0002561078352337715,
      "loss": 4.0097,
      "step": 121440
    },
    {
      "epoch": 0.2530208333333333,
      "grad_norm": 0.7738857865333557,
      "learning_rate": 0.0002561008667034906,
      "loss": 4.2858,
      "step": 121450
    },
    {
      "epoch": 0.25304166666666666,
      "grad_norm": 0.7769362926483154,
      "learning_rate": 0.000256093897714896,
      "loss": 3.8753,
      "step": 121460
    },
    {
      "epoch": 0.2530625,
      "grad_norm": 0.8094926476478577,
      "learning_rate": 0.0002560869282680177,
      "loss": 4.0776,
      "step": 121470
    },
    {
      "epoch": 0.2530833333333333,
      "grad_norm": 0.9700011014938354,
      "learning_rate": 0.00025607995836288594,
      "loss": 4.0486,
      "step": 121480
    },
    {
      "epoch": 0.2531041666666667,
      "grad_norm": 0.7379612326622009,
      "learning_rate": 0.0002560729879995307,
      "loss": 3.9704,
      "step": 121490
    },
    {
      "epoch": 0.253125,
      "grad_norm": 0.7640166282653809,
      "learning_rate": 0.00025606601717798207,
      "loss": 3.9067,
      "step": 121500
    },
    {
      "epoch": 0.25314583333333335,
      "grad_norm": 0.745084285736084,
      "learning_rate": 0.0002560590458982703,
      "loss": 4.1657,
      "step": 121510
    },
    {
      "epoch": 0.25316666666666665,
      "grad_norm": 0.856277346611023,
      "learning_rate": 0.00025605207416042546,
      "loss": 4.0212,
      "step": 121520
    },
    {
      "epoch": 0.2531875,
      "grad_norm": 0.7464434504508972,
      "learning_rate": 0.0002560451019644776,
      "loss": 3.9755,
      "step": 121530
    },
    {
      "epoch": 0.2532083333333333,
      "grad_norm": 0.7773765325546265,
      "learning_rate": 0.00025603812931045686,
      "loss": 3.9901,
      "step": 121540
    },
    {
      "epoch": 0.25322916666666667,
      "grad_norm": 0.7630797624588013,
      "learning_rate": 0.00025603115619839346,
      "loss": 4.0561,
      "step": 121550
    },
    {
      "epoch": 0.25325,
      "grad_norm": 0.8163275718688965,
      "learning_rate": 0.0002560241826283173,
      "loss": 3.911,
      "step": 121560
    },
    {
      "epoch": 0.25327083333333333,
      "grad_norm": 0.9216344356536865,
      "learning_rate": 0.00025601720860025874,
      "loss": 4.0049,
      "step": 121570
    },
    {
      "epoch": 0.2532916666666667,
      "grad_norm": 0.7879658937454224,
      "learning_rate": 0.00025601023411424783,
      "loss": 4.1648,
      "step": 121580
    },
    {
      "epoch": 0.2533125,
      "grad_norm": 0.8529968857765198,
      "learning_rate": 0.0002560032591703146,
      "loss": 3.8793,
      "step": 121590
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 0.7083712816238403,
      "learning_rate": 0.00025599628376848926,
      "loss": 3.9996,
      "step": 121600
    },
    {
      "epoch": 0.25335416666666666,
      "grad_norm": 0.8298512697219849,
      "learning_rate": 0.0002559893079088019,
      "loss": 4.0789,
      "step": 121610
    },
    {
      "epoch": 0.253375,
      "grad_norm": 0.7577831745147705,
      "learning_rate": 0.00025598233159128273,
      "loss": 3.991,
      "step": 121620
    },
    {
      "epoch": 0.2533958333333333,
      "grad_norm": 0.8364009261131287,
      "learning_rate": 0.00025597535481596185,
      "loss": 4.2063,
      "step": 121630
    },
    {
      "epoch": 0.2534166666666667,
      "grad_norm": 0.8405191898345947,
      "learning_rate": 0.00025596837758286935,
      "loss": 3.8777,
      "step": 121640
    },
    {
      "epoch": 0.2534375,
      "grad_norm": 0.7379183173179626,
      "learning_rate": 0.0002559613998920354,
      "loss": 3.9382,
      "step": 121650
    },
    {
      "epoch": 0.25345833333333334,
      "grad_norm": 0.806692361831665,
      "learning_rate": 0.0002559544217434902,
      "loss": 4.0202,
      "step": 121660
    },
    {
      "epoch": 0.25347916666666664,
      "grad_norm": 0.783934473991394,
      "learning_rate": 0.0002559474431372638,
      "loss": 3.9558,
      "step": 121670
    },
    {
      "epoch": 0.2535,
      "grad_norm": 0.7443218231201172,
      "learning_rate": 0.00025594046407338635,
      "loss": 4.0974,
      "step": 121680
    },
    {
      "epoch": 0.2535208333333333,
      "grad_norm": 0.8136956095695496,
      "learning_rate": 0.00025593348455188805,
      "loss": 4.0224,
      "step": 121690
    },
    {
      "epoch": 0.25354166666666667,
      "grad_norm": 0.832838773727417,
      "learning_rate": 0.00025592650457279903,
      "loss": 4.0495,
      "step": 121700
    },
    {
      "epoch": 0.2535625,
      "grad_norm": 1.0147879123687744,
      "learning_rate": 0.0002559195241361494,
      "loss": 4.0576,
      "step": 121710
    },
    {
      "epoch": 0.2535833333333333,
      "grad_norm": 0.833081841468811,
      "learning_rate": 0.00025591254324196943,
      "loss": 4.0139,
      "step": 121720
    },
    {
      "epoch": 0.2536041666666667,
      "grad_norm": 0.722725510597229,
      "learning_rate": 0.0002559055618902892,
      "loss": 4.0292,
      "step": 121730
    },
    {
      "epoch": 0.253625,
      "grad_norm": 0.8067436218261719,
      "learning_rate": 0.00025589858008113884,
      "loss": 4.1255,
      "step": 121740
    },
    {
      "epoch": 0.25364583333333335,
      "grad_norm": 0.9617784023284912,
      "learning_rate": 0.0002558915978145485,
      "loss": 3.9745,
      "step": 121750
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 0.7926201820373535,
      "learning_rate": 0.00025588461509054843,
      "loss": 4.0788,
      "step": 121760
    },
    {
      "epoch": 0.2536875,
      "grad_norm": 0.7465582489967346,
      "learning_rate": 0.00025587763190916866,
      "loss": 4.0999,
      "step": 121770
    },
    {
      "epoch": 0.2537083333333333,
      "grad_norm": 0.7529071569442749,
      "learning_rate": 0.00025587064827043945,
      "loss": 4.0216,
      "step": 121780
    },
    {
      "epoch": 0.2537291666666667,
      "grad_norm": 0.8320237398147583,
      "learning_rate": 0.000255863664174391,
      "loss": 4.0474,
      "step": 121790
    },
    {
      "epoch": 0.25375,
      "grad_norm": 0.7379463911056519,
      "learning_rate": 0.0002558566796210534,
      "loss": 3.8439,
      "step": 121800
    },
    {
      "epoch": 0.25377083333333333,
      "grad_norm": 0.8468588590621948,
      "learning_rate": 0.00025584969461045677,
      "loss": 4.0889,
      "step": 121810
    },
    {
      "epoch": 0.2537916666666667,
      "grad_norm": 0.8338735699653625,
      "learning_rate": 0.00025584270914263144,
      "loss": 4.1574,
      "step": 121820
    },
    {
      "epoch": 0.2538125,
      "grad_norm": 0.9395706057548523,
      "learning_rate": 0.0002558357232176075,
      "loss": 4.065,
      "step": 121830
    },
    {
      "epoch": 0.25383333333333336,
      "grad_norm": 0.8623654246330261,
      "learning_rate": 0.0002558287368354151,
      "loss": 3.9845,
      "step": 121840
    },
    {
      "epoch": 0.25385416666666666,
      "grad_norm": 0.7691278457641602,
      "learning_rate": 0.00025582174999608443,
      "loss": 4.0291,
      "step": 121850
    },
    {
      "epoch": 0.253875,
      "grad_norm": 0.738421618938446,
      "learning_rate": 0.0002558147626996457,
      "loss": 3.997,
      "step": 121860
    },
    {
      "epoch": 0.2538958333333333,
      "grad_norm": 0.7692420482635498,
      "learning_rate": 0.0002558077749461291,
      "loss": 4.1013,
      "step": 121870
    },
    {
      "epoch": 0.2539166666666667,
      "grad_norm": 0.7716617584228516,
      "learning_rate": 0.0002558007867355648,
      "loss": 3.7764,
      "step": 121880
    },
    {
      "epoch": 0.2539375,
      "grad_norm": 0.80855393409729,
      "learning_rate": 0.000255793798067983,
      "loss": 3.9274,
      "step": 121890
    },
    {
      "epoch": 0.25395833333333334,
      "grad_norm": 0.8509822487831116,
      "learning_rate": 0.0002557868089434138,
      "loss": 4.0752,
      "step": 121900
    },
    {
      "epoch": 0.25397916666666664,
      "grad_norm": 0.7888519167900085,
      "learning_rate": 0.0002557798193618875,
      "loss": 3.8182,
      "step": 121910
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.7809563875198364,
      "learning_rate": 0.0002557728293234343,
      "loss": 4.1487,
      "step": 121920
    },
    {
      "epoch": 0.2540208333333333,
      "grad_norm": 0.7665178179740906,
      "learning_rate": 0.0002557658388280842,
      "loss": 3.926,
      "step": 121930
    },
    {
      "epoch": 0.25404166666666667,
      "grad_norm": 0.7061366438865662,
      "learning_rate": 0.0002557588478758677,
      "loss": 3.8018,
      "step": 121940
    },
    {
      "epoch": 0.2540625,
      "grad_norm": 0.7357783317565918,
      "learning_rate": 0.00025575185646681476,
      "loss": 3.9625,
      "step": 121950
    },
    {
      "epoch": 0.2540833333333333,
      "grad_norm": 0.8274587392807007,
      "learning_rate": 0.00025574486460095563,
      "loss": 4.1671,
      "step": 121960
    },
    {
      "epoch": 0.2541041666666667,
      "grad_norm": 0.7508970499038696,
      "learning_rate": 0.0002557378722783206,
      "loss": 3.7755,
      "step": 121970
    },
    {
      "epoch": 0.254125,
      "grad_norm": 0.7654626369476318,
      "learning_rate": 0.0002557308794989398,
      "loss": 4.0671,
      "step": 121980
    },
    {
      "epoch": 0.25414583333333335,
      "grad_norm": 0.7904821634292603,
      "learning_rate": 0.00025572388626284346,
      "loss": 3.9184,
      "step": 121990
    },
    {
      "epoch": 0.25416666666666665,
      "grad_norm": 0.710865318775177,
      "learning_rate": 0.00025571689257006177,
      "loss": 3.9418,
      "step": 122000
    },
    {
      "epoch": 0.25416666666666665,
      "eval_loss": 3.7684683799743652,
      "eval_runtime": 6.7748,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.443,
      "step": 122000
    },
    {
      "epoch": 0.2541875,
      "grad_norm": 0.8025252223014832,
      "learning_rate": 0.00025570989842062496,
      "loss": 3.8907,
      "step": 122010
    },
    {
      "epoch": 0.2542083333333333,
      "grad_norm": 0.7663047909736633,
      "learning_rate": 0.00025570290381456324,
      "loss": 4.0424,
      "step": 122020
    },
    {
      "epoch": 0.2542291666666667,
      "grad_norm": 0.9253381490707397,
      "learning_rate": 0.00025569590875190674,
      "loss": 3.9353,
      "step": 122030
    },
    {
      "epoch": 0.25425,
      "grad_norm": 0.8755770325660706,
      "learning_rate": 0.0002556889132326859,
      "loss": 3.8886,
      "step": 122040
    },
    {
      "epoch": 0.25427083333333333,
      "grad_norm": 0.822912335395813,
      "learning_rate": 0.00025568191725693063,
      "loss": 4.1243,
      "step": 122050
    },
    {
      "epoch": 0.2542916666666667,
      "grad_norm": 0.841620147228241,
      "learning_rate": 0.0002556749208246714,
      "loss": 4.0432,
      "step": 122060
    },
    {
      "epoch": 0.2543125,
      "grad_norm": 0.8522621393203735,
      "learning_rate": 0.0002556679239359383,
      "loss": 3.9989,
      "step": 122070
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 0.7557008266448975,
      "learning_rate": 0.00025566092659076164,
      "loss": 3.9371,
      "step": 122080
    },
    {
      "epoch": 0.25435416666666666,
      "grad_norm": 0.7408254742622375,
      "learning_rate": 0.00025565392878917155,
      "loss": 4.1574,
      "step": 122090
    },
    {
      "epoch": 0.254375,
      "grad_norm": 0.7824406027793884,
      "learning_rate": 0.0002556469305311983,
      "loss": 3.9501,
      "step": 122100
    },
    {
      "epoch": 0.2543958333333333,
      "grad_norm": 0.8168186545372009,
      "learning_rate": 0.0002556399318168722,
      "loss": 4.1898,
      "step": 122110
    },
    {
      "epoch": 0.2544166666666667,
      "grad_norm": 0.7523744702339172,
      "learning_rate": 0.0002556329326462234,
      "loss": 3.86,
      "step": 122120
    },
    {
      "epoch": 0.2544375,
      "grad_norm": 0.7446568608283997,
      "learning_rate": 0.00025562593301928205,
      "loss": 3.8467,
      "step": 122130
    },
    {
      "epoch": 0.25445833333333334,
      "grad_norm": 0.801308274269104,
      "learning_rate": 0.0002556189329360786,
      "loss": 3.9131,
      "step": 122140
    },
    {
      "epoch": 0.25447916666666665,
      "grad_norm": 0.8931334614753723,
      "learning_rate": 0.00025561193239664306,
      "loss": 4.0444,
      "step": 122150
    },
    {
      "epoch": 0.2545,
      "grad_norm": 0.8055256605148315,
      "learning_rate": 0.00025560493140100584,
      "loss": 3.7878,
      "step": 122160
    },
    {
      "epoch": 0.2545208333333333,
      "grad_norm": 0.8490345478057861,
      "learning_rate": 0.0002555979299491971,
      "loss": 3.8227,
      "step": 122170
    },
    {
      "epoch": 0.25454166666666667,
      "grad_norm": 0.8228210806846619,
      "learning_rate": 0.00025559092804124713,
      "loss": 3.8128,
      "step": 122180
    },
    {
      "epoch": 0.2545625,
      "grad_norm": 0.8051564693450928,
      "learning_rate": 0.00025558392567718614,
      "loss": 4.1044,
      "step": 122190
    },
    {
      "epoch": 0.25458333333333333,
      "grad_norm": 0.7695696949958801,
      "learning_rate": 0.0002555769228570443,
      "loss": 3.8306,
      "step": 122200
    },
    {
      "epoch": 0.2546041666666667,
      "grad_norm": 0.7375954985618591,
      "learning_rate": 0.00025556991958085204,
      "loss": 3.858,
      "step": 122210
    },
    {
      "epoch": 0.254625,
      "grad_norm": 0.8617036938667297,
      "learning_rate": 0.00025556291584863947,
      "loss": 3.997,
      "step": 122220
    },
    {
      "epoch": 0.25464583333333335,
      "grad_norm": 0.7907624840736389,
      "learning_rate": 0.0002555559116604369,
      "loss": 3.7832,
      "step": 122230
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 0.7773826122283936,
      "learning_rate": 0.00025554890701627456,
      "loss": 3.8979,
      "step": 122240
    },
    {
      "epoch": 0.2546875,
      "grad_norm": 0.7367420792579651,
      "learning_rate": 0.00025554190191618277,
      "loss": 3.9342,
      "step": 122250
    },
    {
      "epoch": 0.2547083333333333,
      "grad_norm": 0.7762213945388794,
      "learning_rate": 0.0002555348963601917,
      "loss": 4.101,
      "step": 122260
    },
    {
      "epoch": 0.2547291666666667,
      "grad_norm": 0.7626301646232605,
      "learning_rate": 0.00025552789034833165,
      "loss": 4.2352,
      "step": 122270
    },
    {
      "epoch": 0.25475,
      "grad_norm": 0.8063610196113586,
      "learning_rate": 0.0002555208838806329,
      "loss": 3.8112,
      "step": 122280
    },
    {
      "epoch": 0.25477083333333334,
      "grad_norm": 0.7735836505889893,
      "learning_rate": 0.0002555138769571257,
      "loss": 4.0593,
      "step": 122290
    },
    {
      "epoch": 0.2547916666666667,
      "grad_norm": 0.8565214276313782,
      "learning_rate": 0.00025550686957784025,
      "loss": 3.9923,
      "step": 122300
    },
    {
      "epoch": 0.2548125,
      "grad_norm": 0.744489312171936,
      "learning_rate": 0.000255499861742807,
      "loss": 3.9663,
      "step": 122310
    },
    {
      "epoch": 0.25483333333333336,
      "grad_norm": 0.8441521525382996,
      "learning_rate": 0.000255492853452056,
      "loss": 4.0096,
      "step": 122320
    },
    {
      "epoch": 0.25485416666666666,
      "grad_norm": 0.9104098081588745,
      "learning_rate": 0.0002554858447056177,
      "loss": 4.0527,
      "step": 122330
    },
    {
      "epoch": 0.254875,
      "grad_norm": 0.8117245435714722,
      "learning_rate": 0.0002554788355035223,
      "loss": 4.0262,
      "step": 122340
    },
    {
      "epoch": 0.2548958333333333,
      "grad_norm": 0.8505545258522034,
      "learning_rate": 0.00025547182584580006,
      "loss": 4.1197,
      "step": 122350
    },
    {
      "epoch": 0.2549166666666667,
      "grad_norm": 0.7199447751045227,
      "learning_rate": 0.0002554648157324813,
      "loss": 3.9951,
      "step": 122360
    },
    {
      "epoch": 0.2549375,
      "grad_norm": 0.7524963617324829,
      "learning_rate": 0.0002554578051635963,
      "loss": 4.0926,
      "step": 122370
    },
    {
      "epoch": 0.25495833333333334,
      "grad_norm": 0.743560791015625,
      "learning_rate": 0.00025545079413917527,
      "loss": 4.1667,
      "step": 122380
    },
    {
      "epoch": 0.25497916666666665,
      "grad_norm": 1.2075324058532715,
      "learning_rate": 0.0002554437826592486,
      "loss": 4.0062,
      "step": 122390
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.5829856395721436,
      "learning_rate": 0.00025543677072384645,
      "loss": 4.1304,
      "step": 122400
    },
    {
      "epoch": 0.2550208333333333,
      "grad_norm": 0.7643370628356934,
      "learning_rate": 0.00025542975833299926,
      "loss": 4.0819,
      "step": 122410
    },
    {
      "epoch": 0.25504166666666667,
      "grad_norm": 0.7575111985206604,
      "learning_rate": 0.0002554227454867372,
      "loss": 4.0436,
      "step": 122420
    },
    {
      "epoch": 0.2550625,
      "grad_norm": 1.0197769403457642,
      "learning_rate": 0.0002554157321850906,
      "loss": 4.1012,
      "step": 122430
    },
    {
      "epoch": 0.25508333333333333,
      "grad_norm": 0.7554997801780701,
      "learning_rate": 0.00025540871842808985,
      "loss": 3.8724,
      "step": 122440
    },
    {
      "epoch": 0.2551041666666667,
      "grad_norm": 0.8337297439575195,
      "learning_rate": 0.0002554017042157651,
      "loss": 4.1508,
      "step": 122450
    },
    {
      "epoch": 0.255125,
      "grad_norm": 0.9900878071784973,
      "learning_rate": 0.0002553946895481467,
      "loss": 3.9137,
      "step": 122460
    },
    {
      "epoch": 0.25514583333333335,
      "grad_norm": 0.8002203106880188,
      "learning_rate": 0.00025538767442526497,
      "loss": 4.0839,
      "step": 122470
    },
    {
      "epoch": 0.25516666666666665,
      "grad_norm": 0.7846644520759583,
      "learning_rate": 0.0002553806588471502,
      "loss": 4.0171,
      "step": 122480
    },
    {
      "epoch": 0.2551875,
      "grad_norm": 0.7914674878120422,
      "learning_rate": 0.0002553736428138327,
      "loss": 4.0934,
      "step": 122490
    },
    {
      "epoch": 0.2552083333333333,
      "grad_norm": 0.8332579135894775,
      "learning_rate": 0.0002553666263253428,
      "loss": 3.9186,
      "step": 122500
    },
    {
      "epoch": 0.2552291666666667,
      "grad_norm": 0.7908772230148315,
      "learning_rate": 0.00025535960938171076,
      "loss": 4.1306,
      "step": 122510
    },
    {
      "epoch": 0.25525,
      "grad_norm": 0.8366039991378784,
      "learning_rate": 0.0002553525919829669,
      "loss": 3.9411,
      "step": 122520
    },
    {
      "epoch": 0.25527083333333334,
      "grad_norm": 0.7728607058525085,
      "learning_rate": 0.00025534557412914156,
      "loss": 3.9472,
      "step": 122530
    },
    {
      "epoch": 0.25529166666666664,
      "grad_norm": 0.7963557839393616,
      "learning_rate": 0.00025533855582026506,
      "loss": 3.9529,
      "step": 122540
    },
    {
      "epoch": 0.2553125,
      "grad_norm": 0.80125492811203,
      "learning_rate": 0.0002553315370563676,
      "loss": 3.8479,
      "step": 122550
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 0.7557539939880371,
      "learning_rate": 0.0002553245178374797,
      "loss": 3.9854,
      "step": 122560
    },
    {
      "epoch": 0.25535416666666666,
      "grad_norm": 0.8825666308403015,
      "learning_rate": 0.0002553174981636315,
      "loss": 4.0785,
      "step": 122570
    },
    {
      "epoch": 0.255375,
      "grad_norm": 0.8388073444366455,
      "learning_rate": 0.0002553104780348534,
      "loss": 3.8364,
      "step": 122580
    },
    {
      "epoch": 0.2553958333333333,
      "grad_norm": 0.7718099355697632,
      "learning_rate": 0.0002553034574511758,
      "loss": 4.0699,
      "step": 122590
    },
    {
      "epoch": 0.2554166666666667,
      "grad_norm": 0.7596700191497803,
      "learning_rate": 0.00025529643641262887,
      "loss": 4.0119,
      "step": 122600
    },
    {
      "epoch": 0.2554375,
      "grad_norm": 0.7939362525939941,
      "learning_rate": 0.0002552894149192431,
      "loss": 4.0262,
      "step": 122610
    },
    {
      "epoch": 0.25545833333333334,
      "grad_norm": 0.7256689667701721,
      "learning_rate": 0.0002552823929710486,
      "loss": 4.1588,
      "step": 122620
    },
    {
      "epoch": 0.25547916666666665,
      "grad_norm": 1.2201368808746338,
      "learning_rate": 0.0002552753705680759,
      "loss": 4.1503,
      "step": 122630
    },
    {
      "epoch": 0.2555,
      "grad_norm": 0.8697704076766968,
      "learning_rate": 0.0002552683477103553,
      "loss": 3.9359,
      "step": 122640
    },
    {
      "epoch": 0.2555208333333333,
      "grad_norm": 0.8364236950874329,
      "learning_rate": 0.00025526132439791707,
      "loss": 4.1234,
      "step": 122650
    },
    {
      "epoch": 0.25554166666666667,
      "grad_norm": 1.1996256113052368,
      "learning_rate": 0.0002552543006307916,
      "loss": 3.9473,
      "step": 122660
    },
    {
      "epoch": 0.2555625,
      "grad_norm": 0.8005166053771973,
      "learning_rate": 0.0002552472764090092,
      "loss": 4.0669,
      "step": 122670
    },
    {
      "epoch": 0.25558333333333333,
      "grad_norm": 0.8432803153991699,
      "learning_rate": 0.0002552402517326002,
      "loss": 3.9885,
      "step": 122680
    },
    {
      "epoch": 0.2556041666666667,
      "grad_norm": 0.9434527158737183,
      "learning_rate": 0.000255233226601595,
      "loss": 3.9818,
      "step": 122690
    },
    {
      "epoch": 0.255625,
      "grad_norm": 0.716200053691864,
      "learning_rate": 0.000255226201016024,
      "loss": 3.8805,
      "step": 122700
    },
    {
      "epoch": 0.25564583333333335,
      "grad_norm": 0.8601645231246948,
      "learning_rate": 0.0002552191749759173,
      "loss": 4.0714,
      "step": 122710
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 0.8193016648292542,
      "learning_rate": 0.00025521214848130553,
      "loss": 3.8982,
      "step": 122720
    },
    {
      "epoch": 0.2556875,
      "grad_norm": 0.8269587755203247,
      "learning_rate": 0.0002552051215322189,
      "loss": 4.277,
      "step": 122730
    },
    {
      "epoch": 0.2557083333333333,
      "grad_norm": 0.9517385363578796,
      "learning_rate": 0.0002551980941286878,
      "loss": 4.1304,
      "step": 122740
    },
    {
      "epoch": 0.2557291666666667,
      "grad_norm": 0.8043052554130554,
      "learning_rate": 0.0002551910662707425,
      "loss": 4.0626,
      "step": 122750
    },
    {
      "epoch": 0.25575,
      "grad_norm": 0.772953450679779,
      "learning_rate": 0.00025518403795841353,
      "loss": 4.0552,
      "step": 122760
    },
    {
      "epoch": 0.25577083333333334,
      "grad_norm": 0.8547102212905884,
      "learning_rate": 0.0002551770091917311,
      "loss": 4.1764,
      "step": 122770
    },
    {
      "epoch": 0.25579166666666664,
      "grad_norm": 0.8603222966194153,
      "learning_rate": 0.00025516997997072563,
      "loss": 4.0564,
      "step": 122780
    },
    {
      "epoch": 0.2558125,
      "grad_norm": 0.8467158079147339,
      "learning_rate": 0.00025516295029542744,
      "loss": 3.9391,
      "step": 122790
    },
    {
      "epoch": 0.25583333333333336,
      "grad_norm": 0.8513218760490417,
      "learning_rate": 0.00025515592016586697,
      "loss": 4.0269,
      "step": 122800
    },
    {
      "epoch": 0.25585416666666666,
      "grad_norm": 0.9507087469100952,
      "learning_rate": 0.0002551488895820745,
      "loss": 3.9635,
      "step": 122810
    },
    {
      "epoch": 0.255875,
      "grad_norm": 0.7598593831062317,
      "learning_rate": 0.00025514185854408057,
      "loss": 3.9167,
      "step": 122820
    },
    {
      "epoch": 0.2558958333333333,
      "grad_norm": 0.8456869721412659,
      "learning_rate": 0.0002551348270519153,
      "loss": 3.7969,
      "step": 122830
    },
    {
      "epoch": 0.2559166666666667,
      "grad_norm": 0.7812697887420654,
      "learning_rate": 0.00025512779510560924,
      "loss": 4.1936,
      "step": 122840
    },
    {
      "epoch": 0.2559375,
      "grad_norm": 0.7432317137718201,
      "learning_rate": 0.00025512076270519274,
      "loss": 3.9772,
      "step": 122850
    },
    {
      "epoch": 0.25595833333333334,
      "grad_norm": 0.7399249076843262,
      "learning_rate": 0.0002551137298506961,
      "loss": 4.0341,
      "step": 122860
    },
    {
      "epoch": 0.25597916666666665,
      "grad_norm": 0.8605402708053589,
      "learning_rate": 0.0002551066965421498,
      "loss": 4.0494,
      "step": 122870
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.7262088656425476,
      "learning_rate": 0.0002550996627795842,
      "loss": 4.1248,
      "step": 122880
    },
    {
      "epoch": 0.2560208333333333,
      "grad_norm": 0.878661036491394,
      "learning_rate": 0.0002550926285630296,
      "loss": 3.8974,
      "step": 122890
    },
    {
      "epoch": 0.25604166666666667,
      "grad_norm": 0.8702355623245239,
      "learning_rate": 0.00025508559389251644,
      "loss": 3.8425,
      "step": 122900
    },
    {
      "epoch": 0.2560625,
      "grad_norm": 0.8317047357559204,
      "learning_rate": 0.0002550785587680751,
      "loss": 4.0532,
      "step": 122910
    },
    {
      "epoch": 0.25608333333333333,
      "grad_norm": 0.7758181691169739,
      "learning_rate": 0.00025507152318973605,
      "loss": 3.7407,
      "step": 122920
    },
    {
      "epoch": 0.2561041666666667,
      "grad_norm": 0.8555757999420166,
      "learning_rate": 0.0002550644871575296,
      "loss": 4.0079,
      "step": 122930
    },
    {
      "epoch": 0.256125,
      "grad_norm": 0.7848653793334961,
      "learning_rate": 0.0002550574506714861,
      "loss": 3.8989,
      "step": 122940
    },
    {
      "epoch": 0.25614583333333335,
      "grad_norm": 0.7753382921218872,
      "learning_rate": 0.000255050413731636,
      "loss": 3.9875,
      "step": 122950
    },
    {
      "epoch": 0.25616666666666665,
      "grad_norm": 1.539240837097168,
      "learning_rate": 0.0002550433763380098,
      "loss": 4.1048,
      "step": 122960
    },
    {
      "epoch": 0.2561875,
      "grad_norm": 0.9039547443389893,
      "learning_rate": 0.00025503633849063763,
      "loss": 4.0318,
      "step": 122970
    },
    {
      "epoch": 0.2562083333333333,
      "grad_norm": 0.7047494649887085,
      "learning_rate": 0.0002550293001895501,
      "loss": 4.0614,
      "step": 122980
    },
    {
      "epoch": 0.2562291666666667,
      "grad_norm": 0.7957714200019836,
      "learning_rate": 0.0002550222614347777,
      "loss": 4.1565,
      "step": 122990
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.9140380620956421,
      "learning_rate": 0.00025501522222635053,
      "loss": 3.9204,
      "step": 123000
    },
    {
      "epoch": 0.25625,
      "eval_loss": 3.775893449783325,
      "eval_runtime": 7.3357,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 123000
    },
    {
      "epoch": 0.25627083333333334,
      "grad_norm": 0.7981573343276978,
      "learning_rate": 0.00025500818256429927,
      "loss": 4.0235,
      "step": 123010
    },
    {
      "epoch": 0.25629166666666664,
      "grad_norm": 0.7818009257316589,
      "learning_rate": 0.0002550011424486542,
      "loss": 3.9041,
      "step": 123020
    },
    {
      "epoch": 0.2563125,
      "grad_norm": 0.7799180746078491,
      "learning_rate": 0.0002549941018794458,
      "loss": 3.9747,
      "step": 123030
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 0.8285769820213318,
      "learning_rate": 0.00025498706085670436,
      "loss": 3.9359,
      "step": 123040
    },
    {
      "epoch": 0.25635416666666666,
      "grad_norm": 0.7827710509300232,
      "learning_rate": 0.00025498001938046037,
      "loss": 4.0214,
      "step": 123050
    },
    {
      "epoch": 0.256375,
      "grad_norm": 0.9878546595573425,
      "learning_rate": 0.0002549729774507443,
      "loss": 4.0543,
      "step": 123060
    },
    {
      "epoch": 0.2563958333333333,
      "grad_norm": 0.7712612152099609,
      "learning_rate": 0.0002549659350675865,
      "loss": 3.9601,
      "step": 123070
    },
    {
      "epoch": 0.2564166666666667,
      "grad_norm": 0.8082160353660583,
      "learning_rate": 0.0002549588922310175,
      "loss": 4.1891,
      "step": 123080
    },
    {
      "epoch": 0.2564375,
      "grad_norm": 0.7701621651649475,
      "learning_rate": 0.0002549518489410675,
      "loss": 4.156,
      "step": 123090
    },
    {
      "epoch": 0.25645833333333334,
      "grad_norm": 0.8057193756103516,
      "learning_rate": 0.0002549448051977671,
      "loss": 4.0533,
      "step": 123100
    },
    {
      "epoch": 0.25647916666666665,
      "grad_norm": 0.8605877161026001,
      "learning_rate": 0.0002549377610011467,
      "loss": 4.1599,
      "step": 123110
    },
    {
      "epoch": 0.2565,
      "grad_norm": 0.8828668594360352,
      "learning_rate": 0.0002549307163512367,
      "loss": 4.1135,
      "step": 123120
    },
    {
      "epoch": 0.2565208333333333,
      "grad_norm": 0.9276516437530518,
      "learning_rate": 0.0002549236712480675,
      "loss": 4.03,
      "step": 123130
    },
    {
      "epoch": 0.25654166666666667,
      "grad_norm": 0.7291316390037537,
      "learning_rate": 0.0002549166256916696,
      "loss": 4.3454,
      "step": 123140
    },
    {
      "epoch": 0.2565625,
      "grad_norm": 0.8151817321777344,
      "learning_rate": 0.00025490957968207344,
      "loss": 4.0304,
      "step": 123150
    },
    {
      "epoch": 0.25658333333333333,
      "grad_norm": 0.8244842290878296,
      "learning_rate": 0.00025490253321930936,
      "loss": 4.0179,
      "step": 123160
    },
    {
      "epoch": 0.2566041666666667,
      "grad_norm": 0.8311120867729187,
      "learning_rate": 0.0002548954863034079,
      "loss": 4.0748,
      "step": 123170
    },
    {
      "epoch": 0.256625,
      "grad_norm": 0.7978420853614807,
      "learning_rate": 0.00025488843893439945,
      "loss": 4.042,
      "step": 123180
    },
    {
      "epoch": 0.25664583333333335,
      "grad_norm": 0.8082154393196106,
      "learning_rate": 0.00025488139111231445,
      "loss": 4.0182,
      "step": 123190
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 0.7601072192192078,
      "learning_rate": 0.0002548743428371834,
      "loss": 4.1167,
      "step": 123200
    },
    {
      "epoch": 0.2566875,
      "grad_norm": 0.7233228087425232,
      "learning_rate": 0.00025486729410903664,
      "loss": 4.1845,
      "step": 123210
    },
    {
      "epoch": 0.2567083333333333,
      "grad_norm": 0.9292470216751099,
      "learning_rate": 0.0002548602449279047,
      "loss": 4.2033,
      "step": 123220
    },
    {
      "epoch": 0.2567291666666667,
      "grad_norm": 0.8687782883644104,
      "learning_rate": 0.00025485319529381804,
      "loss": 4.0955,
      "step": 123230
    },
    {
      "epoch": 0.25675,
      "grad_norm": 0.8197351694107056,
      "learning_rate": 0.00025484614520680706,
      "loss": 4.0092,
      "step": 123240
    },
    {
      "epoch": 0.25677083333333334,
      "grad_norm": 0.9421924948692322,
      "learning_rate": 0.0002548390946669022,
      "loss": 4.1647,
      "step": 123250
    },
    {
      "epoch": 0.25679166666666664,
      "grad_norm": 0.7900863885879517,
      "learning_rate": 0.000254832043674134,
      "loss": 4.0612,
      "step": 123260
    },
    {
      "epoch": 0.2568125,
      "grad_norm": 0.8712766170501709,
      "learning_rate": 0.00025482499222853286,
      "loss": 4.0645,
      "step": 123270
    },
    {
      "epoch": 0.25683333333333336,
      "grad_norm": 0.7883535623550415,
      "learning_rate": 0.00025481794033012926,
      "loss": 3.9021,
      "step": 123280
    },
    {
      "epoch": 0.25685416666666666,
      "grad_norm": 0.8925439715385437,
      "learning_rate": 0.0002548108879789536,
      "loss": 4.0761,
      "step": 123290
    },
    {
      "epoch": 0.256875,
      "grad_norm": 0.7948646545410156,
      "learning_rate": 0.0002548038351750364,
      "loss": 3.8407,
      "step": 123300
    },
    {
      "epoch": 0.2568958333333333,
      "grad_norm": 0.755669355392456,
      "learning_rate": 0.0002547967819184081,
      "loss": 4.0363,
      "step": 123310
    },
    {
      "epoch": 0.2569166666666667,
      "grad_norm": 0.846438467502594,
      "learning_rate": 0.00025478972820909925,
      "loss": 3.8266,
      "step": 123320
    },
    {
      "epoch": 0.2569375,
      "grad_norm": 0.8157644271850586,
      "learning_rate": 0.0002547826740471402,
      "loss": 3.9063,
      "step": 123330
    },
    {
      "epoch": 0.25695833333333334,
      "grad_norm": 0.7932254672050476,
      "learning_rate": 0.0002547756194325615,
      "loss": 3.9582,
      "step": 123340
    },
    {
      "epoch": 0.25697916666666665,
      "grad_norm": 0.7649160623550415,
      "learning_rate": 0.00025476856436539355,
      "loss": 3.9802,
      "step": 123350
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.8821122646331787,
      "learning_rate": 0.00025476150884566693,
      "loss": 3.9043,
      "step": 123360
    },
    {
      "epoch": 0.2570208333333333,
      "grad_norm": 0.8099054098129272,
      "learning_rate": 0.00025475445287341205,
      "loss": 4.0526,
      "step": 123370
    },
    {
      "epoch": 0.25704166666666667,
      "grad_norm": 0.792186439037323,
      "learning_rate": 0.0002547473964486594,
      "loss": 4.1155,
      "step": 123380
    },
    {
      "epoch": 0.2570625,
      "grad_norm": 0.9373175501823425,
      "learning_rate": 0.0002547403395714394,
      "loss": 3.9069,
      "step": 123390
    },
    {
      "epoch": 0.25708333333333333,
      "grad_norm": 0.9610171914100647,
      "learning_rate": 0.00025473328224178267,
      "loss": 4.0962,
      "step": 123400
    },
    {
      "epoch": 0.2571041666666667,
      "grad_norm": 0.7901446223258972,
      "learning_rate": 0.00025472622445971957,
      "loss": 3.778,
      "step": 123410
    },
    {
      "epoch": 0.257125,
      "grad_norm": 0.8523510694503784,
      "learning_rate": 0.00025471916622528065,
      "loss": 3.9098,
      "step": 123420
    },
    {
      "epoch": 0.25714583333333335,
      "grad_norm": 0.7283022999763489,
      "learning_rate": 0.0002547121075384964,
      "loss": 3.8731,
      "step": 123430
    },
    {
      "epoch": 0.25716666666666665,
      "grad_norm": 0.8779551982879639,
      "learning_rate": 0.00025470504839939726,
      "loss": 4.0368,
      "step": 123440
    },
    {
      "epoch": 0.2571875,
      "grad_norm": 0.7703711986541748,
      "learning_rate": 0.00025469798880801373,
      "loss": 4.0346,
      "step": 123450
    },
    {
      "epoch": 0.2572083333333333,
      "grad_norm": 0.8548624515533447,
      "learning_rate": 0.0002546909287643764,
      "loss": 4.1282,
      "step": 123460
    },
    {
      "epoch": 0.2572291666666667,
      "grad_norm": 0.7759826183319092,
      "learning_rate": 0.0002546838682685157,
      "loss": 3.9435,
      "step": 123470
    },
    {
      "epoch": 0.25725,
      "grad_norm": 0.8007885217666626,
      "learning_rate": 0.00025467680732046207,
      "loss": 3.9325,
      "step": 123480
    },
    {
      "epoch": 0.25727083333333334,
      "grad_norm": 0.8485963940620422,
      "learning_rate": 0.00025466974592024605,
      "loss": 4.0864,
      "step": 123490
    },
    {
      "epoch": 0.25729166666666664,
      "grad_norm": 0.781822919845581,
      "learning_rate": 0.00025466268406789826,
      "loss": 3.9566,
      "step": 123500
    },
    {
      "epoch": 0.2573125,
      "grad_norm": 0.8014989495277405,
      "learning_rate": 0.00025465562176344906,
      "loss": 4.0112,
      "step": 123510
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 1.1454007625579834,
      "learning_rate": 0.00025464855900692897,
      "loss": 4.3257,
      "step": 123520
    },
    {
      "epoch": 0.25735416666666666,
      "grad_norm": 0.782947838306427,
      "learning_rate": 0.0002546414957983685,
      "loss": 4.0883,
      "step": 123530
    },
    {
      "epoch": 0.257375,
      "grad_norm": 0.7416576743125916,
      "learning_rate": 0.00025463443213779826,
      "loss": 3.9463,
      "step": 123540
    },
    {
      "epoch": 0.2573958333333333,
      "grad_norm": 0.7954314947128296,
      "learning_rate": 0.0002546273680252486,
      "loss": 3.8302,
      "step": 123550
    },
    {
      "epoch": 0.2574166666666667,
      "grad_norm": 0.802019476890564,
      "learning_rate": 0.00025462030346075023,
      "loss": 3.9723,
      "step": 123560
    },
    {
      "epoch": 0.2574375,
      "grad_norm": 0.8156245946884155,
      "learning_rate": 0.0002546132384443335,
      "loss": 3.974,
      "step": 123570
    },
    {
      "epoch": 0.25745833333333334,
      "grad_norm": 0.8143185973167419,
      "learning_rate": 0.000254606172976029,
      "loss": 4.0876,
      "step": 123580
    },
    {
      "epoch": 0.25747916666666665,
      "grad_norm": 0.7984074354171753,
      "learning_rate": 0.0002545991070558672,
      "loss": 4.2192,
      "step": 123590
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.7356048226356506,
      "learning_rate": 0.00025459204068387873,
      "loss": 4.1495,
      "step": 123600
    },
    {
      "epoch": 0.2575208333333333,
      "grad_norm": 0.7900623679161072,
      "learning_rate": 0.00025458497386009405,
      "loss": 4.0176,
      "step": 123610
    },
    {
      "epoch": 0.25754166666666667,
      "grad_norm": 0.814923107624054,
      "learning_rate": 0.00025457790658454363,
      "loss": 4.2085,
      "step": 123620
    },
    {
      "epoch": 0.2575625,
      "grad_norm": 0.7468847036361694,
      "learning_rate": 0.00025457083885725804,
      "loss": 4.0951,
      "step": 123630
    },
    {
      "epoch": 0.25758333333333333,
      "grad_norm": 0.8051250576972961,
      "learning_rate": 0.00025456377067826786,
      "loss": 4.0018,
      "step": 123640
    },
    {
      "epoch": 0.2576041666666667,
      "grad_norm": 0.8478467464447021,
      "learning_rate": 0.00025455670204760356,
      "loss": 4.0175,
      "step": 123650
    },
    {
      "epoch": 0.257625,
      "grad_norm": 0.8092710375785828,
      "learning_rate": 0.0002545496329652957,
      "loss": 3.956,
      "step": 123660
    },
    {
      "epoch": 0.25764583333333335,
      "grad_norm": 0.8969508409500122,
      "learning_rate": 0.0002545425634313748,
      "loss": 4.0709,
      "step": 123670
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 0.789040207862854,
      "learning_rate": 0.0002545354934458714,
      "loss": 4.1092,
      "step": 123680
    },
    {
      "epoch": 0.2576875,
      "grad_norm": 0.8215160965919495,
      "learning_rate": 0.0002545284230088161,
      "loss": 4.0697,
      "step": 123690
    },
    {
      "epoch": 0.2577083333333333,
      "grad_norm": 0.9507225155830383,
      "learning_rate": 0.0002545213521202393,
      "loss": 4.1014,
      "step": 123700
    },
    {
      "epoch": 0.2577291666666667,
      "grad_norm": 0.7649650573730469,
      "learning_rate": 0.00025451428078017175,
      "loss": 4.1371,
      "step": 123710
    },
    {
      "epoch": 0.25775,
      "grad_norm": 0.7709629535675049,
      "learning_rate": 0.0002545072089886438,
      "loss": 4.0395,
      "step": 123720
    },
    {
      "epoch": 0.25777083333333334,
      "grad_norm": 0.8019623756408691,
      "learning_rate": 0.000254500136745686,
      "loss": 4.1247,
      "step": 123730
    },
    {
      "epoch": 0.25779166666666664,
      "grad_norm": 0.7623561024665833,
      "learning_rate": 0.0002544930640513291,
      "loss": 4.1439,
      "step": 123740
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 0.8456703424453735,
      "learning_rate": 0.0002544859909056035,
      "loss": 3.8751,
      "step": 123750
    },
    {
      "epoch": 0.25783333333333336,
      "grad_norm": 0.7447927594184875,
      "learning_rate": 0.0002544789173085397,
      "loss": 4.0101,
      "step": 123760
    },
    {
      "epoch": 0.25785416666666666,
      "grad_norm": 0.7673863172531128,
      "learning_rate": 0.0002544718432601684,
      "loss": 3.8868,
      "step": 123770
    },
    {
      "epoch": 0.257875,
      "grad_norm": 0.7320447564125061,
      "learning_rate": 0.00025446476876052007,
      "loss": 4.0816,
      "step": 123780
    },
    {
      "epoch": 0.2578958333333333,
      "grad_norm": 0.8816187381744385,
      "learning_rate": 0.00025445769380962535,
      "loss": 4.0855,
      "step": 123790
    },
    {
      "epoch": 0.2579166666666667,
      "grad_norm": 0.7993842959403992,
      "learning_rate": 0.00025445061840751463,
      "loss": 4.0189,
      "step": 123800
    },
    {
      "epoch": 0.2579375,
      "grad_norm": 0.686025857925415,
      "learning_rate": 0.00025444354255421865,
      "loss": 4.1165,
      "step": 123810
    },
    {
      "epoch": 0.25795833333333335,
      "grad_norm": 0.7195640802383423,
      "learning_rate": 0.0002544364662497679,
      "loss": 4.0833,
      "step": 123820
    },
    {
      "epoch": 0.25797916666666665,
      "grad_norm": 0.7515957951545715,
      "learning_rate": 0.00025442938949419295,
      "loss": 4.0083,
      "step": 123830
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.8083171844482422,
      "learning_rate": 0.00025442231228752437,
      "loss": 3.7029,
      "step": 123840
    },
    {
      "epoch": 0.2580208333333333,
      "grad_norm": 0.834397554397583,
      "learning_rate": 0.0002544152346297927,
      "loss": 3.7952,
      "step": 123850
    },
    {
      "epoch": 0.25804166666666667,
      "grad_norm": 0.757302463054657,
      "learning_rate": 0.0002544081565210286,
      "loss": 3.9557,
      "step": 123860
    },
    {
      "epoch": 0.2580625,
      "grad_norm": 0.8110822439193726,
      "learning_rate": 0.0002544010779612626,
      "loss": 4.0452,
      "step": 123870
    },
    {
      "epoch": 0.25808333333333333,
      "grad_norm": 0.8105493783950806,
      "learning_rate": 0.0002543939989505253,
      "loss": 3.9479,
      "step": 123880
    },
    {
      "epoch": 0.2581041666666667,
      "grad_norm": 0.7589937448501587,
      "learning_rate": 0.0002543869194888471,
      "loss": 4.1541,
      "step": 123890
    },
    {
      "epoch": 0.258125,
      "grad_norm": 0.7688997387886047,
      "learning_rate": 0.00025437983957625883,
      "loss": 4.092,
      "step": 123900
    },
    {
      "epoch": 0.25814583333333335,
      "grad_norm": 0.9911238551139832,
      "learning_rate": 0.000254372759212791,
      "loss": 3.9207,
      "step": 123910
    },
    {
      "epoch": 0.25816666666666666,
      "grad_norm": 0.849423348903656,
      "learning_rate": 0.0002543656783984741,
      "loss": 3.9344,
      "step": 123920
    },
    {
      "epoch": 0.2581875,
      "grad_norm": 0.8241584300994873,
      "learning_rate": 0.0002543585971333388,
      "loss": 4.0186,
      "step": 123930
    },
    {
      "epoch": 0.2582083333333333,
      "grad_norm": 1.0124800205230713,
      "learning_rate": 0.00025435151541741566,
      "loss": 4.0431,
      "step": 123940
    },
    {
      "epoch": 0.2582291666666667,
      "grad_norm": 0.7867876887321472,
      "learning_rate": 0.0002543444332507353,
      "loss": 3.9822,
      "step": 123950
    },
    {
      "epoch": 0.25825,
      "grad_norm": 0.7555792331695557,
      "learning_rate": 0.0002543373506333283,
      "loss": 3.8683,
      "step": 123960
    },
    {
      "epoch": 0.25827083333333334,
      "grad_norm": 0.7253928780555725,
      "learning_rate": 0.00025433026756522517,
      "loss": 4.1076,
      "step": 123970
    },
    {
      "epoch": 0.25829166666666664,
      "grad_norm": 0.8473238945007324,
      "learning_rate": 0.00025432318404645666,
      "loss": 3.9602,
      "step": 123980
    },
    {
      "epoch": 0.2583125,
      "grad_norm": 0.7761526703834534,
      "learning_rate": 0.0002543161000770533,
      "loss": 4.1295,
      "step": 123990
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 0.7834423780441284,
      "learning_rate": 0.00025430901565704563,
      "loss": 4.0853,
      "step": 124000
    },
    {
      "epoch": 0.25833333333333336,
      "eval_loss": 3.7626113891601562,
      "eval_runtime": 7.2978,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 124000
    },
    {
      "epoch": 0.25835416666666666,
      "grad_norm": 0.7326673865318298,
      "learning_rate": 0.0002543019307864643,
      "loss": 4.0292,
      "step": 124010
    },
    {
      "epoch": 0.258375,
      "grad_norm": 0.7928400635719299,
      "learning_rate": 0.0002542948454653399,
      "loss": 3.9274,
      "step": 124020
    },
    {
      "epoch": 0.2583958333333333,
      "grad_norm": 0.8096937537193298,
      "learning_rate": 0.0002542877596937031,
      "loss": 3.9821,
      "step": 124030
    },
    {
      "epoch": 0.2584166666666667,
      "grad_norm": 0.8566449880599976,
      "learning_rate": 0.00025428067347158445,
      "loss": 4.0349,
      "step": 124040
    },
    {
      "epoch": 0.2584375,
      "grad_norm": 1.2793222665786743,
      "learning_rate": 0.00025427358679901455,
      "loss": 4.1319,
      "step": 124050
    },
    {
      "epoch": 0.25845833333333335,
      "grad_norm": 0.8042449355125427,
      "learning_rate": 0.00025426649967602404,
      "loss": 4.0204,
      "step": 124060
    },
    {
      "epoch": 0.25847916666666665,
      "grad_norm": 0.8117914199829102,
      "learning_rate": 0.00025425941210264347,
      "loss": 3.7176,
      "step": 124070
    },
    {
      "epoch": 0.2585,
      "grad_norm": 0.7529065012931824,
      "learning_rate": 0.00025425232407890364,
      "loss": 3.9632,
      "step": 124080
    },
    {
      "epoch": 0.2585208333333333,
      "grad_norm": 0.8234288692474365,
      "learning_rate": 0.0002542452356048349,
      "loss": 4.0009,
      "step": 124090
    },
    {
      "epoch": 0.25854166666666667,
      "grad_norm": 0.841056764125824,
      "learning_rate": 0.00025423814668046807,
      "loss": 3.9979,
      "step": 124100
    },
    {
      "epoch": 0.2585625,
      "grad_norm": 0.7357088327407837,
      "learning_rate": 0.0002542310573058337,
      "loss": 3.9294,
      "step": 124110
    },
    {
      "epoch": 0.25858333333333333,
      "grad_norm": 0.8504364490509033,
      "learning_rate": 0.0002542239674809624,
      "loss": 3.9297,
      "step": 124120
    },
    {
      "epoch": 0.2586041666666667,
      "grad_norm": 0.7484008073806763,
      "learning_rate": 0.00025421687720588484,
      "loss": 4.2103,
      "step": 124130
    },
    {
      "epoch": 0.258625,
      "grad_norm": 0.7803710699081421,
      "learning_rate": 0.0002542097864806316,
      "loss": 4.059,
      "step": 124140
    },
    {
      "epoch": 0.25864583333333335,
      "grad_norm": 0.8353091478347778,
      "learning_rate": 0.00025420269530523334,
      "loss": 4.005,
      "step": 124150
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 0.7876089811325073,
      "learning_rate": 0.00025419560367972066,
      "loss": 4.0271,
      "step": 124160
    },
    {
      "epoch": 0.2586875,
      "grad_norm": 0.7946228981018066,
      "learning_rate": 0.00025418851160412427,
      "loss": 4.079,
      "step": 124170
    },
    {
      "epoch": 0.2587083333333333,
      "grad_norm": 0.7543430328369141,
      "learning_rate": 0.0002541814190784747,
      "loss": 4.096,
      "step": 124180
    },
    {
      "epoch": 0.2587291666666667,
      "grad_norm": 0.7595103979110718,
      "learning_rate": 0.00025417432610280266,
      "loss": 4.1234,
      "step": 124190
    },
    {
      "epoch": 0.25875,
      "grad_norm": 0.8393232226371765,
      "learning_rate": 0.00025416723267713875,
      "loss": 4.0357,
      "step": 124200
    },
    {
      "epoch": 0.25877083333333334,
      "grad_norm": 0.7661542296409607,
      "learning_rate": 0.00025416013880151365,
      "loss": 4.1691,
      "step": 124210
    },
    {
      "epoch": 0.25879166666666664,
      "grad_norm": 0.782221257686615,
      "learning_rate": 0.000254153044475958,
      "loss": 3.9988,
      "step": 124220
    },
    {
      "epoch": 0.2588125,
      "grad_norm": 0.7410402297973633,
      "learning_rate": 0.0002541459497005024,
      "loss": 3.9364,
      "step": 124230
    },
    {
      "epoch": 0.25883333333333336,
      "grad_norm": 0.7505287528038025,
      "learning_rate": 0.0002541388544751775,
      "loss": 3.8658,
      "step": 124240
    },
    {
      "epoch": 0.25885416666666666,
      "grad_norm": 0.8287313580513,
      "learning_rate": 0.000254131758800014,
      "loss": 3.8716,
      "step": 124250
    },
    {
      "epoch": 0.258875,
      "grad_norm": 0.7712913155555725,
      "learning_rate": 0.0002541246626750425,
      "loss": 4.0593,
      "step": 124260
    },
    {
      "epoch": 0.2588958333333333,
      "grad_norm": 0.829596221446991,
      "learning_rate": 0.00025411756610029364,
      "loss": 4.0257,
      "step": 124270
    },
    {
      "epoch": 0.2589166666666667,
      "grad_norm": 0.7650359272956848,
      "learning_rate": 0.00025411046907579816,
      "loss": 4.0279,
      "step": 124280
    },
    {
      "epoch": 0.2589375,
      "grad_norm": 0.8085917234420776,
      "learning_rate": 0.0002541033716015867,
      "loss": 4.0551,
      "step": 124290
    },
    {
      "epoch": 0.25895833333333335,
      "grad_norm": 0.7632938623428345,
      "learning_rate": 0.00025409627367768976,
      "loss": 3.8633,
      "step": 124300
    },
    {
      "epoch": 0.25897916666666665,
      "grad_norm": 0.7307677268981934,
      "learning_rate": 0.0002540891753041382,
      "loss": 4.1848,
      "step": 124310
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.8658868670463562,
      "learning_rate": 0.0002540820764809626,
      "loss": 4.036,
      "step": 124320
    },
    {
      "epoch": 0.2590208333333333,
      "grad_norm": 0.7553634643554688,
      "learning_rate": 0.00025407497720819367,
      "loss": 3.9749,
      "step": 124330
    },
    {
      "epoch": 0.25904166666666667,
      "grad_norm": 0.8373705148696899,
      "learning_rate": 0.000254067877485862,
      "loss": 4.1936,
      "step": 124340
    },
    {
      "epoch": 0.2590625,
      "grad_norm": 0.7883473038673401,
      "learning_rate": 0.00025406077731399823,
      "loss": 3.7826,
      "step": 124350
    },
    {
      "epoch": 0.25908333333333333,
      "grad_norm": 0.9770672917366028,
      "learning_rate": 0.0002540536766926332,
      "loss": 4.0666,
      "step": 124360
    },
    {
      "epoch": 0.2591041666666667,
      "grad_norm": 0.790158212184906,
      "learning_rate": 0.00025404657562179737,
      "loss": 4.097,
      "step": 124370
    },
    {
      "epoch": 0.259125,
      "grad_norm": 0.801983118057251,
      "learning_rate": 0.0002540394741015216,
      "loss": 3.9166,
      "step": 124380
    },
    {
      "epoch": 0.25914583333333335,
      "grad_norm": 0.7667748928070068,
      "learning_rate": 0.0002540323721318364,
      "loss": 3.9014,
      "step": 124390
    },
    {
      "epoch": 0.25916666666666666,
      "grad_norm": 0.9123349189758301,
      "learning_rate": 0.0002540252697127726,
      "loss": 4.1455,
      "step": 124400
    },
    {
      "epoch": 0.2591875,
      "grad_norm": 0.9192885756492615,
      "learning_rate": 0.0002540181668443608,
      "loss": 4.0087,
      "step": 124410
    },
    {
      "epoch": 0.2592083333333333,
      "grad_norm": 0.7998619079589844,
      "learning_rate": 0.00025401106352663166,
      "loss": 3.9767,
      "step": 124420
    },
    {
      "epoch": 0.2592291666666667,
      "grad_norm": 0.822363555431366,
      "learning_rate": 0.00025400395975961595,
      "loss": 4.0837,
      "step": 124430
    },
    {
      "epoch": 0.25925,
      "grad_norm": 0.8224209547042847,
      "learning_rate": 0.00025399685554334427,
      "loss": 4.1188,
      "step": 124440
    },
    {
      "epoch": 0.25927083333333334,
      "grad_norm": 0.7683435678482056,
      "learning_rate": 0.00025398975087784735,
      "loss": 4.0935,
      "step": 124450
    },
    {
      "epoch": 0.25929166666666664,
      "grad_norm": 0.8584203720092773,
      "learning_rate": 0.0002539826457631558,
      "loss": 4.0978,
      "step": 124460
    },
    {
      "epoch": 0.2593125,
      "grad_norm": 0.7433068156242371,
      "learning_rate": 0.00025397554019930053,
      "loss": 4.3044,
      "step": 124470
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 0.7263360619544983,
      "learning_rate": 0.00025396843418631194,
      "loss": 4.0504,
      "step": 124480
    },
    {
      "epoch": 0.25935416666666666,
      "grad_norm": 0.8695072531700134,
      "learning_rate": 0.00025396132772422095,
      "loss": 4.0945,
      "step": 124490
    },
    {
      "epoch": 0.259375,
      "grad_norm": 0.7789315581321716,
      "learning_rate": 0.00025395422081305813,
      "loss": 3.875,
      "step": 124500
    },
    {
      "epoch": 0.2593958333333333,
      "grad_norm": 0.9057356119155884,
      "learning_rate": 0.00025394711345285423,
      "loss": 4.2619,
      "step": 124510
    },
    {
      "epoch": 0.2594166666666667,
      "grad_norm": 0.8149585127830505,
      "learning_rate": 0.00025394000564363993,
      "loss": 3.9123,
      "step": 124520
    },
    {
      "epoch": 0.2594375,
      "grad_norm": 0.7590842247009277,
      "learning_rate": 0.000253932897385446,
      "loss": 4.0769,
      "step": 124530
    },
    {
      "epoch": 0.25945833333333335,
      "grad_norm": 0.8541253805160522,
      "learning_rate": 0.00025392578867830306,
      "loss": 4.01,
      "step": 124540
    },
    {
      "epoch": 0.25947916666666665,
      "grad_norm": 0.7289437651634216,
      "learning_rate": 0.00025391867952224186,
      "loss": 3.9626,
      "step": 124550
    },
    {
      "epoch": 0.2595,
      "grad_norm": 0.7620782852172852,
      "learning_rate": 0.0002539115699172931,
      "loss": 3.8475,
      "step": 124560
    },
    {
      "epoch": 0.2595208333333333,
      "grad_norm": 0.7720372676849365,
      "learning_rate": 0.00025390445986348746,
      "loss": 3.9315,
      "step": 124570
    },
    {
      "epoch": 0.25954166666666667,
      "grad_norm": 0.7364491820335388,
      "learning_rate": 0.00025389734936085573,
      "loss": 3.9502,
      "step": 124580
    },
    {
      "epoch": 0.2595625,
      "grad_norm": 0.7779171466827393,
      "learning_rate": 0.00025389023840942853,
      "loss": 3.9736,
      "step": 124590
    },
    {
      "epoch": 0.25958333333333333,
      "grad_norm": 0.7555907368659973,
      "learning_rate": 0.0002538831270092366,
      "loss": 3.9789,
      "step": 124600
    },
    {
      "epoch": 0.2596041666666667,
      "grad_norm": 0.8305550813674927,
      "learning_rate": 0.00025387601516031077,
      "loss": 3.904,
      "step": 124610
    },
    {
      "epoch": 0.259625,
      "grad_norm": 0.7351162433624268,
      "learning_rate": 0.0002538689028626816,
      "loss": 4.1432,
      "step": 124620
    },
    {
      "epoch": 0.25964583333333335,
      "grad_norm": 0.7879213690757751,
      "learning_rate": 0.0002538617901163799,
      "loss": 3.968,
      "step": 124630
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 0.7965701222419739,
      "learning_rate": 0.0002538546769214364,
      "loss": 3.9404,
      "step": 124640
    },
    {
      "epoch": 0.2596875,
      "grad_norm": 0.7673370242118835,
      "learning_rate": 0.0002538475632778818,
      "loss": 4.0723,
      "step": 124650
    },
    {
      "epoch": 0.2597083333333333,
      "grad_norm": 0.7490478157997131,
      "learning_rate": 0.0002538404491857468,
      "loss": 4.0823,
      "step": 124660
    },
    {
      "epoch": 0.2597291666666667,
      "grad_norm": 0.7251451015472412,
      "learning_rate": 0.0002538333346450622,
      "loss": 3.8845,
      "step": 124670
    },
    {
      "epoch": 0.25975,
      "grad_norm": 0.8072388768196106,
      "learning_rate": 0.0002538262196558587,
      "loss": 4.1284,
      "step": 124680
    },
    {
      "epoch": 0.25977083333333334,
      "grad_norm": 0.7354815006256104,
      "learning_rate": 0.000253819104218167,
      "loss": 4.1576,
      "step": 124690
    },
    {
      "epoch": 0.25979166666666664,
      "grad_norm": 0.9304563403129578,
      "learning_rate": 0.00025381198833201784,
      "loss": 3.9258,
      "step": 124700
    },
    {
      "epoch": 0.2598125,
      "grad_norm": 0.8136948347091675,
      "learning_rate": 0.000253804871997442,
      "loss": 3.9429,
      "step": 124710
    },
    {
      "epoch": 0.25983333333333336,
      "grad_norm": 0.7765121459960938,
      "learning_rate": 0.0002537977552144702,
      "loss": 3.8663,
      "step": 124720
    },
    {
      "epoch": 0.25985416666666666,
      "grad_norm": 0.8093200922012329,
      "learning_rate": 0.0002537906379831333,
      "loss": 3.9604,
      "step": 124730
    },
    {
      "epoch": 0.259875,
      "grad_norm": 0.7413474321365356,
      "learning_rate": 0.00025378352030346177,
      "loss": 4.1958,
      "step": 124740
    },
    {
      "epoch": 0.2598958333333333,
      "grad_norm": 0.8059274554252625,
      "learning_rate": 0.00025377640217548653,
      "loss": 4.1193,
      "step": 124750
    },
    {
      "epoch": 0.2599166666666667,
      "grad_norm": 0.8253235816955566,
      "learning_rate": 0.0002537692835992384,
      "loss": 3.9284,
      "step": 124760
    },
    {
      "epoch": 0.2599375,
      "grad_norm": 0.8645108342170715,
      "learning_rate": 0.00025376216457474797,
      "loss": 4.2658,
      "step": 124770
    },
    {
      "epoch": 0.25995833333333335,
      "grad_norm": 0.9427145719528198,
      "learning_rate": 0.00025375504510204605,
      "loss": 4.0733,
      "step": 124780
    },
    {
      "epoch": 0.25997916666666665,
      "grad_norm": 0.9823493361473083,
      "learning_rate": 0.0002537479251811635,
      "loss": 3.9576,
      "step": 124790
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8919106125831604,
      "learning_rate": 0.00025374080481213086,
      "loss": 3.9753,
      "step": 124800
    },
    {
      "epoch": 0.2600208333333333,
      "grad_norm": 0.7750124335289001,
      "learning_rate": 0.0002537336839949791,
      "loss": 4.2136,
      "step": 124810
    },
    {
      "epoch": 0.26004166666666667,
      "grad_norm": 0.865837812423706,
      "learning_rate": 0.0002537265627297388,
      "loss": 3.8868,
      "step": 124820
    },
    {
      "epoch": 0.2600625,
      "grad_norm": 0.7103821039199829,
      "learning_rate": 0.0002537194410164409,
      "loss": 4.2744,
      "step": 124830
    },
    {
      "epoch": 0.26008333333333333,
      "grad_norm": 0.7764268517494202,
      "learning_rate": 0.000253712318855116,
      "loss": 3.9275,
      "step": 124840
    },
    {
      "epoch": 0.2601041666666667,
      "grad_norm": 0.8354887366294861,
      "learning_rate": 0.0002537051962457949,
      "loss": 4.1207,
      "step": 124850
    },
    {
      "epoch": 0.260125,
      "grad_norm": 0.8027677536010742,
      "learning_rate": 0.00025369807318850854,
      "loss": 3.9489,
      "step": 124860
    },
    {
      "epoch": 0.26014583333333335,
      "grad_norm": 0.8087314963340759,
      "learning_rate": 0.0002536909496832874,
      "loss": 3.8841,
      "step": 124870
    },
    {
      "epoch": 0.26016666666666666,
      "grad_norm": 0.7852386236190796,
      "learning_rate": 0.00025368382573016246,
      "loss": 4.1272,
      "step": 124880
    },
    {
      "epoch": 0.2601875,
      "grad_norm": 0.8003812432289124,
      "learning_rate": 0.0002536767013291645,
      "loss": 3.9815,
      "step": 124890
    },
    {
      "epoch": 0.2602083333333333,
      "grad_norm": 0.8196430802345276,
      "learning_rate": 0.00025366957648032413,
      "loss": 4.0421,
      "step": 124900
    },
    {
      "epoch": 0.2602291666666667,
      "grad_norm": 0.788052499294281,
      "learning_rate": 0.0002536624511836723,
      "loss": 3.9992,
      "step": 124910
    },
    {
      "epoch": 0.26025,
      "grad_norm": 0.8469420671463013,
      "learning_rate": 0.00025365532543923967,
      "loss": 3.9146,
      "step": 124920
    },
    {
      "epoch": 0.26027083333333334,
      "grad_norm": 0.7682384848594666,
      "learning_rate": 0.0002536481992470571,
      "loss": 3.7596,
      "step": 124930
    },
    {
      "epoch": 0.26029166666666664,
      "grad_norm": 0.8580130934715271,
      "learning_rate": 0.0002536410726071553,
      "loss": 4.1849,
      "step": 124940
    },
    {
      "epoch": 0.2603125,
      "grad_norm": 0.9922232031822205,
      "learning_rate": 0.0002536339455195651,
      "loss": 3.9497,
      "step": 124950
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 0.7400369048118591,
      "learning_rate": 0.0002536268179843173,
      "loss": 4.1601,
      "step": 124960
    },
    {
      "epoch": 0.26035416666666666,
      "grad_norm": 0.7959370613098145,
      "learning_rate": 0.0002536196900014426,
      "loss": 4.0666,
      "step": 124970
    },
    {
      "epoch": 0.260375,
      "grad_norm": 0.7953392267227173,
      "learning_rate": 0.0002536125615709719,
      "loss": 4.0358,
      "step": 124980
    },
    {
      "epoch": 0.2603958333333333,
      "grad_norm": 0.7623946070671082,
      "learning_rate": 0.00025360543269293596,
      "loss": 4.0766,
      "step": 124990
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 0.8743424415588379,
      "learning_rate": 0.0002535983033673655,
      "loss": 4.0488,
      "step": 125000
    },
    {
      "epoch": 0.2604166666666667,
      "eval_loss": 3.7653605937957764,
      "eval_runtime": 7.1989,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 125000
    },
    {
      "epoch": 0.2604375,
      "grad_norm": 0.8137778639793396,
      "learning_rate": 0.00025359117359429145,
      "loss": 3.9347,
      "step": 125010
    },
    {
      "epoch": 0.26045833333333335,
      "grad_norm": 0.7323514819145203,
      "learning_rate": 0.00025358404337374454,
      "loss": 4.1403,
      "step": 125020
    },
    {
      "epoch": 0.26047916666666665,
      "grad_norm": 0.7607795000076294,
      "learning_rate": 0.0002535769127057555,
      "loss": 4.0291,
      "step": 125030
    },
    {
      "epoch": 0.2605,
      "grad_norm": 0.7889012694358826,
      "learning_rate": 0.00025356978159035525,
      "loss": 4.0231,
      "step": 125040
    },
    {
      "epoch": 0.2605208333333333,
      "grad_norm": 0.779471755027771,
      "learning_rate": 0.0002535626500275745,
      "loss": 3.9065,
      "step": 125050
    },
    {
      "epoch": 0.26054166666666667,
      "grad_norm": 0.8543542623519897,
      "learning_rate": 0.0002535555180174441,
      "loss": 3.8776,
      "step": 125060
    },
    {
      "epoch": 0.2605625,
      "grad_norm": 1.0470459461212158,
      "learning_rate": 0.0002535483855599948,
      "loss": 4.0413,
      "step": 125070
    },
    {
      "epoch": 0.26058333333333333,
      "grad_norm": 0.8281405568122864,
      "learning_rate": 0.00025354125265525753,
      "loss": 3.8746,
      "step": 125080
    },
    {
      "epoch": 0.2606041666666667,
      "grad_norm": 0.7934319972991943,
      "learning_rate": 0.00025353411930326304,
      "loss": 4.136,
      "step": 125090
    },
    {
      "epoch": 0.260625,
      "grad_norm": 0.9001017808914185,
      "learning_rate": 0.00025352698550404215,
      "loss": 3.8944,
      "step": 125100
    },
    {
      "epoch": 0.26064583333333335,
      "grad_norm": 0.751181423664093,
      "learning_rate": 0.00025351985125762565,
      "loss": 3.8905,
      "step": 125110
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 0.8682451248168945,
      "learning_rate": 0.00025351271656404433,
      "loss": 3.8897,
      "step": 125120
    },
    {
      "epoch": 0.2606875,
      "grad_norm": 1.0217326879501343,
      "learning_rate": 0.0002535055814233291,
      "loss": 4.1115,
      "step": 125130
    },
    {
      "epoch": 0.2607083333333333,
      "grad_norm": 0.7302640080451965,
      "learning_rate": 0.00025349844583551066,
      "loss": 4.0897,
      "step": 125140
    },
    {
      "epoch": 0.2607291666666667,
      "grad_norm": 0.8208401203155518,
      "learning_rate": 0.00025349130980061995,
      "loss": 4.0123,
      "step": 125150
    },
    {
      "epoch": 0.26075,
      "grad_norm": 0.7459919452667236,
      "learning_rate": 0.00025348417331868774,
      "loss": 4.1732,
      "step": 125160
    },
    {
      "epoch": 0.26077083333333334,
      "grad_norm": 0.7873634696006775,
      "learning_rate": 0.0002534770363897449,
      "loss": 3.9573,
      "step": 125170
    },
    {
      "epoch": 0.26079166666666664,
      "grad_norm": 0.8834299445152283,
      "learning_rate": 0.00025346989901382214,
      "loss": 4.1917,
      "step": 125180
    },
    {
      "epoch": 0.2608125,
      "grad_norm": 0.8248621821403503,
      "learning_rate": 0.00025346276119095037,
      "loss": 4.0133,
      "step": 125190
    },
    {
      "epoch": 0.2608333333333333,
      "grad_norm": 1.340402603149414,
      "learning_rate": 0.00025345562292116054,
      "loss": 4.0558,
      "step": 125200
    },
    {
      "epoch": 0.26085416666666666,
      "grad_norm": 0.7930548191070557,
      "learning_rate": 0.0002534484842044833,
      "loss": 3.8765,
      "step": 125210
    },
    {
      "epoch": 0.260875,
      "grad_norm": 0.7503413558006287,
      "learning_rate": 0.0002534413450409495,
      "loss": 3.9246,
      "step": 125220
    },
    {
      "epoch": 0.2608958333333333,
      "grad_norm": 0.7727904915809631,
      "learning_rate": 0.0002534342054305901,
      "loss": 3.8872,
      "step": 125230
    },
    {
      "epoch": 0.2609166666666667,
      "grad_norm": 0.8249388337135315,
      "learning_rate": 0.0002534270653734359,
      "loss": 4.003,
      "step": 125240
    },
    {
      "epoch": 0.2609375,
      "grad_norm": 0.7551489472389221,
      "learning_rate": 0.0002534199248695176,
      "loss": 4.1261,
      "step": 125250
    },
    {
      "epoch": 0.26095833333333335,
      "grad_norm": 0.7812610864639282,
      "learning_rate": 0.0002534127839188663,
      "loss": 3.9733,
      "step": 125260
    },
    {
      "epoch": 0.26097916666666665,
      "grad_norm": 0.7872584462165833,
      "learning_rate": 0.0002534056425215126,
      "loss": 4.1196,
      "step": 125270
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.7408599257469177,
      "learning_rate": 0.0002533985006774876,
      "loss": 3.9452,
      "step": 125280
    },
    {
      "epoch": 0.2610208333333333,
      "grad_norm": 0.8685395121574402,
      "learning_rate": 0.00025339135838682185,
      "loss": 3.8041,
      "step": 125290
    },
    {
      "epoch": 0.26104166666666667,
      "grad_norm": 0.7840665578842163,
      "learning_rate": 0.00025338421564954645,
      "loss": 3.9528,
      "step": 125300
    },
    {
      "epoch": 0.2610625,
      "grad_norm": 0.8068166971206665,
      "learning_rate": 0.0002533770724656921,
      "loss": 4.0363,
      "step": 125310
    },
    {
      "epoch": 0.26108333333333333,
      "grad_norm": 0.7861749529838562,
      "learning_rate": 0.00025336992883528975,
      "loss": 4.0426,
      "step": 125320
    },
    {
      "epoch": 0.2611041666666667,
      "grad_norm": 0.9049249291419983,
      "learning_rate": 0.0002533627847583702,
      "loss": 3.9654,
      "step": 125330
    },
    {
      "epoch": 0.261125,
      "grad_norm": 0.764778733253479,
      "learning_rate": 0.0002533556402349643,
      "loss": 4.0755,
      "step": 125340
    },
    {
      "epoch": 0.26114583333333335,
      "grad_norm": 0.7899268269538879,
      "learning_rate": 0.00025334849526510305,
      "loss": 4.0293,
      "step": 125350
    },
    {
      "epoch": 0.26116666666666666,
      "grad_norm": 0.8376160264015198,
      "learning_rate": 0.0002533413498488171,
      "loss": 3.9059,
      "step": 125360
    },
    {
      "epoch": 0.2611875,
      "grad_norm": 2.3911521434783936,
      "learning_rate": 0.0002533342039861375,
      "loss": 4.0724,
      "step": 125370
    },
    {
      "epoch": 0.2612083333333333,
      "grad_norm": 0.8396251201629639,
      "learning_rate": 0.00025332705767709506,
      "loss": 3.9589,
      "step": 125380
    },
    {
      "epoch": 0.2612291666666667,
      "grad_norm": 0.8926834464073181,
      "learning_rate": 0.00025331991092172055,
      "loss": 3.9081,
      "step": 125390
    },
    {
      "epoch": 0.26125,
      "grad_norm": 0.7574173212051392,
      "learning_rate": 0.000253312763720045,
      "loss": 4.1694,
      "step": 125400
    },
    {
      "epoch": 0.26127083333333334,
      "grad_norm": 0.7851962447166443,
      "learning_rate": 0.00025330561607209915,
      "loss": 4.0679,
      "step": 125410
    },
    {
      "epoch": 0.26129166666666664,
      "grad_norm": 0.7803761959075928,
      "learning_rate": 0.0002532984679779139,
      "loss": 3.8975,
      "step": 125420
    },
    {
      "epoch": 0.2613125,
      "grad_norm": 0.7417255640029907,
      "learning_rate": 0.0002532913194375202,
      "loss": 4.2146,
      "step": 125430
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 0.8683709502220154,
      "learning_rate": 0.0002532841704509489,
      "loss": 4.2365,
      "step": 125440
    },
    {
      "epoch": 0.26135416666666667,
      "grad_norm": 0.7868175506591797,
      "learning_rate": 0.0002532770210182309,
      "loss": 4.0323,
      "step": 125450
    },
    {
      "epoch": 0.261375,
      "grad_norm": 0.888477087020874,
      "learning_rate": 0.00025326987113939703,
      "loss": 3.8729,
      "step": 125460
    },
    {
      "epoch": 0.2613958333333333,
      "grad_norm": 0.7949506044387817,
      "learning_rate": 0.0002532627208144781,
      "loss": 4.1527,
      "step": 125470
    },
    {
      "epoch": 0.2614166666666667,
      "grad_norm": 0.9334509968757629,
      "learning_rate": 0.0002532555700435052,
      "loss": 4.0192,
      "step": 125480
    },
    {
      "epoch": 0.2614375,
      "grad_norm": 0.8013905882835388,
      "learning_rate": 0.00025324841882650904,
      "loss": 4.0316,
      "step": 125490
    },
    {
      "epoch": 0.26145833333333335,
      "grad_norm": 0.7951142191886902,
      "learning_rate": 0.0002532412671635206,
      "loss": 4.0468,
      "step": 125500
    },
    {
      "epoch": 0.26147916666666665,
      "grad_norm": 0.7348940372467041,
      "learning_rate": 0.00025323411505457076,
      "loss": 4.0008,
      "step": 125510
    },
    {
      "epoch": 0.2615,
      "grad_norm": 0.8182168006896973,
      "learning_rate": 0.0002532269624996904,
      "loss": 4.1064,
      "step": 125520
    },
    {
      "epoch": 0.2615208333333333,
      "grad_norm": 0.9010896682739258,
      "learning_rate": 0.00025321980949891045,
      "loss": 4.0656,
      "step": 125530
    },
    {
      "epoch": 0.2615416666666667,
      "grad_norm": 0.7364915609359741,
      "learning_rate": 0.0002532126560522617,
      "loss": 3.9582,
      "step": 125540
    },
    {
      "epoch": 0.2615625,
      "grad_norm": 0.7855408787727356,
      "learning_rate": 0.00025320550215977524,
      "loss": 3.8938,
      "step": 125550
    },
    {
      "epoch": 0.26158333333333333,
      "grad_norm": 0.857763409614563,
      "learning_rate": 0.0002531983478214818,
      "loss": 3.9717,
      "step": 125560
    },
    {
      "epoch": 0.2616041666666667,
      "grad_norm": 0.7972068190574646,
      "learning_rate": 0.0002531911930374124,
      "loss": 3.958,
      "step": 125570
    },
    {
      "epoch": 0.261625,
      "grad_norm": 0.7447088360786438,
      "learning_rate": 0.00025318403780759776,
      "loss": 3.9825,
      "step": 125580
    },
    {
      "epoch": 0.26164583333333336,
      "grad_norm": 0.7525148987770081,
      "learning_rate": 0.00025317688213206903,
      "loss": 3.9896,
      "step": 125590
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 0.8825143575668335,
      "learning_rate": 0.000253169726010857,
      "loss": 3.8327,
      "step": 125600
    },
    {
      "epoch": 0.2616875,
      "grad_norm": 0.7865100502967834,
      "learning_rate": 0.0002531625694439926,
      "loss": 3.9999,
      "step": 125610
    },
    {
      "epoch": 0.2617083333333333,
      "grad_norm": 0.8264154195785522,
      "learning_rate": 0.00025315541243150667,
      "loss": 4.1134,
      "step": 125620
    },
    {
      "epoch": 0.2617291666666667,
      "grad_norm": 0.8140060305595398,
      "learning_rate": 0.00025314825497343025,
      "loss": 4.247,
      "step": 125630
    },
    {
      "epoch": 0.26175,
      "grad_norm": 0.7604519724845886,
      "learning_rate": 0.00025314109706979417,
      "loss": 3.7751,
      "step": 125640
    },
    {
      "epoch": 0.26177083333333334,
      "grad_norm": 0.8607040047645569,
      "learning_rate": 0.0002531339387206294,
      "loss": 4.1839,
      "step": 125650
    },
    {
      "epoch": 0.26179166666666664,
      "grad_norm": 0.8554003238677979,
      "learning_rate": 0.0002531267799259668,
      "loss": 4.033,
      "step": 125660
    },
    {
      "epoch": 0.2618125,
      "grad_norm": 0.843585729598999,
      "learning_rate": 0.0002531196206858373,
      "loss": 3.9787,
      "step": 125670
    },
    {
      "epoch": 0.2618333333333333,
      "grad_norm": 0.7840905785560608,
      "learning_rate": 0.00025311246100027197,
      "loss": 4.0282,
      "step": 125680
    },
    {
      "epoch": 0.26185416666666667,
      "grad_norm": 0.7300395965576172,
      "learning_rate": 0.00025310530086930153,
      "loss": 3.9776,
      "step": 125690
    },
    {
      "epoch": 0.261875,
      "grad_norm": 0.7787328958511353,
      "learning_rate": 0.0002530981402929571,
      "loss": 3.979,
      "step": 125700
    },
    {
      "epoch": 0.2618958333333333,
      "grad_norm": 0.733406662940979,
      "learning_rate": 0.0002530909792712694,
      "loss": 4.1512,
      "step": 125710
    },
    {
      "epoch": 0.2619166666666667,
      "grad_norm": 0.7597097754478455,
      "learning_rate": 0.00025308381780426954,
      "loss": 4.0893,
      "step": 125720
    },
    {
      "epoch": 0.2619375,
      "grad_norm": 0.7739555239677429,
      "learning_rate": 0.0002530766558919884,
      "loss": 3.9466,
      "step": 125730
    },
    {
      "epoch": 0.26195833333333335,
      "grad_norm": 0.8828294277191162,
      "learning_rate": 0.00025306949353445687,
      "loss": 3.9581,
      "step": 125740
    },
    {
      "epoch": 0.26197916666666665,
      "grad_norm": 0.8030005097389221,
      "learning_rate": 0.00025306233073170594,
      "loss": 4.0488,
      "step": 125750
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.8290238380432129,
      "learning_rate": 0.0002530551674837665,
      "loss": 4.1262,
      "step": 125760
    },
    {
      "epoch": 0.2620208333333333,
      "grad_norm": 0.7783355712890625,
      "learning_rate": 0.00025304800379066957,
      "loss": 4.0037,
      "step": 125770
    },
    {
      "epoch": 0.2620416666666667,
      "grad_norm": 0.9278019666671753,
      "learning_rate": 0.00025304083965244605,
      "loss": 4.1726,
      "step": 125780
    },
    {
      "epoch": 0.2620625,
      "grad_norm": 0.7725047469139099,
      "learning_rate": 0.0002530336750691269,
      "loss": 4.1235,
      "step": 125790
    },
    {
      "epoch": 0.26208333333333333,
      "grad_norm": 0.8589339852333069,
      "learning_rate": 0.00025302651004074304,
      "loss": 3.9717,
      "step": 125800
    },
    {
      "epoch": 0.2621041666666667,
      "grad_norm": 0.7212058901786804,
      "learning_rate": 0.0002530193445673254,
      "loss": 3.9276,
      "step": 125810
    },
    {
      "epoch": 0.262125,
      "grad_norm": 0.8187365531921387,
      "learning_rate": 0.000253012178648905,
      "loss": 3.8826,
      "step": 125820
    },
    {
      "epoch": 0.26214583333333336,
      "grad_norm": 0.8473696112632751,
      "learning_rate": 0.0002530050122855128,
      "loss": 4.144,
      "step": 125830
    },
    {
      "epoch": 0.26216666666666666,
      "grad_norm": 0.7060456275939941,
      "learning_rate": 0.00025299784547717967,
      "loss": 3.8411,
      "step": 125840
    },
    {
      "epoch": 0.2621875,
      "grad_norm": 0.7863463163375854,
      "learning_rate": 0.0002529906782239367,
      "loss": 4.1683,
      "step": 125850
    },
    {
      "epoch": 0.2622083333333333,
      "grad_norm": 0.8171730041503906,
      "learning_rate": 0.0002529835105258147,
      "loss": 4.1385,
      "step": 125860
    },
    {
      "epoch": 0.2622291666666667,
      "grad_norm": 0.6899459958076477,
      "learning_rate": 0.0002529763423828447,
      "loss": 4.2349,
      "step": 125870
    },
    {
      "epoch": 0.26225,
      "grad_norm": 0.7907170653343201,
      "learning_rate": 0.00025296917379505763,
      "loss": 4.0816,
      "step": 125880
    },
    {
      "epoch": 0.26227083333333334,
      "grad_norm": 0.8729618191719055,
      "learning_rate": 0.00025296200476248454,
      "loss": 4.0205,
      "step": 125890
    },
    {
      "epoch": 0.26229166666666665,
      "grad_norm": 0.8061491250991821,
      "learning_rate": 0.0002529548352851563,
      "loss": 3.8866,
      "step": 125900
    },
    {
      "epoch": 0.2623125,
      "grad_norm": 0.7805825471878052,
      "learning_rate": 0.00025294766536310397,
      "loss": 4.0417,
      "step": 125910
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 0.92414391040802,
      "learning_rate": 0.00025294049499635846,
      "loss": 4.0664,
      "step": 125920
    },
    {
      "epoch": 0.26235416666666667,
      "grad_norm": 0.7536776661872864,
      "learning_rate": 0.00025293332418495075,
      "loss": 4.1363,
      "step": 125930
    },
    {
      "epoch": 0.262375,
      "grad_norm": 0.8019455671310425,
      "learning_rate": 0.00025292615292891183,
      "loss": 4.1859,
      "step": 125940
    },
    {
      "epoch": 0.26239583333333333,
      "grad_norm": 0.7960565090179443,
      "learning_rate": 0.00025291898122827266,
      "loss": 3.9195,
      "step": 125950
    },
    {
      "epoch": 0.2624166666666667,
      "grad_norm": 0.833519458770752,
      "learning_rate": 0.00025291180908306425,
      "loss": 4.1446,
      "step": 125960
    },
    {
      "epoch": 0.2624375,
      "grad_norm": 0.708609938621521,
      "learning_rate": 0.0002529046364933175,
      "loss": 3.9901,
      "step": 125970
    },
    {
      "epoch": 0.26245833333333335,
      "grad_norm": 0.8460318446159363,
      "learning_rate": 0.0002528974634590635,
      "loss": 4.1681,
      "step": 125980
    },
    {
      "epoch": 0.26247916666666665,
      "grad_norm": 0.7676991820335388,
      "learning_rate": 0.00025289028998033323,
      "loss": 3.9089,
      "step": 125990
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.9089985489845276,
      "learning_rate": 0.00025288311605715756,
      "loss": 4.0562,
      "step": 126000
    },
    {
      "epoch": 0.2625,
      "eval_loss": 3.754133939743042,
      "eval_runtime": 7.2801,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 126000
    },
    {
      "epoch": 0.2625208333333333,
      "grad_norm": 0.6987649202346802,
      "learning_rate": 0.0002528759416895676,
      "loss": 3.8062,
      "step": 126010
    },
    {
      "epoch": 0.2625416666666667,
      "grad_norm": 0.8296732306480408,
      "learning_rate": 0.00025286876687759426,
      "loss": 3.9879,
      "step": 126020
    },
    {
      "epoch": 0.2625625,
      "grad_norm": 0.8087761998176575,
      "learning_rate": 0.0002528615916212686,
      "loss": 4.0214,
      "step": 126030
    },
    {
      "epoch": 0.26258333333333334,
      "grad_norm": 0.8056745529174805,
      "learning_rate": 0.00025285441592062157,
      "loss": 3.9795,
      "step": 126040
    },
    {
      "epoch": 0.2626041666666667,
      "grad_norm": 0.8084854483604431,
      "learning_rate": 0.0002528472397756841,
      "loss": 3.9871,
      "step": 126050
    },
    {
      "epoch": 0.262625,
      "grad_norm": 0.7663082480430603,
      "learning_rate": 0.00025284006318648734,
      "loss": 3.8748,
      "step": 126060
    },
    {
      "epoch": 0.26264583333333336,
      "grad_norm": 0.7651274800300598,
      "learning_rate": 0.00025283288615306226,
      "loss": 3.99,
      "step": 126070
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 0.9367310404777527,
      "learning_rate": 0.00025282570867543976,
      "loss": 4.2081,
      "step": 126080
    },
    {
      "epoch": 0.2626875,
      "grad_norm": 0.8958770632743835,
      "learning_rate": 0.00025281853075365086,
      "loss": 3.9515,
      "step": 126090
    },
    {
      "epoch": 0.2627083333333333,
      "grad_norm": 0.7411325573921204,
      "learning_rate": 0.00025281135238772667,
      "loss": 4.0142,
      "step": 126100
    },
    {
      "epoch": 0.2627291666666667,
      "grad_norm": 0.8650830984115601,
      "learning_rate": 0.0002528041735776981,
      "loss": 3.9377,
      "step": 126110
    },
    {
      "epoch": 0.26275,
      "grad_norm": 0.6904152035713196,
      "learning_rate": 0.00025279699432359623,
      "loss": 3.9989,
      "step": 126120
    },
    {
      "epoch": 0.26277083333333334,
      "grad_norm": 0.7462444305419922,
      "learning_rate": 0.000252789814625452,
      "loss": 4.1749,
      "step": 126130
    },
    {
      "epoch": 0.26279166666666665,
      "grad_norm": 0.8126917481422424,
      "learning_rate": 0.0002527826344832965,
      "loss": 4.0254,
      "step": 126140
    },
    {
      "epoch": 0.2628125,
      "grad_norm": 0.8013009428977966,
      "learning_rate": 0.00025277545389716064,
      "loss": 4.0013,
      "step": 126150
    },
    {
      "epoch": 0.2628333333333333,
      "grad_norm": 0.7924452424049377,
      "learning_rate": 0.0002527682728670755,
      "loss": 3.7985,
      "step": 126160
    },
    {
      "epoch": 0.26285416666666667,
      "grad_norm": 0.7711833715438843,
      "learning_rate": 0.00025276109139307215,
      "loss": 4.1149,
      "step": 126170
    },
    {
      "epoch": 0.262875,
      "grad_norm": 0.7777577638626099,
      "learning_rate": 0.00025275390947518156,
      "loss": 4.075,
      "step": 126180
    },
    {
      "epoch": 0.26289583333333333,
      "grad_norm": 0.7261220216751099,
      "learning_rate": 0.0002527467271134347,
      "loss": 4.0361,
      "step": 126190
    },
    {
      "epoch": 0.2629166666666667,
      "grad_norm": 0.779060423374176,
      "learning_rate": 0.0002527395443078627,
      "loss": 4.1016,
      "step": 126200
    },
    {
      "epoch": 0.2629375,
      "grad_norm": 0.9072369337081909,
      "learning_rate": 0.0002527323610584965,
      "loss": 3.7769,
      "step": 126210
    },
    {
      "epoch": 0.26295833333333335,
      "grad_norm": 0.7963932752609253,
      "learning_rate": 0.00025272517736536716,
      "loss": 3.9805,
      "step": 126220
    },
    {
      "epoch": 0.26297916666666665,
      "grad_norm": 0.7705767750740051,
      "learning_rate": 0.00025271799322850575,
      "loss": 4.1779,
      "step": 126230
    },
    {
      "epoch": 0.263,
      "grad_norm": 1.1820684671401978,
      "learning_rate": 0.00025271080864794327,
      "loss": 3.934,
      "step": 126240
    },
    {
      "epoch": 0.2630208333333333,
      "grad_norm": 0.8195154666900635,
      "learning_rate": 0.00025270362362371073,
      "loss": 3.9202,
      "step": 126250
    },
    {
      "epoch": 0.2630416666666667,
      "grad_norm": 0.8465622067451477,
      "learning_rate": 0.0002526964381558392,
      "loss": 4.02,
      "step": 126260
    },
    {
      "epoch": 0.2630625,
      "grad_norm": 0.730292797088623,
      "learning_rate": 0.00025268925224435974,
      "loss": 4.1797,
      "step": 126270
    },
    {
      "epoch": 0.26308333333333334,
      "grad_norm": 0.7832200527191162,
      "learning_rate": 0.0002526820658893033,
      "loss": 4.0072,
      "step": 126280
    },
    {
      "epoch": 0.26310416666666664,
      "grad_norm": 0.912398636341095,
      "learning_rate": 0.000252674879090701,
      "loss": 3.9754,
      "step": 126290
    },
    {
      "epoch": 0.263125,
      "grad_norm": 0.8307079672813416,
      "learning_rate": 0.0002526676918485839,
      "loss": 3.9887,
      "step": 126300
    },
    {
      "epoch": 0.26314583333333336,
      "grad_norm": 0.9132691621780396,
      "learning_rate": 0.0002526605041629829,
      "loss": 4.2211,
      "step": 126310
    },
    {
      "epoch": 0.26316666666666666,
      "grad_norm": 0.7462010979652405,
      "learning_rate": 0.00025265331603392926,
      "loss": 4.263,
      "step": 126320
    },
    {
      "epoch": 0.2631875,
      "grad_norm": 0.7660632729530334,
      "learning_rate": 0.0002526461274614539,
      "loss": 3.9811,
      "step": 126330
    },
    {
      "epoch": 0.2632083333333333,
      "grad_norm": 1.595535159111023,
      "learning_rate": 0.0002526389384455879,
      "loss": 4.1791,
      "step": 126340
    },
    {
      "epoch": 0.2632291666666667,
      "grad_norm": 0.7857122421264648,
      "learning_rate": 0.0002526317489863623,
      "loss": 3.9156,
      "step": 126350
    },
    {
      "epoch": 0.26325,
      "grad_norm": 0.7986240386962891,
      "learning_rate": 0.00025262455908380823,
      "loss": 3.8742,
      "step": 126360
    },
    {
      "epoch": 0.26327083333333334,
      "grad_norm": 0.8111696243286133,
      "learning_rate": 0.00025261736873795663,
      "loss": 4.0982,
      "step": 126370
    },
    {
      "epoch": 0.26329166666666665,
      "grad_norm": 0.7768822908401489,
      "learning_rate": 0.0002526101779488386,
      "loss": 4.0593,
      "step": 126380
    },
    {
      "epoch": 0.2633125,
      "grad_norm": 0.7496981024742126,
      "learning_rate": 0.00025260298671648526,
      "loss": 3.8014,
      "step": 126390
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 0.7597095966339111,
      "learning_rate": 0.0002525957950409276,
      "loss": 4.0651,
      "step": 126400
    },
    {
      "epoch": 0.26335416666666667,
      "grad_norm": 0.7528778910636902,
      "learning_rate": 0.0002525886029221967,
      "loss": 4.0391,
      "step": 126410
    },
    {
      "epoch": 0.263375,
      "grad_norm": 0.7458080649375916,
      "learning_rate": 0.00025258141036032367,
      "loss": 3.9303,
      "step": 126420
    },
    {
      "epoch": 0.26339583333333333,
      "grad_norm": 0.9345281720161438,
      "learning_rate": 0.00025257421735533955,
      "loss": 4.096,
      "step": 126430
    },
    {
      "epoch": 0.2634166666666667,
      "grad_norm": 0.777084469795227,
      "learning_rate": 0.0002525670239072754,
      "loss": 4.1327,
      "step": 126440
    },
    {
      "epoch": 0.2634375,
      "grad_norm": 0.7484894394874573,
      "learning_rate": 0.0002525598300161623,
      "loss": 3.9129,
      "step": 126450
    },
    {
      "epoch": 0.26345833333333335,
      "grad_norm": 0.891054630279541,
      "learning_rate": 0.0002525526356820314,
      "loss": 4.0526,
      "step": 126460
    },
    {
      "epoch": 0.26347916666666665,
      "grad_norm": 0.8525298833847046,
      "learning_rate": 0.00025254544090491367,
      "loss": 4.0354,
      "step": 126470
    },
    {
      "epoch": 0.2635,
      "grad_norm": 0.9273850321769714,
      "learning_rate": 0.0002525382456848402,
      "loss": 4.1331,
      "step": 126480
    },
    {
      "epoch": 0.2635208333333333,
      "grad_norm": 0.7784287929534912,
      "learning_rate": 0.0002525310500218421,
      "loss": 3.8968,
      "step": 126490
    },
    {
      "epoch": 0.2635416666666667,
      "grad_norm": 0.8338974118232727,
      "learning_rate": 0.0002525238539159504,
      "loss": 3.9722,
      "step": 126500
    },
    {
      "epoch": 0.2635625,
      "grad_norm": 0.9190270304679871,
      "learning_rate": 0.0002525166573671963,
      "loss": 3.8952,
      "step": 126510
    },
    {
      "epoch": 0.26358333333333334,
      "grad_norm": 0.8995053768157959,
      "learning_rate": 0.0002525094603756109,
      "loss": 3.9718,
      "step": 126520
    },
    {
      "epoch": 0.26360416666666664,
      "grad_norm": 2.1031734943389893,
      "learning_rate": 0.0002525022629412251,
      "loss": 4.0211,
      "step": 126530
    },
    {
      "epoch": 0.263625,
      "grad_norm": 0.714667558670044,
      "learning_rate": 0.0002524950650640701,
      "loss": 4.0843,
      "step": 126540
    },
    {
      "epoch": 0.26364583333333336,
      "grad_norm": 0.8094404935836792,
      "learning_rate": 0.00025248786674417705,
      "loss": 3.7517,
      "step": 126550
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 0.745146632194519,
      "learning_rate": 0.00025248066798157687,
      "loss": 3.8797,
      "step": 126560
    },
    {
      "epoch": 0.2636875,
      "grad_norm": 0.8777412176132202,
      "learning_rate": 0.00025247346877630084,
      "loss": 3.884,
      "step": 126570
    },
    {
      "epoch": 0.2637083333333333,
      "grad_norm": 0.8086377382278442,
      "learning_rate": 0.00025246626912838,
      "loss": 3.8447,
      "step": 126580
    },
    {
      "epoch": 0.2637291666666667,
      "grad_norm": 0.7866870760917664,
      "learning_rate": 0.0002524590690378454,
      "loss": 4.1006,
      "step": 126590
    },
    {
      "epoch": 0.26375,
      "grad_norm": 0.764039933681488,
      "learning_rate": 0.0002524518685047282,
      "loss": 4.0129,
      "step": 126600
    },
    {
      "epoch": 0.26377083333333334,
      "grad_norm": 0.9297129511833191,
      "learning_rate": 0.0002524446675290595,
      "loss": 3.8056,
      "step": 126610
    },
    {
      "epoch": 0.26379166666666665,
      "grad_norm": 0.7951053977012634,
      "learning_rate": 0.0002524374661108704,
      "loss": 3.9967,
      "step": 126620
    },
    {
      "epoch": 0.2638125,
      "grad_norm": 1.2246403694152832,
      "learning_rate": 0.0002524302642501919,
      "loss": 4.0616,
      "step": 126630
    },
    {
      "epoch": 0.2638333333333333,
      "grad_norm": 0.8267000913619995,
      "learning_rate": 0.0002524230619470553,
      "loss": 3.9182,
      "step": 126640
    },
    {
      "epoch": 0.26385416666666667,
      "grad_norm": 0.9555558562278748,
      "learning_rate": 0.00025241585920149156,
      "loss": 3.8901,
      "step": 126650
    },
    {
      "epoch": 0.263875,
      "grad_norm": 0.8273833394050598,
      "learning_rate": 0.0002524086560135318,
      "loss": 3.7119,
      "step": 126660
    },
    {
      "epoch": 0.26389583333333333,
      "grad_norm": 0.7241954207420349,
      "learning_rate": 0.0002524014523832073,
      "loss": 3.9202,
      "step": 126670
    },
    {
      "epoch": 0.2639166666666667,
      "grad_norm": 0.7112649083137512,
      "learning_rate": 0.00025239424831054896,
      "loss": 3.9178,
      "step": 126680
    },
    {
      "epoch": 0.2639375,
      "grad_norm": 0.7078545093536377,
      "learning_rate": 0.0002523870437955881,
      "loss": 4.0582,
      "step": 126690
    },
    {
      "epoch": 0.26395833333333335,
      "grad_norm": 0.8599548935890198,
      "learning_rate": 0.00025237983883835566,
      "loss": 3.8502,
      "step": 126700
    },
    {
      "epoch": 0.26397916666666665,
      "grad_norm": 0.8117921948432922,
      "learning_rate": 0.00025237263343888284,
      "loss": 4.1216,
      "step": 126710
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.869032621383667,
      "learning_rate": 0.0002523654275972008,
      "loss": 3.9934,
      "step": 126720
    },
    {
      "epoch": 0.2640208333333333,
      "grad_norm": 0.8187605738639832,
      "learning_rate": 0.0002523582213133406,
      "loss": 3.9916,
      "step": 126730
    },
    {
      "epoch": 0.2640416666666667,
      "grad_norm": 0.8028345108032227,
      "learning_rate": 0.00025235101458733345,
      "loss": 4.0945,
      "step": 126740
    },
    {
      "epoch": 0.2640625,
      "grad_norm": 0.8304404616355896,
      "learning_rate": 0.0002523438074192104,
      "loss": 3.9064,
      "step": 126750
    },
    {
      "epoch": 0.26408333333333334,
      "grad_norm": 0.7682671546936035,
      "learning_rate": 0.00025233659980900263,
      "loss": 3.9201,
      "step": 126760
    },
    {
      "epoch": 0.26410416666666664,
      "grad_norm": 0.8696662187576294,
      "learning_rate": 0.0002523293917567412,
      "loss": 3.9055,
      "step": 126770
    },
    {
      "epoch": 0.264125,
      "grad_norm": 0.8271519541740417,
      "learning_rate": 0.0002523221832624574,
      "loss": 3.8809,
      "step": 126780
    },
    {
      "epoch": 0.26414583333333336,
      "grad_norm": 0.7824398279190063,
      "learning_rate": 0.00025231497432618214,
      "loss": 3.9097,
      "step": 126790
    },
    {
      "epoch": 0.26416666666666666,
      "grad_norm": 0.7989431619644165,
      "learning_rate": 0.0002523077649479468,
      "loss": 3.9776,
      "step": 126800
    },
    {
      "epoch": 0.2641875,
      "grad_norm": 0.7297469973564148,
      "learning_rate": 0.00025230055512778235,
      "loss": 3.799,
      "step": 126810
    },
    {
      "epoch": 0.2642083333333333,
      "grad_norm": 0.7248671054840088,
      "learning_rate": 0.00025229334486572,
      "loss": 3.9226,
      "step": 126820
    },
    {
      "epoch": 0.2642291666666667,
      "grad_norm": 0.7738194465637207,
      "learning_rate": 0.00025228613416179095,
      "loss": 3.9615,
      "step": 126830
    },
    {
      "epoch": 0.26425,
      "grad_norm": 0.870930016040802,
      "learning_rate": 0.0002522789230160262,
      "loss": 4.0908,
      "step": 126840
    },
    {
      "epoch": 0.26427083333333334,
      "grad_norm": 0.7615612745285034,
      "learning_rate": 0.00025227171142845704,
      "loss": 3.994,
      "step": 126850
    },
    {
      "epoch": 0.26429166666666665,
      "grad_norm": 0.8112044334411621,
      "learning_rate": 0.0002522644993991146,
      "loss": 4.016,
      "step": 126860
    },
    {
      "epoch": 0.2643125,
      "grad_norm": 0.7984168529510498,
      "learning_rate": 0.00025225728692803,
      "loss": 3.8817,
      "step": 126870
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 0.754586935043335,
      "learning_rate": 0.0002522500740152343,
      "loss": 3.864,
      "step": 126880
    },
    {
      "epoch": 0.26435416666666667,
      "grad_norm": 0.799660861492157,
      "learning_rate": 0.0002522428606607589,
      "loss": 3.9831,
      "step": 126890
    },
    {
      "epoch": 0.264375,
      "grad_norm": 0.824508011341095,
      "learning_rate": 0.0002522356468646347,
      "loss": 4.1268,
      "step": 126900
    },
    {
      "epoch": 0.26439583333333333,
      "grad_norm": 0.7993046045303345,
      "learning_rate": 0.0002522284326268929,
      "loss": 4.0347,
      "step": 126910
    },
    {
      "epoch": 0.2644166666666667,
      "grad_norm": 0.8329038619995117,
      "learning_rate": 0.0002522212179475649,
      "loss": 4.1287,
      "step": 126920
    },
    {
      "epoch": 0.2644375,
      "grad_norm": 0.8558200001716614,
      "learning_rate": 0.0002522140028266816,
      "loss": 4.0253,
      "step": 126930
    },
    {
      "epoch": 0.26445833333333335,
      "grad_norm": 0.7634543776512146,
      "learning_rate": 0.0002522067872642743,
      "loss": 4.1031,
      "step": 126940
    },
    {
      "epoch": 0.26447916666666665,
      "grad_norm": 0.722959041595459,
      "learning_rate": 0.00025219957126037417,
      "loss": 3.9676,
      "step": 126950
    },
    {
      "epoch": 0.2645,
      "grad_norm": 0.7450621724128723,
      "learning_rate": 0.0002521923548150123,
      "loss": 4.0077,
      "step": 126960
    },
    {
      "epoch": 0.2645208333333333,
      "grad_norm": 0.7639724016189575,
      "learning_rate": 0.00025218513792821994,
      "loss": 4.0817,
      "step": 126970
    },
    {
      "epoch": 0.2645416666666667,
      "grad_norm": 0.8288286328315735,
      "learning_rate": 0.0002521779206000282,
      "loss": 4.0249,
      "step": 126980
    },
    {
      "epoch": 0.2645625,
      "grad_norm": 0.816612184047699,
      "learning_rate": 0.00025217070283046827,
      "loss": 3.9308,
      "step": 126990
    },
    {
      "epoch": 0.26458333333333334,
      "grad_norm": 0.7752882838249207,
      "learning_rate": 0.00025216348461957143,
      "loss": 4.0137,
      "step": 127000
    },
    {
      "epoch": 0.26458333333333334,
      "eval_loss": 3.76015043258667,
      "eval_runtime": 7.2947,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 127000
    },
    {
      "epoch": 0.26460416666666664,
      "grad_norm": 0.7332112789154053,
      "learning_rate": 0.0002521562659673687,
      "loss": 4.0745,
      "step": 127010
    },
    {
      "epoch": 0.264625,
      "grad_norm": 0.8699659109115601,
      "learning_rate": 0.0002521490468738914,
      "loss": 3.8843,
      "step": 127020
    },
    {
      "epoch": 0.26464583333333336,
      "grad_norm": 0.8010998964309692,
      "learning_rate": 0.0002521418273391706,
      "loss": 3.9276,
      "step": 127030
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 0.8546229004859924,
      "learning_rate": 0.0002521346073632375,
      "loss": 4.1005,
      "step": 127040
    },
    {
      "epoch": 0.2646875,
      "grad_norm": 0.8736109733581543,
      "learning_rate": 0.00025212738694612336,
      "loss": 4.1783,
      "step": 127050
    },
    {
      "epoch": 0.2647083333333333,
      "grad_norm": 0.7929853796958923,
      "learning_rate": 0.0002521201660878594,
      "loss": 4.0356,
      "step": 127060
    },
    {
      "epoch": 0.2647291666666667,
      "grad_norm": 0.762429416179657,
      "learning_rate": 0.00025211294478847665,
      "loss": 3.8874,
      "step": 127070
    },
    {
      "epoch": 0.26475,
      "grad_norm": 0.8101388216018677,
      "learning_rate": 0.0002521057230480065,
      "loss": 4.0676,
      "step": 127080
    },
    {
      "epoch": 0.26477083333333334,
      "grad_norm": 0.7833859920501709,
      "learning_rate": 0.00025209850086647993,
      "loss": 4.0732,
      "step": 127090
    },
    {
      "epoch": 0.26479166666666665,
      "grad_norm": 1.062556266784668,
      "learning_rate": 0.0002520912782439283,
      "loss": 4.085,
      "step": 127100
    },
    {
      "epoch": 0.2648125,
      "grad_norm": 0.7964510321617126,
      "learning_rate": 0.00025208405518038275,
      "loss": 4.1142,
      "step": 127110
    },
    {
      "epoch": 0.2648333333333333,
      "grad_norm": 0.7375405430793762,
      "learning_rate": 0.0002520768316758745,
      "loss": 4.0616,
      "step": 127120
    },
    {
      "epoch": 0.26485416666666667,
      "grad_norm": 0.9764218926429749,
      "learning_rate": 0.0002520696077304347,
      "loss": 4.0839,
      "step": 127130
    },
    {
      "epoch": 0.264875,
      "grad_norm": 0.7921565175056458,
      "learning_rate": 0.0002520623833440947,
      "loss": 3.9918,
      "step": 127140
    },
    {
      "epoch": 0.26489583333333333,
      "grad_norm": 0.725429117679596,
      "learning_rate": 0.0002520551585168855,
      "loss": 4.1622,
      "step": 127150
    },
    {
      "epoch": 0.2649166666666667,
      "grad_norm": 0.7246013283729553,
      "learning_rate": 0.00025204793324883843,
      "loss": 3.7456,
      "step": 127160
    },
    {
      "epoch": 0.2649375,
      "grad_norm": 0.784137487411499,
      "learning_rate": 0.00025204070753998475,
      "loss": 3.9727,
      "step": 127170
    },
    {
      "epoch": 0.26495833333333335,
      "grad_norm": 0.8515489101409912,
      "learning_rate": 0.0002520334813903555,
      "loss": 3.9763,
      "step": 127180
    },
    {
      "epoch": 0.26497916666666665,
      "grad_norm": 0.7194648385047913,
      "learning_rate": 0.0002520262547999821,
      "loss": 4.1495,
      "step": 127190
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.8777626752853394,
      "learning_rate": 0.0002520190277688956,
      "loss": 4.2438,
      "step": 127200
    },
    {
      "epoch": 0.2650208333333333,
      "grad_norm": 0.8270189166069031,
      "learning_rate": 0.0002520118002971273,
      "loss": 3.8687,
      "step": 127210
    },
    {
      "epoch": 0.2650416666666667,
      "grad_norm": 0.8107305765151978,
      "learning_rate": 0.00025200457238470843,
      "loss": 3.9479,
      "step": 127220
    },
    {
      "epoch": 0.2650625,
      "grad_norm": 0.7636191248893738,
      "learning_rate": 0.00025199734403167013,
      "loss": 4.1038,
      "step": 127230
    },
    {
      "epoch": 0.26508333333333334,
      "grad_norm": 0.7781354784965515,
      "learning_rate": 0.0002519901152380437,
      "loss": 4.0258,
      "step": 127240
    },
    {
      "epoch": 0.26510416666666664,
      "grad_norm": 0.7370627522468567,
      "learning_rate": 0.0002519828860038604,
      "loss": 4.0444,
      "step": 127250
    },
    {
      "epoch": 0.265125,
      "grad_norm": 0.8674173355102539,
      "learning_rate": 0.0002519756563291513,
      "loss": 4.0221,
      "step": 127260
    },
    {
      "epoch": 0.26514583333333336,
      "grad_norm": 0.8241156935691833,
      "learning_rate": 0.00025196842621394775,
      "loss": 3.9388,
      "step": 127270
    },
    {
      "epoch": 0.26516666666666666,
      "grad_norm": 0.7974172234535217,
      "learning_rate": 0.000251961195658281,
      "loss": 3.9598,
      "step": 127280
    },
    {
      "epoch": 0.2651875,
      "grad_norm": 0.7773001790046692,
      "learning_rate": 0.00025195396466218224,
      "loss": 3.9779,
      "step": 127290
    },
    {
      "epoch": 0.2652083333333333,
      "grad_norm": 0.7868838310241699,
      "learning_rate": 0.00025194673322568266,
      "loss": 4.2398,
      "step": 127300
    },
    {
      "epoch": 0.2652291666666667,
      "grad_norm": 0.7707974910736084,
      "learning_rate": 0.0002519395013488136,
      "loss": 4.0007,
      "step": 127310
    },
    {
      "epoch": 0.26525,
      "grad_norm": 0.7742605805397034,
      "learning_rate": 0.00025193226903160625,
      "loss": 4.0041,
      "step": 127320
    },
    {
      "epoch": 0.26527083333333334,
      "grad_norm": 0.7845450639724731,
      "learning_rate": 0.0002519250362740918,
      "loss": 4.073,
      "step": 127330
    },
    {
      "epoch": 0.26529166666666665,
      "grad_norm": 0.8005543351173401,
      "learning_rate": 0.0002519178030763016,
      "loss": 3.9116,
      "step": 127340
    },
    {
      "epoch": 0.2653125,
      "grad_norm": 0.776892364025116,
      "learning_rate": 0.00025191056943826677,
      "loss": 4.0003,
      "step": 127350
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 0.9512449502944946,
      "learning_rate": 0.00025190333536001866,
      "loss": 4.0521,
      "step": 127360
    },
    {
      "epoch": 0.26535416666666667,
      "grad_norm": 0.8726571202278137,
      "learning_rate": 0.0002518961008415885,
      "loss": 4.0445,
      "step": 127370
    },
    {
      "epoch": 0.265375,
      "grad_norm": 0.7994540333747864,
      "learning_rate": 0.0002518888658830074,
      "loss": 4.1727,
      "step": 127380
    },
    {
      "epoch": 0.26539583333333333,
      "grad_norm": 1.0977494716644287,
      "learning_rate": 0.0002518816304843069,
      "loss": 4.1683,
      "step": 127390
    },
    {
      "epoch": 0.2654166666666667,
      "grad_norm": 0.7700778841972351,
      "learning_rate": 0.0002518743946455179,
      "loss": 4.0178,
      "step": 127400
    },
    {
      "epoch": 0.2654375,
      "grad_norm": 0.8314805030822754,
      "learning_rate": 0.00025186715836667196,
      "loss": 4.0173,
      "step": 127410
    },
    {
      "epoch": 0.26545833333333335,
      "grad_norm": 0.7458229064941406,
      "learning_rate": 0.0002518599216478002,
      "loss": 3.7691,
      "step": 127420
    },
    {
      "epoch": 0.26547916666666665,
      "grad_norm": 0.8798018097877502,
      "learning_rate": 0.00025185268448893385,
      "loss": 4.1311,
      "step": 127430
    },
    {
      "epoch": 0.2655,
      "grad_norm": 0.7528537511825562,
      "learning_rate": 0.0002518454468901043,
      "loss": 3.8971,
      "step": 127440
    },
    {
      "epoch": 0.2655208333333333,
      "grad_norm": 0.8004622459411621,
      "learning_rate": 0.0002518382088513427,
      "loss": 3.9,
      "step": 127450
    },
    {
      "epoch": 0.2655416666666667,
      "grad_norm": 0.8325005769729614,
      "learning_rate": 0.0002518309703726803,
      "loss": 3.9801,
      "step": 127460
    },
    {
      "epoch": 0.2655625,
      "grad_norm": 0.9137280583381653,
      "learning_rate": 0.0002518237314541485,
      "loss": 3.94,
      "step": 127470
    },
    {
      "epoch": 0.26558333333333334,
      "grad_norm": 0.7870966792106628,
      "learning_rate": 0.0002518164920957784,
      "loss": 4.0122,
      "step": 127480
    },
    {
      "epoch": 0.26560416666666664,
      "grad_norm": 0.7720292210578918,
      "learning_rate": 0.00025180925229760135,
      "loss": 3.8671,
      "step": 127490
    },
    {
      "epoch": 0.265625,
      "grad_norm": 0.9997019171714783,
      "learning_rate": 0.0002518020120596487,
      "loss": 4.1983,
      "step": 127500
    },
    {
      "epoch": 0.26564583333333336,
      "grad_norm": 0.7635819315910339,
      "learning_rate": 0.00025179477138195165,
      "loss": 3.9683,
      "step": 127510
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 0.7194717526435852,
      "learning_rate": 0.00025178753026454143,
      "loss": 3.882,
      "step": 127520
    },
    {
      "epoch": 0.2656875,
      "grad_norm": 0.7400442361831665,
      "learning_rate": 0.0002517802887074494,
      "loss": 4.0756,
      "step": 127530
    },
    {
      "epoch": 0.2657083333333333,
      "grad_norm": 0.8002815246582031,
      "learning_rate": 0.0002517730467107068,
      "loss": 4.0594,
      "step": 127540
    },
    {
      "epoch": 0.2657291666666667,
      "grad_norm": 0.7776322960853577,
      "learning_rate": 0.0002517658042743449,
      "loss": 4.1087,
      "step": 127550
    },
    {
      "epoch": 0.26575,
      "grad_norm": 0.8021959662437439,
      "learning_rate": 0.00025175856139839504,
      "loss": 4.0581,
      "step": 127560
    },
    {
      "epoch": 0.26577083333333335,
      "grad_norm": 0.7282956838607788,
      "learning_rate": 0.0002517513180828885,
      "loss": 3.9167,
      "step": 127570
    },
    {
      "epoch": 0.26579166666666665,
      "grad_norm": 0.763928234577179,
      "learning_rate": 0.0002517440743278565,
      "loss": 4.0172,
      "step": 127580
    },
    {
      "epoch": 0.2658125,
      "grad_norm": 0.7853894829750061,
      "learning_rate": 0.0002517368301333304,
      "loss": 4.2383,
      "step": 127590
    },
    {
      "epoch": 0.2658333333333333,
      "grad_norm": 0.9977419972419739,
      "learning_rate": 0.0002517295854993414,
      "loss": 4.195,
      "step": 127600
    },
    {
      "epoch": 0.26585416666666667,
      "grad_norm": 0.8169376254081726,
      "learning_rate": 0.000251722340425921,
      "loss": 4.102,
      "step": 127610
    },
    {
      "epoch": 0.265875,
      "grad_norm": 0.8514159917831421,
      "learning_rate": 0.00025171509491310023,
      "loss": 4.1435,
      "step": 127620
    },
    {
      "epoch": 0.26589583333333333,
      "grad_norm": 1.1345854997634888,
      "learning_rate": 0.0002517078489609105,
      "loss": 4.0884,
      "step": 127630
    },
    {
      "epoch": 0.2659166666666667,
      "grad_norm": 0.7865549921989441,
      "learning_rate": 0.0002517006025693832,
      "loss": 3.9013,
      "step": 127640
    },
    {
      "epoch": 0.2659375,
      "grad_norm": 0.957529604434967,
      "learning_rate": 0.00025169335573854945,
      "loss": 4.1482,
      "step": 127650
    },
    {
      "epoch": 0.26595833333333335,
      "grad_norm": 1.0699355602264404,
      "learning_rate": 0.00025168610846844076,
      "loss": 3.93,
      "step": 127660
    },
    {
      "epoch": 0.26597916666666666,
      "grad_norm": 0.8206462264060974,
      "learning_rate": 0.00025167886075908827,
      "loss": 3.9338,
      "step": 127670
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.8151142001152039,
      "learning_rate": 0.0002516716126105234,
      "loss": 4.0431,
      "step": 127680
    },
    {
      "epoch": 0.2660208333333333,
      "grad_norm": 0.7935616374015808,
      "learning_rate": 0.0002516643640227774,
      "loss": 3.9737,
      "step": 127690
    },
    {
      "epoch": 0.2660416666666667,
      "grad_norm": 0.7305178046226501,
      "learning_rate": 0.00025165711499588154,
      "loss": 3.9335,
      "step": 127700
    },
    {
      "epoch": 0.2660625,
      "grad_norm": 0.7731388807296753,
      "learning_rate": 0.00025164986552986724,
      "loss": 4.0205,
      "step": 127710
    },
    {
      "epoch": 0.26608333333333334,
      "grad_norm": 0.9374437928199768,
      "learning_rate": 0.0002516426156247657,
      "loss": 3.9596,
      "step": 127720
    },
    {
      "epoch": 0.26610416666666664,
      "grad_norm": 0.8584622740745544,
      "learning_rate": 0.0002516353652806083,
      "loss": 4.0094,
      "step": 127730
    },
    {
      "epoch": 0.266125,
      "grad_norm": 0.7807261943817139,
      "learning_rate": 0.0002516281144974264,
      "loss": 3.8456,
      "step": 127740
    },
    {
      "epoch": 0.26614583333333336,
      "grad_norm": 0.8366749286651611,
      "learning_rate": 0.00025162086327525123,
      "loss": 3.9956,
      "step": 127750
    },
    {
      "epoch": 0.26616666666666666,
      "grad_norm": 0.7665715217590332,
      "learning_rate": 0.0002516136116141142,
      "loss": 3.891,
      "step": 127760
    },
    {
      "epoch": 0.2661875,
      "grad_norm": 0.7239058613777161,
      "learning_rate": 0.00025160635951404655,
      "loss": 4.0734,
      "step": 127770
    },
    {
      "epoch": 0.2662083333333333,
      "grad_norm": 0.7389863133430481,
      "learning_rate": 0.00025159910697507965,
      "loss": 3.9273,
      "step": 127780
    },
    {
      "epoch": 0.2662291666666667,
      "grad_norm": 0.8137341737747192,
      "learning_rate": 0.00025159185399724484,
      "loss": 4.1529,
      "step": 127790
    },
    {
      "epoch": 0.26625,
      "grad_norm": 0.7204333543777466,
      "learning_rate": 0.0002515846005805734,
      "loss": 3.9835,
      "step": 127800
    },
    {
      "epoch": 0.26627083333333335,
      "grad_norm": 0.7903565764427185,
      "learning_rate": 0.0002515773467250967,
      "loss": 3.9909,
      "step": 127810
    },
    {
      "epoch": 0.26629166666666665,
      "grad_norm": 0.8224076628684998,
      "learning_rate": 0.0002515700924308461,
      "loss": 3.8862,
      "step": 127820
    },
    {
      "epoch": 0.2663125,
      "grad_norm": 0.8856043815612793,
      "learning_rate": 0.00025156283769785286,
      "loss": 4.0253,
      "step": 127830
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 0.807294487953186,
      "learning_rate": 0.00025155558252614845,
      "loss": 4.0011,
      "step": 127840
    },
    {
      "epoch": 0.26635416666666667,
      "grad_norm": 0.8007753491401672,
      "learning_rate": 0.00025154832691576403,
      "loss": 4.0245,
      "step": 127850
    },
    {
      "epoch": 0.266375,
      "grad_norm": 0.7584332823753357,
      "learning_rate": 0.0002515410708667311,
      "loss": 4.1497,
      "step": 127860
    },
    {
      "epoch": 0.26639583333333333,
      "grad_norm": 0.7090837359428406,
      "learning_rate": 0.0002515338143790809,
      "loss": 4.0132,
      "step": 127870
    },
    {
      "epoch": 0.2664166666666667,
      "grad_norm": 0.8497125506401062,
      "learning_rate": 0.0002515265574528448,
      "loss": 3.919,
      "step": 127880
    },
    {
      "epoch": 0.2664375,
      "grad_norm": 0.7323180437088013,
      "learning_rate": 0.0002515193000880542,
      "loss": 4.0013,
      "step": 127890
    },
    {
      "epoch": 0.26645833333333335,
      "grad_norm": 0.7693360447883606,
      "learning_rate": 0.0002515120422847404,
      "loss": 4.0654,
      "step": 127900
    },
    {
      "epoch": 0.26647916666666666,
      "grad_norm": 0.7923547625541687,
      "learning_rate": 0.00025150478404293474,
      "loss": 4.1155,
      "step": 127910
    },
    {
      "epoch": 0.2665,
      "grad_norm": 0.7400038242340088,
      "learning_rate": 0.0002514975253626686,
      "loss": 3.9908,
      "step": 127920
    },
    {
      "epoch": 0.2665208333333333,
      "grad_norm": 0.8300744891166687,
      "learning_rate": 0.0002514902662439733,
      "loss": 3.978,
      "step": 127930
    },
    {
      "epoch": 0.2665416666666667,
      "grad_norm": 0.8879662156105042,
      "learning_rate": 0.00025148300668688026,
      "loss": 3.9843,
      "step": 127940
    },
    {
      "epoch": 0.2665625,
      "grad_norm": 0.7866494655609131,
      "learning_rate": 0.0002514757466914208,
      "loss": 4.0793,
      "step": 127950
    },
    {
      "epoch": 0.26658333333333334,
      "grad_norm": 0.7508739829063416,
      "learning_rate": 0.0002514684862576262,
      "loss": 3.7807,
      "step": 127960
    },
    {
      "epoch": 0.26660416666666664,
      "grad_norm": 0.7343335151672363,
      "learning_rate": 0.000251461225385528,
      "loss": 4.0057,
      "step": 127970
    },
    {
      "epoch": 0.266625,
      "grad_norm": 0.6846768260002136,
      "learning_rate": 0.00025145396407515744,
      "loss": 4.1419,
      "step": 127980
    },
    {
      "epoch": 0.26664583333333336,
      "grad_norm": 0.7698452472686768,
      "learning_rate": 0.0002514467023265459,
      "loss": 4.0816,
      "step": 127990
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.7521142959594727,
      "learning_rate": 0.00025143944013972475,
      "loss": 4.0882,
      "step": 128000
    },
    {
      "epoch": 0.26666666666666666,
      "eval_loss": 3.7573516368865967,
      "eval_runtime": 7.2328,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 128000
    },
    {
      "epoch": 0.2666875,
      "grad_norm": 0.8715311884880066,
      "learning_rate": 0.0002514321775147254,
      "loss": 4.2285,
      "step": 128010
    },
    {
      "epoch": 0.2667083333333333,
      "grad_norm": 0.8336858749389648,
      "learning_rate": 0.0002514249144515792,
      "loss": 3.9194,
      "step": 128020
    },
    {
      "epoch": 0.2667291666666667,
      "grad_norm": 0.8457229733467102,
      "learning_rate": 0.0002514176509503175,
      "loss": 3.874,
      "step": 128030
    },
    {
      "epoch": 0.26675,
      "grad_norm": 0.836632490158081,
      "learning_rate": 0.0002514103870109717,
      "loss": 4.2065,
      "step": 128040
    },
    {
      "epoch": 0.26677083333333335,
      "grad_norm": 0.9542647004127502,
      "learning_rate": 0.00025140312263357314,
      "loss": 4.0974,
      "step": 128050
    },
    {
      "epoch": 0.26679166666666665,
      "grad_norm": 0.8751641511917114,
      "learning_rate": 0.0002513958578181533,
      "loss": 4.0393,
      "step": 128060
    },
    {
      "epoch": 0.2668125,
      "grad_norm": 0.7510957717895508,
      "learning_rate": 0.0002513885925647434,
      "loss": 3.9915,
      "step": 128070
    },
    {
      "epoch": 0.2668333333333333,
      "grad_norm": 0.7890634536743164,
      "learning_rate": 0.000251381326873375,
      "loss": 3.996,
      "step": 128080
    },
    {
      "epoch": 0.26685416666666667,
      "grad_norm": 0.7815939784049988,
      "learning_rate": 0.0002513740607440793,
      "loss": 4.035,
      "step": 128090
    },
    {
      "epoch": 0.266875,
      "grad_norm": 0.7452210783958435,
      "learning_rate": 0.0002513667941768878,
      "loss": 3.94,
      "step": 128100
    },
    {
      "epoch": 0.26689583333333333,
      "grad_norm": 0.7805801033973694,
      "learning_rate": 0.0002513595271718319,
      "loss": 3.824,
      "step": 128110
    },
    {
      "epoch": 0.2669166666666667,
      "grad_norm": 0.8185203671455383,
      "learning_rate": 0.00025135225972894304,
      "loss": 3.8856,
      "step": 128120
    },
    {
      "epoch": 0.2669375,
      "grad_norm": 0.7680988311767578,
      "learning_rate": 0.0002513449918482524,
      "loss": 4.0572,
      "step": 128130
    },
    {
      "epoch": 0.26695833333333335,
      "grad_norm": 0.7602624297142029,
      "learning_rate": 0.0002513377235297916,
      "loss": 3.9418,
      "step": 128140
    },
    {
      "epoch": 0.26697916666666666,
      "grad_norm": 0.8158137202262878,
      "learning_rate": 0.0002513304547735919,
      "loss": 4.0724,
      "step": 128150
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.9117344617843628,
      "learning_rate": 0.00025132318557968483,
      "loss": 3.9855,
      "step": 128160
    },
    {
      "epoch": 0.2670208333333333,
      "grad_norm": 1.2006821632385254,
      "learning_rate": 0.0002513159159481016,
      "loss": 3.9982,
      "step": 128170
    },
    {
      "epoch": 0.2670416666666667,
      "grad_norm": 0.819844126701355,
      "learning_rate": 0.00025130864587887377,
      "loss": 4.0862,
      "step": 128180
    },
    {
      "epoch": 0.2670625,
      "grad_norm": 0.7204606533050537,
      "learning_rate": 0.00025130137537203266,
      "loss": 4.0673,
      "step": 128190
    },
    {
      "epoch": 0.26708333333333334,
      "grad_norm": 0.7527952194213867,
      "learning_rate": 0.0002512941044276098,
      "loss": 4.1497,
      "step": 128200
    },
    {
      "epoch": 0.26710416666666664,
      "grad_norm": 0.7742392420768738,
      "learning_rate": 0.0002512868330456364,
      "loss": 4.0804,
      "step": 128210
    },
    {
      "epoch": 0.267125,
      "grad_norm": 0.8424491882324219,
      "learning_rate": 0.000251279561226144,
      "loss": 4.1037,
      "step": 128220
    },
    {
      "epoch": 0.26714583333333336,
      "grad_norm": 0.7890681028366089,
      "learning_rate": 0.00025127228896916395,
      "loss": 3.8893,
      "step": 128230
    },
    {
      "epoch": 0.26716666666666666,
      "grad_norm": 0.7852179408073425,
      "learning_rate": 0.00025126501627472774,
      "loss": 3.9602,
      "step": 128240
    },
    {
      "epoch": 0.2671875,
      "grad_norm": 0.7097249627113342,
      "learning_rate": 0.00025125774314286675,
      "loss": 3.966,
      "step": 128250
    },
    {
      "epoch": 0.2672083333333333,
      "grad_norm": 0.7801419496536255,
      "learning_rate": 0.0002512504695736124,
      "loss": 3.9198,
      "step": 128260
    },
    {
      "epoch": 0.2672291666666667,
      "grad_norm": 0.7847604751586914,
      "learning_rate": 0.0002512431955669961,
      "loss": 4.1271,
      "step": 128270
    },
    {
      "epoch": 0.26725,
      "grad_norm": 0.9901856184005737,
      "learning_rate": 0.00025123592112304924,
      "loss": 4.2492,
      "step": 128280
    },
    {
      "epoch": 0.26727083333333335,
      "grad_norm": 0.7756826281547546,
      "learning_rate": 0.0002512286462418033,
      "loss": 4.1469,
      "step": 128290
    },
    {
      "epoch": 0.26729166666666665,
      "grad_norm": 0.807232677936554,
      "learning_rate": 0.00025122137092328963,
      "loss": 4.0789,
      "step": 128300
    },
    {
      "epoch": 0.2673125,
      "grad_norm": 0.8320915102958679,
      "learning_rate": 0.0002512140951675397,
      "loss": 3.9286,
      "step": 128310
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 0.7701898217201233,
      "learning_rate": 0.000251206818974585,
      "loss": 3.875,
      "step": 128320
    },
    {
      "epoch": 0.26735416666666667,
      "grad_norm": 0.7985837459564209,
      "learning_rate": 0.0002511995423444569,
      "loss": 3.7869,
      "step": 128330
    },
    {
      "epoch": 0.267375,
      "grad_norm": 0.829382598400116,
      "learning_rate": 0.0002511922652771868,
      "loss": 4.1142,
      "step": 128340
    },
    {
      "epoch": 0.26739583333333333,
      "grad_norm": 0.7372068762779236,
      "learning_rate": 0.00025118498777280615,
      "loss": 4.0721,
      "step": 128350
    },
    {
      "epoch": 0.2674166666666667,
      "grad_norm": 0.7617695927619934,
      "learning_rate": 0.0002511777098313464,
      "loss": 3.9542,
      "step": 128360
    },
    {
      "epoch": 0.2674375,
      "grad_norm": 0.7746336460113525,
      "learning_rate": 0.0002511704314528391,
      "loss": 4.1329,
      "step": 128370
    },
    {
      "epoch": 0.26745833333333335,
      "grad_norm": 0.9053536653518677,
      "learning_rate": 0.0002511631526373155,
      "loss": 4.2009,
      "step": 128380
    },
    {
      "epoch": 0.26747916666666666,
      "grad_norm": 0.7680037617683411,
      "learning_rate": 0.00025115587338480716,
      "loss": 3.8569,
      "step": 128390
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.8432285785675049,
      "learning_rate": 0.0002511485936953454,
      "loss": 4.097,
      "step": 128400
    },
    {
      "epoch": 0.2675208333333333,
      "grad_norm": 0.8078898191452026,
      "learning_rate": 0.00025114131356896184,
      "loss": 3.9585,
      "step": 128410
    },
    {
      "epoch": 0.2675416666666667,
      "grad_norm": 0.7809283137321472,
      "learning_rate": 0.0002511340330056878,
      "loss": 3.9512,
      "step": 128420
    },
    {
      "epoch": 0.2675625,
      "grad_norm": 0.8711014986038208,
      "learning_rate": 0.0002511267520055548,
      "loss": 3.8617,
      "step": 128430
    },
    {
      "epoch": 0.26758333333333334,
      "grad_norm": 0.8642129302024841,
      "learning_rate": 0.00025111947056859424,
      "loss": 4.0373,
      "step": 128440
    },
    {
      "epoch": 0.26760416666666664,
      "grad_norm": 0.7781391143798828,
      "learning_rate": 0.0002511121886948376,
      "loss": 3.9288,
      "step": 128450
    },
    {
      "epoch": 0.267625,
      "grad_norm": 0.7490294575691223,
      "learning_rate": 0.00025110490638431633,
      "loss": 3.8505,
      "step": 128460
    },
    {
      "epoch": 0.26764583333333336,
      "grad_norm": 0.7499490976333618,
      "learning_rate": 0.0002510976236370619,
      "loss": 4.117,
      "step": 128470
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 0.7960681915283203,
      "learning_rate": 0.0002510903404531057,
      "loss": 3.8897,
      "step": 128480
    },
    {
      "epoch": 0.2676875,
      "grad_norm": 0.8686881065368652,
      "learning_rate": 0.0002510830568324793,
      "loss": 3.9728,
      "step": 128490
    },
    {
      "epoch": 0.2677083333333333,
      "grad_norm": 0.7371532320976257,
      "learning_rate": 0.000251075772775214,
      "loss": 4.0833,
      "step": 128500
    },
    {
      "epoch": 0.2677291666666667,
      "grad_norm": 0.8402844071388245,
      "learning_rate": 0.00025106848828134154,
      "loss": 4.1106,
      "step": 128510
    },
    {
      "epoch": 0.26775,
      "grad_norm": 0.8042855858802795,
      "learning_rate": 0.0002510612033508931,
      "loss": 4.1643,
      "step": 128520
    },
    {
      "epoch": 0.26777083333333335,
      "grad_norm": 0.873203456401825,
      "learning_rate": 0.00025105391798390026,
      "loss": 4.1295,
      "step": 128530
    },
    {
      "epoch": 0.26779166666666665,
      "grad_norm": 0.7115194797515869,
      "learning_rate": 0.00025104663218039456,
      "loss": 3.8046,
      "step": 128540
    },
    {
      "epoch": 0.2678125,
      "grad_norm": 0.7341218590736389,
      "learning_rate": 0.00025103934594040734,
      "loss": 4.1082,
      "step": 128550
    },
    {
      "epoch": 0.2678333333333333,
      "grad_norm": 0.7999452948570251,
      "learning_rate": 0.0002510320592639702,
      "loss": 4.0119,
      "step": 128560
    },
    {
      "epoch": 0.26785416666666667,
      "grad_norm": 0.8252457976341248,
      "learning_rate": 0.0002510247721511145,
      "loss": 4.0152,
      "step": 128570
    },
    {
      "epoch": 0.267875,
      "grad_norm": 0.8813059329986572,
      "learning_rate": 0.00025101748460187184,
      "loss": 4.1582,
      "step": 128580
    },
    {
      "epoch": 0.26789583333333333,
      "grad_norm": 0.8141390085220337,
      "learning_rate": 0.0002510101966162736,
      "loss": 3.8281,
      "step": 128590
    },
    {
      "epoch": 0.2679166666666667,
      "grad_norm": 0.7828989624977112,
      "learning_rate": 0.0002510029081943513,
      "loss": 4.1353,
      "step": 128600
    },
    {
      "epoch": 0.2679375,
      "grad_norm": 0.7744665741920471,
      "learning_rate": 0.0002509956193361363,
      "loss": 3.9161,
      "step": 128610
    },
    {
      "epoch": 0.26795833333333335,
      "grad_norm": 0.7850210070610046,
      "learning_rate": 0.00025098833004166035,
      "loss": 3.9006,
      "step": 128620
    },
    {
      "epoch": 0.26797916666666666,
      "grad_norm": 0.709440290927887,
      "learning_rate": 0.0002509810403109547,
      "loss": 4.1143,
      "step": 128630
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.7800167202949524,
      "learning_rate": 0.000250973750144051,
      "loss": 4.1878,
      "step": 128640
    },
    {
      "epoch": 0.2680208333333333,
      "grad_norm": 0.8075295686721802,
      "learning_rate": 0.0002509664595409806,
      "loss": 4.0663,
      "step": 128650
    },
    {
      "epoch": 0.2680416666666667,
      "grad_norm": 0.7626411318778992,
      "learning_rate": 0.0002509591685017751,
      "loss": 3.9476,
      "step": 128660
    },
    {
      "epoch": 0.2680625,
      "grad_norm": 0.8156887888908386,
      "learning_rate": 0.00025095187702646595,
      "loss": 4.0076,
      "step": 128670
    },
    {
      "epoch": 0.26808333333333334,
      "grad_norm": 0.946654200553894,
      "learning_rate": 0.00025094458511508465,
      "loss": 4.1006,
      "step": 128680
    },
    {
      "epoch": 0.26810416666666664,
      "grad_norm": 0.82587069272995,
      "learning_rate": 0.0002509372927676627,
      "loss": 4.0397,
      "step": 128690
    },
    {
      "epoch": 0.268125,
      "grad_norm": 0.8143088221549988,
      "learning_rate": 0.0002509299999842316,
      "loss": 3.8258,
      "step": 128700
    },
    {
      "epoch": 0.26814583333333336,
      "grad_norm": 0.7589277625083923,
      "learning_rate": 0.0002509227067648229,
      "loss": 3.9761,
      "step": 128710
    },
    {
      "epoch": 0.26816666666666666,
      "grad_norm": 0.7981586456298828,
      "learning_rate": 0.000250915413109468,
      "loss": 4.2719,
      "step": 128720
    },
    {
      "epoch": 0.2681875,
      "grad_norm": 0.8206958174705505,
      "learning_rate": 0.00025090811901819844,
      "loss": 4.0219,
      "step": 128730
    },
    {
      "epoch": 0.2682083333333333,
      "grad_norm": 0.8355585336685181,
      "learning_rate": 0.0002509008244910458,
      "loss": 4.0651,
      "step": 128740
    },
    {
      "epoch": 0.2682291666666667,
      "grad_norm": 0.7996742129325867,
      "learning_rate": 0.0002508935295280415,
      "loss": 4.0159,
      "step": 128750
    },
    {
      "epoch": 0.26825,
      "grad_norm": 0.8803714513778687,
      "learning_rate": 0.00025088623412921707,
      "loss": 4.0521,
      "step": 128760
    },
    {
      "epoch": 0.26827083333333335,
      "grad_norm": 0.8346892595291138,
      "learning_rate": 0.0002508789382946041,
      "loss": 4.1562,
      "step": 128770
    },
    {
      "epoch": 0.26829166666666665,
      "grad_norm": 0.8115090131759644,
      "learning_rate": 0.000250871642024234,
      "loss": 3.9633,
      "step": 128780
    },
    {
      "epoch": 0.2683125,
      "grad_norm": 0.7721151113510132,
      "learning_rate": 0.00025086434531813834,
      "loss": 4.0293,
      "step": 128790
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 0.7056772112846375,
      "learning_rate": 0.00025085704817634865,
      "loss": 4.0224,
      "step": 128800
    },
    {
      "epoch": 0.26835416666666667,
      "grad_norm": 0.7523126602172852,
      "learning_rate": 0.00025084975059889644,
      "loss": 3.8582,
      "step": 128810
    },
    {
      "epoch": 0.268375,
      "grad_norm": 0.7757993340492249,
      "learning_rate": 0.00025084245258581326,
      "loss": 3.9134,
      "step": 128820
    },
    {
      "epoch": 0.26839583333333333,
      "grad_norm": 0.9252945780754089,
      "learning_rate": 0.0002508351541371305,
      "loss": 4.0572,
      "step": 128830
    },
    {
      "epoch": 0.2684166666666667,
      "grad_norm": 0.7355931997299194,
      "learning_rate": 0.0002508278552528798,
      "loss": 3.8363,
      "step": 128840
    },
    {
      "epoch": 0.2684375,
      "grad_norm": 0.7606599926948547,
      "learning_rate": 0.00025082055593309276,
      "loss": 4.0149,
      "step": 128850
    },
    {
      "epoch": 0.26845833333333335,
      "grad_norm": 0.7584272623062134,
      "learning_rate": 0.0002508132561778008,
      "loss": 3.9156,
      "step": 128860
    },
    {
      "epoch": 0.26847916666666666,
      "grad_norm": 0.9633021950721741,
      "learning_rate": 0.00025080595598703546,
      "loss": 3.9772,
      "step": 128870
    },
    {
      "epoch": 0.2685,
      "grad_norm": 0.7882588505744934,
      "learning_rate": 0.0002507986553608283,
      "loss": 3.9339,
      "step": 128880
    },
    {
      "epoch": 0.2685208333333333,
      "grad_norm": 0.7748350501060486,
      "learning_rate": 0.00025079135429921084,
      "loss": 3.9859,
      "step": 128890
    },
    {
      "epoch": 0.2685416666666667,
      "grad_norm": 0.8286092281341553,
      "learning_rate": 0.00025078405280221463,
      "loss": 3.9694,
      "step": 128900
    },
    {
      "epoch": 0.2685625,
      "grad_norm": 0.7511698603630066,
      "learning_rate": 0.0002507767508698712,
      "loss": 3.8684,
      "step": 128910
    },
    {
      "epoch": 0.26858333333333334,
      "grad_norm": 0.7268299460411072,
      "learning_rate": 0.0002507694485022121,
      "loss": 4.3028,
      "step": 128920
    },
    {
      "epoch": 0.26860416666666664,
      "grad_norm": 0.7789185643196106,
      "learning_rate": 0.00025076214569926886,
      "loss": 3.9095,
      "step": 128930
    },
    {
      "epoch": 0.268625,
      "grad_norm": 0.8975386023521423,
      "learning_rate": 0.0002507548424610731,
      "loss": 4.1015,
      "step": 128940
    },
    {
      "epoch": 0.2686458333333333,
      "grad_norm": 0.8573618531227112,
      "learning_rate": 0.0002507475387876562,
      "loss": 4.0096,
      "step": 128950
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 0.7874951958656311,
      "learning_rate": 0.00025074023467904985,
      "loss": 4.0195,
      "step": 128960
    },
    {
      "epoch": 0.2686875,
      "grad_norm": 0.9122095704078674,
      "learning_rate": 0.00025073293013528556,
      "loss": 4.2213,
      "step": 128970
    },
    {
      "epoch": 0.2687083333333333,
      "grad_norm": 0.7842443585395813,
      "learning_rate": 0.0002507256251563949,
      "loss": 3.9667,
      "step": 128980
    },
    {
      "epoch": 0.2687291666666667,
      "grad_norm": 0.7568791508674622,
      "learning_rate": 0.0002507183197424094,
      "loss": 4.06,
      "step": 128990
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.7535825371742249,
      "learning_rate": 0.00025071101389336067,
      "loss": 4.0871,
      "step": 129000
    },
    {
      "epoch": 0.26875,
      "eval_loss": 3.738095760345459,
      "eval_runtime": 7.2774,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 129000
    },
    {
      "epoch": 0.26877083333333335,
      "grad_norm": 0.7696642279624939,
      "learning_rate": 0.00025070370760928016,
      "loss": 3.9404,
      "step": 129010
    },
    {
      "epoch": 0.26879166666666665,
      "grad_norm": 0.855972409248352,
      "learning_rate": 0.0002506964008901996,
      "loss": 3.9546,
      "step": 129020
    },
    {
      "epoch": 0.2688125,
      "grad_norm": 0.9568153619766235,
      "learning_rate": 0.0002506890937361503,
      "loss": 3.994,
      "step": 129030
    },
    {
      "epoch": 0.2688333333333333,
      "grad_norm": 6.385134696960449,
      "learning_rate": 0.000250681786147164,
      "loss": 3.9979,
      "step": 129040
    },
    {
      "epoch": 0.26885416666666667,
      "grad_norm": 0.7546711564064026,
      "learning_rate": 0.0002506744781232723,
      "loss": 4.0278,
      "step": 129050
    },
    {
      "epoch": 0.268875,
      "grad_norm": 0.8259752988815308,
      "learning_rate": 0.00025066716966450666,
      "loss": 3.9269,
      "step": 129060
    },
    {
      "epoch": 0.26889583333333333,
      "grad_norm": 0.7737741470336914,
      "learning_rate": 0.0002506598607708987,
      "loss": 3.8614,
      "step": 129070
    },
    {
      "epoch": 0.2689166666666667,
      "grad_norm": 0.7573980093002319,
      "learning_rate": 0.00025065255144248003,
      "loss": 4.0974,
      "step": 129080
    },
    {
      "epoch": 0.2689375,
      "grad_norm": 0.8984150290489197,
      "learning_rate": 0.0002506452416792821,
      "loss": 3.869,
      "step": 129090
    },
    {
      "epoch": 0.26895833333333335,
      "grad_norm": 0.9364485740661621,
      "learning_rate": 0.0002506379314813367,
      "loss": 3.9591,
      "step": 129100
    },
    {
      "epoch": 0.26897916666666666,
      "grad_norm": 0.7577925324440002,
      "learning_rate": 0.0002506306208486751,
      "loss": 3.9267,
      "step": 129110
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.7982531785964966,
      "learning_rate": 0.00025062330978132917,
      "loss": 3.8566,
      "step": 129120
    },
    {
      "epoch": 0.2690208333333333,
      "grad_norm": 0.8285094499588013,
      "learning_rate": 0.00025061599827933033,
      "loss": 4.0198,
      "step": 129130
    },
    {
      "epoch": 0.2690416666666667,
      "grad_norm": 0.7731850743293762,
      "learning_rate": 0.0002506086863427102,
      "loss": 4.0705,
      "step": 129140
    },
    {
      "epoch": 0.2690625,
      "grad_norm": 0.8231763243675232,
      "learning_rate": 0.00025060137397150034,
      "loss": 3.9402,
      "step": 129150
    },
    {
      "epoch": 0.26908333333333334,
      "grad_norm": 1.0066372156143188,
      "learning_rate": 0.00025059406116573245,
      "loss": 3.9523,
      "step": 129160
    },
    {
      "epoch": 0.26910416666666664,
      "grad_norm": 0.820213258266449,
      "learning_rate": 0.00025058674792543796,
      "loss": 4.1012,
      "step": 129170
    },
    {
      "epoch": 0.269125,
      "grad_norm": 0.7714369297027588,
      "learning_rate": 0.00025057943425064853,
      "loss": 3.9582,
      "step": 129180
    },
    {
      "epoch": 0.2691458333333333,
      "grad_norm": 0.819360613822937,
      "learning_rate": 0.0002505721201413958,
      "loss": 4.0212,
      "step": 129190
    },
    {
      "epoch": 0.26916666666666667,
      "grad_norm": 0.8230404257774353,
      "learning_rate": 0.0002505648055977113,
      "loss": 4.0993,
      "step": 129200
    },
    {
      "epoch": 0.2691875,
      "grad_norm": 0.8151110410690308,
      "learning_rate": 0.0002505574906196267,
      "loss": 4.0622,
      "step": 129210
    },
    {
      "epoch": 0.2692083333333333,
      "grad_norm": 0.7409213781356812,
      "learning_rate": 0.00025055017520717347,
      "loss": 3.9359,
      "step": 129220
    },
    {
      "epoch": 0.2692291666666667,
      "grad_norm": 0.8333030343055725,
      "learning_rate": 0.0002505428593603833,
      "loss": 3.9253,
      "step": 129230
    },
    {
      "epoch": 0.26925,
      "grad_norm": 0.7259697318077087,
      "learning_rate": 0.0002505355430792878,
      "loss": 4.1588,
      "step": 129240
    },
    {
      "epoch": 0.26927083333333335,
      "grad_norm": 0.7456092834472656,
      "learning_rate": 0.0002505282263639185,
      "loss": 3.8746,
      "step": 129250
    },
    {
      "epoch": 0.26929166666666665,
      "grad_norm": 0.8228550553321838,
      "learning_rate": 0.0002505209092143071,
      "loss": 4.0024,
      "step": 129260
    },
    {
      "epoch": 0.2693125,
      "grad_norm": 0.7625017762184143,
      "learning_rate": 0.0002505135916304851,
      "loss": 4.0678,
      "step": 129270
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 0.7300100922584534,
      "learning_rate": 0.00025050627361248424,
      "loss": 4.0133,
      "step": 129280
    },
    {
      "epoch": 0.2693541666666667,
      "grad_norm": 0.8372445702552795,
      "learning_rate": 0.00025049895516033606,
      "loss": 3.9763,
      "step": 129290
    },
    {
      "epoch": 0.269375,
      "grad_norm": 0.801213800907135,
      "learning_rate": 0.00025049163627407215,
      "loss": 3.9665,
      "step": 129300
    },
    {
      "epoch": 0.26939583333333333,
      "grad_norm": 0.7723925709724426,
      "learning_rate": 0.00025048431695372415,
      "loss": 3.8983,
      "step": 129310
    },
    {
      "epoch": 0.2694166666666667,
      "grad_norm": 0.9185531139373779,
      "learning_rate": 0.0002504769971993237,
      "loss": 3.9982,
      "step": 129320
    },
    {
      "epoch": 0.2694375,
      "grad_norm": 0.7117447257041931,
      "learning_rate": 0.0002504696770109023,
      "loss": 4.0379,
      "step": 129330
    },
    {
      "epoch": 0.26945833333333336,
      "grad_norm": 0.7899795174598694,
      "learning_rate": 0.00025046235638849176,
      "loss": 3.9628,
      "step": 129340
    },
    {
      "epoch": 0.26947916666666666,
      "grad_norm": 0.7171441316604614,
      "learning_rate": 0.0002504550353321236,
      "loss": 4.0612,
      "step": 129350
    },
    {
      "epoch": 0.2695,
      "grad_norm": 0.7806333899497986,
      "learning_rate": 0.0002504477138418294,
      "loss": 4.0993,
      "step": 129360
    },
    {
      "epoch": 0.2695208333333333,
      "grad_norm": 0.9021863341331482,
      "learning_rate": 0.00025044039191764086,
      "loss": 3.8763,
      "step": 129370
    },
    {
      "epoch": 0.2695416666666667,
      "grad_norm": 0.863559365272522,
      "learning_rate": 0.00025043306955958963,
      "loss": 4.0211,
      "step": 129380
    },
    {
      "epoch": 0.2695625,
      "grad_norm": 0.722771406173706,
      "learning_rate": 0.0002504257467677072,
      "loss": 3.9143,
      "step": 129390
    },
    {
      "epoch": 0.26958333333333334,
      "grad_norm": 0.71064692735672,
      "learning_rate": 0.00025041842354202537,
      "loss": 4.1561,
      "step": 129400
    },
    {
      "epoch": 0.26960416666666664,
      "grad_norm": 0.7543612122535706,
      "learning_rate": 0.0002504110998825757,
      "loss": 3.9044,
      "step": 129410
    },
    {
      "epoch": 0.269625,
      "grad_norm": 0.764448881149292,
      "learning_rate": 0.00025040377578938977,
      "loss": 3.8972,
      "step": 129420
    },
    {
      "epoch": 0.2696458333333333,
      "grad_norm": 0.7714189291000366,
      "learning_rate": 0.0002503964512624993,
      "loss": 3.7608,
      "step": 129430
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 0.8387372493743896,
      "learning_rate": 0.00025038912630193593,
      "loss": 3.8839,
      "step": 129440
    },
    {
      "epoch": 0.2696875,
      "grad_norm": 0.7648959755897522,
      "learning_rate": 0.00025038180090773124,
      "loss": 3.7213,
      "step": 129450
    },
    {
      "epoch": 0.2697083333333333,
      "grad_norm": 0.8606024384498596,
      "learning_rate": 0.0002503744750799169,
      "loss": 4.0544,
      "step": 129460
    },
    {
      "epoch": 0.2697291666666667,
      "grad_norm": 1.438459873199463,
      "learning_rate": 0.00025036714881852454,
      "loss": 3.8712,
      "step": 129470
    },
    {
      "epoch": 0.26975,
      "grad_norm": 0.9393458366394043,
      "learning_rate": 0.00025035982212358586,
      "loss": 4.1544,
      "step": 129480
    },
    {
      "epoch": 0.26977083333333335,
      "grad_norm": 0.8016075491905212,
      "learning_rate": 0.00025035249499513247,
      "loss": 4.062,
      "step": 129490
    },
    {
      "epoch": 0.26979166666666665,
      "grad_norm": 0.7686371207237244,
      "learning_rate": 0.000250345167433196,
      "loss": 4.056,
      "step": 129500
    },
    {
      "epoch": 0.2698125,
      "grad_norm": 0.7728887796401978,
      "learning_rate": 0.00025033783943780816,
      "loss": 3.9837,
      "step": 129510
    },
    {
      "epoch": 0.2698333333333333,
      "grad_norm": 0.7572369575500488,
      "learning_rate": 0.0002503305110090005,
      "loss": 4.063,
      "step": 129520
    },
    {
      "epoch": 0.2698541666666667,
      "grad_norm": 0.9683114886283875,
      "learning_rate": 0.00025032318214680485,
      "loss": 4.0479,
      "step": 129530
    },
    {
      "epoch": 0.269875,
      "grad_norm": 0.7731522917747498,
      "learning_rate": 0.0002503158528512527,
      "loss": 3.9281,
      "step": 129540
    },
    {
      "epoch": 0.26989583333333333,
      "grad_norm": 0.8400452733039856,
      "learning_rate": 0.0002503085231223758,
      "loss": 4.0452,
      "step": 129550
    },
    {
      "epoch": 0.2699166666666667,
      "grad_norm": 0.7402335405349731,
      "learning_rate": 0.0002503011929602058,
      "loss": 3.8913,
      "step": 129560
    },
    {
      "epoch": 0.2699375,
      "grad_norm": 0.9262367486953735,
      "learning_rate": 0.00025029386236477433,
      "loss": 3.9646,
      "step": 129570
    },
    {
      "epoch": 0.26995833333333336,
      "grad_norm": 0.9060357213020325,
      "learning_rate": 0.0002502865313361131,
      "loss": 3.9922,
      "step": 129580
    },
    {
      "epoch": 0.26997916666666666,
      "grad_norm": 1.0283350944519043,
      "learning_rate": 0.00025027919987425366,
      "loss": 3.9053,
      "step": 129590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7266492247581482,
      "learning_rate": 0.0002502718679792278,
      "loss": 4.0804,
      "step": 129600
    },
    {
      "epoch": 0.2700208333333333,
      "grad_norm": 0.7611756324768066,
      "learning_rate": 0.0002502645356510672,
      "loss": 3.8078,
      "step": 129610
    },
    {
      "epoch": 0.2700416666666667,
      "grad_norm": 0.7505345940589905,
      "learning_rate": 0.00025025720288980347,
      "loss": 4.0214,
      "step": 129620
    },
    {
      "epoch": 0.2700625,
      "grad_norm": 0.712051510810852,
      "learning_rate": 0.00025024986969546833,
      "loss": 4.2158,
      "step": 129630
    },
    {
      "epoch": 0.27008333333333334,
      "grad_norm": 0.7976984977722168,
      "learning_rate": 0.0002502425360680934,
      "loss": 3.9049,
      "step": 129640
    },
    {
      "epoch": 0.27010416666666665,
      "grad_norm": 0.7866004705429077,
      "learning_rate": 0.00025023520200771044,
      "loss": 4.1389,
      "step": 129650
    },
    {
      "epoch": 0.270125,
      "grad_norm": 0.749400794506073,
      "learning_rate": 0.00025022786751435105,
      "loss": 4.0378,
      "step": 129660
    },
    {
      "epoch": 0.2701458333333333,
      "grad_norm": 0.9270460605621338,
      "learning_rate": 0.00025022053258804696,
      "loss": 4.215,
      "step": 129670
    },
    {
      "epoch": 0.27016666666666667,
      "grad_norm": 0.7743961811065674,
      "learning_rate": 0.00025021319722882984,
      "loss": 4.0575,
      "step": 129680
    },
    {
      "epoch": 0.2701875,
      "grad_norm": 0.7143757343292236,
      "learning_rate": 0.0002502058614367314,
      "loss": 4.048,
      "step": 129690
    },
    {
      "epoch": 0.27020833333333333,
      "grad_norm": 0.7737341523170471,
      "learning_rate": 0.0002501985252117833,
      "loss": 4.1738,
      "step": 129700
    },
    {
      "epoch": 0.2702291666666667,
      "grad_norm": 0.8673287630081177,
      "learning_rate": 0.00025019118855401716,
      "loss": 4.2574,
      "step": 129710
    },
    {
      "epoch": 0.27025,
      "grad_norm": 0.9307224750518799,
      "learning_rate": 0.00025018385146346474,
      "loss": 3.9987,
      "step": 129720
    },
    {
      "epoch": 0.27027083333333335,
      "grad_norm": 0.9349721670150757,
      "learning_rate": 0.0002501765139401578,
      "loss": 3.9674,
      "step": 129730
    },
    {
      "epoch": 0.27029166666666665,
      "grad_norm": 0.7649915218353271,
      "learning_rate": 0.00025016917598412794,
      "loss": 4.1007,
      "step": 129740
    },
    {
      "epoch": 0.2703125,
      "grad_norm": 0.7362853288650513,
      "learning_rate": 0.0002501618375954069,
      "loss": 4.1,
      "step": 129750
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 0.7734556794166565,
      "learning_rate": 0.0002501544987740264,
      "loss": 3.8331,
      "step": 129760
    },
    {
      "epoch": 0.2703541666666667,
      "grad_norm": 0.9069695472717285,
      "learning_rate": 0.00025014715952001806,
      "loss": 4.0961,
      "step": 129770
    },
    {
      "epoch": 0.270375,
      "grad_norm": 0.8125482201576233,
      "learning_rate": 0.0002501398198334137,
      "loss": 3.9538,
      "step": 129780
    },
    {
      "epoch": 0.27039583333333334,
      "grad_norm": 0.7723985910415649,
      "learning_rate": 0.00025013247971424486,
      "loss": 3.8318,
      "step": 129790
    },
    {
      "epoch": 0.2704166666666667,
      "grad_norm": 0.7191133499145508,
      "learning_rate": 0.00025012513916254344,
      "loss": 3.8631,
      "step": 129800
    },
    {
      "epoch": 0.2704375,
      "grad_norm": 0.8151117563247681,
      "learning_rate": 0.000250117798178341,
      "loss": 4.0574,
      "step": 129810
    },
    {
      "epoch": 0.27045833333333336,
      "grad_norm": 0.728531002998352,
      "learning_rate": 0.0002501104567616693,
      "loss": 4.1272,
      "step": 129820
    },
    {
      "epoch": 0.27047916666666666,
      "grad_norm": 0.7756898999214172,
      "learning_rate": 0.0002501031149125601,
      "loss": 3.8345,
      "step": 129830
    },
    {
      "epoch": 0.2705,
      "grad_norm": 0.8426553010940552,
      "learning_rate": 0.000250095772631045,
      "loss": 4.1167,
      "step": 129840
    },
    {
      "epoch": 0.2705208333333333,
      "grad_norm": 1.47881019115448,
      "learning_rate": 0.0002500884299171558,
      "loss": 4.0352,
      "step": 129850
    },
    {
      "epoch": 0.2705416666666667,
      "grad_norm": 0.7656188011169434,
      "learning_rate": 0.0002500810867709242,
      "loss": 3.9837,
      "step": 129860
    },
    {
      "epoch": 0.2705625,
      "grad_norm": 0.753631055355072,
      "learning_rate": 0.00025007374319238195,
      "loss": 3.9042,
      "step": 129870
    },
    {
      "epoch": 0.27058333333333334,
      "grad_norm": 0.7849352359771729,
      "learning_rate": 0.0002500663991815607,
      "loss": 3.9102,
      "step": 129880
    },
    {
      "epoch": 0.27060416666666665,
      "grad_norm": 0.8037074208259583,
      "learning_rate": 0.0002500590547384923,
      "loss": 4.0369,
      "step": 129890
    },
    {
      "epoch": 0.270625,
      "grad_norm": 0.7650078535079956,
      "learning_rate": 0.0002500517098632083,
      "loss": 4.1121,
      "step": 129900
    },
    {
      "epoch": 0.2706458333333333,
      "grad_norm": 0.8318753838539124,
      "learning_rate": 0.0002500443645557405,
      "loss": 3.9436,
      "step": 129910
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 0.7296367883682251,
      "learning_rate": 0.00025003701881612074,
      "loss": 4.1134,
      "step": 129920
    },
    {
      "epoch": 0.2706875,
      "grad_norm": 0.743831217288971,
      "learning_rate": 0.0002500296726443806,
      "loss": 4.2896,
      "step": 129930
    },
    {
      "epoch": 0.27070833333333333,
      "grad_norm": 0.8892624974250793,
      "learning_rate": 0.00025002232604055184,
      "loss": 3.9523,
      "step": 129940
    },
    {
      "epoch": 0.2707291666666667,
      "grad_norm": 0.7460474371910095,
      "learning_rate": 0.00025001497900466624,
      "loss": 4.0011,
      "step": 129950
    },
    {
      "epoch": 0.27075,
      "grad_norm": 0.7677525281906128,
      "learning_rate": 0.00025000763153675557,
      "loss": 4.0301,
      "step": 129960
    },
    {
      "epoch": 0.27077083333333335,
      "grad_norm": 0.8199254870414734,
      "learning_rate": 0.0002500002836368515,
      "loss": 3.9559,
      "step": 129970
    },
    {
      "epoch": 0.27079166666666665,
      "grad_norm": 0.848211944103241,
      "learning_rate": 0.00024999293530498574,
      "loss": 4.201,
      "step": 129980
    },
    {
      "epoch": 0.2708125,
      "grad_norm": 0.8352741003036499,
      "learning_rate": 0.0002499855865411901,
      "loss": 3.7901,
      "step": 129990
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 0.7819221615791321,
      "learning_rate": 0.0002499782373454963,
      "loss": 4.0727,
      "step": 130000
    },
    {
      "epoch": 0.2708333333333333,
      "eval_loss": 3.751067638397217,
      "eval_runtime": 7.2773,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 130000
    },
    {
      "epoch": 0.2708541666666667,
      "grad_norm": 0.7466111779212952,
      "learning_rate": 0.00024997088771793613,
      "loss": 3.805,
      "step": 130010
    },
    {
      "epoch": 0.270875,
      "grad_norm": 0.8744806051254272,
      "learning_rate": 0.00024996353765854124,
      "loss": 3.7926,
      "step": 130020
    },
    {
      "epoch": 0.27089583333333334,
      "grad_norm": 0.8298977017402649,
      "learning_rate": 0.0002499561871673435,
      "loss": 3.9765,
      "step": 130030
    },
    {
      "epoch": 0.27091666666666664,
      "grad_norm": 1.022215723991394,
      "learning_rate": 0.0002499488362443746,
      "loss": 4.1885,
      "step": 130040
    },
    {
      "epoch": 0.2709375,
      "grad_norm": 0.7546754479408264,
      "learning_rate": 0.0002499414848896662,
      "loss": 4.0539,
      "step": 130050
    },
    {
      "epoch": 0.27095833333333336,
      "grad_norm": 0.8765579462051392,
      "learning_rate": 0.0002499341331032502,
      "loss": 3.9139,
      "step": 130060
    },
    {
      "epoch": 0.27097916666666666,
      "grad_norm": 0.7785954475402832,
      "learning_rate": 0.00024992678088515827,
      "loss": 4.05,
      "step": 130070
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.8417132496833801,
      "learning_rate": 0.00024991942823542225,
      "loss": 4.0734,
      "step": 130080
    },
    {
      "epoch": 0.2710208333333333,
      "grad_norm": 0.7509871125221252,
      "learning_rate": 0.00024991207515407386,
      "loss": 3.9453,
      "step": 130090
    },
    {
      "epoch": 0.2710416666666667,
      "grad_norm": 1.6041147708892822,
      "learning_rate": 0.0002499047216411448,
      "loss": 4.3031,
      "step": 130100
    },
    {
      "epoch": 0.2710625,
      "grad_norm": 0.9406973719596863,
      "learning_rate": 0.0002498973676966669,
      "loss": 3.9668,
      "step": 130110
    },
    {
      "epoch": 0.27108333333333334,
      "grad_norm": 1.2848538160324097,
      "learning_rate": 0.00024989001332067194,
      "loss": 4.1659,
      "step": 130120
    },
    {
      "epoch": 0.27110416666666665,
      "grad_norm": 0.7533734440803528,
      "learning_rate": 0.0002498826585131916,
      "loss": 3.9813,
      "step": 130130
    },
    {
      "epoch": 0.271125,
      "grad_norm": 0.8428921699523926,
      "learning_rate": 0.0002498753032742578,
      "loss": 4.169,
      "step": 130140
    },
    {
      "epoch": 0.2711458333333333,
      "grad_norm": 0.7692112922668457,
      "learning_rate": 0.00024986794760390216,
      "loss": 4.0713,
      "step": 130150
    },
    {
      "epoch": 0.27116666666666667,
      "grad_norm": 0.8219364881515503,
      "learning_rate": 0.0002498605915021566,
      "loss": 3.8359,
      "step": 130160
    },
    {
      "epoch": 0.2711875,
      "grad_norm": 0.7753433585166931,
      "learning_rate": 0.0002498532349690527,
      "loss": 3.9482,
      "step": 130170
    },
    {
      "epoch": 0.27120833333333333,
      "grad_norm": 0.7790008783340454,
      "learning_rate": 0.0002498458780046224,
      "loss": 3.8531,
      "step": 130180
    },
    {
      "epoch": 0.2712291666666667,
      "grad_norm": 0.8759722709655762,
      "learning_rate": 0.0002498385206088974,
      "loss": 4.0208,
      "step": 130190
    },
    {
      "epoch": 0.27125,
      "grad_norm": 0.7586979269981384,
      "learning_rate": 0.0002498311627819096,
      "loss": 3.9176,
      "step": 130200
    },
    {
      "epoch": 0.27127083333333335,
      "grad_norm": 0.7931250333786011,
      "learning_rate": 0.0002498238045236906,
      "loss": 4.0744,
      "step": 130210
    },
    {
      "epoch": 0.27129166666666665,
      "grad_norm": 0.7251819968223572,
      "learning_rate": 0.0002498164458342723,
      "loss": 4.0045,
      "step": 130220
    },
    {
      "epoch": 0.2713125,
      "grad_norm": 0.84056156873703,
      "learning_rate": 0.00024980908671368645,
      "loss": 4.0519,
      "step": 130230
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 0.7769594788551331,
      "learning_rate": 0.0002498017271619649,
      "loss": 4.098,
      "step": 130240
    },
    {
      "epoch": 0.2713541666666667,
      "grad_norm": 0.7839972972869873,
      "learning_rate": 0.0002497943671791394,
      "loss": 3.9594,
      "step": 130250
    },
    {
      "epoch": 0.271375,
      "grad_norm": 0.7467507719993591,
      "learning_rate": 0.00024978700676524165,
      "loss": 3.9045,
      "step": 130260
    },
    {
      "epoch": 0.27139583333333334,
      "grad_norm": 0.7621280550956726,
      "learning_rate": 0.00024977964592030357,
      "loss": 4.1158,
      "step": 130270
    },
    {
      "epoch": 0.27141666666666664,
      "grad_norm": 0.7779839634895325,
      "learning_rate": 0.00024977228464435696,
      "loss": 4.0542,
      "step": 130280
    },
    {
      "epoch": 0.2714375,
      "grad_norm": 0.8437747359275818,
      "learning_rate": 0.00024976492293743354,
      "loss": 4.0148,
      "step": 130290
    },
    {
      "epoch": 0.27145833333333336,
      "grad_norm": 0.7642883062362671,
      "learning_rate": 0.0002497575607995651,
      "loss": 4.1319,
      "step": 130300
    },
    {
      "epoch": 0.27147916666666666,
      "grad_norm": 0.7935945987701416,
      "learning_rate": 0.0002497501982307836,
      "loss": 4.0856,
      "step": 130310
    },
    {
      "epoch": 0.2715,
      "grad_norm": 0.7661628127098083,
      "learning_rate": 0.0002497428352311206,
      "loss": 3.9009,
      "step": 130320
    },
    {
      "epoch": 0.2715208333333333,
      "grad_norm": 0.771332323551178,
      "learning_rate": 0.0002497354718006081,
      "loss": 3.8399,
      "step": 130330
    },
    {
      "epoch": 0.2715416666666667,
      "grad_norm": 1.231198787689209,
      "learning_rate": 0.0002497281079392778,
      "loss": 3.8922,
      "step": 130340
    },
    {
      "epoch": 0.2715625,
      "grad_norm": 0.8563101291656494,
      "learning_rate": 0.0002497207436471616,
      "loss": 3.8429,
      "step": 130350
    },
    {
      "epoch": 0.27158333333333334,
      "grad_norm": 0.7588150501251221,
      "learning_rate": 0.00024971337892429124,
      "loss": 3.9399,
      "step": 130360
    },
    {
      "epoch": 0.27160416666666665,
      "grad_norm": 0.7603592872619629,
      "learning_rate": 0.00024970601377069854,
      "loss": 3.9481,
      "step": 130370
    },
    {
      "epoch": 0.271625,
      "grad_norm": 0.8489358425140381,
      "learning_rate": 0.0002496986481864153,
      "loss": 3.88,
      "step": 130380
    },
    {
      "epoch": 0.2716458333333333,
      "grad_norm": 0.7722621560096741,
      "learning_rate": 0.00024969128217147343,
      "loss": 4.0605,
      "step": 130390
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 0.7351141571998596,
      "learning_rate": 0.00024968391572590467,
      "loss": 3.927,
      "step": 130400
    },
    {
      "epoch": 0.2716875,
      "grad_norm": 0.709717869758606,
      "learning_rate": 0.00024967654884974083,
      "loss": 4.2573,
      "step": 130410
    },
    {
      "epoch": 0.27170833333333333,
      "grad_norm": 0.8228291869163513,
      "learning_rate": 0.00024966918154301375,
      "loss": 4.0118,
      "step": 130420
    },
    {
      "epoch": 0.2717291666666667,
      "grad_norm": 0.7770426869392395,
      "learning_rate": 0.00024966181380575524,
      "loss": 4.1245,
      "step": 130430
    },
    {
      "epoch": 0.27175,
      "grad_norm": 0.7142114639282227,
      "learning_rate": 0.00024965444563799713,
      "loss": 4.0778,
      "step": 130440
    },
    {
      "epoch": 0.27177083333333335,
      "grad_norm": 0.7754561305046082,
      "learning_rate": 0.00024964707703977135,
      "loss": 3.9358,
      "step": 130450
    },
    {
      "epoch": 0.27179166666666665,
      "grad_norm": 0.810384213924408,
      "learning_rate": 0.00024963970801110955,
      "loss": 4.1958,
      "step": 130460
    },
    {
      "epoch": 0.2718125,
      "grad_norm": 0.864227831363678,
      "learning_rate": 0.0002496323385520437,
      "loss": 4.154,
      "step": 130470
    },
    {
      "epoch": 0.2718333333333333,
      "grad_norm": 1.0468518733978271,
      "learning_rate": 0.0002496249686626056,
      "loss": 4.0427,
      "step": 130480
    },
    {
      "epoch": 0.2718541666666667,
      "grad_norm": 0.7717610001564026,
      "learning_rate": 0.000249617598342827,
      "loss": 3.9396,
      "step": 130490
    },
    {
      "epoch": 0.271875,
      "grad_norm": 0.8904446363449097,
      "learning_rate": 0.00024961022759273984,
      "loss": 4.1007,
      "step": 130500
    },
    {
      "epoch": 0.27189583333333334,
      "grad_norm": 0.847252607345581,
      "learning_rate": 0.00024960285641237594,
      "loss": 4.0877,
      "step": 130510
    },
    {
      "epoch": 0.27191666666666664,
      "grad_norm": 0.7802739143371582,
      "learning_rate": 0.00024959548480176717,
      "loss": 4.0554,
      "step": 130520
    },
    {
      "epoch": 0.2719375,
      "grad_norm": 0.7702426910400391,
      "learning_rate": 0.00024958811276094524,
      "loss": 3.8715,
      "step": 130530
    },
    {
      "epoch": 0.27195833333333336,
      "grad_norm": 0.8101863265037537,
      "learning_rate": 0.00024958074028994215,
      "loss": 4.0422,
      "step": 130540
    },
    {
      "epoch": 0.27197916666666666,
      "grad_norm": 0.8682630062103271,
      "learning_rate": 0.0002495733673887896,
      "loss": 4.1706,
      "step": 130550
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.8521671295166016,
      "learning_rate": 0.0002495659940575196,
      "loss": 3.9486,
      "step": 130560
    },
    {
      "epoch": 0.2720208333333333,
      "grad_norm": 0.8131975531578064,
      "learning_rate": 0.00024955862029616386,
      "loss": 3.8988,
      "step": 130570
    },
    {
      "epoch": 0.2720416666666667,
      "grad_norm": 0.782890796661377,
      "learning_rate": 0.00024955124610475434,
      "loss": 3.9648,
      "step": 130580
    },
    {
      "epoch": 0.2720625,
      "grad_norm": 0.7854670882225037,
      "learning_rate": 0.0002495438714833228,
      "loss": 4.0306,
      "step": 130590
    },
    {
      "epoch": 0.27208333333333334,
      "grad_norm": 0.7904798984527588,
      "learning_rate": 0.0002495364964319012,
      "loss": 3.9107,
      "step": 130600
    },
    {
      "epoch": 0.27210416666666665,
      "grad_norm": 0.7456888556480408,
      "learning_rate": 0.0002495291209505212,
      "loss": 3.9739,
      "step": 130610
    },
    {
      "epoch": 0.272125,
      "grad_norm": 0.9433971643447876,
      "learning_rate": 0.0002495217450392149,
      "loss": 4.0197,
      "step": 130620
    },
    {
      "epoch": 0.2721458333333333,
      "grad_norm": 0.8292518854141235,
      "learning_rate": 0.000249514368698014,
      "loss": 3.916,
      "step": 130630
    },
    {
      "epoch": 0.27216666666666667,
      "grad_norm": 0.9139068722724915,
      "learning_rate": 0.0002495069919269505,
      "loss": 3.8944,
      "step": 130640
    },
    {
      "epoch": 0.2721875,
      "grad_norm": 0.7678594589233398,
      "learning_rate": 0.0002494996147260561,
      "loss": 3.85,
      "step": 130650
    },
    {
      "epoch": 0.27220833333333333,
      "grad_norm": 0.7609245181083679,
      "learning_rate": 0.0002494922370953628,
      "loss": 4.0507,
      "step": 130660
    },
    {
      "epoch": 0.2722291666666667,
      "grad_norm": 0.7743308544158936,
      "learning_rate": 0.00024948485903490236,
      "loss": 4.0828,
      "step": 130670
    },
    {
      "epoch": 0.27225,
      "grad_norm": 0.8475128412246704,
      "learning_rate": 0.0002494774805447068,
      "loss": 4.0603,
      "step": 130680
    },
    {
      "epoch": 0.27227083333333335,
      "grad_norm": 0.7787861824035645,
      "learning_rate": 0.00024947010162480786,
      "loss": 4.0505,
      "step": 130690
    },
    {
      "epoch": 0.27229166666666665,
      "grad_norm": 0.8133469223976135,
      "learning_rate": 0.00024946272227523744,
      "loss": 4.0974,
      "step": 130700
    },
    {
      "epoch": 0.2723125,
      "grad_norm": 0.7603017091751099,
      "learning_rate": 0.0002494553424960274,
      "loss": 4.0742,
      "step": 130710
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 0.8483667373657227,
      "learning_rate": 0.0002494479622872097,
      "loss": 3.7668,
      "step": 130720
    },
    {
      "epoch": 0.2723541666666667,
      "grad_norm": 0.7520562410354614,
      "learning_rate": 0.00024944058164881616,
      "loss": 4.0576,
      "step": 130730
    },
    {
      "epoch": 0.272375,
      "grad_norm": 0.7853183150291443,
      "learning_rate": 0.00024943320058087864,
      "loss": 4.1045,
      "step": 130740
    },
    {
      "epoch": 0.27239583333333334,
      "grad_norm": 0.8674499988555908,
      "learning_rate": 0.00024942581908342907,
      "loss": 3.8614,
      "step": 130750
    },
    {
      "epoch": 0.27241666666666664,
      "grad_norm": 0.8152540326118469,
      "learning_rate": 0.0002494184371564993,
      "loss": 4.1163,
      "step": 130760
    },
    {
      "epoch": 0.2724375,
      "grad_norm": 0.8281384110450745,
      "learning_rate": 0.00024941105480012126,
      "loss": 3.928,
      "step": 130770
    },
    {
      "epoch": 0.27245833333333336,
      "grad_norm": 1.0359489917755127,
      "learning_rate": 0.0002494036720143268,
      "loss": 4.1088,
      "step": 130780
    },
    {
      "epoch": 0.27247916666666666,
      "grad_norm": 0.8022584915161133,
      "learning_rate": 0.0002493962887991478,
      "loss": 4.0229,
      "step": 130790
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.771131157875061,
      "learning_rate": 0.0002493889051546162,
      "loss": 3.8478,
      "step": 130800
    },
    {
      "epoch": 0.2725208333333333,
      "grad_norm": 0.7669642567634583,
      "learning_rate": 0.0002493815210807639,
      "loss": 3.9647,
      "step": 130810
    },
    {
      "epoch": 0.2725416666666667,
      "grad_norm": 0.7884477972984314,
      "learning_rate": 0.0002493741365776227,
      "loss": 4.0919,
      "step": 130820
    },
    {
      "epoch": 0.2725625,
      "grad_norm": 0.8457624912261963,
      "learning_rate": 0.0002493667516452247,
      "loss": 4.0195,
      "step": 130830
    },
    {
      "epoch": 0.27258333333333334,
      "grad_norm": 0.7188864946365356,
      "learning_rate": 0.0002493593662836015,
      "loss": 3.9602,
      "step": 130840
    },
    {
      "epoch": 0.27260416666666665,
      "grad_norm": 0.8273969888687134,
      "learning_rate": 0.00024935198049278525,
      "loss": 4.1365,
      "step": 130850
    },
    {
      "epoch": 0.272625,
      "grad_norm": 0.7815633416175842,
      "learning_rate": 0.00024934459427280775,
      "loss": 3.949,
      "step": 130860
    },
    {
      "epoch": 0.2726458333333333,
      "grad_norm": 0.8787569999694824,
      "learning_rate": 0.0002493372076237009,
      "loss": 3.8159,
      "step": 130870
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 0.7735084891319275,
      "learning_rate": 0.0002493298205454967,
      "loss": 4.1535,
      "step": 130880
    },
    {
      "epoch": 0.2726875,
      "grad_norm": 0.7762100100517273,
      "learning_rate": 0.0002493224330382269,
      "loss": 4.0316,
      "step": 130890
    },
    {
      "epoch": 0.27270833333333333,
      "grad_norm": 0.8043840527534485,
      "learning_rate": 0.0002493150451019236,
      "loss": 3.8331,
      "step": 130900
    },
    {
      "epoch": 0.2727291666666667,
      "grad_norm": 0.8301292061805725,
      "learning_rate": 0.0002493076567366186,
      "loss": 4.0392,
      "step": 130910
    },
    {
      "epoch": 0.27275,
      "grad_norm": 0.8780696988105774,
      "learning_rate": 0.0002493002679423438,
      "loss": 4.216,
      "step": 130920
    },
    {
      "epoch": 0.27277083333333335,
      "grad_norm": 0.778478741645813,
      "learning_rate": 0.0002492928787191312,
      "loss": 3.838,
      "step": 130930
    },
    {
      "epoch": 0.27279166666666665,
      "grad_norm": 0.7994825839996338,
      "learning_rate": 0.00024928548906701255,
      "loss": 3.925,
      "step": 130940
    },
    {
      "epoch": 0.2728125,
      "grad_norm": 0.8392316699028015,
      "learning_rate": 0.00024927809898602,
      "loss": 3.9714,
      "step": 130950
    },
    {
      "epoch": 0.2728333333333333,
      "grad_norm": 0.7788439989089966,
      "learning_rate": 0.00024927070847618533,
      "loss": 4.1291,
      "step": 130960
    },
    {
      "epoch": 0.2728541666666667,
      "grad_norm": 0.8268424272537231,
      "learning_rate": 0.0002492633175375404,
      "loss": 3.7432,
      "step": 130970
    },
    {
      "epoch": 0.272875,
      "grad_norm": 0.8802446722984314,
      "learning_rate": 0.00024925592617011736,
      "loss": 4.1596,
      "step": 130980
    },
    {
      "epoch": 0.27289583333333334,
      "grad_norm": 0.9085030555725098,
      "learning_rate": 0.00024924853437394796,
      "loss": 4.1401,
      "step": 130990
    },
    {
      "epoch": 0.27291666666666664,
      "grad_norm": 0.819972813129425,
      "learning_rate": 0.0002492411421490642,
      "loss": 3.9283,
      "step": 131000
    },
    {
      "epoch": 0.27291666666666664,
      "eval_loss": 3.7516465187072754,
      "eval_runtime": 7.2273,
      "eval_samples_per_second": 1.384,
      "eval_steps_per_second": 0.415,
      "step": 131000
    },
    {
      "epoch": 0.2729375,
      "grad_norm": 0.8121663928031921,
      "learning_rate": 0.000249233749495498,
      "loss": 4.0504,
      "step": 131010
    },
    {
      "epoch": 0.27295833333333336,
      "grad_norm": 0.7895252704620361,
      "learning_rate": 0.00024922635641328123,
      "loss": 4.1072,
      "step": 131020
    },
    {
      "epoch": 0.27297916666666666,
      "grad_norm": 0.7880108952522278,
      "learning_rate": 0.00024921896290244587,
      "loss": 3.9837,
      "step": 131030
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.7861711978912354,
      "learning_rate": 0.00024921156896302393,
      "loss": 4.1556,
      "step": 131040
    },
    {
      "epoch": 0.2730208333333333,
      "grad_norm": 0.7189722657203674,
      "learning_rate": 0.00024920417459504724,
      "loss": 4.0999,
      "step": 131050
    },
    {
      "epoch": 0.2730416666666667,
      "grad_norm": 0.7632479667663574,
      "learning_rate": 0.00024919677979854776,
      "loss": 4.0592,
      "step": 131060
    },
    {
      "epoch": 0.2730625,
      "grad_norm": 0.7812997698783875,
      "learning_rate": 0.0002491893845735575,
      "loss": 3.7804,
      "step": 131070
    },
    {
      "epoch": 0.27308333333333334,
      "grad_norm": 0.7872382998466492,
      "learning_rate": 0.0002491819889201083,
      "loss": 4.0255,
      "step": 131080
    },
    {
      "epoch": 0.27310416666666665,
      "grad_norm": 0.7327758073806763,
      "learning_rate": 0.00024917459283823224,
      "loss": 3.7357,
      "step": 131090
    },
    {
      "epoch": 0.273125,
      "grad_norm": 0.7008793950080872,
      "learning_rate": 0.00024916719632796117,
      "loss": 3.9444,
      "step": 131100
    },
    {
      "epoch": 0.2731458333333333,
      "grad_norm": 0.7605492472648621,
      "learning_rate": 0.000249159799389327,
      "loss": 3.8304,
      "step": 131110
    },
    {
      "epoch": 0.27316666666666667,
      "grad_norm": 0.7343565225601196,
      "learning_rate": 0.00024915240202236184,
      "loss": 3.9172,
      "step": 131120
    },
    {
      "epoch": 0.2731875,
      "grad_norm": 0.8736120462417603,
      "learning_rate": 0.00024914500422709755,
      "loss": 4.0152,
      "step": 131130
    },
    {
      "epoch": 0.27320833333333333,
      "grad_norm": 0.9193845987319946,
      "learning_rate": 0.00024913760600356604,
      "loss": 3.8567,
      "step": 131140
    },
    {
      "epoch": 0.2732291666666667,
      "grad_norm": 0.833483874797821,
      "learning_rate": 0.0002491302073517993,
      "loss": 3.8168,
      "step": 131150
    },
    {
      "epoch": 0.27325,
      "grad_norm": 0.7424919009208679,
      "learning_rate": 0.00024912280827182935,
      "loss": 3.9173,
      "step": 131160
    },
    {
      "epoch": 0.27327083333333335,
      "grad_norm": 0.759918212890625,
      "learning_rate": 0.00024911540876368805,
      "loss": 4.0749,
      "step": 131170
    },
    {
      "epoch": 0.27329166666666665,
      "grad_norm": 0.933332622051239,
      "learning_rate": 0.0002491080088274075,
      "loss": 4.0114,
      "step": 131180
    },
    {
      "epoch": 0.2733125,
      "grad_norm": 0.9338725805282593,
      "learning_rate": 0.0002491006084630195,
      "loss": 3.8046,
      "step": 131190
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 0.7965246438980103,
      "learning_rate": 0.00024909320767055613,
      "loss": 3.9527,
      "step": 131200
    },
    {
      "epoch": 0.2733541666666667,
      "grad_norm": 0.7612175941467285,
      "learning_rate": 0.00024908580645004934,
      "loss": 4.0693,
      "step": 131210
    },
    {
      "epoch": 0.273375,
      "grad_norm": 0.7331943511962891,
      "learning_rate": 0.00024907840480153107,
      "loss": 4.1165,
      "step": 131220
    },
    {
      "epoch": 0.27339583333333334,
      "grad_norm": 0.8007690906524658,
      "learning_rate": 0.0002490710027250333,
      "loss": 4.015,
      "step": 131230
    },
    {
      "epoch": 0.27341666666666664,
      "grad_norm": 0.7775848507881165,
      "learning_rate": 0.000249063600220588,
      "loss": 4.1322,
      "step": 131240
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 0.88165283203125,
      "learning_rate": 0.0002490561972882272,
      "loss": 3.8536,
      "step": 131250
    },
    {
      "epoch": 0.27345833333333336,
      "grad_norm": 0.7724713683128357,
      "learning_rate": 0.0002490487939279828,
      "loss": 3.9928,
      "step": 131260
    },
    {
      "epoch": 0.27347916666666666,
      "grad_norm": 0.765117883682251,
      "learning_rate": 0.00024904139013988684,
      "loss": 3.8586,
      "step": 131270
    },
    {
      "epoch": 0.2735,
      "grad_norm": 0.7583007216453552,
      "learning_rate": 0.0002490339859239713,
      "loss": 3.9336,
      "step": 131280
    },
    {
      "epoch": 0.2735208333333333,
      "grad_norm": 0.8242365121841431,
      "learning_rate": 0.0002490265812802681,
      "loss": 4.2246,
      "step": 131290
    },
    {
      "epoch": 0.2735416666666667,
      "grad_norm": 0.8263247013092041,
      "learning_rate": 0.0002490191762088093,
      "loss": 4.0869,
      "step": 131300
    },
    {
      "epoch": 0.2735625,
      "grad_norm": 1.0503358840942383,
      "learning_rate": 0.0002490117707096268,
      "loss": 3.9818,
      "step": 131310
    },
    {
      "epoch": 0.27358333333333335,
      "grad_norm": 0.840562641620636,
      "learning_rate": 0.0002490043647827527,
      "loss": 3.8876,
      "step": 131320
    },
    {
      "epoch": 0.27360416666666665,
      "grad_norm": 0.8422338366508484,
      "learning_rate": 0.0002489969584282189,
      "loss": 3.9276,
      "step": 131330
    },
    {
      "epoch": 0.273625,
      "grad_norm": 0.7927265167236328,
      "learning_rate": 0.00024898955164605747,
      "loss": 4.1063,
      "step": 131340
    },
    {
      "epoch": 0.2736458333333333,
      "grad_norm": 0.7670256495475769,
      "learning_rate": 0.00024898214443630035,
      "loss": 3.9398,
      "step": 131350
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 0.7814249396324158,
      "learning_rate": 0.00024897473679897947,
      "loss": 4.0499,
      "step": 131360
    },
    {
      "epoch": 0.2736875,
      "grad_norm": 0.8131513595581055,
      "learning_rate": 0.00024896732873412695,
      "loss": 4.0295,
      "step": 131370
    },
    {
      "epoch": 0.27370833333333333,
      "grad_norm": 0.7841233611106873,
      "learning_rate": 0.0002489599202417748,
      "loss": 4.0318,
      "step": 131380
    },
    {
      "epoch": 0.2737291666666667,
      "grad_norm": 0.8789334893226624,
      "learning_rate": 0.00024895251132195487,
      "loss": 4.2282,
      "step": 131390
    },
    {
      "epoch": 0.27375,
      "grad_norm": 0.8321933150291443,
      "learning_rate": 0.00024894510197469934,
      "loss": 4.0262,
      "step": 131400
    },
    {
      "epoch": 0.27377083333333335,
      "grad_norm": 0.8609862327575684,
      "learning_rate": 0.0002489376922000401,
      "loss": 3.9964,
      "step": 131410
    },
    {
      "epoch": 0.27379166666666666,
      "grad_norm": 0.8995217680931091,
      "learning_rate": 0.00024893028199800916,
      "loss": 4.0895,
      "step": 131420
    },
    {
      "epoch": 0.2738125,
      "grad_norm": 0.7743006348609924,
      "learning_rate": 0.0002489228713686386,
      "loss": 4.1265,
      "step": 131430
    },
    {
      "epoch": 0.2738333333333333,
      "grad_norm": 0.8133302927017212,
      "learning_rate": 0.00024891546031196037,
      "loss": 3.9006,
      "step": 131440
    },
    {
      "epoch": 0.2738541666666667,
      "grad_norm": 0.734017550945282,
      "learning_rate": 0.0002489080488280065,
      "loss": 4.1675,
      "step": 131450
    },
    {
      "epoch": 0.273875,
      "grad_norm": 0.8526960015296936,
      "learning_rate": 0.0002489006369168091,
      "loss": 3.7856,
      "step": 131460
    },
    {
      "epoch": 0.27389583333333334,
      "grad_norm": 0.7494646906852722,
      "learning_rate": 0.00024889322457839996,
      "loss": 4.0777,
      "step": 131470
    },
    {
      "epoch": 0.27391666666666664,
      "grad_norm": 0.8069854378700256,
      "learning_rate": 0.0002488858118128113,
      "loss": 4.0785,
      "step": 131480
    },
    {
      "epoch": 0.2739375,
      "grad_norm": 0.8442650437355042,
      "learning_rate": 0.00024887839862007506,
      "loss": 4.046,
      "step": 131490
    },
    {
      "epoch": 0.27395833333333336,
      "grad_norm": 0.7737105488777161,
      "learning_rate": 0.0002488709850002233,
      "loss": 3.7965,
      "step": 131500
    },
    {
      "epoch": 0.27397916666666666,
      "grad_norm": 0.8452091813087463,
      "learning_rate": 0.000248863570953288,
      "loss": 3.9552,
      "step": 131510
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.8441280722618103,
      "learning_rate": 0.0002488561564793013,
      "loss": 4.0235,
      "step": 131520
    },
    {
      "epoch": 0.2740208333333333,
      "grad_norm": 0.8329021334648132,
      "learning_rate": 0.000248848741578295,
      "loss": 4.0157,
      "step": 131530
    },
    {
      "epoch": 0.2740416666666667,
      "grad_norm": 0.7361235022544861,
      "learning_rate": 0.0002488413262503013,
      "loss": 4.0091,
      "step": 131540
    },
    {
      "epoch": 0.2740625,
      "grad_norm": 0.7889858484268188,
      "learning_rate": 0.00024883391049535224,
      "loss": 4.0934,
      "step": 131550
    },
    {
      "epoch": 0.27408333333333335,
      "grad_norm": 0.7710039615631104,
      "learning_rate": 0.00024882649431347975,
      "loss": 3.9907,
      "step": 131560
    },
    {
      "epoch": 0.27410416666666665,
      "grad_norm": 0.8502383232116699,
      "learning_rate": 0.00024881907770471593,
      "loss": 4.0442,
      "step": 131570
    },
    {
      "epoch": 0.274125,
      "grad_norm": 0.7515379190444946,
      "learning_rate": 0.0002488116606690929,
      "loss": 4.0529,
      "step": 131580
    },
    {
      "epoch": 0.2741458333333333,
      "grad_norm": 0.8233765959739685,
      "learning_rate": 0.0002488042432066425,
      "loss": 3.8756,
      "step": 131590
    },
    {
      "epoch": 0.27416666666666667,
      "grad_norm": 0.7751458883285522,
      "learning_rate": 0.00024879682531739697,
      "loss": 4.1535,
      "step": 131600
    },
    {
      "epoch": 0.2741875,
      "grad_norm": 0.7648747563362122,
      "learning_rate": 0.0002487894070013881,
      "loss": 4.0654,
      "step": 131610
    },
    {
      "epoch": 0.27420833333333333,
      "grad_norm": 0.7714208960533142,
      "learning_rate": 0.00024878198825864826,
      "loss": 4.0614,
      "step": 131620
    },
    {
      "epoch": 0.2742291666666667,
      "grad_norm": 0.7911417484283447,
      "learning_rate": 0.0002487745690892093,
      "loss": 3.974,
      "step": 131630
    },
    {
      "epoch": 0.27425,
      "grad_norm": 0.7606966495513916,
      "learning_rate": 0.0002487671494931032,
      "loss": 3.998,
      "step": 131640
    },
    {
      "epoch": 0.27427083333333335,
      "grad_norm": 0.773999035358429,
      "learning_rate": 0.00024875972947036224,
      "loss": 3.8973,
      "step": 131650
    },
    {
      "epoch": 0.27429166666666666,
      "grad_norm": 0.7699306011199951,
      "learning_rate": 0.0002487523090210183,
      "loss": 3.9761,
      "step": 131660
    },
    {
      "epoch": 0.2743125,
      "grad_norm": 0.7366884350776672,
      "learning_rate": 0.00024874488814510343,
      "loss": 3.9993,
      "step": 131670
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 0.7906031608581543,
      "learning_rate": 0.00024873746684264973,
      "loss": 3.9865,
      "step": 131680
    },
    {
      "epoch": 0.2743541666666667,
      "grad_norm": 0.8119332194328308,
      "learning_rate": 0.0002487300451136893,
      "loss": 4.0466,
      "step": 131690
    },
    {
      "epoch": 0.274375,
      "grad_norm": 1.2884485721588135,
      "learning_rate": 0.00024872262295825415,
      "loss": 4.0673,
      "step": 131700
    },
    {
      "epoch": 0.27439583333333334,
      "grad_norm": 0.8173070549964905,
      "learning_rate": 0.00024871520037637635,
      "loss": 4.2458,
      "step": 131710
    },
    {
      "epoch": 0.27441666666666664,
      "grad_norm": 0.8353491425514221,
      "learning_rate": 0.00024870777736808795,
      "loss": 3.8594,
      "step": 131720
    },
    {
      "epoch": 0.2744375,
      "grad_norm": 0.7067038416862488,
      "learning_rate": 0.000248700353933421,
      "loss": 3.9661,
      "step": 131730
    },
    {
      "epoch": 0.27445833333333336,
      "grad_norm": 0.7288025617599487,
      "learning_rate": 0.0002486929300724076,
      "loss": 3.9646,
      "step": 131740
    },
    {
      "epoch": 0.27447916666666666,
      "grad_norm": 0.8713051676750183,
      "learning_rate": 0.00024868550578507984,
      "loss": 3.8944,
      "step": 131750
    },
    {
      "epoch": 0.2745,
      "grad_norm": 0.8141459226608276,
      "learning_rate": 0.0002486780810714697,
      "loss": 3.9053,
      "step": 131760
    },
    {
      "epoch": 0.2745208333333333,
      "grad_norm": 0.7346150279045105,
      "learning_rate": 0.00024867065593160936,
      "loss": 4.0477,
      "step": 131770
    },
    {
      "epoch": 0.2745416666666667,
      "grad_norm": 0.7962339520454407,
      "learning_rate": 0.0002486632303655308,
      "loss": 4.0107,
      "step": 131780
    },
    {
      "epoch": 0.2745625,
      "grad_norm": 0.7679647207260132,
      "learning_rate": 0.00024865580437326615,
      "loss": 3.8564,
      "step": 131790
    },
    {
      "epoch": 0.27458333333333335,
      "grad_norm": 0.7527490854263306,
      "learning_rate": 0.0002486483779548475,
      "loss": 4.184,
      "step": 131800
    },
    {
      "epoch": 0.27460416666666665,
      "grad_norm": 0.8469070196151733,
      "learning_rate": 0.0002486409511103069,
      "loss": 3.9974,
      "step": 131810
    },
    {
      "epoch": 0.274625,
      "grad_norm": 0.9223853349685669,
      "learning_rate": 0.00024863352383967645,
      "loss": 4.1645,
      "step": 131820
    },
    {
      "epoch": 0.2746458333333333,
      "grad_norm": 0.8106174468994141,
      "learning_rate": 0.0002486260961429882,
      "loss": 4.0409,
      "step": 131830
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 0.8142455220222473,
      "learning_rate": 0.0002486186680202742,
      "loss": 4.1533,
      "step": 131840
    },
    {
      "epoch": 0.2746875,
      "grad_norm": 0.7464285492897034,
      "learning_rate": 0.00024861123947156664,
      "loss": 3.9452,
      "step": 131850
    },
    {
      "epoch": 0.27470833333333333,
      "grad_norm": 0.7757574915885925,
      "learning_rate": 0.0002486038104968976,
      "loss": 4.06,
      "step": 131860
    },
    {
      "epoch": 0.2747291666666667,
      "grad_norm": 0.8407067656517029,
      "learning_rate": 0.00024859638109629907,
      "loss": 4.0032,
      "step": 131870
    },
    {
      "epoch": 0.27475,
      "grad_norm": 0.7506433725357056,
      "learning_rate": 0.0002485889512698032,
      "loss": 4.0408,
      "step": 131880
    },
    {
      "epoch": 0.27477083333333335,
      "grad_norm": 0.7400792241096497,
      "learning_rate": 0.00024858152101744213,
      "loss": 3.9825,
      "step": 131890
    },
    {
      "epoch": 0.27479166666666666,
      "grad_norm": 0.8035607933998108,
      "learning_rate": 0.00024857409033924785,
      "loss": 4.1926,
      "step": 131900
    },
    {
      "epoch": 0.2748125,
      "grad_norm": 0.77896648645401,
      "learning_rate": 0.0002485666592352526,
      "loss": 4.0957,
      "step": 131910
    },
    {
      "epoch": 0.2748333333333333,
      "grad_norm": 0.7325218915939331,
      "learning_rate": 0.0002485592277054883,
      "loss": 4.0451,
      "step": 131920
    },
    {
      "epoch": 0.2748541666666667,
      "grad_norm": 0.8188395500183105,
      "learning_rate": 0.00024855179574998724,
      "loss": 3.778,
      "step": 131930
    },
    {
      "epoch": 0.274875,
      "grad_norm": 0.7645756006240845,
      "learning_rate": 0.00024854436336878136,
      "loss": 4.2327,
      "step": 131940
    },
    {
      "epoch": 0.27489583333333334,
      "grad_norm": 0.8259136080741882,
      "learning_rate": 0.00024853693056190286,
      "loss": 4.0891,
      "step": 131950
    },
    {
      "epoch": 0.27491666666666664,
      "grad_norm": 0.7800146341323853,
      "learning_rate": 0.00024852949732938383,
      "loss": 3.9156,
      "step": 131960
    },
    {
      "epoch": 0.2749375,
      "grad_norm": 0.7689917683601379,
      "learning_rate": 0.0002485220636712564,
      "loss": 4.0473,
      "step": 131970
    },
    {
      "epoch": 0.27495833333333336,
      "grad_norm": 0.7968336939811707,
      "learning_rate": 0.0002485146295875526,
      "loss": 3.7812,
      "step": 131980
    },
    {
      "epoch": 0.27497916666666666,
      "grad_norm": 0.7707518935203552,
      "learning_rate": 0.0002485071950783046,
      "loss": 3.9916,
      "step": 131990
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.7917069792747498,
      "learning_rate": 0.0002484997601435446,
      "loss": 4.2202,
      "step": 132000
    },
    {
      "epoch": 0.275,
      "eval_loss": 3.749541759490967,
      "eval_runtime": 7.2708,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.413,
      "step": 132000
    },
    {
      "epoch": 0.2750208333333333,
      "grad_norm": 0.7879831194877625,
      "learning_rate": 0.00024849232478330453,
      "loss": 3.9843,
      "step": 132010
    },
    {
      "epoch": 0.2750416666666667,
      "grad_norm": 0.749962568283081,
      "learning_rate": 0.0002484848889976166,
      "loss": 4.1766,
      "step": 132020
    },
    {
      "epoch": 0.2750625,
      "grad_norm": 0.7922477126121521,
      "learning_rate": 0.00024847745278651297,
      "loss": 3.9471,
      "step": 132030
    },
    {
      "epoch": 0.27508333333333335,
      "grad_norm": 0.8395538330078125,
      "learning_rate": 0.0002484700161500257,
      "loss": 3.7794,
      "step": 132040
    },
    {
      "epoch": 0.27510416666666665,
      "grad_norm": 0.7822355628013611,
      "learning_rate": 0.00024846257908818693,
      "loss": 3.9814,
      "step": 132050
    },
    {
      "epoch": 0.275125,
      "grad_norm": 0.7405625581741333,
      "learning_rate": 0.00024845514160102883,
      "loss": 3.9686,
      "step": 132060
    },
    {
      "epoch": 0.2751458333333333,
      "grad_norm": 0.8046371936798096,
      "learning_rate": 0.0002484477036885835,
      "loss": 4.0082,
      "step": 132070
    },
    {
      "epoch": 0.27516666666666667,
      "grad_norm": 0.8383827805519104,
      "learning_rate": 0.000248440265350883,
      "loss": 4.1276,
      "step": 132080
    },
    {
      "epoch": 0.2751875,
      "grad_norm": 0.7645233273506165,
      "learning_rate": 0.0002484328265879596,
      "loss": 4.0217,
      "step": 132090
    },
    {
      "epoch": 0.27520833333333333,
      "grad_norm": 0.7940070033073425,
      "learning_rate": 0.00024842538739984526,
      "loss": 3.9103,
      "step": 132100
    },
    {
      "epoch": 0.2752291666666667,
      "grad_norm": 0.903278648853302,
      "learning_rate": 0.0002484179477865723,
      "loss": 4.0741,
      "step": 132110
    },
    {
      "epoch": 0.27525,
      "grad_norm": 0.8489399552345276,
      "learning_rate": 0.0002484105077481726,
      "loss": 3.729,
      "step": 132120
    },
    {
      "epoch": 0.27527083333333335,
      "grad_norm": 0.7708497643470764,
      "learning_rate": 0.0002484030672846786,
      "loss": 4.0184,
      "step": 132130
    },
    {
      "epoch": 0.27529166666666666,
      "grad_norm": 0.7616534233093262,
      "learning_rate": 0.00024839562639612225,
      "loss": 4.0399,
      "step": 132140
    },
    {
      "epoch": 0.2753125,
      "grad_norm": 0.7504734992980957,
      "learning_rate": 0.0002483881850825358,
      "loss": 3.8713,
      "step": 132150
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 0.7885465025901794,
      "learning_rate": 0.0002483807433439513,
      "loss": 3.9436,
      "step": 132160
    },
    {
      "epoch": 0.2753541666666667,
      "grad_norm": 0.7624818682670593,
      "learning_rate": 0.00024837330118040096,
      "loss": 4.062,
      "step": 132170
    },
    {
      "epoch": 0.275375,
      "grad_norm": 0.8072961568832397,
      "learning_rate": 0.0002483658585919168,
      "loss": 4.0407,
      "step": 132180
    },
    {
      "epoch": 0.27539583333333334,
      "grad_norm": 0.7493723034858704,
      "learning_rate": 0.0002483584155785312,
      "loss": 4.135,
      "step": 132190
    },
    {
      "epoch": 0.27541666666666664,
      "grad_norm": 0.8031563758850098,
      "learning_rate": 0.0002483509721402761,
      "loss": 4.056,
      "step": 132200
    },
    {
      "epoch": 0.2754375,
      "grad_norm": 0.7745124697685242,
      "learning_rate": 0.0002483435282771837,
      "loss": 3.8069,
      "step": 132210
    },
    {
      "epoch": 0.27545833333333336,
      "grad_norm": 0.8227246403694153,
      "learning_rate": 0.0002483360839892862,
      "loss": 4.0948,
      "step": 132220
    },
    {
      "epoch": 0.27547916666666666,
      "grad_norm": 0.7911821603775024,
      "learning_rate": 0.0002483286392766158,
      "loss": 4.1306,
      "step": 132230
    },
    {
      "epoch": 0.2755,
      "grad_norm": 0.7693709135055542,
      "learning_rate": 0.0002483211941392046,
      "loss": 3.8874,
      "step": 132240
    },
    {
      "epoch": 0.2755208333333333,
      "grad_norm": 0.7682865858078003,
      "learning_rate": 0.00024831374857708466,
      "loss": 4.1427,
      "step": 132250
    },
    {
      "epoch": 0.2755416666666667,
      "grad_norm": 0.9812904596328735,
      "learning_rate": 0.00024830630259028833,
      "loss": 3.9084,
      "step": 132260
    },
    {
      "epoch": 0.2755625,
      "grad_norm": 0.8234575986862183,
      "learning_rate": 0.0002482988561788477,
      "loss": 3.9901,
      "step": 132270
    },
    {
      "epoch": 0.27558333333333335,
      "grad_norm": 0.9499607682228088,
      "learning_rate": 0.0002482914093427949,
      "loss": 4.2832,
      "step": 132280
    },
    {
      "epoch": 0.27560416666666665,
      "grad_norm": 0.9091570973396301,
      "learning_rate": 0.00024828396208216206,
      "loss": 3.9226,
      "step": 132290
    },
    {
      "epoch": 0.275625,
      "grad_norm": 0.7719424962997437,
      "learning_rate": 0.0002482765143969814,
      "loss": 4.0521,
      "step": 132300
    },
    {
      "epoch": 0.2756458333333333,
      "grad_norm": 0.7321567535400391,
      "learning_rate": 0.0002482690662872852,
      "loss": 4.0414,
      "step": 132310
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 0.7664539217948914,
      "learning_rate": 0.00024826161775310545,
      "loss": 3.9497,
      "step": 132320
    },
    {
      "epoch": 0.2756875,
      "grad_norm": 0.777728259563446,
      "learning_rate": 0.00024825416879447444,
      "loss": 3.8979,
      "step": 132330
    },
    {
      "epoch": 0.27570833333333333,
      "grad_norm": 0.7600376605987549,
      "learning_rate": 0.00024824671941142435,
      "loss": 4.1028,
      "step": 132340
    },
    {
      "epoch": 0.2757291666666667,
      "grad_norm": 0.8399658203125,
      "learning_rate": 0.0002482392696039872,
      "loss": 3.931,
      "step": 132350
    },
    {
      "epoch": 0.27575,
      "grad_norm": 0.7482218146324158,
      "learning_rate": 0.00024823181937219543,
      "loss": 4.1684,
      "step": 132360
    },
    {
      "epoch": 0.27577083333333335,
      "grad_norm": 0.816523015499115,
      "learning_rate": 0.00024822436871608096,
      "loss": 3.9434,
      "step": 132370
    },
    {
      "epoch": 0.27579166666666666,
      "grad_norm": 0.8447378873825073,
      "learning_rate": 0.00024821691763567615,
      "loss": 4.0756,
      "step": 132380
    },
    {
      "epoch": 0.2758125,
      "grad_norm": 0.7914061546325684,
      "learning_rate": 0.0002482094661310132,
      "loss": 4.0553,
      "step": 132390
    },
    {
      "epoch": 0.2758333333333333,
      "grad_norm": 0.885261058807373,
      "learning_rate": 0.00024820201420212417,
      "loss": 3.9039,
      "step": 132400
    },
    {
      "epoch": 0.2758541666666667,
      "grad_norm": 0.7401924133300781,
      "learning_rate": 0.0002481945618490413,
      "loss": 4.0717,
      "step": 132410
    },
    {
      "epoch": 0.275875,
      "grad_norm": 0.8842300176620483,
      "learning_rate": 0.0002481871090717968,
      "loss": 3.8671,
      "step": 132420
    },
    {
      "epoch": 0.27589583333333334,
      "grad_norm": 0.7559362649917603,
      "learning_rate": 0.00024817965587042287,
      "loss": 4.1304,
      "step": 132430
    },
    {
      "epoch": 0.27591666666666664,
      "grad_norm": 0.7690955996513367,
      "learning_rate": 0.00024817220224495164,
      "loss": 4.0997,
      "step": 132440
    },
    {
      "epoch": 0.2759375,
      "grad_norm": 0.8000770807266235,
      "learning_rate": 0.0002481647481954154,
      "loss": 3.9907,
      "step": 132450
    },
    {
      "epoch": 0.27595833333333336,
      "grad_norm": 0.8243964314460754,
      "learning_rate": 0.0002481572937218463,
      "loss": 4.0144,
      "step": 132460
    },
    {
      "epoch": 0.27597916666666666,
      "grad_norm": 0.8178988695144653,
      "learning_rate": 0.00024814983882427656,
      "loss": 3.9579,
      "step": 132470
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.8457867503166199,
      "learning_rate": 0.0002481423835027383,
      "loss": 3.9002,
      "step": 132480
    },
    {
      "epoch": 0.2760208333333333,
      "grad_norm": 0.883283793926239,
      "learning_rate": 0.00024813492775726387,
      "loss": 4.1098,
      "step": 132490
    },
    {
      "epoch": 0.2760416666666667,
      "grad_norm": 0.7523382306098938,
      "learning_rate": 0.00024812747158788534,
      "loss": 4.0321,
      "step": 132500
    },
    {
      "epoch": 0.2760625,
      "grad_norm": 0.7561498284339905,
      "learning_rate": 0.00024812001499463504,
      "loss": 4.041,
      "step": 132510
    },
    {
      "epoch": 0.27608333333333335,
      "grad_norm": 0.7731260061264038,
      "learning_rate": 0.00024811255797754507,
      "loss": 4.0173,
      "step": 132520
    },
    {
      "epoch": 0.27610416666666665,
      "grad_norm": 0.7481783628463745,
      "learning_rate": 0.0002481051005366477,
      "loss": 4.0439,
      "step": 132530
    },
    {
      "epoch": 0.276125,
      "grad_norm": 0.8082493543624878,
      "learning_rate": 0.00024809764267197507,
      "loss": 3.9454,
      "step": 132540
    },
    {
      "epoch": 0.2761458333333333,
      "grad_norm": 0.9027502536773682,
      "learning_rate": 0.0002480901843835595,
      "loss": 4.2247,
      "step": 132550
    },
    {
      "epoch": 0.27616666666666667,
      "grad_norm": 0.7559813857078552,
      "learning_rate": 0.00024808272567143316,
      "loss": 3.7704,
      "step": 132560
    },
    {
      "epoch": 0.2761875,
      "grad_norm": 0.7825806736946106,
      "learning_rate": 0.00024807526653562826,
      "loss": 3.8207,
      "step": 132570
    },
    {
      "epoch": 0.27620833333333333,
      "grad_norm": 0.9178905487060547,
      "learning_rate": 0.00024806780697617705,
      "loss": 4.0888,
      "step": 132580
    },
    {
      "epoch": 0.2762291666666667,
      "grad_norm": 0.7620564103126526,
      "learning_rate": 0.0002480603469931117,
      "loss": 4.0318,
      "step": 132590
    },
    {
      "epoch": 0.27625,
      "grad_norm": 0.7796080708503723,
      "learning_rate": 0.00024805288658646447,
      "loss": 3.987,
      "step": 132600
    },
    {
      "epoch": 0.27627083333333335,
      "grad_norm": 0.8046968579292297,
      "learning_rate": 0.0002480454257562676,
      "loss": 3.962,
      "step": 132610
    },
    {
      "epoch": 0.27629166666666666,
      "grad_norm": 0.8875396847724915,
      "learning_rate": 0.0002480379645025533,
      "loss": 4.0865,
      "step": 132620
    },
    {
      "epoch": 0.2763125,
      "grad_norm": 0.9165372252464294,
      "learning_rate": 0.0002480305028253538,
      "loss": 4.0696,
      "step": 132630
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 0.8134318590164185,
      "learning_rate": 0.00024802304072470133,
      "loss": 3.9944,
      "step": 132640
    },
    {
      "epoch": 0.2763541666666667,
      "grad_norm": 0.7703972458839417,
      "learning_rate": 0.00024801557820062814,
      "loss": 4.0511,
      "step": 132650
    },
    {
      "epoch": 0.276375,
      "grad_norm": 0.7556831240653992,
      "learning_rate": 0.0002480081152531664,
      "loss": 4.0677,
      "step": 132660
    },
    {
      "epoch": 0.27639583333333334,
      "grad_norm": 0.9884670972824097,
      "learning_rate": 0.00024800065188234846,
      "loss": 4.0217,
      "step": 132670
    },
    {
      "epoch": 0.27641666666666664,
      "grad_norm": 0.7350242137908936,
      "learning_rate": 0.0002479931880882064,
      "loss": 3.9929,
      "step": 132680
    },
    {
      "epoch": 0.2764375,
      "grad_norm": 0.8307384252548218,
      "learning_rate": 0.00024798572387077267,
      "loss": 3.7415,
      "step": 132690
    },
    {
      "epoch": 0.2764583333333333,
      "grad_norm": 0.7514827847480774,
      "learning_rate": 0.0002479782592300794,
      "loss": 4.2209,
      "step": 132700
    },
    {
      "epoch": 0.27647916666666666,
      "grad_norm": 0.7367793321609497,
      "learning_rate": 0.0002479707941661587,
      "loss": 4.1261,
      "step": 132710
    },
    {
      "epoch": 0.2765,
      "grad_norm": 0.7800599932670593,
      "learning_rate": 0.00024796332867904305,
      "loss": 4.0744,
      "step": 132720
    },
    {
      "epoch": 0.2765208333333333,
      "grad_norm": 0.8175942301750183,
      "learning_rate": 0.0002479558627687646,
      "loss": 3.9776,
      "step": 132730
    },
    {
      "epoch": 0.2765416666666667,
      "grad_norm": 0.8268991708755493,
      "learning_rate": 0.0002479483964353555,
      "loss": 4.1426,
      "step": 132740
    },
    {
      "epoch": 0.2765625,
      "grad_norm": 0.8888635635375977,
      "learning_rate": 0.00024794092967884816,
      "loss": 4.0175,
      "step": 132750
    },
    {
      "epoch": 0.27658333333333335,
      "grad_norm": 1.230070948600769,
      "learning_rate": 0.0002479334624992748,
      "loss": 4.0017,
      "step": 132760
    },
    {
      "epoch": 0.27660416666666665,
      "grad_norm": 0.8670387268066406,
      "learning_rate": 0.0002479259948966677,
      "loss": 3.8949,
      "step": 132770
    },
    {
      "epoch": 0.276625,
      "grad_norm": 0.730909526348114,
      "learning_rate": 0.00024791852687105895,
      "loss": 3.946,
      "step": 132780
    },
    {
      "epoch": 0.2766458333333333,
      "grad_norm": 0.7228635549545288,
      "learning_rate": 0.00024791105842248096,
      "loss": 4.1544,
      "step": 132790
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 0.8579275608062744,
      "learning_rate": 0.00024790358955096594,
      "loss": 4.07,
      "step": 132800
    },
    {
      "epoch": 0.2766875,
      "grad_norm": 0.8294420838356018,
      "learning_rate": 0.0002478961202565462,
      "loss": 4.0588,
      "step": 132810
    },
    {
      "epoch": 0.27670833333333333,
      "grad_norm": 0.7774063348770142,
      "learning_rate": 0.00024788865053925396,
      "loss": 3.9516,
      "step": 132820
    },
    {
      "epoch": 0.2767291666666667,
      "grad_norm": 0.8520944118499756,
      "learning_rate": 0.00024788118039912146,
      "loss": 3.8464,
      "step": 132830
    },
    {
      "epoch": 0.27675,
      "grad_norm": 0.7726647257804871,
      "learning_rate": 0.00024787370983618106,
      "loss": 3.7106,
      "step": 132840
    },
    {
      "epoch": 0.27677083333333335,
      "grad_norm": 0.8742828965187073,
      "learning_rate": 0.0002478662388504649,
      "loss": 4.017,
      "step": 132850
    },
    {
      "epoch": 0.27679166666666666,
      "grad_norm": 0.8444302082061768,
      "learning_rate": 0.0002478587674420054,
      "loss": 3.9143,
      "step": 132860
    },
    {
      "epoch": 0.2768125,
      "grad_norm": 0.7399932146072388,
      "learning_rate": 0.00024785129561083474,
      "loss": 3.7459,
      "step": 132870
    },
    {
      "epoch": 0.2768333333333333,
      "grad_norm": 0.7305313348770142,
      "learning_rate": 0.0002478438233569852,
      "loss": 4.2895,
      "step": 132880
    },
    {
      "epoch": 0.2768541666666667,
      "grad_norm": 0.7837544679641724,
      "learning_rate": 0.00024783635068048907,
      "loss": 3.9385,
      "step": 132890
    },
    {
      "epoch": 0.276875,
      "grad_norm": 0.7974935173988342,
      "learning_rate": 0.0002478288775813787,
      "loss": 3.8613,
      "step": 132900
    },
    {
      "epoch": 0.27689583333333334,
      "grad_norm": 0.7895301580429077,
      "learning_rate": 0.0002478214040596862,
      "loss": 3.9998,
      "step": 132910
    },
    {
      "epoch": 0.27691666666666664,
      "grad_norm": 0.8093658089637756,
      "learning_rate": 0.000247813930115444,
      "loss": 4.0212,
      "step": 132920
    },
    {
      "epoch": 0.2769375,
      "grad_norm": 0.8117939233779907,
      "learning_rate": 0.0002478064557486844,
      "loss": 4.0293,
      "step": 132930
    },
    {
      "epoch": 0.2769583333333333,
      "grad_norm": 0.7116238474845886,
      "learning_rate": 0.0002477989809594395,
      "loss": 3.9001,
      "step": 132940
    },
    {
      "epoch": 0.27697916666666667,
      "grad_norm": 0.785553514957428,
      "learning_rate": 0.00024779150574774184,
      "loss": 3.9348,
      "step": 132950
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.8207831382751465,
      "learning_rate": 0.0002477840301136235,
      "loss": 4.0779,
      "step": 132960
    },
    {
      "epoch": 0.2770208333333333,
      "grad_norm": 0.821821928024292,
      "learning_rate": 0.00024777655405711687,
      "loss": 4.051,
      "step": 132970
    },
    {
      "epoch": 0.2770416666666667,
      "grad_norm": 0.77125084400177,
      "learning_rate": 0.00024776907757825426,
      "loss": 3.8649,
      "step": 132980
    },
    {
      "epoch": 0.2770625,
      "grad_norm": 0.7973482012748718,
      "learning_rate": 0.0002477616006770679,
      "loss": 3.9986,
      "step": 132990
    },
    {
      "epoch": 0.27708333333333335,
      "grad_norm": 0.7548089623451233,
      "learning_rate": 0.00024775412335359013,
      "loss": 4.1319,
      "step": 133000
    },
    {
      "epoch": 0.27708333333333335,
      "eval_loss": 3.7490973472595215,
      "eval_runtime": 7.2021,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.417,
      "step": 133000
    },
    {
      "epoch": 0.27710416666666665,
      "grad_norm": 1.0014508962631226,
      "learning_rate": 0.0002477466456078532,
      "loss": 4.0528,
      "step": 133010
    },
    {
      "epoch": 0.277125,
      "grad_norm": 0.7532063722610474,
      "learning_rate": 0.00024773916743988956,
      "loss": 3.9686,
      "step": 133020
    },
    {
      "epoch": 0.2771458333333333,
      "grad_norm": 0.747068464756012,
      "learning_rate": 0.00024773168884973133,
      "loss": 4.1348,
      "step": 133030
    },
    {
      "epoch": 0.2771666666666667,
      "grad_norm": 0.7147126793861389,
      "learning_rate": 0.0002477242098374109,
      "loss": 4.2152,
      "step": 133040
    },
    {
      "epoch": 0.2771875,
      "grad_norm": 0.8181217312812805,
      "learning_rate": 0.00024771673040296054,
      "loss": 3.9718,
      "step": 133050
    },
    {
      "epoch": 0.27720833333333333,
      "grad_norm": 0.7840127944946289,
      "learning_rate": 0.0002477092505464126,
      "loss": 4.2064,
      "step": 133060
    },
    {
      "epoch": 0.2772291666666667,
      "grad_norm": 0.8975858092308044,
      "learning_rate": 0.00024770177026779943,
      "loss": 4.1134,
      "step": 133070
    },
    {
      "epoch": 0.27725,
      "grad_norm": 0.7736570239067078,
      "learning_rate": 0.0002476942895671532,
      "loss": 4.0106,
      "step": 133080
    },
    {
      "epoch": 0.27727083333333336,
      "grad_norm": 0.8247019052505493,
      "learning_rate": 0.0002476868084445064,
      "loss": 4.0502,
      "step": 133090
    },
    {
      "epoch": 0.27729166666666666,
      "grad_norm": 0.770000159740448,
      "learning_rate": 0.00024767932689989116,
      "loss": 4.2056,
      "step": 133100
    },
    {
      "epoch": 0.2773125,
      "grad_norm": 0.8139012455940247,
      "learning_rate": 0.00024767184493333996,
      "loss": 3.9544,
      "step": 133110
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 0.7740980386734009,
      "learning_rate": 0.00024766436254488504,
      "loss": 4.0268,
      "step": 133120
    },
    {
      "epoch": 0.2773541666666667,
      "grad_norm": 0.8139841556549072,
      "learning_rate": 0.0002476568797345587,
      "loss": 3.7901,
      "step": 133130
    },
    {
      "epoch": 0.277375,
      "grad_norm": 0.939379870891571,
      "learning_rate": 0.0002476493965023933,
      "loss": 4.2558,
      "step": 133140
    },
    {
      "epoch": 0.27739583333333334,
      "grad_norm": 0.8193020224571228,
      "learning_rate": 0.0002476419128484212,
      "loss": 4.0175,
      "step": 133150
    },
    {
      "epoch": 0.27741666666666664,
      "grad_norm": 0.8351485729217529,
      "learning_rate": 0.00024763442877267464,
      "loss": 4.1216,
      "step": 133160
    },
    {
      "epoch": 0.2774375,
      "grad_norm": 0.8244662284851074,
      "learning_rate": 0.000247626944275186,
      "loss": 4.0873,
      "step": 133170
    },
    {
      "epoch": 0.2774583333333333,
      "grad_norm": 0.8662253618240356,
      "learning_rate": 0.00024761945935598763,
      "loss": 3.9487,
      "step": 133180
    },
    {
      "epoch": 0.27747916666666667,
      "grad_norm": 0.7241180539131165,
      "learning_rate": 0.00024761197401511185,
      "loss": 3.9126,
      "step": 133190
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.7773391604423523,
      "learning_rate": 0.00024760448825259093,
      "loss": 3.9781,
      "step": 133200
    },
    {
      "epoch": 0.2775208333333333,
      "grad_norm": 0.7807222008705139,
      "learning_rate": 0.0002475970020684573,
      "loss": 4.0406,
      "step": 133210
    },
    {
      "epoch": 0.2775416666666667,
      "grad_norm": 0.7660385966300964,
      "learning_rate": 0.0002475895154627432,
      "loss": 4.0791,
      "step": 133220
    },
    {
      "epoch": 0.2775625,
      "grad_norm": 0.7990934252738953,
      "learning_rate": 0.00024758202843548106,
      "loss": 4.2242,
      "step": 133230
    },
    {
      "epoch": 0.27758333333333335,
      "grad_norm": 1.0111578702926636,
      "learning_rate": 0.00024757454098670316,
      "loss": 3.9803,
      "step": 133240
    },
    {
      "epoch": 0.27760416666666665,
      "grad_norm": 0.7173582315444946,
      "learning_rate": 0.0002475670531164419,
      "loss": 4.1072,
      "step": 133250
    },
    {
      "epoch": 0.277625,
      "grad_norm": 0.7775735259056091,
      "learning_rate": 0.00024755956482472953,
      "loss": 4.0422,
      "step": 133260
    },
    {
      "epoch": 0.2776458333333333,
      "grad_norm": 0.8491412401199341,
      "learning_rate": 0.00024755207611159853,
      "loss": 3.8881,
      "step": 133270
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 0.8951030969619751,
      "learning_rate": 0.00024754458697708113,
      "loss": 4.0501,
      "step": 133280
    },
    {
      "epoch": 0.2776875,
      "grad_norm": 0.8200386166572571,
      "learning_rate": 0.00024753709742120976,
      "loss": 4.0358,
      "step": 133290
    },
    {
      "epoch": 0.27770833333333333,
      "grad_norm": 0.9327216148376465,
      "learning_rate": 0.0002475296074440167,
      "loss": 4.0766,
      "step": 133300
    },
    {
      "epoch": 0.2777291666666667,
      "grad_norm": 0.8332808613777161,
      "learning_rate": 0.00024752211704553436,
      "loss": 4.083,
      "step": 133310
    },
    {
      "epoch": 0.27775,
      "grad_norm": 0.7737542986869812,
      "learning_rate": 0.00024751462622579507,
      "loss": 3.9488,
      "step": 133320
    },
    {
      "epoch": 0.27777083333333336,
      "grad_norm": 0.8855636119842529,
      "learning_rate": 0.0002475071349848312,
      "loss": 4.1214,
      "step": 133330
    },
    {
      "epoch": 0.27779166666666666,
      "grad_norm": 0.9814828038215637,
      "learning_rate": 0.0002474996433226751,
      "loss": 3.9269,
      "step": 133340
    },
    {
      "epoch": 0.2778125,
      "grad_norm": 0.9439219832420349,
      "learning_rate": 0.0002474921512393591,
      "loss": 3.9261,
      "step": 133350
    },
    {
      "epoch": 0.2778333333333333,
      "grad_norm": 0.9045302271842957,
      "learning_rate": 0.0002474846587349157,
      "loss": 4.0497,
      "step": 133360
    },
    {
      "epoch": 0.2778541666666667,
      "grad_norm": 0.8839397430419922,
      "learning_rate": 0.00024747716580937704,
      "loss": 3.9075,
      "step": 133370
    },
    {
      "epoch": 0.277875,
      "grad_norm": 0.7718191742897034,
      "learning_rate": 0.0002474696724627757,
      "loss": 3.8949,
      "step": 133380
    },
    {
      "epoch": 0.27789583333333334,
      "grad_norm": 0.78740394115448,
      "learning_rate": 0.00024746217869514386,
      "loss": 4.0318,
      "step": 133390
    },
    {
      "epoch": 0.27791666666666665,
      "grad_norm": 0.777766227722168,
      "learning_rate": 0.00024745468450651406,
      "loss": 3.9523,
      "step": 133400
    },
    {
      "epoch": 0.2779375,
      "grad_norm": 0.8245488405227661,
      "learning_rate": 0.0002474471898969186,
      "loss": 4.039,
      "step": 133410
    },
    {
      "epoch": 0.2779583333333333,
      "grad_norm": 0.7240626215934753,
      "learning_rate": 0.0002474396948663898,
      "loss": 3.9507,
      "step": 133420
    },
    {
      "epoch": 0.27797916666666667,
      "grad_norm": 1.0390944480895996,
      "learning_rate": 0.00024743219941496014,
      "loss": 3.9528,
      "step": 133430
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.7345932722091675,
      "learning_rate": 0.00024742470354266195,
      "loss": 3.9091,
      "step": 133440
    },
    {
      "epoch": 0.27802083333333333,
      "grad_norm": 0.8462480306625366,
      "learning_rate": 0.0002474172072495275,
      "loss": 3.9042,
      "step": 133450
    },
    {
      "epoch": 0.2780416666666667,
      "grad_norm": 0.7605120539665222,
      "learning_rate": 0.0002474097105355894,
      "loss": 3.734,
      "step": 133460
    },
    {
      "epoch": 0.2780625,
      "grad_norm": 0.9093947410583496,
      "learning_rate": 0.00024740221340087984,
      "loss": 3.9697,
      "step": 133470
    },
    {
      "epoch": 0.27808333333333335,
      "grad_norm": 0.7520751953125,
      "learning_rate": 0.0002473947158454313,
      "loss": 3.9636,
      "step": 133480
    },
    {
      "epoch": 0.27810416666666665,
      "grad_norm": 0.7732055187225342,
      "learning_rate": 0.0002473872178692761,
      "loss": 4.0289,
      "step": 133490
    },
    {
      "epoch": 0.278125,
      "grad_norm": 0.7590450644493103,
      "learning_rate": 0.0002473797194724467,
      "loss": 3.9709,
      "step": 133500
    },
    {
      "epoch": 0.2781458333333333,
      "grad_norm": 0.7049773931503296,
      "learning_rate": 0.0002473722206549755,
      "loss": 4.0593,
      "step": 133510
    },
    {
      "epoch": 0.2781666666666667,
      "grad_norm": 0.8131006956100464,
      "learning_rate": 0.0002473647214168948,
      "loss": 3.8891,
      "step": 133520
    },
    {
      "epoch": 0.2781875,
      "grad_norm": 0.8015790581703186,
      "learning_rate": 0.000247357221758237,
      "loss": 4.0488,
      "step": 133530
    },
    {
      "epoch": 0.27820833333333334,
      "grad_norm": 0.7985982298851013,
      "learning_rate": 0.0002473497216790346,
      "loss": 4.0633,
      "step": 133540
    },
    {
      "epoch": 0.2782291666666667,
      "grad_norm": 0.7520233988761902,
      "learning_rate": 0.0002473422211793199,
      "loss": 4.1461,
      "step": 133550
    },
    {
      "epoch": 0.27825,
      "grad_norm": 0.732484757900238,
      "learning_rate": 0.00024733472025912544,
      "loss": 4.0524,
      "step": 133560
    },
    {
      "epoch": 0.27827083333333336,
      "grad_norm": 0.7438877820968628,
      "learning_rate": 0.0002473272189184834,
      "loss": 3.92,
      "step": 133570
    },
    {
      "epoch": 0.27829166666666666,
      "grad_norm": 0.7208195924758911,
      "learning_rate": 0.00024731971715742635,
      "loss": 4.108,
      "step": 133580
    },
    {
      "epoch": 0.2783125,
      "grad_norm": 0.8115361332893372,
      "learning_rate": 0.00024731221497598663,
      "loss": 3.996,
      "step": 133590
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 0.8427680134773254,
      "learning_rate": 0.00024730471237419664,
      "loss": 4.1517,
      "step": 133600
    },
    {
      "epoch": 0.2783541666666667,
      "grad_norm": 0.8007957935333252,
      "learning_rate": 0.00024729720935208883,
      "loss": 4.1097,
      "step": 133610
    },
    {
      "epoch": 0.278375,
      "grad_norm": 0.8668782114982605,
      "learning_rate": 0.00024728970590969554,
      "loss": 3.8888,
      "step": 133620
    },
    {
      "epoch": 0.27839583333333334,
      "grad_norm": 0.7339514493942261,
      "learning_rate": 0.0002472822020470493,
      "loss": 4.0677,
      "step": 133630
    },
    {
      "epoch": 0.27841666666666665,
      "grad_norm": 0.8861184120178223,
      "learning_rate": 0.00024727469776418244,
      "loss": 4.0229,
      "step": 133640
    },
    {
      "epoch": 0.2784375,
      "grad_norm": 0.773745059967041,
      "learning_rate": 0.0002472671930611274,
      "loss": 4.067,
      "step": 133650
    },
    {
      "epoch": 0.2784583333333333,
      "grad_norm": 0.7591724395751953,
      "learning_rate": 0.00024725968793791654,
      "loss": 3.9568,
      "step": 133660
    },
    {
      "epoch": 0.27847916666666667,
      "grad_norm": 0.7636973857879639,
      "learning_rate": 0.0002472521823945824,
      "loss": 4.0021,
      "step": 133670
    },
    {
      "epoch": 0.2785,
      "grad_norm": 0.7706246972084045,
      "learning_rate": 0.0002472446764311572,
      "loss": 3.9736,
      "step": 133680
    },
    {
      "epoch": 0.27852083333333333,
      "grad_norm": 0.8056407570838928,
      "learning_rate": 0.0002472371700476736,
      "loss": 4.1168,
      "step": 133690
    },
    {
      "epoch": 0.2785416666666667,
      "grad_norm": 0.71657794713974,
      "learning_rate": 0.00024722966324416387,
      "loss": 3.8981,
      "step": 133700
    },
    {
      "epoch": 0.2785625,
      "grad_norm": 0.7978314161300659,
      "learning_rate": 0.00024722215602066054,
      "loss": 4.1434,
      "step": 133710
    },
    {
      "epoch": 0.27858333333333335,
      "grad_norm": 0.914546012878418,
      "learning_rate": 0.0002472146483771959,
      "loss": 3.9493,
      "step": 133720
    },
    {
      "epoch": 0.27860416666666665,
      "grad_norm": 0.7608622312545776,
      "learning_rate": 0.0002472071403138025,
      "loss": 4.1801,
      "step": 133730
    },
    {
      "epoch": 0.278625,
      "grad_norm": 0.9224978685379028,
      "learning_rate": 0.00024719963183051274,
      "loss": 3.9671,
      "step": 133740
    },
    {
      "epoch": 0.2786458333333333,
      "grad_norm": 0.7709318995475769,
      "learning_rate": 0.000247192122927359,
      "loss": 4.1075,
      "step": 133750
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 0.8700380921363831,
      "learning_rate": 0.0002471846136043738,
      "loss": 4.1049,
      "step": 133760
    },
    {
      "epoch": 0.2786875,
      "grad_norm": 1.0531617403030396,
      "learning_rate": 0.00024717710386158953,
      "loss": 4.0377,
      "step": 133770
    },
    {
      "epoch": 0.27870833333333334,
      "grad_norm": 0.9006036520004272,
      "learning_rate": 0.00024716959369903865,
      "loss": 4.0531,
      "step": 133780
    },
    {
      "epoch": 0.27872916666666664,
      "grad_norm": 1.0517204999923706,
      "learning_rate": 0.00024716208311675354,
      "loss": 3.9598,
      "step": 133790
    },
    {
      "epoch": 0.27875,
      "grad_norm": 0.7886443734169006,
      "learning_rate": 0.0002471545721147667,
      "loss": 4.0277,
      "step": 133800
    },
    {
      "epoch": 0.27877083333333336,
      "grad_norm": 0.7255851626396179,
      "learning_rate": 0.0002471470606931106,
      "loss": 4.0736,
      "step": 133810
    },
    {
      "epoch": 0.27879166666666666,
      "grad_norm": 0.8247942924499512,
      "learning_rate": 0.0002471395488518177,
      "loss": 4.096,
      "step": 133820
    },
    {
      "epoch": 0.2788125,
      "grad_norm": 0.8065759539604187,
      "learning_rate": 0.0002471320365909203,
      "loss": 4.0857,
      "step": 133830
    },
    {
      "epoch": 0.2788333333333333,
      "grad_norm": 0.7339897751808167,
      "learning_rate": 0.000247124523910451,
      "loss": 4.1829,
      "step": 133840
    },
    {
      "epoch": 0.2788541666666667,
      "grad_norm": 0.933877170085907,
      "learning_rate": 0.0002471170108104422,
      "loss": 3.9571,
      "step": 133850
    },
    {
      "epoch": 0.278875,
      "grad_norm": 0.8708451986312866,
      "learning_rate": 0.0002471094972909263,
      "loss": 4.0121,
      "step": 133860
    },
    {
      "epoch": 0.27889583333333334,
      "grad_norm": 0.8053289651870728,
      "learning_rate": 0.00024710198335193585,
      "loss": 3.8982,
      "step": 133870
    },
    {
      "epoch": 0.27891666666666665,
      "grad_norm": 0.8445805907249451,
      "learning_rate": 0.00024709446899350327,
      "loss": 4.1124,
      "step": 133880
    },
    {
      "epoch": 0.2789375,
      "grad_norm": 0.8169093728065491,
      "learning_rate": 0.00024708695421566106,
      "loss": 3.9625,
      "step": 133890
    },
    {
      "epoch": 0.2789583333333333,
      "grad_norm": 0.850676953792572,
      "learning_rate": 0.00024707943901844154,
      "loss": 4.0739,
      "step": 133900
    },
    {
      "epoch": 0.27897916666666667,
      "grad_norm": 0.8032885789871216,
      "learning_rate": 0.0002470719234018774,
      "loss": 4.1296,
      "step": 133910
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.7508594989776611,
      "learning_rate": 0.0002470644073660008,
      "loss": 4.0555,
      "step": 133920
    },
    {
      "epoch": 0.27902083333333333,
      "grad_norm": 0.8062545657157898,
      "learning_rate": 0.00024705689091084456,
      "loss": 4.048,
      "step": 133930
    },
    {
      "epoch": 0.2790416666666667,
      "grad_norm": 0.7865246534347534,
      "learning_rate": 0.00024704937403644087,
      "loss": 4.0115,
      "step": 133940
    },
    {
      "epoch": 0.2790625,
      "grad_norm": 0.9156803488731384,
      "learning_rate": 0.0002470418567428223,
      "loss": 4.1268,
      "step": 133950
    },
    {
      "epoch": 0.27908333333333335,
      "grad_norm": 0.7945788502693176,
      "learning_rate": 0.0002470343390300214,
      "loss": 4.0516,
      "step": 133960
    },
    {
      "epoch": 0.27910416666666665,
      "grad_norm": 0.7886416912078857,
      "learning_rate": 0.00024702682089807046,
      "loss": 3.8647,
      "step": 133970
    },
    {
      "epoch": 0.279125,
      "grad_norm": 0.9047646522521973,
      "learning_rate": 0.0002470193023470021,
      "loss": 4.1104,
      "step": 133980
    },
    {
      "epoch": 0.2791458333333333,
      "grad_norm": 0.9153161644935608,
      "learning_rate": 0.00024701178337684874,
      "loss": 4.0734,
      "step": 133990
    },
    {
      "epoch": 0.2791666666666667,
      "grad_norm": 0.8172070384025574,
      "learning_rate": 0.00024700426398764294,
      "loss": 4.3493,
      "step": 134000
    },
    {
      "epoch": 0.2791666666666667,
      "eval_loss": 3.748357057571411,
      "eval_runtime": 7.2012,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 134000
    },
    {
      "epoch": 0.2791875,
      "grad_norm": 0.796462893486023,
      "learning_rate": 0.00024699674417941707,
      "loss": 4.0146,
      "step": 134010
    },
    {
      "epoch": 0.27920833333333334,
      "grad_norm": 0.7974790930747986,
      "learning_rate": 0.00024698922395220365,
      "loss": 3.9534,
      "step": 134020
    },
    {
      "epoch": 0.27922916666666664,
      "grad_norm": 0.8792260885238647,
      "learning_rate": 0.00024698170330603517,
      "loss": 3.879,
      "step": 134030
    },
    {
      "epoch": 0.27925,
      "grad_norm": 0.787735104560852,
      "learning_rate": 0.00024697418224094413,
      "loss": 4.0256,
      "step": 134040
    },
    {
      "epoch": 0.27927083333333336,
      "grad_norm": 0.9742885231971741,
      "learning_rate": 0.000246966660756963,
      "loss": 3.9872,
      "step": 134050
    },
    {
      "epoch": 0.27929166666666666,
      "grad_norm": 0.7837077379226685,
      "learning_rate": 0.0002469591388541243,
      "loss": 4.0672,
      "step": 134060
    },
    {
      "epoch": 0.2793125,
      "grad_norm": 0.7202029824256897,
      "learning_rate": 0.0002469516165324605,
      "loss": 4.1414,
      "step": 134070
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 0.8224299550056458,
      "learning_rate": 0.0002469440937920041,
      "loss": 3.9745,
      "step": 134080
    },
    {
      "epoch": 0.2793541666666667,
      "grad_norm": 0.841160774230957,
      "learning_rate": 0.00024693657063278756,
      "loss": 4.0879,
      "step": 134090
    },
    {
      "epoch": 0.279375,
      "grad_norm": 0.8451654314994812,
      "learning_rate": 0.00024692904705484343,
      "loss": 4.037,
      "step": 134100
    },
    {
      "epoch": 0.27939583333333334,
      "grad_norm": 0.8394226431846619,
      "learning_rate": 0.00024692152305820416,
      "loss": 3.9851,
      "step": 134110
    },
    {
      "epoch": 0.27941666666666665,
      "grad_norm": 0.8189189434051514,
      "learning_rate": 0.00024691399864290223,
      "loss": 3.9826,
      "step": 134120
    },
    {
      "epoch": 0.2794375,
      "grad_norm": 0.786797046661377,
      "learning_rate": 0.00024690647380897027,
      "loss": 3.9452,
      "step": 134130
    },
    {
      "epoch": 0.2794583333333333,
      "grad_norm": 0.7613812685012817,
      "learning_rate": 0.0002468989485564407,
      "loss": 3.9108,
      "step": 134140
    },
    {
      "epoch": 0.27947916666666667,
      "grad_norm": 0.7761280536651611,
      "learning_rate": 0.000246891422885346,
      "loss": 3.74,
      "step": 134150
    },
    {
      "epoch": 0.2795,
      "grad_norm": 0.7456486821174622,
      "learning_rate": 0.0002468838967957187,
      "loss": 4.1325,
      "step": 134160
    },
    {
      "epoch": 0.27952083333333333,
      "grad_norm": 0.8310166597366333,
      "learning_rate": 0.0002468763702875913,
      "loss": 4.0643,
      "step": 134170
    },
    {
      "epoch": 0.2795416666666667,
      "grad_norm": 0.8221864104270935,
      "learning_rate": 0.00024686884336099635,
      "loss": 3.9827,
      "step": 134180
    },
    {
      "epoch": 0.2795625,
      "grad_norm": 0.8212599754333496,
      "learning_rate": 0.00024686131601596635,
      "loss": 4.116,
      "step": 134190
    },
    {
      "epoch": 0.27958333333333335,
      "grad_norm": 0.8676947951316833,
      "learning_rate": 0.0002468537882525338,
      "loss": 4.0931,
      "step": 134200
    },
    {
      "epoch": 0.27960416666666665,
      "grad_norm": 0.7230297327041626,
      "learning_rate": 0.0002468462600707312,
      "loss": 4.1075,
      "step": 134210
    },
    {
      "epoch": 0.279625,
      "grad_norm": 0.7739323377609253,
      "learning_rate": 0.0002468387314705911,
      "loss": 4.0559,
      "step": 134220
    },
    {
      "epoch": 0.2796458333333333,
      "grad_norm": 0.7728137373924255,
      "learning_rate": 0.000246831202452146,
      "loss": 3.9405,
      "step": 134230
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 0.7422532439231873,
      "learning_rate": 0.00024682367301542845,
      "loss": 4.0881,
      "step": 134240
    },
    {
      "epoch": 0.2796875,
      "grad_norm": 0.79004967212677,
      "learning_rate": 0.00024681614316047096,
      "loss": 3.9076,
      "step": 134250
    },
    {
      "epoch": 0.27970833333333334,
      "grad_norm": 0.9602970480918884,
      "learning_rate": 0.00024680861288730606,
      "loss": 3.9339,
      "step": 134260
    },
    {
      "epoch": 0.27972916666666664,
      "grad_norm": 0.9046494960784912,
      "learning_rate": 0.0002468010821959663,
      "loss": 4.0967,
      "step": 134270
    },
    {
      "epoch": 0.27975,
      "grad_norm": 3.2025437355041504,
      "learning_rate": 0.0002467935510864841,
      "loss": 4.0416,
      "step": 134280
    },
    {
      "epoch": 0.27977083333333336,
      "grad_norm": 0.8050827383995056,
      "learning_rate": 0.00024678601955889214,
      "loss": 4.1146,
      "step": 134290
    },
    {
      "epoch": 0.27979166666666666,
      "grad_norm": 0.8481817245483398,
      "learning_rate": 0.00024677848761322287,
      "loss": 4.0747,
      "step": 134300
    },
    {
      "epoch": 0.2798125,
      "grad_norm": 0.7817919850349426,
      "learning_rate": 0.00024677095524950883,
      "loss": 3.827,
      "step": 134310
    },
    {
      "epoch": 0.2798333333333333,
      "grad_norm": 0.7642556428909302,
      "learning_rate": 0.00024676342246778254,
      "loss": 4.1726,
      "step": 134320
    },
    {
      "epoch": 0.2798541666666667,
      "grad_norm": 0.7157268524169922,
      "learning_rate": 0.00024675588926807663,
      "loss": 3.8368,
      "step": 134330
    },
    {
      "epoch": 0.279875,
      "grad_norm": 0.7431726455688477,
      "learning_rate": 0.00024674835565042353,
      "loss": 4.1566,
      "step": 134340
    },
    {
      "epoch": 0.27989583333333334,
      "grad_norm": 0.7806256413459778,
      "learning_rate": 0.00024674082161485586,
      "loss": 4.0172,
      "step": 134350
    },
    {
      "epoch": 0.27991666666666665,
      "grad_norm": 0.9650753736495972,
      "learning_rate": 0.0002467332871614061,
      "loss": 4.0245,
      "step": 134360
    },
    {
      "epoch": 0.2799375,
      "grad_norm": 0.7878400087356567,
      "learning_rate": 0.0002467257522901069,
      "loss": 4.0033,
      "step": 134370
    },
    {
      "epoch": 0.2799583333333333,
      "grad_norm": 0.7424339652061462,
      "learning_rate": 0.00024671821700099063,
      "loss": 4.1119,
      "step": 134380
    },
    {
      "epoch": 0.27997916666666667,
      "grad_norm": 1.021979808807373,
      "learning_rate": 0.00024671068129409,
      "loss": 4.0835,
      "step": 134390
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8476910591125488,
      "learning_rate": 0.00024670314516943753,
      "loss": 3.8185,
      "step": 134400
    },
    {
      "epoch": 0.28002083333333333,
      "grad_norm": 0.7895089387893677,
      "learning_rate": 0.00024669560862706575,
      "loss": 3.9256,
      "step": 134410
    },
    {
      "epoch": 0.2800416666666667,
      "grad_norm": 0.8000335097312927,
      "learning_rate": 0.0002466880716670072,
      "loss": 3.9938,
      "step": 134420
    },
    {
      "epoch": 0.2800625,
      "grad_norm": 0.8210806250572205,
      "learning_rate": 0.00024668053428929444,
      "loss": 3.9478,
      "step": 134430
    },
    {
      "epoch": 0.28008333333333335,
      "grad_norm": 0.8767951130867004,
      "learning_rate": 0.00024667299649396,
      "loss": 3.8485,
      "step": 134440
    },
    {
      "epoch": 0.28010416666666665,
      "grad_norm": 0.7374684810638428,
      "learning_rate": 0.0002466654582810365,
      "loss": 4.0256,
      "step": 134450
    },
    {
      "epoch": 0.280125,
      "grad_norm": 0.8454920649528503,
      "learning_rate": 0.00024665791965055656,
      "loss": 3.9813,
      "step": 134460
    },
    {
      "epoch": 0.2801458333333333,
      "grad_norm": 0.7631306648254395,
      "learning_rate": 0.0002466503806025526,
      "loss": 4.0905,
      "step": 134470
    },
    {
      "epoch": 0.2801666666666667,
      "grad_norm": 0.8161830902099609,
      "learning_rate": 0.0002466428411370573,
      "loss": 4.0571,
      "step": 134480
    },
    {
      "epoch": 0.2801875,
      "grad_norm": 1.002795696258545,
      "learning_rate": 0.00024663530125410314,
      "loss": 4.0939,
      "step": 134490
    },
    {
      "epoch": 0.28020833333333334,
      "grad_norm": 0.7969799637794495,
      "learning_rate": 0.00024662776095372275,
      "loss": 4.0207,
      "step": 134500
    },
    {
      "epoch": 0.28022916666666664,
      "grad_norm": 0.7257855534553528,
      "learning_rate": 0.0002466202202359487,
      "loss": 3.9197,
      "step": 134510
    },
    {
      "epoch": 0.28025,
      "grad_norm": 0.7418980598449707,
      "learning_rate": 0.00024661267910081346,
      "loss": 3.9853,
      "step": 134520
    },
    {
      "epoch": 0.28027083333333336,
      "grad_norm": 0.7968229651451111,
      "learning_rate": 0.00024660513754834983,
      "loss": 3.9607,
      "step": 134530
    },
    {
      "epoch": 0.28029166666666666,
      "grad_norm": 0.7149882912635803,
      "learning_rate": 0.00024659759557859006,
      "loss": 3.9656,
      "step": 134540
    },
    {
      "epoch": 0.2803125,
      "grad_norm": 0.8968853950500488,
      "learning_rate": 0.00024659005319156707,
      "loss": 4.0524,
      "step": 134550
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 0.7937299013137817,
      "learning_rate": 0.0002465825103873132,
      "loss": 3.9862,
      "step": 134560
    },
    {
      "epoch": 0.2803541666666667,
      "grad_norm": 0.858284056186676,
      "learning_rate": 0.0002465749671658612,
      "loss": 3.8228,
      "step": 134570
    },
    {
      "epoch": 0.280375,
      "grad_norm": 0.7629925608634949,
      "learning_rate": 0.00024656742352724344,
      "loss": 3.9483,
      "step": 134580
    },
    {
      "epoch": 0.28039583333333334,
      "grad_norm": 0.8421201705932617,
      "learning_rate": 0.00024655987947149274,
      "loss": 3.7979,
      "step": 134590
    },
    {
      "epoch": 0.28041666666666665,
      "grad_norm": 0.7842351794242859,
      "learning_rate": 0.0002465523349986415,
      "loss": 3.9334,
      "step": 134600
    },
    {
      "epoch": 0.2804375,
      "grad_norm": 0.7555261850357056,
      "learning_rate": 0.0002465447901087225,
      "loss": 4.1721,
      "step": 134610
    },
    {
      "epoch": 0.2804583333333333,
      "grad_norm": 0.7897291779518127,
      "learning_rate": 0.0002465372448017681,
      "loss": 4.0559,
      "step": 134620
    },
    {
      "epoch": 0.28047916666666667,
      "grad_norm": 0.7740300297737122,
      "learning_rate": 0.0002465296990778111,
      "loss": 3.9239,
      "step": 134630
    },
    {
      "epoch": 0.2805,
      "grad_norm": 0.7749232053756714,
      "learning_rate": 0.00024652215293688396,
      "loss": 3.8124,
      "step": 134640
    },
    {
      "epoch": 0.28052083333333333,
      "grad_norm": 0.8119978904724121,
      "learning_rate": 0.00024651460637901935,
      "loss": 3.8227,
      "step": 134650
    },
    {
      "epoch": 0.2805416666666667,
      "grad_norm": 0.7615913152694702,
      "learning_rate": 0.00024650705940424983,
      "loss": 4.0018,
      "step": 134660
    },
    {
      "epoch": 0.2805625,
      "grad_norm": 0.7588971257209778,
      "learning_rate": 0.00024649951201260805,
      "loss": 4.0203,
      "step": 134670
    },
    {
      "epoch": 0.28058333333333335,
      "grad_norm": 0.7847759127616882,
      "learning_rate": 0.0002464919642041266,
      "loss": 3.983,
      "step": 134680
    },
    {
      "epoch": 0.28060416666666665,
      "grad_norm": 0.7843881249427795,
      "learning_rate": 0.00024648441597883796,
      "loss": 3.9956,
      "step": 134690
    },
    {
      "epoch": 0.280625,
      "grad_norm": 0.7876384258270264,
      "learning_rate": 0.00024647686733677486,
      "loss": 3.987,
      "step": 134700
    },
    {
      "epoch": 0.2806458333333333,
      "grad_norm": 0.7828953862190247,
      "learning_rate": 0.0002464693182779699,
      "loss": 3.9196,
      "step": 134710
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 0.7699557542800903,
      "learning_rate": 0.00024646176880245574,
      "loss": 4.0362,
      "step": 134720
    },
    {
      "epoch": 0.2806875,
      "grad_norm": 0.8952884674072266,
      "learning_rate": 0.0002464542189102648,
      "loss": 4.0129,
      "step": 134730
    },
    {
      "epoch": 0.28070833333333334,
      "grad_norm": 0.8086022138595581,
      "learning_rate": 0.00024644666860142985,
      "loss": 3.9981,
      "step": 134740
    },
    {
      "epoch": 0.28072916666666664,
      "grad_norm": 0.9124605059623718,
      "learning_rate": 0.00024643911787598354,
      "loss": 4.1165,
      "step": 134750
    },
    {
      "epoch": 0.28075,
      "grad_norm": 0.7893539667129517,
      "learning_rate": 0.00024643156673395835,
      "loss": 3.9723,
      "step": 134760
    },
    {
      "epoch": 0.28077083333333336,
      "grad_norm": 0.7579887509346008,
      "learning_rate": 0.0002464240151753869,
      "loss": 4.0147,
      "step": 134770
    },
    {
      "epoch": 0.28079166666666666,
      "grad_norm": 0.7441098690032959,
      "learning_rate": 0.000246416463200302,
      "loss": 4.0187,
      "step": 134780
    },
    {
      "epoch": 0.2808125,
      "grad_norm": 0.8048262000083923,
      "learning_rate": 0.0002464089108087361,
      "loss": 4.1207,
      "step": 134790
    },
    {
      "epoch": 0.2808333333333333,
      "grad_norm": 0.766984224319458,
      "learning_rate": 0.00024640135800072183,
      "loss": 3.9531,
      "step": 134800
    },
    {
      "epoch": 0.2808541666666667,
      "grad_norm": 0.7350484132766724,
      "learning_rate": 0.0002463938047762919,
      "loss": 4.1001,
      "step": 134810
    },
    {
      "epoch": 0.280875,
      "grad_norm": 0.7831059694290161,
      "learning_rate": 0.00024638625113547886,
      "loss": 3.93,
      "step": 134820
    },
    {
      "epoch": 0.28089583333333334,
      "grad_norm": 0.7794700264930725,
      "learning_rate": 0.0002463786970783154,
      "loss": 4.154,
      "step": 134830
    },
    {
      "epoch": 0.28091666666666665,
      "grad_norm": 0.9604083299636841,
      "learning_rate": 0.00024637114260483403,
      "loss": 3.9933,
      "step": 134840
    },
    {
      "epoch": 0.2809375,
      "grad_norm": 0.7648429870605469,
      "learning_rate": 0.00024636358771506757,
      "loss": 4.0575,
      "step": 134850
    },
    {
      "epoch": 0.2809583333333333,
      "grad_norm": 0.7243245244026184,
      "learning_rate": 0.0002463560324090485,
      "loss": 3.8271,
      "step": 134860
    },
    {
      "epoch": 0.28097916666666667,
      "grad_norm": 0.792847752571106,
      "learning_rate": 0.0002463484766868095,
      "loss": 3.9776,
      "step": 134870
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.8010843396186829,
      "learning_rate": 0.0002463409205483833,
      "loss": 3.9179,
      "step": 134880
    },
    {
      "epoch": 0.28102083333333333,
      "grad_norm": 1.0059396028518677,
      "learning_rate": 0.0002463333639938024,
      "loss": 3.9137,
      "step": 134890
    },
    {
      "epoch": 0.2810416666666667,
      "grad_norm": 0.762696385383606,
      "learning_rate": 0.0002463258070230995,
      "loss": 3.9722,
      "step": 134900
    },
    {
      "epoch": 0.2810625,
      "grad_norm": 0.7523201704025269,
      "learning_rate": 0.0002463182496363072,
      "loss": 3.9554,
      "step": 134910
    },
    {
      "epoch": 0.28108333333333335,
      "grad_norm": 0.8493086099624634,
      "learning_rate": 0.0002463106918334582,
      "loss": 4.0122,
      "step": 134920
    },
    {
      "epoch": 0.28110416666666665,
      "grad_norm": 0.8213626742362976,
      "learning_rate": 0.0002463031336145852,
      "loss": 4.0891,
      "step": 134930
    },
    {
      "epoch": 0.281125,
      "grad_norm": 0.7545572519302368,
      "learning_rate": 0.00024629557497972074,
      "loss": 4.1572,
      "step": 134940
    },
    {
      "epoch": 0.2811458333333333,
      "grad_norm": 0.7743381261825562,
      "learning_rate": 0.0002462880159288975,
      "loss": 4.0036,
      "step": 134950
    },
    {
      "epoch": 0.2811666666666667,
      "grad_norm": 0.778465211391449,
      "learning_rate": 0.00024628045646214817,
      "loss": 4.064,
      "step": 134960
    },
    {
      "epoch": 0.2811875,
      "grad_norm": 0.818754255771637,
      "learning_rate": 0.00024627289657950537,
      "loss": 3.9716,
      "step": 134970
    },
    {
      "epoch": 0.28120833333333334,
      "grad_norm": 0.7853291034698486,
      "learning_rate": 0.00024626533628100176,
      "loss": 4.1013,
      "step": 134980
    },
    {
      "epoch": 0.28122916666666664,
      "grad_norm": 0.718690037727356,
      "learning_rate": 0.00024625777556667,
      "loss": 3.9696,
      "step": 134990
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.8702135682106018,
      "learning_rate": 0.0002462502144365428,
      "loss": 3.9107,
      "step": 135000
    },
    {
      "epoch": 0.28125,
      "eval_loss": 3.751038074493408,
      "eval_runtime": 7.2166,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 135000
    },
    {
      "epoch": 0.28127083333333336,
      "grad_norm": 0.7361454367637634,
      "learning_rate": 0.0002462426528906527,
      "loss": 4.043,
      "step": 135010
    },
    {
      "epoch": 0.28129166666666666,
      "grad_norm": 0.8339089751243591,
      "learning_rate": 0.00024623509092903245,
      "loss": 4.0394,
      "step": 135020
    },
    {
      "epoch": 0.2813125,
      "grad_norm": 0.9650221467018127,
      "learning_rate": 0.0002462275285517147,
      "loss": 4.2273,
      "step": 135030
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 0.7948504686355591,
      "learning_rate": 0.00024621996575873215,
      "loss": 4.0646,
      "step": 135040
    },
    {
      "epoch": 0.2813541666666667,
      "grad_norm": 0.761488676071167,
      "learning_rate": 0.0002462124025501174,
      "loss": 4.0341,
      "step": 135050
    },
    {
      "epoch": 0.281375,
      "grad_norm": 0.7721307873725891,
      "learning_rate": 0.0002462048389259032,
      "loss": 3.9586,
      "step": 135060
    },
    {
      "epoch": 0.28139583333333335,
      "grad_norm": 0.7904693484306335,
      "learning_rate": 0.00024619727488612214,
      "loss": 3.8814,
      "step": 135070
    },
    {
      "epoch": 0.28141666666666665,
      "grad_norm": 0.8873568773269653,
      "learning_rate": 0.00024618971043080697,
      "loss": 4.1302,
      "step": 135080
    },
    {
      "epoch": 0.2814375,
      "grad_norm": 0.7804315686225891,
      "learning_rate": 0.00024618214555999023,
      "loss": 4.132,
      "step": 135090
    },
    {
      "epoch": 0.2814583333333333,
      "grad_norm": 0.8075469732284546,
      "learning_rate": 0.0002461745802737048,
      "loss": 4.0548,
      "step": 135100
    },
    {
      "epoch": 0.28147916666666667,
      "grad_norm": 0.8164476156234741,
      "learning_rate": 0.0002461670145719832,
      "loss": 4.0253,
      "step": 135110
    },
    {
      "epoch": 0.2815,
      "grad_norm": 0.8820610046386719,
      "learning_rate": 0.0002461594484548582,
      "loss": 3.8297,
      "step": 135120
    },
    {
      "epoch": 0.28152083333333333,
      "grad_norm": 0.8835576176643372,
      "learning_rate": 0.0002461518819223624,
      "loss": 3.9932,
      "step": 135130
    },
    {
      "epoch": 0.2815416666666667,
      "grad_norm": 0.8445544838905334,
      "learning_rate": 0.0002461443149745285,
      "loss": 4.1036,
      "step": 135140
    },
    {
      "epoch": 0.2815625,
      "grad_norm": 0.8410975337028503,
      "learning_rate": 0.0002461367476113893,
      "loss": 4.052,
      "step": 135150
    },
    {
      "epoch": 0.28158333333333335,
      "grad_norm": 0.8087614178657532,
      "learning_rate": 0.00024612917983297733,
      "loss": 4.0185,
      "step": 135160
    },
    {
      "epoch": 0.28160416666666666,
      "grad_norm": 0.7726985216140747,
      "learning_rate": 0.00024612161163932537,
      "loss": 4.0083,
      "step": 135170
    },
    {
      "epoch": 0.281625,
      "grad_norm": 0.775449812412262,
      "learning_rate": 0.00024611404303046615,
      "loss": 3.7824,
      "step": 135180
    },
    {
      "epoch": 0.2816458333333333,
      "grad_norm": 0.7660452723503113,
      "learning_rate": 0.00024610647400643225,
      "loss": 3.868,
      "step": 135190
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 0.9293176531791687,
      "learning_rate": 0.0002460989045672565,
      "loss": 4.0431,
      "step": 135200
    },
    {
      "epoch": 0.2816875,
      "grad_norm": 0.9497116804122925,
      "learning_rate": 0.0002460913347129714,
      "loss": 4.1343,
      "step": 135210
    },
    {
      "epoch": 0.28170833333333334,
      "grad_norm": 0.7283092737197876,
      "learning_rate": 0.00024608376444360984,
      "loss": 3.8515,
      "step": 135220
    },
    {
      "epoch": 0.28172916666666664,
      "grad_norm": 0.7589057683944702,
      "learning_rate": 0.00024607619375920445,
      "loss": 3.9314,
      "step": 135230
    },
    {
      "epoch": 0.28175,
      "grad_norm": 0.90778648853302,
      "learning_rate": 0.0002460686226597879,
      "loss": 4.0484,
      "step": 135240
    },
    {
      "epoch": 0.28177083333333336,
      "grad_norm": 0.7427253723144531,
      "learning_rate": 0.000246061051145393,
      "loss": 4.0512,
      "step": 135250
    },
    {
      "epoch": 0.28179166666666666,
      "grad_norm": 0.8036881685256958,
      "learning_rate": 0.0002460534792160523,
      "loss": 4.1743,
      "step": 135260
    },
    {
      "epoch": 0.2818125,
      "grad_norm": 0.7365679144859314,
      "learning_rate": 0.0002460459068717986,
      "loss": 3.9508,
      "step": 135270
    },
    {
      "epoch": 0.2818333333333333,
      "grad_norm": 0.7810326218605042,
      "learning_rate": 0.0002460383341126647,
      "loss": 4.1033,
      "step": 135280
    },
    {
      "epoch": 0.2818541666666667,
      "grad_norm": 0.7942544221878052,
      "learning_rate": 0.0002460307609386831,
      "loss": 4.0109,
      "step": 135290
    },
    {
      "epoch": 0.281875,
      "grad_norm": 0.7972322106361389,
      "learning_rate": 0.0002460231873498867,
      "loss": 3.9067,
      "step": 135300
    },
    {
      "epoch": 0.28189583333333335,
      "grad_norm": 0.7720487713813782,
      "learning_rate": 0.00024601561334630813,
      "loss": 3.982,
      "step": 135310
    },
    {
      "epoch": 0.28191666666666665,
      "grad_norm": 0.8054405450820923,
      "learning_rate": 0.00024600803892798,
      "loss": 4.0401,
      "step": 135320
    },
    {
      "epoch": 0.2819375,
      "grad_norm": 0.7501139640808105,
      "learning_rate": 0.0002460004640949353,
      "loss": 4.0664,
      "step": 135330
    },
    {
      "epoch": 0.2819583333333333,
      "grad_norm": 0.7688127756118774,
      "learning_rate": 0.0002459928888472065,
      "loss": 3.9713,
      "step": 135340
    },
    {
      "epoch": 0.28197916666666667,
      "grad_norm": 0.7738580703735352,
      "learning_rate": 0.00024598531318482643,
      "loss": 4.1443,
      "step": 135350
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.8163190484046936,
      "learning_rate": 0.0002459777371078278,
      "loss": 3.9766,
      "step": 135360
    },
    {
      "epoch": 0.28202083333333333,
      "grad_norm": 0.7953790426254272,
      "learning_rate": 0.0002459701606162434,
      "loss": 4.1541,
      "step": 135370
    },
    {
      "epoch": 0.2820416666666667,
      "grad_norm": 0.7762388586997986,
      "learning_rate": 0.0002459625837101058,
      "loss": 3.963,
      "step": 135380
    },
    {
      "epoch": 0.2820625,
      "grad_norm": 0.8198143243789673,
      "learning_rate": 0.00024595500638944785,
      "loss": 4.1005,
      "step": 135390
    },
    {
      "epoch": 0.28208333333333335,
      "grad_norm": 0.7784968018531799,
      "learning_rate": 0.0002459474286543023,
      "loss": 3.8648,
      "step": 135400
    },
    {
      "epoch": 0.28210416666666666,
      "grad_norm": 0.7718952298164368,
      "learning_rate": 0.0002459398505047018,
      "loss": 4.0135,
      "step": 135410
    },
    {
      "epoch": 0.282125,
      "grad_norm": 0.9359557032585144,
      "learning_rate": 0.00024593227194067915,
      "loss": 4.1871,
      "step": 135420
    },
    {
      "epoch": 0.2821458333333333,
      "grad_norm": 0.8032932877540588,
      "learning_rate": 0.000245924692962267,
      "loss": 3.9119,
      "step": 135430
    },
    {
      "epoch": 0.2821666666666667,
      "grad_norm": 0.7850417494773865,
      "learning_rate": 0.0002459171135694982,
      "loss": 3.9027,
      "step": 135440
    },
    {
      "epoch": 0.2821875,
      "grad_norm": 0.8093907833099365,
      "learning_rate": 0.0002459095337624054,
      "loss": 4.037,
      "step": 135450
    },
    {
      "epoch": 0.28220833333333334,
      "grad_norm": 0.6995295882225037,
      "learning_rate": 0.0002459019535410214,
      "loss": 3.8818,
      "step": 135460
    },
    {
      "epoch": 0.28222916666666664,
      "grad_norm": 0.6945653557777405,
      "learning_rate": 0.00024589437290537897,
      "loss": 4.0164,
      "step": 135470
    },
    {
      "epoch": 0.28225,
      "grad_norm": 0.7669929265975952,
      "learning_rate": 0.00024588679185551075,
      "loss": 4.0085,
      "step": 135480
    },
    {
      "epoch": 0.28227083333333336,
      "grad_norm": 0.9468228220939636,
      "learning_rate": 0.00024587921039144955,
      "loss": 3.836,
      "step": 135490
    },
    {
      "epoch": 0.28229166666666666,
      "grad_norm": 0.7372743487358093,
      "learning_rate": 0.0002458716285132281,
      "loss": 3.8083,
      "step": 135500
    },
    {
      "epoch": 0.2823125,
      "grad_norm": 0.773166298866272,
      "learning_rate": 0.00024586404622087916,
      "loss": 4.0644,
      "step": 135510
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 0.8621200323104858,
      "learning_rate": 0.00024585646351443546,
      "loss": 3.9696,
      "step": 135520
    },
    {
      "epoch": 0.2823541666666667,
      "grad_norm": 0.7805376052856445,
      "learning_rate": 0.00024584888039392986,
      "loss": 3.8035,
      "step": 135530
    },
    {
      "epoch": 0.282375,
      "grad_norm": 0.7787344455718994,
      "learning_rate": 0.00024584129685939504,
      "loss": 3.8989,
      "step": 135540
    },
    {
      "epoch": 0.28239583333333335,
      "grad_norm": 0.7537722587585449,
      "learning_rate": 0.0002458337129108637,
      "loss": 3.8625,
      "step": 135550
    },
    {
      "epoch": 0.28241666666666665,
      "grad_norm": 0.7632008194923401,
      "learning_rate": 0.00024582612854836866,
      "loss": 3.9237,
      "step": 135560
    },
    {
      "epoch": 0.2824375,
      "grad_norm": 0.8170960545539856,
      "learning_rate": 0.0002458185437719427,
      "loss": 4.2004,
      "step": 135570
    },
    {
      "epoch": 0.2824583333333333,
      "grad_norm": 0.9649806022644043,
      "learning_rate": 0.0002458109585816185,
      "loss": 4.0846,
      "step": 135580
    },
    {
      "epoch": 0.28247916666666667,
      "grad_norm": 0.7448909282684326,
      "learning_rate": 0.00024580337297742895,
      "loss": 3.9638,
      "step": 135590
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.8335754871368408,
      "learning_rate": 0.0002457957869594067,
      "loss": 4.1771,
      "step": 135600
    },
    {
      "epoch": 0.28252083333333333,
      "grad_norm": 0.8150877952575684,
      "learning_rate": 0.0002457882005275846,
      "loss": 4.0816,
      "step": 135610
    },
    {
      "epoch": 0.2825416666666667,
      "grad_norm": 0.8306797742843628,
      "learning_rate": 0.0002457806136819954,
      "loss": 3.9744,
      "step": 135620
    },
    {
      "epoch": 0.2825625,
      "grad_norm": 0.9127091765403748,
      "learning_rate": 0.00024577302642267185,
      "loss": 4.0685,
      "step": 135630
    },
    {
      "epoch": 0.28258333333333335,
      "grad_norm": 0.8639361262321472,
      "learning_rate": 0.0002457654387496467,
      "loss": 4.3378,
      "step": 135640
    },
    {
      "epoch": 0.28260416666666666,
      "grad_norm": 0.7616435289382935,
      "learning_rate": 0.0002457578506629528,
      "loss": 4.0429,
      "step": 135650
    },
    {
      "epoch": 0.282625,
      "grad_norm": 0.7456920742988586,
      "learning_rate": 0.00024575026216262287,
      "loss": 3.8241,
      "step": 135660
    },
    {
      "epoch": 0.2826458333333333,
      "grad_norm": 0.8066117167472839,
      "learning_rate": 0.00024574267324868973,
      "loss": 4.059,
      "step": 135670
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 0.8163059949874878,
      "learning_rate": 0.00024573508392118615,
      "loss": 4.0293,
      "step": 135680
    },
    {
      "epoch": 0.2826875,
      "grad_norm": 0.8707329630851746,
      "learning_rate": 0.00024572749418014483,
      "loss": 4.3367,
      "step": 135690
    },
    {
      "epoch": 0.28270833333333334,
      "grad_norm": 0.8008551597595215,
      "learning_rate": 0.00024571990402559867,
      "loss": 3.9468,
      "step": 135700
    },
    {
      "epoch": 0.28272916666666664,
      "grad_norm": 0.8294318914413452,
      "learning_rate": 0.00024571231345758046,
      "loss": 3.7654,
      "step": 135710
    },
    {
      "epoch": 0.28275,
      "grad_norm": 1.0751105546951294,
      "learning_rate": 0.0002457047224761229,
      "loss": 4.0855,
      "step": 135720
    },
    {
      "epoch": 0.28277083333333336,
      "grad_norm": 0.7809107899665833,
      "learning_rate": 0.00024569713108125876,
      "loss": 4.1388,
      "step": 135730
    },
    {
      "epoch": 0.28279166666666666,
      "grad_norm": 0.8711137771606445,
      "learning_rate": 0.000245689539273021,
      "loss": 3.7813,
      "step": 135740
    },
    {
      "epoch": 0.2828125,
      "grad_norm": 0.8527384400367737,
      "learning_rate": 0.00024568194705144224,
      "loss": 3.898,
      "step": 135750
    },
    {
      "epoch": 0.2828333333333333,
      "grad_norm": 0.8029279112815857,
      "learning_rate": 0.0002456743544165554,
      "loss": 3.924,
      "step": 135760
    },
    {
      "epoch": 0.2828541666666667,
      "grad_norm": 0.7816657423973083,
      "learning_rate": 0.00024566676136839315,
      "loss": 3.9071,
      "step": 135770
    },
    {
      "epoch": 0.282875,
      "grad_norm": 0.8065878748893738,
      "learning_rate": 0.0002456591679069884,
      "loss": 4.0333,
      "step": 135780
    },
    {
      "epoch": 0.28289583333333335,
      "grad_norm": 0.7737123370170593,
      "learning_rate": 0.00024565157403237393,
      "loss": 3.8106,
      "step": 135790
    },
    {
      "epoch": 0.28291666666666665,
      "grad_norm": 0.7036243677139282,
      "learning_rate": 0.0002456439797445825,
      "loss": 3.9787,
      "step": 135800
    },
    {
      "epoch": 0.2829375,
      "grad_norm": 0.8589837551116943,
      "learning_rate": 0.0002456363850436469,
      "loss": 4.0798,
      "step": 135810
    },
    {
      "epoch": 0.2829583333333333,
      "grad_norm": 0.7262222766876221,
      "learning_rate": 0.0002456287899296,
      "loss": 4.1371,
      "step": 135820
    },
    {
      "epoch": 0.28297916666666667,
      "grad_norm": 0.8463475704193115,
      "learning_rate": 0.00024562119440247454,
      "loss": 3.9519,
      "step": 135830
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.8555812239646912,
      "learning_rate": 0.0002456135984623034,
      "loss": 4.0123,
      "step": 135840
    },
    {
      "epoch": 0.28302083333333333,
      "grad_norm": 0.7301881909370422,
      "learning_rate": 0.0002456060021091194,
      "loss": 3.9078,
      "step": 135850
    },
    {
      "epoch": 0.2830416666666667,
      "grad_norm": 0.7505789399147034,
      "learning_rate": 0.0002455984053429553,
      "loss": 3.8545,
      "step": 135860
    },
    {
      "epoch": 0.2830625,
      "grad_norm": 0.7819311022758484,
      "learning_rate": 0.0002455908081638439,
      "loss": 3.959,
      "step": 135870
    },
    {
      "epoch": 0.28308333333333335,
      "grad_norm": 0.7370287775993347,
      "learning_rate": 0.0002455832105718181,
      "loss": 4.1154,
      "step": 135880
    },
    {
      "epoch": 0.28310416666666666,
      "grad_norm": 0.7446799278259277,
      "learning_rate": 0.0002455756125669106,
      "loss": 3.8512,
      "step": 135890
    },
    {
      "epoch": 0.283125,
      "grad_norm": 0.7484287023544312,
      "learning_rate": 0.00024556801414915433,
      "loss": 3.9774,
      "step": 135900
    },
    {
      "epoch": 0.2831458333333333,
      "grad_norm": 0.9322423934936523,
      "learning_rate": 0.000245560415318582,
      "loss": 4.0369,
      "step": 135910
    },
    {
      "epoch": 0.2831666666666667,
      "grad_norm": 0.6885457038879395,
      "learning_rate": 0.0002455528160752266,
      "loss": 4.0498,
      "step": 135920
    },
    {
      "epoch": 0.2831875,
      "grad_norm": 0.7830556035041809,
      "learning_rate": 0.00024554521641912075,
      "loss": 4.1477,
      "step": 135930
    },
    {
      "epoch": 0.28320833333333334,
      "grad_norm": 0.7842527031898499,
      "learning_rate": 0.00024553761635029745,
      "loss": 3.9628,
      "step": 135940
    },
    {
      "epoch": 0.28322916666666664,
      "grad_norm": 0.7636048197746277,
      "learning_rate": 0.00024553001586878945,
      "loss": 4.1479,
      "step": 135950
    },
    {
      "epoch": 0.28325,
      "grad_norm": 0.8050531148910522,
      "learning_rate": 0.00024552241497462966,
      "loss": 3.9495,
      "step": 135960
    },
    {
      "epoch": 0.28327083333333336,
      "grad_norm": 0.9236293435096741,
      "learning_rate": 0.00024551481366785077,
      "loss": 4.3241,
      "step": 135970
    },
    {
      "epoch": 0.28329166666666666,
      "grad_norm": 0.7793163061141968,
      "learning_rate": 0.0002455072119484857,
      "loss": 4.1341,
      "step": 135980
    },
    {
      "epoch": 0.2833125,
      "grad_norm": 0.768824577331543,
      "learning_rate": 0.0002454996098165673,
      "loss": 4.0675,
      "step": 135990
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.7832896113395691,
      "learning_rate": 0.00024549200727212836,
      "loss": 3.9319,
      "step": 136000
    },
    {
      "epoch": 0.2833333333333333,
      "eval_loss": 3.7487549781799316,
      "eval_runtime": 7.2129,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 136000
    },
    {
      "epoch": 0.2833541666666667,
      "grad_norm": 0.7106124758720398,
      "learning_rate": 0.0002454844043152018,
      "loss": 4.1074,
      "step": 136010
    },
    {
      "epoch": 0.283375,
      "grad_norm": 0.9636353254318237,
      "learning_rate": 0.0002454768009458203,
      "loss": 4.0234,
      "step": 136020
    },
    {
      "epoch": 0.28339583333333335,
      "grad_norm": 0.7458072304725647,
      "learning_rate": 0.0002454691971640169,
      "loss": 3.9328,
      "step": 136030
    },
    {
      "epoch": 0.28341666666666665,
      "grad_norm": 0.8085846900939941,
      "learning_rate": 0.0002454615929698244,
      "loss": 3.9767,
      "step": 136040
    },
    {
      "epoch": 0.2834375,
      "grad_norm": 0.7633838653564453,
      "learning_rate": 0.0002454539883632755,
      "loss": 3.9456,
      "step": 136050
    },
    {
      "epoch": 0.2834583333333333,
      "grad_norm": 0.8060910701751709,
      "learning_rate": 0.00024544638334440317,
      "loss": 4.031,
      "step": 136060
    },
    {
      "epoch": 0.28347916666666667,
      "grad_norm": 0.7598817348480225,
      "learning_rate": 0.0002454387779132403,
      "loss": 3.9806,
      "step": 136070
    },
    {
      "epoch": 0.2835,
      "grad_norm": 0.9065242409706116,
      "learning_rate": 0.00024543117206981966,
      "loss": 4.1147,
      "step": 136080
    },
    {
      "epoch": 0.28352083333333333,
      "grad_norm": 0.7321732044219971,
      "learning_rate": 0.00024542356581417414,
      "loss": 3.9438,
      "step": 136090
    },
    {
      "epoch": 0.2835416666666667,
      "grad_norm": 0.7997702360153198,
      "learning_rate": 0.0002454159591463366,
      "loss": 3.9906,
      "step": 136100
    },
    {
      "epoch": 0.2835625,
      "grad_norm": 0.7928339838981628,
      "learning_rate": 0.0002454083520663398,
      "loss": 3.966,
      "step": 136110
    },
    {
      "epoch": 0.28358333333333335,
      "grad_norm": 0.7196358442306519,
      "learning_rate": 0.0002454007445742168,
      "loss": 4.053,
      "step": 136120
    },
    {
      "epoch": 0.28360416666666666,
      "grad_norm": 0.6994044780731201,
      "learning_rate": 0.00024539313667000024,
      "loss": 3.9984,
      "step": 136130
    },
    {
      "epoch": 0.283625,
      "grad_norm": 0.7348572611808777,
      "learning_rate": 0.00024538552835372317,
      "loss": 3.8881,
      "step": 136140
    },
    {
      "epoch": 0.2836458333333333,
      "grad_norm": 0.7345466613769531,
      "learning_rate": 0.00024537791962541837,
      "loss": 3.9767,
      "step": 136150
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 0.8443273305892944,
      "learning_rate": 0.0002453703104851187,
      "loss": 3.8054,
      "step": 136160
    },
    {
      "epoch": 0.2836875,
      "grad_norm": 0.8643455505371094,
      "learning_rate": 0.00024536270093285695,
      "loss": 4.0955,
      "step": 136170
    },
    {
      "epoch": 0.28370833333333334,
      "grad_norm": 0.7638139128684998,
      "learning_rate": 0.0002453550909686662,
      "loss": 4.1459,
      "step": 136180
    },
    {
      "epoch": 0.28372916666666664,
      "grad_norm": 0.9452479481697083,
      "learning_rate": 0.00024534748059257917,
      "loss": 4.0191,
      "step": 136190
    },
    {
      "epoch": 0.28375,
      "grad_norm": 0.922501266002655,
      "learning_rate": 0.00024533986980462873,
      "loss": 3.9688,
      "step": 136200
    },
    {
      "epoch": 0.28377083333333336,
      "grad_norm": 0.7537517547607422,
      "learning_rate": 0.00024533225860484784,
      "loss": 4.0265,
      "step": 136210
    },
    {
      "epoch": 0.28379166666666666,
      "grad_norm": 0.8331702947616577,
      "learning_rate": 0.00024532464699326923,
      "loss": 4.0725,
      "step": 136220
    },
    {
      "epoch": 0.2838125,
      "grad_norm": 0.8433122038841248,
      "learning_rate": 0.000245317034969926,
      "loss": 3.8376,
      "step": 136230
    },
    {
      "epoch": 0.2838333333333333,
      "grad_norm": 0.7735824584960938,
      "learning_rate": 0.00024530942253485084,
      "loss": 4.0482,
      "step": 136240
    },
    {
      "epoch": 0.2838541666666667,
      "grad_norm": 0.8857478499412537,
      "learning_rate": 0.00024530180968807675,
      "loss": 3.9576,
      "step": 136250
    },
    {
      "epoch": 0.283875,
      "grad_norm": 0.9166258573532104,
      "learning_rate": 0.00024529419642963646,
      "loss": 4.021,
      "step": 136260
    },
    {
      "epoch": 0.28389583333333335,
      "grad_norm": 0.8529447317123413,
      "learning_rate": 0.00024528658275956304,
      "loss": 4.0582,
      "step": 136270
    },
    {
      "epoch": 0.28391666666666665,
      "grad_norm": 0.8557725548744202,
      "learning_rate": 0.0002452789686778893,
      "loss": 3.9578,
      "step": 136280
    },
    {
      "epoch": 0.2839375,
      "grad_norm": 0.7788087725639343,
      "learning_rate": 0.0002452713541846481,
      "loss": 4.0061,
      "step": 136290
    },
    {
      "epoch": 0.2839583333333333,
      "grad_norm": 0.8681325316429138,
      "learning_rate": 0.0002452637392798724,
      "loss": 4.0183,
      "step": 136300
    },
    {
      "epoch": 0.28397916666666667,
      "grad_norm": 0.9124051928520203,
      "learning_rate": 0.00024525612396359504,
      "loss": 3.9758,
      "step": 136310
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.7387723326683044,
      "learning_rate": 0.00024524850823584896,
      "loss": 3.9461,
      "step": 136320
    },
    {
      "epoch": 0.28402083333333333,
      "grad_norm": 0.7945731282234192,
      "learning_rate": 0.00024524089209666697,
      "loss": 3.9964,
      "step": 136330
    },
    {
      "epoch": 0.2840416666666667,
      "grad_norm": 0.7547874450683594,
      "learning_rate": 0.0002452332755460821,
      "loss": 3.8878,
      "step": 136340
    },
    {
      "epoch": 0.2840625,
      "grad_norm": 0.7660791873931885,
      "learning_rate": 0.0002452256585841271,
      "loss": 4.1433,
      "step": 136350
    },
    {
      "epoch": 0.28408333333333335,
      "grad_norm": 0.7862417697906494,
      "learning_rate": 0.00024521804121083494,
      "loss": 4.1436,
      "step": 136360
    },
    {
      "epoch": 0.28410416666666666,
      "grad_norm": 0.7196518778800964,
      "learning_rate": 0.00024521042342623856,
      "loss": 4.1161,
      "step": 136370
    },
    {
      "epoch": 0.284125,
      "grad_norm": 0.7933694124221802,
      "learning_rate": 0.00024520280523037085,
      "loss": 4.1227,
      "step": 136380
    },
    {
      "epoch": 0.2841458333333333,
      "grad_norm": 0.8348104357719421,
      "learning_rate": 0.0002451951866232647,
      "loss": 3.8889,
      "step": 136390
    },
    {
      "epoch": 0.2841666666666667,
      "grad_norm": 0.8574975728988647,
      "learning_rate": 0.00024518756760495296,
      "loss": 4.1496,
      "step": 136400
    },
    {
      "epoch": 0.2841875,
      "grad_norm": 0.7389329075813293,
      "learning_rate": 0.0002451799481754687,
      "loss": 3.8449,
      "step": 136410
    },
    {
      "epoch": 0.28420833333333334,
      "grad_norm": 0.8478795289993286,
      "learning_rate": 0.0002451723283348447,
      "loss": 3.8979,
      "step": 136420
    },
    {
      "epoch": 0.28422916666666664,
      "grad_norm": 0.7156506180763245,
      "learning_rate": 0.0002451647080831139,
      "loss": 4.0922,
      "step": 136430
    },
    {
      "epoch": 0.28425,
      "grad_norm": 0.8240150213241577,
      "learning_rate": 0.00024515708742030924,
      "loss": 4.0051,
      "step": 136440
    },
    {
      "epoch": 0.2842708333333333,
      "grad_norm": 0.7088314890861511,
      "learning_rate": 0.0002451494663464637,
      "loss": 4.0771,
      "step": 136450
    },
    {
      "epoch": 0.28429166666666666,
      "grad_norm": 1.3775322437286377,
      "learning_rate": 0.00024514184486161,
      "loss": 3.9948,
      "step": 136460
    },
    {
      "epoch": 0.2843125,
      "grad_norm": 0.7723467946052551,
      "learning_rate": 0.0002451342229657813,
      "loss": 4.1828,
      "step": 136470
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 0.7581037878990173,
      "learning_rate": 0.00024512660065901035,
      "loss": 3.994,
      "step": 136480
    },
    {
      "epoch": 0.2843541666666667,
      "grad_norm": 0.8121668696403503,
      "learning_rate": 0.0002451189779413302,
      "loss": 4.0476,
      "step": 136490
    },
    {
      "epoch": 0.284375,
      "grad_norm": 0.7026354670524597,
      "learning_rate": 0.0002451113548127736,
      "loss": 4.0685,
      "step": 136500
    },
    {
      "epoch": 0.28439583333333335,
      "grad_norm": 0.7991070747375488,
      "learning_rate": 0.0002451037312733737,
      "loss": 4.0513,
      "step": 136510
    },
    {
      "epoch": 0.28441666666666665,
      "grad_norm": 0.976927638053894,
      "learning_rate": 0.0002450961073231633,
      "loss": 4.0499,
      "step": 136520
    },
    {
      "epoch": 0.2844375,
      "grad_norm": 0.7734317779541016,
      "learning_rate": 0.0002450884829621753,
      "loss": 3.9358,
      "step": 136530
    },
    {
      "epoch": 0.2844583333333333,
      "grad_norm": 0.7727200984954834,
      "learning_rate": 0.00024508085819044276,
      "loss": 3.8509,
      "step": 136540
    },
    {
      "epoch": 0.28447916666666667,
      "grad_norm": 0.7312700748443604,
      "learning_rate": 0.00024507323300799853,
      "loss": 4.0658,
      "step": 136550
    },
    {
      "epoch": 0.2845,
      "grad_norm": 0.9010950922966003,
      "learning_rate": 0.0002450656074148756,
      "loss": 3.9859,
      "step": 136560
    },
    {
      "epoch": 0.28452083333333333,
      "grad_norm": 0.7928509712219238,
      "learning_rate": 0.0002450579814111068,
      "loss": 4.0224,
      "step": 136570
    },
    {
      "epoch": 0.2845416666666667,
      "grad_norm": 0.8428300023078918,
      "learning_rate": 0.00024505035499672523,
      "loss": 4.1532,
      "step": 136580
    },
    {
      "epoch": 0.2845625,
      "grad_norm": 0.7842812538146973,
      "learning_rate": 0.00024504272817176367,
      "loss": 3.8419,
      "step": 136590
    },
    {
      "epoch": 0.28458333333333335,
      "grad_norm": 0.774863064289093,
      "learning_rate": 0.00024503510093625523,
      "loss": 3.9861,
      "step": 136600
    },
    {
      "epoch": 0.28460416666666666,
      "grad_norm": 0.7857390642166138,
      "learning_rate": 0.00024502747329023267,
      "loss": 3.9733,
      "step": 136610
    },
    {
      "epoch": 0.284625,
      "grad_norm": 0.7936403751373291,
      "learning_rate": 0.0002450198452337291,
      "loss": 3.8823,
      "step": 136620
    },
    {
      "epoch": 0.2846458333333333,
      "grad_norm": 0.8395429849624634,
      "learning_rate": 0.00024501221676677745,
      "loss": 3.8543,
      "step": 136630
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 0.741856038570404,
      "learning_rate": 0.00024500458788941055,
      "loss": 4.0296,
      "step": 136640
    },
    {
      "epoch": 0.2846875,
      "grad_norm": 0.780077338218689,
      "learning_rate": 0.00024499695860166147,
      "loss": 4.06,
      "step": 136650
    },
    {
      "epoch": 0.28470833333333334,
      "grad_norm": 0.8333021402359009,
      "learning_rate": 0.00024498932890356317,
      "loss": 4.0557,
      "step": 136660
    },
    {
      "epoch": 0.28472916666666664,
      "grad_norm": 0.8144920468330383,
      "learning_rate": 0.00024498169879514855,
      "loss": 3.9757,
      "step": 136670
    },
    {
      "epoch": 0.28475,
      "grad_norm": 0.7512699365615845,
      "learning_rate": 0.00024497406827645054,
      "loss": 3.9321,
      "step": 136680
    },
    {
      "epoch": 0.2847708333333333,
      "grad_norm": 0.8744326233863831,
      "learning_rate": 0.0002449664373475022,
      "loss": 3.9207,
      "step": 136690
    },
    {
      "epoch": 0.28479166666666667,
      "grad_norm": 2.151289463043213,
      "learning_rate": 0.0002449588060083364,
      "loss": 3.9508,
      "step": 136700
    },
    {
      "epoch": 0.2848125,
      "grad_norm": 0.7843371629714966,
      "learning_rate": 0.0002449511742589862,
      "loss": 4.0751,
      "step": 136710
    },
    {
      "epoch": 0.2848333333333333,
      "grad_norm": 0.7150022983551025,
      "learning_rate": 0.00024494354209948446,
      "loss": 3.8968,
      "step": 136720
    },
    {
      "epoch": 0.2848541666666667,
      "grad_norm": 0.709762454032898,
      "learning_rate": 0.0002449359095298642,
      "loss": 3.9672,
      "step": 136730
    },
    {
      "epoch": 0.284875,
      "grad_norm": 0.8223682045936584,
      "learning_rate": 0.0002449282765501584,
      "loss": 4.0412,
      "step": 136740
    },
    {
      "epoch": 0.28489583333333335,
      "grad_norm": 0.7850250601768494,
      "learning_rate": 0.0002449206431604001,
      "loss": 4.0676,
      "step": 136750
    },
    {
      "epoch": 0.28491666666666665,
      "grad_norm": 0.7846018671989441,
      "learning_rate": 0.000244913009360622,
      "loss": 4.1658,
      "step": 136760
    },
    {
      "epoch": 0.2849375,
      "grad_norm": 0.965094268321991,
      "learning_rate": 0.00024490537515085744,
      "loss": 3.9373,
      "step": 136770
    },
    {
      "epoch": 0.2849583333333333,
      "grad_norm": 0.9024646282196045,
      "learning_rate": 0.0002448977405311392,
      "loss": 4.0541,
      "step": 136780
    },
    {
      "epoch": 0.2849791666666667,
      "grad_norm": 0.8767535090446472,
      "learning_rate": 0.0002448901055015002,
      "loss": 3.8432,
      "step": 136790
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.7846551537513733,
      "learning_rate": 0.0002448824700619736,
      "loss": 3.9393,
      "step": 136800
    },
    {
      "epoch": 0.28502083333333333,
      "grad_norm": 0.7219040393829346,
      "learning_rate": 0.0002448748342125922,
      "loss": 4.0549,
      "step": 136810
    },
    {
      "epoch": 0.2850416666666667,
      "grad_norm": 0.7905966639518738,
      "learning_rate": 0.00024486719795338915,
      "loss": 4.0702,
      "step": 136820
    },
    {
      "epoch": 0.2850625,
      "grad_norm": 0.7731006741523743,
      "learning_rate": 0.0002448595612843973,
      "loss": 3.7449,
      "step": 136830
    },
    {
      "epoch": 0.28508333333333336,
      "grad_norm": 0.7660106420516968,
      "learning_rate": 0.00024485192420564976,
      "loss": 4.0159,
      "step": 136840
    },
    {
      "epoch": 0.28510416666666666,
      "grad_norm": 0.7690061330795288,
      "learning_rate": 0.0002448442867171794,
      "loss": 4.1572,
      "step": 136850
    },
    {
      "epoch": 0.285125,
      "grad_norm": 0.8075648546218872,
      "learning_rate": 0.0002448366488190193,
      "loss": 3.9773,
      "step": 136860
    },
    {
      "epoch": 0.2851458333333333,
      "grad_norm": 0.928078293800354,
      "learning_rate": 0.0002448290105112024,
      "loss": 3.9719,
      "step": 136870
    },
    {
      "epoch": 0.2851666666666667,
      "grad_norm": 0.8192576766014099,
      "learning_rate": 0.0002448213717937616,
      "loss": 3.9411,
      "step": 136880
    },
    {
      "epoch": 0.2851875,
      "grad_norm": 0.8421313166618347,
      "learning_rate": 0.00024481373266673016,
      "loss": 3.8298,
      "step": 136890
    },
    {
      "epoch": 0.28520833333333334,
      "grad_norm": 0.8169928193092346,
      "learning_rate": 0.0002448060931301409,
      "loss": 3.8848,
      "step": 136900
    },
    {
      "epoch": 0.28522916666666664,
      "grad_norm": 0.8666168451309204,
      "learning_rate": 0.00024479845318402683,
      "loss": 3.9742,
      "step": 136910
    },
    {
      "epoch": 0.28525,
      "grad_norm": 0.8472150564193726,
      "learning_rate": 0.0002447908128284209,
      "loss": 3.9003,
      "step": 136920
    },
    {
      "epoch": 0.2852708333333333,
      "grad_norm": 0.8186814785003662,
      "learning_rate": 0.00024478317206335623,
      "loss": 4.0939,
      "step": 136930
    },
    {
      "epoch": 0.28529166666666667,
      "grad_norm": 0.8282371163368225,
      "learning_rate": 0.0002447755308888658,
      "loss": 4.0109,
      "step": 136940
    },
    {
      "epoch": 0.2853125,
      "grad_norm": 0.7670188546180725,
      "learning_rate": 0.0002447678893049826,
      "loss": 4.0967,
      "step": 136950
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 0.7863473892211914,
      "learning_rate": 0.00024476024731173956,
      "loss": 3.9828,
      "step": 136960
    },
    {
      "epoch": 0.2853541666666667,
      "grad_norm": 0.8278378248214722,
      "learning_rate": 0.0002447526049091698,
      "loss": 3.8751,
      "step": 136970
    },
    {
      "epoch": 0.285375,
      "grad_norm": 0.7502981424331665,
      "learning_rate": 0.0002447449620973063,
      "loss": 3.9364,
      "step": 136980
    },
    {
      "epoch": 0.28539583333333335,
      "grad_norm": 0.7734878063201904,
      "learning_rate": 0.00024473731887618205,
      "loss": 3.7237,
      "step": 136990
    },
    {
      "epoch": 0.28541666666666665,
      "grad_norm": 0.815216600894928,
      "learning_rate": 0.00024472967524583007,
      "loss": 4.1152,
      "step": 137000
    },
    {
      "epoch": 0.28541666666666665,
      "eval_loss": 3.764460802078247,
      "eval_runtime": 7.2385,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 137000
    },
    {
      "epoch": 0.2854375,
      "grad_norm": 0.7173385620117188,
      "learning_rate": 0.0002447220312062834,
      "loss": 3.8554,
      "step": 137010
    },
    {
      "epoch": 0.2854583333333333,
      "grad_norm": 0.8295610547065735,
      "learning_rate": 0.00024471438675757506,
      "loss": 4.0959,
      "step": 137020
    },
    {
      "epoch": 0.2854791666666667,
      "grad_norm": 0.7206231355667114,
      "learning_rate": 0.00024470674189973807,
      "loss": 3.9167,
      "step": 137030
    },
    {
      "epoch": 0.2855,
      "grad_norm": 0.8642933368682861,
      "learning_rate": 0.0002446990966328054,
      "loss": 4.0426,
      "step": 137040
    },
    {
      "epoch": 0.28552083333333333,
      "grad_norm": 0.7455931305885315,
      "learning_rate": 0.00024469145095681015,
      "loss": 3.7416,
      "step": 137050
    },
    {
      "epoch": 0.2855416666666667,
      "grad_norm": 0.7858514189720154,
      "learning_rate": 0.0002446838048717853,
      "loss": 4.0631,
      "step": 137060
    },
    {
      "epoch": 0.2855625,
      "grad_norm": 0.8321767449378967,
      "learning_rate": 0.00024467615837776396,
      "loss": 3.9664,
      "step": 137070
    },
    {
      "epoch": 0.28558333333333336,
      "grad_norm": 0.8637860417366028,
      "learning_rate": 0.000244668511474779,
      "loss": 4.074,
      "step": 137080
    },
    {
      "epoch": 0.28560416666666666,
      "grad_norm": 0.7605634331703186,
      "learning_rate": 0.00024466086416286356,
      "loss": 4.1517,
      "step": 137090
    },
    {
      "epoch": 0.285625,
      "grad_norm": 0.7282302975654602,
      "learning_rate": 0.0002446532164420507,
      "loss": 4.0192,
      "step": 137100
    },
    {
      "epoch": 0.2856458333333333,
      "grad_norm": 0.7568643689155579,
      "learning_rate": 0.0002446455683123734,
      "loss": 3.9751,
      "step": 137110
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 0.7907217741012573,
      "learning_rate": 0.0002446379197738647,
      "loss": 4.1126,
      "step": 137120
    },
    {
      "epoch": 0.2856875,
      "grad_norm": 0.8022151589393616,
      "learning_rate": 0.0002446302708265576,
      "loss": 3.9593,
      "step": 137130
    },
    {
      "epoch": 0.28570833333333334,
      "grad_norm": 0.7412757277488708,
      "learning_rate": 0.0002446226214704852,
      "loss": 3.972,
      "step": 137140
    },
    {
      "epoch": 0.28572916666666665,
      "grad_norm": 0.7914458513259888,
      "learning_rate": 0.0002446149717056806,
      "loss": 3.9032,
      "step": 137150
    },
    {
      "epoch": 0.28575,
      "grad_norm": 0.7784162759780884,
      "learning_rate": 0.0002446073215321767,
      "loss": 4.1779,
      "step": 137160
    },
    {
      "epoch": 0.2857708333333333,
      "grad_norm": 0.7688794732093811,
      "learning_rate": 0.0002445996709500067,
      "loss": 3.9749,
      "step": 137170
    },
    {
      "epoch": 0.28579166666666667,
      "grad_norm": 0.7427991032600403,
      "learning_rate": 0.00024459201995920347,
      "loss": 4.0449,
      "step": 137180
    },
    {
      "epoch": 0.2858125,
      "grad_norm": 0.9568280577659607,
      "learning_rate": 0.0002445843685598002,
      "loss": 3.9921,
      "step": 137190
    },
    {
      "epoch": 0.28583333333333333,
      "grad_norm": 1.0488238334655762,
      "learning_rate": 0.00024457671675182986,
      "loss": 4.0233,
      "step": 137200
    },
    {
      "epoch": 0.2858541666666667,
      "grad_norm": 0.7899801135063171,
      "learning_rate": 0.0002445690645353256,
      "loss": 4.2278,
      "step": 137210
    },
    {
      "epoch": 0.285875,
      "grad_norm": 0.7300393581390381,
      "learning_rate": 0.00024456141191032043,
      "loss": 4.0022,
      "step": 137220
    },
    {
      "epoch": 0.28589583333333335,
      "grad_norm": 0.8387907147407532,
      "learning_rate": 0.0002445537588768473,
      "loss": 4.23,
      "step": 137230
    },
    {
      "epoch": 0.28591666666666665,
      "grad_norm": 0.7346991300582886,
      "learning_rate": 0.0002445461054349394,
      "loss": 3.8869,
      "step": 137240
    },
    {
      "epoch": 0.2859375,
      "grad_norm": 0.7308646440505981,
      "learning_rate": 0.0002445384515846298,
      "loss": 4.0564,
      "step": 137250
    },
    {
      "epoch": 0.2859583333333333,
      "grad_norm": 0.7921050190925598,
      "learning_rate": 0.00024453079732595143,
      "loss": 4.1755,
      "step": 137260
    },
    {
      "epoch": 0.2859791666666667,
      "grad_norm": 0.8749657273292542,
      "learning_rate": 0.0002445231426589375,
      "loss": 3.9369,
      "step": 137270
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.8177688121795654,
      "learning_rate": 0.000244515487583621,
      "loss": 3.8889,
      "step": 137280
    },
    {
      "epoch": 0.28602083333333334,
      "grad_norm": 0.7991910576820374,
      "learning_rate": 0.00024450783210003496,
      "loss": 3.9268,
      "step": 137290
    },
    {
      "epoch": 0.2860416666666667,
      "grad_norm": 0.7669969201087952,
      "learning_rate": 0.0002445001762082125,
      "loss": 3.9523,
      "step": 137300
    },
    {
      "epoch": 0.2860625,
      "grad_norm": 0.7720698118209839,
      "learning_rate": 0.0002444925199081867,
      "loss": 3.8148,
      "step": 137310
    },
    {
      "epoch": 0.28608333333333336,
      "grad_norm": 0.7638987302780151,
      "learning_rate": 0.00024448486319999065,
      "loss": 4.0495,
      "step": 137320
    },
    {
      "epoch": 0.28610416666666666,
      "grad_norm": 0.7584636807441711,
      "learning_rate": 0.00024447720608365735,
      "loss": 4.0307,
      "step": 137330
    },
    {
      "epoch": 0.286125,
      "grad_norm": 0.8552706837654114,
      "learning_rate": 0.00024446954855921995,
      "loss": 4.0093,
      "step": 137340
    },
    {
      "epoch": 0.2861458333333333,
      "grad_norm": 0.8672282695770264,
      "learning_rate": 0.00024446189062671145,
      "loss": 3.952,
      "step": 137350
    },
    {
      "epoch": 0.2861666666666667,
      "grad_norm": 0.7052929997444153,
      "learning_rate": 0.00024445423228616504,
      "loss": 4.0511,
      "step": 137360
    },
    {
      "epoch": 0.2861875,
      "grad_norm": 0.8093070983886719,
      "learning_rate": 0.00024444657353761367,
      "loss": 3.9424,
      "step": 137370
    },
    {
      "epoch": 0.28620833333333334,
      "grad_norm": 0.7488031387329102,
      "learning_rate": 0.00024443891438109046,
      "loss": 4.1533,
      "step": 137380
    },
    {
      "epoch": 0.28622916666666665,
      "grad_norm": 0.7668554782867432,
      "learning_rate": 0.0002444312548166286,
      "loss": 3.8715,
      "step": 137390
    },
    {
      "epoch": 0.28625,
      "grad_norm": 0.808681070804596,
      "learning_rate": 0.00024442359484426105,
      "loss": 3.9792,
      "step": 137400
    },
    {
      "epoch": 0.2862708333333333,
      "grad_norm": 0.7663667798042297,
      "learning_rate": 0.00024441593446402097,
      "loss": 4.0969,
      "step": 137410
    },
    {
      "epoch": 0.28629166666666667,
      "grad_norm": 0.7514736652374268,
      "learning_rate": 0.00024440827367594144,
      "loss": 4.0238,
      "step": 137420
    },
    {
      "epoch": 0.2863125,
      "grad_norm": 0.831418514251709,
      "learning_rate": 0.00024440061248005553,
      "loss": 3.7975,
      "step": 137430
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 0.8342879414558411,
      "learning_rate": 0.0002443929508763963,
      "loss": 4.1814,
      "step": 137440
    },
    {
      "epoch": 0.2863541666666667,
      "grad_norm": 0.7775106430053711,
      "learning_rate": 0.0002443852888649969,
      "loss": 3.9871,
      "step": 137450
    },
    {
      "epoch": 0.286375,
      "grad_norm": 0.8592028021812439,
      "learning_rate": 0.00024437762644589044,
      "loss": 4.0227,
      "step": 137460
    },
    {
      "epoch": 0.28639583333333335,
      "grad_norm": 0.7809467911720276,
      "learning_rate": 0.00024436996361911,
      "loss": 3.9267,
      "step": 137470
    },
    {
      "epoch": 0.28641666666666665,
      "grad_norm": 0.7182355523109436,
      "learning_rate": 0.00024436230038468856,
      "loss": 3.923,
      "step": 137480
    },
    {
      "epoch": 0.2864375,
      "grad_norm": 0.7535486221313477,
      "learning_rate": 0.0002443546367426595,
      "loss": 3.9865,
      "step": 137490
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 0.7717490196228027,
      "learning_rate": 0.00024434697269305565,
      "loss": 3.972,
      "step": 137500
    },
    {
      "epoch": 0.2864791666666667,
      "grad_norm": 0.8081349730491638,
      "learning_rate": 0.00024433930823591026,
      "loss": 3.9004,
      "step": 137510
    },
    {
      "epoch": 0.2865,
      "grad_norm": 0.8559232950210571,
      "learning_rate": 0.00024433164337125636,
      "loss": 4.0608,
      "step": 137520
    },
    {
      "epoch": 0.28652083333333334,
      "grad_norm": 0.7379766702651978,
      "learning_rate": 0.00024432397809912715,
      "loss": 4.0762,
      "step": 137530
    },
    {
      "epoch": 0.28654166666666664,
      "grad_norm": 0.7919869422912598,
      "learning_rate": 0.0002443163124195556,
      "loss": 4.0053,
      "step": 137540
    },
    {
      "epoch": 0.2865625,
      "grad_norm": 0.8679970502853394,
      "learning_rate": 0.000244308646332575,
      "loss": 3.9509,
      "step": 137550
    },
    {
      "epoch": 0.28658333333333336,
      "grad_norm": 0.725890576839447,
      "learning_rate": 0.0002443009798382184,
      "loss": 3.934,
      "step": 137560
    },
    {
      "epoch": 0.28660416666666666,
      "grad_norm": 0.7367472052574158,
      "learning_rate": 0.00024429331293651885,
      "loss": 4.0929,
      "step": 137570
    },
    {
      "epoch": 0.286625,
      "grad_norm": 0.9591781497001648,
      "learning_rate": 0.00024428564562750947,
      "loss": 3.9046,
      "step": 137580
    },
    {
      "epoch": 0.2866458333333333,
      "grad_norm": 0.8736756443977356,
      "learning_rate": 0.0002442779779112235,
      "loss": 3.9341,
      "step": 137590
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 0.7920759320259094,
      "learning_rate": 0.00024427030978769397,
      "loss": 4.1237,
      "step": 137600
    },
    {
      "epoch": 0.2866875,
      "grad_norm": 0.7597679495811462,
      "learning_rate": 0.000244262641256954,
      "loss": 3.906,
      "step": 137610
    },
    {
      "epoch": 0.28670833333333334,
      "grad_norm": 0.8314511179924011,
      "learning_rate": 0.0002442549723190367,
      "loss": 4.1066,
      "step": 137620
    },
    {
      "epoch": 0.28672916666666665,
      "grad_norm": 0.8090642690658569,
      "learning_rate": 0.0002442473029739753,
      "loss": 3.8609,
      "step": 137630
    },
    {
      "epoch": 0.28675,
      "grad_norm": 0.7920119166374207,
      "learning_rate": 0.0002442396332218028,
      "loss": 3.8443,
      "step": 137640
    },
    {
      "epoch": 0.2867708333333333,
      "grad_norm": 0.7530723810195923,
      "learning_rate": 0.00024423196306255237,
      "loss": 4.0708,
      "step": 137650
    },
    {
      "epoch": 0.28679166666666667,
      "grad_norm": 0.7999330163002014,
      "learning_rate": 0.0002442242924962572,
      "loss": 4.1638,
      "step": 137660
    },
    {
      "epoch": 0.2868125,
      "grad_norm": 0.8956298828125,
      "learning_rate": 0.0002442166215229504,
      "loss": 3.9805,
      "step": 137670
    },
    {
      "epoch": 0.28683333333333333,
      "grad_norm": 0.7665113806724548,
      "learning_rate": 0.00024420895014266506,
      "loss": 4.0079,
      "step": 137680
    },
    {
      "epoch": 0.2868541666666667,
      "grad_norm": 0.8076303005218506,
      "learning_rate": 0.0002442012783554343,
      "loss": 3.9906,
      "step": 137690
    },
    {
      "epoch": 0.286875,
      "grad_norm": 0.7878758311271667,
      "learning_rate": 0.0002441936061612914,
      "loss": 4.0965,
      "step": 137700
    },
    {
      "epoch": 0.28689583333333335,
      "grad_norm": 0.9169098734855652,
      "learning_rate": 0.0002441859335602693,
      "loss": 4.1362,
      "step": 137710
    },
    {
      "epoch": 0.28691666666666665,
      "grad_norm": 0.7553550004959106,
      "learning_rate": 0.00024417826055240133,
      "loss": 3.9869,
      "step": 137720
    },
    {
      "epoch": 0.2869375,
      "grad_norm": 0.7621012330055237,
      "learning_rate": 0.0002441705871377206,
      "loss": 4.0229,
      "step": 137730
    },
    {
      "epoch": 0.2869583333333333,
      "grad_norm": 0.8096876740455627,
      "learning_rate": 0.0002441629133162601,
      "loss": 3.9431,
      "step": 137740
    },
    {
      "epoch": 0.2869791666666667,
      "grad_norm": 0.785203754901886,
      "learning_rate": 0.00024415523908805314,
      "loss": 4.0894,
      "step": 137750
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.7535802125930786,
      "learning_rate": 0.0002441475644531328,
      "loss": 4.2743,
      "step": 137760
    },
    {
      "epoch": 0.28702083333333334,
      "grad_norm": 0.8503373861312866,
      "learning_rate": 0.00024413988941153223,
      "loss": 3.9899,
      "step": 137770
    },
    {
      "epoch": 0.28704166666666664,
      "grad_norm": 0.7550219297409058,
      "learning_rate": 0.00024413221396328463,
      "loss": 3.9516,
      "step": 137780
    },
    {
      "epoch": 0.2870625,
      "grad_norm": 0.8641082644462585,
      "learning_rate": 0.0002441245381084231,
      "loss": 4.1391,
      "step": 137790
    },
    {
      "epoch": 0.28708333333333336,
      "grad_norm": 0.801468551158905,
      "learning_rate": 0.00024411686184698083,
      "loss": 3.964,
      "step": 137800
    },
    {
      "epoch": 0.28710416666666666,
      "grad_norm": 0.7689648270606995,
      "learning_rate": 0.00024410918517899101,
      "loss": 3.9275,
      "step": 137810
    },
    {
      "epoch": 0.287125,
      "grad_norm": 0.8377531170845032,
      "learning_rate": 0.0002441015081044867,
      "loss": 3.9204,
      "step": 137820
    },
    {
      "epoch": 0.2871458333333333,
      "grad_norm": 0.8220085501670837,
      "learning_rate": 0.00024409383062350113,
      "loss": 4.0968,
      "step": 137830
    },
    {
      "epoch": 0.2871666666666667,
      "grad_norm": 0.7383702397346497,
      "learning_rate": 0.00024408615273606752,
      "loss": 3.9046,
      "step": 137840
    },
    {
      "epoch": 0.2871875,
      "grad_norm": 0.7471131682395935,
      "learning_rate": 0.0002440784744422189,
      "loss": 3.8109,
      "step": 137850
    },
    {
      "epoch": 0.28720833333333334,
      "grad_norm": 0.7886447310447693,
      "learning_rate": 0.0002440707957419886,
      "loss": 3.9405,
      "step": 137860
    },
    {
      "epoch": 0.28722916666666665,
      "grad_norm": 0.8709381818771362,
      "learning_rate": 0.00024406311663540962,
      "loss": 3.9927,
      "step": 137870
    },
    {
      "epoch": 0.28725,
      "grad_norm": 0.7721112966537476,
      "learning_rate": 0.00024405543712251523,
      "loss": 4.0422,
      "step": 137880
    },
    {
      "epoch": 0.2872708333333333,
      "grad_norm": 0.926626443862915,
      "learning_rate": 0.00024404775720333855,
      "loss": 3.9473,
      "step": 137890
    },
    {
      "epoch": 0.28729166666666667,
      "grad_norm": 0.8111643195152283,
      "learning_rate": 0.00024404007687791284,
      "loss": 3.9593,
      "step": 137900
    },
    {
      "epoch": 0.2873125,
      "grad_norm": 0.8030256628990173,
      "learning_rate": 0.00024403239614627118,
      "loss": 3.9981,
      "step": 137910
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 0.7626287937164307,
      "learning_rate": 0.0002440247150084468,
      "loss": 3.9545,
      "step": 137920
    },
    {
      "epoch": 0.2873541666666667,
      "grad_norm": 0.7723128795623779,
      "learning_rate": 0.00024401703346447288,
      "loss": 4.0789,
      "step": 137930
    },
    {
      "epoch": 0.287375,
      "grad_norm": 0.9329668879508972,
      "learning_rate": 0.0002440093515143826,
      "loss": 4.2891,
      "step": 137940
    },
    {
      "epoch": 0.28739583333333335,
      "grad_norm": 0.8493359088897705,
      "learning_rate": 0.00024400166915820913,
      "loss": 4.077,
      "step": 137950
    },
    {
      "epoch": 0.28741666666666665,
      "grad_norm": 0.7285582423210144,
      "learning_rate": 0.00024399398639598564,
      "loss": 4.0797,
      "step": 137960
    },
    {
      "epoch": 0.2874375,
      "grad_norm": 0.7603830099105835,
      "learning_rate": 0.0002439863032277453,
      "loss": 3.9551,
      "step": 137970
    },
    {
      "epoch": 0.2874583333333333,
      "grad_norm": 0.7587705850601196,
      "learning_rate": 0.00024397861965352145,
      "loss": 3.9719,
      "step": 137980
    },
    {
      "epoch": 0.2874791666666667,
      "grad_norm": 0.7179536819458008,
      "learning_rate": 0.00024397093567334703,
      "loss": 3.9326,
      "step": 137990
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.894500195980072,
      "learning_rate": 0.00024396325128725542,
      "loss": 3.9751,
      "step": 138000
    },
    {
      "epoch": 0.2875,
      "eval_loss": 3.7465572357177734,
      "eval_runtime": 6.8948,
      "eval_samples_per_second": 1.45,
      "eval_steps_per_second": 0.435,
      "step": 138000
    },
    {
      "epoch": 0.28752083333333334,
      "grad_norm": 0.7932220697402954,
      "learning_rate": 0.00024395556649527974,
      "loss": 4.0593,
      "step": 138010
    },
    {
      "epoch": 0.28754166666666664,
      "grad_norm": 0.7669384479522705,
      "learning_rate": 0.00024394788129745326,
      "loss": 4.0205,
      "step": 138020
    },
    {
      "epoch": 0.2875625,
      "grad_norm": 0.7288495898246765,
      "learning_rate": 0.00024394019569380906,
      "loss": 4.2271,
      "step": 138030
    },
    {
      "epoch": 0.28758333333333336,
      "grad_norm": 0.9297260046005249,
      "learning_rate": 0.0002439325096843804,
      "loss": 4.016,
      "step": 138040
    },
    {
      "epoch": 0.28760416666666666,
      "grad_norm": 0.779375433921814,
      "learning_rate": 0.00024392482326920052,
      "loss": 4.0364,
      "step": 138050
    },
    {
      "epoch": 0.287625,
      "grad_norm": 0.7981878519058228,
      "learning_rate": 0.00024391713644830257,
      "loss": 3.8581,
      "step": 138060
    },
    {
      "epoch": 0.2876458333333333,
      "grad_norm": 0.7490353584289551,
      "learning_rate": 0.00024390944922171974,
      "loss": 4.2126,
      "step": 138070
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 0.7220879197120667,
      "learning_rate": 0.00024390176158948525,
      "loss": 4.1624,
      "step": 138080
    },
    {
      "epoch": 0.2876875,
      "grad_norm": 1.0140511989593506,
      "learning_rate": 0.00024389407355163237,
      "loss": 3.6133,
      "step": 138090
    },
    {
      "epoch": 0.28770833333333334,
      "grad_norm": 0.8142969012260437,
      "learning_rate": 0.00024388638510819424,
      "loss": 3.9861,
      "step": 138100
    },
    {
      "epoch": 0.28772916666666665,
      "grad_norm": 0.8085256814956665,
      "learning_rate": 0.00024387869625920407,
      "loss": 3.9882,
      "step": 138110
    },
    {
      "epoch": 0.28775,
      "grad_norm": 0.7879698872566223,
      "learning_rate": 0.00024387100700469513,
      "loss": 4.0479,
      "step": 138120
    },
    {
      "epoch": 0.2877708333333333,
      "grad_norm": 0.7240688800811768,
      "learning_rate": 0.00024386331734470057,
      "loss": 3.9601,
      "step": 138130
    },
    {
      "epoch": 0.28779166666666667,
      "grad_norm": 0.8002089858055115,
      "learning_rate": 0.0002438556272792536,
      "loss": 4.1522,
      "step": 138140
    },
    {
      "epoch": 0.2878125,
      "grad_norm": 0.7840799689292908,
      "learning_rate": 0.00024384793680838754,
      "loss": 3.9649,
      "step": 138150
    },
    {
      "epoch": 0.28783333333333333,
      "grad_norm": 0.7380214929580688,
      "learning_rate": 0.0002438402459321355,
      "loss": 3.9551,
      "step": 138160
    },
    {
      "epoch": 0.2878541666666667,
      "grad_norm": 0.8137924075126648,
      "learning_rate": 0.00024383255465053072,
      "loss": 4.0024,
      "step": 138170
    },
    {
      "epoch": 0.287875,
      "grad_norm": 1.3236862421035767,
      "learning_rate": 0.00024382486296360651,
      "loss": 3.8778,
      "step": 138180
    },
    {
      "epoch": 0.28789583333333335,
      "grad_norm": 0.7199214100837708,
      "learning_rate": 0.00024381717087139599,
      "loss": 3.9508,
      "step": 138190
    },
    {
      "epoch": 0.28791666666666665,
      "grad_norm": 0.9645556211471558,
      "learning_rate": 0.00024380947837393237,
      "loss": 3.9387,
      "step": 138200
    },
    {
      "epoch": 0.2879375,
      "grad_norm": 0.7867399454116821,
      "learning_rate": 0.00024380178547124903,
      "loss": 3.98,
      "step": 138210
    },
    {
      "epoch": 0.2879583333333333,
      "grad_norm": 0.7476775646209717,
      "learning_rate": 0.00024379409216337906,
      "loss": 3.9424,
      "step": 138220
    },
    {
      "epoch": 0.2879791666666667,
      "grad_norm": 0.8849606513977051,
      "learning_rate": 0.00024378639845035579,
      "loss": 3.8787,
      "step": 138230
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.7556021809577942,
      "learning_rate": 0.00024377870433221231,
      "loss": 4.074,
      "step": 138240
    },
    {
      "epoch": 0.28802083333333334,
      "grad_norm": 0.8278017640113831,
      "learning_rate": 0.00024377100980898202,
      "loss": 4.0776,
      "step": 138250
    },
    {
      "epoch": 0.28804166666666664,
      "grad_norm": 0.7326446771621704,
      "learning_rate": 0.00024376331488069804,
      "loss": 4.0487,
      "step": 138260
    },
    {
      "epoch": 0.2880625,
      "grad_norm": 0.7575957179069519,
      "learning_rate": 0.0002437556195473937,
      "loss": 4.0531,
      "step": 138270
    },
    {
      "epoch": 0.28808333333333336,
      "grad_norm": 0.7642882466316223,
      "learning_rate": 0.00024374792380910218,
      "loss": 4.1678,
      "step": 138280
    },
    {
      "epoch": 0.28810416666666666,
      "grad_norm": 0.7417822480201721,
      "learning_rate": 0.00024374022766585676,
      "loss": 3.9802,
      "step": 138290
    },
    {
      "epoch": 0.288125,
      "grad_norm": 0.7513571381568909,
      "learning_rate": 0.00024373253111769058,
      "loss": 4.1319,
      "step": 138300
    },
    {
      "epoch": 0.2881458333333333,
      "grad_norm": 0.8824209570884705,
      "learning_rate": 0.00024372483416463704,
      "loss": 3.9469,
      "step": 138310
    },
    {
      "epoch": 0.2881666666666667,
      "grad_norm": 0.7482275366783142,
      "learning_rate": 0.00024371713680672931,
      "loss": 3.9283,
      "step": 138320
    },
    {
      "epoch": 0.2881875,
      "grad_norm": 0.7859018445014954,
      "learning_rate": 0.0002437094390440006,
      "loss": 3.7295,
      "step": 138330
    },
    {
      "epoch": 0.28820833333333334,
      "grad_norm": 1.4879814386367798,
      "learning_rate": 0.00024370174087648422,
      "loss": 4.099,
      "step": 138340
    },
    {
      "epoch": 0.28822916666666665,
      "grad_norm": 0.8659790754318237,
      "learning_rate": 0.00024369404230421344,
      "loss": 4.0374,
      "step": 138350
    },
    {
      "epoch": 0.28825,
      "grad_norm": 0.7018887400627136,
      "learning_rate": 0.00024368634332722148,
      "loss": 3.9181,
      "step": 138360
    },
    {
      "epoch": 0.2882708333333333,
      "grad_norm": 0.6973236203193665,
      "learning_rate": 0.0002436786439455416,
      "loss": 3.9834,
      "step": 138370
    },
    {
      "epoch": 0.28829166666666667,
      "grad_norm": 0.820138156414032,
      "learning_rate": 0.000243670944159207,
      "loss": 4.1255,
      "step": 138380
    },
    {
      "epoch": 0.2883125,
      "grad_norm": 0.8240575194358826,
      "learning_rate": 0.00024366324396825107,
      "loss": 4.0579,
      "step": 138390
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 0.7932620048522949,
      "learning_rate": 0.00024365554337270697,
      "loss": 4.027,
      "step": 138400
    },
    {
      "epoch": 0.2883541666666667,
      "grad_norm": 0.7720601558685303,
      "learning_rate": 0.000243647842372608,
      "loss": 3.9726,
      "step": 138410
    },
    {
      "epoch": 0.288375,
      "grad_norm": 0.770940899848938,
      "learning_rate": 0.0002436401409679874,
      "loss": 3.9457,
      "step": 138420
    },
    {
      "epoch": 0.28839583333333335,
      "grad_norm": 0.7464759349822998,
      "learning_rate": 0.0002436324391588785,
      "loss": 4.0143,
      "step": 138430
    },
    {
      "epoch": 0.28841666666666665,
      "grad_norm": 0.7856998443603516,
      "learning_rate": 0.00024362473694531452,
      "loss": 3.8005,
      "step": 138440
    },
    {
      "epoch": 0.2884375,
      "grad_norm": 0.8336402177810669,
      "learning_rate": 0.0002436170343273287,
      "loss": 4.1706,
      "step": 138450
    },
    {
      "epoch": 0.2884583333333333,
      "grad_norm": 0.7552240490913391,
      "learning_rate": 0.00024360933130495436,
      "loss": 3.9088,
      "step": 138460
    },
    {
      "epoch": 0.2884791666666667,
      "grad_norm": 0.7531025409698486,
      "learning_rate": 0.00024360162787822476,
      "loss": 3.9462,
      "step": 138470
    },
    {
      "epoch": 0.2885,
      "grad_norm": 0.8747081756591797,
      "learning_rate": 0.0002435939240471732,
      "loss": 4.0668,
      "step": 138480
    },
    {
      "epoch": 0.28852083333333334,
      "grad_norm": 0.7141082882881165,
      "learning_rate": 0.00024358621981183292,
      "loss": 3.8191,
      "step": 138490
    },
    {
      "epoch": 0.28854166666666664,
      "grad_norm": 0.8151835799217224,
      "learning_rate": 0.0002435785151722372,
      "loss": 3.8734,
      "step": 138500
    },
    {
      "epoch": 0.2885625,
      "grad_norm": 0.7991215586662292,
      "learning_rate": 0.00024357081012841935,
      "loss": 3.9328,
      "step": 138510
    },
    {
      "epoch": 0.28858333333333336,
      "grad_norm": 0.7279332876205444,
      "learning_rate": 0.0002435631046804126,
      "loss": 3.6948,
      "step": 138520
    },
    {
      "epoch": 0.28860416666666666,
      "grad_norm": 0.8280233144760132,
      "learning_rate": 0.00024355539882825033,
      "loss": 4.0468,
      "step": 138530
    },
    {
      "epoch": 0.288625,
      "grad_norm": 0.7427128553390503,
      "learning_rate": 0.00024354769257196578,
      "loss": 4.0345,
      "step": 138540
    },
    {
      "epoch": 0.2886458333333333,
      "grad_norm": 0.7876370549201965,
      "learning_rate": 0.00024353998591159217,
      "loss": 4.1626,
      "step": 138550
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 0.7902149558067322,
      "learning_rate": 0.00024353227884716292,
      "loss": 3.8062,
      "step": 138560
    },
    {
      "epoch": 0.2886875,
      "grad_norm": 0.9206040501594543,
      "learning_rate": 0.00024352457137871117,
      "loss": 3.9618,
      "step": 138570
    },
    {
      "epoch": 0.28870833333333334,
      "grad_norm": 0.7393410801887512,
      "learning_rate": 0.00024351686350627033,
      "loss": 3.9715,
      "step": 138580
    },
    {
      "epoch": 0.28872916666666665,
      "grad_norm": 0.8897181749343872,
      "learning_rate": 0.00024350915522987362,
      "loss": 3.9494,
      "step": 138590
    },
    {
      "epoch": 0.28875,
      "grad_norm": 0.7715655565261841,
      "learning_rate": 0.0002435014465495544,
      "loss": 3.8783,
      "step": 138600
    },
    {
      "epoch": 0.2887708333333333,
      "grad_norm": 0.6971968412399292,
      "learning_rate": 0.00024349373746534596,
      "loss": 3.7027,
      "step": 138610
    },
    {
      "epoch": 0.28879166666666667,
      "grad_norm": 0.7947878837585449,
      "learning_rate": 0.00024348602797728155,
      "loss": 4.0035,
      "step": 138620
    },
    {
      "epoch": 0.2888125,
      "grad_norm": 0.7877031564712524,
      "learning_rate": 0.00024347831808539455,
      "loss": 3.9582,
      "step": 138630
    },
    {
      "epoch": 0.28883333333333333,
      "grad_norm": 0.7589215040206909,
      "learning_rate": 0.00024347060778971816,
      "loss": 3.8621,
      "step": 138640
    },
    {
      "epoch": 0.2888541666666667,
      "grad_norm": 0.8282244205474854,
      "learning_rate": 0.00024346289709028577,
      "loss": 3.8582,
      "step": 138650
    },
    {
      "epoch": 0.288875,
      "grad_norm": 0.8575578927993774,
      "learning_rate": 0.00024345518598713068,
      "loss": 3.8782,
      "step": 138660
    },
    {
      "epoch": 0.28889583333333335,
      "grad_norm": 0.865720272064209,
      "learning_rate": 0.00024344747448028613,
      "loss": 3.9343,
      "step": 138670
    },
    {
      "epoch": 0.28891666666666665,
      "grad_norm": 0.7612379193305969,
      "learning_rate": 0.00024343976256978553,
      "loss": 4.1021,
      "step": 138680
    },
    {
      "epoch": 0.2889375,
      "grad_norm": 0.8409243822097778,
      "learning_rate": 0.0002434320502556621,
      "loss": 3.8691,
      "step": 138690
    },
    {
      "epoch": 0.2889583333333333,
      "grad_norm": 0.816243052482605,
      "learning_rate": 0.0002434243375379492,
      "loss": 3.722,
      "step": 138700
    },
    {
      "epoch": 0.2889791666666667,
      "grad_norm": 0.7341222763061523,
      "learning_rate": 0.00024341662441668016,
      "loss": 3.9677,
      "step": 138710
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.8145873546600342,
      "learning_rate": 0.00024340891089188826,
      "loss": 3.9079,
      "step": 138720
    },
    {
      "epoch": 0.28902083333333334,
      "grad_norm": 0.7961815595626831,
      "learning_rate": 0.00024340119696360685,
      "loss": 3.929,
      "step": 138730
    },
    {
      "epoch": 0.28904166666666664,
      "grad_norm": 0.9924404621124268,
      "learning_rate": 0.00024339348263186924,
      "loss": 3.9595,
      "step": 138740
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 0.7751802206039429,
      "learning_rate": 0.00024338576789670875,
      "loss": 3.9461,
      "step": 138750
    },
    {
      "epoch": 0.28908333333333336,
      "grad_norm": 0.8103750348091125,
      "learning_rate": 0.00024337805275815872,
      "loss": 3.988,
      "step": 138760
    },
    {
      "epoch": 0.28910416666666666,
      "grad_norm": 0.9950090646743774,
      "learning_rate": 0.00024337033721625248,
      "loss": 3.8813,
      "step": 138770
    },
    {
      "epoch": 0.289125,
      "grad_norm": 0.8538419008255005,
      "learning_rate": 0.0002433626212710233,
      "loss": 4.1106,
      "step": 138780
    },
    {
      "epoch": 0.2891458333333333,
      "grad_norm": 0.7544375658035278,
      "learning_rate": 0.00024335490492250457,
      "loss": 4.0155,
      "step": 138790
    },
    {
      "epoch": 0.2891666666666667,
      "grad_norm": 0.8423246145248413,
      "learning_rate": 0.0002433471881707296,
      "loss": 3.9768,
      "step": 138800
    },
    {
      "epoch": 0.2891875,
      "grad_norm": 0.8132842779159546,
      "learning_rate": 0.00024333947101573173,
      "loss": 3.8713,
      "step": 138810
    },
    {
      "epoch": 0.28920833333333335,
      "grad_norm": 0.7556527256965637,
      "learning_rate": 0.00024333175345754433,
      "loss": 4.0031,
      "step": 138820
    },
    {
      "epoch": 0.28922916666666665,
      "grad_norm": 1.024218201637268,
      "learning_rate": 0.00024332403549620063,
      "loss": 4.0595,
      "step": 138830
    },
    {
      "epoch": 0.28925,
      "grad_norm": 0.8092604279518127,
      "learning_rate": 0.00024331631713173408,
      "loss": 3.9705,
      "step": 138840
    },
    {
      "epoch": 0.2892708333333333,
      "grad_norm": 0.7141039371490479,
      "learning_rate": 0.00024330859836417794,
      "loss": 3.9785,
      "step": 138850
    },
    {
      "epoch": 0.28929166666666667,
      "grad_norm": 0.8143853545188904,
      "learning_rate": 0.0002433008791935656,
      "loss": 3.9416,
      "step": 138860
    },
    {
      "epoch": 0.2893125,
      "grad_norm": 0.7463140487670898,
      "learning_rate": 0.0002432931596199304,
      "loss": 4.0765,
      "step": 138870
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 0.7461904287338257,
      "learning_rate": 0.0002432854396433057,
      "loss": 4.0541,
      "step": 138880
    },
    {
      "epoch": 0.2893541666666667,
      "grad_norm": 0.8527030944824219,
      "learning_rate": 0.0002432777192637248,
      "loss": 4.11,
      "step": 138890
    },
    {
      "epoch": 0.289375,
      "grad_norm": 0.8020114898681641,
      "learning_rate": 0.00024326999848122108,
      "loss": 4.0436,
      "step": 138900
    },
    {
      "epoch": 0.28939583333333335,
      "grad_norm": 0.7566932439804077,
      "learning_rate": 0.0002432622772958279,
      "loss": 4.0813,
      "step": 138910
    },
    {
      "epoch": 0.28941666666666666,
      "grad_norm": 0.761528730392456,
      "learning_rate": 0.00024325455570757857,
      "loss": 4.0813,
      "step": 138920
    },
    {
      "epoch": 0.2894375,
      "grad_norm": 0.7647620439529419,
      "learning_rate": 0.0002432468337165065,
      "loss": 3.7926,
      "step": 138930
    },
    {
      "epoch": 0.2894583333333333,
      "grad_norm": 0.7681339383125305,
      "learning_rate": 0.000243239111322645,
      "loss": 4.0389,
      "step": 138940
    },
    {
      "epoch": 0.2894791666666667,
      "grad_norm": 0.7766069769859314,
      "learning_rate": 0.00024323138852602746,
      "loss": 4.0437,
      "step": 138950
    },
    {
      "epoch": 0.2895,
      "grad_norm": 0.8191729784011841,
      "learning_rate": 0.0002432236653266872,
      "loss": 4.1449,
      "step": 138960
    },
    {
      "epoch": 0.28952083333333334,
      "grad_norm": 0.7864148616790771,
      "learning_rate": 0.00024321594172465767,
      "loss": 3.9997,
      "step": 138970
    },
    {
      "epoch": 0.28954166666666664,
      "grad_norm": 0.9136655330657959,
      "learning_rate": 0.0002432082177199721,
      "loss": 4.1314,
      "step": 138980
    },
    {
      "epoch": 0.2895625,
      "grad_norm": 0.7688316106796265,
      "learning_rate": 0.00024320049331266397,
      "loss": 4.0986,
      "step": 138990
    },
    {
      "epoch": 0.28958333333333336,
      "grad_norm": 0.7836891412734985,
      "learning_rate": 0.00024319276850276654,
      "loss": 3.8191,
      "step": 139000
    },
    {
      "epoch": 0.28958333333333336,
      "eval_loss": 3.746075391769409,
      "eval_runtime": 6.8069,
      "eval_samples_per_second": 1.469,
      "eval_steps_per_second": 0.441,
      "step": 139000
    },
    {
      "epoch": 0.28960416666666666,
      "grad_norm": 0.7588001489639282,
      "learning_rate": 0.00024318504329031327,
      "loss": 4.0938,
      "step": 139010
    },
    {
      "epoch": 0.289625,
      "grad_norm": 0.7824798226356506,
      "learning_rate": 0.00024317731767533753,
      "loss": 4.1465,
      "step": 139020
    },
    {
      "epoch": 0.2896458333333333,
      "grad_norm": 0.8092018961906433,
      "learning_rate": 0.0002431695916578726,
      "loss": 3.9652,
      "step": 139030
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 0.7967414259910583,
      "learning_rate": 0.00024316186523795194,
      "loss": 3.9293,
      "step": 139040
    },
    {
      "epoch": 0.2896875,
      "grad_norm": 0.7492998242378235,
      "learning_rate": 0.0002431541384156089,
      "loss": 3.9201,
      "step": 139050
    },
    {
      "epoch": 0.28970833333333335,
      "grad_norm": 0.8856657147407532,
      "learning_rate": 0.0002431464111908769,
      "loss": 3.9964,
      "step": 139060
    },
    {
      "epoch": 0.28972916666666665,
      "grad_norm": 0.7826398015022278,
      "learning_rate": 0.0002431386835637892,
      "loss": 4.0504,
      "step": 139070
    },
    {
      "epoch": 0.28975,
      "grad_norm": 0.843086302280426,
      "learning_rate": 0.0002431309555343793,
      "loss": 3.9771,
      "step": 139080
    },
    {
      "epoch": 0.2897708333333333,
      "grad_norm": 0.8000922203063965,
      "learning_rate": 0.00024312322710268053,
      "loss": 3.9913,
      "step": 139090
    },
    {
      "epoch": 0.28979166666666667,
      "grad_norm": 0.7444766759872437,
      "learning_rate": 0.0002431154982687263,
      "loss": 3.9865,
      "step": 139100
    },
    {
      "epoch": 0.2898125,
      "grad_norm": 0.8459768295288086,
      "learning_rate": 0.00024310776903254994,
      "loss": 3.989,
      "step": 139110
    },
    {
      "epoch": 0.28983333333333333,
      "grad_norm": 0.7726202011108398,
      "learning_rate": 0.00024310003939418483,
      "loss": 4.0266,
      "step": 139120
    },
    {
      "epoch": 0.2898541666666667,
      "grad_norm": 0.7195678949356079,
      "learning_rate": 0.0002430923093536645,
      "loss": 4.1088,
      "step": 139130
    },
    {
      "epoch": 0.289875,
      "grad_norm": 0.7220943570137024,
      "learning_rate": 0.0002430845789110222,
      "loss": 4.0928,
      "step": 139140
    },
    {
      "epoch": 0.28989583333333335,
      "grad_norm": 0.7537680268287659,
      "learning_rate": 0.00024307684806629132,
      "loss": 3.9386,
      "step": 139150
    },
    {
      "epoch": 0.28991666666666666,
      "grad_norm": 0.7787758708000183,
      "learning_rate": 0.00024306911681950538,
      "loss": 3.9613,
      "step": 139160
    },
    {
      "epoch": 0.2899375,
      "grad_norm": 0.9843363761901855,
      "learning_rate": 0.0002430613851706976,
      "loss": 3.9782,
      "step": 139170
    },
    {
      "epoch": 0.2899583333333333,
      "grad_norm": 0.7691644430160522,
      "learning_rate": 0.00024305365311990152,
      "loss": 3.9705,
      "step": 139180
    },
    {
      "epoch": 0.2899791666666667,
      "grad_norm": 0.906472384929657,
      "learning_rate": 0.00024304592066715054,
      "loss": 3.9767,
      "step": 139190
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9146929979324341,
      "learning_rate": 0.00024303818781247794,
      "loss": 3.9446,
      "step": 139200
    },
    {
      "epoch": 0.29002083333333334,
      "grad_norm": 0.7769106030464172,
      "learning_rate": 0.00024303045455591722,
      "loss": 4.0573,
      "step": 139210
    },
    {
      "epoch": 0.29004166666666664,
      "grad_norm": 0.8856679797172546,
      "learning_rate": 0.00024302272089750176,
      "loss": 3.9882,
      "step": 139220
    },
    {
      "epoch": 0.2900625,
      "grad_norm": 0.8378260731697083,
      "learning_rate": 0.00024301498683726498,
      "loss": 4.0098,
      "step": 139230
    },
    {
      "epoch": 0.29008333333333336,
      "grad_norm": 0.7906208038330078,
      "learning_rate": 0.00024300725237524028,
      "loss": 3.9412,
      "step": 139240
    },
    {
      "epoch": 0.29010416666666666,
      "grad_norm": 0.831558108329773,
      "learning_rate": 0.00024299951751146105,
      "loss": 4.0049,
      "step": 139250
    },
    {
      "epoch": 0.290125,
      "grad_norm": 0.796495258808136,
      "learning_rate": 0.0002429917822459607,
      "loss": 4.0808,
      "step": 139260
    },
    {
      "epoch": 0.2901458333333333,
      "grad_norm": 0.8309261798858643,
      "learning_rate": 0.0002429840465787727,
      "loss": 4.0694,
      "step": 139270
    },
    {
      "epoch": 0.2901666666666667,
      "grad_norm": 0.8235157132148743,
      "learning_rate": 0.0002429763105099304,
      "loss": 3.9371,
      "step": 139280
    },
    {
      "epoch": 0.2901875,
      "grad_norm": 0.7349348068237305,
      "learning_rate": 0.0002429685740394672,
      "loss": 3.9965,
      "step": 139290
    },
    {
      "epoch": 0.29020833333333335,
      "grad_norm": 0.769432544708252,
      "learning_rate": 0.00024296083716741665,
      "loss": 3.9265,
      "step": 139300
    },
    {
      "epoch": 0.29022916666666665,
      "grad_norm": 0.9758267998695374,
      "learning_rate": 0.00024295309989381202,
      "loss": 3.9237,
      "step": 139310
    },
    {
      "epoch": 0.29025,
      "grad_norm": 0.7688195109367371,
      "learning_rate": 0.00024294536221868677,
      "loss": 3.9347,
      "step": 139320
    },
    {
      "epoch": 0.2902708333333333,
      "grad_norm": 0.8279784321784973,
      "learning_rate": 0.0002429376241420744,
      "loss": 4.0042,
      "step": 139330
    },
    {
      "epoch": 0.29029166666666667,
      "grad_norm": 0.7988240718841553,
      "learning_rate": 0.00024292988566400827,
      "loss": 3.9948,
      "step": 139340
    },
    {
      "epoch": 0.2903125,
      "grad_norm": 0.8510576486587524,
      "learning_rate": 0.00024292214678452178,
      "loss": 3.9313,
      "step": 139350
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 0.9209121465682983,
      "learning_rate": 0.00024291440750364845,
      "loss": 3.9961,
      "step": 139360
    },
    {
      "epoch": 0.2903541666666667,
      "grad_norm": 0.7448903322219849,
      "learning_rate": 0.0002429066678214216,
      "loss": 3.832,
      "step": 139370
    },
    {
      "epoch": 0.290375,
      "grad_norm": 0.8164785504341125,
      "learning_rate": 0.0002428989277378748,
      "loss": 4.0118,
      "step": 139380
    },
    {
      "epoch": 0.29039583333333335,
      "grad_norm": 0.7749481201171875,
      "learning_rate": 0.00024289118725304135,
      "loss": 4.0656,
      "step": 139390
    },
    {
      "epoch": 0.29041666666666666,
      "grad_norm": 0.8684946298599243,
      "learning_rate": 0.00024288344636695474,
      "loss": 3.9181,
      "step": 139400
    },
    {
      "epoch": 0.2904375,
      "grad_norm": 0.8769478797912598,
      "learning_rate": 0.0002428757050796484,
      "loss": 3.9263,
      "step": 139410
    },
    {
      "epoch": 0.2904583333333333,
      "grad_norm": 0.8653531074523926,
      "learning_rate": 0.00024286796339115577,
      "loss": 3.9312,
      "step": 139420
    },
    {
      "epoch": 0.2904791666666667,
      "grad_norm": 0.7378717660903931,
      "learning_rate": 0.00024286022130151034,
      "loss": 3.994,
      "step": 139430
    },
    {
      "epoch": 0.2905,
      "grad_norm": 0.8124694228172302,
      "learning_rate": 0.00024285247881074547,
      "loss": 3.9723,
      "step": 139440
    },
    {
      "epoch": 0.29052083333333334,
      "grad_norm": 0.8712694048881531,
      "learning_rate": 0.00024284473591889465,
      "loss": 3.9289,
      "step": 139450
    },
    {
      "epoch": 0.29054166666666664,
      "grad_norm": 0.8499007225036621,
      "learning_rate": 0.00024283699262599135,
      "loss": 4.2026,
      "step": 139460
    },
    {
      "epoch": 0.2905625,
      "grad_norm": 0.7539523243904114,
      "learning_rate": 0.000242829248932069,
      "loss": 4.2014,
      "step": 139470
    },
    {
      "epoch": 0.29058333333333336,
      "grad_norm": 0.8154317736625671,
      "learning_rate": 0.00024282150483716103,
      "loss": 4.0702,
      "step": 139480
    },
    {
      "epoch": 0.29060416666666666,
      "grad_norm": 0.7699918150901794,
      "learning_rate": 0.00024281376034130086,
      "loss": 4.0182,
      "step": 139490
    },
    {
      "epoch": 0.290625,
      "grad_norm": 0.7982227802276611,
      "learning_rate": 0.00024280601544452202,
      "loss": 3.9245,
      "step": 139500
    },
    {
      "epoch": 0.2906458333333333,
      "grad_norm": 0.7725853323936462,
      "learning_rate": 0.0002427982701468579,
      "loss": 3.9479,
      "step": 139510
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 0.8317965865135193,
      "learning_rate": 0.00024279052444834198,
      "loss": 4.068,
      "step": 139520
    },
    {
      "epoch": 0.2906875,
      "grad_norm": 0.7758607864379883,
      "learning_rate": 0.00024278277834900776,
      "loss": 3.9653,
      "step": 139530
    },
    {
      "epoch": 0.29070833333333335,
      "grad_norm": 0.8864054083824158,
      "learning_rate": 0.00024277503184888866,
      "loss": 3.9463,
      "step": 139540
    },
    {
      "epoch": 0.29072916666666665,
      "grad_norm": 0.7325780391693115,
      "learning_rate": 0.0002427672849480181,
      "loss": 4.1693,
      "step": 139550
    },
    {
      "epoch": 0.29075,
      "grad_norm": 0.8132315874099731,
      "learning_rate": 0.00024275953764642965,
      "loss": 4.0234,
      "step": 139560
    },
    {
      "epoch": 0.2907708333333333,
      "grad_norm": 0.7553157806396484,
      "learning_rate": 0.00024275178994415667,
      "loss": 4.1475,
      "step": 139570
    },
    {
      "epoch": 0.29079166666666667,
      "grad_norm": 0.767671525478363,
      "learning_rate": 0.00024274404184123274,
      "loss": 3.9124,
      "step": 139580
    },
    {
      "epoch": 0.2908125,
      "grad_norm": 0.8182491660118103,
      "learning_rate": 0.0002427362933376912,
      "loss": 4.0756,
      "step": 139590
    },
    {
      "epoch": 0.29083333333333333,
      "grad_norm": 0.8443763852119446,
      "learning_rate": 0.00024272854443356558,
      "loss": 4.0231,
      "step": 139600
    },
    {
      "epoch": 0.2908541666666667,
      "grad_norm": 0.7589812278747559,
      "learning_rate": 0.00024272079512888936,
      "loss": 3.8449,
      "step": 139610
    },
    {
      "epoch": 0.290875,
      "grad_norm": 1.0347470045089722,
      "learning_rate": 0.00024271304542369598,
      "loss": 4.0714,
      "step": 139620
    },
    {
      "epoch": 0.29089583333333335,
      "grad_norm": 0.7764665484428406,
      "learning_rate": 0.00024270529531801897,
      "loss": 3.9193,
      "step": 139630
    },
    {
      "epoch": 0.29091666666666666,
      "grad_norm": 0.8495488166809082,
      "learning_rate": 0.0002426975448118918,
      "loss": 3.9853,
      "step": 139640
    },
    {
      "epoch": 0.2909375,
      "grad_norm": 0.8471779823303223,
      "learning_rate": 0.00024268979390534788,
      "loss": 4.0473,
      "step": 139650
    },
    {
      "epoch": 0.2909583333333333,
      "grad_norm": 0.9880858659744263,
      "learning_rate": 0.00024268204259842075,
      "loss": 4.044,
      "step": 139660
    },
    {
      "epoch": 0.2909791666666667,
      "grad_norm": 0.7245429158210754,
      "learning_rate": 0.00024267429089114392,
      "loss": 4.0328,
      "step": 139670
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.7647435069084167,
      "learning_rate": 0.00024266653878355084,
      "loss": 4.124,
      "step": 139680
    },
    {
      "epoch": 0.29102083333333334,
      "grad_norm": 0.8101850152015686,
      "learning_rate": 0.000242658786275675,
      "loss": 4.0227,
      "step": 139690
    },
    {
      "epoch": 0.29104166666666664,
      "grad_norm": 0.8482509851455688,
      "learning_rate": 0.0002426510333675498,
      "loss": 4.067,
      "step": 139700
    },
    {
      "epoch": 0.2910625,
      "grad_norm": 0.7769283056259155,
      "learning_rate": 0.00024264328005920888,
      "loss": 4.0343,
      "step": 139710
    },
    {
      "epoch": 0.29108333333333336,
      "grad_norm": 0.8325820565223694,
      "learning_rate": 0.00024263552635068564,
      "loss": 4.0554,
      "step": 139720
    },
    {
      "epoch": 0.29110416666666666,
      "grad_norm": 0.827589213848114,
      "learning_rate": 0.00024262777224201356,
      "loss": 4.0697,
      "step": 139730
    },
    {
      "epoch": 0.291125,
      "grad_norm": 0.9031764268875122,
      "learning_rate": 0.0002426200177332262,
      "loss": 4.1569,
      "step": 139740
    },
    {
      "epoch": 0.2911458333333333,
      "grad_norm": 0.7642900347709656,
      "learning_rate": 0.00024261226282435707,
      "loss": 4.0575,
      "step": 139750
    },
    {
      "epoch": 0.2911666666666667,
      "grad_norm": 0.7671197056770325,
      "learning_rate": 0.00024260450751543953,
      "loss": 3.9037,
      "step": 139760
    },
    {
      "epoch": 0.2911875,
      "grad_norm": 0.7397752404212952,
      "learning_rate": 0.00024259675180650722,
      "loss": 3.844,
      "step": 139770
    },
    {
      "epoch": 0.29120833333333335,
      "grad_norm": 0.9582350850105286,
      "learning_rate": 0.0002425889956975936,
      "loss": 3.9474,
      "step": 139780
    },
    {
      "epoch": 0.29122916666666665,
      "grad_norm": 0.7401924729347229,
      "learning_rate": 0.00024258123918873218,
      "loss": 4.0829,
      "step": 139790
    },
    {
      "epoch": 0.29125,
      "grad_norm": 0.7271679043769836,
      "learning_rate": 0.00024257348227995645,
      "loss": 4.0505,
      "step": 139800
    },
    {
      "epoch": 0.2912708333333333,
      "grad_norm": 3.1826894283294678,
      "learning_rate": 0.0002425657249712999,
      "loss": 4.1259,
      "step": 139810
    },
    {
      "epoch": 0.29129166666666667,
      "grad_norm": 0.776674747467041,
      "learning_rate": 0.00024255796726279605,
      "loss": 4.0318,
      "step": 139820
    },
    {
      "epoch": 0.2913125,
      "grad_norm": 0.7563276290893555,
      "learning_rate": 0.00024255020915447845,
      "loss": 4.1032,
      "step": 139830
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 0.750129759311676,
      "learning_rate": 0.00024254245064638053,
      "loss": 3.8741,
      "step": 139840
    },
    {
      "epoch": 0.2913541666666667,
      "grad_norm": 0.9245113134384155,
      "learning_rate": 0.0002425346917385359,
      "loss": 4.1441,
      "step": 139850
    },
    {
      "epoch": 0.291375,
      "grad_norm": 0.7528396248817444,
      "learning_rate": 0.00024252693243097804,
      "loss": 3.8967,
      "step": 139860
    },
    {
      "epoch": 0.29139583333333335,
      "grad_norm": 0.7353835105895996,
      "learning_rate": 0.0002425191727237404,
      "loss": 3.9568,
      "step": 139870
    },
    {
      "epoch": 0.29141666666666666,
      "grad_norm": 0.9580755233764648,
      "learning_rate": 0.0002425114126168566,
      "loss": 3.9988,
      "step": 139880
    },
    {
      "epoch": 0.2914375,
      "grad_norm": 0.9250857830047607,
      "learning_rate": 0.0002425036521103601,
      "loss": 3.9083,
      "step": 139890
    },
    {
      "epoch": 0.2914583333333333,
      "grad_norm": 0.7777038216590881,
      "learning_rate": 0.00024249589120428446,
      "loss": 3.8415,
      "step": 139900
    },
    {
      "epoch": 0.2914791666666667,
      "grad_norm": 0.8002815246582031,
      "learning_rate": 0.00024248812989866316,
      "loss": 3.957,
      "step": 139910
    },
    {
      "epoch": 0.2915,
      "grad_norm": 0.805244505405426,
      "learning_rate": 0.00024248036819352978,
      "loss": 3.9508,
      "step": 139920
    },
    {
      "epoch": 0.29152083333333334,
      "grad_norm": 0.8799578547477722,
      "learning_rate": 0.00024247260608891777,
      "loss": 4.0189,
      "step": 139930
    },
    {
      "epoch": 0.29154166666666664,
      "grad_norm": 0.8859580755233765,
      "learning_rate": 0.00024246484358486073,
      "loss": 4.2332,
      "step": 139940
    },
    {
      "epoch": 0.2915625,
      "grad_norm": 0.8179838061332703,
      "learning_rate": 0.00024245708068139214,
      "loss": 4.0237,
      "step": 139950
    },
    {
      "epoch": 0.29158333333333336,
      "grad_norm": 0.8012758493423462,
      "learning_rate": 0.0002424493173785456,
      "loss": 4.1068,
      "step": 139960
    },
    {
      "epoch": 0.29160416666666666,
      "grad_norm": 0.8744205832481384,
      "learning_rate": 0.00024244155367635455,
      "loss": 3.7598,
      "step": 139970
    },
    {
      "epoch": 0.291625,
      "grad_norm": 0.7904554009437561,
      "learning_rate": 0.00024243378957485264,
      "loss": 4.0107,
      "step": 139980
    },
    {
      "epoch": 0.2916458333333333,
      "grad_norm": 0.7952626347541809,
      "learning_rate": 0.0002424260250740733,
      "loss": 3.8985,
      "step": 139990
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.8117076754570007,
      "learning_rate": 0.00024241826017405016,
      "loss": 4.0677,
      "step": 140000
    },
    {
      "epoch": 0.2916666666666667,
      "eval_loss": 3.7349095344543457,
      "eval_runtime": 6.8083,
      "eval_samples_per_second": 1.469,
      "eval_steps_per_second": 0.441,
      "step": 140000
    },
    {
      "epoch": 0.2916875,
      "grad_norm": 0.7750093340873718,
      "learning_rate": 0.0002424104948748167,
      "loss": 3.8064,
      "step": 140010
    },
    {
      "epoch": 0.29170833333333335,
      "grad_norm": 0.7779818773269653,
      "learning_rate": 0.00024240272917640647,
      "loss": 3.8987,
      "step": 140020
    },
    {
      "epoch": 0.29172916666666665,
      "grad_norm": 0.7495130300521851,
      "learning_rate": 0.00024239496307885302,
      "loss": 3.9557,
      "step": 140030
    },
    {
      "epoch": 0.29175,
      "grad_norm": 0.7686827182769775,
      "learning_rate": 0.0002423871965821899,
      "loss": 3.8472,
      "step": 140040
    },
    {
      "epoch": 0.2917708333333333,
      "grad_norm": 0.7901360988616943,
      "learning_rate": 0.00024237942968645068,
      "loss": 4.0632,
      "step": 140050
    },
    {
      "epoch": 0.29179166666666667,
      "grad_norm": 0.8348902463912964,
      "learning_rate": 0.00024237166239166887,
      "loss": 3.9027,
      "step": 140060
    },
    {
      "epoch": 0.2918125,
      "grad_norm": 0.7975493669509888,
      "learning_rate": 0.00024236389469787806,
      "loss": 3.9751,
      "step": 140070
    },
    {
      "epoch": 0.29183333333333333,
      "grad_norm": 0.8410267233848572,
      "learning_rate": 0.00024235612660511178,
      "loss": 3.8839,
      "step": 140080
    },
    {
      "epoch": 0.2918541666666667,
      "grad_norm": 0.8628489375114441,
      "learning_rate": 0.00024234835811340357,
      "loss": 3.985,
      "step": 140090
    },
    {
      "epoch": 0.291875,
      "grad_norm": 0.773252010345459,
      "learning_rate": 0.00024234058922278703,
      "loss": 3.9739,
      "step": 140100
    },
    {
      "epoch": 0.29189583333333335,
      "grad_norm": 0.7453666925430298,
      "learning_rate": 0.00024233281993329568,
      "loss": 3.9346,
      "step": 140110
    },
    {
      "epoch": 0.29191666666666666,
      "grad_norm": 0.7635448575019836,
      "learning_rate": 0.00024232505024496313,
      "loss": 3.8862,
      "step": 140120
    },
    {
      "epoch": 0.2919375,
      "grad_norm": 0.8766812682151794,
      "learning_rate": 0.00024231728015782286,
      "loss": 4.0762,
      "step": 140130
    },
    {
      "epoch": 0.2919583333333333,
      "grad_norm": 0.7296246290206909,
      "learning_rate": 0.00024230950967190853,
      "loss": 4.0536,
      "step": 140140
    },
    {
      "epoch": 0.2919791666666667,
      "grad_norm": 0.7610067129135132,
      "learning_rate": 0.00024230173878725362,
      "loss": 4.0252,
      "step": 140150
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.7478869557380676,
      "learning_rate": 0.00024229396750389176,
      "loss": 3.9387,
      "step": 140160
    },
    {
      "epoch": 0.29202083333333334,
      "grad_norm": 0.7009652853012085,
      "learning_rate": 0.00024228619582185648,
      "loss": 4.0056,
      "step": 140170
    },
    {
      "epoch": 0.29204166666666664,
      "grad_norm": 0.7157771587371826,
      "learning_rate": 0.00024227842374118134,
      "loss": 4.1049,
      "step": 140180
    },
    {
      "epoch": 0.2920625,
      "grad_norm": 0.7173764109611511,
      "learning_rate": 0.00024227065126189996,
      "loss": 4.0953,
      "step": 140190
    },
    {
      "epoch": 0.2920833333333333,
      "grad_norm": 0.8194385170936584,
      "learning_rate": 0.0002422628783840459,
      "loss": 4.0815,
      "step": 140200
    },
    {
      "epoch": 0.29210416666666666,
      "grad_norm": 0.7560670375823975,
      "learning_rate": 0.0002422551051076527,
      "loss": 4.1,
      "step": 140210
    },
    {
      "epoch": 0.292125,
      "grad_norm": 1.1872317790985107,
      "learning_rate": 0.00024224733143275398,
      "loss": 3.891,
      "step": 140220
    },
    {
      "epoch": 0.2921458333333333,
      "grad_norm": 0.7870981693267822,
      "learning_rate": 0.0002422395573593833,
      "loss": 3.9203,
      "step": 140230
    },
    {
      "epoch": 0.2921666666666667,
      "grad_norm": 0.7587377429008484,
      "learning_rate": 0.00024223178288757425,
      "loss": 4.0567,
      "step": 140240
    },
    {
      "epoch": 0.2921875,
      "grad_norm": 0.7495638728141785,
      "learning_rate": 0.00024222400801736038,
      "loss": 4.0317,
      "step": 140250
    },
    {
      "epoch": 0.29220833333333335,
      "grad_norm": 0.7309072613716125,
      "learning_rate": 0.00024221623274877532,
      "loss": 4.0091,
      "step": 140260
    },
    {
      "epoch": 0.29222916666666665,
      "grad_norm": 0.7151039838790894,
      "learning_rate": 0.00024220845708185264,
      "loss": 3.9043,
      "step": 140270
    },
    {
      "epoch": 0.29225,
      "grad_norm": 0.8704978227615356,
      "learning_rate": 0.0002422006810166259,
      "loss": 3.9764,
      "step": 140280
    },
    {
      "epoch": 0.2922708333333333,
      "grad_norm": 0.7458476424217224,
      "learning_rate": 0.00024219290455312876,
      "loss": 4.151,
      "step": 140290
    },
    {
      "epoch": 0.29229166666666667,
      "grad_norm": 0.8468299508094788,
      "learning_rate": 0.00024218512769139472,
      "loss": 4.0042,
      "step": 140300
    },
    {
      "epoch": 0.2923125,
      "grad_norm": 0.7737309336662292,
      "learning_rate": 0.00024217735043145745,
      "loss": 3.9631,
      "step": 140310
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 0.7847561836242676,
      "learning_rate": 0.00024216957277335048,
      "loss": 3.8688,
      "step": 140320
    },
    {
      "epoch": 0.2923541666666667,
      "grad_norm": 0.7905049920082092,
      "learning_rate": 0.00024216179471710746,
      "loss": 3.8152,
      "step": 140330
    },
    {
      "epoch": 0.292375,
      "grad_norm": 0.8246963620185852,
      "learning_rate": 0.00024215401626276198,
      "loss": 4.062,
      "step": 140340
    },
    {
      "epoch": 0.29239583333333335,
      "grad_norm": 0.9554930329322815,
      "learning_rate": 0.0002421462374103476,
      "loss": 3.8587,
      "step": 140350
    },
    {
      "epoch": 0.29241666666666666,
      "grad_norm": 0.7459953427314758,
      "learning_rate": 0.00024213845815989796,
      "loss": 3.7293,
      "step": 140360
    },
    {
      "epoch": 0.2924375,
      "grad_norm": 0.9879434108734131,
      "learning_rate": 0.00024213067851144664,
      "loss": 3.9945,
      "step": 140370
    },
    {
      "epoch": 0.2924583333333333,
      "grad_norm": 0.7611342072486877,
      "learning_rate": 0.00024212289846502728,
      "loss": 4.0327,
      "step": 140380
    },
    {
      "epoch": 0.2924791666666667,
      "grad_norm": 0.7378029823303223,
      "learning_rate": 0.00024211511802067342,
      "loss": 4.0393,
      "step": 140390
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.7627350687980652,
      "learning_rate": 0.00024210733717841876,
      "loss": 3.8394,
      "step": 140400
    },
    {
      "epoch": 0.29252083333333334,
      "grad_norm": 0.749648928642273,
      "learning_rate": 0.00024209955593829682,
      "loss": 3.9617,
      "step": 140410
    },
    {
      "epoch": 0.29254166666666664,
      "grad_norm": 0.9487677812576294,
      "learning_rate": 0.00024209177430034132,
      "loss": 3.9889,
      "step": 140420
    },
    {
      "epoch": 0.2925625,
      "grad_norm": 0.8394297957420349,
      "learning_rate": 0.00024208399226458574,
      "loss": 4.0225,
      "step": 140430
    },
    {
      "epoch": 0.2925833333333333,
      "grad_norm": 0.8036637306213379,
      "learning_rate": 0.0002420762098310638,
      "loss": 4.0572,
      "step": 140440
    },
    {
      "epoch": 0.29260416666666667,
      "grad_norm": 0.827982485294342,
      "learning_rate": 0.00024206842699980906,
      "loss": 4.0396,
      "step": 140450
    },
    {
      "epoch": 0.292625,
      "grad_norm": 0.7786853909492493,
      "learning_rate": 0.00024206064377085514,
      "loss": 3.9579,
      "step": 140460
    },
    {
      "epoch": 0.2926458333333333,
      "grad_norm": 1.1265712976455688,
      "learning_rate": 0.0002420528601442357,
      "loss": 4.1324,
      "step": 140470
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 0.8467639088630676,
      "learning_rate": 0.00024204507611998437,
      "loss": 4.0223,
      "step": 140480
    },
    {
      "epoch": 0.2926875,
      "grad_norm": 0.7528452277183533,
      "learning_rate": 0.00024203729169813474,
      "loss": 3.9025,
      "step": 140490
    },
    {
      "epoch": 0.29270833333333335,
      "grad_norm": 0.849361002445221,
      "learning_rate": 0.00024202950687872042,
      "loss": 4.0259,
      "step": 140500
    },
    {
      "epoch": 0.29272916666666665,
      "grad_norm": 0.9191323518753052,
      "learning_rate": 0.00024202172166177505,
      "loss": 4.0349,
      "step": 140510
    },
    {
      "epoch": 0.29275,
      "grad_norm": 0.7752017974853516,
      "learning_rate": 0.00024201393604733227,
      "loss": 3.9319,
      "step": 140520
    },
    {
      "epoch": 0.2927708333333333,
      "grad_norm": 0.7782154679298401,
      "learning_rate": 0.0002420061500354257,
      "loss": 4.0526,
      "step": 140530
    },
    {
      "epoch": 0.2927916666666667,
      "grad_norm": 0.775578498840332,
      "learning_rate": 0.000241998363626089,
      "loss": 3.9304,
      "step": 140540
    },
    {
      "epoch": 0.2928125,
      "grad_norm": 0.7837318778038025,
      "learning_rate": 0.0002419905768193558,
      "loss": 4.1444,
      "step": 140550
    },
    {
      "epoch": 0.29283333333333333,
      "grad_norm": 0.7460268139839172,
      "learning_rate": 0.0002419827896152597,
      "loss": 4.1823,
      "step": 140560
    },
    {
      "epoch": 0.2928541666666667,
      "grad_norm": 0.7852743864059448,
      "learning_rate": 0.00024197500201383437,
      "loss": 3.8852,
      "step": 140570
    },
    {
      "epoch": 0.292875,
      "grad_norm": 0.7945444583892822,
      "learning_rate": 0.00024196721401511338,
      "loss": 3.9693,
      "step": 140580
    },
    {
      "epoch": 0.29289583333333336,
      "grad_norm": 0.7848451137542725,
      "learning_rate": 0.00024195942561913052,
      "loss": 3.9596,
      "step": 140590
    },
    {
      "epoch": 0.29291666666666666,
      "grad_norm": 0.9355738759040833,
      "learning_rate": 0.00024195163682591927,
      "loss": 4.0953,
      "step": 140600
    },
    {
      "epoch": 0.2929375,
      "grad_norm": 0.7757992148399353,
      "learning_rate": 0.00024194384763551337,
      "loss": 4.0442,
      "step": 140610
    },
    {
      "epoch": 0.2929583333333333,
      "grad_norm": 0.8840245604515076,
      "learning_rate": 0.00024193605804794646,
      "loss": 4.041,
      "step": 140620
    },
    {
      "epoch": 0.2929791666666667,
      "grad_norm": 0.7438629269599915,
      "learning_rate": 0.00024192826806325216,
      "loss": 4.0177,
      "step": 140630
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.8293965458869934,
      "learning_rate": 0.0002419204776814641,
      "loss": 3.8703,
      "step": 140640
    },
    {
      "epoch": 0.29302083333333334,
      "grad_norm": 0.7939490079879761,
      "learning_rate": 0.00024191268690261597,
      "loss": 3.8632,
      "step": 140650
    },
    {
      "epoch": 0.29304166666666664,
      "grad_norm": 0.8327145576477051,
      "learning_rate": 0.00024190489572674146,
      "loss": 4.0185,
      "step": 140660
    },
    {
      "epoch": 0.2930625,
      "grad_norm": 0.7508981227874756,
      "learning_rate": 0.00024189710415387414,
      "loss": 3.9087,
      "step": 140670
    },
    {
      "epoch": 0.2930833333333333,
      "grad_norm": 0.751234769821167,
      "learning_rate": 0.00024188931218404772,
      "loss": 4.0712,
      "step": 140680
    },
    {
      "epoch": 0.29310416666666667,
      "grad_norm": 0.7586495876312256,
      "learning_rate": 0.00024188151981729584,
      "loss": 3.9961,
      "step": 140690
    },
    {
      "epoch": 0.293125,
      "grad_norm": 0.7818821668624878,
      "learning_rate": 0.00024187372705365215,
      "loss": 3.9102,
      "step": 140700
    },
    {
      "epoch": 0.2931458333333333,
      "grad_norm": 0.8655360341072083,
      "learning_rate": 0.00024186593389315036,
      "loss": 3.8951,
      "step": 140710
    },
    {
      "epoch": 0.2931666666666667,
      "grad_norm": 0.7603933811187744,
      "learning_rate": 0.00024185814033582406,
      "loss": 3.9774,
      "step": 140720
    },
    {
      "epoch": 0.2931875,
      "grad_norm": 0.8486405611038208,
      "learning_rate": 0.00024185034638170698,
      "loss": 3.9688,
      "step": 140730
    },
    {
      "epoch": 0.29320833333333335,
      "grad_norm": 0.8577821850776672,
      "learning_rate": 0.00024184255203083275,
      "loss": 3.946,
      "step": 140740
    },
    {
      "epoch": 0.29322916666666665,
      "grad_norm": 0.7800859808921814,
      "learning_rate": 0.00024183475728323502,
      "loss": 4.0529,
      "step": 140750
    },
    {
      "epoch": 0.29325,
      "grad_norm": 0.7489887475967407,
      "learning_rate": 0.00024182696213894753,
      "loss": 4.102,
      "step": 140760
    },
    {
      "epoch": 0.2932708333333333,
      "grad_norm": 0.7397353649139404,
      "learning_rate": 0.00024181916659800392,
      "loss": 4.0093,
      "step": 140770
    },
    {
      "epoch": 0.2932916666666667,
      "grad_norm": 0.7629799842834473,
      "learning_rate": 0.00024181137066043781,
      "loss": 3.8464,
      "step": 140780
    },
    {
      "epoch": 0.2933125,
      "grad_norm": 0.8351261615753174,
      "learning_rate": 0.00024180357432628294,
      "loss": 3.7777,
      "step": 140790
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.7212185263633728,
      "learning_rate": 0.000241795777595573,
      "loss": 4.1994,
      "step": 140800
    },
    {
      "epoch": 0.2933541666666667,
      "grad_norm": 0.9434775710105896,
      "learning_rate": 0.00024178798046834156,
      "loss": 4.1734,
      "step": 140810
    },
    {
      "epoch": 0.293375,
      "grad_norm": 0.7810901999473572,
      "learning_rate": 0.00024178018294462246,
      "loss": 3.9063,
      "step": 140820
    },
    {
      "epoch": 0.29339583333333336,
      "grad_norm": 0.8504891395568848,
      "learning_rate": 0.00024177238502444927,
      "loss": 4.1508,
      "step": 140830
    },
    {
      "epoch": 0.29341666666666666,
      "grad_norm": 0.7803520560264587,
      "learning_rate": 0.00024176458670785566,
      "loss": 3.9004,
      "step": 140840
    },
    {
      "epoch": 0.2934375,
      "grad_norm": 0.8168779611587524,
      "learning_rate": 0.00024175678799487539,
      "loss": 4.0586,
      "step": 140850
    },
    {
      "epoch": 0.2934583333333333,
      "grad_norm": 0.7779569029808044,
      "learning_rate": 0.00024174898888554213,
      "loss": 4.0068,
      "step": 140860
    },
    {
      "epoch": 0.2934791666666667,
      "grad_norm": 0.8727971911430359,
      "learning_rate": 0.00024174118937988958,
      "loss": 3.8385,
      "step": 140870
    },
    {
      "epoch": 0.2935,
      "grad_norm": 0.9305625557899475,
      "learning_rate": 0.00024173338947795138,
      "loss": 3.9529,
      "step": 140880
    },
    {
      "epoch": 0.29352083333333334,
      "grad_norm": 0.7475451231002808,
      "learning_rate": 0.00024172558917976122,
      "loss": 4.0612,
      "step": 140890
    },
    {
      "epoch": 0.29354166666666665,
      "grad_norm": 0.7821112275123596,
      "learning_rate": 0.00024171778848535282,
      "loss": 4.0623,
      "step": 140900
    },
    {
      "epoch": 0.2935625,
      "grad_norm": 0.7991576790809631,
      "learning_rate": 0.0002417099873947599,
      "loss": 3.9555,
      "step": 140910
    },
    {
      "epoch": 0.2935833333333333,
      "grad_norm": 0.8177085518836975,
      "learning_rate": 0.00024170218590801614,
      "loss": 3.8722,
      "step": 140920
    },
    {
      "epoch": 0.29360416666666667,
      "grad_norm": 0.7891129851341248,
      "learning_rate": 0.00024169438402515524,
      "loss": 4.119,
      "step": 140930
    },
    {
      "epoch": 0.293625,
      "grad_norm": 0.7721659541130066,
      "learning_rate": 0.00024168658174621085,
      "loss": 4.069,
      "step": 140940
    },
    {
      "epoch": 0.29364583333333333,
      "grad_norm": 0.7460955381393433,
      "learning_rate": 0.00024167877907121677,
      "loss": 4.1434,
      "step": 140950
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 0.7356863021850586,
      "learning_rate": 0.00024167097600020666,
      "loss": 4.1973,
      "step": 140960
    },
    {
      "epoch": 0.2936875,
      "grad_norm": 0.7651631832122803,
      "learning_rate": 0.00024166317253321418,
      "loss": 3.8964,
      "step": 140970
    },
    {
      "epoch": 0.29370833333333335,
      "grad_norm": 0.831262469291687,
      "learning_rate": 0.0002416553686702731,
      "loss": 4.0822,
      "step": 140980
    },
    {
      "epoch": 0.29372916666666665,
      "grad_norm": 0.7778130769729614,
      "learning_rate": 0.0002416475644114171,
      "loss": 3.7344,
      "step": 140990
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.8395639061927795,
      "learning_rate": 0.00024163975975667991,
      "loss": 4.1179,
      "step": 141000
    },
    {
      "epoch": 0.29375,
      "eval_loss": 3.7402377128601074,
      "eval_runtime": 7.2725,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.413,
      "step": 141000
    },
    {
      "epoch": 0.2937708333333333,
      "grad_norm": 0.8708892464637756,
      "learning_rate": 0.0002416319547060952,
      "loss": 3.9649,
      "step": 141010
    },
    {
      "epoch": 0.2937916666666667,
      "grad_norm": 0.8140860795974731,
      "learning_rate": 0.00024162414925969674,
      "loss": 3.9094,
      "step": 141020
    },
    {
      "epoch": 0.2938125,
      "grad_norm": 0.7506847381591797,
      "learning_rate": 0.00024161634341751822,
      "loss": 3.9799,
      "step": 141030
    },
    {
      "epoch": 0.29383333333333334,
      "grad_norm": 0.7723658680915833,
      "learning_rate": 0.00024160853717959338,
      "loss": 3.8917,
      "step": 141040
    },
    {
      "epoch": 0.2938541666666667,
      "grad_norm": 0.7800996899604797,
      "learning_rate": 0.0002416007305459559,
      "loss": 4.1007,
      "step": 141050
    },
    {
      "epoch": 0.293875,
      "grad_norm": 0.7485755681991577,
      "learning_rate": 0.00024159292351663952,
      "loss": 4.0779,
      "step": 141060
    },
    {
      "epoch": 0.29389583333333336,
      "grad_norm": 0.778975784778595,
      "learning_rate": 0.000241585116091678,
      "loss": 4.0631,
      "step": 141070
    },
    {
      "epoch": 0.29391666666666666,
      "grad_norm": 0.7506918907165527,
      "learning_rate": 0.00024157730827110497,
      "loss": 3.9106,
      "step": 141080
    },
    {
      "epoch": 0.2939375,
      "grad_norm": 1.1004359722137451,
      "learning_rate": 0.00024156950005495422,
      "loss": 3.9499,
      "step": 141090
    },
    {
      "epoch": 0.2939583333333333,
      "grad_norm": 0.7963641881942749,
      "learning_rate": 0.00024156169144325955,
      "loss": 3.7324,
      "step": 141100
    },
    {
      "epoch": 0.2939791666666667,
      "grad_norm": 0.756790041923523,
      "learning_rate": 0.00024155388243605455,
      "loss": 3.8663,
      "step": 141110
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.7920107841491699,
      "learning_rate": 0.000241546073033373,
      "loss": 4.0371,
      "step": 141120
    },
    {
      "epoch": 0.29402083333333334,
      "grad_norm": 0.8156152367591858,
      "learning_rate": 0.00024153826323524872,
      "loss": 3.894,
      "step": 141130
    },
    {
      "epoch": 0.29404166666666665,
      "grad_norm": 0.8673036098480225,
      "learning_rate": 0.0002415304530417153,
      "loss": 4.0067,
      "step": 141140
    },
    {
      "epoch": 0.2940625,
      "grad_norm": 0.8524550199508667,
      "learning_rate": 0.00024152264245280662,
      "loss": 4.0728,
      "step": 141150
    },
    {
      "epoch": 0.2940833333333333,
      "grad_norm": 0.7856531143188477,
      "learning_rate": 0.00024151483146855632,
      "loss": 3.9638,
      "step": 141160
    },
    {
      "epoch": 0.29410416666666667,
      "grad_norm": 0.7868624925613403,
      "learning_rate": 0.00024150702008899822,
      "loss": 3.8482,
      "step": 141170
    },
    {
      "epoch": 0.294125,
      "grad_norm": 0.900481104850769,
      "learning_rate": 0.00024149920831416594,
      "loss": 3.7518,
      "step": 141180
    },
    {
      "epoch": 0.29414583333333333,
      "grad_norm": 0.8355423808097839,
      "learning_rate": 0.00024149139614409334,
      "loss": 3.9842,
      "step": 141190
    },
    {
      "epoch": 0.2941666666666667,
      "grad_norm": 0.8331910371780396,
      "learning_rate": 0.00024148358357881412,
      "loss": 4.0164,
      "step": 141200
    },
    {
      "epoch": 0.2941875,
      "grad_norm": 0.8063691258430481,
      "learning_rate": 0.000241475770618362,
      "loss": 4.0689,
      "step": 141210
    },
    {
      "epoch": 0.29420833333333335,
      "grad_norm": 0.7556624412536621,
      "learning_rate": 0.0002414679572627708,
      "loss": 4.0878,
      "step": 141220
    },
    {
      "epoch": 0.29422916666666665,
      "grad_norm": 0.8082039952278137,
      "learning_rate": 0.0002414601435120742,
      "loss": 4.0275,
      "step": 141230
    },
    {
      "epoch": 0.29425,
      "grad_norm": 0.8754150867462158,
      "learning_rate": 0.000241452329366306,
      "loss": 4.1673,
      "step": 141240
    },
    {
      "epoch": 0.2942708333333333,
      "grad_norm": 0.9638731479644775,
      "learning_rate": 0.00024144451482549997,
      "loss": 3.8906,
      "step": 141250
    },
    {
      "epoch": 0.2942916666666667,
      "grad_norm": 0.8096151947975159,
      "learning_rate": 0.00024143669988968975,
      "loss": 3.8626,
      "step": 141260
    },
    {
      "epoch": 0.2943125,
      "grad_norm": 0.7729715704917908,
      "learning_rate": 0.00024142888455890924,
      "loss": 3.7853,
      "step": 141270
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 0.7987726330757141,
      "learning_rate": 0.00024142106883319212,
      "loss": 4.1206,
      "step": 141280
    },
    {
      "epoch": 0.29435416666666664,
      "grad_norm": 0.7771344184875488,
      "learning_rate": 0.0002414132527125722,
      "loss": 4.0507,
      "step": 141290
    },
    {
      "epoch": 0.294375,
      "grad_norm": 0.7979791760444641,
      "learning_rate": 0.00024140543619708318,
      "loss": 4.1131,
      "step": 141300
    },
    {
      "epoch": 0.29439583333333336,
      "grad_norm": 0.76552414894104,
      "learning_rate": 0.00024139761928675883,
      "loss": 4.0243,
      "step": 141310
    },
    {
      "epoch": 0.29441666666666666,
      "grad_norm": 0.7242818474769592,
      "learning_rate": 0.00024138980198163302,
      "loss": 4.1391,
      "step": 141320
    },
    {
      "epoch": 0.2944375,
      "grad_norm": 0.7633547782897949,
      "learning_rate": 0.00024138198428173935,
      "loss": 4.0071,
      "step": 141330
    },
    {
      "epoch": 0.2944583333333333,
      "grad_norm": 0.8074159026145935,
      "learning_rate": 0.00024137416618711174,
      "loss": 3.8325,
      "step": 141340
    },
    {
      "epoch": 0.2944791666666667,
      "grad_norm": 0.8005561232566833,
      "learning_rate": 0.00024136634769778391,
      "loss": 3.885,
      "step": 141350
    },
    {
      "epoch": 0.2945,
      "grad_norm": 0.7817724943161011,
      "learning_rate": 0.00024135852881378958,
      "loss": 4.098,
      "step": 141360
    },
    {
      "epoch": 0.29452083333333334,
      "grad_norm": 0.7466834187507629,
      "learning_rate": 0.0002413507095351626,
      "loss": 3.9925,
      "step": 141370
    },
    {
      "epoch": 0.29454166666666665,
      "grad_norm": 0.7248198986053467,
      "learning_rate": 0.00024134288986193668,
      "loss": 4.1397,
      "step": 141380
    },
    {
      "epoch": 0.2945625,
      "grad_norm": 0.7942041158676147,
      "learning_rate": 0.00024133506979414566,
      "loss": 4.0421,
      "step": 141390
    },
    {
      "epoch": 0.2945833333333333,
      "grad_norm": 0.7688787579536438,
      "learning_rate": 0.00024132724933182328,
      "loss": 4.0087,
      "step": 141400
    },
    {
      "epoch": 0.29460416666666667,
      "grad_norm": 0.8783034086227417,
      "learning_rate": 0.00024131942847500335,
      "loss": 4.0455,
      "step": 141410
    },
    {
      "epoch": 0.294625,
      "grad_norm": 0.7699337005615234,
      "learning_rate": 0.00024131160722371962,
      "loss": 4.0167,
      "step": 141420
    },
    {
      "epoch": 0.29464583333333333,
      "grad_norm": 0.7170990109443665,
      "learning_rate": 0.0002413037855780059,
      "loss": 3.9703,
      "step": 141430
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 0.764630913734436,
      "learning_rate": 0.00024129596353789594,
      "loss": 4.0508,
      "step": 141440
    },
    {
      "epoch": 0.2946875,
      "grad_norm": 0.7535144686698914,
      "learning_rate": 0.00024128814110342358,
      "loss": 3.9312,
      "step": 141450
    },
    {
      "epoch": 0.29470833333333335,
      "grad_norm": 0.7355139851570129,
      "learning_rate": 0.00024128031827462258,
      "loss": 3.9724,
      "step": 141460
    },
    {
      "epoch": 0.29472916666666665,
      "grad_norm": 0.8074522018432617,
      "learning_rate": 0.0002412724950515267,
      "loss": 4.0039,
      "step": 141470
    },
    {
      "epoch": 0.29475,
      "grad_norm": 0.9935893416404724,
      "learning_rate": 0.0002412646714341698,
      "loss": 3.8917,
      "step": 141480
    },
    {
      "epoch": 0.2947708333333333,
      "grad_norm": 0.9557635188102722,
      "learning_rate": 0.00024125684742258569,
      "loss": 3.9404,
      "step": 141490
    },
    {
      "epoch": 0.2947916666666667,
      "grad_norm": 1.0521280765533447,
      "learning_rate": 0.00024124902301680807,
      "loss": 4.0511,
      "step": 141500
    },
    {
      "epoch": 0.2948125,
      "grad_norm": 0.7961527705192566,
      "learning_rate": 0.0002412411982168708,
      "loss": 3.8779,
      "step": 141510
    },
    {
      "epoch": 0.29483333333333334,
      "grad_norm": 0.7356171607971191,
      "learning_rate": 0.00024123337302280764,
      "loss": 3.949,
      "step": 141520
    },
    {
      "epoch": 0.29485416666666664,
      "grad_norm": 0.7450181245803833,
      "learning_rate": 0.0002412255474346525,
      "loss": 3.9567,
      "step": 141530
    },
    {
      "epoch": 0.294875,
      "grad_norm": 0.7533494830131531,
      "learning_rate": 0.00024121772145243903,
      "loss": 3.9979,
      "step": 141540
    },
    {
      "epoch": 0.29489583333333336,
      "grad_norm": 0.8066911697387695,
      "learning_rate": 0.00024120989507620113,
      "loss": 4.0457,
      "step": 141550
    },
    {
      "epoch": 0.29491666666666666,
      "grad_norm": 0.8821455836296082,
      "learning_rate": 0.00024120206830597263,
      "loss": 3.9275,
      "step": 141560
    },
    {
      "epoch": 0.2949375,
      "grad_norm": 0.7929021716117859,
      "learning_rate": 0.00024119424114178722,
      "loss": 4.1757,
      "step": 141570
    },
    {
      "epoch": 0.2949583333333333,
      "grad_norm": 0.7842599749565125,
      "learning_rate": 0.00024118641358367884,
      "loss": 3.9959,
      "step": 141580
    },
    {
      "epoch": 0.2949791666666667,
      "grad_norm": 0.8330045938491821,
      "learning_rate": 0.0002411785856316812,
      "loss": 4.1463,
      "step": 141590
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.8151552677154541,
      "learning_rate": 0.0002411707572858282,
      "loss": 3.8641,
      "step": 141600
    },
    {
      "epoch": 0.29502083333333334,
      "grad_norm": 0.7488388419151306,
      "learning_rate": 0.00024116292854615366,
      "loss": 4.0435,
      "step": 141610
    },
    {
      "epoch": 0.29504166666666665,
      "grad_norm": 0.8509390950202942,
      "learning_rate": 0.00024115509941269125,
      "loss": 3.9648,
      "step": 141620
    },
    {
      "epoch": 0.2950625,
      "grad_norm": 0.7588341236114502,
      "learning_rate": 0.00024114726988547496,
      "loss": 4.3012,
      "step": 141630
    },
    {
      "epoch": 0.2950833333333333,
      "grad_norm": 0.8149924278259277,
      "learning_rate": 0.00024113943996453854,
      "loss": 4.0993,
      "step": 141640
    },
    {
      "epoch": 0.29510416666666667,
      "grad_norm": 0.789103090763092,
      "learning_rate": 0.00024113160964991576,
      "loss": 4.2245,
      "step": 141650
    },
    {
      "epoch": 0.295125,
      "grad_norm": 0.7503271698951721,
      "learning_rate": 0.00024112377894164053,
      "loss": 3.8808,
      "step": 141660
    },
    {
      "epoch": 0.29514583333333333,
      "grad_norm": 0.7554868459701538,
      "learning_rate": 0.00024111594783974668,
      "loss": 3.9681,
      "step": 141670
    },
    {
      "epoch": 0.2951666666666667,
      "grad_norm": 0.7787833213806152,
      "learning_rate": 0.00024110811634426796,
      "loss": 3.848,
      "step": 141680
    },
    {
      "epoch": 0.2951875,
      "grad_norm": 0.7391313314437866,
      "learning_rate": 0.00024110028445523826,
      "loss": 3.862,
      "step": 141690
    },
    {
      "epoch": 0.29520833333333335,
      "grad_norm": 1.002381682395935,
      "learning_rate": 0.00024109245217269137,
      "loss": 3.8456,
      "step": 141700
    },
    {
      "epoch": 0.29522916666666665,
      "grad_norm": 0.71792072057724,
      "learning_rate": 0.00024108461949666116,
      "loss": 3.7107,
      "step": 141710
    },
    {
      "epoch": 0.29525,
      "grad_norm": 0.7872969508171082,
      "learning_rate": 0.0002410767864271815,
      "loss": 4.0266,
      "step": 141720
    },
    {
      "epoch": 0.2952708333333333,
      "grad_norm": 0.7785205245018005,
      "learning_rate": 0.00024106895296428609,
      "loss": 4.0503,
      "step": 141730
    },
    {
      "epoch": 0.2952916666666667,
      "grad_norm": 0.8890084028244019,
      "learning_rate": 0.00024106111910800887,
      "loss": 3.9849,
      "step": 141740
    },
    {
      "epoch": 0.2953125,
      "grad_norm": 0.8544696569442749,
      "learning_rate": 0.0002410532848583837,
      "loss": 3.8452,
      "step": 141750
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 0.7777138948440552,
      "learning_rate": 0.00024104545021544433,
      "loss": 4.0245,
      "step": 141760
    },
    {
      "epoch": 0.29535416666666664,
      "grad_norm": 0.773106038570404,
      "learning_rate": 0.0002410376151792247,
      "loss": 3.8472,
      "step": 141770
    },
    {
      "epoch": 0.295375,
      "grad_norm": 0.8381707072257996,
      "learning_rate": 0.00024102977974975858,
      "loss": 4.0563,
      "step": 141780
    },
    {
      "epoch": 0.29539583333333336,
      "grad_norm": 0.7268494963645935,
      "learning_rate": 0.00024102194392707982,
      "loss": 4.0932,
      "step": 141790
    },
    {
      "epoch": 0.29541666666666666,
      "grad_norm": 0.6757894158363342,
      "learning_rate": 0.00024101410771122235,
      "loss": 4.1397,
      "step": 141800
    },
    {
      "epoch": 0.2954375,
      "grad_norm": 0.7988200187683105,
      "learning_rate": 0.00024100627110221993,
      "loss": 3.9018,
      "step": 141810
    },
    {
      "epoch": 0.2954583333333333,
      "grad_norm": 0.7864623069763184,
      "learning_rate": 0.0002409984341001064,
      "loss": 3.9979,
      "step": 141820
    },
    {
      "epoch": 0.2954791666666667,
      "grad_norm": 0.840754508972168,
      "learning_rate": 0.00024099059670491574,
      "loss": 4.1583,
      "step": 141830
    },
    {
      "epoch": 0.2955,
      "grad_norm": 0.7500108480453491,
      "learning_rate": 0.00024098275891668166,
      "loss": 3.9152,
      "step": 141840
    },
    {
      "epoch": 0.29552083333333334,
      "grad_norm": 0.8644618988037109,
      "learning_rate": 0.00024097492073543806,
      "loss": 3.9179,
      "step": 141850
    },
    {
      "epoch": 0.29554166666666665,
      "grad_norm": 0.851611852645874,
      "learning_rate": 0.00024096708216121885,
      "loss": 4.1379,
      "step": 141860
    },
    {
      "epoch": 0.2955625,
      "grad_norm": 0.789150595664978,
      "learning_rate": 0.00024095924319405784,
      "loss": 3.9866,
      "step": 141870
    },
    {
      "epoch": 0.2955833333333333,
      "grad_norm": 0.8625586628913879,
      "learning_rate": 0.00024095140383398892,
      "loss": 4.0123,
      "step": 141880
    },
    {
      "epoch": 0.29560416666666667,
      "grad_norm": 0.8464843034744263,
      "learning_rate": 0.00024094356408104592,
      "loss": 3.8807,
      "step": 141890
    },
    {
      "epoch": 0.295625,
      "grad_norm": 0.7893555164337158,
      "learning_rate": 0.00024093572393526274,
      "loss": 4.0458,
      "step": 141900
    },
    {
      "epoch": 0.29564583333333333,
      "grad_norm": 0.8017901182174683,
      "learning_rate": 0.00024092788339667321,
      "loss": 4.0113,
      "step": 141910
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 0.7836452722549438,
      "learning_rate": 0.00024092004246531123,
      "loss": 4.0013,
      "step": 141920
    },
    {
      "epoch": 0.2956875,
      "grad_norm": 0.7583981156349182,
      "learning_rate": 0.0002409122011412106,
      "loss": 3.9898,
      "step": 141930
    },
    {
      "epoch": 0.29570833333333335,
      "grad_norm": 0.9648755192756653,
      "learning_rate": 0.00024090435942440531,
      "loss": 3.8748,
      "step": 141940
    },
    {
      "epoch": 0.29572916666666665,
      "grad_norm": 0.7332161068916321,
      "learning_rate": 0.00024089651731492917,
      "loss": 4.1105,
      "step": 141950
    },
    {
      "epoch": 0.29575,
      "grad_norm": 0.6841132044792175,
      "learning_rate": 0.000240888674812816,
      "loss": 3.865,
      "step": 141960
    },
    {
      "epoch": 0.2957708333333333,
      "grad_norm": 0.7990025877952576,
      "learning_rate": 0.00024088083191809977,
      "loss": 3.8936,
      "step": 141970
    },
    {
      "epoch": 0.2957916666666667,
      "grad_norm": 0.749076247215271,
      "learning_rate": 0.00024087298863081433,
      "loss": 3.9218,
      "step": 141980
    },
    {
      "epoch": 0.2958125,
      "grad_norm": 0.7290750741958618,
      "learning_rate": 0.00024086514495099353,
      "loss": 3.814,
      "step": 141990
    },
    {
      "epoch": 0.29583333333333334,
      "grad_norm": 0.8295537233352661,
      "learning_rate": 0.0002408573008786713,
      "loss": 3.8622,
      "step": 142000
    },
    {
      "epoch": 0.29583333333333334,
      "eval_loss": 3.7304813861846924,
      "eval_runtime": 7.2632,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 142000
    },
    {
      "epoch": 0.29585416666666664,
      "grad_norm": 0.791551411151886,
      "learning_rate": 0.00024084945641388144,
      "loss": 3.821,
      "step": 142010
    },
    {
      "epoch": 0.295875,
      "grad_norm": 0.9853322505950928,
      "learning_rate": 0.00024084161155665787,
      "loss": 3.9593,
      "step": 142020
    },
    {
      "epoch": 0.29589583333333336,
      "grad_norm": 0.960756242275238,
      "learning_rate": 0.00024083376630703462,
      "loss": 3.9862,
      "step": 142030
    },
    {
      "epoch": 0.29591666666666666,
      "grad_norm": 0.7115920186042786,
      "learning_rate": 0.00024082592066504533,
      "loss": 4.0112,
      "step": 142040
    },
    {
      "epoch": 0.2959375,
      "grad_norm": 0.7980522513389587,
      "learning_rate": 0.00024081807463072408,
      "loss": 3.9639,
      "step": 142050
    },
    {
      "epoch": 0.2959583333333333,
      "grad_norm": 0.7877342104911804,
      "learning_rate": 0.00024081022820410464,
      "loss": 4.1087,
      "step": 142060
    },
    {
      "epoch": 0.2959791666666667,
      "grad_norm": 0.7925097346305847,
      "learning_rate": 0.00024080238138522101,
      "loss": 4.0388,
      "step": 142070
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.7924894690513611,
      "learning_rate": 0.00024079453417410703,
      "loss": 4.0733,
      "step": 142080
    },
    {
      "epoch": 0.29602083333333334,
      "grad_norm": 0.7354697585105896,
      "learning_rate": 0.0002407866865707966,
      "loss": 3.8923,
      "step": 142090
    },
    {
      "epoch": 0.29604166666666665,
      "grad_norm": 1.0256938934326172,
      "learning_rate": 0.0002407788385753236,
      "loss": 3.903,
      "step": 142100
    },
    {
      "epoch": 0.2960625,
      "grad_norm": 0.914415717124939,
      "learning_rate": 0.00024077099018772198,
      "loss": 3.8498,
      "step": 142110
    },
    {
      "epoch": 0.2960833333333333,
      "grad_norm": 0.7622755169868469,
      "learning_rate": 0.00024076314140802563,
      "loss": 3.9566,
      "step": 142120
    },
    {
      "epoch": 0.29610416666666667,
      "grad_norm": 0.8793782591819763,
      "learning_rate": 0.00024075529223626833,
      "loss": 3.7777,
      "step": 142130
    },
    {
      "epoch": 0.296125,
      "grad_norm": 0.750934362411499,
      "learning_rate": 0.0002407474426724842,
      "loss": 3.9319,
      "step": 142140
    },
    {
      "epoch": 0.29614583333333333,
      "grad_norm": 0.7276180982589722,
      "learning_rate": 0.00024073959271670697,
      "loss": 3.9266,
      "step": 142150
    },
    {
      "epoch": 0.2961666666666667,
      "grad_norm": 0.8986799120903015,
      "learning_rate": 0.00024073174236897065,
      "loss": 3.8917,
      "step": 142160
    },
    {
      "epoch": 0.2961875,
      "grad_norm": 0.7574233412742615,
      "learning_rate": 0.00024072389162930913,
      "loss": 3.9331,
      "step": 142170
    },
    {
      "epoch": 0.29620833333333335,
      "grad_norm": 0.8138465285301208,
      "learning_rate": 0.0002407160404977563,
      "loss": 4.1399,
      "step": 142180
    },
    {
      "epoch": 0.29622916666666665,
      "grad_norm": 0.7947724461555481,
      "learning_rate": 0.00024070818897434606,
      "loss": 4.0893,
      "step": 142190
    },
    {
      "epoch": 0.29625,
      "grad_norm": 0.8494335412979126,
      "learning_rate": 0.00024070033705911236,
      "loss": 4.0192,
      "step": 142200
    },
    {
      "epoch": 0.2962708333333333,
      "grad_norm": 0.8032640814781189,
      "learning_rate": 0.0002406924847520891,
      "loss": 3.9965,
      "step": 142210
    },
    {
      "epoch": 0.2962916666666667,
      "grad_norm": 0.8937754034996033,
      "learning_rate": 0.00024068463205331023,
      "loss": 4.006,
      "step": 142220
    },
    {
      "epoch": 0.2963125,
      "grad_norm": 0.8184909224510193,
      "learning_rate": 0.00024067677896280962,
      "loss": 4.055,
      "step": 142230
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 0.8235895037651062,
      "learning_rate": 0.00024066892548062124,
      "loss": 3.7925,
      "step": 142240
    },
    {
      "epoch": 0.29635416666666664,
      "grad_norm": 0.7706384658813477,
      "learning_rate": 0.00024066107160677897,
      "loss": 4.01,
      "step": 142250
    },
    {
      "epoch": 0.296375,
      "grad_norm": 0.8397963047027588,
      "learning_rate": 0.00024065321734131675,
      "loss": 3.9916,
      "step": 142260
    },
    {
      "epoch": 0.29639583333333336,
      "grad_norm": 0.9192516803741455,
      "learning_rate": 0.0002406453626842685,
      "loss": 4.0143,
      "step": 142270
    },
    {
      "epoch": 0.29641666666666666,
      "grad_norm": 0.7675626873970032,
      "learning_rate": 0.00024063750763566824,
      "loss": 4.0707,
      "step": 142280
    },
    {
      "epoch": 0.2964375,
      "grad_norm": 0.9611973166465759,
      "learning_rate": 0.00024062965219554975,
      "loss": 3.8753,
      "step": 142290
    },
    {
      "epoch": 0.2964583333333333,
      "grad_norm": 0.9226179718971252,
      "learning_rate": 0.00024062179636394706,
      "loss": 3.9977,
      "step": 142300
    },
    {
      "epoch": 0.2964791666666667,
      "grad_norm": 0.7446644306182861,
      "learning_rate": 0.00024061394014089407,
      "loss": 4.0854,
      "step": 142310
    },
    {
      "epoch": 0.2965,
      "grad_norm": 0.7486553192138672,
      "learning_rate": 0.00024060608352642474,
      "loss": 3.7613,
      "step": 142320
    },
    {
      "epoch": 0.29652083333333334,
      "grad_norm": 0.7563048601150513,
      "learning_rate": 0.000240598226520573,
      "loss": 4.1244,
      "step": 142330
    },
    {
      "epoch": 0.29654166666666665,
      "grad_norm": 0.7310746312141418,
      "learning_rate": 0.0002405903691233728,
      "loss": 4.1161,
      "step": 142340
    },
    {
      "epoch": 0.2965625,
      "grad_norm": 0.7552289366722107,
      "learning_rate": 0.000240582511334858,
      "loss": 4.0076,
      "step": 142350
    },
    {
      "epoch": 0.2965833333333333,
      "grad_norm": 0.775367021560669,
      "learning_rate": 0.00024057465315506266,
      "loss": 3.888,
      "step": 142360
    },
    {
      "epoch": 0.29660416666666667,
      "grad_norm": 0.8285273313522339,
      "learning_rate": 0.00024056679458402068,
      "loss": 4.14,
      "step": 142370
    },
    {
      "epoch": 0.296625,
      "grad_norm": 0.7750738263130188,
      "learning_rate": 0.00024055893562176592,
      "loss": 4.0657,
      "step": 142380
    },
    {
      "epoch": 0.29664583333333333,
      "grad_norm": 0.7398332953453064,
      "learning_rate": 0.00024055107626833245,
      "loss": 4.0385,
      "step": 142390
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 0.7221686840057373,
      "learning_rate": 0.0002405432165237542,
      "loss": 3.9957,
      "step": 142400
    },
    {
      "epoch": 0.2966875,
      "grad_norm": 0.7781826853752136,
      "learning_rate": 0.00024053535638806506,
      "loss": 3.9905,
      "step": 142410
    },
    {
      "epoch": 0.29670833333333335,
      "grad_norm": 0.767975389957428,
      "learning_rate": 0.00024052749586129908,
      "loss": 3.9023,
      "step": 142420
    },
    {
      "epoch": 0.29672916666666665,
      "grad_norm": 0.7568052411079407,
      "learning_rate": 0.00024051963494349006,
      "loss": 3.9099,
      "step": 142430
    },
    {
      "epoch": 0.29675,
      "grad_norm": 0.8331319689750671,
      "learning_rate": 0.00024051177363467206,
      "loss": 4.0636,
      "step": 142440
    },
    {
      "epoch": 0.2967708333333333,
      "grad_norm": 0.8180090188980103,
      "learning_rate": 0.0002405039119348791,
      "loss": 3.9265,
      "step": 142450
    },
    {
      "epoch": 0.2967916666666667,
      "grad_norm": 0.7949051856994629,
      "learning_rate": 0.000240496049844145,
      "loss": 4.0086,
      "step": 142460
    },
    {
      "epoch": 0.2968125,
      "grad_norm": 0.84580397605896,
      "learning_rate": 0.00024048818736250376,
      "loss": 3.9452,
      "step": 142470
    },
    {
      "epoch": 0.29683333333333334,
      "grad_norm": 0.8306326270103455,
      "learning_rate": 0.0002404803244899894,
      "loss": 3.8795,
      "step": 142480
    },
    {
      "epoch": 0.29685416666666664,
      "grad_norm": 0.8218410611152649,
      "learning_rate": 0.00024047246122663592,
      "loss": 3.8902,
      "step": 142490
    },
    {
      "epoch": 0.296875,
      "grad_norm": 0.7471442818641663,
      "learning_rate": 0.00024046459757247714,
      "loss": 3.9421,
      "step": 142500
    },
    {
      "epoch": 0.29689583333333336,
      "grad_norm": 0.799167275428772,
      "learning_rate": 0.0002404567335275471,
      "loss": 3.8749,
      "step": 142510
    },
    {
      "epoch": 0.29691666666666666,
      "grad_norm": 0.8281398415565491,
      "learning_rate": 0.00024044886909187983,
      "loss": 3.7524,
      "step": 142520
    },
    {
      "epoch": 0.2969375,
      "grad_norm": 0.7687311768531799,
      "learning_rate": 0.00024044100426550923,
      "loss": 4.0536,
      "step": 142530
    },
    {
      "epoch": 0.2969583333333333,
      "grad_norm": 0.7922223806381226,
      "learning_rate": 0.00024043313904846927,
      "loss": 3.9323,
      "step": 142540
    },
    {
      "epoch": 0.2969791666666667,
      "grad_norm": 1.0431954860687256,
      "learning_rate": 0.00024042527344079396,
      "loss": 3.8368,
      "step": 142550
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.8296096920967102,
      "learning_rate": 0.00024041740744251726,
      "loss": 3.8728,
      "step": 142560
    },
    {
      "epoch": 0.29702083333333335,
      "grad_norm": 0.826053261756897,
      "learning_rate": 0.00024040954105367313,
      "loss": 4.0079,
      "step": 142570
    },
    {
      "epoch": 0.29704166666666665,
      "grad_norm": 0.7975741028785706,
      "learning_rate": 0.00024040167427429558,
      "loss": 4.1874,
      "step": 142580
    },
    {
      "epoch": 0.2970625,
      "grad_norm": 0.8888748288154602,
      "learning_rate": 0.0002403938071044186,
      "loss": 4.0288,
      "step": 142590
    },
    {
      "epoch": 0.2970833333333333,
      "grad_norm": 0.8602216243743896,
      "learning_rate": 0.00024038593954407616,
      "loss": 4.0389,
      "step": 142600
    },
    {
      "epoch": 0.29710416666666667,
      "grad_norm": 0.8212635517120361,
      "learning_rate": 0.0002403780715933022,
      "loss": 4.1393,
      "step": 142610
    },
    {
      "epoch": 0.297125,
      "grad_norm": 0.8077608346939087,
      "learning_rate": 0.0002403702032521308,
      "loss": 4.043,
      "step": 142620
    },
    {
      "epoch": 0.29714583333333333,
      "grad_norm": 0.8346907496452332,
      "learning_rate": 0.00024036233452059584,
      "loss": 3.8553,
      "step": 142630
    },
    {
      "epoch": 0.2971666666666667,
      "grad_norm": 0.7481481432914734,
      "learning_rate": 0.0002403544653987314,
      "loss": 4.0539,
      "step": 142640
    },
    {
      "epoch": 0.2971875,
      "grad_norm": 0.7527984380722046,
      "learning_rate": 0.0002403465958865714,
      "loss": 3.9602,
      "step": 142650
    },
    {
      "epoch": 0.29720833333333335,
      "grad_norm": 0.797767162322998,
      "learning_rate": 0.00024033872598414987,
      "loss": 4.0932,
      "step": 142660
    },
    {
      "epoch": 0.29722916666666666,
      "grad_norm": 0.7986215949058533,
      "learning_rate": 0.0002403308556915008,
      "loss": 4.0544,
      "step": 142670
    },
    {
      "epoch": 0.29725,
      "grad_norm": 1.0407779216766357,
      "learning_rate": 0.0002403229850086582,
      "loss": 4.1162,
      "step": 142680
    },
    {
      "epoch": 0.2972708333333333,
      "grad_norm": 0.9170494675636292,
      "learning_rate": 0.0002403151139356561,
      "loss": 4.059,
      "step": 142690
    },
    {
      "epoch": 0.2972916666666667,
      "grad_norm": 0.7389276027679443,
      "learning_rate": 0.0002403072424725284,
      "loss": 3.7759,
      "step": 142700
    },
    {
      "epoch": 0.2973125,
      "grad_norm": 0.7963734865188599,
      "learning_rate": 0.0002402993706193092,
      "loss": 3.9765,
      "step": 142710
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 0.8451051115989685,
      "learning_rate": 0.0002402914983760324,
      "loss": 3.882,
      "step": 142720
    },
    {
      "epoch": 0.29735416666666664,
      "grad_norm": 0.819985568523407,
      "learning_rate": 0.00024028362574273214,
      "loss": 4.0816,
      "step": 142730
    },
    {
      "epoch": 0.297375,
      "grad_norm": 0.7666237950325012,
      "learning_rate": 0.0002402757527194423,
      "loss": 3.9073,
      "step": 142740
    },
    {
      "epoch": 0.29739583333333336,
      "grad_norm": 0.751078188419342,
      "learning_rate": 0.00024026787930619693,
      "loss": 3.8951,
      "step": 142750
    },
    {
      "epoch": 0.29741666666666666,
      "grad_norm": 0.9408828616142273,
      "learning_rate": 0.00024026000550303014,
      "loss": 3.837,
      "step": 142760
    },
    {
      "epoch": 0.2974375,
      "grad_norm": 0.8851799964904785,
      "learning_rate": 0.00024025213130997577,
      "loss": 3.8179,
      "step": 142770
    },
    {
      "epoch": 0.2974583333333333,
      "grad_norm": 0.8026911616325378,
      "learning_rate": 0.00024024425672706793,
      "loss": 4.0147,
      "step": 142780
    },
    {
      "epoch": 0.2974791666666667,
      "grad_norm": 0.7388333678245544,
      "learning_rate": 0.00024023638175434066,
      "loss": 3.8464,
      "step": 142790
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.9577584266662598,
      "learning_rate": 0.0002402285063918279,
      "loss": 3.9662,
      "step": 142800
    },
    {
      "epoch": 0.29752083333333335,
      "grad_norm": 0.7756766080856323,
      "learning_rate": 0.00024022063063956374,
      "loss": 4.0702,
      "step": 142810
    },
    {
      "epoch": 0.29754166666666665,
      "grad_norm": 0.793944776058197,
      "learning_rate": 0.00024021275449758212,
      "loss": 4.1804,
      "step": 142820
    },
    {
      "epoch": 0.2975625,
      "grad_norm": 0.809195339679718,
      "learning_rate": 0.00024020487796591714,
      "loss": 4.0036,
      "step": 142830
    },
    {
      "epoch": 0.2975833333333333,
      "grad_norm": 0.7719929218292236,
      "learning_rate": 0.00024019700104460282,
      "loss": 3.924,
      "step": 142840
    },
    {
      "epoch": 0.29760416666666667,
      "grad_norm": 0.7305289506912231,
      "learning_rate": 0.0002401891237336731,
      "loss": 4.0052,
      "step": 142850
    },
    {
      "epoch": 0.297625,
      "grad_norm": 0.9451026320457458,
      "learning_rate": 0.0002401812460331621,
      "loss": 4.0071,
      "step": 142860
    },
    {
      "epoch": 0.29764583333333333,
      "grad_norm": 0.8927172422409058,
      "learning_rate": 0.00024017336794310382,
      "loss": 3.9671,
      "step": 142870
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 1.0450223684310913,
      "learning_rate": 0.00024016548946353223,
      "loss": 4.0619,
      "step": 142880
    },
    {
      "epoch": 0.2976875,
      "grad_norm": 0.9268049597740173,
      "learning_rate": 0.00024015761059448145,
      "loss": 4.2163,
      "step": 142890
    },
    {
      "epoch": 0.29770833333333335,
      "grad_norm": 0.7304555773735046,
      "learning_rate": 0.00024014973133598555,
      "loss": 4.0507,
      "step": 142900
    },
    {
      "epoch": 0.29772916666666666,
      "grad_norm": 0.7455615401268005,
      "learning_rate": 0.00024014185168807838,
      "loss": 3.906,
      "step": 142910
    },
    {
      "epoch": 0.29775,
      "grad_norm": 0.7522363662719727,
      "learning_rate": 0.00024013397165079415,
      "loss": 4.091,
      "step": 142920
    },
    {
      "epoch": 0.2977708333333333,
      "grad_norm": 0.7509114742279053,
      "learning_rate": 0.00024012609122416685,
      "loss": 4.1495,
      "step": 142930
    },
    {
      "epoch": 0.2977916666666667,
      "grad_norm": 0.7995547652244568,
      "learning_rate": 0.00024011821040823046,
      "loss": 4.0095,
      "step": 142940
    },
    {
      "epoch": 0.2978125,
      "grad_norm": 0.7347277998924255,
      "learning_rate": 0.00024011032920301912,
      "loss": 3.9262,
      "step": 142950
    },
    {
      "epoch": 0.29783333333333334,
      "grad_norm": 0.9667791128158569,
      "learning_rate": 0.00024010244760856682,
      "loss": 3.9372,
      "step": 142960
    },
    {
      "epoch": 0.29785416666666664,
      "grad_norm": 0.7688926458358765,
      "learning_rate": 0.00024009456562490758,
      "loss": 3.9754,
      "step": 142970
    },
    {
      "epoch": 0.297875,
      "grad_norm": 0.8120846748352051,
      "learning_rate": 0.0002400866832520755,
      "loss": 4.1734,
      "step": 142980
    },
    {
      "epoch": 0.29789583333333336,
      "grad_norm": 0.8278541564941406,
      "learning_rate": 0.00024007880049010464,
      "loss": 3.9588,
      "step": 142990
    },
    {
      "epoch": 0.29791666666666666,
      "grad_norm": 0.7306351661682129,
      "learning_rate": 0.00024007091733902895,
      "loss": 3.7921,
      "step": 143000
    },
    {
      "epoch": 0.29791666666666666,
      "eval_loss": 3.741093397140503,
      "eval_runtime": 7.2714,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.413,
      "step": 143000
    },
    {
      "epoch": 0.2979375,
      "grad_norm": 0.8157434463500977,
      "learning_rate": 0.0002400630337988826,
      "loss": 3.8987,
      "step": 143010
    },
    {
      "epoch": 0.2979583333333333,
      "grad_norm": 0.7709659934043884,
      "learning_rate": 0.00024005514986969958,
      "loss": 3.8117,
      "step": 143020
    },
    {
      "epoch": 0.2979791666666667,
      "grad_norm": 0.776498019695282,
      "learning_rate": 0.00024004726555151395,
      "loss": 4.0728,
      "step": 143030
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.7730706334114075,
      "learning_rate": 0.00024003938084435976,
      "loss": 3.9475,
      "step": 143040
    },
    {
      "epoch": 0.29802083333333335,
      "grad_norm": 0.8178272843360901,
      "learning_rate": 0.0002400314957482711,
      "loss": 4.0486,
      "step": 143050
    },
    {
      "epoch": 0.29804166666666665,
      "grad_norm": 0.8107650876045227,
      "learning_rate": 0.00024002361026328206,
      "loss": 3.9477,
      "step": 143060
    },
    {
      "epoch": 0.2980625,
      "grad_norm": 0.7838857173919678,
      "learning_rate": 0.0002400157243894266,
      "loss": 4.2334,
      "step": 143070
    },
    {
      "epoch": 0.2980833333333333,
      "grad_norm": 0.9033944010734558,
      "learning_rate": 0.00024000783812673884,
      "loss": 4.0451,
      "step": 143080
    },
    {
      "epoch": 0.29810416666666667,
      "grad_norm": 0.8058238625526428,
      "learning_rate": 0.0002399999514752529,
      "loss": 4.0461,
      "step": 143090
    },
    {
      "epoch": 0.298125,
      "grad_norm": 0.7506941556930542,
      "learning_rate": 0.00023999206443500273,
      "loss": 4.0358,
      "step": 143100
    },
    {
      "epoch": 0.29814583333333333,
      "grad_norm": 0.8194348812103271,
      "learning_rate": 0.00023998417700602252,
      "loss": 4.2152,
      "step": 143110
    },
    {
      "epoch": 0.2981666666666667,
      "grad_norm": 0.7791267037391663,
      "learning_rate": 0.00023997628918834626,
      "loss": 4.0737,
      "step": 143120
    },
    {
      "epoch": 0.2981875,
      "grad_norm": 0.7579436302185059,
      "learning_rate": 0.00023996840098200806,
      "loss": 4.0459,
      "step": 143130
    },
    {
      "epoch": 0.29820833333333335,
      "grad_norm": 0.8128634691238403,
      "learning_rate": 0.00023996051238704192,
      "loss": 3.9349,
      "step": 143140
    },
    {
      "epoch": 0.29822916666666666,
      "grad_norm": 0.7456121444702148,
      "learning_rate": 0.00023995262340348206,
      "loss": 3.8885,
      "step": 143150
    },
    {
      "epoch": 0.29825,
      "grad_norm": 0.8177029490470886,
      "learning_rate": 0.00023994473403136238,
      "loss": 3.8781,
      "step": 143160
    },
    {
      "epoch": 0.2982708333333333,
      "grad_norm": 0.8094432950019836,
      "learning_rate": 0.00023993684427071711,
      "loss": 4.0563,
      "step": 143170
    },
    {
      "epoch": 0.2982916666666667,
      "grad_norm": 0.744778037071228,
      "learning_rate": 0.00023992895412158028,
      "loss": 4.012,
      "step": 143180
    },
    {
      "epoch": 0.2983125,
      "grad_norm": 0.8629565238952637,
      "learning_rate": 0.00023992106358398596,
      "loss": 3.9634,
      "step": 143190
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 0.8387089967727661,
      "learning_rate": 0.0002399131726579682,
      "loss": 4.0671,
      "step": 143200
    },
    {
      "epoch": 0.29835416666666664,
      "grad_norm": 0.8628137707710266,
      "learning_rate": 0.0002399052813435612,
      "loss": 3.9308,
      "step": 143210
    },
    {
      "epoch": 0.298375,
      "grad_norm": 0.8916218280792236,
      "learning_rate": 0.00023989738964079888,
      "loss": 3.9167,
      "step": 143220
    },
    {
      "epoch": 0.29839583333333336,
      "grad_norm": 0.8002656102180481,
      "learning_rate": 0.0002398894975497155,
      "loss": 4.1226,
      "step": 143230
    },
    {
      "epoch": 0.29841666666666666,
      "grad_norm": 0.8033198118209839,
      "learning_rate": 0.00023988160507034504,
      "loss": 4.0108,
      "step": 143240
    },
    {
      "epoch": 0.2984375,
      "grad_norm": 0.8069513440132141,
      "learning_rate": 0.0002398737122027216,
      "loss": 4.1358,
      "step": 143250
    },
    {
      "epoch": 0.2984583333333333,
      "grad_norm": 0.9266381859779358,
      "learning_rate": 0.00023986581894687933,
      "loss": 3.9833,
      "step": 143260
    },
    {
      "epoch": 0.2984791666666667,
      "grad_norm": 0.7729633450508118,
      "learning_rate": 0.00023985792530285225,
      "loss": 3.8128,
      "step": 143270
    },
    {
      "epoch": 0.2985,
      "grad_norm": 0.7642231583595276,
      "learning_rate": 0.00023985003127067453,
      "loss": 3.9676,
      "step": 143280
    },
    {
      "epoch": 0.29852083333333335,
      "grad_norm": 0.714146614074707,
      "learning_rate": 0.00023984213685038024,
      "loss": 4.0286,
      "step": 143290
    },
    {
      "epoch": 0.29854166666666665,
      "grad_norm": 0.7793877720832825,
      "learning_rate": 0.0002398342420420035,
      "loss": 3.9366,
      "step": 143300
    },
    {
      "epoch": 0.2985625,
      "grad_norm": 0.7441920042037964,
      "learning_rate": 0.00023982634684557839,
      "loss": 4.1215,
      "step": 143310
    },
    {
      "epoch": 0.2985833333333333,
      "grad_norm": 0.8045978546142578,
      "learning_rate": 0.00023981845126113898,
      "loss": 3.9559,
      "step": 143320
    },
    {
      "epoch": 0.29860416666666667,
      "grad_norm": 0.9399964809417725,
      "learning_rate": 0.00023981055528871946,
      "loss": 4.2363,
      "step": 143330
    },
    {
      "epoch": 0.298625,
      "grad_norm": 0.7517505288124084,
      "learning_rate": 0.00023980265892835383,
      "loss": 3.9176,
      "step": 143340
    },
    {
      "epoch": 0.29864583333333333,
      "grad_norm": 0.7784873247146606,
      "learning_rate": 0.00023979476218007634,
      "loss": 3.8781,
      "step": 143350
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 0.8023476004600525,
      "learning_rate": 0.00023978686504392096,
      "loss": 3.9902,
      "step": 143360
    },
    {
      "epoch": 0.2986875,
      "grad_norm": 0.757317304611206,
      "learning_rate": 0.0002397789675199219,
      "loss": 4.04,
      "step": 143370
    },
    {
      "epoch": 0.29870833333333335,
      "grad_norm": 0.7945787310600281,
      "learning_rate": 0.0002397710696081132,
      "loss": 4.1725,
      "step": 143380
    },
    {
      "epoch": 0.29872916666666666,
      "grad_norm": 0.7703738212585449,
      "learning_rate": 0.00023976317130852904,
      "loss": 4.0962,
      "step": 143390
    },
    {
      "epoch": 0.29875,
      "grad_norm": 0.9581069350242615,
      "learning_rate": 0.00023975527262120352,
      "loss": 4.0029,
      "step": 143400
    },
    {
      "epoch": 0.2987708333333333,
      "grad_norm": 0.9108303189277649,
      "learning_rate": 0.00023974737354617073,
      "loss": 3.9006,
      "step": 143410
    },
    {
      "epoch": 0.2987916666666667,
      "grad_norm": 0.7860817313194275,
      "learning_rate": 0.00023973947408346478,
      "loss": 4.0706,
      "step": 143420
    },
    {
      "epoch": 0.2988125,
      "grad_norm": 0.8882356286048889,
      "learning_rate": 0.00023973157423311987,
      "loss": 3.9302,
      "step": 143430
    },
    {
      "epoch": 0.29883333333333334,
      "grad_norm": 0.9040398001670837,
      "learning_rate": 0.00023972367399517004,
      "loss": 3.8818,
      "step": 143440
    },
    {
      "epoch": 0.29885416666666664,
      "grad_norm": 0.7992890477180481,
      "learning_rate": 0.0002397157733696495,
      "loss": 3.8988,
      "step": 143450
    },
    {
      "epoch": 0.298875,
      "grad_norm": 0.7447354197502136,
      "learning_rate": 0.0002397078723565923,
      "loss": 3.8212,
      "step": 143460
    },
    {
      "epoch": 0.29889583333333336,
      "grad_norm": 0.7521473169326782,
      "learning_rate": 0.0002396999709560326,
      "loss": 3.9689,
      "step": 143470
    },
    {
      "epoch": 0.29891666666666666,
      "grad_norm": 0.7817453742027283,
      "learning_rate": 0.00023969206916800453,
      "loss": 3.9474,
      "step": 143480
    },
    {
      "epoch": 0.2989375,
      "grad_norm": 0.8798630833625793,
      "learning_rate": 0.00023968416699254224,
      "loss": 4.0479,
      "step": 143490
    },
    {
      "epoch": 0.2989583333333333,
      "grad_norm": 0.7279074192047119,
      "learning_rate": 0.00023967626442967987,
      "loss": 4.2065,
      "step": 143500
    },
    {
      "epoch": 0.2989791666666667,
      "grad_norm": 0.840093195438385,
      "learning_rate": 0.00023966836147945152,
      "loss": 3.8905,
      "step": 143510
    },
    {
      "epoch": 0.299,
      "grad_norm": 0.8271844983100891,
      "learning_rate": 0.00023966045814189133,
      "loss": 4.0216,
      "step": 143520
    },
    {
      "epoch": 0.29902083333333335,
      "grad_norm": 0.7663141489028931,
      "learning_rate": 0.0002396525544170334,
      "loss": 3.8281,
      "step": 143530
    },
    {
      "epoch": 0.29904166666666665,
      "grad_norm": 0.7247285842895508,
      "learning_rate": 0.00023964465030491198,
      "loss": 3.9965,
      "step": 143540
    },
    {
      "epoch": 0.2990625,
      "grad_norm": 0.7934221029281616,
      "learning_rate": 0.00023963674580556116,
      "loss": 4.0068,
      "step": 143550
    },
    {
      "epoch": 0.2990833333333333,
      "grad_norm": 0.8065015077590942,
      "learning_rate": 0.00023962884091901503,
      "loss": 4.1214,
      "step": 143560
    },
    {
      "epoch": 0.29910416666666667,
      "grad_norm": 0.7689666152000427,
      "learning_rate": 0.00023962093564530785,
      "loss": 3.9166,
      "step": 143570
    },
    {
      "epoch": 0.299125,
      "grad_norm": 0.8173448443412781,
      "learning_rate": 0.00023961302998447366,
      "loss": 4.2175,
      "step": 143580
    },
    {
      "epoch": 0.29914583333333333,
      "grad_norm": 0.7692087292671204,
      "learning_rate": 0.00023960512393654667,
      "loss": 3.9757,
      "step": 143590
    },
    {
      "epoch": 0.2991666666666667,
      "grad_norm": 0.7880255579948425,
      "learning_rate": 0.00023959721750156098,
      "loss": 3.9205,
      "step": 143600
    },
    {
      "epoch": 0.2991875,
      "grad_norm": 0.8449900150299072,
      "learning_rate": 0.0002395893106795508,
      "loss": 3.8848,
      "step": 143610
    },
    {
      "epoch": 0.29920833333333335,
      "grad_norm": 0.7990583181381226,
      "learning_rate": 0.0002395814034705503,
      "loss": 4.0103,
      "step": 143620
    },
    {
      "epoch": 0.29922916666666666,
      "grad_norm": 0.7364704012870789,
      "learning_rate": 0.0002395734958745935,
      "loss": 4.0904,
      "step": 143630
    },
    {
      "epoch": 0.29925,
      "grad_norm": 0.7917815446853638,
      "learning_rate": 0.0002395655878917147,
      "loss": 4.0191,
      "step": 143640
    },
    {
      "epoch": 0.2992708333333333,
      "grad_norm": 1.0173299312591553,
      "learning_rate": 0.00023955767952194807,
      "loss": 4.0131,
      "step": 143650
    },
    {
      "epoch": 0.2992916666666667,
      "grad_norm": 0.7958819270133972,
      "learning_rate": 0.00023954977076532765,
      "loss": 3.9523,
      "step": 143660
    },
    {
      "epoch": 0.2993125,
      "grad_norm": 0.8626505732536316,
      "learning_rate": 0.00023954186162188768,
      "loss": 3.9649,
      "step": 143670
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 0.8817692995071411,
      "learning_rate": 0.00023953395209166232,
      "loss": 3.8297,
      "step": 143680
    },
    {
      "epoch": 0.29935416666666664,
      "grad_norm": 0.7894583344459534,
      "learning_rate": 0.00023952604217468572,
      "loss": 3.9073,
      "step": 143690
    },
    {
      "epoch": 0.299375,
      "grad_norm": 0.7902184724807739,
      "learning_rate": 0.00023951813187099202,
      "loss": 3.8493,
      "step": 143700
    },
    {
      "epoch": 0.29939583333333336,
      "grad_norm": 0.9003525972366333,
      "learning_rate": 0.0002395102211806155,
      "loss": 3.9382,
      "step": 143710
    },
    {
      "epoch": 0.29941666666666666,
      "grad_norm": 0.7332898378372192,
      "learning_rate": 0.0002395023101035902,
      "loss": 4.0752,
      "step": 143720
    },
    {
      "epoch": 0.2994375,
      "grad_norm": 0.8168607354164124,
      "learning_rate": 0.00023949439863995035,
      "loss": 3.8421,
      "step": 143730
    },
    {
      "epoch": 0.2994583333333333,
      "grad_norm": 0.745515763759613,
      "learning_rate": 0.00023948648678973015,
      "loss": 3.8695,
      "step": 143740
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 0.7271996736526489,
      "learning_rate": 0.00023947857455296372,
      "loss": 3.9579,
      "step": 143750
    },
    {
      "epoch": 0.2995,
      "grad_norm": 0.7278885245323181,
      "learning_rate": 0.00023947066192968528,
      "loss": 3.9901,
      "step": 143760
    },
    {
      "epoch": 0.29952083333333335,
      "grad_norm": 0.7944086194038391,
      "learning_rate": 0.000239462748919929,
      "loss": 3.7885,
      "step": 143770
    },
    {
      "epoch": 0.29954166666666665,
      "grad_norm": 0.7744451761245728,
      "learning_rate": 0.00023945483552372906,
      "loss": 3.8005,
      "step": 143780
    },
    {
      "epoch": 0.2995625,
      "grad_norm": 0.780281662940979,
      "learning_rate": 0.0002394469217411196,
      "loss": 3.7917,
      "step": 143790
    },
    {
      "epoch": 0.2995833333333333,
      "grad_norm": 0.7397356033325195,
      "learning_rate": 0.0002394390075721349,
      "loss": 3.8437,
      "step": 143800
    },
    {
      "epoch": 0.29960416666666667,
      "grad_norm": 0.8171442747116089,
      "learning_rate": 0.00023943109301680906,
      "loss": 3.9726,
      "step": 143810
    },
    {
      "epoch": 0.299625,
      "grad_norm": 0.8221319913864136,
      "learning_rate": 0.00023942317807517632,
      "loss": 3.7385,
      "step": 143820
    },
    {
      "epoch": 0.29964583333333333,
      "grad_norm": 0.7679729461669922,
      "learning_rate": 0.00023941526274727084,
      "loss": 3.9896,
      "step": 143830
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 0.8451427817344666,
      "learning_rate": 0.00023940734703312678,
      "loss": 3.9593,
      "step": 143840
    },
    {
      "epoch": 0.2996875,
      "grad_norm": 0.7729213833808899,
      "learning_rate": 0.00023939943093277837,
      "loss": 3.8417,
      "step": 143850
    },
    {
      "epoch": 0.29970833333333335,
      "grad_norm": 0.7965099215507507,
      "learning_rate": 0.00023939151444625986,
      "loss": 3.8652,
      "step": 143860
    },
    {
      "epoch": 0.29972916666666666,
      "grad_norm": 0.6975196003913879,
      "learning_rate": 0.00023938359757360534,
      "loss": 3.7576,
      "step": 143870
    },
    {
      "epoch": 0.29975,
      "grad_norm": 1.017251968383789,
      "learning_rate": 0.00023937568031484908,
      "loss": 4.0087,
      "step": 143880
    },
    {
      "epoch": 0.2997708333333333,
      "grad_norm": 0.7434654831886292,
      "learning_rate": 0.00023936776267002527,
      "loss": 4.0445,
      "step": 143890
    },
    {
      "epoch": 0.2997916666666667,
      "grad_norm": 0.8032761812210083,
      "learning_rate": 0.00023935984463916807,
      "loss": 4.1517,
      "step": 143900
    },
    {
      "epoch": 0.2998125,
      "grad_norm": 0.724173903465271,
      "learning_rate": 0.00023935192622231174,
      "loss": 3.9922,
      "step": 143910
    },
    {
      "epoch": 0.29983333333333334,
      "grad_norm": 0.74383544921875,
      "learning_rate": 0.00023934400741949045,
      "loss": 4.0737,
      "step": 143920
    },
    {
      "epoch": 0.29985416666666664,
      "grad_norm": 0.7519659996032715,
      "learning_rate": 0.00023933608823073843,
      "loss": 3.9566,
      "step": 143930
    },
    {
      "epoch": 0.299875,
      "grad_norm": 0.8378006815910339,
      "learning_rate": 0.00023932816865608985,
      "loss": 3.9164,
      "step": 143940
    },
    {
      "epoch": 0.2998958333333333,
      "grad_norm": 0.8180062770843506,
      "learning_rate": 0.00023932024869557892,
      "loss": 3.9507,
      "step": 143950
    },
    {
      "epoch": 0.29991666666666666,
      "grad_norm": 0.799801766872406,
      "learning_rate": 0.0002393123283492399,
      "loss": 4.0074,
      "step": 143960
    },
    {
      "epoch": 0.2999375,
      "grad_norm": 0.7983995676040649,
      "learning_rate": 0.00023930440761710698,
      "loss": 4.1217,
      "step": 143970
    },
    {
      "epoch": 0.2999583333333333,
      "grad_norm": 0.7621617317199707,
      "learning_rate": 0.00023929648649921435,
      "loss": 3.7667,
      "step": 143980
    },
    {
      "epoch": 0.2999791666666667,
      "grad_norm": 0.7733912467956543,
      "learning_rate": 0.00023928856499559622,
      "loss": 3.9568,
      "step": 143990
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9931834936141968,
      "learning_rate": 0.0002392806431062869,
      "loss": 4.1718,
      "step": 144000
    },
    {
      "epoch": 0.3,
      "eval_loss": 3.7448513507843018,
      "eval_runtime": 7.3756,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 144000
    },
    {
      "epoch": 0.30002083333333335,
      "grad_norm": 0.7752591967582703,
      "learning_rate": 0.00023927272083132048,
      "loss": 3.8431,
      "step": 144010
    },
    {
      "epoch": 0.30004166666666665,
      "grad_norm": 0.781566858291626,
      "learning_rate": 0.00023926479817073127,
      "loss": 4.0023,
      "step": 144020
    },
    {
      "epoch": 0.3000625,
      "grad_norm": 0.789949357509613,
      "learning_rate": 0.00023925687512455347,
      "loss": 4.1115,
      "step": 144030
    },
    {
      "epoch": 0.3000833333333333,
      "grad_norm": 0.8321214318275452,
      "learning_rate": 0.00023924895169282127,
      "loss": 3.9253,
      "step": 144040
    },
    {
      "epoch": 0.30010416666666667,
      "grad_norm": 0.791715145111084,
      "learning_rate": 0.00023924102787556894,
      "loss": 4.0422,
      "step": 144050
    },
    {
      "epoch": 0.300125,
      "grad_norm": 0.8862000703811646,
      "learning_rate": 0.00023923310367283073,
      "loss": 4.0097,
      "step": 144060
    },
    {
      "epoch": 0.30014583333333333,
      "grad_norm": 0.9686630964279175,
      "learning_rate": 0.00023922517908464075,
      "loss": 3.9046,
      "step": 144070
    },
    {
      "epoch": 0.3001666666666667,
      "grad_norm": 0.7131690979003906,
      "learning_rate": 0.00023921725411103341,
      "loss": 3.8341,
      "step": 144080
    },
    {
      "epoch": 0.3001875,
      "grad_norm": 0.8372788429260254,
      "learning_rate": 0.0002392093287520428,
      "loss": 3.9479,
      "step": 144090
    },
    {
      "epoch": 0.30020833333333335,
      "grad_norm": 0.8124361634254456,
      "learning_rate": 0.00023920140300770322,
      "loss": 4.0463,
      "step": 144100
    },
    {
      "epoch": 0.30022916666666666,
      "grad_norm": 0.9324997663497925,
      "learning_rate": 0.0002391934768780489,
      "loss": 4.0582,
      "step": 144110
    },
    {
      "epoch": 0.30025,
      "grad_norm": 0.8925096988677979,
      "learning_rate": 0.000239185550363114,
      "loss": 4.053,
      "step": 144120
    },
    {
      "epoch": 0.3002708333333333,
      "grad_norm": 0.7791969776153564,
      "learning_rate": 0.00023917762346293287,
      "loss": 3.7789,
      "step": 144130
    },
    {
      "epoch": 0.3002916666666667,
      "grad_norm": 0.8063731789588928,
      "learning_rate": 0.0002391696961775397,
      "loss": 4.0446,
      "step": 144140
    },
    {
      "epoch": 0.3003125,
      "grad_norm": 0.7836442589759827,
      "learning_rate": 0.0002391617685069687,
      "loss": 4.0098,
      "step": 144150
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 0.7737180590629578,
      "learning_rate": 0.0002391538404512542,
      "loss": 4.0262,
      "step": 144160
    },
    {
      "epoch": 0.30035416666666664,
      "grad_norm": 0.7382108569145203,
      "learning_rate": 0.0002391459120104304,
      "loss": 4.0348,
      "step": 144170
    },
    {
      "epoch": 0.300375,
      "grad_norm": 0.7986922264099121,
      "learning_rate": 0.00023913798318453153,
      "loss": 4.0267,
      "step": 144180
    },
    {
      "epoch": 0.3003958333333333,
      "grad_norm": 0.7950846552848816,
      "learning_rate": 0.0002391300539735919,
      "loss": 4.1837,
      "step": 144190
    },
    {
      "epoch": 0.30041666666666667,
      "grad_norm": 0.9548839330673218,
      "learning_rate": 0.0002391221243776456,
      "loss": 3.9137,
      "step": 144200
    },
    {
      "epoch": 0.3004375,
      "grad_norm": 0.8408530354499817,
      "learning_rate": 0.0002391141943967271,
      "loss": 4.0825,
      "step": 144210
    },
    {
      "epoch": 0.3004583333333333,
      "grad_norm": 0.7315303683280945,
      "learning_rate": 0.00023910626403087057,
      "loss": 4.132,
      "step": 144220
    },
    {
      "epoch": 0.3004791666666667,
      "grad_norm": 0.7688893675804138,
      "learning_rate": 0.0002390983332801102,
      "loss": 4.0148,
      "step": 144230
    },
    {
      "epoch": 0.3005,
      "grad_norm": 0.9088428020477295,
      "learning_rate": 0.00023909040214448028,
      "loss": 3.9078,
      "step": 144240
    },
    {
      "epoch": 0.30052083333333335,
      "grad_norm": 0.7690829038619995,
      "learning_rate": 0.00023908247062401513,
      "loss": 3.9225,
      "step": 144250
    },
    {
      "epoch": 0.30054166666666665,
      "grad_norm": 0.9701690077781677,
      "learning_rate": 0.00023907453871874893,
      "loss": 4.0071,
      "step": 144260
    },
    {
      "epoch": 0.3005625,
      "grad_norm": 0.8248475790023804,
      "learning_rate": 0.00023906660642871605,
      "loss": 4.0566,
      "step": 144270
    },
    {
      "epoch": 0.3005833333333333,
      "grad_norm": 0.7661218643188477,
      "learning_rate": 0.00023905867375395058,
      "loss": 3.9697,
      "step": 144280
    },
    {
      "epoch": 0.3006041666666667,
      "grad_norm": 0.7644392848014832,
      "learning_rate": 0.00023905074069448698,
      "loss": 3.9346,
      "step": 144290
    },
    {
      "epoch": 0.300625,
      "grad_norm": 0.8556424379348755,
      "learning_rate": 0.0002390428072503594,
      "loss": 4.0178,
      "step": 144300
    },
    {
      "epoch": 0.30064583333333333,
      "grad_norm": 0.7179736495018005,
      "learning_rate": 0.00023903487342160214,
      "loss": 3.8302,
      "step": 144310
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 0.7414360642433167,
      "learning_rate": 0.00023902693920824943,
      "loss": 3.8769,
      "step": 144320
    },
    {
      "epoch": 0.3006875,
      "grad_norm": 0.7848565578460693,
      "learning_rate": 0.00023901900461033567,
      "loss": 3.8907,
      "step": 144330
    },
    {
      "epoch": 0.30070833333333336,
      "grad_norm": 0.8984071612358093,
      "learning_rate": 0.00023901106962789497,
      "loss": 4.0544,
      "step": 144340
    },
    {
      "epoch": 0.30072916666666666,
      "grad_norm": 0.7686765789985657,
      "learning_rate": 0.0002390031342609617,
      "loss": 3.8668,
      "step": 144350
    },
    {
      "epoch": 0.30075,
      "grad_norm": 0.7392621040344238,
      "learning_rate": 0.00023899519850957015,
      "loss": 3.841,
      "step": 144360
    },
    {
      "epoch": 0.3007708333333333,
      "grad_norm": 0.8236438632011414,
      "learning_rate": 0.00023898726237375455,
      "loss": 4.0782,
      "step": 144370
    },
    {
      "epoch": 0.3007916666666667,
      "grad_norm": 0.7951801419258118,
      "learning_rate": 0.00023897932585354917,
      "loss": 3.9955,
      "step": 144380
    },
    {
      "epoch": 0.3008125,
      "grad_norm": 0.7859176993370056,
      "learning_rate": 0.00023897138894898837,
      "loss": 3.8071,
      "step": 144390
    },
    {
      "epoch": 0.30083333333333334,
      "grad_norm": 0.832536518573761,
      "learning_rate": 0.00023896345166010636,
      "loss": 4.121,
      "step": 144400
    },
    {
      "epoch": 0.30085416666666664,
      "grad_norm": 0.8690074682235718,
      "learning_rate": 0.0002389555139869375,
      "loss": 4.0296,
      "step": 144410
    },
    {
      "epoch": 0.300875,
      "grad_norm": 0.8378735780715942,
      "learning_rate": 0.00023894757592951598,
      "loss": 4.0491,
      "step": 144420
    },
    {
      "epoch": 0.3008958333333333,
      "grad_norm": 0.7675608396530151,
      "learning_rate": 0.00023893963748787612,
      "loss": 4.1044,
      "step": 144430
    },
    {
      "epoch": 0.30091666666666667,
      "grad_norm": 0.9116701483726501,
      "learning_rate": 0.00023893169866205226,
      "loss": 4.0052,
      "step": 144440
    },
    {
      "epoch": 0.3009375,
      "grad_norm": 0.6892864108085632,
      "learning_rate": 0.00023892375945207866,
      "loss": 4.1284,
      "step": 144450
    },
    {
      "epoch": 0.3009583333333333,
      "grad_norm": 0.927914559841156,
      "learning_rate": 0.00023891581985798966,
      "loss": 3.9897,
      "step": 144460
    },
    {
      "epoch": 0.3009791666666667,
      "grad_norm": 0.7162137031555176,
      "learning_rate": 0.00023890787987981943,
      "loss": 4.0744,
      "step": 144470
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.9444990158081055,
      "learning_rate": 0.00023889993951760243,
      "loss": 4.0483,
      "step": 144480
    },
    {
      "epoch": 0.30102083333333335,
      "grad_norm": 0.739984929561615,
      "learning_rate": 0.0002388919987713728,
      "loss": 4.094,
      "step": 144490
    },
    {
      "epoch": 0.30104166666666665,
      "grad_norm": 0.7535924911499023,
      "learning_rate": 0.00023888405764116498,
      "loss": 3.8484,
      "step": 144500
    },
    {
      "epoch": 0.3010625,
      "grad_norm": 0.727454423904419,
      "learning_rate": 0.00023887611612701323,
      "loss": 4.0803,
      "step": 144510
    },
    {
      "epoch": 0.3010833333333333,
      "grad_norm": 0.7764993906021118,
      "learning_rate": 0.00023886817422895176,
      "loss": 4.0967,
      "step": 144520
    },
    {
      "epoch": 0.3011041666666667,
      "grad_norm": 0.7230945229530334,
      "learning_rate": 0.00023886023194701503,
      "loss": 3.8252,
      "step": 144530
    },
    {
      "epoch": 0.301125,
      "grad_norm": 0.8106773495674133,
      "learning_rate": 0.00023885228928123724,
      "loss": 3.8561,
      "step": 144540
    },
    {
      "epoch": 0.30114583333333333,
      "grad_norm": 0.849551796913147,
      "learning_rate": 0.00023884434623165277,
      "loss": 4.0589,
      "step": 144550
    },
    {
      "epoch": 0.3011666666666667,
      "grad_norm": 0.7443282008171082,
      "learning_rate": 0.00023883640279829583,
      "loss": 4.163,
      "step": 144560
    },
    {
      "epoch": 0.3011875,
      "grad_norm": 0.913606584072113,
      "learning_rate": 0.00023882845898120082,
      "loss": 4.0657,
      "step": 144570
    },
    {
      "epoch": 0.30120833333333336,
      "grad_norm": 0.7580461502075195,
      "learning_rate": 0.00023882051478040203,
      "loss": 4.1231,
      "step": 144580
    },
    {
      "epoch": 0.30122916666666666,
      "grad_norm": 0.7499874234199524,
      "learning_rate": 0.0002388125701959338,
      "loss": 3.9769,
      "step": 144590
    },
    {
      "epoch": 0.30125,
      "grad_norm": 0.7834743857383728,
      "learning_rate": 0.00023880462522783035,
      "loss": 3.8928,
      "step": 144600
    },
    {
      "epoch": 0.3012708333333333,
      "grad_norm": 0.7327396869659424,
      "learning_rate": 0.00023879667987612615,
      "loss": 3.8339,
      "step": 144610
    },
    {
      "epoch": 0.3012916666666667,
      "grad_norm": 0.8352687358856201,
      "learning_rate": 0.0002387887341408554,
      "loss": 3.9024,
      "step": 144620
    },
    {
      "epoch": 0.3013125,
      "grad_norm": 0.7084876894950867,
      "learning_rate": 0.00023878078802205247,
      "loss": 4.1318,
      "step": 144630
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 0.7662626504898071,
      "learning_rate": 0.0002387728415197517,
      "loss": 4.0976,
      "step": 144640
    },
    {
      "epoch": 0.30135416666666665,
      "grad_norm": 0.8141022324562073,
      "learning_rate": 0.00023876489463398731,
      "loss": 4.0921,
      "step": 144650
    },
    {
      "epoch": 0.301375,
      "grad_norm": 0.8601624369621277,
      "learning_rate": 0.00023875694736479378,
      "loss": 3.909,
      "step": 144660
    },
    {
      "epoch": 0.3013958333333333,
      "grad_norm": 0.7923983931541443,
      "learning_rate": 0.0002387489997122054,
      "loss": 3.7706,
      "step": 144670
    },
    {
      "epoch": 0.30141666666666667,
      "grad_norm": 0.9212638735771179,
      "learning_rate": 0.00023874105167625642,
      "loss": 3.9696,
      "step": 144680
    },
    {
      "epoch": 0.3014375,
      "grad_norm": 0.7968218326568604,
      "learning_rate": 0.00023873310325698126,
      "loss": 3.91,
      "step": 144690
    },
    {
      "epoch": 0.30145833333333333,
      "grad_norm": 0.7747396230697632,
      "learning_rate": 0.00023872515445441415,
      "loss": 4.1802,
      "step": 144700
    },
    {
      "epoch": 0.3014791666666667,
      "grad_norm": 0.7661083340644836,
      "learning_rate": 0.0002387172052685895,
      "loss": 4.1307,
      "step": 144710
    },
    {
      "epoch": 0.3015,
      "grad_norm": 0.7338930368423462,
      "learning_rate": 0.00023870925569954173,
      "loss": 3.9068,
      "step": 144720
    },
    {
      "epoch": 0.30152083333333335,
      "grad_norm": 0.7170810699462891,
      "learning_rate": 0.00023870130574730501,
      "loss": 3.9919,
      "step": 144730
    },
    {
      "epoch": 0.30154166666666665,
      "grad_norm": 0.8063272833824158,
      "learning_rate": 0.0002386933554119138,
      "loss": 3.9118,
      "step": 144740
    },
    {
      "epoch": 0.3015625,
      "grad_norm": 0.7870303988456726,
      "learning_rate": 0.00023868540469340236,
      "loss": 4.0548,
      "step": 144750
    },
    {
      "epoch": 0.3015833333333333,
      "grad_norm": 0.7856281995773315,
      "learning_rate": 0.0002386774535918051,
      "loss": 4.0122,
      "step": 144760
    },
    {
      "epoch": 0.3016041666666667,
      "grad_norm": 0.7689839601516724,
      "learning_rate": 0.0002386695021071563,
      "loss": 4.1015,
      "step": 144770
    },
    {
      "epoch": 0.301625,
      "grad_norm": 0.7356010675430298,
      "learning_rate": 0.00023866155023949046,
      "loss": 4.0827,
      "step": 144780
    },
    {
      "epoch": 0.30164583333333334,
      "grad_norm": 0.8586591482162476,
      "learning_rate": 0.00023865359798884173,
      "loss": 4.0376,
      "step": 144790
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 1.0125081539154053,
      "learning_rate": 0.00023864564535524456,
      "loss": 4.0133,
      "step": 144800
    },
    {
      "epoch": 0.3016875,
      "grad_norm": 0.8067083358764648,
      "learning_rate": 0.0002386376923387333,
      "loss": 4.0143,
      "step": 144810
    },
    {
      "epoch": 0.30170833333333336,
      "grad_norm": 0.7748855948448181,
      "learning_rate": 0.00023862973893934225,
      "loss": 3.9409,
      "step": 144820
    },
    {
      "epoch": 0.30172916666666666,
      "grad_norm": 0.9991633892059326,
      "learning_rate": 0.0002386217851571059,
      "loss": 4.0738,
      "step": 144830
    },
    {
      "epoch": 0.30175,
      "grad_norm": 0.7971764206886292,
      "learning_rate": 0.00023861383099205846,
      "loss": 4.0542,
      "step": 144840
    },
    {
      "epoch": 0.3017708333333333,
      "grad_norm": 0.7470821738243103,
      "learning_rate": 0.00023860587644423432,
      "loss": 4.0609,
      "step": 144850
    },
    {
      "epoch": 0.3017916666666667,
      "grad_norm": 0.9266607165336609,
      "learning_rate": 0.00023859792151366792,
      "loss": 4.0797,
      "step": 144860
    },
    {
      "epoch": 0.3018125,
      "grad_norm": 0.7230173945426941,
      "learning_rate": 0.00023858996620039358,
      "loss": 4.0626,
      "step": 144870
    },
    {
      "epoch": 0.30183333333333334,
      "grad_norm": 0.8600993156433105,
      "learning_rate": 0.0002385820105044456,
      "loss": 4.0228,
      "step": 144880
    },
    {
      "epoch": 0.30185416666666665,
      "grad_norm": 0.831809401512146,
      "learning_rate": 0.0002385740544258584,
      "loss": 4.0189,
      "step": 144890
    },
    {
      "epoch": 0.301875,
      "grad_norm": 0.7939925789833069,
      "learning_rate": 0.00023856609796466636,
      "loss": 3.9972,
      "step": 144900
    },
    {
      "epoch": 0.3018958333333333,
      "grad_norm": 0.7611835598945618,
      "learning_rate": 0.00023855814112090382,
      "loss": 4.0704,
      "step": 144910
    },
    {
      "epoch": 0.30191666666666667,
      "grad_norm": 0.7308720350265503,
      "learning_rate": 0.00023855018389460522,
      "loss": 3.9634,
      "step": 144920
    },
    {
      "epoch": 0.3019375,
      "grad_norm": 0.768258810043335,
      "learning_rate": 0.00023854222628580483,
      "loss": 3.8088,
      "step": 144930
    },
    {
      "epoch": 0.30195833333333333,
      "grad_norm": 0.7735371589660645,
      "learning_rate": 0.00023853426829453702,
      "loss": 3.7203,
      "step": 144940
    },
    {
      "epoch": 0.3019791666666667,
      "grad_norm": 0.7862552404403687,
      "learning_rate": 0.00023852630992083634,
      "loss": 3.9279,
      "step": 144950
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.8112455606460571,
      "learning_rate": 0.00023851835116473697,
      "loss": 3.9369,
      "step": 144960
    },
    {
      "epoch": 0.30202083333333335,
      "grad_norm": 0.8659374713897705,
      "learning_rate": 0.00023851039202627333,
      "loss": 4.0906,
      "step": 144970
    },
    {
      "epoch": 0.30204166666666665,
      "grad_norm": 0.7501528263092041,
      "learning_rate": 0.00023850243250547986,
      "loss": 4.0644,
      "step": 144980
    },
    {
      "epoch": 0.3020625,
      "grad_norm": 0.7945714592933655,
      "learning_rate": 0.00023849447260239093,
      "loss": 3.919,
      "step": 144990
    },
    {
      "epoch": 0.3020833333333333,
      "grad_norm": 0.80178302526474,
      "learning_rate": 0.00023848651231704092,
      "loss": 4.0752,
      "step": 145000
    },
    {
      "epoch": 0.3020833333333333,
      "eval_loss": 3.7484962940216064,
      "eval_runtime": 6.8196,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 145000
    },
    {
      "epoch": 0.3021041666666667,
      "grad_norm": 0.9993191361427307,
      "learning_rate": 0.00023847855164946418,
      "loss": 3.9009,
      "step": 145010
    },
    {
      "epoch": 0.302125,
      "grad_norm": 0.7810753583908081,
      "learning_rate": 0.0002384705905996951,
      "loss": 4.0487,
      "step": 145020
    },
    {
      "epoch": 0.30214583333333334,
      "grad_norm": 0.7793655395507812,
      "learning_rate": 0.00023846262916776812,
      "loss": 4.0382,
      "step": 145030
    },
    {
      "epoch": 0.30216666666666664,
      "grad_norm": 0.7660141587257385,
      "learning_rate": 0.00023845466735371757,
      "loss": 4.0045,
      "step": 145040
    },
    {
      "epoch": 0.3021875,
      "grad_norm": 0.8213521838188171,
      "learning_rate": 0.00023844670515757788,
      "loss": 3.864,
      "step": 145050
    },
    {
      "epoch": 0.30220833333333336,
      "grad_norm": 0.8245047926902771,
      "learning_rate": 0.00023843874257938348,
      "loss": 4.0098,
      "step": 145060
    },
    {
      "epoch": 0.30222916666666666,
      "grad_norm": 0.8392045497894287,
      "learning_rate": 0.00023843077961916865,
      "loss": 3.8505,
      "step": 145070
    },
    {
      "epoch": 0.30225,
      "grad_norm": 0.798367977142334,
      "learning_rate": 0.00023842281627696785,
      "loss": 3.9023,
      "step": 145080
    },
    {
      "epoch": 0.3022708333333333,
      "grad_norm": 0.8809002637863159,
      "learning_rate": 0.00023841485255281553,
      "loss": 3.9217,
      "step": 145090
    },
    {
      "epoch": 0.3022916666666667,
      "grad_norm": 0.7743967175483704,
      "learning_rate": 0.00023840688844674606,
      "loss": 4.1602,
      "step": 145100
    },
    {
      "epoch": 0.3023125,
      "grad_norm": 0.7285189032554626,
      "learning_rate": 0.00023839892395879377,
      "loss": 3.9681,
      "step": 145110
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 0.9253295660018921,
      "learning_rate": 0.00023839095908899312,
      "loss": 3.989,
      "step": 145120
    },
    {
      "epoch": 0.30235416666666665,
      "grad_norm": 0.7538005709648132,
      "learning_rate": 0.00023838299383737859,
      "loss": 3.8548,
      "step": 145130
    },
    {
      "epoch": 0.302375,
      "grad_norm": 0.7838366627693176,
      "learning_rate": 0.00023837502820398446,
      "loss": 3.9517,
      "step": 145140
    },
    {
      "epoch": 0.3023958333333333,
      "grad_norm": 0.9300053715705872,
      "learning_rate": 0.00023836706218884515,
      "loss": 4.0262,
      "step": 145150
    },
    {
      "epoch": 0.30241666666666667,
      "grad_norm": 0.8460894227027893,
      "learning_rate": 0.00023835909579199516,
      "loss": 3.8676,
      "step": 145160
    },
    {
      "epoch": 0.3024375,
      "grad_norm": 0.7730579972267151,
      "learning_rate": 0.00023835112901346884,
      "loss": 3.9649,
      "step": 145170
    },
    {
      "epoch": 0.30245833333333333,
      "grad_norm": 0.7831912040710449,
      "learning_rate": 0.00023834316185330064,
      "loss": 4.031,
      "step": 145180
    },
    {
      "epoch": 0.3024791666666667,
      "grad_norm": 0.9022027850151062,
      "learning_rate": 0.00023833519431152488,
      "loss": 3.6688,
      "step": 145190
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.9026318192481995,
      "learning_rate": 0.0002383272263881761,
      "loss": 4.0214,
      "step": 145200
    },
    {
      "epoch": 0.30252083333333335,
      "grad_norm": 0.9498672485351562,
      "learning_rate": 0.00023831925808328865,
      "loss": 4.0883,
      "step": 145210
    },
    {
      "epoch": 0.30254166666666665,
      "grad_norm": 0.7755561470985413,
      "learning_rate": 0.00023831128939689697,
      "loss": 4.0917,
      "step": 145220
    },
    {
      "epoch": 0.3025625,
      "grad_norm": 0.8251907825469971,
      "learning_rate": 0.0002383033203290355,
      "loss": 3.8516,
      "step": 145230
    },
    {
      "epoch": 0.3025833333333333,
      "grad_norm": 0.7519879341125488,
      "learning_rate": 0.00023829535087973862,
      "loss": 4.0058,
      "step": 145240
    },
    {
      "epoch": 0.3026041666666667,
      "grad_norm": 0.8894893527030945,
      "learning_rate": 0.00023828738104904074,
      "loss": 4.2177,
      "step": 145250
    },
    {
      "epoch": 0.302625,
      "grad_norm": 0.7631570100784302,
      "learning_rate": 0.00023827941083697635,
      "loss": 4.0424,
      "step": 145260
    },
    {
      "epoch": 0.30264583333333334,
      "grad_norm": 0.8976755738258362,
      "learning_rate": 0.00023827144024357984,
      "loss": 3.912,
      "step": 145270
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 0.7891473770141602,
      "learning_rate": 0.00023826346926888566,
      "loss": 4.0082,
      "step": 145280
    },
    {
      "epoch": 0.3026875,
      "grad_norm": 0.7652291059494019,
      "learning_rate": 0.00023825549791292824,
      "loss": 4.0536,
      "step": 145290
    },
    {
      "epoch": 0.30270833333333336,
      "grad_norm": 0.9103111028671265,
      "learning_rate": 0.00023824752617574195,
      "loss": 3.9922,
      "step": 145300
    },
    {
      "epoch": 0.30272916666666666,
      "grad_norm": 0.9178422689437866,
      "learning_rate": 0.00023823955405736133,
      "loss": 4.1237,
      "step": 145310
    },
    {
      "epoch": 0.30275,
      "grad_norm": 0.7926785349845886,
      "learning_rate": 0.00023823158155782077,
      "loss": 3.9049,
      "step": 145320
    },
    {
      "epoch": 0.3027708333333333,
      "grad_norm": 0.7931904792785645,
      "learning_rate": 0.00023822360867715466,
      "loss": 3.9997,
      "step": 145330
    },
    {
      "epoch": 0.3027916666666667,
      "grad_norm": 0.8127793669700623,
      "learning_rate": 0.00023821563541539753,
      "loss": 3.9186,
      "step": 145340
    },
    {
      "epoch": 0.3028125,
      "grad_norm": 0.8130360245704651,
      "learning_rate": 0.0002382076617725837,
      "loss": 3.9425,
      "step": 145350
    },
    {
      "epoch": 0.30283333333333334,
      "grad_norm": 0.7395334839820862,
      "learning_rate": 0.00023819968774874774,
      "loss": 3.8886,
      "step": 145360
    },
    {
      "epoch": 0.30285416666666665,
      "grad_norm": 0.7528241276741028,
      "learning_rate": 0.00023819171334392406,
      "loss": 4.0428,
      "step": 145370
    },
    {
      "epoch": 0.302875,
      "grad_norm": 0.7446247339248657,
      "learning_rate": 0.00023818373855814706,
      "loss": 4.0912,
      "step": 145380
    },
    {
      "epoch": 0.3028958333333333,
      "grad_norm": 0.7543773651123047,
      "learning_rate": 0.00023817576339145118,
      "loss": 4.0725,
      "step": 145390
    },
    {
      "epoch": 0.30291666666666667,
      "grad_norm": 0.8226789832115173,
      "learning_rate": 0.00023816778784387094,
      "loss": 4.0032,
      "step": 145400
    },
    {
      "epoch": 0.3029375,
      "grad_norm": 0.8100447654724121,
      "learning_rate": 0.00023815981191544077,
      "loss": 4.0252,
      "step": 145410
    },
    {
      "epoch": 0.30295833333333333,
      "grad_norm": 0.7479079365730286,
      "learning_rate": 0.0002381518356061951,
      "loss": 4.036,
      "step": 145420
    },
    {
      "epoch": 0.3029791666666667,
      "grad_norm": 0.7659697532653809,
      "learning_rate": 0.0002381438589161684,
      "loss": 3.9122,
      "step": 145430
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.7344191074371338,
      "learning_rate": 0.00023813588184539507,
      "loss": 4.0212,
      "step": 145440
    },
    {
      "epoch": 0.30302083333333335,
      "grad_norm": 0.7744569182395935,
      "learning_rate": 0.00023812790439390968,
      "loss": 3.8846,
      "step": 145450
    },
    {
      "epoch": 0.30304166666666665,
      "grad_norm": 0.9434866905212402,
      "learning_rate": 0.0002381199265617466,
      "loss": 4.1277,
      "step": 145460
    },
    {
      "epoch": 0.3030625,
      "grad_norm": 0.7911342978477478,
      "learning_rate": 0.00023811194834894028,
      "loss": 4.1319,
      "step": 145470
    },
    {
      "epoch": 0.3030833333333333,
      "grad_norm": 0.7582865953445435,
      "learning_rate": 0.0002381039697555253,
      "loss": 3.8129,
      "step": 145480
    },
    {
      "epoch": 0.3031041666666667,
      "grad_norm": 0.805515468120575,
      "learning_rate": 0.000238095990781536,
      "loss": 4.0769,
      "step": 145490
    },
    {
      "epoch": 0.303125,
      "grad_norm": 0.8521525859832764,
      "learning_rate": 0.00023808801142700687,
      "loss": 4.1793,
      "step": 145500
    },
    {
      "epoch": 0.30314583333333334,
      "grad_norm": 0.8385768532752991,
      "learning_rate": 0.00023808003169197245,
      "loss": 3.9646,
      "step": 145510
    },
    {
      "epoch": 0.30316666666666664,
      "grad_norm": 0.7697125673294067,
      "learning_rate": 0.00023807205157646712,
      "loss": 3.9271,
      "step": 145520
    },
    {
      "epoch": 0.3031875,
      "grad_norm": 0.84344881772995,
      "learning_rate": 0.00023806407108052535,
      "loss": 3.8056,
      "step": 145530
    },
    {
      "epoch": 0.30320833333333336,
      "grad_norm": 0.8555866479873657,
      "learning_rate": 0.00023805609020418174,
      "loss": 3.9854,
      "step": 145540
    },
    {
      "epoch": 0.30322916666666666,
      "grad_norm": 0.7793136239051819,
      "learning_rate": 0.0002380481089474706,
      "loss": 3.9752,
      "step": 145550
    },
    {
      "epoch": 0.30325,
      "grad_norm": 0.777477502822876,
      "learning_rate": 0.00023804012731042654,
      "loss": 3.8728,
      "step": 145560
    },
    {
      "epoch": 0.3032708333333333,
      "grad_norm": 0.7346780300140381,
      "learning_rate": 0.00023803214529308396,
      "loss": 4.0533,
      "step": 145570
    },
    {
      "epoch": 0.3032916666666667,
      "grad_norm": 0.8301745057106018,
      "learning_rate": 0.00023802416289547734,
      "loss": 4.0397,
      "step": 145580
    },
    {
      "epoch": 0.3033125,
      "grad_norm": 0.7293552756309509,
      "learning_rate": 0.0002380161801176412,
      "loss": 4.1471,
      "step": 145590
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 0.8651480674743652,
      "learning_rate": 0.00023800819695960995,
      "loss": 4.0326,
      "step": 145600
    },
    {
      "epoch": 0.30335416666666665,
      "grad_norm": 0.7806029915809631,
      "learning_rate": 0.00023800021342141822,
      "loss": 3.6767,
      "step": 145610
    },
    {
      "epoch": 0.303375,
      "grad_norm": 0.7837851047515869,
      "learning_rate": 0.00023799222950310036,
      "loss": 3.9968,
      "step": 145620
    },
    {
      "epoch": 0.3033958333333333,
      "grad_norm": 0.8152400255203247,
      "learning_rate": 0.00023798424520469087,
      "loss": 4.0002,
      "step": 145630
    },
    {
      "epoch": 0.30341666666666667,
      "grad_norm": 0.7476447820663452,
      "learning_rate": 0.00023797626052622425,
      "loss": 4.0803,
      "step": 145640
    },
    {
      "epoch": 0.3034375,
      "grad_norm": 0.9261200428009033,
      "learning_rate": 0.00023796827546773507,
      "loss": 4.0318,
      "step": 145650
    },
    {
      "epoch": 0.30345833333333333,
      "grad_norm": 0.715651273727417,
      "learning_rate": 0.0002379602900292577,
      "loss": 3.9591,
      "step": 145660
    },
    {
      "epoch": 0.3034791666666667,
      "grad_norm": 0.7565730810165405,
      "learning_rate": 0.00023795230421082674,
      "loss": 3.9751,
      "step": 145670
    },
    {
      "epoch": 0.3035,
      "grad_norm": 0.8068367838859558,
      "learning_rate": 0.00023794431801247662,
      "loss": 4.0363,
      "step": 145680
    },
    {
      "epoch": 0.30352083333333335,
      "grad_norm": 0.7268808484077454,
      "learning_rate": 0.00023793633143424185,
      "loss": 3.9823,
      "step": 145690
    },
    {
      "epoch": 0.30354166666666665,
      "grad_norm": 0.9385817050933838,
      "learning_rate": 0.00023792834447615695,
      "loss": 4.1304,
      "step": 145700
    },
    {
      "epoch": 0.3035625,
      "grad_norm": 0.8513402938842773,
      "learning_rate": 0.0002379203571382564,
      "loss": 4.0098,
      "step": 145710
    },
    {
      "epoch": 0.3035833333333333,
      "grad_norm": 0.7644603848457336,
      "learning_rate": 0.0002379123694205747,
      "loss": 3.9671,
      "step": 145720
    },
    {
      "epoch": 0.3036041666666667,
      "grad_norm": 0.7607691884040833,
      "learning_rate": 0.00023790438132314642,
      "loss": 3.9964,
      "step": 145730
    },
    {
      "epoch": 0.303625,
      "grad_norm": 0.7368426322937012,
      "learning_rate": 0.00023789639284600594,
      "loss": 4.1024,
      "step": 145740
    },
    {
      "epoch": 0.30364583333333334,
      "grad_norm": 0.7412113547325134,
      "learning_rate": 0.00023788840398918784,
      "loss": 3.9168,
      "step": 145750
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 0.78948575258255,
      "learning_rate": 0.00023788041475272665,
      "loss": 3.8887,
      "step": 145760
    },
    {
      "epoch": 0.3036875,
      "grad_norm": 0.7824010848999023,
      "learning_rate": 0.00023787242513665686,
      "loss": 3.8626,
      "step": 145770
    },
    {
      "epoch": 0.30370833333333336,
      "grad_norm": 0.7291731238365173,
      "learning_rate": 0.00023786443514101294,
      "loss": 4.1694,
      "step": 145780
    },
    {
      "epoch": 0.30372916666666666,
      "grad_norm": 0.7493662238121033,
      "learning_rate": 0.0002378564447658295,
      "loss": 4.0237,
      "step": 145790
    },
    {
      "epoch": 0.30375,
      "grad_norm": 0.7858691215515137,
      "learning_rate": 0.0002378484540111409,
      "loss": 4.1209,
      "step": 145800
    },
    {
      "epoch": 0.3037708333333333,
      "grad_norm": 0.7695750594139099,
      "learning_rate": 0.00023784046287698185,
      "loss": 4.0096,
      "step": 145810
    },
    {
      "epoch": 0.3037916666666667,
      "grad_norm": 0.8591198921203613,
      "learning_rate": 0.0002378324713633867,
      "loss": 4.1197,
      "step": 145820
    },
    {
      "epoch": 0.3038125,
      "grad_norm": 0.872543215751648,
      "learning_rate": 0.00023782447947039007,
      "loss": 3.8859,
      "step": 145830
    },
    {
      "epoch": 0.30383333333333334,
      "grad_norm": 1.01218581199646,
      "learning_rate": 0.00023781648719802646,
      "loss": 3.9359,
      "step": 145840
    },
    {
      "epoch": 0.30385416666666665,
      "grad_norm": 0.7528769373893738,
      "learning_rate": 0.00023780849454633037,
      "loss": 4.138,
      "step": 145850
    },
    {
      "epoch": 0.303875,
      "grad_norm": 0.8240231275558472,
      "learning_rate": 0.00023780050151533637,
      "loss": 3.9136,
      "step": 145860
    },
    {
      "epoch": 0.3038958333333333,
      "grad_norm": 0.9416738152503967,
      "learning_rate": 0.00023779250810507892,
      "loss": 4.0083,
      "step": 145870
    },
    {
      "epoch": 0.30391666666666667,
      "grad_norm": 0.8592332601547241,
      "learning_rate": 0.00023778451431559258,
      "loss": 4.0476,
      "step": 145880
    },
    {
      "epoch": 0.3039375,
      "grad_norm": 0.853659987449646,
      "learning_rate": 0.00023777652014691188,
      "loss": 4.0571,
      "step": 145890
    },
    {
      "epoch": 0.30395833333333333,
      "grad_norm": 0.7048236131668091,
      "learning_rate": 0.00023776852559907142,
      "loss": 3.7579,
      "step": 145900
    },
    {
      "epoch": 0.3039791666666667,
      "grad_norm": 0.8542283177375793,
      "learning_rate": 0.00023776053067210562,
      "loss": 4.1168,
      "step": 145910
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.9113102555274963,
      "learning_rate": 0.00023775253536604906,
      "loss": 4.0614,
      "step": 145920
    },
    {
      "epoch": 0.30402083333333335,
      "grad_norm": 0.7805715203285217,
      "learning_rate": 0.00023774453968093635,
      "loss": 4.1073,
      "step": 145930
    },
    {
      "epoch": 0.30404166666666665,
      "grad_norm": 0.8009370565414429,
      "learning_rate": 0.00023773654361680186,
      "loss": 3.9057,
      "step": 145940
    },
    {
      "epoch": 0.3040625,
      "grad_norm": 0.7439783811569214,
      "learning_rate": 0.00023772854717368026,
      "loss": 4.1643,
      "step": 145950
    },
    {
      "epoch": 0.3040833333333333,
      "grad_norm": 0.8047595024108887,
      "learning_rate": 0.00023772055035160613,
      "loss": 3.7897,
      "step": 145960
    },
    {
      "epoch": 0.3041041666666667,
      "grad_norm": 0.7447373867034912,
      "learning_rate": 0.00023771255315061383,
      "loss": 3.9384,
      "step": 145970
    },
    {
      "epoch": 0.304125,
      "grad_norm": 0.8189364671707153,
      "learning_rate": 0.00023770455557073808,
      "loss": 3.8777,
      "step": 145980
    },
    {
      "epoch": 0.30414583333333334,
      "grad_norm": 0.7706251740455627,
      "learning_rate": 0.00023769655761201342,
      "loss": 3.9893,
      "step": 145990
    },
    {
      "epoch": 0.30416666666666664,
      "grad_norm": 0.7701716423034668,
      "learning_rate": 0.0002376885592744743,
      "loss": 3.9686,
      "step": 146000
    },
    {
      "epoch": 0.30416666666666664,
      "eval_loss": 3.7388312816619873,
      "eval_runtime": 7.2709,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.413,
      "step": 146000
    },
    {
      "epoch": 0.3041875,
      "grad_norm": 0.7889532446861267,
      "learning_rate": 0.0002376805605581553,
      "loss": 3.9544,
      "step": 146010
    },
    {
      "epoch": 0.30420833333333336,
      "grad_norm": 1.1244559288024902,
      "learning_rate": 0.00023767256146309097,
      "loss": 3.6882,
      "step": 146020
    },
    {
      "epoch": 0.30422916666666666,
      "grad_norm": 0.8086000084877014,
      "learning_rate": 0.0002376645619893159,
      "loss": 3.9942,
      "step": 146030
    },
    {
      "epoch": 0.30425,
      "grad_norm": 0.8043870329856873,
      "learning_rate": 0.00023765656213686466,
      "loss": 3.8659,
      "step": 146040
    },
    {
      "epoch": 0.3042708333333333,
      "grad_norm": 0.7959564924240112,
      "learning_rate": 0.0002376485619057717,
      "loss": 3.9526,
      "step": 146050
    },
    {
      "epoch": 0.3042916666666667,
      "grad_norm": 0.7277156114578247,
      "learning_rate": 0.00023764056129607167,
      "loss": 3.9938,
      "step": 146060
    },
    {
      "epoch": 0.3043125,
      "grad_norm": 0.7941663861274719,
      "learning_rate": 0.00023763256030779912,
      "loss": 3.8767,
      "step": 146070
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 0.7550066113471985,
      "learning_rate": 0.00023762455894098857,
      "loss": 4.2338,
      "step": 146080
    },
    {
      "epoch": 0.30435416666666665,
      "grad_norm": 0.7602038979530334,
      "learning_rate": 0.00023761655719567462,
      "loss": 3.9989,
      "step": 146090
    },
    {
      "epoch": 0.304375,
      "grad_norm": 0.9424871802330017,
      "learning_rate": 0.00023760855507189187,
      "loss": 3.9652,
      "step": 146100
    },
    {
      "epoch": 0.3043958333333333,
      "grad_norm": 0.7325839996337891,
      "learning_rate": 0.0002376005525696748,
      "loss": 3.908,
      "step": 146110
    },
    {
      "epoch": 0.30441666666666667,
      "grad_norm": 0.7365711331367493,
      "learning_rate": 0.000237592549689058,
      "loss": 3.9014,
      "step": 146120
    },
    {
      "epoch": 0.3044375,
      "grad_norm": 0.8207780718803406,
      "learning_rate": 0.0002375845464300761,
      "loss": 3.9467,
      "step": 146130
    },
    {
      "epoch": 0.30445833333333333,
      "grad_norm": 0.7226088047027588,
      "learning_rate": 0.00023757654279276357,
      "loss": 3.8899,
      "step": 146140
    },
    {
      "epoch": 0.3044791666666667,
      "grad_norm": 0.8929302096366882,
      "learning_rate": 0.00023756853877715506,
      "loss": 4.2377,
      "step": 146150
    },
    {
      "epoch": 0.3045,
      "grad_norm": 0.7945672273635864,
      "learning_rate": 0.00023756053438328518,
      "loss": 3.965,
      "step": 146160
    },
    {
      "epoch": 0.30452083333333335,
      "grad_norm": 0.8535736799240112,
      "learning_rate": 0.00023755252961118838,
      "loss": 4.0996,
      "step": 146170
    },
    {
      "epoch": 0.30454166666666665,
      "grad_norm": 0.7559504508972168,
      "learning_rate": 0.0002375445244608994,
      "loss": 3.9854,
      "step": 146180
    },
    {
      "epoch": 0.3045625,
      "grad_norm": 0.73398756980896,
      "learning_rate": 0.00023753651893245264,
      "loss": 3.9275,
      "step": 146190
    },
    {
      "epoch": 0.3045833333333333,
      "grad_norm": 0.8319002985954285,
      "learning_rate": 0.00023752851302588277,
      "loss": 4.0672,
      "step": 146200
    },
    {
      "epoch": 0.3046041666666667,
      "grad_norm": 1.0175275802612305,
      "learning_rate": 0.0002375205067412244,
      "loss": 3.9339,
      "step": 146210
    },
    {
      "epoch": 0.304625,
      "grad_norm": 0.7972813844680786,
      "learning_rate": 0.00023751250007851207,
      "loss": 3.9158,
      "step": 146220
    },
    {
      "epoch": 0.30464583333333334,
      "grad_norm": 0.8027395009994507,
      "learning_rate": 0.0002375044930377804,
      "loss": 3.8964,
      "step": 146230
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 0.7790800333023071,
      "learning_rate": 0.00023749648561906394,
      "loss": 3.8862,
      "step": 146240
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 0.8062345385551453,
      "learning_rate": 0.00023748847782239732,
      "loss": 3.9539,
      "step": 146250
    },
    {
      "epoch": 0.30470833333333336,
      "grad_norm": 0.779150128364563,
      "learning_rate": 0.00023748046964781503,
      "loss": 4.0384,
      "step": 146260
    },
    {
      "epoch": 0.30472916666666666,
      "grad_norm": 0.7565693259239197,
      "learning_rate": 0.00023747246109535186,
      "loss": 4.1002,
      "step": 146270
    },
    {
      "epoch": 0.30475,
      "grad_norm": 0.8300668001174927,
      "learning_rate": 0.00023746445216504217,
      "loss": 3.9128,
      "step": 146280
    },
    {
      "epoch": 0.3047708333333333,
      "grad_norm": 0.852436900138855,
      "learning_rate": 0.00023745644285692072,
      "loss": 3.9845,
      "step": 146290
    },
    {
      "epoch": 0.3047916666666667,
      "grad_norm": 0.8641639351844788,
      "learning_rate": 0.00023744843317102205,
      "loss": 3.9876,
      "step": 146300
    },
    {
      "epoch": 0.3048125,
      "grad_norm": 0.7412251830101013,
      "learning_rate": 0.00023744042310738073,
      "loss": 4.0709,
      "step": 146310
    },
    {
      "epoch": 0.30483333333333335,
      "grad_norm": 0.7740607857704163,
      "learning_rate": 0.00023743241266603143,
      "loss": 4.0725,
      "step": 146320
    },
    {
      "epoch": 0.30485416666666665,
      "grad_norm": 0.7715363502502441,
      "learning_rate": 0.00023742440184700873,
      "loss": 4.1235,
      "step": 146330
    },
    {
      "epoch": 0.304875,
      "grad_norm": 0.7365735769271851,
      "learning_rate": 0.0002374163906503472,
      "loss": 3.946,
      "step": 146340
    },
    {
      "epoch": 0.3048958333333333,
      "grad_norm": 0.9909286499023438,
      "learning_rate": 0.00023740837907608147,
      "loss": 4.0027,
      "step": 146350
    },
    {
      "epoch": 0.30491666666666667,
      "grad_norm": 0.8891914486885071,
      "learning_rate": 0.00023740036712424612,
      "loss": 3.9207,
      "step": 146360
    },
    {
      "epoch": 0.3049375,
      "grad_norm": 0.7410656809806824,
      "learning_rate": 0.00023739235479487578,
      "loss": 3.9358,
      "step": 146370
    },
    {
      "epoch": 0.30495833333333333,
      "grad_norm": 0.9317611455917358,
      "learning_rate": 0.0002373843420880051,
      "loss": 4.1692,
      "step": 146380
    },
    {
      "epoch": 0.3049791666666667,
      "grad_norm": 0.7560580968856812,
      "learning_rate": 0.0002373763290036686,
      "loss": 3.9475,
      "step": 146390
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.9596351385116577,
      "learning_rate": 0.00023736831554190097,
      "loss": 4.0059,
      "step": 146400
    },
    {
      "epoch": 0.30502083333333335,
      "grad_norm": 0.814926028251648,
      "learning_rate": 0.0002373603017027368,
      "loss": 4.1112,
      "step": 146410
    },
    {
      "epoch": 0.30504166666666666,
      "grad_norm": 0.7442554235458374,
      "learning_rate": 0.0002373522874862107,
      "loss": 3.9698,
      "step": 146420
    },
    {
      "epoch": 0.3050625,
      "grad_norm": 0.8404108881950378,
      "learning_rate": 0.0002373442728923573,
      "loss": 3.9474,
      "step": 146430
    },
    {
      "epoch": 0.3050833333333333,
      "grad_norm": 0.8406220078468323,
      "learning_rate": 0.0002373362579212112,
      "loss": 3.9867,
      "step": 146440
    },
    {
      "epoch": 0.3051041666666667,
      "grad_norm": 0.741849422454834,
      "learning_rate": 0.00023732824257280706,
      "loss": 3.8359,
      "step": 146450
    },
    {
      "epoch": 0.305125,
      "grad_norm": 0.8606888055801392,
      "learning_rate": 0.0002373202268471795,
      "loss": 3.7874,
      "step": 146460
    },
    {
      "epoch": 0.30514583333333334,
      "grad_norm": 0.9010321497917175,
      "learning_rate": 0.00023731221074436306,
      "loss": 3.9964,
      "step": 146470
    },
    {
      "epoch": 0.30516666666666664,
      "grad_norm": 0.8237902522087097,
      "learning_rate": 0.00023730419426439244,
      "loss": 3.9373,
      "step": 146480
    },
    {
      "epoch": 0.3051875,
      "grad_norm": 0.856288492679596,
      "learning_rate": 0.00023729617740730232,
      "loss": 4.0842,
      "step": 146490
    },
    {
      "epoch": 0.30520833333333336,
      "grad_norm": 0.8008952140808105,
      "learning_rate": 0.00023728816017312725,
      "loss": 4.0765,
      "step": 146500
    },
    {
      "epoch": 0.30522916666666666,
      "grad_norm": 0.8888540863990784,
      "learning_rate": 0.0002372801425619018,
      "loss": 4.1676,
      "step": 146510
    },
    {
      "epoch": 0.30525,
      "grad_norm": 0.9261744022369385,
      "learning_rate": 0.00023727212457366075,
      "loss": 3.6363,
      "step": 146520
    },
    {
      "epoch": 0.3052708333333333,
      "grad_norm": 0.7252495288848877,
      "learning_rate": 0.00023726410620843866,
      "loss": 3.9524,
      "step": 146530
    },
    {
      "epoch": 0.3052916666666667,
      "grad_norm": 0.8204764127731323,
      "learning_rate": 0.00023725608746627015,
      "loss": 3.9465,
      "step": 146540
    },
    {
      "epoch": 0.3053125,
      "grad_norm": 0.8168880939483643,
      "learning_rate": 0.00023724806834718993,
      "loss": 4.0403,
      "step": 146550
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 1.0184345245361328,
      "learning_rate": 0.00023724004885123255,
      "loss": 3.9448,
      "step": 146560
    },
    {
      "epoch": 0.30535416666666665,
      "grad_norm": 0.7657575011253357,
      "learning_rate": 0.0002372320289784327,
      "loss": 3.789,
      "step": 146570
    },
    {
      "epoch": 0.305375,
      "grad_norm": 0.6863729953765869,
      "learning_rate": 0.00023722400872882503,
      "loss": 3.9752,
      "step": 146580
    },
    {
      "epoch": 0.3053958333333333,
      "grad_norm": 0.7479532361030579,
      "learning_rate": 0.00023721598810244414,
      "loss": 4.0494,
      "step": 146590
    },
    {
      "epoch": 0.30541666666666667,
      "grad_norm": 0.8747273087501526,
      "learning_rate": 0.00023720796709932472,
      "loss": 3.9809,
      "step": 146600
    },
    {
      "epoch": 0.3054375,
      "grad_norm": 0.8414183855056763,
      "learning_rate": 0.0002371999457195014,
      "loss": 3.807,
      "step": 146610
    },
    {
      "epoch": 0.30545833333333333,
      "grad_norm": 0.7438040971755981,
      "learning_rate": 0.00023719192396300882,
      "loss": 3.7867,
      "step": 146620
    },
    {
      "epoch": 0.3054791666666667,
      "grad_norm": 0.8212774395942688,
      "learning_rate": 0.00023718390182988163,
      "loss": 3.9479,
      "step": 146630
    },
    {
      "epoch": 0.3055,
      "grad_norm": 0.8735976219177246,
      "learning_rate": 0.00023717587932015448,
      "loss": 3.9504,
      "step": 146640
    },
    {
      "epoch": 0.30552083333333335,
      "grad_norm": 0.7964321970939636,
      "learning_rate": 0.0002371678564338621,
      "loss": 4.1705,
      "step": 146650
    },
    {
      "epoch": 0.30554166666666666,
      "grad_norm": 0.7546740770339966,
      "learning_rate": 0.00023715983317103905,
      "loss": 4.0029,
      "step": 146660
    },
    {
      "epoch": 0.3055625,
      "grad_norm": 0.7765871286392212,
      "learning_rate": 0.00023715180953172004,
      "loss": 4.0154,
      "step": 146670
    },
    {
      "epoch": 0.3055833333333333,
      "grad_norm": 0.8101517558097839,
      "learning_rate": 0.0002371437855159397,
      "loss": 4.0179,
      "step": 146680
    },
    {
      "epoch": 0.3056041666666667,
      "grad_norm": 0.7804895043373108,
      "learning_rate": 0.00023713576112373272,
      "loss": 3.9424,
      "step": 146690
    },
    {
      "epoch": 0.305625,
      "grad_norm": 0.8208820223808289,
      "learning_rate": 0.0002371277363551337,
      "loss": 3.9688,
      "step": 146700
    },
    {
      "epoch": 0.30564583333333334,
      "grad_norm": 0.8035334944725037,
      "learning_rate": 0.00023711971121017733,
      "loss": 3.9725,
      "step": 146710
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 0.7896117568016052,
      "learning_rate": 0.00023711168568889835,
      "loss": 4.0791,
      "step": 146720
    },
    {
      "epoch": 0.3056875,
      "grad_norm": 0.8053474426269531,
      "learning_rate": 0.00023710365979133133,
      "loss": 4.0255,
      "step": 146730
    },
    {
      "epoch": 0.30570833333333336,
      "grad_norm": 0.7711695432662964,
      "learning_rate": 0.00023709563351751099,
      "loss": 3.9412,
      "step": 146740
    },
    {
      "epoch": 0.30572916666666666,
      "grad_norm": 0.7478100061416626,
      "learning_rate": 0.00023708760686747205,
      "loss": 4.0386,
      "step": 146750
    },
    {
      "epoch": 0.30575,
      "grad_norm": 0.8564477562904358,
      "learning_rate": 0.000237079579841249,
      "loss": 4.1527,
      "step": 146760
    },
    {
      "epoch": 0.3057708333333333,
      "grad_norm": 0.8206523656845093,
      "learning_rate": 0.0002370715524388767,
      "loss": 3.9312,
      "step": 146770
    },
    {
      "epoch": 0.3057916666666667,
      "grad_norm": 0.7730321288108826,
      "learning_rate": 0.00023706352466038976,
      "loss": 4.0888,
      "step": 146780
    },
    {
      "epoch": 0.3058125,
      "grad_norm": 0.7376073002815247,
      "learning_rate": 0.00023705549650582285,
      "loss": 4.0419,
      "step": 146790
    },
    {
      "epoch": 0.30583333333333335,
      "grad_norm": 0.8031495809555054,
      "learning_rate": 0.0002370474679752107,
      "loss": 4.1001,
      "step": 146800
    },
    {
      "epoch": 0.30585416666666665,
      "grad_norm": 0.8110967874526978,
      "learning_rate": 0.00023703943906858786,
      "loss": 4.0801,
      "step": 146810
    },
    {
      "epoch": 0.305875,
      "grad_norm": 0.8347970247268677,
      "learning_rate": 0.00023703140978598915,
      "loss": 3.9289,
      "step": 146820
    },
    {
      "epoch": 0.3058958333333333,
      "grad_norm": 0.8806433081626892,
      "learning_rate": 0.00023702338012744915,
      "loss": 3.8238,
      "step": 146830
    },
    {
      "epoch": 0.30591666666666667,
      "grad_norm": 0.9058606624603271,
      "learning_rate": 0.0002370153500930026,
      "loss": 4.0521,
      "step": 146840
    },
    {
      "epoch": 0.3059375,
      "grad_norm": 0.8118992447853088,
      "learning_rate": 0.00023700731968268423,
      "loss": 3.7658,
      "step": 146850
    },
    {
      "epoch": 0.30595833333333333,
      "grad_norm": 0.9233754277229309,
      "learning_rate": 0.0002369992888965287,
      "loss": 3.9919,
      "step": 146860
    },
    {
      "epoch": 0.3059791666666667,
      "grad_norm": 0.8590815663337708,
      "learning_rate": 0.00023699125773457062,
      "loss": 3.8919,
      "step": 146870
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.7732306122779846,
      "learning_rate": 0.00023698322619684472,
      "loss": 4.0562,
      "step": 146880
    },
    {
      "epoch": 0.30602083333333335,
      "grad_norm": 0.7888793349266052,
      "learning_rate": 0.00023697519428338574,
      "loss": 4.0089,
      "step": 146890
    },
    {
      "epoch": 0.30604166666666666,
      "grad_norm": 0.8844138383865356,
      "learning_rate": 0.00023696716199422837,
      "loss": 3.9852,
      "step": 146900
    },
    {
      "epoch": 0.3060625,
      "grad_norm": 0.9091416001319885,
      "learning_rate": 0.0002369591293294073,
      "loss": 3.7231,
      "step": 146910
    },
    {
      "epoch": 0.3060833333333333,
      "grad_norm": 0.7316209673881531,
      "learning_rate": 0.00023695109628895714,
      "loss": 3.8241,
      "step": 146920
    },
    {
      "epoch": 0.3061041666666667,
      "grad_norm": 0.7359591722488403,
      "learning_rate": 0.0002369430628729127,
      "loss": 3.8546,
      "step": 146930
    },
    {
      "epoch": 0.306125,
      "grad_norm": 0.7380543351173401,
      "learning_rate": 0.00023693502908130867,
      "loss": 4.1165,
      "step": 146940
    },
    {
      "epoch": 0.30614583333333334,
      "grad_norm": 0.7581033706665039,
      "learning_rate": 0.00023692699491417968,
      "loss": 3.9121,
      "step": 146950
    },
    {
      "epoch": 0.30616666666666664,
      "grad_norm": 0.7907784581184387,
      "learning_rate": 0.00023691896037156054,
      "loss": 4.0502,
      "step": 146960
    },
    {
      "epoch": 0.3061875,
      "grad_norm": 0.7703758478164673,
      "learning_rate": 0.00023691092545348585,
      "loss": 3.9599,
      "step": 146970
    },
    {
      "epoch": 0.30620833333333336,
      "grad_norm": 0.9426112771034241,
      "learning_rate": 0.00023690289015999036,
      "loss": 3.9704,
      "step": 146980
    },
    {
      "epoch": 0.30622916666666666,
      "grad_norm": 0.7331891655921936,
      "learning_rate": 0.00023689485449110876,
      "loss": 3.9326,
      "step": 146990
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.800620436668396,
      "learning_rate": 0.00023688681844687585,
      "loss": 4.3016,
      "step": 147000
    },
    {
      "epoch": 0.30625,
      "eval_loss": 3.7320690155029297,
      "eval_runtime": 7.2523,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 147000
    },
    {
      "epoch": 0.3062708333333333,
      "grad_norm": 0.763287365436554,
      "learning_rate": 0.00023687878202732624,
      "loss": 4.2249,
      "step": 147010
    },
    {
      "epoch": 0.3062916666666667,
      "grad_norm": 0.8033443689346313,
      "learning_rate": 0.0002368707452324947,
      "loss": 4.0247,
      "step": 147020
    },
    {
      "epoch": 0.3063125,
      "grad_norm": 0.7841247320175171,
      "learning_rate": 0.00023686270806241592,
      "loss": 4.1581,
      "step": 147030
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 0.8108369708061218,
      "learning_rate": 0.0002368546705171246,
      "loss": 3.9984,
      "step": 147040
    },
    {
      "epoch": 0.30635416666666665,
      "grad_norm": 0.7992000579833984,
      "learning_rate": 0.0002368466325966555,
      "loss": 4.1277,
      "step": 147050
    },
    {
      "epoch": 0.306375,
      "grad_norm": 0.7712491750717163,
      "learning_rate": 0.0002368385943010433,
      "loss": 3.9275,
      "step": 147060
    },
    {
      "epoch": 0.3063958333333333,
      "grad_norm": 0.7551001310348511,
      "learning_rate": 0.0002368305556303228,
      "loss": 4.0036,
      "step": 147070
    },
    {
      "epoch": 0.30641666666666667,
      "grad_norm": 0.8918235898017883,
      "learning_rate": 0.00023682251658452866,
      "loss": 4.0662,
      "step": 147080
    },
    {
      "epoch": 0.3064375,
      "grad_norm": 0.8021490573883057,
      "learning_rate": 0.00023681447716369556,
      "loss": 4.0628,
      "step": 147090
    },
    {
      "epoch": 0.30645833333333333,
      "grad_norm": 0.7093966603279114,
      "learning_rate": 0.00023680643736785832,
      "loss": 4.098,
      "step": 147100
    },
    {
      "epoch": 0.3064791666666667,
      "grad_norm": 0.8122270107269287,
      "learning_rate": 0.00023679839719705165,
      "loss": 4.0176,
      "step": 147110
    },
    {
      "epoch": 0.3065,
      "grad_norm": 0.7481593489646912,
      "learning_rate": 0.00023679035665131022,
      "loss": 3.8589,
      "step": 147120
    },
    {
      "epoch": 0.30652083333333335,
      "grad_norm": 0.7701069712638855,
      "learning_rate": 0.0002367823157306688,
      "loss": 4.1807,
      "step": 147130
    },
    {
      "epoch": 0.30654166666666666,
      "grad_norm": 0.7561315894126892,
      "learning_rate": 0.00023677427443516218,
      "loss": 3.8069,
      "step": 147140
    },
    {
      "epoch": 0.3065625,
      "grad_norm": 1.0102074146270752,
      "learning_rate": 0.000236766232764825,
      "loss": 4.0652,
      "step": 147150
    },
    {
      "epoch": 0.3065833333333333,
      "grad_norm": 1.255735158920288,
      "learning_rate": 0.00023675819071969205,
      "loss": 3.849,
      "step": 147160
    },
    {
      "epoch": 0.3066041666666667,
      "grad_norm": 0.9158545136451721,
      "learning_rate": 0.00023675014829979807,
      "loss": 3.8831,
      "step": 147170
    },
    {
      "epoch": 0.306625,
      "grad_norm": 0.816821277141571,
      "learning_rate": 0.00023674210550517775,
      "loss": 4.0203,
      "step": 147180
    },
    {
      "epoch": 0.30664583333333334,
      "grad_norm": 0.8569455742835999,
      "learning_rate": 0.0002367340623358659,
      "loss": 3.9801,
      "step": 147190
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 0.7492247223854065,
      "learning_rate": 0.00023672601879189722,
      "loss": 3.9176,
      "step": 147200
    },
    {
      "epoch": 0.3066875,
      "grad_norm": 0.9455878138542175,
      "learning_rate": 0.0002367179748733065,
      "loss": 3.9458,
      "step": 147210
    },
    {
      "epoch": 0.30670833333333336,
      "grad_norm": 0.9154874086380005,
      "learning_rate": 0.0002367099305801284,
      "loss": 3.9143,
      "step": 147220
    },
    {
      "epoch": 0.30672916666666666,
      "grad_norm": 0.7741855978965759,
      "learning_rate": 0.00023670188591239774,
      "loss": 4.1564,
      "step": 147230
    },
    {
      "epoch": 0.30675,
      "grad_norm": 0.9753561019897461,
      "learning_rate": 0.00023669384087014926,
      "loss": 3.7979,
      "step": 147240
    },
    {
      "epoch": 0.3067708333333333,
      "grad_norm": 0.8091287612915039,
      "learning_rate": 0.00023668579545341772,
      "loss": 3.785,
      "step": 147250
    },
    {
      "epoch": 0.3067916666666667,
      "grad_norm": 0.9414864778518677,
      "learning_rate": 0.00023667774966223783,
      "loss": 3.9496,
      "step": 147260
    },
    {
      "epoch": 0.3068125,
      "grad_norm": 0.7064805030822754,
      "learning_rate": 0.00023666970349664435,
      "loss": 3.9485,
      "step": 147270
    },
    {
      "epoch": 0.30683333333333335,
      "grad_norm": 0.8391916751861572,
      "learning_rate": 0.00023666165695667213,
      "loss": 3.7866,
      "step": 147280
    },
    {
      "epoch": 0.30685416666666665,
      "grad_norm": 0.898956835269928,
      "learning_rate": 0.00023665361004235582,
      "loss": 3.8897,
      "step": 147290
    },
    {
      "epoch": 0.306875,
      "grad_norm": 0.906940221786499,
      "learning_rate": 0.00023664556275373018,
      "loss": 4.1012,
      "step": 147300
    },
    {
      "epoch": 0.3068958333333333,
      "grad_norm": 0.8451796770095825,
      "learning_rate": 0.00023663751509083006,
      "loss": 3.9241,
      "step": 147310
    },
    {
      "epoch": 0.30691666666666667,
      "grad_norm": 0.8420063853263855,
      "learning_rate": 0.0002366294670536901,
      "loss": 3.8541,
      "step": 147320
    },
    {
      "epoch": 0.3069375,
      "grad_norm": 0.7372024655342102,
      "learning_rate": 0.00023662141864234522,
      "loss": 3.8174,
      "step": 147330
    },
    {
      "epoch": 0.30695833333333333,
      "grad_norm": 0.7371386289596558,
      "learning_rate": 0.00023661336985683002,
      "loss": 3.9513,
      "step": 147340
    },
    {
      "epoch": 0.3069791666666667,
      "grad_norm": 0.7270669937133789,
      "learning_rate": 0.00023660532069717937,
      "loss": 4.0716,
      "step": 147350
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.8633008003234863,
      "learning_rate": 0.00023659727116342807,
      "loss": 4.0137,
      "step": 147360
    },
    {
      "epoch": 0.30702083333333335,
      "grad_norm": 1.0894536972045898,
      "learning_rate": 0.00023658922125561075,
      "loss": 4.0038,
      "step": 147370
    },
    {
      "epoch": 0.30704166666666666,
      "grad_norm": 0.7205908894538879,
      "learning_rate": 0.00023658117097376233,
      "loss": 3.9167,
      "step": 147380
    },
    {
      "epoch": 0.3070625,
      "grad_norm": 0.9246741533279419,
      "learning_rate": 0.00023657312031791748,
      "loss": 4.0406,
      "step": 147390
    },
    {
      "epoch": 0.3070833333333333,
      "grad_norm": 0.8131335973739624,
      "learning_rate": 0.00023656506928811105,
      "loss": 3.9085,
      "step": 147400
    },
    {
      "epoch": 0.3071041666666667,
      "grad_norm": 0.7455554008483887,
      "learning_rate": 0.00023655701788437777,
      "loss": 3.8747,
      "step": 147410
    },
    {
      "epoch": 0.307125,
      "grad_norm": 0.7306522727012634,
      "learning_rate": 0.00023654896610675243,
      "loss": 3.9972,
      "step": 147420
    },
    {
      "epoch": 0.30714583333333334,
      "grad_norm": 0.794980525970459,
      "learning_rate": 0.00023654091395526985,
      "loss": 3.8872,
      "step": 147430
    },
    {
      "epoch": 0.30716666666666664,
      "grad_norm": 0.8742856383323669,
      "learning_rate": 0.00023653286142996476,
      "loss": 3.9093,
      "step": 147440
    },
    {
      "epoch": 0.3071875,
      "grad_norm": 0.7659247517585754,
      "learning_rate": 0.00023652480853087192,
      "loss": 3.9555,
      "step": 147450
    },
    {
      "epoch": 0.30720833333333336,
      "grad_norm": 0.8658641576766968,
      "learning_rate": 0.00023651675525802621,
      "loss": 3.8788,
      "step": 147460
    },
    {
      "epoch": 0.30722916666666666,
      "grad_norm": 0.778939425945282,
      "learning_rate": 0.00023650870161146233,
      "loss": 3.9555,
      "step": 147470
    },
    {
      "epoch": 0.30725,
      "grad_norm": 0.7465449571609497,
      "learning_rate": 0.00023650064759121508,
      "loss": 3.9601,
      "step": 147480
    },
    {
      "epoch": 0.3072708333333333,
      "grad_norm": 0.7602007985115051,
      "learning_rate": 0.00023649259319731932,
      "loss": 3.8994,
      "step": 147490
    },
    {
      "epoch": 0.3072916666666667,
      "grad_norm": 0.8036574125289917,
      "learning_rate": 0.00023648453842980982,
      "loss": 3.9973,
      "step": 147500
    },
    {
      "epoch": 0.3073125,
      "grad_norm": 0.7283953428268433,
      "learning_rate": 0.00023647648328872128,
      "loss": 4.0959,
      "step": 147510
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 0.7861013412475586,
      "learning_rate": 0.0002364684277740886,
      "loss": 3.9146,
      "step": 147520
    },
    {
      "epoch": 0.30735416666666665,
      "grad_norm": 0.7550574541091919,
      "learning_rate": 0.0002364603718859465,
      "loss": 4.0611,
      "step": 147530
    },
    {
      "epoch": 0.307375,
      "grad_norm": 0.8908867835998535,
      "learning_rate": 0.00023645231562432987,
      "loss": 4.0183,
      "step": 147540
    },
    {
      "epoch": 0.3073958333333333,
      "grad_norm": 0.9849379062652588,
      "learning_rate": 0.0002364442589892734,
      "loss": 4.2431,
      "step": 147550
    },
    {
      "epoch": 0.30741666666666667,
      "grad_norm": 0.8637933135032654,
      "learning_rate": 0.00023643620198081196,
      "loss": 3.9963,
      "step": 147560
    },
    {
      "epoch": 0.3074375,
      "grad_norm": 0.8246819972991943,
      "learning_rate": 0.0002364281445989804,
      "loss": 3.9369,
      "step": 147570
    },
    {
      "epoch": 0.30745833333333333,
      "grad_norm": 0.7808564305305481,
      "learning_rate": 0.0002364200868438134,
      "loss": 3.7602,
      "step": 147580
    },
    {
      "epoch": 0.3074791666666667,
      "grad_norm": 0.7879913449287415,
      "learning_rate": 0.00023641202871534588,
      "loss": 4.0667,
      "step": 147590
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.7925729751586914,
      "learning_rate": 0.00023640397021361257,
      "loss": 3.8754,
      "step": 147600
    },
    {
      "epoch": 0.30752083333333335,
      "grad_norm": 0.8435423374176025,
      "learning_rate": 0.0002363959113386483,
      "loss": 3.7993,
      "step": 147610
    },
    {
      "epoch": 0.30754166666666666,
      "grad_norm": 0.7698479294776917,
      "learning_rate": 0.00023638785209048794,
      "loss": 3.915,
      "step": 147620
    },
    {
      "epoch": 0.3075625,
      "grad_norm": 0.8266794085502625,
      "learning_rate": 0.0002363797924691662,
      "loss": 4.0585,
      "step": 147630
    },
    {
      "epoch": 0.3075833333333333,
      "grad_norm": 0.8159708380699158,
      "learning_rate": 0.00023637173247471798,
      "loss": 4.0934,
      "step": 147640
    },
    {
      "epoch": 0.3076041666666667,
      "grad_norm": 0.7417417764663696,
      "learning_rate": 0.00023636367210717806,
      "loss": 4.1165,
      "step": 147650
    },
    {
      "epoch": 0.307625,
      "grad_norm": 0.7767967581748962,
      "learning_rate": 0.00023635561136658122,
      "loss": 3.8892,
      "step": 147660
    },
    {
      "epoch": 0.30764583333333334,
      "grad_norm": 0.7758349180221558,
      "learning_rate": 0.00023634755025296237,
      "loss": 4.0463,
      "step": 147670
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 0.8081544041633606,
      "learning_rate": 0.00023633948876635623,
      "loss": 3.8549,
      "step": 147680
    },
    {
      "epoch": 0.3076875,
      "grad_norm": 0.8578632473945618,
      "learning_rate": 0.00023633142690679775,
      "loss": 3.793,
      "step": 147690
    },
    {
      "epoch": 0.3077083333333333,
      "grad_norm": 0.8538042306900024,
      "learning_rate": 0.00023632336467432162,
      "loss": 3.7816,
      "step": 147700
    },
    {
      "epoch": 0.30772916666666666,
      "grad_norm": 0.7912668585777283,
      "learning_rate": 0.00023631530206896274,
      "loss": 3.924,
      "step": 147710
    },
    {
      "epoch": 0.30775,
      "grad_norm": 0.7720239758491516,
      "learning_rate": 0.00023630723909075593,
      "loss": 3.8193,
      "step": 147720
    },
    {
      "epoch": 0.3077708333333333,
      "grad_norm": 0.8248838782310486,
      "learning_rate": 0.00023629917573973603,
      "loss": 4.1455,
      "step": 147730
    },
    {
      "epoch": 0.3077916666666667,
      "grad_norm": 0.7358181476593018,
      "learning_rate": 0.0002362911120159378,
      "loss": 3.8998,
      "step": 147740
    },
    {
      "epoch": 0.3078125,
      "grad_norm": 0.8665284514427185,
      "learning_rate": 0.00023628304791939613,
      "loss": 4.0094,
      "step": 147750
    },
    {
      "epoch": 0.30783333333333335,
      "grad_norm": 1.1456197500228882,
      "learning_rate": 0.00023627498345014589,
      "loss": 4.0725,
      "step": 147760
    },
    {
      "epoch": 0.30785416666666665,
      "grad_norm": 0.7265805006027222,
      "learning_rate": 0.00023626691860822186,
      "loss": 3.8973,
      "step": 147770
    },
    {
      "epoch": 0.307875,
      "grad_norm": 0.7533819675445557,
      "learning_rate": 0.00023625885339365887,
      "loss": 3.8806,
      "step": 147780
    },
    {
      "epoch": 0.3078958333333333,
      "grad_norm": 0.7682862281799316,
      "learning_rate": 0.00023625078780649178,
      "loss": 3.9626,
      "step": 147790
    },
    {
      "epoch": 0.30791666666666667,
      "grad_norm": 0.7649580240249634,
      "learning_rate": 0.0002362427218467554,
      "loss": 3.908,
      "step": 147800
    },
    {
      "epoch": 0.3079375,
      "grad_norm": 0.7849191427230835,
      "learning_rate": 0.00023623465551448467,
      "loss": 3.9201,
      "step": 147810
    },
    {
      "epoch": 0.30795833333333333,
      "grad_norm": 0.7237614393234253,
      "learning_rate": 0.0002362265888097143,
      "loss": 4.1592,
      "step": 147820
    },
    {
      "epoch": 0.3079791666666667,
      "grad_norm": 0.7556350231170654,
      "learning_rate": 0.00023621852173247922,
      "loss": 4.0697,
      "step": 147830
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.7733839154243469,
      "learning_rate": 0.00023621045428281424,
      "loss": 4.0022,
      "step": 147840
    },
    {
      "epoch": 0.30802083333333335,
      "grad_norm": 0.8288201093673706,
      "learning_rate": 0.0002362023864607542,
      "loss": 4.0561,
      "step": 147850
    },
    {
      "epoch": 0.30804166666666666,
      "grad_norm": 0.7139443159103394,
      "learning_rate": 0.000236194318266334,
      "loss": 4.0854,
      "step": 147860
    },
    {
      "epoch": 0.3080625,
      "grad_norm": 0.9586115479469299,
      "learning_rate": 0.00023618624969958853,
      "loss": 3.9061,
      "step": 147870
    },
    {
      "epoch": 0.3080833333333333,
      "grad_norm": 0.7533995509147644,
      "learning_rate": 0.00023617818076055247,
      "loss": 3.7588,
      "step": 147880
    },
    {
      "epoch": 0.3081041666666667,
      "grad_norm": 0.7258865237236023,
      "learning_rate": 0.00023617011144926083,
      "loss": 3.9704,
      "step": 147890
    },
    {
      "epoch": 0.308125,
      "grad_norm": 0.7526988983154297,
      "learning_rate": 0.00023616204176574843,
      "loss": 4.0029,
      "step": 147900
    },
    {
      "epoch": 0.30814583333333334,
      "grad_norm": 0.7943025827407837,
      "learning_rate": 0.00023615397171005006,
      "loss": 3.8344,
      "step": 147910
    },
    {
      "epoch": 0.30816666666666664,
      "grad_norm": 0.722338080406189,
      "learning_rate": 0.0002361459012822007,
      "loss": 3.9646,
      "step": 147920
    },
    {
      "epoch": 0.3081875,
      "grad_norm": 0.7861575484275818,
      "learning_rate": 0.00023613783048223512,
      "loss": 3.8897,
      "step": 147930
    },
    {
      "epoch": 0.3082083333333333,
      "grad_norm": 0.782982349395752,
      "learning_rate": 0.0002361297593101882,
      "loss": 3.8751,
      "step": 147940
    },
    {
      "epoch": 0.30822916666666667,
      "grad_norm": 0.7538024187088013,
      "learning_rate": 0.0002361216877660948,
      "loss": 3.6562,
      "step": 147950
    },
    {
      "epoch": 0.30825,
      "grad_norm": 0.8357669711112976,
      "learning_rate": 0.0002361136158499898,
      "loss": 3.9445,
      "step": 147960
    },
    {
      "epoch": 0.3082708333333333,
      "grad_norm": 0.7203807234764099,
      "learning_rate": 0.00023610554356190807,
      "loss": 4.0548,
      "step": 147970
    },
    {
      "epoch": 0.3082916666666667,
      "grad_norm": 0.7854641675949097,
      "learning_rate": 0.0002360974709018845,
      "loss": 3.9327,
      "step": 147980
    },
    {
      "epoch": 0.3083125,
      "grad_norm": 1.016054630279541,
      "learning_rate": 0.00023608939786995392,
      "loss": 3.9402,
      "step": 147990
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 0.8392454385757446,
      "learning_rate": 0.0002360813244661512,
      "loss": 4.1476,
      "step": 148000
    },
    {
      "epoch": 0.30833333333333335,
      "eval_loss": 3.739907741546631,
      "eval_runtime": 7.3971,
      "eval_samples_per_second": 1.352,
      "eval_steps_per_second": 0.406,
      "step": 148000
    },
    {
      "epoch": 0.30835416666666665,
      "grad_norm": 0.7895426750183105,
      "learning_rate": 0.00023607325069051127,
      "loss": 4.1493,
      "step": 148010
    },
    {
      "epoch": 0.308375,
      "grad_norm": 0.8208752274513245,
      "learning_rate": 0.00023606517654306897,
      "loss": 3.9003,
      "step": 148020
    },
    {
      "epoch": 0.3083958333333333,
      "grad_norm": 0.8723822832107544,
      "learning_rate": 0.0002360571020238591,
      "loss": 4.0659,
      "step": 148030
    },
    {
      "epoch": 0.3084166666666667,
      "grad_norm": 0.8190701603889465,
      "learning_rate": 0.00023604902713291666,
      "loss": 4.0041,
      "step": 148040
    },
    {
      "epoch": 0.3084375,
      "grad_norm": 0.7175627946853638,
      "learning_rate": 0.0002360409518702765,
      "loss": 4.0066,
      "step": 148050
    },
    {
      "epoch": 0.30845833333333333,
      "grad_norm": 0.732972264289856,
      "learning_rate": 0.0002360328762359735,
      "loss": 3.9922,
      "step": 148060
    },
    {
      "epoch": 0.3084791666666667,
      "grad_norm": 0.7514288425445557,
      "learning_rate": 0.00023602480023004248,
      "loss": 3.8835,
      "step": 148070
    },
    {
      "epoch": 0.3085,
      "grad_norm": 0.745114266872406,
      "learning_rate": 0.0002360167238525184,
      "loss": 3.9372,
      "step": 148080
    },
    {
      "epoch": 0.30852083333333336,
      "grad_norm": 0.7085647583007812,
      "learning_rate": 0.0002360086471034361,
      "loss": 3.7717,
      "step": 148090
    },
    {
      "epoch": 0.30854166666666666,
      "grad_norm": 0.8136988282203674,
      "learning_rate": 0.0002360005699828305,
      "loss": 4.0492,
      "step": 148100
    },
    {
      "epoch": 0.3085625,
      "grad_norm": 0.8298760056495667,
      "learning_rate": 0.0002359924924907365,
      "loss": 3.9579,
      "step": 148110
    },
    {
      "epoch": 0.3085833333333333,
      "grad_norm": 0.8407289385795593,
      "learning_rate": 0.00023598441462718898,
      "loss": 3.9775,
      "step": 148120
    },
    {
      "epoch": 0.3086041666666667,
      "grad_norm": 0.7341101169586182,
      "learning_rate": 0.00023597633639222274,
      "loss": 4.1139,
      "step": 148130
    },
    {
      "epoch": 0.308625,
      "grad_norm": 0.7400076985359192,
      "learning_rate": 0.00023596825778587284,
      "loss": 3.9055,
      "step": 148140
    },
    {
      "epoch": 0.30864583333333334,
      "grad_norm": 0.8508787751197815,
      "learning_rate": 0.00023596017880817412,
      "loss": 4.0426,
      "step": 148150
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 0.8626801371574402,
      "learning_rate": 0.00023595209945916136,
      "loss": 3.7641,
      "step": 148160
    },
    {
      "epoch": 0.3086875,
      "grad_norm": 0.9414442181587219,
      "learning_rate": 0.0002359440197388696,
      "loss": 4.0045,
      "step": 148170
    },
    {
      "epoch": 0.3087083333333333,
      "grad_norm": 0.7317515015602112,
      "learning_rate": 0.00023593593964733368,
      "loss": 3.8772,
      "step": 148180
    },
    {
      "epoch": 0.30872916666666667,
      "grad_norm": 0.7665182948112488,
      "learning_rate": 0.00023592785918458855,
      "loss": 3.9629,
      "step": 148190
    },
    {
      "epoch": 0.30875,
      "grad_norm": 0.7619143724441528,
      "learning_rate": 0.000235919778350669,
      "loss": 4.0421,
      "step": 148200
    },
    {
      "epoch": 0.3087708333333333,
      "grad_norm": 0.8437619805335999,
      "learning_rate": 0.00023591169714561012,
      "loss": 3.81,
      "step": 148210
    },
    {
      "epoch": 0.3087916666666667,
      "grad_norm": 0.7077666521072388,
      "learning_rate": 0.0002359036155694467,
      "loss": 3.8631,
      "step": 148220
    },
    {
      "epoch": 0.3088125,
      "grad_norm": 0.786233127117157,
      "learning_rate": 0.00023589553362221363,
      "loss": 4.0074,
      "step": 148230
    },
    {
      "epoch": 0.30883333333333335,
      "grad_norm": 0.7907274961471558,
      "learning_rate": 0.00023588745130394585,
      "loss": 4.2011,
      "step": 148240
    },
    {
      "epoch": 0.30885416666666665,
      "grad_norm": 0.8367184996604919,
      "learning_rate": 0.00023587936861467826,
      "loss": 3.9598,
      "step": 148250
    },
    {
      "epoch": 0.308875,
      "grad_norm": 0.8116573095321655,
      "learning_rate": 0.0002358712855544458,
      "loss": 3.8229,
      "step": 148260
    },
    {
      "epoch": 0.3088958333333333,
      "grad_norm": 0.7766703367233276,
      "learning_rate": 0.00023586320212328342,
      "loss": 4.0829,
      "step": 148270
    },
    {
      "epoch": 0.3089166666666667,
      "grad_norm": 0.7949554920196533,
      "learning_rate": 0.00023585511832122596,
      "loss": 3.9835,
      "step": 148280
    },
    {
      "epoch": 0.3089375,
      "grad_norm": 0.7957796454429626,
      "learning_rate": 0.0002358470341483084,
      "loss": 3.9268,
      "step": 148290
    },
    {
      "epoch": 0.30895833333333333,
      "grad_norm": 0.7903000712394714,
      "learning_rate": 0.0002358389496045656,
      "loss": 3.971,
      "step": 148300
    },
    {
      "epoch": 0.3089791666666667,
      "grad_norm": 0.7622117400169373,
      "learning_rate": 0.0002358308646900325,
      "loss": 4.0273,
      "step": 148310
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.7296921610832214,
      "learning_rate": 0.00023582277940474407,
      "loss": 4.0767,
      "step": 148320
    },
    {
      "epoch": 0.30902083333333336,
      "grad_norm": 0.7491455078125,
      "learning_rate": 0.0002358146937487352,
      "loss": 3.9937,
      "step": 148330
    },
    {
      "epoch": 0.30904166666666666,
      "grad_norm": 0.7458856105804443,
      "learning_rate": 0.00023580660772204085,
      "loss": 3.9235,
      "step": 148340
    },
    {
      "epoch": 0.3090625,
      "grad_norm": 0.9711203575134277,
      "learning_rate": 0.00023579852132469588,
      "loss": 4.1021,
      "step": 148350
    },
    {
      "epoch": 0.3090833333333333,
      "grad_norm": 0.7738882303237915,
      "learning_rate": 0.00023579043455673526,
      "loss": 4.0645,
      "step": 148360
    },
    {
      "epoch": 0.3091041666666667,
      "grad_norm": 0.7683181762695312,
      "learning_rate": 0.00023578234741819396,
      "loss": 3.7942,
      "step": 148370
    },
    {
      "epoch": 0.309125,
      "grad_norm": 0.7961078882217407,
      "learning_rate": 0.00023577425990910683,
      "loss": 4.1876,
      "step": 148380
    },
    {
      "epoch": 0.30914583333333334,
      "grad_norm": 0.9148745536804199,
      "learning_rate": 0.00023576617202950888,
      "loss": 4.0245,
      "step": 148390
    },
    {
      "epoch": 0.30916666666666665,
      "grad_norm": 0.8077769875526428,
      "learning_rate": 0.00023575808377943497,
      "loss": 3.8171,
      "step": 148400
    },
    {
      "epoch": 0.3091875,
      "grad_norm": 0.850085437297821,
      "learning_rate": 0.00023574999515892014,
      "loss": 3.7972,
      "step": 148410
    },
    {
      "epoch": 0.3092083333333333,
      "grad_norm": 0.7573461532592773,
      "learning_rate": 0.0002357419061679992,
      "loss": 3.9923,
      "step": 148420
    },
    {
      "epoch": 0.30922916666666667,
      "grad_norm": 0.8150726556777954,
      "learning_rate": 0.00023573381680670722,
      "loss": 3.7546,
      "step": 148430
    },
    {
      "epoch": 0.30925,
      "grad_norm": 0.7716652154922485,
      "learning_rate": 0.0002357257270750791,
      "loss": 4.105,
      "step": 148440
    },
    {
      "epoch": 0.30927083333333333,
      "grad_norm": 0.7146826982498169,
      "learning_rate": 0.00023571763697314974,
      "loss": 3.9768,
      "step": 148450
    },
    {
      "epoch": 0.3092916666666667,
      "grad_norm": 0.9003617167472839,
      "learning_rate": 0.00023570954650095413,
      "loss": 3.9131,
      "step": 148460
    },
    {
      "epoch": 0.3093125,
      "grad_norm": 0.9164896011352539,
      "learning_rate": 0.00023570145565852718,
      "loss": 4.0282,
      "step": 148470
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 0.8271062970161438,
      "learning_rate": 0.00023569336444590388,
      "loss": 3.8644,
      "step": 148480
    },
    {
      "epoch": 0.30935416666666665,
      "grad_norm": 0.8598605394363403,
      "learning_rate": 0.0002356852728631192,
      "loss": 4.0464,
      "step": 148490
    },
    {
      "epoch": 0.309375,
      "grad_norm": 0.7719210982322693,
      "learning_rate": 0.00023567718091020798,
      "loss": 3.8987,
      "step": 148500
    },
    {
      "epoch": 0.3093958333333333,
      "grad_norm": 0.8551103472709656,
      "learning_rate": 0.00023566908858720537,
      "loss": 3.9219,
      "step": 148510
    },
    {
      "epoch": 0.3094166666666667,
      "grad_norm": 0.7918840050697327,
      "learning_rate": 0.00023566099589414612,
      "loss": 4.0875,
      "step": 148520
    },
    {
      "epoch": 0.3094375,
      "grad_norm": 0.770918607711792,
      "learning_rate": 0.00023565290283106527,
      "loss": 4.2628,
      "step": 148530
    },
    {
      "epoch": 0.30945833333333334,
      "grad_norm": 0.7470905184745789,
      "learning_rate": 0.0002356448093979978,
      "loss": 4.0958,
      "step": 148540
    },
    {
      "epoch": 0.3094791666666667,
      "grad_norm": 0.7479197382926941,
      "learning_rate": 0.00023563671559497868,
      "loss": 3.9737,
      "step": 148550
    },
    {
      "epoch": 0.3095,
      "grad_norm": 0.8001298308372498,
      "learning_rate": 0.00023562862142204283,
      "loss": 3.8793,
      "step": 148560
    },
    {
      "epoch": 0.30952083333333336,
      "grad_norm": 0.7408455014228821,
      "learning_rate": 0.00023562052687922525,
      "loss": 3.9981,
      "step": 148570
    },
    {
      "epoch": 0.30954166666666666,
      "grad_norm": 0.8486194610595703,
      "learning_rate": 0.0002356124319665608,
      "loss": 4.0304,
      "step": 148580
    },
    {
      "epoch": 0.3095625,
      "grad_norm": 0.9151308536529541,
      "learning_rate": 0.00023560433668408463,
      "loss": 3.7742,
      "step": 148590
    },
    {
      "epoch": 0.3095833333333333,
      "grad_norm": 0.7454028725624084,
      "learning_rate": 0.0002355962410318316,
      "loss": 4.0249,
      "step": 148600
    },
    {
      "epoch": 0.3096041666666667,
      "grad_norm": 0.7402547597885132,
      "learning_rate": 0.0002355881450098366,
      "loss": 4.0651,
      "step": 148610
    },
    {
      "epoch": 0.309625,
      "grad_norm": 0.7944579124450684,
      "learning_rate": 0.0002355800486181348,
      "loss": 3.8914,
      "step": 148620
    },
    {
      "epoch": 0.30964583333333334,
      "grad_norm": 0.8366255164146423,
      "learning_rate": 0.00023557195185676104,
      "loss": 3.9675,
      "step": 148630
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 0.8513418436050415,
      "learning_rate": 0.00023556385472575027,
      "loss": 4.1063,
      "step": 148640
    },
    {
      "epoch": 0.3096875,
      "grad_norm": 0.8361440896987915,
      "learning_rate": 0.0002355557572251375,
      "loss": 4.0898,
      "step": 148650
    },
    {
      "epoch": 0.3097083333333333,
      "grad_norm": 0.74358731508255,
      "learning_rate": 0.00023554765935495783,
      "loss": 3.9163,
      "step": 148660
    },
    {
      "epoch": 0.30972916666666667,
      "grad_norm": 0.7912580370903015,
      "learning_rate": 0.00023553956111524603,
      "loss": 3.9829,
      "step": 148670
    },
    {
      "epoch": 0.30975,
      "grad_norm": 0.8130708336830139,
      "learning_rate": 0.00023553146250603727,
      "loss": 3.9228,
      "step": 148680
    },
    {
      "epoch": 0.30977083333333333,
      "grad_norm": 0.8380753993988037,
      "learning_rate": 0.00023552336352736637,
      "loss": 3.9004,
      "step": 148690
    },
    {
      "epoch": 0.3097916666666667,
      "grad_norm": 0.6914065480232239,
      "learning_rate": 0.00023551526417926844,
      "loss": 4.0328,
      "step": 148700
    },
    {
      "epoch": 0.3098125,
      "grad_norm": 0.7699717879295349,
      "learning_rate": 0.0002355071644617784,
      "loss": 4.0139,
      "step": 148710
    },
    {
      "epoch": 0.30983333333333335,
      "grad_norm": 0.7816503047943115,
      "learning_rate": 0.00023549906437493126,
      "loss": 3.9313,
      "step": 148720
    },
    {
      "epoch": 0.30985416666666665,
      "grad_norm": 0.7617890238761902,
      "learning_rate": 0.000235490963918762,
      "loss": 3.9081,
      "step": 148730
    },
    {
      "epoch": 0.309875,
      "grad_norm": 0.8021312355995178,
      "learning_rate": 0.00023548286309330567,
      "loss": 3.9278,
      "step": 148740
    },
    {
      "epoch": 0.3098958333333333,
      "grad_norm": 0.7777315974235535,
      "learning_rate": 0.00023547476189859714,
      "loss": 4.0524,
      "step": 148750
    },
    {
      "epoch": 0.3099166666666667,
      "grad_norm": 0.8761627078056335,
      "learning_rate": 0.00023546666033467148,
      "loss": 3.8492,
      "step": 148760
    },
    {
      "epoch": 0.3099375,
      "grad_norm": 0.7199637293815613,
      "learning_rate": 0.0002354585584015637,
      "loss": 3.9296,
      "step": 148770
    },
    {
      "epoch": 0.30995833333333334,
      "grad_norm": 0.755281388759613,
      "learning_rate": 0.00023545045609930874,
      "loss": 3.9108,
      "step": 148780
    },
    {
      "epoch": 0.30997916666666664,
      "grad_norm": 0.8352500796318054,
      "learning_rate": 0.00023544235342794168,
      "loss": 3.9087,
      "step": 148790
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7843329310417175,
      "learning_rate": 0.00023543425038749746,
      "loss": 4.0072,
      "step": 148800
    },
    {
      "epoch": 0.31002083333333336,
      "grad_norm": 0.773441731929779,
      "learning_rate": 0.00023542614697801107,
      "loss": 4.1885,
      "step": 148810
    },
    {
      "epoch": 0.31004166666666666,
      "grad_norm": 0.8027369379997253,
      "learning_rate": 0.00023541804319951757,
      "loss": 4.0505,
      "step": 148820
    },
    {
      "epoch": 0.3100625,
      "grad_norm": 0.8325188159942627,
      "learning_rate": 0.00023540993905205192,
      "loss": 3.9894,
      "step": 148830
    },
    {
      "epoch": 0.3100833333333333,
      "grad_norm": 0.8177391886711121,
      "learning_rate": 0.00023540183453564913,
      "loss": 3.867,
      "step": 148840
    },
    {
      "epoch": 0.3101041666666667,
      "grad_norm": 0.7830120921134949,
      "learning_rate": 0.00023539372965034424,
      "loss": 3.9052,
      "step": 148850
    },
    {
      "epoch": 0.310125,
      "grad_norm": 1.0018221139907837,
      "learning_rate": 0.0002353856243961722,
      "loss": 3.9784,
      "step": 148860
    },
    {
      "epoch": 0.31014583333333334,
      "grad_norm": 0.7277127504348755,
      "learning_rate": 0.0002353775187731681,
      "loss": 4.0941,
      "step": 148870
    },
    {
      "epoch": 0.31016666666666665,
      "grad_norm": 0.7975967526435852,
      "learning_rate": 0.00023536941278136692,
      "loss": 4.2769,
      "step": 148880
    },
    {
      "epoch": 0.3101875,
      "grad_norm": 0.826240062713623,
      "learning_rate": 0.00023536130642080365,
      "loss": 3.9244,
      "step": 148890
    },
    {
      "epoch": 0.3102083333333333,
      "grad_norm": 0.7439741492271423,
      "learning_rate": 0.00023535319969151332,
      "loss": 3.87,
      "step": 148900
    },
    {
      "epoch": 0.31022916666666667,
      "grad_norm": 0.81260746717453,
      "learning_rate": 0.00023534509259353094,
      "loss": 3.7978,
      "step": 148910
    },
    {
      "epoch": 0.31025,
      "grad_norm": 0.9281483292579651,
      "learning_rate": 0.00023533698512689157,
      "loss": 4.0495,
      "step": 148920
    },
    {
      "epoch": 0.31027083333333333,
      "grad_norm": 0.8859156370162964,
      "learning_rate": 0.00023532887729163016,
      "loss": 3.9495,
      "step": 148930
    },
    {
      "epoch": 0.3102916666666667,
      "grad_norm": 0.7517300844192505,
      "learning_rate": 0.00023532076908778184,
      "loss": 4.0298,
      "step": 148940
    },
    {
      "epoch": 0.3103125,
      "grad_norm": 0.8000178337097168,
      "learning_rate": 0.0002353126605153815,
      "loss": 3.8842,
      "step": 148950
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 0.7841554880142212,
      "learning_rate": 0.0002353045515744643,
      "loss": 3.8909,
      "step": 148960
    },
    {
      "epoch": 0.31035416666666665,
      "grad_norm": 0.7500079870223999,
      "learning_rate": 0.0002352964422650652,
      "loss": 3.9297,
      "step": 148970
    },
    {
      "epoch": 0.310375,
      "grad_norm": 0.7988801002502441,
      "learning_rate": 0.0002352883325872192,
      "loss": 3.9112,
      "step": 148980
    },
    {
      "epoch": 0.3103958333333333,
      "grad_norm": 0.7529622316360474,
      "learning_rate": 0.00023528022254096136,
      "loss": 3.9467,
      "step": 148990
    },
    {
      "epoch": 0.3104166666666667,
      "grad_norm": 0.7849254608154297,
      "learning_rate": 0.00023527211212632674,
      "loss": 3.9213,
      "step": 149000
    },
    {
      "epoch": 0.3104166666666667,
      "eval_loss": 3.74812388420105,
      "eval_runtime": 7.204,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 149000
    },
    {
      "epoch": 0.3104375,
      "grad_norm": 0.7631762027740479,
      "learning_rate": 0.00023526400134335035,
      "loss": 3.874,
      "step": 149010
    },
    {
      "epoch": 0.31045833333333334,
      "grad_norm": 0.7945293188095093,
      "learning_rate": 0.00023525589019206722,
      "loss": 3.8921,
      "step": 149020
    },
    {
      "epoch": 0.31047916666666664,
      "grad_norm": 0.7811803221702576,
      "learning_rate": 0.00023524777867251235,
      "loss": 4.1078,
      "step": 149030
    },
    {
      "epoch": 0.3105,
      "grad_norm": 0.7396830320358276,
      "learning_rate": 0.00023523966678472085,
      "loss": 4.0687,
      "step": 149040
    },
    {
      "epoch": 0.31052083333333336,
      "grad_norm": 0.7538647055625916,
      "learning_rate": 0.00023523155452872773,
      "loss": 3.9555,
      "step": 149050
    },
    {
      "epoch": 0.31054166666666666,
      "grad_norm": 0.7945244312286377,
      "learning_rate": 0.00023522344190456804,
      "loss": 3.9877,
      "step": 149060
    },
    {
      "epoch": 0.3105625,
      "grad_norm": 0.7474467158317566,
      "learning_rate": 0.00023521532891227677,
      "loss": 3.8817,
      "step": 149070
    },
    {
      "epoch": 0.3105833333333333,
      "grad_norm": 0.7704137563705444,
      "learning_rate": 0.00023520721555188908,
      "loss": 4.0349,
      "step": 149080
    },
    {
      "epoch": 0.3106041666666667,
      "grad_norm": 0.7747134566307068,
      "learning_rate": 0.00023519910182343993,
      "loss": 3.8382,
      "step": 149090
    },
    {
      "epoch": 0.310625,
      "grad_norm": 0.8215183019638062,
      "learning_rate": 0.00023519098772696435,
      "loss": 3.6807,
      "step": 149100
    },
    {
      "epoch": 0.31064583333333334,
      "grad_norm": 0.7553346157073975,
      "learning_rate": 0.00023518287326249746,
      "loss": 4.1922,
      "step": 149110
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 0.790739119052887,
      "learning_rate": 0.00023517475843007422,
      "loss": 3.8711,
      "step": 149120
    },
    {
      "epoch": 0.3106875,
      "grad_norm": 0.8203281760215759,
      "learning_rate": 0.00023516664322972977,
      "loss": 3.9095,
      "step": 149130
    },
    {
      "epoch": 0.3107083333333333,
      "grad_norm": 0.7715263962745667,
      "learning_rate": 0.00023515852766149914,
      "loss": 3.9943,
      "step": 149140
    },
    {
      "epoch": 0.31072916666666667,
      "grad_norm": 0.7582814693450928,
      "learning_rate": 0.00023515041172541735,
      "loss": 3.9052,
      "step": 149150
    },
    {
      "epoch": 0.31075,
      "grad_norm": 0.8399711847305298,
      "learning_rate": 0.00023514229542151956,
      "loss": 3.8626,
      "step": 149160
    },
    {
      "epoch": 0.31077083333333333,
      "grad_norm": 0.7146082520484924,
      "learning_rate": 0.00023513417874984068,
      "loss": 3.8902,
      "step": 149170
    },
    {
      "epoch": 0.3107916666666667,
      "grad_norm": 0.772485613822937,
      "learning_rate": 0.00023512606171041588,
      "loss": 3.8893,
      "step": 149180
    },
    {
      "epoch": 0.3108125,
      "grad_norm": 0.809230625629425,
      "learning_rate": 0.0002351179443032802,
      "loss": 3.9805,
      "step": 149190
    },
    {
      "epoch": 0.31083333333333335,
      "grad_norm": 1.0886116027832031,
      "learning_rate": 0.00023510982652846866,
      "loss": 3.8603,
      "step": 149200
    },
    {
      "epoch": 0.31085416666666665,
      "grad_norm": 0.741183876991272,
      "learning_rate": 0.0002351017083860164,
      "loss": 4.0817,
      "step": 149210
    },
    {
      "epoch": 0.310875,
      "grad_norm": 0.7937381267547607,
      "learning_rate": 0.0002350935898759584,
      "loss": 3.9383,
      "step": 149220
    },
    {
      "epoch": 0.3108958333333333,
      "grad_norm": 0.7774147987365723,
      "learning_rate": 0.00023508547099832978,
      "loss": 3.9828,
      "step": 149230
    },
    {
      "epoch": 0.3109166666666667,
      "grad_norm": 0.8072457313537598,
      "learning_rate": 0.00023507735175316562,
      "loss": 3.8611,
      "step": 149240
    },
    {
      "epoch": 0.3109375,
      "grad_norm": 0.8156734108924866,
      "learning_rate": 0.00023506923214050096,
      "loss": 4.0155,
      "step": 149250
    },
    {
      "epoch": 0.31095833333333334,
      "grad_norm": 0.9179419279098511,
      "learning_rate": 0.00023506111216037095,
      "loss": 3.662,
      "step": 149260
    },
    {
      "epoch": 0.31097916666666664,
      "grad_norm": 0.77165287733078,
      "learning_rate": 0.00023505299181281054,
      "loss": 4.0366,
      "step": 149270
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.7943822145462036,
      "learning_rate": 0.00023504487109785488,
      "loss": 3.9261,
      "step": 149280
    },
    {
      "epoch": 0.31102083333333336,
      "grad_norm": 0.8144650459289551,
      "learning_rate": 0.00023503675001553906,
      "loss": 3.9653,
      "step": 149290
    },
    {
      "epoch": 0.31104166666666666,
      "grad_norm": 0.7342159152030945,
      "learning_rate": 0.00023502862856589812,
      "loss": 3.8276,
      "step": 149300
    },
    {
      "epoch": 0.3110625,
      "grad_norm": 0.7408522367477417,
      "learning_rate": 0.00023502050674896715,
      "loss": 3.96,
      "step": 149310
    },
    {
      "epoch": 0.3110833333333333,
      "grad_norm": 0.7757754325866699,
      "learning_rate": 0.00023501238456478124,
      "loss": 4.0041,
      "step": 149320
    },
    {
      "epoch": 0.3111041666666667,
      "grad_norm": 0.8568165302276611,
      "learning_rate": 0.00023500426201337554,
      "loss": 3.9735,
      "step": 149330
    },
    {
      "epoch": 0.311125,
      "grad_norm": 0.7581834197044373,
      "learning_rate": 0.00023499613909478504,
      "loss": 3.9041,
      "step": 149340
    },
    {
      "epoch": 0.31114583333333334,
      "grad_norm": 0.921825647354126,
      "learning_rate": 0.00023498801580904485,
      "loss": 3.8834,
      "step": 149350
    },
    {
      "epoch": 0.31116666666666665,
      "grad_norm": 0.7612672448158264,
      "learning_rate": 0.00023497989215619006,
      "loss": 4.0029,
      "step": 149360
    },
    {
      "epoch": 0.3111875,
      "grad_norm": 0.8718419075012207,
      "learning_rate": 0.00023497176813625583,
      "loss": 4.1458,
      "step": 149370
    },
    {
      "epoch": 0.3112083333333333,
      "grad_norm": 0.7430883646011353,
      "learning_rate": 0.00023496364374927714,
      "loss": 3.8908,
      "step": 149380
    },
    {
      "epoch": 0.31122916666666667,
      "grad_norm": 0.81004399061203,
      "learning_rate": 0.0002349555189952892,
      "loss": 3.9364,
      "step": 149390
    },
    {
      "epoch": 0.31125,
      "grad_norm": 0.789421558380127,
      "learning_rate": 0.00023494739387432698,
      "loss": 4.0201,
      "step": 149400
    },
    {
      "epoch": 0.31127083333333333,
      "grad_norm": 0.8137975931167603,
      "learning_rate": 0.0002349392683864257,
      "loss": 3.8441,
      "step": 149410
    },
    {
      "epoch": 0.3112916666666667,
      "grad_norm": 0.7657266855239868,
      "learning_rate": 0.00023493114253162034,
      "loss": 4.103,
      "step": 149420
    },
    {
      "epoch": 0.3113125,
      "grad_norm": 0.7218958139419556,
      "learning_rate": 0.0002349230163099461,
      "loss": 3.9836,
      "step": 149430
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 0.8348671197891235,
      "learning_rate": 0.00023491488972143804,
      "loss": 3.9645,
      "step": 149440
    },
    {
      "epoch": 0.31135416666666665,
      "grad_norm": 0.7306084036827087,
      "learning_rate": 0.00023490676276613124,
      "loss": 4.0029,
      "step": 149450
    },
    {
      "epoch": 0.311375,
      "grad_norm": 0.817836344242096,
      "learning_rate": 0.0002348986354440609,
      "loss": 3.936,
      "step": 149460
    },
    {
      "epoch": 0.3113958333333333,
      "grad_norm": 0.7606993913650513,
      "learning_rate": 0.000234890507755262,
      "loss": 3.9869,
      "step": 149470
    },
    {
      "epoch": 0.3114166666666667,
      "grad_norm": 0.878966212272644,
      "learning_rate": 0.00023488237969976973,
      "loss": 4.0278,
      "step": 149480
    },
    {
      "epoch": 0.3114375,
      "grad_norm": 0.726330578327179,
      "learning_rate": 0.00023487425127761917,
      "loss": 3.8624,
      "step": 149490
    },
    {
      "epoch": 0.31145833333333334,
      "grad_norm": 0.748816728591919,
      "learning_rate": 0.00023486612248884545,
      "loss": 3.9529,
      "step": 149500
    },
    {
      "epoch": 0.31147916666666664,
      "grad_norm": 0.7448984384536743,
      "learning_rate": 0.00023485799333348368,
      "loss": 3.8739,
      "step": 149510
    },
    {
      "epoch": 0.3115,
      "grad_norm": 0.8016815185546875,
      "learning_rate": 0.00023484986381156896,
      "loss": 3.8251,
      "step": 149520
    },
    {
      "epoch": 0.31152083333333336,
      "grad_norm": 0.754278838634491,
      "learning_rate": 0.00023484173392313644,
      "loss": 3.8306,
      "step": 149530
    },
    {
      "epoch": 0.31154166666666666,
      "grad_norm": 1.3163563013076782,
      "learning_rate": 0.0002348336036682212,
      "loss": 3.9361,
      "step": 149540
    },
    {
      "epoch": 0.3115625,
      "grad_norm": 0.7291764616966248,
      "learning_rate": 0.00023482547304685836,
      "loss": 3.9844,
      "step": 149550
    },
    {
      "epoch": 0.3115833333333333,
      "grad_norm": 0.795924186706543,
      "learning_rate": 0.00023481734205908303,
      "loss": 3.8956,
      "step": 149560
    },
    {
      "epoch": 0.3116041666666667,
      "grad_norm": 0.774802565574646,
      "learning_rate": 0.00023480921070493036,
      "loss": 3.784,
      "step": 149570
    },
    {
      "epoch": 0.311625,
      "grad_norm": 0.8744344115257263,
      "learning_rate": 0.0002348010789844355,
      "loss": 3.8543,
      "step": 149580
    },
    {
      "epoch": 0.31164583333333334,
      "grad_norm": 0.7391584515571594,
      "learning_rate": 0.00023479294689763352,
      "loss": 4.0487,
      "step": 149590
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 0.9103531241416931,
      "learning_rate": 0.0002347848144445596,
      "loss": 3.8414,
      "step": 149600
    },
    {
      "epoch": 0.3116875,
      "grad_norm": 0.7622198462486267,
      "learning_rate": 0.00023477668162524877,
      "loss": 3.8944,
      "step": 149610
    },
    {
      "epoch": 0.3117083333333333,
      "grad_norm": 0.8073930740356445,
      "learning_rate": 0.0002347685484397363,
      "loss": 3.9073,
      "step": 149620
    },
    {
      "epoch": 0.31172916666666667,
      "grad_norm": 0.7797683477401733,
      "learning_rate": 0.00023476041488805727,
      "loss": 3.8887,
      "step": 149630
    },
    {
      "epoch": 0.31175,
      "grad_norm": 0.8204605579376221,
      "learning_rate": 0.0002347522809702468,
      "loss": 3.9986,
      "step": 149640
    },
    {
      "epoch": 0.31177083333333333,
      "grad_norm": 0.8583277463912964,
      "learning_rate": 0.00023474414668633994,
      "loss": 3.9324,
      "step": 149650
    },
    {
      "epoch": 0.3117916666666667,
      "grad_norm": 0.7851127982139587,
      "learning_rate": 0.000234736012036372,
      "loss": 3.7532,
      "step": 149660
    },
    {
      "epoch": 0.3118125,
      "grad_norm": 0.7511307597160339,
      "learning_rate": 0.00023472787702037798,
      "loss": 3.7561,
      "step": 149670
    },
    {
      "epoch": 0.31183333333333335,
      "grad_norm": 0.7490224242210388,
      "learning_rate": 0.00023471974163839307,
      "loss": 3.9865,
      "step": 149680
    },
    {
      "epoch": 0.31185416666666665,
      "grad_norm": 0.8042346239089966,
      "learning_rate": 0.00023471160589045247,
      "loss": 4.0816,
      "step": 149690
    },
    {
      "epoch": 0.311875,
      "grad_norm": 0.7585187554359436,
      "learning_rate": 0.00023470346977659117,
      "loss": 4.0126,
      "step": 149700
    },
    {
      "epoch": 0.3118958333333333,
      "grad_norm": 0.7457411289215088,
      "learning_rate": 0.00023469533329684446,
      "loss": 4.0134,
      "step": 149710
    },
    {
      "epoch": 0.3119166666666667,
      "grad_norm": 0.7328007817268372,
      "learning_rate": 0.00023468719645124744,
      "loss": 3.9627,
      "step": 149720
    },
    {
      "epoch": 0.3119375,
      "grad_norm": 0.7739543318748474,
      "learning_rate": 0.0002346790592398352,
      "loss": 3.8528,
      "step": 149730
    },
    {
      "epoch": 0.31195833333333334,
      "grad_norm": 0.7617893815040588,
      "learning_rate": 0.000234670921662643,
      "loss": 3.9173,
      "step": 149740
    },
    {
      "epoch": 0.31197916666666664,
      "grad_norm": 0.9129369854927063,
      "learning_rate": 0.00023466278371970592,
      "loss": 3.848,
      "step": 149750
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.8314520716667175,
      "learning_rate": 0.00023465464541105914,
      "loss": 4.0973,
      "step": 149760
    },
    {
      "epoch": 0.31202083333333336,
      "grad_norm": 0.8768592476844788,
      "learning_rate": 0.0002346465067367378,
      "loss": 3.9626,
      "step": 149770
    },
    {
      "epoch": 0.31204166666666666,
      "grad_norm": 0.8417710065841675,
      "learning_rate": 0.00023463836769677704,
      "loss": 4.089,
      "step": 149780
    },
    {
      "epoch": 0.3120625,
      "grad_norm": 0.9832020401954651,
      "learning_rate": 0.00023463022829121202,
      "loss": 3.8699,
      "step": 149790
    },
    {
      "epoch": 0.3120833333333333,
      "grad_norm": 0.7690732479095459,
      "learning_rate": 0.00023462208852007794,
      "loss": 3.8412,
      "step": 149800
    },
    {
      "epoch": 0.3121041666666667,
      "grad_norm": 0.9423725605010986,
      "learning_rate": 0.00023461394838340992,
      "loss": 3.8978,
      "step": 149810
    },
    {
      "epoch": 0.312125,
      "grad_norm": 0.9373301267623901,
      "learning_rate": 0.0002346058078812431,
      "loss": 4.0284,
      "step": 149820
    },
    {
      "epoch": 0.31214583333333334,
      "grad_norm": 0.7594554424285889,
      "learning_rate": 0.00023459766701361274,
      "loss": 3.8905,
      "step": 149830
    },
    {
      "epoch": 0.31216666666666665,
      "grad_norm": 0.9701305627822876,
      "learning_rate": 0.00023458952578055394,
      "loss": 4.1082,
      "step": 149840
    },
    {
      "epoch": 0.3121875,
      "grad_norm": 0.7612886428833008,
      "learning_rate": 0.0002345813841821018,
      "loss": 3.8289,
      "step": 149850
    },
    {
      "epoch": 0.3122083333333333,
      "grad_norm": 0.8653914332389832,
      "learning_rate": 0.00023457324221829164,
      "loss": 4.013,
      "step": 149860
    },
    {
      "epoch": 0.31222916666666667,
      "grad_norm": 0.7418258786201477,
      "learning_rate": 0.0002345650998891585,
      "loss": 3.774,
      "step": 149870
    },
    {
      "epoch": 0.31225,
      "grad_norm": 0.7741954922676086,
      "learning_rate": 0.00023455695719473764,
      "loss": 3.6444,
      "step": 149880
    },
    {
      "epoch": 0.31227083333333333,
      "grad_norm": 0.7969913482666016,
      "learning_rate": 0.00023454881413506422,
      "loss": 3.9354,
      "step": 149890
    },
    {
      "epoch": 0.3122916666666667,
      "grad_norm": 0.8716322779655457,
      "learning_rate": 0.00023454067071017334,
      "loss": 4.1354,
      "step": 149900
    },
    {
      "epoch": 0.3123125,
      "grad_norm": 0.7566885948181152,
      "learning_rate": 0.0002345325269201002,
      "loss": 3.8617,
      "step": 149910
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 0.8397039771080017,
      "learning_rate": 0.00023452438276488005,
      "loss": 4.0046,
      "step": 149920
    },
    {
      "epoch": 0.31235416666666665,
      "grad_norm": 0.7897119522094727,
      "learning_rate": 0.000234516238244548,
      "loss": 4.0705,
      "step": 149930
    },
    {
      "epoch": 0.312375,
      "grad_norm": 1.0399469137191772,
      "learning_rate": 0.00023450809335913927,
      "loss": 3.8319,
      "step": 149940
    },
    {
      "epoch": 0.3123958333333333,
      "grad_norm": 0.7612801790237427,
      "learning_rate": 0.00023449994810868902,
      "loss": 3.9949,
      "step": 149950
    },
    {
      "epoch": 0.3124166666666667,
      "grad_norm": 0.8044105172157288,
      "learning_rate": 0.00023449180249323243,
      "loss": 3.939,
      "step": 149960
    },
    {
      "epoch": 0.3124375,
      "grad_norm": 0.7521399855613708,
      "learning_rate": 0.00023448365651280472,
      "loss": 3.8379,
      "step": 149970
    },
    {
      "epoch": 0.31245833333333334,
      "grad_norm": 0.8638039827346802,
      "learning_rate": 0.00023447551016744106,
      "loss": 3.8878,
      "step": 149980
    },
    {
      "epoch": 0.31247916666666664,
      "grad_norm": 0.7989724278450012,
      "learning_rate": 0.0002344673634571766,
      "loss": 3.9354,
      "step": 149990
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.7830950021743774,
      "learning_rate": 0.0002344592163820466,
      "loss": 3.9286,
      "step": 150000
    },
    {
      "epoch": 0.3125,
      "eval_loss": 3.7312164306640625,
      "eval_runtime": 7.3623,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 150000
    },
    {
      "epoch": 0.31252083333333336,
      "grad_norm": 0.7862243056297302,
      "learning_rate": 0.00023445106894208622,
      "loss": 3.9514,
      "step": 150010
    },
    {
      "epoch": 0.31254166666666666,
      "grad_norm": 0.7573349475860596,
      "learning_rate": 0.00023444292113733063,
      "loss": 3.8936,
      "step": 150020
    },
    {
      "epoch": 0.3125625,
      "grad_norm": 0.8169602751731873,
      "learning_rate": 0.00023443477296781505,
      "loss": 4.0192,
      "step": 150030
    },
    {
      "epoch": 0.3125833333333333,
      "grad_norm": 0.7622309923171997,
      "learning_rate": 0.00023442662443357465,
      "loss": 4.056,
      "step": 150040
    },
    {
      "epoch": 0.3126041666666667,
      "grad_norm": 0.8180773258209229,
      "learning_rate": 0.00023441847553464467,
      "loss": 3.8501,
      "step": 150050
    },
    {
      "epoch": 0.312625,
      "grad_norm": 0.7992146015167236,
      "learning_rate": 0.0002344103262710603,
      "loss": 3.9361,
      "step": 150060
    },
    {
      "epoch": 0.31264583333333335,
      "grad_norm": 0.8225008249282837,
      "learning_rate": 0.0002344021766428567,
      "loss": 4.0217,
      "step": 150070
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 0.8676980137825012,
      "learning_rate": 0.00023439402665006913,
      "loss": 3.961,
      "step": 150080
    },
    {
      "epoch": 0.3126875,
      "grad_norm": 0.8546966910362244,
      "learning_rate": 0.00023438587629273278,
      "loss": 3.8804,
      "step": 150090
    },
    {
      "epoch": 0.3127083333333333,
      "grad_norm": 0.815438985824585,
      "learning_rate": 0.00023437772557088283,
      "loss": 3.7857,
      "step": 150100
    },
    {
      "epoch": 0.31272916666666667,
      "grad_norm": 0.9780097007751465,
      "learning_rate": 0.00023436957448455452,
      "loss": 4.0122,
      "step": 150110
    },
    {
      "epoch": 0.31275,
      "grad_norm": 0.8072225451469421,
      "learning_rate": 0.000234361423033783,
      "loss": 3.9088,
      "step": 150120
    },
    {
      "epoch": 0.31277083333333333,
      "grad_norm": 0.7964614033699036,
      "learning_rate": 0.00023435327121860362,
      "loss": 3.7414,
      "step": 150130
    },
    {
      "epoch": 0.3127916666666667,
      "grad_norm": 0.7768668532371521,
      "learning_rate": 0.00023434511903905144,
      "loss": 4.0945,
      "step": 150140
    },
    {
      "epoch": 0.3128125,
      "grad_norm": 0.7822719216346741,
      "learning_rate": 0.00023433696649516168,
      "loss": 3.9487,
      "step": 150150
    },
    {
      "epoch": 0.31283333333333335,
      "grad_norm": 0.8423153162002563,
      "learning_rate": 0.00023432881358696967,
      "loss": 3.872,
      "step": 150160
    },
    {
      "epoch": 0.31285416666666666,
      "grad_norm": 0.7639870047569275,
      "learning_rate": 0.00023432066031451056,
      "loss": 3.8661,
      "step": 150170
    },
    {
      "epoch": 0.312875,
      "grad_norm": 0.805709958076477,
      "learning_rate": 0.00023431250667781958,
      "loss": 3.9661,
      "step": 150180
    },
    {
      "epoch": 0.3128958333333333,
      "grad_norm": 0.8014178276062012,
      "learning_rate": 0.00023430435267693191,
      "loss": 3.8126,
      "step": 150190
    },
    {
      "epoch": 0.3129166666666667,
      "grad_norm": 0.8137122988700867,
      "learning_rate": 0.00023429619831188283,
      "loss": 4.0778,
      "step": 150200
    },
    {
      "epoch": 0.3129375,
      "grad_norm": 0.7744443416595459,
      "learning_rate": 0.00023428804358270754,
      "loss": 3.9922,
      "step": 150210
    },
    {
      "epoch": 0.31295833333333334,
      "grad_norm": 0.7475866079330444,
      "learning_rate": 0.00023427988848944122,
      "loss": 3.8301,
      "step": 150220
    },
    {
      "epoch": 0.31297916666666664,
      "grad_norm": 0.7657531499862671,
      "learning_rate": 0.00023427173303211922,
      "loss": 3.9167,
      "step": 150230
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.704780638217926,
      "learning_rate": 0.0002342635772107767,
      "loss": 3.9316,
      "step": 150240
    },
    {
      "epoch": 0.31302083333333336,
      "grad_norm": 1.016588568687439,
      "learning_rate": 0.00023425542102544877,
      "loss": 3.928,
      "step": 150250
    },
    {
      "epoch": 0.31304166666666666,
      "grad_norm": 0.7732799053192139,
      "learning_rate": 0.0002342472644761709,
      "loss": 3.7989,
      "step": 150260
    },
    {
      "epoch": 0.3130625,
      "grad_norm": 0.8027361035346985,
      "learning_rate": 0.00023423910756297807,
      "loss": 3.8061,
      "step": 150270
    },
    {
      "epoch": 0.3130833333333333,
      "grad_norm": 0.915192723274231,
      "learning_rate": 0.00023423095028590572,
      "loss": 4.0342,
      "step": 150280
    },
    {
      "epoch": 0.3131041666666667,
      "grad_norm": 0.7460138201713562,
      "learning_rate": 0.00023422279264498903,
      "loss": 4.0261,
      "step": 150290
    },
    {
      "epoch": 0.313125,
      "grad_norm": 0.8960820436477661,
      "learning_rate": 0.00023421463464026314,
      "loss": 4.0291,
      "step": 150300
    },
    {
      "epoch": 0.31314583333333335,
      "grad_norm": 0.8837903141975403,
      "learning_rate": 0.00023420647627176344,
      "loss": 3.8707,
      "step": 150310
    },
    {
      "epoch": 0.31316666666666665,
      "grad_norm": 0.7473721504211426,
      "learning_rate": 0.000234198317539525,
      "loss": 3.9028,
      "step": 150320
    },
    {
      "epoch": 0.3131875,
      "grad_norm": 0.7686201930046082,
      "learning_rate": 0.0002341901584435832,
      "loss": 3.9826,
      "step": 150330
    },
    {
      "epoch": 0.3132083333333333,
      "grad_norm": 0.9026507139205933,
      "learning_rate": 0.00023418199898397326,
      "loss": 3.9688,
      "step": 150340
    },
    {
      "epoch": 0.31322916666666667,
      "grad_norm": 0.757260262966156,
      "learning_rate": 0.00023417383916073036,
      "loss": 4.1373,
      "step": 150350
    },
    {
      "epoch": 0.31325,
      "grad_norm": 0.9797292947769165,
      "learning_rate": 0.00023416567897388985,
      "loss": 3.8421,
      "step": 150360
    },
    {
      "epoch": 0.31327083333333333,
      "grad_norm": 0.8287972807884216,
      "learning_rate": 0.0002341575184234869,
      "loss": 4.093,
      "step": 150370
    },
    {
      "epoch": 0.3132916666666667,
      "grad_norm": 0.7836459875106812,
      "learning_rate": 0.0002341493575095568,
      "loss": 4.0155,
      "step": 150380
    },
    {
      "epoch": 0.3133125,
      "grad_norm": 0.9139847755432129,
      "learning_rate": 0.00023414119623213473,
      "loss": 3.8469,
      "step": 150390
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 0.7846611142158508,
      "learning_rate": 0.00023413303459125602,
      "loss": 3.8968,
      "step": 150400
    },
    {
      "epoch": 0.31335416666666666,
      "grad_norm": 1.0477133989334106,
      "learning_rate": 0.0002341248725869559,
      "loss": 3.96,
      "step": 150410
    },
    {
      "epoch": 0.313375,
      "grad_norm": 0.7659029364585876,
      "learning_rate": 0.00023411671021926969,
      "loss": 3.8256,
      "step": 150420
    },
    {
      "epoch": 0.3133958333333333,
      "grad_norm": 0.7602130770683289,
      "learning_rate": 0.0002341085474882325,
      "loss": 4.0135,
      "step": 150430
    },
    {
      "epoch": 0.3134166666666667,
      "grad_norm": 0.7654770016670227,
      "learning_rate": 0.0002341003843938797,
      "loss": 3.9346,
      "step": 150440
    },
    {
      "epoch": 0.3134375,
      "grad_norm": 0.7478388547897339,
      "learning_rate": 0.00023409222093624655,
      "loss": 3.8583,
      "step": 150450
    },
    {
      "epoch": 0.31345833333333334,
      "grad_norm": 0.8024489879608154,
      "learning_rate": 0.0002340840571153683,
      "loss": 4.1004,
      "step": 150460
    },
    {
      "epoch": 0.31347916666666664,
      "grad_norm": 0.7898769378662109,
      "learning_rate": 0.0002340758929312802,
      "loss": 3.837,
      "step": 150470
    },
    {
      "epoch": 0.3135,
      "grad_norm": 0.7444739937782288,
      "learning_rate": 0.00023406772838401754,
      "loss": 3.9419,
      "step": 150480
    },
    {
      "epoch": 0.31352083333333336,
      "grad_norm": 0.7636534571647644,
      "learning_rate": 0.0002340595634736155,
      "loss": 3.9396,
      "step": 150490
    },
    {
      "epoch": 0.31354166666666666,
      "grad_norm": 0.7778468728065491,
      "learning_rate": 0.00023405139820010948,
      "loss": 3.8634,
      "step": 150500
    },
    {
      "epoch": 0.3135625,
      "grad_norm": 0.8122928142547607,
      "learning_rate": 0.00023404323256353467,
      "loss": 3.8673,
      "step": 150510
    },
    {
      "epoch": 0.3135833333333333,
      "grad_norm": 0.7792495489120483,
      "learning_rate": 0.00023403506656392636,
      "loss": 4.0659,
      "step": 150520
    },
    {
      "epoch": 0.3136041666666667,
      "grad_norm": 0.7342799305915833,
      "learning_rate": 0.00023402690020131982,
      "loss": 3.8924,
      "step": 150530
    },
    {
      "epoch": 0.313625,
      "grad_norm": 0.7769929766654968,
      "learning_rate": 0.00023401873347575033,
      "loss": 3.9542,
      "step": 150540
    },
    {
      "epoch": 0.31364583333333335,
      "grad_norm": 0.8458290696144104,
      "learning_rate": 0.0002340105663872532,
      "loss": 3.976,
      "step": 150550
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 0.820530354976654,
      "learning_rate": 0.00023400239893586365,
      "loss": 3.8629,
      "step": 150560
    },
    {
      "epoch": 0.3136875,
      "grad_norm": 0.7316262125968933,
      "learning_rate": 0.000233994231121617,
      "loss": 4.0095,
      "step": 150570
    },
    {
      "epoch": 0.3137083333333333,
      "grad_norm": 0.7543432116508484,
      "learning_rate": 0.0002339860629445485,
      "loss": 3.9019,
      "step": 150580
    },
    {
      "epoch": 0.31372916666666667,
      "grad_norm": 0.8316724896430969,
      "learning_rate": 0.00023397789440469347,
      "loss": 3.9888,
      "step": 150590
    },
    {
      "epoch": 0.31375,
      "grad_norm": 0.7743250727653503,
      "learning_rate": 0.0002339697255020872,
      "loss": 4.0798,
      "step": 150600
    },
    {
      "epoch": 0.31377083333333333,
      "grad_norm": 0.8185774683952332,
      "learning_rate": 0.0002339615562367649,
      "loss": 3.7793,
      "step": 150610
    },
    {
      "epoch": 0.3137916666666667,
      "grad_norm": 0.8035137057304382,
      "learning_rate": 0.00023395338660876195,
      "loss": 3.9421,
      "step": 150620
    },
    {
      "epoch": 0.3138125,
      "grad_norm": 0.7819770574569702,
      "learning_rate": 0.00023394521661811358,
      "loss": 3.8373,
      "step": 150630
    },
    {
      "epoch": 0.31383333333333335,
      "grad_norm": 0.7276430726051331,
      "learning_rate": 0.0002339370462648551,
      "loss": 3.799,
      "step": 150640
    },
    {
      "epoch": 0.31385416666666666,
      "grad_norm": 0.8878428339958191,
      "learning_rate": 0.0002339288755490218,
      "loss": 3.9603,
      "step": 150650
    },
    {
      "epoch": 0.313875,
      "grad_norm": 0.7679627537727356,
      "learning_rate": 0.000233920704470649,
      "loss": 4.0101,
      "step": 150660
    },
    {
      "epoch": 0.3138958333333333,
      "grad_norm": 0.7360554337501526,
      "learning_rate": 0.00023391253302977192,
      "loss": 4.1323,
      "step": 150670
    },
    {
      "epoch": 0.3139166666666667,
      "grad_norm": 0.7771695852279663,
      "learning_rate": 0.000233904361226426,
      "loss": 3.8463,
      "step": 150680
    },
    {
      "epoch": 0.3139375,
      "grad_norm": 0.8656838536262512,
      "learning_rate": 0.0002338961890606464,
      "loss": 3.9229,
      "step": 150690
    },
    {
      "epoch": 0.31395833333333334,
      "grad_norm": 0.8108018636703491,
      "learning_rate": 0.0002338880165324685,
      "loss": 4.0727,
      "step": 150700
    },
    {
      "epoch": 0.31397916666666664,
      "grad_norm": 0.8046419620513916,
      "learning_rate": 0.00023387984364192757,
      "loss": 3.9052,
      "step": 150710
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.8302828669548035,
      "learning_rate": 0.00023387167038905888,
      "loss": 3.8533,
      "step": 150720
    },
    {
      "epoch": 0.31402083333333336,
      "grad_norm": 1.215409755706787,
      "learning_rate": 0.0002338634967738978,
      "loss": 4.073,
      "step": 150730
    },
    {
      "epoch": 0.31404166666666666,
      "grad_norm": 0.7119848728179932,
      "learning_rate": 0.0002338553227964796,
      "loss": 3.9151,
      "step": 150740
    },
    {
      "epoch": 0.3140625,
      "grad_norm": 0.8131139278411865,
      "learning_rate": 0.0002338471484568396,
      "loss": 3.9388,
      "step": 150750
    },
    {
      "epoch": 0.3140833333333333,
      "grad_norm": 0.732343852519989,
      "learning_rate": 0.00023383897375501314,
      "loss": 3.8355,
      "step": 150760
    },
    {
      "epoch": 0.3141041666666667,
      "grad_norm": 0.774154543876648,
      "learning_rate": 0.00023383079869103546,
      "loss": 4.0805,
      "step": 150770
    },
    {
      "epoch": 0.314125,
      "grad_norm": 0.7842757701873779,
      "learning_rate": 0.00023382262326494192,
      "loss": 3.9304,
      "step": 150780
    },
    {
      "epoch": 0.31414583333333335,
      "grad_norm": 0.9281570315361023,
      "learning_rate": 0.00023381444747676785,
      "loss": 4.0252,
      "step": 150790
    },
    {
      "epoch": 0.31416666666666665,
      "grad_norm": 0.738442599773407,
      "learning_rate": 0.00023380627132654847,
      "loss": 4.0516,
      "step": 150800
    },
    {
      "epoch": 0.3141875,
      "grad_norm": 0.7845773696899414,
      "learning_rate": 0.00023379809481431925,
      "loss": 3.8951,
      "step": 150810
    },
    {
      "epoch": 0.3142083333333333,
      "grad_norm": 0.8699983358383179,
      "learning_rate": 0.0002337899179401154,
      "loss": 4.1334,
      "step": 150820
    },
    {
      "epoch": 0.31422916666666667,
      "grad_norm": 0.7990564703941345,
      "learning_rate": 0.00023378174070397227,
      "loss": 3.9443,
      "step": 150830
    },
    {
      "epoch": 0.31425,
      "grad_norm": 0.7815200686454773,
      "learning_rate": 0.0002337735631059252,
      "loss": 3.8468,
      "step": 150840
    },
    {
      "epoch": 0.31427083333333333,
      "grad_norm": 0.8701807260513306,
      "learning_rate": 0.00023376538514600947,
      "loss": 3.9793,
      "step": 150850
    },
    {
      "epoch": 0.3142916666666667,
      "grad_norm": 0.7778031229972839,
      "learning_rate": 0.00023375720682426045,
      "loss": 3.8527,
      "step": 150860
    },
    {
      "epoch": 0.3143125,
      "grad_norm": 0.7028531432151794,
      "learning_rate": 0.00023374902814071347,
      "loss": 3.9243,
      "step": 150870
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 0.7474158406257629,
      "learning_rate": 0.0002337408490954038,
      "loss": 3.8799,
      "step": 150880
    },
    {
      "epoch": 0.31435416666666666,
      "grad_norm": 0.7540589570999146,
      "learning_rate": 0.00023373266968836683,
      "loss": 3.9522,
      "step": 150890
    },
    {
      "epoch": 0.314375,
      "grad_norm": 0.7226998209953308,
      "learning_rate": 0.00023372448991963786,
      "loss": 3.8431,
      "step": 150900
    },
    {
      "epoch": 0.3143958333333333,
      "grad_norm": 0.9335868954658508,
      "learning_rate": 0.00023371630978925224,
      "loss": 4.0604,
      "step": 150910
    },
    {
      "epoch": 0.3144166666666667,
      "grad_norm": 0.7627688050270081,
      "learning_rate": 0.00023370812929724528,
      "loss": 3.8437,
      "step": 150920
    },
    {
      "epoch": 0.3144375,
      "grad_norm": 0.7586708068847656,
      "learning_rate": 0.00023369994844365236,
      "loss": 4.0106,
      "step": 150930
    },
    {
      "epoch": 0.31445833333333334,
      "grad_norm": 0.9303060173988342,
      "learning_rate": 0.00023369176722850882,
      "loss": 4.0844,
      "step": 150940
    },
    {
      "epoch": 0.31447916666666664,
      "grad_norm": 0.8493191599845886,
      "learning_rate": 0.00023368358565184992,
      "loss": 3.9927,
      "step": 150950
    },
    {
      "epoch": 0.3145,
      "grad_norm": 0.816689133644104,
      "learning_rate": 0.0002336754037137111,
      "loss": 3.7025,
      "step": 150960
    },
    {
      "epoch": 0.31452083333333336,
      "grad_norm": 0.8515806794166565,
      "learning_rate": 0.00023366722141412758,
      "loss": 3.9736,
      "step": 150970
    },
    {
      "epoch": 0.31454166666666666,
      "grad_norm": 0.9502452611923218,
      "learning_rate": 0.00023365903875313486,
      "loss": 3.942,
      "step": 150980
    },
    {
      "epoch": 0.3145625,
      "grad_norm": 1.1124573945999146,
      "learning_rate": 0.00023365085573076816,
      "loss": 3.8725,
      "step": 150990
    },
    {
      "epoch": 0.3145833333333333,
      "grad_norm": 0.8673767447471619,
      "learning_rate": 0.0002336426723470629,
      "loss": 4.0123,
      "step": 151000
    },
    {
      "epoch": 0.3145833333333333,
      "eval_loss": 3.734287977218628,
      "eval_runtime": 7.228,
      "eval_samples_per_second": 1.384,
      "eval_steps_per_second": 0.415,
      "step": 151000
    },
    {
      "epoch": 0.3146041666666667,
      "grad_norm": 0.7746195197105408,
      "learning_rate": 0.0002336344886020544,
      "loss": 3.9176,
      "step": 151010
    },
    {
      "epoch": 0.314625,
      "grad_norm": 0.7689037322998047,
      "learning_rate": 0.000233626304495778,
      "loss": 4.1256,
      "step": 151020
    },
    {
      "epoch": 0.31464583333333335,
      "grad_norm": 0.78780597448349,
      "learning_rate": 0.00023361812002826906,
      "loss": 4.0054,
      "step": 151030
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 0.7564541697502136,
      "learning_rate": 0.00023360993519956302,
      "loss": 3.963,
      "step": 151040
    },
    {
      "epoch": 0.3146875,
      "grad_norm": 0.8044797778129578,
      "learning_rate": 0.00023360175000969506,
      "loss": 4.0558,
      "step": 151050
    },
    {
      "epoch": 0.3147083333333333,
      "grad_norm": 0.8967222571372986,
      "learning_rate": 0.00023359356445870066,
      "loss": 3.7915,
      "step": 151060
    },
    {
      "epoch": 0.31472916666666667,
      "grad_norm": 0.7256070375442505,
      "learning_rate": 0.0002335853785466152,
      "loss": 3.9271,
      "step": 151070
    },
    {
      "epoch": 0.31475,
      "grad_norm": 0.7602911591529846,
      "learning_rate": 0.0002335771922734739,
      "loss": 3.9427,
      "step": 151080
    },
    {
      "epoch": 0.31477083333333333,
      "grad_norm": 0.8773986101150513,
      "learning_rate": 0.00023356900563931225,
      "loss": 3.8823,
      "step": 151090
    },
    {
      "epoch": 0.3147916666666667,
      "grad_norm": 0.7797364592552185,
      "learning_rate": 0.0002335608186441656,
      "loss": 3.95,
      "step": 151100
    },
    {
      "epoch": 0.3148125,
      "grad_norm": 0.802156925201416,
      "learning_rate": 0.00023355263128806928,
      "loss": 4.0777,
      "step": 151110
    },
    {
      "epoch": 0.31483333333333335,
      "grad_norm": 0.8786007761955261,
      "learning_rate": 0.00023354444357105863,
      "loss": 4.1224,
      "step": 151120
    },
    {
      "epoch": 0.31485416666666666,
      "grad_norm": 0.9194559454917908,
      "learning_rate": 0.0002335362554931691,
      "loss": 4.0547,
      "step": 151130
    },
    {
      "epoch": 0.314875,
      "grad_norm": 0.9151353240013123,
      "learning_rate": 0.00023352806705443597,
      "loss": 3.87,
      "step": 151140
    },
    {
      "epoch": 0.3148958333333333,
      "grad_norm": 0.7280436158180237,
      "learning_rate": 0.00023351987825489468,
      "loss": 3.9897,
      "step": 151150
    },
    {
      "epoch": 0.3149166666666667,
      "grad_norm": 0.8385985493659973,
      "learning_rate": 0.00023351168909458057,
      "loss": 4.0211,
      "step": 151160
    },
    {
      "epoch": 0.3149375,
      "grad_norm": 0.7674020528793335,
      "learning_rate": 0.000233503499573529,
      "loss": 3.8896,
      "step": 151170
    },
    {
      "epoch": 0.31495833333333334,
      "grad_norm": 0.6965987682342529,
      "learning_rate": 0.0002334953096917754,
      "loss": 3.8631,
      "step": 151180
    },
    {
      "epoch": 0.31497916666666664,
      "grad_norm": 0.8780922293663025,
      "learning_rate": 0.0002334871194493551,
      "loss": 4.0366,
      "step": 151190
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.8105738759040833,
      "learning_rate": 0.0002334789288463035,
      "loss": 3.8252,
      "step": 151200
    },
    {
      "epoch": 0.31502083333333336,
      "grad_norm": 0.9098485112190247,
      "learning_rate": 0.00023347073788265596,
      "loss": 4.0546,
      "step": 151210
    },
    {
      "epoch": 0.31504166666666666,
      "grad_norm": 0.7869560718536377,
      "learning_rate": 0.00023346254655844781,
      "loss": 4.0072,
      "step": 151220
    },
    {
      "epoch": 0.3150625,
      "grad_norm": 0.7946708798408508,
      "learning_rate": 0.00023345435487371458,
      "loss": 3.9155,
      "step": 151230
    },
    {
      "epoch": 0.3150833333333333,
      "grad_norm": 0.7402127981185913,
      "learning_rate": 0.00023344616282849158,
      "loss": 3.9979,
      "step": 151240
    },
    {
      "epoch": 0.3151041666666667,
      "grad_norm": 0.8251067996025085,
      "learning_rate": 0.00023343797042281412,
      "loss": 3.9422,
      "step": 151250
    },
    {
      "epoch": 0.315125,
      "grad_norm": 0.7789749503135681,
      "learning_rate": 0.00023342977765671767,
      "loss": 3.957,
      "step": 151260
    },
    {
      "epoch": 0.31514583333333335,
      "grad_norm": 0.8670963048934937,
      "learning_rate": 0.00023342158453023765,
      "loss": 3.919,
      "step": 151270
    },
    {
      "epoch": 0.31516666666666665,
      "grad_norm": 0.7497885227203369,
      "learning_rate": 0.0002334133910434094,
      "loss": 4.1275,
      "step": 151280
    },
    {
      "epoch": 0.3151875,
      "grad_norm": 0.9570923447608948,
      "learning_rate": 0.00023340519719626827,
      "loss": 4.0882,
      "step": 151290
    },
    {
      "epoch": 0.3152083333333333,
      "grad_norm": 1.0298051834106445,
      "learning_rate": 0.00023339700298884974,
      "loss": 3.8035,
      "step": 151300
    },
    {
      "epoch": 0.31522916666666667,
      "grad_norm": 0.7551808953285217,
      "learning_rate": 0.00023338880842118913,
      "loss": 3.8904,
      "step": 151310
    },
    {
      "epoch": 0.31525,
      "grad_norm": 0.7603093385696411,
      "learning_rate": 0.00023338061349332194,
      "loss": 3.764,
      "step": 151320
    },
    {
      "epoch": 0.31527083333333333,
      "grad_norm": 0.8255921602249146,
      "learning_rate": 0.00023337241820528342,
      "loss": 3.9963,
      "step": 151330
    },
    {
      "epoch": 0.3152916666666667,
      "grad_norm": 0.742175281047821,
      "learning_rate": 0.0002333642225571091,
      "loss": 3.9648,
      "step": 151340
    },
    {
      "epoch": 0.3153125,
      "grad_norm": 0.8039808869361877,
      "learning_rate": 0.00023335602654883436,
      "loss": 3.9064,
      "step": 151350
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 0.7783345580101013,
      "learning_rate": 0.0002333478301804945,
      "loss": 3.9425,
      "step": 151360
    },
    {
      "epoch": 0.31535416666666666,
      "grad_norm": 0.8372177481651306,
      "learning_rate": 0.0002333396334521251,
      "loss": 3.8325,
      "step": 151370
    },
    {
      "epoch": 0.315375,
      "grad_norm": 1.0667312145233154,
      "learning_rate": 0.00023333143636376143,
      "loss": 4.0472,
      "step": 151380
    },
    {
      "epoch": 0.3153958333333333,
      "grad_norm": 0.8309469819068909,
      "learning_rate": 0.0002333232389154389,
      "loss": 3.8703,
      "step": 151390
    },
    {
      "epoch": 0.3154166666666667,
      "grad_norm": 1.176373839378357,
      "learning_rate": 0.000233315041107193,
      "loss": 3.988,
      "step": 151400
    },
    {
      "epoch": 0.3154375,
      "grad_norm": 0.918552041053772,
      "learning_rate": 0.00023330684293905912,
      "loss": 3.8033,
      "step": 151410
    },
    {
      "epoch": 0.31545833333333334,
      "grad_norm": 0.7727450132369995,
      "learning_rate": 0.00023329864441107263,
      "loss": 3.8274,
      "step": 151420
    },
    {
      "epoch": 0.31547916666666664,
      "grad_norm": 0.8060930967330933,
      "learning_rate": 0.00023329044552326898,
      "loss": 3.9468,
      "step": 151430
    },
    {
      "epoch": 0.3155,
      "grad_norm": 0.804232656955719,
      "learning_rate": 0.0002332822462756836,
      "loss": 3.9018,
      "step": 151440
    },
    {
      "epoch": 0.3155208333333333,
      "grad_norm": 0.8636755347251892,
      "learning_rate": 0.0002332740466683518,
      "loss": 3.9522,
      "step": 151450
    },
    {
      "epoch": 0.31554166666666666,
      "grad_norm": 0.7565920948982239,
      "learning_rate": 0.00023326584670130916,
      "loss": 3.9412,
      "step": 151460
    },
    {
      "epoch": 0.3155625,
      "grad_norm": 0.7877501249313354,
      "learning_rate": 0.00023325764637459096,
      "loss": 3.9671,
      "step": 151470
    },
    {
      "epoch": 0.3155833333333333,
      "grad_norm": 0.8324186205863953,
      "learning_rate": 0.00023324944568823273,
      "loss": 4.1806,
      "step": 151480
    },
    {
      "epoch": 0.3156041666666667,
      "grad_norm": 0.8344612717628479,
      "learning_rate": 0.00023324124464226985,
      "loss": 4.0514,
      "step": 151490
    },
    {
      "epoch": 0.315625,
      "grad_norm": 0.9715484976768494,
      "learning_rate": 0.0002332330432367377,
      "loss": 3.9281,
      "step": 151500
    },
    {
      "epoch": 0.31564583333333335,
      "grad_norm": 0.7937137484550476,
      "learning_rate": 0.00023322484147167178,
      "loss": 3.9938,
      "step": 151510
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 0.7579598426818848,
      "learning_rate": 0.00023321663934710747,
      "loss": 3.9684,
      "step": 151520
    },
    {
      "epoch": 0.3156875,
      "grad_norm": 0.7884814143180847,
      "learning_rate": 0.00023320843686308024,
      "loss": 3.8655,
      "step": 151530
    },
    {
      "epoch": 0.3157083333333333,
      "grad_norm": 0.8238778710365295,
      "learning_rate": 0.00023320023401962546,
      "loss": 4.0267,
      "step": 151540
    },
    {
      "epoch": 0.31572916666666667,
      "grad_norm": 0.8433623909950256,
      "learning_rate": 0.0002331920308167786,
      "loss": 4.1369,
      "step": 151550
    },
    {
      "epoch": 0.31575,
      "grad_norm": 1.1916708946228027,
      "learning_rate": 0.00023318382725457515,
      "loss": 3.973,
      "step": 151560
    },
    {
      "epoch": 0.31577083333333333,
      "grad_norm": 0.7810059189796448,
      "learning_rate": 0.00023317562333305048,
      "loss": 3.8159,
      "step": 151570
    },
    {
      "epoch": 0.3157916666666667,
      "grad_norm": 0.8363157510757446,
      "learning_rate": 0.00023316741905224004,
      "loss": 3.7535,
      "step": 151580
    },
    {
      "epoch": 0.3158125,
      "grad_norm": 0.8129671812057495,
      "learning_rate": 0.0002331592144121792,
      "loss": 4.1887,
      "step": 151590
    },
    {
      "epoch": 0.31583333333333335,
      "grad_norm": 0.7754179835319519,
      "learning_rate": 0.00023315100941290358,
      "loss": 3.9108,
      "step": 151600
    },
    {
      "epoch": 0.31585416666666666,
      "grad_norm": 0.7251579761505127,
      "learning_rate": 0.00023314280405444844,
      "loss": 3.8213,
      "step": 151610
    },
    {
      "epoch": 0.315875,
      "grad_norm": 0.7139878869056702,
      "learning_rate": 0.0002331345983368493,
      "loss": 4.0783,
      "step": 151620
    },
    {
      "epoch": 0.3158958333333333,
      "grad_norm": 0.7808434367179871,
      "learning_rate": 0.00023312639226014166,
      "loss": 3.9731,
      "step": 151630
    },
    {
      "epoch": 0.3159166666666667,
      "grad_norm": 0.8122527599334717,
      "learning_rate": 0.00023311818582436085,
      "loss": 3.9099,
      "step": 151640
    },
    {
      "epoch": 0.3159375,
      "grad_norm": 0.8011891841888428,
      "learning_rate": 0.0002331099790295424,
      "loss": 3.814,
      "step": 151650
    },
    {
      "epoch": 0.31595833333333334,
      "grad_norm": 0.8088300228118896,
      "learning_rate": 0.00023310177187572178,
      "loss": 3.961,
      "step": 151660
    },
    {
      "epoch": 0.31597916666666664,
      "grad_norm": 0.7813149690628052,
      "learning_rate": 0.0002330935643629343,
      "loss": 3.9212,
      "step": 151670
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.9329107999801636,
      "learning_rate": 0.00023308535649121557,
      "loss": 4.0252,
      "step": 151680
    },
    {
      "epoch": 0.3160208333333333,
      "grad_norm": 0.7039369344711304,
      "learning_rate": 0.000233077148260601,
      "loss": 4.1494,
      "step": 151690
    },
    {
      "epoch": 0.31604166666666667,
      "grad_norm": 0.7448214888572693,
      "learning_rate": 0.000233068939671126,
      "loss": 3.9209,
      "step": 151700
    },
    {
      "epoch": 0.3160625,
      "grad_norm": 0.9093188047409058,
      "learning_rate": 0.00023306073072282607,
      "loss": 3.923,
      "step": 151710
    },
    {
      "epoch": 0.3160833333333333,
      "grad_norm": 0.7635958194732666,
      "learning_rate": 0.00023305252141573668,
      "loss": 3.9054,
      "step": 151720
    },
    {
      "epoch": 0.3161041666666667,
      "grad_norm": 0.9996547102928162,
      "learning_rate": 0.00023304431174989325,
      "loss": 3.9587,
      "step": 151730
    },
    {
      "epoch": 0.316125,
      "grad_norm": 0.8154374957084656,
      "learning_rate": 0.00023303610172533125,
      "loss": 3.9105,
      "step": 151740
    },
    {
      "epoch": 0.31614583333333335,
      "grad_norm": 0.872882068157196,
      "learning_rate": 0.0002330278913420862,
      "loss": 4.0091,
      "step": 151750
    },
    {
      "epoch": 0.31616666666666665,
      "grad_norm": 0.8312164545059204,
      "learning_rate": 0.00023301968060019353,
      "loss": 3.9964,
      "step": 151760
    },
    {
      "epoch": 0.3161875,
      "grad_norm": 0.8275115489959717,
      "learning_rate": 0.0002330114694996887,
      "loss": 4.2357,
      "step": 151770
    },
    {
      "epoch": 0.3162083333333333,
      "grad_norm": 0.7381731271743774,
      "learning_rate": 0.00023300325804060713,
      "loss": 3.9556,
      "step": 151780
    },
    {
      "epoch": 0.3162291666666667,
      "grad_norm": 0.7075287699699402,
      "learning_rate": 0.00023299504622298437,
      "loss": 3.8281,
      "step": 151790
    },
    {
      "epoch": 0.31625,
      "grad_norm": 0.7487297058105469,
      "learning_rate": 0.00023298683404685585,
      "loss": 3.9515,
      "step": 151800
    },
    {
      "epoch": 0.31627083333333333,
      "grad_norm": 0.7878388166427612,
      "learning_rate": 0.00023297862151225708,
      "loss": 3.9077,
      "step": 151810
    },
    {
      "epoch": 0.3162916666666667,
      "grad_norm": 0.7599458694458008,
      "learning_rate": 0.0002329704086192235,
      "loss": 3.9577,
      "step": 151820
    },
    {
      "epoch": 0.3163125,
      "grad_norm": 0.8591344952583313,
      "learning_rate": 0.0002329621953677906,
      "loss": 3.9838,
      "step": 151830
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 0.8139253258705139,
      "learning_rate": 0.00023295398175799382,
      "loss": 3.9193,
      "step": 151840
    },
    {
      "epoch": 0.31635416666666666,
      "grad_norm": 0.8346685171127319,
      "learning_rate": 0.0002329457677898687,
      "loss": 3.9301,
      "step": 151850
    },
    {
      "epoch": 0.316375,
      "grad_norm": 0.7575810551643372,
      "learning_rate": 0.00023293755346345072,
      "loss": 3.7093,
      "step": 151860
    },
    {
      "epoch": 0.3163958333333333,
      "grad_norm": 1.0626848936080933,
      "learning_rate": 0.00023292933877877534,
      "loss": 3.8515,
      "step": 151870
    },
    {
      "epoch": 0.3164166666666667,
      "grad_norm": 1.0894482135772705,
      "learning_rate": 0.000232921123735878,
      "loss": 3.8317,
      "step": 151880
    },
    {
      "epoch": 0.3164375,
      "grad_norm": 0.7625569105148315,
      "learning_rate": 0.00023291290833479423,
      "loss": 3.9745,
      "step": 151890
    },
    {
      "epoch": 0.31645833333333334,
      "grad_norm": 0.7838924527168274,
      "learning_rate": 0.00023290469257555957,
      "loss": 3.8832,
      "step": 151900
    },
    {
      "epoch": 0.31647916666666664,
      "grad_norm": 0.8504091501235962,
      "learning_rate": 0.0002328964764582094,
      "loss": 4.0193,
      "step": 151910
    },
    {
      "epoch": 0.3165,
      "grad_norm": 0.7395874261856079,
      "learning_rate": 0.00023288825998277928,
      "loss": 3.797,
      "step": 151920
    },
    {
      "epoch": 0.3165208333333333,
      "grad_norm": 0.7506665587425232,
      "learning_rate": 0.00023288004314930467,
      "loss": 3.8677,
      "step": 151930
    },
    {
      "epoch": 0.31654166666666667,
      "grad_norm": 0.7677509188652039,
      "learning_rate": 0.00023287182595782113,
      "loss": 4.0192,
      "step": 151940
    },
    {
      "epoch": 0.3165625,
      "grad_norm": 0.7634946703910828,
      "learning_rate": 0.00023286360840836406,
      "loss": 3.819,
      "step": 151950
    },
    {
      "epoch": 0.3165833333333333,
      "grad_norm": 0.7562463283538818,
      "learning_rate": 0.00023285539050096898,
      "loss": 3.9339,
      "step": 151960
    },
    {
      "epoch": 0.3166041666666667,
      "grad_norm": 0.7971317172050476,
      "learning_rate": 0.00023284717223567147,
      "loss": 4.0711,
      "step": 151970
    },
    {
      "epoch": 0.316625,
      "grad_norm": 0.7800725698471069,
      "learning_rate": 0.00023283895361250694,
      "loss": 3.8761,
      "step": 151980
    },
    {
      "epoch": 0.31664583333333335,
      "grad_norm": 0.8575546145439148,
      "learning_rate": 0.0002328307346315109,
      "loss": 4.0167,
      "step": 151990
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 0.8349829316139221,
      "learning_rate": 0.00023282251529271894,
      "loss": 3.9552,
      "step": 152000
    },
    {
      "epoch": 0.31666666666666665,
      "eval_loss": 3.732264995574951,
      "eval_runtime": 7.2345,
      "eval_samples_per_second": 1.382,
      "eval_steps_per_second": 0.415,
      "step": 152000
    },
    {
      "epoch": 0.3166875,
      "grad_norm": 0.7457429766654968,
      "learning_rate": 0.0002328142955961664,
      "loss": 3.9478,
      "step": 152010
    },
    {
      "epoch": 0.3167083333333333,
      "grad_norm": 0.8506658673286438,
      "learning_rate": 0.00023280607554188897,
      "loss": 3.868,
      "step": 152020
    },
    {
      "epoch": 0.3167291666666667,
      "grad_norm": 0.8209626078605652,
      "learning_rate": 0.00023279785512992203,
      "loss": 3.7613,
      "step": 152030
    },
    {
      "epoch": 0.31675,
      "grad_norm": 0.8048235774040222,
      "learning_rate": 0.00023278963436030114,
      "loss": 4.2322,
      "step": 152040
    },
    {
      "epoch": 0.31677083333333333,
      "grad_norm": 0.7575647234916687,
      "learning_rate": 0.00023278141323306178,
      "loss": 3.8637,
      "step": 152050
    },
    {
      "epoch": 0.3167916666666667,
      "grad_norm": 0.8326613903045654,
      "learning_rate": 0.0002327731917482395,
      "loss": 3.8275,
      "step": 152060
    },
    {
      "epoch": 0.3168125,
      "grad_norm": 0.7556350827217102,
      "learning_rate": 0.00023276496990586978,
      "loss": 3.8121,
      "step": 152070
    },
    {
      "epoch": 0.31683333333333336,
      "grad_norm": 0.8621364831924438,
      "learning_rate": 0.0002327567477059882,
      "loss": 4.059,
      "step": 152080
    },
    {
      "epoch": 0.31685416666666666,
      "grad_norm": 0.7821272015571594,
      "learning_rate": 0.00023274852514863016,
      "loss": 3.8992,
      "step": 152090
    },
    {
      "epoch": 0.316875,
      "grad_norm": 0.7841694951057434,
      "learning_rate": 0.00023274030223383128,
      "loss": 4.0564,
      "step": 152100
    },
    {
      "epoch": 0.3168958333333333,
      "grad_norm": 0.774496853351593,
      "learning_rate": 0.00023273207896162704,
      "loss": 4.0273,
      "step": 152110
    },
    {
      "epoch": 0.3169166666666667,
      "grad_norm": 0.777014434337616,
      "learning_rate": 0.00023272385533205296,
      "loss": 3.8764,
      "step": 152120
    },
    {
      "epoch": 0.3169375,
      "grad_norm": 0.7583653330802917,
      "learning_rate": 0.0002327156313451446,
      "loss": 3.9812,
      "step": 152130
    },
    {
      "epoch": 0.31695833333333334,
      "grad_norm": 0.9014183878898621,
      "learning_rate": 0.00023270740700093742,
      "loss": 4.0983,
      "step": 152140
    },
    {
      "epoch": 0.31697916666666665,
      "grad_norm": 0.8077201247215271,
      "learning_rate": 0.00023269918229946697,
      "loss": 3.9772,
      "step": 152150
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.7260655760765076,
      "learning_rate": 0.00023269095724076882,
      "loss": 3.9075,
      "step": 152160
    },
    {
      "epoch": 0.3170208333333333,
      "grad_norm": 0.9453021883964539,
      "learning_rate": 0.00023268273182487845,
      "loss": 3.9562,
      "step": 152170
    },
    {
      "epoch": 0.31704166666666667,
      "grad_norm": 0.8028576970100403,
      "learning_rate": 0.0002326745060518314,
      "loss": 4.1582,
      "step": 152180
    },
    {
      "epoch": 0.3170625,
      "grad_norm": 0.7824448943138123,
      "learning_rate": 0.0002326662799216632,
      "loss": 4.0015,
      "step": 152190
    },
    {
      "epoch": 0.31708333333333333,
      "grad_norm": 0.7671123147010803,
      "learning_rate": 0.00023265805343440947,
      "loss": 3.9008,
      "step": 152200
    },
    {
      "epoch": 0.3171041666666667,
      "grad_norm": 0.7086577415466309,
      "learning_rate": 0.00023264982659010555,
      "loss": 3.9081,
      "step": 152210
    },
    {
      "epoch": 0.317125,
      "grad_norm": 0.8494741320610046,
      "learning_rate": 0.0002326415993887872,
      "loss": 4.0808,
      "step": 152220
    },
    {
      "epoch": 0.31714583333333335,
      "grad_norm": 0.9044573307037354,
      "learning_rate": 0.0002326333718304898,
      "loss": 3.8493,
      "step": 152230
    },
    {
      "epoch": 0.31716666666666665,
      "grad_norm": 0.863337516784668,
      "learning_rate": 0.00023262514391524897,
      "loss": 3.9661,
      "step": 152240
    },
    {
      "epoch": 0.3171875,
      "grad_norm": 0.8253801465034485,
      "learning_rate": 0.00023261691564310018,
      "loss": 3.8864,
      "step": 152250
    },
    {
      "epoch": 0.3172083333333333,
      "grad_norm": 0.765968918800354,
      "learning_rate": 0.00023260868701407901,
      "loss": 4.0965,
      "step": 152260
    },
    {
      "epoch": 0.3172291666666667,
      "grad_norm": 0.7440513372421265,
      "learning_rate": 0.00023260045802822105,
      "loss": 3.9632,
      "step": 152270
    },
    {
      "epoch": 0.31725,
      "grad_norm": 0.9561976194381714,
      "learning_rate": 0.0002325922286855618,
      "loss": 3.978,
      "step": 152280
    },
    {
      "epoch": 0.31727083333333334,
      "grad_norm": 0.7460473775863647,
      "learning_rate": 0.0002325839989861368,
      "loss": 3.955,
      "step": 152290
    },
    {
      "epoch": 0.3172916666666667,
      "grad_norm": 0.8166585564613342,
      "learning_rate": 0.00023257576892998162,
      "loss": 4.0086,
      "step": 152300
    },
    {
      "epoch": 0.3173125,
      "grad_norm": 0.7803842425346375,
      "learning_rate": 0.0002325675385171318,
      "loss": 4.0613,
      "step": 152310
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 0.77805095911026,
      "learning_rate": 0.00023255930774762292,
      "loss": 4.0219,
      "step": 152320
    },
    {
      "epoch": 0.31735416666666666,
      "grad_norm": 0.7708672285079956,
      "learning_rate": 0.00023255107662149051,
      "loss": 3.8077,
      "step": 152330
    },
    {
      "epoch": 0.317375,
      "grad_norm": 0.7645740509033203,
      "learning_rate": 0.0002325428451387701,
      "loss": 3.795,
      "step": 152340
    },
    {
      "epoch": 0.3173958333333333,
      "grad_norm": 0.7938857674598694,
      "learning_rate": 0.0002325346132994973,
      "loss": 4.0631,
      "step": 152350
    },
    {
      "epoch": 0.3174166666666667,
      "grad_norm": 0.7831436991691589,
      "learning_rate": 0.0002325263811037076,
      "loss": 4.0169,
      "step": 152360
    },
    {
      "epoch": 0.3174375,
      "grad_norm": 0.7434894442558289,
      "learning_rate": 0.0002325181485514366,
      "loss": 3.9252,
      "step": 152370
    },
    {
      "epoch": 0.31745833333333334,
      "grad_norm": 0.8006250262260437,
      "learning_rate": 0.0002325099156427199,
      "loss": 4.1474,
      "step": 152380
    },
    {
      "epoch": 0.31747916666666665,
      "grad_norm": 0.8022586703300476,
      "learning_rate": 0.000232501682377593,
      "loss": 3.8572,
      "step": 152390
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.8012634515762329,
      "learning_rate": 0.00023249344875609152,
      "loss": 3.9895,
      "step": 152400
    },
    {
      "epoch": 0.3175208333333333,
      "grad_norm": 0.8624948859214783,
      "learning_rate": 0.00023248521477825095,
      "loss": 3.8973,
      "step": 152410
    },
    {
      "epoch": 0.31754166666666667,
      "grad_norm": 0.7523355484008789,
      "learning_rate": 0.00023247698044410688,
      "loss": 3.9096,
      "step": 152420
    },
    {
      "epoch": 0.3175625,
      "grad_norm": 0.7601172924041748,
      "learning_rate": 0.00023246874575369496,
      "loss": 3.8053,
      "step": 152430
    },
    {
      "epoch": 0.31758333333333333,
      "grad_norm": 0.7865104079246521,
      "learning_rate": 0.00023246051070705069,
      "loss": 3.9083,
      "step": 152440
    },
    {
      "epoch": 0.3176041666666667,
      "grad_norm": 2.2418768405914307,
      "learning_rate": 0.00023245227530420968,
      "loss": 3.9333,
      "step": 152450
    },
    {
      "epoch": 0.317625,
      "grad_norm": 0.7484143376350403,
      "learning_rate": 0.00023244403954520744,
      "loss": 3.9362,
      "step": 152460
    },
    {
      "epoch": 0.31764583333333335,
      "grad_norm": 0.7401947975158691,
      "learning_rate": 0.00023243580343007957,
      "loss": 3.9317,
      "step": 152470
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 0.76202392578125,
      "learning_rate": 0.00023242756695886167,
      "loss": 3.8612,
      "step": 152480
    },
    {
      "epoch": 0.3176875,
      "grad_norm": 0.9025998711585999,
      "learning_rate": 0.00023241933013158931,
      "loss": 3.9129,
      "step": 152490
    },
    {
      "epoch": 0.3177083333333333,
      "grad_norm": 0.7821779251098633,
      "learning_rate": 0.0002324110929482981,
      "loss": 3.9345,
      "step": 152500
    },
    {
      "epoch": 0.3177291666666667,
      "grad_norm": 0.7916245460510254,
      "learning_rate": 0.00023240285540902352,
      "loss": 3.9234,
      "step": 152510
    },
    {
      "epoch": 0.31775,
      "grad_norm": 0.8004600405693054,
      "learning_rate": 0.0002323946175138013,
      "loss": 3.884,
      "step": 152520
    },
    {
      "epoch": 0.31777083333333334,
      "grad_norm": 0.7743723392486572,
      "learning_rate": 0.0002323863792626669,
      "loss": 3.9591,
      "step": 152530
    },
    {
      "epoch": 0.31779166666666664,
      "grad_norm": 0.8254545331001282,
      "learning_rate": 0.00023237814065565595,
      "loss": 4.0488,
      "step": 152540
    },
    {
      "epoch": 0.3178125,
      "grad_norm": 0.7173964977264404,
      "learning_rate": 0.00023236990169280404,
      "loss": 3.9704,
      "step": 152550
    },
    {
      "epoch": 0.31783333333333336,
      "grad_norm": 0.8340864777565002,
      "learning_rate": 0.00023236166237414682,
      "loss": 3.9166,
      "step": 152560
    },
    {
      "epoch": 0.31785416666666666,
      "grad_norm": 0.8360944390296936,
      "learning_rate": 0.00023235342269971974,
      "loss": 4.0503,
      "step": 152570
    },
    {
      "epoch": 0.317875,
      "grad_norm": 0.829037606716156,
      "learning_rate": 0.00023234518266955847,
      "loss": 3.7968,
      "step": 152580
    },
    {
      "epoch": 0.3178958333333333,
      "grad_norm": 0.7439265847206116,
      "learning_rate": 0.0002323369422836987,
      "loss": 3.8952,
      "step": 152590
    },
    {
      "epoch": 0.3179166666666667,
      "grad_norm": 0.8113926649093628,
      "learning_rate": 0.00023232870154217585,
      "loss": 3.9944,
      "step": 152600
    },
    {
      "epoch": 0.3179375,
      "grad_norm": 0.7565935850143433,
      "learning_rate": 0.0002323204604450256,
      "loss": 4.2311,
      "step": 152610
    },
    {
      "epoch": 0.31795833333333334,
      "grad_norm": 0.9628323316574097,
      "learning_rate": 0.00023231221899228357,
      "loss": 3.9401,
      "step": 152620
    },
    {
      "epoch": 0.31797916666666665,
      "grad_norm": 0.7499945759773254,
      "learning_rate": 0.00023230397718398531,
      "loss": 3.7153,
      "step": 152630
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.7615642547607422,
      "learning_rate": 0.00023229573502016646,
      "loss": 3.8978,
      "step": 152640
    },
    {
      "epoch": 0.3180208333333333,
      "grad_norm": 0.8862610459327698,
      "learning_rate": 0.00023228749250086265,
      "loss": 4.0031,
      "step": 152650
    },
    {
      "epoch": 0.31804166666666667,
      "grad_norm": 0.8242993950843811,
      "learning_rate": 0.0002322792496261094,
      "loss": 4.1128,
      "step": 152660
    },
    {
      "epoch": 0.3180625,
      "grad_norm": 1.0145059823989868,
      "learning_rate": 0.00023227100639594236,
      "loss": 3.7127,
      "step": 152670
    },
    {
      "epoch": 0.31808333333333333,
      "grad_norm": 0.7785739302635193,
      "learning_rate": 0.00023226276281039713,
      "loss": 4.0969,
      "step": 152680
    },
    {
      "epoch": 0.3181041666666667,
      "grad_norm": 0.8868936896324158,
      "learning_rate": 0.00023225451886950933,
      "loss": 3.772,
      "step": 152690
    },
    {
      "epoch": 0.318125,
      "grad_norm": 0.7335557341575623,
      "learning_rate": 0.0002322462745733146,
      "loss": 3.9831,
      "step": 152700
    },
    {
      "epoch": 0.31814583333333335,
      "grad_norm": 0.8494901061058044,
      "learning_rate": 0.0002322380299218485,
      "loss": 4.0471,
      "step": 152710
    },
    {
      "epoch": 0.31816666666666665,
      "grad_norm": 0.7906157374382019,
      "learning_rate": 0.00023222978491514666,
      "loss": 3.9257,
      "step": 152720
    },
    {
      "epoch": 0.3181875,
      "grad_norm": 0.8076395988464355,
      "learning_rate": 0.0002322215395532447,
      "loss": 4.0222,
      "step": 152730
    },
    {
      "epoch": 0.3182083333333333,
      "grad_norm": 0.7617098093032837,
      "learning_rate": 0.00023221329383617823,
      "loss": 3.8596,
      "step": 152740
    },
    {
      "epoch": 0.3182291666666667,
      "grad_norm": 0.7227874994277954,
      "learning_rate": 0.00023220504776398285,
      "loss": 3.9746,
      "step": 152750
    },
    {
      "epoch": 0.31825,
      "grad_norm": 0.8661181330680847,
      "learning_rate": 0.00023219680133669426,
      "loss": 3.9566,
      "step": 152760
    },
    {
      "epoch": 0.31827083333333334,
      "grad_norm": 0.8500220775604248,
      "learning_rate": 0.00023218855455434798,
      "loss": 3.981,
      "step": 152770
    },
    {
      "epoch": 0.31829166666666664,
      "grad_norm": 0.8109042644500732,
      "learning_rate": 0.00023218030741697972,
      "loss": 4.055,
      "step": 152780
    },
    {
      "epoch": 0.3183125,
      "grad_norm": 0.809567928314209,
      "learning_rate": 0.000232172059924625,
      "loss": 3.9669,
      "step": 152790
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 0.792625367641449,
      "learning_rate": 0.00023216381207731953,
      "loss": 3.8812,
      "step": 152800
    },
    {
      "epoch": 0.31835416666666666,
      "grad_norm": 0.7766246199607849,
      "learning_rate": 0.00023215556387509893,
      "loss": 4.0487,
      "step": 152810
    },
    {
      "epoch": 0.318375,
      "grad_norm": 0.7674311399459839,
      "learning_rate": 0.00023214731531799883,
      "loss": 3.8976,
      "step": 152820
    },
    {
      "epoch": 0.3183958333333333,
      "grad_norm": 0.8674819469451904,
      "learning_rate": 0.00023213906640605478,
      "loss": 3.923,
      "step": 152830
    },
    {
      "epoch": 0.3184166666666667,
      "grad_norm": 0.7268967032432556,
      "learning_rate": 0.00023213081713930255,
      "loss": 3.9287,
      "step": 152840
    },
    {
      "epoch": 0.3184375,
      "grad_norm": 0.8790313005447388,
      "learning_rate": 0.00023212256751777764,
      "loss": 3.889,
      "step": 152850
    },
    {
      "epoch": 0.31845833333333334,
      "grad_norm": 0.7795857191085815,
      "learning_rate": 0.00023211431754151577,
      "loss": 3.7288,
      "step": 152860
    },
    {
      "epoch": 0.31847916666666665,
      "grad_norm": 0.8216972947120667,
      "learning_rate": 0.00023210606721055257,
      "loss": 3.9301,
      "step": 152870
    },
    {
      "epoch": 0.3185,
      "grad_norm": 0.9806220531463623,
      "learning_rate": 0.0002320978165249236,
      "loss": 3.7612,
      "step": 152880
    },
    {
      "epoch": 0.3185208333333333,
      "grad_norm": 0.8170865774154663,
      "learning_rate": 0.00023208956548466462,
      "loss": 3.9502,
      "step": 152890
    },
    {
      "epoch": 0.31854166666666667,
      "grad_norm": 0.776645302772522,
      "learning_rate": 0.0002320813140898112,
      "loss": 3.7608,
      "step": 152900
    },
    {
      "epoch": 0.3185625,
      "grad_norm": 0.8474704027175903,
      "learning_rate": 0.00023207306234039897,
      "loss": 3.8108,
      "step": 152910
    },
    {
      "epoch": 0.31858333333333333,
      "grad_norm": 0.7498984336853027,
      "learning_rate": 0.00023206481023646362,
      "loss": 4.0684,
      "step": 152920
    },
    {
      "epoch": 0.3186041666666667,
      "grad_norm": 0.852250337600708,
      "learning_rate": 0.00023205655777804076,
      "loss": 3.9719,
      "step": 152930
    },
    {
      "epoch": 0.318625,
      "grad_norm": 0.8660093545913696,
      "learning_rate": 0.00023204830496516605,
      "loss": 3.9969,
      "step": 152940
    },
    {
      "epoch": 0.31864583333333335,
      "grad_norm": 0.7949516177177429,
      "learning_rate": 0.00023204005179787516,
      "loss": 3.7523,
      "step": 152950
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 0.8498538136482239,
      "learning_rate": 0.00023203179827620369,
      "loss": 3.8812,
      "step": 152960
    },
    {
      "epoch": 0.3186875,
      "grad_norm": 0.9825190305709839,
      "learning_rate": 0.00023202354440018735,
      "loss": 4.0353,
      "step": 152970
    },
    {
      "epoch": 0.3187083333333333,
      "grad_norm": 0.7094113826751709,
      "learning_rate": 0.00023201529016986174,
      "loss": 4.1246,
      "step": 152980
    },
    {
      "epoch": 0.3187291666666667,
      "grad_norm": 0.841209888458252,
      "learning_rate": 0.00023200703558526252,
      "loss": 3.6784,
      "step": 152990
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.7997307181358337,
      "learning_rate": 0.00023199878064642543,
      "loss": 4.0371,
      "step": 153000
    },
    {
      "epoch": 0.31875,
      "eval_loss": 3.7401890754699707,
      "eval_runtime": 7.2689,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 153000
    },
    {
      "epoch": 0.31877083333333334,
      "grad_norm": 0.7453011870384216,
      "learning_rate": 0.00023199052535338604,
      "loss": 3.8648,
      "step": 153010
    },
    {
      "epoch": 0.31879166666666664,
      "grad_norm": 0.8301413655281067,
      "learning_rate": 0.00023198226970618,
      "loss": 3.8295,
      "step": 153020
    },
    {
      "epoch": 0.3188125,
      "grad_norm": 0.815780758857727,
      "learning_rate": 0.00023197401370484303,
      "loss": 3.8092,
      "step": 153030
    },
    {
      "epoch": 0.31883333333333336,
      "grad_norm": 0.7656764388084412,
      "learning_rate": 0.0002319657573494108,
      "loss": 3.8031,
      "step": 153040
    },
    {
      "epoch": 0.31885416666666666,
      "grad_norm": 0.8109658360481262,
      "learning_rate": 0.00023195750063991893,
      "loss": 4.0718,
      "step": 153050
    },
    {
      "epoch": 0.318875,
      "grad_norm": 0.7835850119590759,
      "learning_rate": 0.00023194924357640306,
      "loss": 3.8022,
      "step": 153060
    },
    {
      "epoch": 0.3188958333333333,
      "grad_norm": 0.8214606046676636,
      "learning_rate": 0.00023194098615889896,
      "loss": 4.0515,
      "step": 153070
    },
    {
      "epoch": 0.3189166666666667,
      "grad_norm": 0.7975976467132568,
      "learning_rate": 0.00023193272838744215,
      "loss": 3.9022,
      "step": 153080
    },
    {
      "epoch": 0.3189375,
      "grad_norm": 0.871439516544342,
      "learning_rate": 0.00023192447026206846,
      "loss": 3.9938,
      "step": 153090
    },
    {
      "epoch": 0.31895833333333334,
      "grad_norm": 0.7505226731300354,
      "learning_rate": 0.0002319162117828134,
      "loss": 3.7913,
      "step": 153100
    },
    {
      "epoch": 0.31897916666666665,
      "grad_norm": 0.9218915104866028,
      "learning_rate": 0.0002319079529497128,
      "loss": 3.9438,
      "step": 153110
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.7882313132286072,
      "learning_rate": 0.0002318996937628023,
      "loss": 3.9588,
      "step": 153120
    },
    {
      "epoch": 0.3190208333333333,
      "grad_norm": 0.7326376438140869,
      "learning_rate": 0.00023189143422211746,
      "loss": 3.7818,
      "step": 153130
    },
    {
      "epoch": 0.31904166666666667,
      "grad_norm": 0.7346957921981812,
      "learning_rate": 0.00023188317432769405,
      "loss": 4.1898,
      "step": 153140
    },
    {
      "epoch": 0.3190625,
      "grad_norm": 0.782655656337738,
      "learning_rate": 0.00023187491407956776,
      "loss": 4.0266,
      "step": 153150
    },
    {
      "epoch": 0.31908333333333333,
      "grad_norm": 0.8037160038948059,
      "learning_rate": 0.00023186665347777423,
      "loss": 3.7803,
      "step": 153160
    },
    {
      "epoch": 0.3191041666666667,
      "grad_norm": 0.770700216293335,
      "learning_rate": 0.00023185839252234917,
      "loss": 3.9645,
      "step": 153170
    },
    {
      "epoch": 0.319125,
      "grad_norm": 0.8422035574913025,
      "learning_rate": 0.00023185013121332829,
      "loss": 3.8633,
      "step": 153180
    },
    {
      "epoch": 0.31914583333333335,
      "grad_norm": 1.2270922660827637,
      "learning_rate": 0.0002318418695507472,
      "loss": 4.1807,
      "step": 153190
    },
    {
      "epoch": 0.31916666666666665,
      "grad_norm": 0.7892211675643921,
      "learning_rate": 0.00023183360753464163,
      "loss": 3.9838,
      "step": 153200
    },
    {
      "epoch": 0.3191875,
      "grad_norm": 0.7371470928192139,
      "learning_rate": 0.00023182534516504733,
      "loss": 4.0871,
      "step": 153210
    },
    {
      "epoch": 0.3192083333333333,
      "grad_norm": 1.102514624595642,
      "learning_rate": 0.00023181708244199986,
      "loss": 4.0137,
      "step": 153220
    },
    {
      "epoch": 0.3192291666666667,
      "grad_norm": 0.8077461123466492,
      "learning_rate": 0.00023180881936553504,
      "loss": 3.843,
      "step": 153230
    },
    {
      "epoch": 0.31925,
      "grad_norm": 0.7946762442588806,
      "learning_rate": 0.00023180055593568846,
      "loss": 3.935,
      "step": 153240
    },
    {
      "epoch": 0.31927083333333334,
      "grad_norm": 0.8372840285301208,
      "learning_rate": 0.00023179229215249583,
      "loss": 4.0012,
      "step": 153250
    },
    {
      "epoch": 0.31929166666666664,
      "grad_norm": 0.8410546183586121,
      "learning_rate": 0.00023178402801599292,
      "loss": 3.9344,
      "step": 153260
    },
    {
      "epoch": 0.3193125,
      "grad_norm": 0.845530092716217,
      "learning_rate": 0.00023177576352621535,
      "loss": 4.0074,
      "step": 153270
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 0.813355565071106,
      "learning_rate": 0.00023176749868319884,
      "loss": 4.0341,
      "step": 153280
    },
    {
      "epoch": 0.31935416666666666,
      "grad_norm": 0.8405160307884216,
      "learning_rate": 0.00023175923348697916,
      "loss": 3.9161,
      "step": 153290
    },
    {
      "epoch": 0.319375,
      "grad_norm": 0.7483782172203064,
      "learning_rate": 0.00023175096793759192,
      "loss": 3.9061,
      "step": 153300
    },
    {
      "epoch": 0.3193958333333333,
      "grad_norm": 0.8256070017814636,
      "learning_rate": 0.00023174270203507282,
      "loss": 3.7843,
      "step": 153310
    },
    {
      "epoch": 0.3194166666666667,
      "grad_norm": 0.7725684642791748,
      "learning_rate": 0.00023173443577945765,
      "loss": 3.8896,
      "step": 153320
    },
    {
      "epoch": 0.3194375,
      "grad_norm": 0.7634118795394897,
      "learning_rate": 0.00023172616917078206,
      "loss": 3.7862,
      "step": 153330
    },
    {
      "epoch": 0.31945833333333334,
      "grad_norm": 0.9638001918792725,
      "learning_rate": 0.0002317179022090818,
      "loss": 3.9895,
      "step": 153340
    },
    {
      "epoch": 0.31947916666666665,
      "grad_norm": 0.9092304110527039,
      "learning_rate": 0.00023170963489439249,
      "loss": 3.9506,
      "step": 153350
    },
    {
      "epoch": 0.3195,
      "grad_norm": 0.7948048710823059,
      "learning_rate": 0.00023170136722674991,
      "loss": 3.8809,
      "step": 153360
    },
    {
      "epoch": 0.3195208333333333,
      "grad_norm": 0.7940899133682251,
      "learning_rate": 0.0002316930992061898,
      "loss": 3.8708,
      "step": 153370
    },
    {
      "epoch": 0.31954166666666667,
      "grad_norm": 0.7295260429382324,
      "learning_rate": 0.00023168483083274783,
      "loss": 4.1509,
      "step": 153380
    },
    {
      "epoch": 0.3195625,
      "grad_norm": 0.774354875087738,
      "learning_rate": 0.00023167656210645974,
      "loss": 4.0015,
      "step": 153390
    },
    {
      "epoch": 0.31958333333333333,
      "grad_norm": 0.7546243071556091,
      "learning_rate": 0.0002316682930273612,
      "loss": 4.0179,
      "step": 153400
    },
    {
      "epoch": 0.3196041666666667,
      "grad_norm": 0.7375533580780029,
      "learning_rate": 0.00023166002359548794,
      "loss": 4.004,
      "step": 153410
    },
    {
      "epoch": 0.319625,
      "grad_norm": 0.8010996580123901,
      "learning_rate": 0.0002316517538108757,
      "loss": 4.0513,
      "step": 153420
    },
    {
      "epoch": 0.31964583333333335,
      "grad_norm": 0.7824051380157471,
      "learning_rate": 0.00023164348367356026,
      "loss": 3.8793,
      "step": 153430
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 0.7462741136550903,
      "learning_rate": 0.00023163521318357726,
      "loss": 4.0577,
      "step": 153440
    },
    {
      "epoch": 0.3196875,
      "grad_norm": 0.785849928855896,
      "learning_rate": 0.00023162694234096245,
      "loss": 3.8415,
      "step": 153450
    },
    {
      "epoch": 0.3197083333333333,
      "grad_norm": 0.8926989436149597,
      "learning_rate": 0.00023161867114575155,
      "loss": 3.9465,
      "step": 153460
    },
    {
      "epoch": 0.3197291666666667,
      "grad_norm": 0.8794368505477905,
      "learning_rate": 0.00023161039959798032,
      "loss": 3.8983,
      "step": 153470
    },
    {
      "epoch": 0.31975,
      "grad_norm": 1.0254199504852295,
      "learning_rate": 0.00023160212769768443,
      "loss": 3.8523,
      "step": 153480
    },
    {
      "epoch": 0.31977083333333334,
      "grad_norm": 0.7998559474945068,
      "learning_rate": 0.0002315938554448997,
      "loss": 3.9784,
      "step": 153490
    },
    {
      "epoch": 0.31979166666666664,
      "grad_norm": 0.8579049706459045,
      "learning_rate": 0.0002315855828396618,
      "loss": 3.8722,
      "step": 153500
    },
    {
      "epoch": 0.3198125,
      "grad_norm": 0.787120521068573,
      "learning_rate": 0.00023157730988200646,
      "loss": 3.7998,
      "step": 153510
    },
    {
      "epoch": 0.31983333333333336,
      "grad_norm": 0.7392895817756653,
      "learning_rate": 0.00023156903657196943,
      "loss": 4.0521,
      "step": 153520
    },
    {
      "epoch": 0.31985416666666666,
      "grad_norm": 0.7941418290138245,
      "learning_rate": 0.00023156076290958643,
      "loss": 3.9861,
      "step": 153530
    },
    {
      "epoch": 0.319875,
      "grad_norm": 0.9060242176055908,
      "learning_rate": 0.00023155248889489323,
      "loss": 3.9178,
      "step": 153540
    },
    {
      "epoch": 0.3198958333333333,
      "grad_norm": 0.7322038412094116,
      "learning_rate": 0.00023154421452792557,
      "loss": 3.7525,
      "step": 153550
    },
    {
      "epoch": 0.3199166666666667,
      "grad_norm": 0.7668766379356384,
      "learning_rate": 0.0002315359398087192,
      "loss": 3.9396,
      "step": 153560
    },
    {
      "epoch": 0.3199375,
      "grad_norm": 0.7803566455841064,
      "learning_rate": 0.00023152766473730983,
      "loss": 4.067,
      "step": 153570
    },
    {
      "epoch": 0.31995833333333334,
      "grad_norm": 0.8505458831787109,
      "learning_rate": 0.0002315193893137332,
      "loss": 3.8463,
      "step": 153580
    },
    {
      "epoch": 0.31997916666666665,
      "grad_norm": 0.7807782292366028,
      "learning_rate": 0.0002315111135380251,
      "loss": 3.8275,
      "step": 153590
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8401618003845215,
      "learning_rate": 0.00023150283741022124,
      "loss": 4.0835,
      "step": 153600
    },
    {
      "epoch": 0.3200208333333333,
      "grad_norm": 0.8341973423957825,
      "learning_rate": 0.0002314945609303574,
      "loss": 3.8847,
      "step": 153610
    },
    {
      "epoch": 0.32004166666666667,
      "grad_norm": 0.7942255735397339,
      "learning_rate": 0.00023148628409846926,
      "loss": 3.9077,
      "step": 153620
    },
    {
      "epoch": 0.3200625,
      "grad_norm": 0.833631157875061,
      "learning_rate": 0.00023147800691459267,
      "loss": 4.0156,
      "step": 153630
    },
    {
      "epoch": 0.32008333333333333,
      "grad_norm": 0.8473032116889954,
      "learning_rate": 0.00023146972937876338,
      "loss": 3.6756,
      "step": 153640
    },
    {
      "epoch": 0.3201041666666667,
      "grad_norm": 0.7767923474311829,
      "learning_rate": 0.00023146145149101704,
      "loss": 3.9588,
      "step": 153650
    },
    {
      "epoch": 0.320125,
      "grad_norm": 0.8288346529006958,
      "learning_rate": 0.00023145317325138953,
      "loss": 3.9611,
      "step": 153660
    },
    {
      "epoch": 0.32014583333333335,
      "grad_norm": 0.8332282900810242,
      "learning_rate": 0.00023144489465991652,
      "loss": 4.0243,
      "step": 153670
    },
    {
      "epoch": 0.32016666666666665,
      "grad_norm": 0.7980658411979675,
      "learning_rate": 0.00023143661571663378,
      "loss": 3.9045,
      "step": 153680
    },
    {
      "epoch": 0.3201875,
      "grad_norm": 0.8644294142723083,
      "learning_rate": 0.00023142833642157711,
      "loss": 3.9285,
      "step": 153690
    },
    {
      "epoch": 0.3202083333333333,
      "grad_norm": 0.8648346066474915,
      "learning_rate": 0.00023142005677478228,
      "loss": 3.9755,
      "step": 153700
    },
    {
      "epoch": 0.3202291666666667,
      "grad_norm": 0.8210774660110474,
      "learning_rate": 0.00023141177677628503,
      "loss": 3.9455,
      "step": 153710
    },
    {
      "epoch": 0.32025,
      "grad_norm": 0.7264704704284668,
      "learning_rate": 0.0002314034964261211,
      "loss": 3.9902,
      "step": 153720
    },
    {
      "epoch": 0.32027083333333334,
      "grad_norm": 0.8801271319389343,
      "learning_rate": 0.0002313952157243263,
      "loss": 3.9265,
      "step": 153730
    },
    {
      "epoch": 0.32029166666666664,
      "grad_norm": 0.7571808695793152,
      "learning_rate": 0.00023138693467093644,
      "loss": 4.1438,
      "step": 153740
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 0.8384497165679932,
      "learning_rate": 0.00023137865326598717,
      "loss": 4.1074,
      "step": 153750
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 0.722282350063324,
      "learning_rate": 0.00023137037150951437,
      "loss": 4.0851,
      "step": 153760
    },
    {
      "epoch": 0.32035416666666666,
      "grad_norm": 0.790733277797699,
      "learning_rate": 0.00023136208940155377,
      "loss": 3.8723,
      "step": 153770
    },
    {
      "epoch": 0.320375,
      "grad_norm": 0.79349285364151,
      "learning_rate": 0.0002313538069421411,
      "loss": 3.8299,
      "step": 153780
    },
    {
      "epoch": 0.3203958333333333,
      "grad_norm": 0.7927988767623901,
      "learning_rate": 0.00023134552413131223,
      "loss": 3.8845,
      "step": 153790
    },
    {
      "epoch": 0.3204166666666667,
      "grad_norm": 0.8009276986122131,
      "learning_rate": 0.0002313372409691029,
      "loss": 3.8162,
      "step": 153800
    },
    {
      "epoch": 0.3204375,
      "grad_norm": 0.8362581729888916,
      "learning_rate": 0.00023132895745554884,
      "loss": 3.8664,
      "step": 153810
    },
    {
      "epoch": 0.32045833333333335,
      "grad_norm": 0.8281025290489197,
      "learning_rate": 0.00023132067359068594,
      "loss": 3.8843,
      "step": 153820
    },
    {
      "epoch": 0.32047916666666665,
      "grad_norm": 0.8106665015220642,
      "learning_rate": 0.0002313123893745499,
      "loss": 3.9845,
      "step": 153830
    },
    {
      "epoch": 0.3205,
      "grad_norm": 0.9102112650871277,
      "learning_rate": 0.00023130410480717652,
      "loss": 3.8788,
      "step": 153840
    },
    {
      "epoch": 0.3205208333333333,
      "grad_norm": 0.8067188262939453,
      "learning_rate": 0.00023129581988860155,
      "loss": 3.8846,
      "step": 153850
    },
    {
      "epoch": 0.32054166666666667,
      "grad_norm": 0.8647258877754211,
      "learning_rate": 0.00023128753461886084,
      "loss": 3.8242,
      "step": 153860
    },
    {
      "epoch": 0.3205625,
      "grad_norm": 0.8147462606430054,
      "learning_rate": 0.00023127924899799017,
      "loss": 4.0498,
      "step": 153870
    },
    {
      "epoch": 0.32058333333333333,
      "grad_norm": 0.7792500853538513,
      "learning_rate": 0.00023127096302602533,
      "loss": 3.9107,
      "step": 153880
    },
    {
      "epoch": 0.3206041666666667,
      "grad_norm": 0.8664008975028992,
      "learning_rate": 0.00023126267670300207,
      "loss": 3.8197,
      "step": 153890
    },
    {
      "epoch": 0.320625,
      "grad_norm": 0.8221208453178406,
      "learning_rate": 0.00023125439002895617,
      "loss": 3.8758,
      "step": 153900
    },
    {
      "epoch": 0.32064583333333335,
      "grad_norm": 0.9025797247886658,
      "learning_rate": 0.0002312461030039236,
      "loss": 4.0573,
      "step": 153910
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 0.7872982621192932,
      "learning_rate": 0.00023123781562793994,
      "loss": 3.9201,
      "step": 153920
    },
    {
      "epoch": 0.3206875,
      "grad_norm": 0.7958241701126099,
      "learning_rate": 0.00023122952790104103,
      "loss": 3.9203,
      "step": 153930
    },
    {
      "epoch": 0.3207083333333333,
      "grad_norm": 0.8398576974868774,
      "learning_rate": 0.00023122123982326274,
      "loss": 3.7966,
      "step": 153940
    },
    {
      "epoch": 0.3207291666666667,
      "grad_norm": 0.9302013516426086,
      "learning_rate": 0.00023121295139464092,
      "loss": 3.9778,
      "step": 153950
    },
    {
      "epoch": 0.32075,
      "grad_norm": 0.8797957897186279,
      "learning_rate": 0.00023120466261521123,
      "loss": 3.9366,
      "step": 153960
    },
    {
      "epoch": 0.32077083333333334,
      "grad_norm": 0.8704246878623962,
      "learning_rate": 0.00023119637348500952,
      "loss": 4.0467,
      "step": 153970
    },
    {
      "epoch": 0.32079166666666664,
      "grad_norm": 0.7232550978660583,
      "learning_rate": 0.00023118808400407164,
      "loss": 3.8383,
      "step": 153980
    },
    {
      "epoch": 0.3208125,
      "grad_norm": 0.8381383419036865,
      "learning_rate": 0.00023117979417243339,
      "loss": 3.8774,
      "step": 153990
    },
    {
      "epoch": 0.32083333333333336,
      "grad_norm": 0.7725222706794739,
      "learning_rate": 0.00023117150399013054,
      "loss": 4.121,
      "step": 154000
    },
    {
      "epoch": 0.32083333333333336,
      "eval_loss": 3.7407829761505127,
      "eval_runtime": 7.253,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 154000
    },
    {
      "epoch": 0.32085416666666666,
      "grad_norm": 1.0938752889633179,
      "learning_rate": 0.00023116321345719896,
      "loss": 3.9766,
      "step": 154010
    },
    {
      "epoch": 0.320875,
      "grad_norm": 0.7337263226509094,
      "learning_rate": 0.00023115492257367437,
      "loss": 3.8321,
      "step": 154020
    },
    {
      "epoch": 0.3208958333333333,
      "grad_norm": 0.7506675720214844,
      "learning_rate": 0.0002311466313395927,
      "loss": 3.9442,
      "step": 154030
    },
    {
      "epoch": 0.3209166666666667,
      "grad_norm": 0.7920344471931458,
      "learning_rate": 0.00023113833975498964,
      "loss": 4.1173,
      "step": 154040
    },
    {
      "epoch": 0.3209375,
      "grad_norm": 0.8973656892776489,
      "learning_rate": 0.00023113004781990113,
      "loss": 3.9976,
      "step": 154050
    },
    {
      "epoch": 0.32095833333333335,
      "grad_norm": 1.3595386743545532,
      "learning_rate": 0.00023112175553436284,
      "loss": 3.9219,
      "step": 154060
    },
    {
      "epoch": 0.32097916666666665,
      "grad_norm": 0.8852108120918274,
      "learning_rate": 0.00023111346289841076,
      "loss": 3.8908,
      "step": 154070
    },
    {
      "epoch": 0.321,
      "grad_norm": 1.0339927673339844,
      "learning_rate": 0.0002311051699120806,
      "loss": 3.9963,
      "step": 154080
    },
    {
      "epoch": 0.3210208333333333,
      "grad_norm": 0.813266932964325,
      "learning_rate": 0.0002310968765754082,
      "loss": 4.0197,
      "step": 154090
    },
    {
      "epoch": 0.32104166666666667,
      "grad_norm": 0.7374794483184814,
      "learning_rate": 0.00023108858288842943,
      "loss": 3.8807,
      "step": 154100
    },
    {
      "epoch": 0.3210625,
      "grad_norm": 0.8235611915588379,
      "learning_rate": 0.00023108028885118003,
      "loss": 3.8937,
      "step": 154110
    },
    {
      "epoch": 0.32108333333333333,
      "grad_norm": 0.8551837801933289,
      "learning_rate": 0.00023107199446369592,
      "loss": 4.0471,
      "step": 154120
    },
    {
      "epoch": 0.3211041666666667,
      "grad_norm": 0.7353165149688721,
      "learning_rate": 0.00023106369972601286,
      "loss": 3.8022,
      "step": 154130
    },
    {
      "epoch": 0.321125,
      "grad_norm": 0.762360155582428,
      "learning_rate": 0.00023105540463816673,
      "loss": 4.0583,
      "step": 154140
    },
    {
      "epoch": 0.32114583333333335,
      "grad_norm": 0.9975897073745728,
      "learning_rate": 0.00023104710920019325,
      "loss": 4.0494,
      "step": 154150
    },
    {
      "epoch": 0.32116666666666666,
      "grad_norm": 0.8560265302658081,
      "learning_rate": 0.00023103881341212843,
      "loss": 3.9236,
      "step": 154160
    },
    {
      "epoch": 0.3211875,
      "grad_norm": 0.7688419818878174,
      "learning_rate": 0.00023103051727400799,
      "loss": 3.9001,
      "step": 154170
    },
    {
      "epoch": 0.3212083333333333,
      "grad_norm": 0.7223590016365051,
      "learning_rate": 0.00023102222078586778,
      "loss": 3.866,
      "step": 154180
    },
    {
      "epoch": 0.3212291666666667,
      "grad_norm": 0.7278075218200684,
      "learning_rate": 0.00023101392394774366,
      "loss": 3.8683,
      "step": 154190
    },
    {
      "epoch": 0.32125,
      "grad_norm": 0.9275548458099365,
      "learning_rate": 0.00023100562675967145,
      "loss": 3.9011,
      "step": 154200
    },
    {
      "epoch": 0.32127083333333334,
      "grad_norm": 0.7955290079116821,
      "learning_rate": 0.00023099732922168695,
      "loss": 3.9103,
      "step": 154210
    },
    {
      "epoch": 0.32129166666666664,
      "grad_norm": 0.8033276796340942,
      "learning_rate": 0.00023098903133382613,
      "loss": 3.9196,
      "step": 154220
    },
    {
      "epoch": 0.3213125,
      "grad_norm": 0.7411007285118103,
      "learning_rate": 0.0002309807330961247,
      "loss": 3.8771,
      "step": 154230
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 0.7822388410568237,
      "learning_rate": 0.00023097243450861856,
      "loss": 3.9482,
      "step": 154240
    },
    {
      "epoch": 0.32135416666666666,
      "grad_norm": 0.8092993497848511,
      "learning_rate": 0.00023096413557134357,
      "loss": 3.741,
      "step": 154250
    },
    {
      "epoch": 0.321375,
      "grad_norm": 0.9677066802978516,
      "learning_rate": 0.00023095583628433554,
      "loss": 3.785,
      "step": 154260
    },
    {
      "epoch": 0.3213958333333333,
      "grad_norm": 0.8502869606018066,
      "learning_rate": 0.0002309475366476304,
      "loss": 3.9354,
      "step": 154270
    },
    {
      "epoch": 0.3214166666666667,
      "grad_norm": 0.7871004939079285,
      "learning_rate": 0.0002309392366612639,
      "loss": 3.8904,
      "step": 154280
    },
    {
      "epoch": 0.3214375,
      "grad_norm": 0.8293887376785278,
      "learning_rate": 0.00023093093632527191,
      "loss": 3.8869,
      "step": 154290
    },
    {
      "epoch": 0.32145833333333335,
      "grad_norm": 0.763418972492218,
      "learning_rate": 0.00023092263563969035,
      "loss": 3.9163,
      "step": 154300
    },
    {
      "epoch": 0.32147916666666665,
      "grad_norm": 0.9474669694900513,
      "learning_rate": 0.000230914334604555,
      "loss": 4.0092,
      "step": 154310
    },
    {
      "epoch": 0.3215,
      "grad_norm": 0.7498641014099121,
      "learning_rate": 0.0002309060332199018,
      "loss": 4.1184,
      "step": 154320
    },
    {
      "epoch": 0.3215208333333333,
      "grad_norm": 0.7499088048934937,
      "learning_rate": 0.00023089773148576653,
      "loss": 3.9876,
      "step": 154330
    },
    {
      "epoch": 0.32154166666666667,
      "grad_norm": 2.21712327003479,
      "learning_rate": 0.0002308894294021851,
      "loss": 4.0281,
      "step": 154340
    },
    {
      "epoch": 0.3215625,
      "grad_norm": 0.7472975254058838,
      "learning_rate": 0.00023088112696919335,
      "loss": 4.0028,
      "step": 154350
    },
    {
      "epoch": 0.32158333333333333,
      "grad_norm": 0.7504023313522339,
      "learning_rate": 0.00023087282418682713,
      "loss": 3.8755,
      "step": 154360
    },
    {
      "epoch": 0.3216041666666667,
      "grad_norm": 0.7829560041427612,
      "learning_rate": 0.00023086452105512234,
      "loss": 3.9246,
      "step": 154370
    },
    {
      "epoch": 0.321625,
      "grad_norm": 0.9059239625930786,
      "learning_rate": 0.0002308562175741148,
      "loss": 3.7851,
      "step": 154380
    },
    {
      "epoch": 0.32164583333333335,
      "grad_norm": 0.9166432023048401,
      "learning_rate": 0.00023084791374384045,
      "loss": 3.9784,
      "step": 154390
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 0.9480131268501282,
      "learning_rate": 0.00023083960956433506,
      "loss": 4.036,
      "step": 154400
    },
    {
      "epoch": 0.3216875,
      "grad_norm": 0.8433674573898315,
      "learning_rate": 0.00023083130503563464,
      "loss": 3.9097,
      "step": 154410
    },
    {
      "epoch": 0.3217083333333333,
      "grad_norm": 1.0325268507003784,
      "learning_rate": 0.00023082300015777484,
      "loss": 4.1358,
      "step": 154420
    },
    {
      "epoch": 0.3217291666666667,
      "grad_norm": 0.8754967451095581,
      "learning_rate": 0.00023081469493079173,
      "loss": 3.8658,
      "step": 154430
    },
    {
      "epoch": 0.32175,
      "grad_norm": 0.8401476144790649,
      "learning_rate": 0.00023080638935472122,
      "loss": 4.0418,
      "step": 154440
    },
    {
      "epoch": 0.32177083333333334,
      "grad_norm": 0.7814594507217407,
      "learning_rate": 0.00023079808342959903,
      "loss": 3.8636,
      "step": 154450
    },
    {
      "epoch": 0.32179166666666664,
      "grad_norm": 3.089029312133789,
      "learning_rate": 0.00023078977715546104,
      "loss": 3.9337,
      "step": 154460
    },
    {
      "epoch": 0.3218125,
      "grad_norm": 0.7601437568664551,
      "learning_rate": 0.00023078147053234328,
      "loss": 3.7168,
      "step": 154470
    },
    {
      "epoch": 0.32183333333333336,
      "grad_norm": 0.7137117981910706,
      "learning_rate": 0.00023077316356028148,
      "loss": 4.0435,
      "step": 154480
    },
    {
      "epoch": 0.32185416666666666,
      "grad_norm": 0.8356786966323853,
      "learning_rate": 0.00023076485623931163,
      "loss": 3.8633,
      "step": 154490
    },
    {
      "epoch": 0.321875,
      "grad_norm": 0.7677786946296692,
      "learning_rate": 0.00023075654856946956,
      "loss": 3.9246,
      "step": 154500
    },
    {
      "epoch": 0.3218958333333333,
      "grad_norm": 0.7524927854537964,
      "learning_rate": 0.00023074824055079114,
      "loss": 3.8184,
      "step": 154510
    },
    {
      "epoch": 0.3219166666666667,
      "grad_norm": 0.8099793195724487,
      "learning_rate": 0.00023073993218331227,
      "loss": 4.1104,
      "step": 154520
    },
    {
      "epoch": 0.3219375,
      "grad_norm": 0.9569841623306274,
      "learning_rate": 0.00023073162346706893,
      "loss": 3.8963,
      "step": 154530
    },
    {
      "epoch": 0.32195833333333335,
      "grad_norm": 0.7338687777519226,
      "learning_rate": 0.00023072331440209687,
      "loss": 3.9241,
      "step": 154540
    },
    {
      "epoch": 0.32197916666666665,
      "grad_norm": 0.7495706677436829,
      "learning_rate": 0.00023071500498843205,
      "loss": 3.8211,
      "step": 154550
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.8038749098777771,
      "learning_rate": 0.00023070669522611036,
      "loss": 3.8397,
      "step": 154560
    },
    {
      "epoch": 0.3220208333333333,
      "grad_norm": 0.9040741324424744,
      "learning_rate": 0.0002306983851151677,
      "loss": 4.0227,
      "step": 154570
    },
    {
      "epoch": 0.32204166666666667,
      "grad_norm": 0.7792447209358215,
      "learning_rate": 0.00023069007465564002,
      "loss": 3.9171,
      "step": 154580
    },
    {
      "epoch": 0.3220625,
      "grad_norm": 0.8066288232803345,
      "learning_rate": 0.00023068176384756302,
      "loss": 4.0001,
      "step": 154590
    },
    {
      "epoch": 0.32208333333333333,
      "grad_norm": 0.8258255124092102,
      "learning_rate": 0.00023067345269097282,
      "loss": 3.9345,
      "step": 154600
    },
    {
      "epoch": 0.3221041666666667,
      "grad_norm": 0.7503103017807007,
      "learning_rate": 0.0002306651411859053,
      "loss": 3.8391,
      "step": 154610
    },
    {
      "epoch": 0.322125,
      "grad_norm": 0.8336779475212097,
      "learning_rate": 0.00023065682933239614,
      "loss": 4.0427,
      "step": 154620
    },
    {
      "epoch": 0.32214583333333335,
      "grad_norm": 0.8017005920410156,
      "learning_rate": 0.00023064851713048152,
      "loss": 3.8418,
      "step": 154630
    },
    {
      "epoch": 0.32216666666666666,
      "grad_norm": 0.8079383373260498,
      "learning_rate": 0.00023064020458019724,
      "loss": 3.9837,
      "step": 154640
    },
    {
      "epoch": 0.3221875,
      "grad_norm": 0.9596419334411621,
      "learning_rate": 0.00023063189168157913,
      "loss": 3.8201,
      "step": 154650
    },
    {
      "epoch": 0.3222083333333333,
      "grad_norm": 0.7608515024185181,
      "learning_rate": 0.00023062357843466318,
      "loss": 3.7575,
      "step": 154660
    },
    {
      "epoch": 0.3222291666666667,
      "grad_norm": 0.819835364818573,
      "learning_rate": 0.00023061526483948534,
      "loss": 3.8464,
      "step": 154670
    },
    {
      "epoch": 0.32225,
      "grad_norm": 0.8212374448776245,
      "learning_rate": 0.00023060695089608142,
      "loss": 4.0916,
      "step": 154680
    },
    {
      "epoch": 0.32227083333333334,
      "grad_norm": 0.8205962777137756,
      "learning_rate": 0.00023059863660448735,
      "loss": 3.9789,
      "step": 154690
    },
    {
      "epoch": 0.32229166666666664,
      "grad_norm": 0.8111958503723145,
      "learning_rate": 0.0002305903219647391,
      "loss": 4.0267,
      "step": 154700
    },
    {
      "epoch": 0.3223125,
      "grad_norm": 0.7621110677719116,
      "learning_rate": 0.0002305820069768726,
      "loss": 3.876,
      "step": 154710
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 0.8383455872535706,
      "learning_rate": 0.00023057369164092365,
      "loss": 3.685,
      "step": 154720
    },
    {
      "epoch": 0.32235416666666666,
      "grad_norm": 0.7821986675262451,
      "learning_rate": 0.00023056537595692828,
      "loss": 3.8043,
      "step": 154730
    },
    {
      "epoch": 0.322375,
      "grad_norm": 0.852593719959259,
      "learning_rate": 0.00023055705992492236,
      "loss": 3.9246,
      "step": 154740
    },
    {
      "epoch": 0.3223958333333333,
      "grad_norm": 0.8470677137374878,
      "learning_rate": 0.00023054874354494186,
      "loss": 3.8976,
      "step": 154750
    },
    {
      "epoch": 0.3224166666666667,
      "grad_norm": 0.8184802532196045,
      "learning_rate": 0.0002305404268170227,
      "loss": 3.923,
      "step": 154760
    },
    {
      "epoch": 0.3224375,
      "grad_norm": 0.8764594197273254,
      "learning_rate": 0.0002305321097412007,
      "loss": 3.9768,
      "step": 154770
    },
    {
      "epoch": 0.32245833333333335,
      "grad_norm": 1.0368655920028687,
      "learning_rate": 0.00023052379231751192,
      "loss": 4.0229,
      "step": 154780
    },
    {
      "epoch": 0.32247916666666665,
      "grad_norm": 0.7550746202468872,
      "learning_rate": 0.00023051547454599217,
      "loss": 3.8906,
      "step": 154790
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.8323689699172974,
      "learning_rate": 0.00023050715642667749,
      "loss": 3.9142,
      "step": 154800
    },
    {
      "epoch": 0.3225208333333333,
      "grad_norm": 0.7471883893013,
      "learning_rate": 0.0002304988379596038,
      "loss": 3.8974,
      "step": 154810
    },
    {
      "epoch": 0.32254166666666667,
      "grad_norm": 0.7376476526260376,
      "learning_rate": 0.00023049051914480692,
      "loss": 3.9122,
      "step": 154820
    },
    {
      "epoch": 0.3225625,
      "grad_norm": 0.8099338412284851,
      "learning_rate": 0.00023048219998232286,
      "loss": 4.0295,
      "step": 154830
    },
    {
      "epoch": 0.32258333333333333,
      "grad_norm": 0.8030935525894165,
      "learning_rate": 0.00023047388047218762,
      "loss": 3.8641,
      "step": 154840
    },
    {
      "epoch": 0.3226041666666667,
      "grad_norm": 0.7392264604568481,
      "learning_rate": 0.00023046556061443702,
      "loss": 4.1303,
      "step": 154850
    },
    {
      "epoch": 0.322625,
      "grad_norm": 0.9293323159217834,
      "learning_rate": 0.00023045724040910706,
      "loss": 3.9264,
      "step": 154860
    },
    {
      "epoch": 0.32264583333333335,
      "grad_norm": 0.7364977598190308,
      "learning_rate": 0.00023044891985623362,
      "loss": 3.9199,
      "step": 154870
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 0.7371606826782227,
      "learning_rate": 0.00023044059895585277,
      "loss": 4.1342,
      "step": 154880
    },
    {
      "epoch": 0.3226875,
      "grad_norm": 0.7585707306861877,
      "learning_rate": 0.00023043227770800032,
      "loss": 4.1594,
      "step": 154890
    },
    {
      "epoch": 0.3227083333333333,
      "grad_norm": 0.7684329748153687,
      "learning_rate": 0.00023042395611271228,
      "loss": 3.8987,
      "step": 154900
    },
    {
      "epoch": 0.3227291666666667,
      "grad_norm": 0.7822040319442749,
      "learning_rate": 0.00023041563417002458,
      "loss": 4.0324,
      "step": 154910
    },
    {
      "epoch": 0.32275,
      "grad_norm": 0.8391050696372986,
      "learning_rate": 0.00023040731187997317,
      "loss": 3.9039,
      "step": 154920
    },
    {
      "epoch": 0.32277083333333334,
      "grad_norm": 0.8976690769195557,
      "learning_rate": 0.00023039898924259402,
      "loss": 4.0263,
      "step": 154930
    },
    {
      "epoch": 0.32279166666666664,
      "grad_norm": 0.8239021301269531,
      "learning_rate": 0.000230390666257923,
      "loss": 3.942,
      "step": 154940
    },
    {
      "epoch": 0.3228125,
      "grad_norm": 0.7857003211975098,
      "learning_rate": 0.00023038234292599622,
      "loss": 4.0223,
      "step": 154950
    },
    {
      "epoch": 0.32283333333333336,
      "grad_norm": 0.7842850089073181,
      "learning_rate": 0.00023037401924684946,
      "loss": 3.9036,
      "step": 154960
    },
    {
      "epoch": 0.32285416666666666,
      "grad_norm": 0.8657321929931641,
      "learning_rate": 0.00023036569522051878,
      "loss": 3.9226,
      "step": 154970
    },
    {
      "epoch": 0.322875,
      "grad_norm": 0.7856099605560303,
      "learning_rate": 0.0002303573708470401,
      "loss": 3.8114,
      "step": 154980
    },
    {
      "epoch": 0.3228958333333333,
      "grad_norm": 0.7622685432434082,
      "learning_rate": 0.00023034904612644937,
      "loss": 3.8302,
      "step": 154990
    },
    {
      "epoch": 0.3229166666666667,
      "grad_norm": 0.8697569966316223,
      "learning_rate": 0.00023034072105878264,
      "loss": 3.7645,
      "step": 155000
    },
    {
      "epoch": 0.3229166666666667,
      "eval_loss": 3.7556185722351074,
      "eval_runtime": 7.2065,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 155000
    },
    {
      "epoch": 0.3229375,
      "grad_norm": 0.8775790929794312,
      "learning_rate": 0.00023033239564407575,
      "loss": 3.7988,
      "step": 155010
    },
    {
      "epoch": 0.32295833333333335,
      "grad_norm": 0.8417232036590576,
      "learning_rate": 0.0002303240698823647,
      "loss": 3.7776,
      "step": 155020
    },
    {
      "epoch": 0.32297916666666665,
      "grad_norm": 0.9265283942222595,
      "learning_rate": 0.00023031574377368547,
      "loss": 3.9964,
      "step": 155030
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.7674442529678345,
      "learning_rate": 0.000230307417318074,
      "loss": 3.8075,
      "step": 155040
    },
    {
      "epoch": 0.3230208333333333,
      "grad_norm": 1.048419713973999,
      "learning_rate": 0.00023029909051556629,
      "loss": 4.1362,
      "step": 155050
    },
    {
      "epoch": 0.32304166666666667,
      "grad_norm": 0.7524182200431824,
      "learning_rate": 0.00023029076336619826,
      "loss": 3.8248,
      "step": 155060
    },
    {
      "epoch": 0.3230625,
      "grad_norm": 0.7519516348838806,
      "learning_rate": 0.00023028243587000597,
      "loss": 3.9594,
      "step": 155070
    },
    {
      "epoch": 0.32308333333333333,
      "grad_norm": 0.7403077483177185,
      "learning_rate": 0.00023027410802702527,
      "loss": 3.9019,
      "step": 155080
    },
    {
      "epoch": 0.3231041666666667,
      "grad_norm": 0.7890963554382324,
      "learning_rate": 0.00023026577983729224,
      "loss": 4.0804,
      "step": 155090
    },
    {
      "epoch": 0.323125,
      "grad_norm": 0.8271812796592712,
      "learning_rate": 0.00023025745130084282,
      "loss": 4.0119,
      "step": 155100
    },
    {
      "epoch": 0.32314583333333335,
      "grad_norm": 0.8438582420349121,
      "learning_rate": 0.00023024912241771295,
      "loss": 3.9804,
      "step": 155110
    },
    {
      "epoch": 0.32316666666666666,
      "grad_norm": 0.8638229370117188,
      "learning_rate": 0.00023024079318793866,
      "loss": 3.9651,
      "step": 155120
    },
    {
      "epoch": 0.3231875,
      "grad_norm": 0.7598658204078674,
      "learning_rate": 0.00023023246361155588,
      "loss": 3.7987,
      "step": 155130
    },
    {
      "epoch": 0.3232083333333333,
      "grad_norm": 0.844666600227356,
      "learning_rate": 0.0002302241336886007,
      "loss": 3.8064,
      "step": 155140
    },
    {
      "epoch": 0.3232291666666667,
      "grad_norm": 0.7331673502922058,
      "learning_rate": 0.00023021580341910894,
      "loss": 3.974,
      "step": 155150
    },
    {
      "epoch": 0.32325,
      "grad_norm": 0.9527076482772827,
      "learning_rate": 0.00023020747280311663,
      "loss": 3.8353,
      "step": 155160
    },
    {
      "epoch": 0.32327083333333334,
      "grad_norm": 0.7685597538948059,
      "learning_rate": 0.00023019914184065987,
      "loss": 3.8037,
      "step": 155170
    },
    {
      "epoch": 0.32329166666666664,
      "grad_norm": 0.8509098887443542,
      "learning_rate": 0.0002301908105317745,
      "loss": 3.8918,
      "step": 155180
    },
    {
      "epoch": 0.3233125,
      "grad_norm": 0.7803549766540527,
      "learning_rate": 0.0002301824788764966,
      "loss": 3.9021,
      "step": 155190
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 0.7958322167396545,
      "learning_rate": 0.0002301741468748621,
      "loss": 4.0936,
      "step": 155200
    },
    {
      "epoch": 0.32335416666666666,
      "grad_norm": 0.9607663750648499,
      "learning_rate": 0.00023016581452690708,
      "loss": 3.9089,
      "step": 155210
    },
    {
      "epoch": 0.323375,
      "grad_norm": 0.7641094326972961,
      "learning_rate": 0.00023015748183266742,
      "loss": 4.0984,
      "step": 155220
    },
    {
      "epoch": 0.3233958333333333,
      "grad_norm": 0.7291869521141052,
      "learning_rate": 0.00023014914879217917,
      "loss": 3.9312,
      "step": 155230
    },
    {
      "epoch": 0.3234166666666667,
      "grad_norm": 0.8049545288085938,
      "learning_rate": 0.00023014081540547834,
      "loss": 3.8141,
      "step": 155240
    },
    {
      "epoch": 0.3234375,
      "grad_norm": 0.7230479717254639,
      "learning_rate": 0.0002301324816726009,
      "loss": 4.0898,
      "step": 155250
    },
    {
      "epoch": 0.32345833333333335,
      "grad_norm": 0.9307317137718201,
      "learning_rate": 0.00023012414759358287,
      "loss": 3.9557,
      "step": 155260
    },
    {
      "epoch": 0.32347916666666665,
      "grad_norm": 0.7853093147277832,
      "learning_rate": 0.00023011581316846022,
      "loss": 3.941,
      "step": 155270
    },
    {
      "epoch": 0.3235,
      "grad_norm": 0.8197870850563049,
      "learning_rate": 0.000230107478397269,
      "loss": 3.9928,
      "step": 155280
    },
    {
      "epoch": 0.3235208333333333,
      "grad_norm": 0.7998586297035217,
      "learning_rate": 0.0002300991432800451,
      "loss": 3.9167,
      "step": 155290
    },
    {
      "epoch": 0.32354166666666667,
      "grad_norm": 0.7944085597991943,
      "learning_rate": 0.00023009080781682468,
      "loss": 4.0099,
      "step": 155300
    },
    {
      "epoch": 0.3235625,
      "grad_norm": 0.7579506635665894,
      "learning_rate": 0.00023008247200764371,
      "loss": 4.0751,
      "step": 155310
    },
    {
      "epoch": 0.32358333333333333,
      "grad_norm": 0.7536109089851379,
      "learning_rate": 0.00023007413585253807,
      "loss": 3.8873,
      "step": 155320
    },
    {
      "epoch": 0.3236041666666667,
      "grad_norm": 1.3459807634353638,
      "learning_rate": 0.0002300657993515439,
      "loss": 3.8545,
      "step": 155330
    },
    {
      "epoch": 0.323625,
      "grad_norm": 0.9058287739753723,
      "learning_rate": 0.00023005746250469718,
      "loss": 3.9722,
      "step": 155340
    },
    {
      "epoch": 0.32364583333333335,
      "grad_norm": 0.7900296449661255,
      "learning_rate": 0.0002300491253120339,
      "loss": 3.809,
      "step": 155350
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 0.6961715221405029,
      "learning_rate": 0.00023004078777359005,
      "loss": 4.1699,
      "step": 155360
    },
    {
      "epoch": 0.3236875,
      "grad_norm": 0.7641993761062622,
      "learning_rate": 0.00023003244988940174,
      "loss": 4.02,
      "step": 155370
    },
    {
      "epoch": 0.3237083333333333,
      "grad_norm": 0.7462339997291565,
      "learning_rate": 0.0002300241116595049,
      "loss": 3.9757,
      "step": 155380
    },
    {
      "epoch": 0.3237291666666667,
      "grad_norm": 0.7818741202354431,
      "learning_rate": 0.00023001577308393557,
      "loss": 3.8854,
      "step": 155390
    },
    {
      "epoch": 0.32375,
      "grad_norm": 0.8059338927268982,
      "learning_rate": 0.00023000743416272978,
      "loss": 3.9225,
      "step": 155400
    },
    {
      "epoch": 0.32377083333333334,
      "grad_norm": 0.7941660284996033,
      "learning_rate": 0.00022999909489592352,
      "loss": 4.1613,
      "step": 155410
    },
    {
      "epoch": 0.32379166666666664,
      "grad_norm": 0.7626471519470215,
      "learning_rate": 0.00022999075528355286,
      "loss": 3.9551,
      "step": 155420
    },
    {
      "epoch": 0.3238125,
      "grad_norm": 0.7468931674957275,
      "learning_rate": 0.00022998241532565377,
      "loss": 4.0199,
      "step": 155430
    },
    {
      "epoch": 0.3238333333333333,
      "grad_norm": 1.078183650970459,
      "learning_rate": 0.00022997407502226233,
      "loss": 3.7559,
      "step": 155440
    },
    {
      "epoch": 0.32385416666666667,
      "grad_norm": 0.8641287088394165,
      "learning_rate": 0.00022996573437341453,
      "loss": 3.7743,
      "step": 155450
    },
    {
      "epoch": 0.323875,
      "grad_norm": 0.9257146120071411,
      "learning_rate": 0.0002299573933791464,
      "loss": 3.9138,
      "step": 155460
    },
    {
      "epoch": 0.3238958333333333,
      "grad_norm": 0.931861937046051,
      "learning_rate": 0.00022994905203949401,
      "loss": 3.8853,
      "step": 155470
    },
    {
      "epoch": 0.3239166666666667,
      "grad_norm": 0.8514219522476196,
      "learning_rate": 0.0002299407103544934,
      "loss": 3.9554,
      "step": 155480
    },
    {
      "epoch": 0.3239375,
      "grad_norm": 0.8791892528533936,
      "learning_rate": 0.00022993236832418047,
      "loss": 3.8872,
      "step": 155490
    },
    {
      "epoch": 0.32395833333333335,
      "grad_norm": 0.7981827259063721,
      "learning_rate": 0.0002299240259485914,
      "loss": 3.7587,
      "step": 155500
    },
    {
      "epoch": 0.32397916666666665,
      "grad_norm": 0.769068717956543,
      "learning_rate": 0.00022991568322776218,
      "loss": 3.7255,
      "step": 155510
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.7926161289215088,
      "learning_rate": 0.00022990734016172881,
      "loss": 3.9482,
      "step": 155520
    },
    {
      "epoch": 0.3240208333333333,
      "grad_norm": 0.7292007803916931,
      "learning_rate": 0.00022989899675052733,
      "loss": 3.9082,
      "step": 155530
    },
    {
      "epoch": 0.3240416666666667,
      "grad_norm": 0.7666060328483582,
      "learning_rate": 0.00022989065299419388,
      "loss": 4.1067,
      "step": 155540
    },
    {
      "epoch": 0.3240625,
      "grad_norm": 0.7467784881591797,
      "learning_rate": 0.0002298823088927644,
      "loss": 4.1134,
      "step": 155550
    },
    {
      "epoch": 0.32408333333333333,
      "grad_norm": 0.986794114112854,
      "learning_rate": 0.00022987396444627497,
      "loss": 3.9792,
      "step": 155560
    },
    {
      "epoch": 0.3241041666666667,
      "grad_norm": 0.812437891960144,
      "learning_rate": 0.0002298656196547617,
      "loss": 3.9521,
      "step": 155570
    },
    {
      "epoch": 0.324125,
      "grad_norm": 0.7507171034812927,
      "learning_rate": 0.00022985727451826048,
      "loss": 3.9341,
      "step": 155580
    },
    {
      "epoch": 0.32414583333333336,
      "grad_norm": 0.8024957776069641,
      "learning_rate": 0.00022984892903680744,
      "loss": 3.8666,
      "step": 155590
    },
    {
      "epoch": 0.32416666666666666,
      "grad_norm": 0.7612821459770203,
      "learning_rate": 0.00022984058321043866,
      "loss": 3.8782,
      "step": 155600
    },
    {
      "epoch": 0.3241875,
      "grad_norm": 0.8412894606590271,
      "learning_rate": 0.00022983223703919016,
      "loss": 3.7515,
      "step": 155610
    },
    {
      "epoch": 0.3242083333333333,
      "grad_norm": 0.7792326807975769,
      "learning_rate": 0.000229823890523098,
      "loss": 4.0347,
      "step": 155620
    },
    {
      "epoch": 0.3242291666666667,
      "grad_norm": 0.8182744383811951,
      "learning_rate": 0.0002298155436621982,
      "loss": 3.981,
      "step": 155630
    },
    {
      "epoch": 0.32425,
      "grad_norm": 0.8089703917503357,
      "learning_rate": 0.00022980719645652689,
      "loss": 3.906,
      "step": 155640
    },
    {
      "epoch": 0.32427083333333334,
      "grad_norm": 0.8585925698280334,
      "learning_rate": 0.0002297988489061201,
      "loss": 4.0113,
      "step": 155650
    },
    {
      "epoch": 0.32429166666666664,
      "grad_norm": 0.8477835059165955,
      "learning_rate": 0.0002297905010110138,
      "loss": 3.9361,
      "step": 155660
    },
    {
      "epoch": 0.3243125,
      "grad_norm": 0.8623517155647278,
      "learning_rate": 0.00022978215277124413,
      "loss": 3.8376,
      "step": 155670
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 0.8010277152061462,
      "learning_rate": 0.0002297738041868472,
      "loss": 3.881,
      "step": 155680
    },
    {
      "epoch": 0.32435416666666667,
      "grad_norm": 0.7056076526641846,
      "learning_rate": 0.00022976545525785897,
      "loss": 3.9445,
      "step": 155690
    },
    {
      "epoch": 0.324375,
      "grad_norm": 0.7994365096092224,
      "learning_rate": 0.00022975710598431554,
      "loss": 3.9211,
      "step": 155700
    },
    {
      "epoch": 0.3243958333333333,
      "grad_norm": 0.7740878462791443,
      "learning_rate": 0.00022974875636625302,
      "loss": 4.0833,
      "step": 155710
    },
    {
      "epoch": 0.3244166666666667,
      "grad_norm": 0.7843905687332153,
      "learning_rate": 0.0002297404064037074,
      "loss": 3.9877,
      "step": 155720
    },
    {
      "epoch": 0.3244375,
      "grad_norm": 0.829243540763855,
      "learning_rate": 0.00022973205609671477,
      "loss": 3.9946,
      "step": 155730
    },
    {
      "epoch": 0.32445833333333335,
      "grad_norm": 0.922269344329834,
      "learning_rate": 0.00022972370544531125,
      "loss": 4.0373,
      "step": 155740
    },
    {
      "epoch": 0.32447916666666665,
      "grad_norm": 0.897455632686615,
      "learning_rate": 0.0002297153544495329,
      "loss": 3.9524,
      "step": 155750
    },
    {
      "epoch": 0.3245,
      "grad_norm": 0.8137341737747192,
      "learning_rate": 0.00022970700310941572,
      "loss": 4.0782,
      "step": 155760
    },
    {
      "epoch": 0.3245208333333333,
      "grad_norm": 0.7441669702529907,
      "learning_rate": 0.00022969865142499586,
      "loss": 4.0006,
      "step": 155770
    },
    {
      "epoch": 0.3245416666666667,
      "grad_norm": 0.7730698585510254,
      "learning_rate": 0.0002296902993963094,
      "loss": 4.0896,
      "step": 155780
    },
    {
      "epoch": 0.3245625,
      "grad_norm": 0.8430953621864319,
      "learning_rate": 0.00022968194702339238,
      "loss": 3.9056,
      "step": 155790
    },
    {
      "epoch": 0.32458333333333333,
      "grad_norm": 0.8349516987800598,
      "learning_rate": 0.00022967359430628087,
      "loss": 3.8435,
      "step": 155800
    },
    {
      "epoch": 0.3246041666666667,
      "grad_norm": 0.763360321521759,
      "learning_rate": 0.00022966524124501094,
      "loss": 4.0997,
      "step": 155810
    },
    {
      "epoch": 0.324625,
      "grad_norm": 0.7372435331344604,
      "learning_rate": 0.00022965688783961878,
      "loss": 4.0683,
      "step": 155820
    },
    {
      "epoch": 0.32464583333333336,
      "grad_norm": 0.772982656955719,
      "learning_rate": 0.0002296485340901403,
      "loss": 3.8195,
      "step": 155830
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 0.9504969716072083,
      "learning_rate": 0.00022964017999661175,
      "loss": 3.8437,
      "step": 155840
    },
    {
      "epoch": 0.3246875,
      "grad_norm": 0.972974956035614,
      "learning_rate": 0.00022963182555906916,
      "loss": 4.0557,
      "step": 155850
    },
    {
      "epoch": 0.3247083333333333,
      "grad_norm": 0.8052309155464172,
      "learning_rate": 0.00022962347077754854,
      "loss": 3.8161,
      "step": 155860
    },
    {
      "epoch": 0.3247291666666667,
      "grad_norm": 0.7751646041870117,
      "learning_rate": 0.00022961511565208607,
      "loss": 4.0356,
      "step": 155870
    },
    {
      "epoch": 0.32475,
      "grad_norm": 0.7714929580688477,
      "learning_rate": 0.00022960676018271786,
      "loss": 3.8469,
      "step": 155880
    },
    {
      "epoch": 0.32477083333333334,
      "grad_norm": 0.8259450793266296,
      "learning_rate": 0.0002295984043694799,
      "loss": 3.9866,
      "step": 155890
    },
    {
      "epoch": 0.32479166666666665,
      "grad_norm": 0.7338356971740723,
      "learning_rate": 0.00022959004821240835,
      "loss": 3.7965,
      "step": 155900
    },
    {
      "epoch": 0.3248125,
      "grad_norm": 0.7395718693733215,
      "learning_rate": 0.00022958169171153933,
      "loss": 3.9354,
      "step": 155910
    },
    {
      "epoch": 0.3248333333333333,
      "grad_norm": 0.7783553004264832,
      "learning_rate": 0.00022957333486690887,
      "loss": 3.9336,
      "step": 155920
    },
    {
      "epoch": 0.32485416666666667,
      "grad_norm": 0.8360881805419922,
      "learning_rate": 0.00022956497767855308,
      "loss": 3.9443,
      "step": 155930
    },
    {
      "epoch": 0.324875,
      "grad_norm": 0.8060577511787415,
      "learning_rate": 0.00022955662014650813,
      "loss": 4.0243,
      "step": 155940
    },
    {
      "epoch": 0.32489583333333333,
      "grad_norm": 1.0289572477340698,
      "learning_rate": 0.00022954826227081004,
      "loss": 3.8747,
      "step": 155950
    },
    {
      "epoch": 0.3249166666666667,
      "grad_norm": 0.8367655277252197,
      "learning_rate": 0.00022953990405149495,
      "loss": 3.9669,
      "step": 155960
    },
    {
      "epoch": 0.3249375,
      "grad_norm": 0.8535329699516296,
      "learning_rate": 0.00022953154548859895,
      "loss": 3.9546,
      "step": 155970
    },
    {
      "epoch": 0.32495833333333335,
      "grad_norm": 0.847419023513794,
      "learning_rate": 0.00022952318658215815,
      "loss": 3.9874,
      "step": 155980
    },
    {
      "epoch": 0.32497916666666665,
      "grad_norm": 0.8469110131263733,
      "learning_rate": 0.00022951482733220868,
      "loss": 3.8708,
      "step": 155990
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.7851510047912598,
      "learning_rate": 0.00022950646773878662,
      "loss": 3.8525,
      "step": 156000
    },
    {
      "epoch": 0.325,
      "eval_loss": 3.743058443069458,
      "eval_runtime": 7.2255,
      "eval_samples_per_second": 1.384,
      "eval_steps_per_second": 0.415,
      "step": 156000
    },
    {
      "epoch": 0.3250208333333333,
      "grad_norm": 0.7834346890449524,
      "learning_rate": 0.00022949810780192813,
      "loss": 4.0453,
      "step": 156010
    },
    {
      "epoch": 0.3250416666666667,
      "grad_norm": 0.8293756246566772,
      "learning_rate": 0.00022948974752166925,
      "loss": 3.8822,
      "step": 156020
    },
    {
      "epoch": 0.3250625,
      "grad_norm": 0.7582671642303467,
      "learning_rate": 0.0002294813868980461,
      "loss": 4.0697,
      "step": 156030
    },
    {
      "epoch": 0.32508333333333334,
      "grad_norm": 0.7732020020484924,
      "learning_rate": 0.00022947302593109487,
      "loss": 4.0932,
      "step": 156040
    },
    {
      "epoch": 0.3251041666666667,
      "grad_norm": 0.7222071886062622,
      "learning_rate": 0.0002294646646208516,
      "loss": 3.9514,
      "step": 156050
    },
    {
      "epoch": 0.325125,
      "grad_norm": 0.7834529280662537,
      "learning_rate": 0.0002294563029673524,
      "loss": 4.036,
      "step": 156060
    },
    {
      "epoch": 0.32514583333333336,
      "grad_norm": 0.8624445199966431,
      "learning_rate": 0.00022944794097063347,
      "loss": 4.028,
      "step": 156070
    },
    {
      "epoch": 0.32516666666666666,
      "grad_norm": 0.7730582356452942,
      "learning_rate": 0.00022943957863073088,
      "loss": 3.9392,
      "step": 156080
    },
    {
      "epoch": 0.3251875,
      "grad_norm": 0.799584150314331,
      "learning_rate": 0.00022943121594768074,
      "loss": 3.8509,
      "step": 156090
    },
    {
      "epoch": 0.3252083333333333,
      "grad_norm": 0.9123652577400208,
      "learning_rate": 0.00022942285292151918,
      "loss": 3.9859,
      "step": 156100
    },
    {
      "epoch": 0.3252291666666667,
      "grad_norm": 0.8334618210792542,
      "learning_rate": 0.00022941448955228236,
      "loss": 4.0667,
      "step": 156110
    },
    {
      "epoch": 0.32525,
      "grad_norm": 0.8408463001251221,
      "learning_rate": 0.00022940612584000636,
      "loss": 3.9108,
      "step": 156120
    },
    {
      "epoch": 0.32527083333333334,
      "grad_norm": 0.8281526565551758,
      "learning_rate": 0.0002293977617847273,
      "loss": 3.8258,
      "step": 156130
    },
    {
      "epoch": 0.32529166666666665,
      "grad_norm": 0.7774592638015747,
      "learning_rate": 0.00022938939738648137,
      "loss": 3.8936,
      "step": 156140
    },
    {
      "epoch": 0.3253125,
      "grad_norm": 0.8405423164367676,
      "learning_rate": 0.0002293810326453047,
      "loss": 3.8859,
      "step": 156150
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 0.7457426190376282,
      "learning_rate": 0.00022937266756123333,
      "loss": 3.9652,
      "step": 156160
    },
    {
      "epoch": 0.32535416666666667,
      "grad_norm": 0.7699039578437805,
      "learning_rate": 0.00022936430213430346,
      "loss": 3.7724,
      "step": 156170
    },
    {
      "epoch": 0.325375,
      "grad_norm": 0.8212433457374573,
      "learning_rate": 0.0002293559363645513,
      "loss": 3.9635,
      "step": 156180
    },
    {
      "epoch": 0.32539583333333333,
      "grad_norm": 0.8229231238365173,
      "learning_rate": 0.0002293475702520128,
      "loss": 4.071,
      "step": 156190
    },
    {
      "epoch": 0.3254166666666667,
      "grad_norm": 0.8414691686630249,
      "learning_rate": 0.00022933920379672427,
      "loss": 3.9754,
      "step": 156200
    },
    {
      "epoch": 0.3254375,
      "grad_norm": 0.7855132818222046,
      "learning_rate": 0.00022933083699872177,
      "loss": 3.8568,
      "step": 156210
    },
    {
      "epoch": 0.32545833333333335,
      "grad_norm": 0.9569414258003235,
      "learning_rate": 0.00022932246985804146,
      "loss": 3.938,
      "step": 156220
    },
    {
      "epoch": 0.32547916666666665,
      "grad_norm": 0.8395181894302368,
      "learning_rate": 0.00022931410237471943,
      "loss": 3.8179,
      "step": 156230
    },
    {
      "epoch": 0.3255,
      "grad_norm": 0.7721354961395264,
      "learning_rate": 0.00022930573454879192,
      "loss": 4.0151,
      "step": 156240
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 0.7585564255714417,
      "learning_rate": 0.00022929736638029502,
      "loss": 3.9325,
      "step": 156250
    },
    {
      "epoch": 0.3255416666666667,
      "grad_norm": 0.8056586384773254,
      "learning_rate": 0.00022928899786926486,
      "loss": 3.9575,
      "step": 156260
    },
    {
      "epoch": 0.3255625,
      "grad_norm": 0.7225808501243591,
      "learning_rate": 0.00022928062901573766,
      "loss": 3.9378,
      "step": 156270
    },
    {
      "epoch": 0.32558333333333334,
      "grad_norm": 0.9620971083641052,
      "learning_rate": 0.0002292722598197495,
      "loss": 3.7464,
      "step": 156280
    },
    {
      "epoch": 0.32560416666666664,
      "grad_norm": 0.7606114745140076,
      "learning_rate": 0.00022926389028133656,
      "loss": 3.7597,
      "step": 156290
    },
    {
      "epoch": 0.325625,
      "grad_norm": 1.0820837020874023,
      "learning_rate": 0.000229255520400535,
      "loss": 4.0022,
      "step": 156300
    },
    {
      "epoch": 0.32564583333333336,
      "grad_norm": 0.8109158277511597,
      "learning_rate": 0.00022924715017738092,
      "loss": 3.9095,
      "step": 156310
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 0.8892428874969482,
      "learning_rate": 0.00022923877961191058,
      "loss": 3.856,
      "step": 156320
    },
    {
      "epoch": 0.3256875,
      "grad_norm": 0.7979850769042969,
      "learning_rate": 0.00022923040870416003,
      "loss": 4.0481,
      "step": 156330
    },
    {
      "epoch": 0.3257083333333333,
      "grad_norm": 0.8849021792411804,
      "learning_rate": 0.00022922203745416546,
      "loss": 3.8272,
      "step": 156340
    },
    {
      "epoch": 0.3257291666666667,
      "grad_norm": 0.7492038607597351,
      "learning_rate": 0.0002292136658619631,
      "loss": 4.1705,
      "step": 156350
    },
    {
      "epoch": 0.32575,
      "grad_norm": 0.7712686061859131,
      "learning_rate": 0.000229205293927589,
      "loss": 3.9685,
      "step": 156360
    },
    {
      "epoch": 0.32577083333333334,
      "grad_norm": 0.736067533493042,
      "learning_rate": 0.0002291969216510794,
      "loss": 3.826,
      "step": 156370
    },
    {
      "epoch": 0.32579166666666665,
      "grad_norm": 0.8729785084724426,
      "learning_rate": 0.00022918854903247052,
      "loss": 3.9136,
      "step": 156380
    },
    {
      "epoch": 0.3258125,
      "grad_norm": 0.8801491260528564,
      "learning_rate": 0.0002291801760717984,
      "loss": 3.9612,
      "step": 156390
    },
    {
      "epoch": 0.3258333333333333,
      "grad_norm": 0.7522563338279724,
      "learning_rate": 0.00022917180276909923,
      "loss": 3.9429,
      "step": 156400
    },
    {
      "epoch": 0.32585416666666667,
      "grad_norm": 0.7566698789596558,
      "learning_rate": 0.0002291634291244093,
      "loss": 3.8586,
      "step": 156410
    },
    {
      "epoch": 0.325875,
      "grad_norm": 0.8136206269264221,
      "learning_rate": 0.00022915505513776456,
      "loss": 4.0371,
      "step": 156420
    },
    {
      "epoch": 0.32589583333333333,
      "grad_norm": 0.7842156887054443,
      "learning_rate": 0.00022914668080920136,
      "loss": 4.0171,
      "step": 156430
    },
    {
      "epoch": 0.3259166666666667,
      "grad_norm": 0.7324908375740051,
      "learning_rate": 0.00022913830613875593,
      "loss": 4.0901,
      "step": 156440
    },
    {
      "epoch": 0.3259375,
      "grad_norm": 0.8469995260238647,
      "learning_rate": 0.00022912993112646424,
      "loss": 3.9307,
      "step": 156450
    },
    {
      "epoch": 0.32595833333333335,
      "grad_norm": 0.8022704124450684,
      "learning_rate": 0.00022912155577236258,
      "loss": 3.8329,
      "step": 156460
    },
    {
      "epoch": 0.32597916666666665,
      "grad_norm": 0.843943178653717,
      "learning_rate": 0.00022911318007648714,
      "loss": 3.8114,
      "step": 156470
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.7644544839859009,
      "learning_rate": 0.00022910480403887408,
      "loss": 3.696,
      "step": 156480
    },
    {
      "epoch": 0.3260208333333333,
      "grad_norm": 0.857583224773407,
      "learning_rate": 0.00022909642765955954,
      "loss": 4.1072,
      "step": 156490
    },
    {
      "epoch": 0.3260416666666667,
      "grad_norm": 0.7239676713943481,
      "learning_rate": 0.00022908805093857978,
      "loss": 4.1271,
      "step": 156500
    },
    {
      "epoch": 0.3260625,
      "grad_norm": 0.823580265045166,
      "learning_rate": 0.00022907967387597095,
      "loss": 4.1165,
      "step": 156510
    },
    {
      "epoch": 0.32608333333333334,
      "grad_norm": 0.7602392435073853,
      "learning_rate": 0.00022907129647176922,
      "loss": 3.9579,
      "step": 156520
    },
    {
      "epoch": 0.32610416666666664,
      "grad_norm": 0.7346914410591125,
      "learning_rate": 0.00022906291872601075,
      "loss": 3.9221,
      "step": 156530
    },
    {
      "epoch": 0.326125,
      "grad_norm": 0.8365793228149414,
      "learning_rate": 0.0002290545406387318,
      "loss": 3.95,
      "step": 156540
    },
    {
      "epoch": 0.32614583333333336,
      "grad_norm": 0.8100839257240295,
      "learning_rate": 0.00022904616220996858,
      "loss": 3.9683,
      "step": 156550
    },
    {
      "epoch": 0.32616666666666666,
      "grad_norm": 0.7995163202285767,
      "learning_rate": 0.00022903778343975713,
      "loss": 3.9624,
      "step": 156560
    },
    {
      "epoch": 0.3261875,
      "grad_norm": 0.8252168893814087,
      "learning_rate": 0.00022902940432813378,
      "loss": 4.0428,
      "step": 156570
    },
    {
      "epoch": 0.3262083333333333,
      "grad_norm": 0.8509710431098938,
      "learning_rate": 0.00022902102487513468,
      "loss": 3.7976,
      "step": 156580
    },
    {
      "epoch": 0.3262291666666667,
      "grad_norm": 0.894723653793335,
      "learning_rate": 0.00022901264508079605,
      "loss": 3.9455,
      "step": 156590
    },
    {
      "epoch": 0.32625,
      "grad_norm": 0.828841507434845,
      "learning_rate": 0.00022900426494515405,
      "loss": 4.0112,
      "step": 156600
    },
    {
      "epoch": 0.32627083333333334,
      "grad_norm": 0.8238762021064758,
      "learning_rate": 0.0002289958844682449,
      "loss": 4.1634,
      "step": 156610
    },
    {
      "epoch": 0.32629166666666665,
      "grad_norm": 0.8420507311820984,
      "learning_rate": 0.0002289875036501048,
      "loss": 3.7042,
      "step": 156620
    },
    {
      "epoch": 0.3263125,
      "grad_norm": 0.8636126518249512,
      "learning_rate": 0.00022897912249076997,
      "loss": 3.8045,
      "step": 156630
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 0.8702408671379089,
      "learning_rate": 0.00022897074099027654,
      "loss": 3.6995,
      "step": 156640
    },
    {
      "epoch": 0.32635416666666667,
      "grad_norm": 0.8633756637573242,
      "learning_rate": 0.00022896235914866082,
      "loss": 3.8281,
      "step": 156650
    },
    {
      "epoch": 0.326375,
      "grad_norm": 0.855405330657959,
      "learning_rate": 0.00022895397696595895,
      "loss": 4.0509,
      "step": 156660
    },
    {
      "epoch": 0.32639583333333333,
      "grad_norm": 0.7832155823707581,
      "learning_rate": 0.00022894559444220717,
      "loss": 4.086,
      "step": 156670
    },
    {
      "epoch": 0.3264166666666667,
      "grad_norm": 1.0916097164154053,
      "learning_rate": 0.00022893721157744162,
      "loss": 3.8928,
      "step": 156680
    },
    {
      "epoch": 0.3264375,
      "grad_norm": 0.715036153793335,
      "learning_rate": 0.00022892882837169862,
      "loss": 3.9553,
      "step": 156690
    },
    {
      "epoch": 0.32645833333333335,
      "grad_norm": 0.7776495814323425,
      "learning_rate": 0.00022892044482501428,
      "loss": 3.8116,
      "step": 156700
    },
    {
      "epoch": 0.32647916666666665,
      "grad_norm": 0.9968875050544739,
      "learning_rate": 0.00022891206093742487,
      "loss": 4.017,
      "step": 156710
    },
    {
      "epoch": 0.3265,
      "grad_norm": 0.879160463809967,
      "learning_rate": 0.00022890367670896664,
      "loss": 3.8705,
      "step": 156720
    },
    {
      "epoch": 0.3265208333333333,
      "grad_norm": 0.7410610914230347,
      "learning_rate": 0.00022889529213967563,
      "loss": 3.9491,
      "step": 156730
    },
    {
      "epoch": 0.3265416666666667,
      "grad_norm": 0.8447023630142212,
      "learning_rate": 0.0002288869072295883,
      "loss": 3.9267,
      "step": 156740
    },
    {
      "epoch": 0.3265625,
      "grad_norm": 0.7987590432167053,
      "learning_rate": 0.00022887852197874076,
      "loss": 4.018,
      "step": 156750
    },
    {
      "epoch": 0.32658333333333334,
      "grad_norm": 0.7825968861579895,
      "learning_rate": 0.0002288701363871692,
      "loss": 3.9971,
      "step": 156760
    },
    {
      "epoch": 0.32660416666666664,
      "grad_norm": 0.9835983514785767,
      "learning_rate": 0.00022886175045490985,
      "loss": 3.8586,
      "step": 156770
    },
    {
      "epoch": 0.326625,
      "grad_norm": 0.8693946599960327,
      "learning_rate": 0.00022885336418199896,
      "loss": 4.011,
      "step": 156780
    },
    {
      "epoch": 0.32664583333333336,
      "grad_norm": 0.8118906617164612,
      "learning_rate": 0.00022884497756847275,
      "loss": 3.9092,
      "step": 156790
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 0.877141535282135,
      "learning_rate": 0.00022883659061436747,
      "loss": 3.9782,
      "step": 156800
    },
    {
      "epoch": 0.3266875,
      "grad_norm": 0.8271310329437256,
      "learning_rate": 0.00022882820331971928,
      "loss": 3.9925,
      "step": 156810
    },
    {
      "epoch": 0.3267083333333333,
      "grad_norm": 0.8421475291252136,
      "learning_rate": 0.00022881981568456452,
      "loss": 3.8352,
      "step": 156820
    },
    {
      "epoch": 0.3267291666666667,
      "grad_norm": 0.7507177591323853,
      "learning_rate": 0.0002288114277089393,
      "loss": 4.2566,
      "step": 156830
    },
    {
      "epoch": 0.32675,
      "grad_norm": 0.8456236720085144,
      "learning_rate": 0.0002288030393928799,
      "loss": 3.7962,
      "step": 156840
    },
    {
      "epoch": 0.32677083333333334,
      "grad_norm": 0.8188029527664185,
      "learning_rate": 0.0002287946507364226,
      "loss": 3.8617,
      "step": 156850
    },
    {
      "epoch": 0.32679166666666665,
      "grad_norm": 0.8910641074180603,
      "learning_rate": 0.0002287862617396036,
      "loss": 3.9649,
      "step": 156860
    },
    {
      "epoch": 0.3268125,
      "grad_norm": 0.8157413005828857,
      "learning_rate": 0.00022877787240245908,
      "loss": 4.0578,
      "step": 156870
    },
    {
      "epoch": 0.3268333333333333,
      "grad_norm": 0.7763761878013611,
      "learning_rate": 0.00022876948272502538,
      "loss": 4.037,
      "step": 156880
    },
    {
      "epoch": 0.32685416666666667,
      "grad_norm": 0.9701961874961853,
      "learning_rate": 0.0002287610927073387,
      "loss": 3.9277,
      "step": 156890
    },
    {
      "epoch": 0.326875,
      "grad_norm": 0.873272716999054,
      "learning_rate": 0.00022875270234943527,
      "loss": 4.0182,
      "step": 156900
    },
    {
      "epoch": 0.32689583333333333,
      "grad_norm": 0.7419383525848389,
      "learning_rate": 0.0002287443116513513,
      "loss": 4.0606,
      "step": 156910
    },
    {
      "epoch": 0.3269166666666667,
      "grad_norm": 0.823920488357544,
      "learning_rate": 0.00022873592061312313,
      "loss": 3.7752,
      "step": 156920
    },
    {
      "epoch": 0.3269375,
      "grad_norm": 0.7923949360847473,
      "learning_rate": 0.0002287275292347869,
      "loss": 3.9415,
      "step": 156930
    },
    {
      "epoch": 0.32695833333333335,
      "grad_norm": 0.8652982115745544,
      "learning_rate": 0.00022871913751637898,
      "loss": 4.0142,
      "step": 156940
    },
    {
      "epoch": 0.32697916666666665,
      "grad_norm": 0.833316445350647,
      "learning_rate": 0.00022871074545793548,
      "loss": 4.012,
      "step": 156950
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.7662463784217834,
      "learning_rate": 0.00022870235305949273,
      "loss": 3.9871,
      "step": 156960
    },
    {
      "epoch": 0.3270208333333333,
      "grad_norm": 0.7042982578277588,
      "learning_rate": 0.00022869396032108697,
      "loss": 4.0265,
      "step": 156970
    },
    {
      "epoch": 0.3270416666666667,
      "grad_norm": 0.7545597553253174,
      "learning_rate": 0.00022868556724275443,
      "loss": 3.8949,
      "step": 156980
    },
    {
      "epoch": 0.3270625,
      "grad_norm": 0.7331233620643616,
      "learning_rate": 0.0002286771738245314,
      "loss": 4.07,
      "step": 156990
    },
    {
      "epoch": 0.32708333333333334,
      "grad_norm": 3.490691900253296,
      "learning_rate": 0.00022866878006645413,
      "loss": 3.9261,
      "step": 157000
    },
    {
      "epoch": 0.32708333333333334,
      "eval_loss": 3.7376911640167236,
      "eval_runtime": 7.2189,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.416,
      "step": 157000
    },
    {
      "epoch": 0.32710416666666664,
      "grad_norm": 0.7492503523826599,
      "learning_rate": 0.00022866038596855887,
      "loss": 3.9756,
      "step": 157010
    },
    {
      "epoch": 0.327125,
      "grad_norm": 1.3494700193405151,
      "learning_rate": 0.00022865199153088186,
      "loss": 3.9976,
      "step": 157020
    },
    {
      "epoch": 0.32714583333333336,
      "grad_norm": 1.0056869983673096,
      "learning_rate": 0.0002286435967534594,
      "loss": 3.7603,
      "step": 157030
    },
    {
      "epoch": 0.32716666666666666,
      "grad_norm": 0.778495728969574,
      "learning_rate": 0.0002286352016363277,
      "loss": 3.8792,
      "step": 157040
    },
    {
      "epoch": 0.3271875,
      "grad_norm": 0.8695428967475891,
      "learning_rate": 0.0002286268061795231,
      "loss": 4.0457,
      "step": 157050
    },
    {
      "epoch": 0.3272083333333333,
      "grad_norm": 0.8193503022193909,
      "learning_rate": 0.00022861841038308175,
      "loss": 3.9283,
      "step": 157060
    },
    {
      "epoch": 0.3272291666666667,
      "grad_norm": 0.7615174055099487,
      "learning_rate": 0.00022861001424704007,
      "loss": 4.1398,
      "step": 157070
    },
    {
      "epoch": 0.32725,
      "grad_norm": 0.8433879613876343,
      "learning_rate": 0.0002286016177714342,
      "loss": 4.0176,
      "step": 157080
    },
    {
      "epoch": 0.32727083333333334,
      "grad_norm": 0.7941775321960449,
      "learning_rate": 0.00022859322095630046,
      "loss": 4.0336,
      "step": 157090
    },
    {
      "epoch": 0.32729166666666665,
      "grad_norm": 0.7444194555282593,
      "learning_rate": 0.0002285848238016751,
      "loss": 3.9828,
      "step": 157100
    },
    {
      "epoch": 0.3273125,
      "grad_norm": 0.8441876173019409,
      "learning_rate": 0.00022857642630759445,
      "loss": 4.0989,
      "step": 157110
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 0.9051366448402405,
      "learning_rate": 0.00022856802847409473,
      "loss": 3.8869,
      "step": 157120
    },
    {
      "epoch": 0.32735416666666667,
      "grad_norm": 0.7938516139984131,
      "learning_rate": 0.00022855963030121216,
      "loss": 4.1288,
      "step": 157130
    },
    {
      "epoch": 0.327375,
      "grad_norm": 0.7620830535888672,
      "learning_rate": 0.0002285512317889832,
      "loss": 3.7768,
      "step": 157140
    },
    {
      "epoch": 0.32739583333333333,
      "grad_norm": 0.8634346127510071,
      "learning_rate": 0.00022854283293744393,
      "loss": 4.0462,
      "step": 157150
    },
    {
      "epoch": 0.3274166666666667,
      "grad_norm": 0.7742388248443604,
      "learning_rate": 0.0002285344337466307,
      "loss": 4.0563,
      "step": 157160
    },
    {
      "epoch": 0.3274375,
      "grad_norm": 0.83712238073349,
      "learning_rate": 0.00022852603421657987,
      "loss": 4.0131,
      "step": 157170
    },
    {
      "epoch": 0.32745833333333335,
      "grad_norm": 0.8502233624458313,
      "learning_rate": 0.00022851763434732756,
      "loss": 3.8399,
      "step": 157180
    },
    {
      "epoch": 0.32747916666666665,
      "grad_norm": 0.7216519117355347,
      "learning_rate": 0.00022850923413891025,
      "loss": 4.0249,
      "step": 157190
    },
    {
      "epoch": 0.3275,
      "grad_norm": 0.8050891757011414,
      "learning_rate": 0.00022850083359136406,
      "loss": 3.9243,
      "step": 157200
    },
    {
      "epoch": 0.3275208333333333,
      "grad_norm": 0.7739553451538086,
      "learning_rate": 0.00022849243270472536,
      "loss": 4.181,
      "step": 157210
    },
    {
      "epoch": 0.3275416666666667,
      "grad_norm": 0.7887347340583801,
      "learning_rate": 0.00022848403147903045,
      "loss": 3.9876,
      "step": 157220
    },
    {
      "epoch": 0.3275625,
      "grad_norm": 0.7618293166160583,
      "learning_rate": 0.00022847562991431554,
      "loss": 4.0116,
      "step": 157230
    },
    {
      "epoch": 0.32758333333333334,
      "grad_norm": 0.7617693543434143,
      "learning_rate": 0.00022846722801061697,
      "loss": 4.0841,
      "step": 157240
    },
    {
      "epoch": 0.32760416666666664,
      "grad_norm": 0.825264573097229,
      "learning_rate": 0.00022845882576797108,
      "loss": 4.2069,
      "step": 157250
    },
    {
      "epoch": 0.327625,
      "grad_norm": 0.9393593668937683,
      "learning_rate": 0.00022845042318641408,
      "loss": 3.9283,
      "step": 157260
    },
    {
      "epoch": 0.32764583333333336,
      "grad_norm": 0.8333050012588501,
      "learning_rate": 0.0002284420202659823,
      "loss": 3.9018,
      "step": 157270
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 0.7755404710769653,
      "learning_rate": 0.00022843361700671208,
      "loss": 4.0331,
      "step": 157280
    },
    {
      "epoch": 0.3276875,
      "grad_norm": 0.7790136933326721,
      "learning_rate": 0.00022842521340863967,
      "loss": 3.713,
      "step": 157290
    },
    {
      "epoch": 0.3277083333333333,
      "grad_norm": 0.757258415222168,
      "learning_rate": 0.00022841680947180136,
      "loss": 3.9671,
      "step": 157300
    },
    {
      "epoch": 0.3277291666666667,
      "grad_norm": 1.1411463022232056,
      "learning_rate": 0.00022840840519623349,
      "loss": 3.9915,
      "step": 157310
    },
    {
      "epoch": 0.32775,
      "grad_norm": 0.8211706280708313,
      "learning_rate": 0.00022840000058197235,
      "loss": 3.9006,
      "step": 157320
    },
    {
      "epoch": 0.32777083333333334,
      "grad_norm": 0.7645284533500671,
      "learning_rate": 0.00022839159562905423,
      "loss": 4.0366,
      "step": 157330
    },
    {
      "epoch": 0.32779166666666665,
      "grad_norm": 0.7856988906860352,
      "learning_rate": 0.00022838319033751544,
      "loss": 3.8631,
      "step": 157340
    },
    {
      "epoch": 0.3278125,
      "grad_norm": 0.7757903933525085,
      "learning_rate": 0.0002283747847073923,
      "loss": 3.9933,
      "step": 157350
    },
    {
      "epoch": 0.3278333333333333,
      "grad_norm": 0.8246589303016663,
      "learning_rate": 0.00022836637873872113,
      "loss": 3.8751,
      "step": 157360
    },
    {
      "epoch": 0.32785416666666667,
      "grad_norm": 0.7522407174110413,
      "learning_rate": 0.00022835797243153823,
      "loss": 4.0279,
      "step": 157370
    },
    {
      "epoch": 0.327875,
      "grad_norm": 0.8451334834098816,
      "learning_rate": 0.00022834956578587985,
      "loss": 3.9825,
      "step": 157380
    },
    {
      "epoch": 0.32789583333333333,
      "grad_norm": 0.7730391025543213,
      "learning_rate": 0.00022834115880178242,
      "loss": 3.927,
      "step": 157390
    },
    {
      "epoch": 0.3279166666666667,
      "grad_norm": 0.820563554763794,
      "learning_rate": 0.00022833275147928216,
      "loss": 3.7786,
      "step": 157400
    },
    {
      "epoch": 0.3279375,
      "grad_norm": 0.7556095719337463,
      "learning_rate": 0.0002283243438184154,
      "loss": 4.162,
      "step": 157410
    },
    {
      "epoch": 0.32795833333333335,
      "grad_norm": 0.9433477520942688,
      "learning_rate": 0.00022831593581921857,
      "loss": 4.0269,
      "step": 157420
    },
    {
      "epoch": 0.32797916666666665,
      "grad_norm": 0.9275233745574951,
      "learning_rate": 0.00022830752748172775,
      "loss": 4.043,
      "step": 157430
    },
    {
      "epoch": 0.328,
      "grad_norm": 1.2234889268875122,
      "learning_rate": 0.00022829911880597954,
      "loss": 3.9498,
      "step": 157440
    },
    {
      "epoch": 0.3280208333333333,
      "grad_norm": 0.756930410861969,
      "learning_rate": 0.00022829070979201005,
      "loss": 3.9621,
      "step": 157450
    },
    {
      "epoch": 0.3280416666666667,
      "grad_norm": 0.793982982635498,
      "learning_rate": 0.00022828230043985573,
      "loss": 4.1719,
      "step": 157460
    },
    {
      "epoch": 0.3280625,
      "grad_norm": 0.7386046648025513,
      "learning_rate": 0.00022827389074955281,
      "loss": 4.0607,
      "step": 157470
    },
    {
      "epoch": 0.32808333333333334,
      "grad_norm": 0.7883506417274475,
      "learning_rate": 0.0002282654807211377,
      "loss": 3.9057,
      "step": 157480
    },
    {
      "epoch": 0.32810416666666664,
      "grad_norm": 0.7813473343849182,
      "learning_rate": 0.00022825707035464672,
      "loss": 4.0058,
      "step": 157490
    },
    {
      "epoch": 0.328125,
      "grad_norm": 0.7783418297767639,
      "learning_rate": 0.00022824865965011615,
      "loss": 3.9121,
      "step": 157500
    },
    {
      "epoch": 0.32814583333333336,
      "grad_norm": 0.7851460576057434,
      "learning_rate": 0.0002282402486075823,
      "loss": 3.8055,
      "step": 157510
    },
    {
      "epoch": 0.32816666666666666,
      "grad_norm": 0.8826448917388916,
      "learning_rate": 0.0002282318372270816,
      "loss": 3.9745,
      "step": 157520
    },
    {
      "epoch": 0.3281875,
      "grad_norm": 0.931013286113739,
      "learning_rate": 0.0002282234255086503,
      "loss": 3.9542,
      "step": 157530
    },
    {
      "epoch": 0.3282083333333333,
      "grad_norm": 0.8041452765464783,
      "learning_rate": 0.00022821501345232477,
      "loss": 3.9201,
      "step": 157540
    },
    {
      "epoch": 0.3282291666666667,
      "grad_norm": 0.7861157059669495,
      "learning_rate": 0.00022820660105814133,
      "loss": 3.9372,
      "step": 157550
    },
    {
      "epoch": 0.32825,
      "grad_norm": 0.771559476852417,
      "learning_rate": 0.00022819818832613636,
      "loss": 4.0615,
      "step": 157560
    },
    {
      "epoch": 0.32827083333333335,
      "grad_norm": 0.8235737681388855,
      "learning_rate": 0.00022818977525634613,
      "loss": 3.9906,
      "step": 157570
    },
    {
      "epoch": 0.32829166666666665,
      "grad_norm": 0.8355088829994202,
      "learning_rate": 0.00022818136184880706,
      "loss": 3.7259,
      "step": 157580
    },
    {
      "epoch": 0.3283125,
      "grad_norm": 0.8815270662307739,
      "learning_rate": 0.00022817294810355545,
      "loss": 3.9557,
      "step": 157590
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 0.8548942804336548,
      "learning_rate": 0.0002281645340206276,
      "loss": 3.7745,
      "step": 157600
    },
    {
      "epoch": 0.32835416666666667,
      "grad_norm": 0.7572335004806519,
      "learning_rate": 0.00022815611960005997,
      "loss": 3.8018,
      "step": 157610
    },
    {
      "epoch": 0.328375,
      "grad_norm": 0.7980726957321167,
      "learning_rate": 0.0002281477048418888,
      "loss": 4.0781,
      "step": 157620
    },
    {
      "epoch": 0.32839583333333333,
      "grad_norm": 0.7628287672996521,
      "learning_rate": 0.00022813928974615047,
      "loss": 3.8174,
      "step": 157630
    },
    {
      "epoch": 0.3284166666666667,
      "grad_norm": 0.8478032350540161,
      "learning_rate": 0.0002281308743128814,
      "loss": 3.988,
      "step": 157640
    },
    {
      "epoch": 0.3284375,
      "grad_norm": 0.7038801312446594,
      "learning_rate": 0.0002281224585421178,
      "loss": 4.106,
      "step": 157650
    },
    {
      "epoch": 0.32845833333333335,
      "grad_norm": 0.8621153831481934,
      "learning_rate": 0.00022811404243389612,
      "loss": 3.9371,
      "step": 157660
    },
    {
      "epoch": 0.32847916666666666,
      "grad_norm": 0.7924080491065979,
      "learning_rate": 0.00022810562598825273,
      "loss": 3.9993,
      "step": 157670
    },
    {
      "epoch": 0.3285,
      "grad_norm": 0.8439679145812988,
      "learning_rate": 0.00022809720920522394,
      "loss": 3.9175,
      "step": 157680
    },
    {
      "epoch": 0.3285208333333333,
      "grad_norm": 0.8486993312835693,
      "learning_rate": 0.0002280887920848461,
      "loss": 4.0988,
      "step": 157690
    },
    {
      "epoch": 0.3285416666666667,
      "grad_norm": 0.8377329111099243,
      "learning_rate": 0.0002280803746271556,
      "loss": 3.9553,
      "step": 157700
    },
    {
      "epoch": 0.3285625,
      "grad_norm": 0.8049320578575134,
      "learning_rate": 0.0002280719568321888,
      "loss": 3.7,
      "step": 157710
    },
    {
      "epoch": 0.32858333333333334,
      "grad_norm": 0.8430033326148987,
      "learning_rate": 0.00022806353869998203,
      "loss": 3.8737,
      "step": 157720
    },
    {
      "epoch": 0.32860416666666664,
      "grad_norm": 0.7836896777153015,
      "learning_rate": 0.00022805512023057168,
      "loss": 3.9201,
      "step": 157730
    },
    {
      "epoch": 0.328625,
      "grad_norm": 0.7860766649246216,
      "learning_rate": 0.00022804670142399411,
      "loss": 4.0591,
      "step": 157740
    },
    {
      "epoch": 0.32864583333333336,
      "grad_norm": 0.9076837301254272,
      "learning_rate": 0.00022803828228028567,
      "loss": 4.1326,
      "step": 157750
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 0.7072957754135132,
      "learning_rate": 0.00022802986279948277,
      "loss": 3.9609,
      "step": 157760
    },
    {
      "epoch": 0.3286875,
      "grad_norm": 0.9408578276634216,
      "learning_rate": 0.0002280214429816217,
      "loss": 3.9073,
      "step": 157770
    },
    {
      "epoch": 0.3287083333333333,
      "grad_norm": 0.83613121509552,
      "learning_rate": 0.00022801302282673898,
      "loss": 3.9597,
      "step": 157780
    },
    {
      "epoch": 0.3287291666666667,
      "grad_norm": 0.7328287959098816,
      "learning_rate": 0.00022800460233487078,
      "loss": 3.9186,
      "step": 157790
    },
    {
      "epoch": 0.32875,
      "grad_norm": 0.713436484336853,
      "learning_rate": 0.00022799618150605354,
      "loss": 3.7425,
      "step": 157800
    },
    {
      "epoch": 0.32877083333333335,
      "grad_norm": 0.9244810938835144,
      "learning_rate": 0.0002279877603403238,
      "loss": 3.7154,
      "step": 157810
    },
    {
      "epoch": 0.32879166666666665,
      "grad_norm": 0.7893193364143372,
      "learning_rate": 0.00022797933883771774,
      "loss": 3.9688,
      "step": 157820
    },
    {
      "epoch": 0.3288125,
      "grad_norm": 0.7270511388778687,
      "learning_rate": 0.00022797091699827178,
      "loss": 3.996,
      "step": 157830
    },
    {
      "epoch": 0.3288333333333333,
      "grad_norm": 0.7692263126373291,
      "learning_rate": 0.00022796249482202237,
      "loss": 4.1646,
      "step": 157840
    },
    {
      "epoch": 0.32885416666666667,
      "grad_norm": 0.7772138714790344,
      "learning_rate": 0.0002279540723090058,
      "loss": 4.0633,
      "step": 157850
    },
    {
      "epoch": 0.328875,
      "grad_norm": 0.8809384703636169,
      "learning_rate": 0.0002279456494592585,
      "loss": 3.978,
      "step": 157860
    },
    {
      "epoch": 0.32889583333333333,
      "grad_norm": 0.7672160863876343,
      "learning_rate": 0.00022793722627281686,
      "loss": 3.927,
      "step": 157870
    },
    {
      "epoch": 0.3289166666666667,
      "grad_norm": 0.7711517810821533,
      "learning_rate": 0.00022792880274971722,
      "loss": 3.9757,
      "step": 157880
    },
    {
      "epoch": 0.3289375,
      "grad_norm": 0.835921049118042,
      "learning_rate": 0.00022792037888999604,
      "loss": 3.9819,
      "step": 157890
    },
    {
      "epoch": 0.32895833333333335,
      "grad_norm": 0.7165023684501648,
      "learning_rate": 0.00022791195469368963,
      "loss": 3.7862,
      "step": 157900
    },
    {
      "epoch": 0.32897916666666666,
      "grad_norm": 0.7913109064102173,
      "learning_rate": 0.00022790353016083445,
      "loss": 3.8368,
      "step": 157910
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.7832419276237488,
      "learning_rate": 0.00022789510529146683,
      "loss": 3.9357,
      "step": 157920
    },
    {
      "epoch": 0.3290208333333333,
      "grad_norm": 0.8899548053741455,
      "learning_rate": 0.0002278866800856232,
      "loss": 3.9076,
      "step": 157930
    },
    {
      "epoch": 0.3290416666666667,
      "grad_norm": 0.7153334617614746,
      "learning_rate": 0.00022787825454333995,
      "loss": 3.9457,
      "step": 157940
    },
    {
      "epoch": 0.3290625,
      "grad_norm": 1.140998363494873,
      "learning_rate": 0.00022786982866465348,
      "loss": 3.92,
      "step": 157950
    },
    {
      "epoch": 0.32908333333333334,
      "grad_norm": 0.7505595684051514,
      "learning_rate": 0.0002278614024496002,
      "loss": 3.8563,
      "step": 157960
    },
    {
      "epoch": 0.32910416666666664,
      "grad_norm": 0.9164276123046875,
      "learning_rate": 0.0002278529758982164,
      "loss": 4.0501,
      "step": 157970
    },
    {
      "epoch": 0.329125,
      "grad_norm": 0.7796486020088196,
      "learning_rate": 0.00022784454901053858,
      "loss": 3.9132,
      "step": 157980
    },
    {
      "epoch": 0.32914583333333336,
      "grad_norm": 0.8089019656181335,
      "learning_rate": 0.0002278361217866032,
      "loss": 3.9314,
      "step": 157990
    },
    {
      "epoch": 0.32916666666666666,
      "grad_norm": 0.7671273946762085,
      "learning_rate": 0.00022782769422644646,
      "loss": 3.9016,
      "step": 158000
    },
    {
      "epoch": 0.32916666666666666,
      "eval_loss": 3.7359766960144043,
      "eval_runtime": 7.2018,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 158000
    },
    {
      "epoch": 0.3291875,
      "grad_norm": 0.7764053344726562,
      "learning_rate": 0.00022781926633010498,
      "loss": 3.9955,
      "step": 158010
    },
    {
      "epoch": 0.3292083333333333,
      "grad_norm": 0.863095223903656,
      "learning_rate": 0.00022781083809761502,
      "loss": 3.9943,
      "step": 158020
    },
    {
      "epoch": 0.3292291666666667,
      "grad_norm": 0.7997862696647644,
      "learning_rate": 0.00022780240952901306,
      "loss": 3.8278,
      "step": 158030
    },
    {
      "epoch": 0.32925,
      "grad_norm": 0.7495824694633484,
      "learning_rate": 0.00022779398062433548,
      "loss": 3.835,
      "step": 158040
    },
    {
      "epoch": 0.32927083333333335,
      "grad_norm": 0.917881190776825,
      "learning_rate": 0.0002277855513836187,
      "loss": 4.001,
      "step": 158050
    },
    {
      "epoch": 0.32929166666666665,
      "grad_norm": 0.7719345688819885,
      "learning_rate": 0.00022777712180689915,
      "loss": 3.9887,
      "step": 158060
    },
    {
      "epoch": 0.3293125,
      "grad_norm": 0.7685975432395935,
      "learning_rate": 0.0002277686918942132,
      "loss": 4.0706,
      "step": 158070
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 0.9100672006607056,
      "learning_rate": 0.00022776026164559725,
      "loss": 3.8915,
      "step": 158080
    },
    {
      "epoch": 0.32935416666666667,
      "grad_norm": 0.8676750659942627,
      "learning_rate": 0.00022775183106108783,
      "loss": 3.8898,
      "step": 158090
    },
    {
      "epoch": 0.329375,
      "grad_norm": 0.7921023368835449,
      "learning_rate": 0.00022774340014072118,
      "loss": 4.1102,
      "step": 158100
    },
    {
      "epoch": 0.32939583333333333,
      "grad_norm": 0.7890059947967529,
      "learning_rate": 0.00022773496888453388,
      "loss": 3.873,
      "step": 158110
    },
    {
      "epoch": 0.3294166666666667,
      "grad_norm": 0.9269394278526306,
      "learning_rate": 0.00022772653729256228,
      "loss": 4.0903,
      "step": 158120
    },
    {
      "epoch": 0.3294375,
      "grad_norm": 0.8118346929550171,
      "learning_rate": 0.0002277181053648428,
      "loss": 4.0298,
      "step": 158130
    },
    {
      "epoch": 0.32945833333333335,
      "grad_norm": 0.8365926742553711,
      "learning_rate": 0.0002277096731014118,
      "loss": 3.759,
      "step": 158140
    },
    {
      "epoch": 0.32947916666666666,
      "grad_norm": 0.7656587362289429,
      "learning_rate": 0.0002277012405023059,
      "loss": 4.026,
      "step": 158150
    },
    {
      "epoch": 0.3295,
      "grad_norm": 0.7111842632293701,
      "learning_rate": 0.0002276928075675613,
      "loss": 4.0111,
      "step": 158160
    },
    {
      "epoch": 0.3295208333333333,
      "grad_norm": 0.7938618063926697,
      "learning_rate": 0.00022768437429721453,
      "loss": 3.8789,
      "step": 158170
    },
    {
      "epoch": 0.3295416666666667,
      "grad_norm": 0.7725499868392944,
      "learning_rate": 0.0002276759406913021,
      "loss": 4.0444,
      "step": 158180
    },
    {
      "epoch": 0.3295625,
      "grad_norm": 0.782626748085022,
      "learning_rate": 0.00022766750674986028,
      "loss": 3.9196,
      "step": 158190
    },
    {
      "epoch": 0.32958333333333334,
      "grad_norm": 0.778779923915863,
      "learning_rate": 0.00022765907247292554,
      "loss": 4.0158,
      "step": 158200
    },
    {
      "epoch": 0.32960416666666664,
      "grad_norm": 0.808742344379425,
      "learning_rate": 0.00022765063786053442,
      "loss": 3.7405,
      "step": 158210
    },
    {
      "epoch": 0.329625,
      "grad_norm": 0.7597246766090393,
      "learning_rate": 0.00022764220291272326,
      "loss": 3.904,
      "step": 158220
    },
    {
      "epoch": 0.32964583333333336,
      "grad_norm": 0.7995666265487671,
      "learning_rate": 0.00022763376762952853,
      "loss": 3.8907,
      "step": 158230
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 0.7985893487930298,
      "learning_rate": 0.0002276253320109866,
      "loss": 3.953,
      "step": 158240
    },
    {
      "epoch": 0.3296875,
      "grad_norm": 0.7889018654823303,
      "learning_rate": 0.000227616896057134,
      "loss": 4.0608,
      "step": 158250
    },
    {
      "epoch": 0.3297083333333333,
      "grad_norm": 0.7811484932899475,
      "learning_rate": 0.0002276084597680071,
      "loss": 3.8705,
      "step": 158260
    },
    {
      "epoch": 0.3297291666666667,
      "grad_norm": 0.9421196579933167,
      "learning_rate": 0.00022760002314364244,
      "loss": 4.005,
      "step": 158270
    },
    {
      "epoch": 0.32975,
      "grad_norm": 0.8684142231941223,
      "learning_rate": 0.00022759158618407632,
      "loss": 3.9781,
      "step": 158280
    },
    {
      "epoch": 0.32977083333333335,
      "grad_norm": 0.728535532951355,
      "learning_rate": 0.00022758314888934533,
      "loss": 4.0544,
      "step": 158290
    },
    {
      "epoch": 0.32979166666666665,
      "grad_norm": 0.9007863998413086,
      "learning_rate": 0.00022757471125948577,
      "loss": 4.0642,
      "step": 158300
    },
    {
      "epoch": 0.3298125,
      "grad_norm": 1.067503809928894,
      "learning_rate": 0.0002275662732945342,
      "loss": 4.1201,
      "step": 158310
    },
    {
      "epoch": 0.3298333333333333,
      "grad_norm": 0.810590386390686,
      "learning_rate": 0.00022755783499452706,
      "loss": 3.9995,
      "step": 158320
    },
    {
      "epoch": 0.32985416666666667,
      "grad_norm": 0.8128646016120911,
      "learning_rate": 0.0002275493963595008,
      "loss": 3.8857,
      "step": 158330
    },
    {
      "epoch": 0.329875,
      "grad_norm": 0.794771671295166,
      "learning_rate": 0.00022754095738949172,
      "loss": 3.9038,
      "step": 158340
    },
    {
      "epoch": 0.32989583333333333,
      "grad_norm": 1.1045936346054077,
      "learning_rate": 0.00022753251808453652,
      "loss": 3.8615,
      "step": 158350
    },
    {
      "epoch": 0.3299166666666667,
      "grad_norm": 0.800083339214325,
      "learning_rate": 0.0002275240784446715,
      "loss": 4.1158,
      "step": 158360
    },
    {
      "epoch": 0.3299375,
      "grad_norm": 0.7787372469902039,
      "learning_rate": 0.00022751563846993308,
      "loss": 3.8874,
      "step": 158370
    },
    {
      "epoch": 0.32995833333333335,
      "grad_norm": 0.9303663969039917,
      "learning_rate": 0.00022750719816035784,
      "loss": 4.0298,
      "step": 158380
    },
    {
      "epoch": 0.32997916666666666,
      "grad_norm": 0.7112311124801636,
      "learning_rate": 0.00022749875751598217,
      "loss": 4.0402,
      "step": 158390
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9483884572982788,
      "learning_rate": 0.0002274903165368426,
      "loss": 3.8927,
      "step": 158400
    },
    {
      "epoch": 0.3300208333333333,
      "grad_norm": 0.8135602474212646,
      "learning_rate": 0.00022748187522297545,
      "loss": 3.7756,
      "step": 158410
    },
    {
      "epoch": 0.3300416666666667,
      "grad_norm": 0.7654320597648621,
      "learning_rate": 0.0002274734335744173,
      "loss": 3.9764,
      "step": 158420
    },
    {
      "epoch": 0.3300625,
      "grad_norm": 0.8789196014404297,
      "learning_rate": 0.00022746499159120458,
      "loss": 4.0627,
      "step": 158430
    },
    {
      "epoch": 0.33008333333333334,
      "grad_norm": 0.8018709421157837,
      "learning_rate": 0.00022745654927337376,
      "loss": 4.1842,
      "step": 158440
    },
    {
      "epoch": 0.33010416666666664,
      "grad_norm": 0.8307608962059021,
      "learning_rate": 0.00022744810662096132,
      "loss": 3.7789,
      "step": 158450
    },
    {
      "epoch": 0.330125,
      "grad_norm": 0.8160558938980103,
      "learning_rate": 0.00022743966363400372,
      "loss": 3.9659,
      "step": 158460
    },
    {
      "epoch": 0.33014583333333336,
      "grad_norm": 0.8749359846115112,
      "learning_rate": 0.0002274312203125374,
      "loss": 3.8199,
      "step": 158470
    },
    {
      "epoch": 0.33016666666666666,
      "grad_norm": 0.8719028830528259,
      "learning_rate": 0.0002274227766565989,
      "loss": 3.9162,
      "step": 158480
    },
    {
      "epoch": 0.3301875,
      "grad_norm": 0.7429046630859375,
      "learning_rate": 0.00022741433266622465,
      "loss": 3.7787,
      "step": 158490
    },
    {
      "epoch": 0.3302083333333333,
      "grad_norm": 0.8038186430931091,
      "learning_rate": 0.000227405888341451,
      "loss": 3.8376,
      "step": 158500
    },
    {
      "epoch": 0.3302291666666667,
      "grad_norm": 0.8643398880958557,
      "learning_rate": 0.0002273974436823147,
      "loss": 4.0999,
      "step": 158510
    },
    {
      "epoch": 0.33025,
      "grad_norm": 0.7588919401168823,
      "learning_rate": 0.00022738899868885205,
      "loss": 3.9194,
      "step": 158520
    },
    {
      "epoch": 0.33027083333333335,
      "grad_norm": 0.7673051953315735,
      "learning_rate": 0.00022738055336109952,
      "loss": 3.9118,
      "step": 158530
    },
    {
      "epoch": 0.33029166666666665,
      "grad_norm": 0.835568368434906,
      "learning_rate": 0.00022737210769909364,
      "loss": 3.9608,
      "step": 158540
    },
    {
      "epoch": 0.3303125,
      "grad_norm": 0.8207657933235168,
      "learning_rate": 0.0002273636617028709,
      "loss": 3.9838,
      "step": 158550
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 0.8124361634254456,
      "learning_rate": 0.00022735521537246774,
      "loss": 3.8567,
      "step": 158560
    },
    {
      "epoch": 0.33035416666666667,
      "grad_norm": 0.9553980231285095,
      "learning_rate": 0.00022734676870792068,
      "loss": 3.9286,
      "step": 158570
    },
    {
      "epoch": 0.330375,
      "grad_norm": 0.9760806560516357,
      "learning_rate": 0.0002273383217092662,
      "loss": 3.9034,
      "step": 158580
    },
    {
      "epoch": 0.33039583333333333,
      "grad_norm": 1.0341782569885254,
      "learning_rate": 0.00022732987437654078,
      "loss": 3.9478,
      "step": 158590
    },
    {
      "epoch": 0.3304166666666667,
      "grad_norm": 0.7235016822814941,
      "learning_rate": 0.0002273214267097809,
      "loss": 3.9482,
      "step": 158600
    },
    {
      "epoch": 0.3304375,
      "grad_norm": 0.7833520174026489,
      "learning_rate": 0.0002273129787090231,
      "loss": 3.9666,
      "step": 158610
    },
    {
      "epoch": 0.33045833333333335,
      "grad_norm": 0.8584685921669006,
      "learning_rate": 0.0002273045303743038,
      "loss": 3.8686,
      "step": 158620
    },
    {
      "epoch": 0.33047916666666666,
      "grad_norm": 0.8038484454154968,
      "learning_rate": 0.00022729608170565953,
      "loss": 4.1115,
      "step": 158630
    },
    {
      "epoch": 0.3305,
      "grad_norm": 0.9670766592025757,
      "learning_rate": 0.0002272876327031268,
      "loss": 3.9409,
      "step": 158640
    },
    {
      "epoch": 0.3305208333333333,
      "grad_norm": 0.7703847885131836,
      "learning_rate": 0.00022727918336674205,
      "loss": 3.7798,
      "step": 158650
    },
    {
      "epoch": 0.3305416666666667,
      "grad_norm": 0.8287846446037292,
      "learning_rate": 0.00022727073369654187,
      "loss": 3.7196,
      "step": 158660
    },
    {
      "epoch": 0.3305625,
      "grad_norm": 0.8576315641403198,
      "learning_rate": 0.00022726228369256265,
      "loss": 3.9555,
      "step": 158670
    },
    {
      "epoch": 0.33058333333333334,
      "grad_norm": 0.7340614199638367,
      "learning_rate": 0.00022725383335484101,
      "loss": 3.8768,
      "step": 158680
    },
    {
      "epoch": 0.33060416666666664,
      "grad_norm": 0.9173352718353271,
      "learning_rate": 0.00022724538268341336,
      "loss": 4.0424,
      "step": 158690
    },
    {
      "epoch": 0.330625,
      "grad_norm": 0.7512439489364624,
      "learning_rate": 0.0002272369316783162,
      "loss": 3.9132,
      "step": 158700
    },
    {
      "epoch": 0.33064583333333336,
      "grad_norm": 0.7688845992088318,
      "learning_rate": 0.00022722848033958614,
      "loss": 3.7764,
      "step": 158710
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 0.7332321405410767,
      "learning_rate": 0.00022722002866725958,
      "loss": 3.9439,
      "step": 158720
    },
    {
      "epoch": 0.3306875,
      "grad_norm": 0.7815197110176086,
      "learning_rate": 0.00022721157666137303,
      "loss": 3.794,
      "step": 158730
    },
    {
      "epoch": 0.3307083333333333,
      "grad_norm": 0.798383355140686,
      "learning_rate": 0.00022720312432196306,
      "loss": 3.8817,
      "step": 158740
    },
    {
      "epoch": 0.3307291666666667,
      "grad_norm": 0.8302366137504578,
      "learning_rate": 0.00022719467164906612,
      "loss": 3.6971,
      "step": 158750
    },
    {
      "epoch": 0.33075,
      "grad_norm": 0.7053619027137756,
      "learning_rate": 0.0002271862186427188,
      "loss": 3.9445,
      "step": 158760
    },
    {
      "epoch": 0.33077083333333335,
      "grad_norm": 0.7603855729103088,
      "learning_rate": 0.00022717776530295752,
      "loss": 4.1321,
      "step": 158770
    },
    {
      "epoch": 0.33079166666666665,
      "grad_norm": 0.8353334069252014,
      "learning_rate": 0.0002271693116298189,
      "loss": 3.7999,
      "step": 158780
    },
    {
      "epoch": 0.3308125,
      "grad_norm": 0.7936887145042419,
      "learning_rate": 0.00022716085762333936,
      "loss": 4.079,
      "step": 158790
    },
    {
      "epoch": 0.3308333333333333,
      "grad_norm": 0.7270774841308594,
      "learning_rate": 0.00022715240328355547,
      "loss": 3.8459,
      "step": 158800
    },
    {
      "epoch": 0.33085416666666667,
      "grad_norm": 0.8852251768112183,
      "learning_rate": 0.00022714394861050375,
      "loss": 3.9035,
      "step": 158810
    },
    {
      "epoch": 0.330875,
      "grad_norm": 0.7983665466308594,
      "learning_rate": 0.0002271354936042207,
      "loss": 4.1464,
      "step": 158820
    },
    {
      "epoch": 0.33089583333333333,
      "grad_norm": 0.8290916681289673,
      "learning_rate": 0.00022712703826474284,
      "loss": 4.0225,
      "step": 158830
    },
    {
      "epoch": 0.3309166666666667,
      "grad_norm": 0.7300249934196472,
      "learning_rate": 0.0002271185825921067,
      "loss": 3.9627,
      "step": 158840
    },
    {
      "epoch": 0.3309375,
      "grad_norm": 0.8379472494125366,
      "learning_rate": 0.0002271101265863488,
      "loss": 3.8417,
      "step": 158850
    },
    {
      "epoch": 0.33095833333333335,
      "grad_norm": 0.7315634489059448,
      "learning_rate": 0.00022710167024750572,
      "loss": 4.0204,
      "step": 158860
    },
    {
      "epoch": 0.33097916666666666,
      "grad_norm": 0.7803718447685242,
      "learning_rate": 0.0002270932135756139,
      "loss": 4.0478,
      "step": 158870
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.8442607522010803,
      "learning_rate": 0.00022708475657070993,
      "loss": 4.0344,
      "step": 158880
    },
    {
      "epoch": 0.3310208333333333,
      "grad_norm": 0.922408401966095,
      "learning_rate": 0.00022707629923283035,
      "loss": 3.909,
      "step": 158890
    },
    {
      "epoch": 0.3310416666666667,
      "grad_norm": 0.7568736672401428,
      "learning_rate": 0.0002270678415620116,
      "loss": 4.0207,
      "step": 158900
    },
    {
      "epoch": 0.3310625,
      "grad_norm": 0.759710967540741,
      "learning_rate": 0.00022705938355829035,
      "loss": 3.7924,
      "step": 158910
    },
    {
      "epoch": 0.33108333333333334,
      "grad_norm": 0.8130744099617004,
      "learning_rate": 0.000227050925221703,
      "loss": 3.9522,
      "step": 158920
    },
    {
      "epoch": 0.33110416666666664,
      "grad_norm": 0.7690140008926392,
      "learning_rate": 0.0002270424665522862,
      "loss": 3.9177,
      "step": 158930
    },
    {
      "epoch": 0.331125,
      "grad_norm": 0.7849491834640503,
      "learning_rate": 0.0002270340075500764,
      "loss": 3.9041,
      "step": 158940
    },
    {
      "epoch": 0.3311458333333333,
      "grad_norm": 0.7933764457702637,
      "learning_rate": 0.00022702554821511022,
      "loss": 4.0925,
      "step": 158950
    },
    {
      "epoch": 0.33116666666666666,
      "grad_norm": 0.7472660541534424,
      "learning_rate": 0.0002270170885474242,
      "loss": 3.9946,
      "step": 158960
    },
    {
      "epoch": 0.3311875,
      "grad_norm": 0.8033791184425354,
      "learning_rate": 0.00022700862854705474,
      "loss": 3.9388,
      "step": 158970
    },
    {
      "epoch": 0.3312083333333333,
      "grad_norm": 0.826049268245697,
      "learning_rate": 0.00022700016821403853,
      "loss": 3.9507,
      "step": 158980
    },
    {
      "epoch": 0.3312291666666667,
      "grad_norm": 0.8768389821052551,
      "learning_rate": 0.0002269917075484121,
      "loss": 4.0498,
      "step": 158990
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.872918426990509,
      "learning_rate": 0.00022698324655021193,
      "loss": 3.7874,
      "step": 159000
    },
    {
      "epoch": 0.33125,
      "eval_loss": 3.7337546348571777,
      "eval_runtime": 7.2182,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.416,
      "step": 159000
    },
    {
      "epoch": 0.33127083333333335,
      "grad_norm": 0.7033275365829468,
      "learning_rate": 0.00022697478521947463,
      "loss": 4.0526,
      "step": 159010
    },
    {
      "epoch": 0.33129166666666665,
      "grad_norm": 0.8900780081748962,
      "learning_rate": 0.00022696632355623673,
      "loss": 3.9728,
      "step": 159020
    },
    {
      "epoch": 0.3313125,
      "grad_norm": 0.7557547092437744,
      "learning_rate": 0.0002269578615605348,
      "loss": 4.0004,
      "step": 159030
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 0.8108676671981812,
      "learning_rate": 0.0002269493992324053,
      "loss": 4.1375,
      "step": 159040
    },
    {
      "epoch": 0.33135416666666667,
      "grad_norm": 0.7875410318374634,
      "learning_rate": 0.00022694093657188493,
      "loss": 3.9106,
      "step": 159050
    },
    {
      "epoch": 0.331375,
      "grad_norm": 0.8010005950927734,
      "learning_rate": 0.00022693247357901013,
      "loss": 3.7742,
      "step": 159060
    },
    {
      "epoch": 0.33139583333333333,
      "grad_norm": 0.8173922300338745,
      "learning_rate": 0.00022692401025381745,
      "loss": 3.9035,
      "step": 159070
    },
    {
      "epoch": 0.3314166666666667,
      "grad_norm": 0.7716636061668396,
      "learning_rate": 0.00022691554659634355,
      "loss": 4.0773,
      "step": 159080
    },
    {
      "epoch": 0.3314375,
      "grad_norm": 0.7784140706062317,
      "learning_rate": 0.00022690708260662495,
      "loss": 3.9419,
      "step": 159090
    },
    {
      "epoch": 0.33145833333333335,
      "grad_norm": 0.8475545048713684,
      "learning_rate": 0.00022689861828469813,
      "loss": 3.9236,
      "step": 159100
    },
    {
      "epoch": 0.33147916666666666,
      "grad_norm": 0.7599309682846069,
      "learning_rate": 0.00022689015363059977,
      "loss": 4.1098,
      "step": 159110
    },
    {
      "epoch": 0.3315,
      "grad_norm": 0.7319178581237793,
      "learning_rate": 0.00022688168864436637,
      "loss": 3.6464,
      "step": 159120
    },
    {
      "epoch": 0.3315208333333333,
      "grad_norm": 1.3658218383789062,
      "learning_rate": 0.00022687322332603453,
      "loss": 3.931,
      "step": 159130
    },
    {
      "epoch": 0.3315416666666667,
      "grad_norm": 0.8599167466163635,
      "learning_rate": 0.00022686475767564075,
      "loss": 4.0674,
      "step": 159140
    },
    {
      "epoch": 0.3315625,
      "grad_norm": 0.7934107184410095,
      "learning_rate": 0.00022685629169322166,
      "loss": 3.9206,
      "step": 159150
    },
    {
      "epoch": 0.33158333333333334,
      "grad_norm": 0.7504073977470398,
      "learning_rate": 0.00022684782537881384,
      "loss": 4.0418,
      "step": 159160
    },
    {
      "epoch": 0.33160416666666664,
      "grad_norm": 0.8713344931602478,
      "learning_rate": 0.0002268393587324538,
      "loss": 3.9916,
      "step": 159170
    },
    {
      "epoch": 0.331625,
      "grad_norm": 0.9240610599517822,
      "learning_rate": 0.00022683089175417815,
      "loss": 3.8817,
      "step": 159180
    },
    {
      "epoch": 0.3316458333333333,
      "grad_norm": 0.7718986868858337,
      "learning_rate": 0.00022682242444402344,
      "loss": 3.9173,
      "step": 159190
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 0.8138697147369385,
      "learning_rate": 0.00022681395680202628,
      "loss": 4.0083,
      "step": 159200
    },
    {
      "epoch": 0.3316875,
      "grad_norm": 0.7672611474990845,
      "learning_rate": 0.00022680548882822324,
      "loss": 3.8521,
      "step": 159210
    },
    {
      "epoch": 0.3317083333333333,
      "grad_norm": 0.7947598695755005,
      "learning_rate": 0.00022679702052265095,
      "loss": 3.9591,
      "step": 159220
    },
    {
      "epoch": 0.3317291666666667,
      "grad_norm": 0.8391367793083191,
      "learning_rate": 0.00022678855188534587,
      "loss": 4.0131,
      "step": 159230
    },
    {
      "epoch": 0.33175,
      "grad_norm": 0.9258930087089539,
      "learning_rate": 0.00022678008291634457,
      "loss": 3.9147,
      "step": 159240
    },
    {
      "epoch": 0.33177083333333335,
      "grad_norm": 1.0983575582504272,
      "learning_rate": 0.00022677161361568378,
      "loss": 4.1364,
      "step": 159250
    },
    {
      "epoch": 0.33179166666666665,
      "grad_norm": 0.7728145122528076,
      "learning_rate": 0.00022676314398340002,
      "loss": 4.0125,
      "step": 159260
    },
    {
      "epoch": 0.3318125,
      "grad_norm": 0.7455897331237793,
      "learning_rate": 0.00022675467401952988,
      "loss": 3.8765,
      "step": 159270
    },
    {
      "epoch": 0.3318333333333333,
      "grad_norm": 0.8290278315544128,
      "learning_rate": 0.00022674620372410988,
      "loss": 3.846,
      "step": 159280
    },
    {
      "epoch": 0.3318541666666667,
      "grad_norm": 0.8178319334983826,
      "learning_rate": 0.00022673773309717665,
      "loss": 4.0721,
      "step": 159290
    },
    {
      "epoch": 0.331875,
      "grad_norm": 0.8029233813285828,
      "learning_rate": 0.0002267292621387668,
      "loss": 3.88,
      "step": 159300
    },
    {
      "epoch": 0.33189583333333333,
      "grad_norm": 0.7268416285514832,
      "learning_rate": 0.00022672079084891695,
      "loss": 3.9489,
      "step": 159310
    },
    {
      "epoch": 0.3319166666666667,
      "grad_norm": 0.767541766166687,
      "learning_rate": 0.00022671231922766357,
      "loss": 4.1496,
      "step": 159320
    },
    {
      "epoch": 0.3319375,
      "grad_norm": 0.7165278196334839,
      "learning_rate": 0.00022670384727504345,
      "loss": 3.9818,
      "step": 159330
    },
    {
      "epoch": 0.33195833333333336,
      "grad_norm": 0.7980464696884155,
      "learning_rate": 0.00022669537499109293,
      "loss": 3.9685,
      "step": 159340
    },
    {
      "epoch": 0.33197916666666666,
      "grad_norm": 0.7522728443145752,
      "learning_rate": 0.00022668690237584885,
      "loss": 3.9715,
      "step": 159350
    },
    {
      "epoch": 0.332,
      "grad_norm": 0.7834415435791016,
      "learning_rate": 0.00022667842942934773,
      "loss": 3.9917,
      "step": 159360
    },
    {
      "epoch": 0.3320208333333333,
      "grad_norm": 0.7658737897872925,
      "learning_rate": 0.00022666995615162606,
      "loss": 4.0255,
      "step": 159370
    },
    {
      "epoch": 0.3320416666666667,
      "grad_norm": 0.8324322700500488,
      "learning_rate": 0.00022666148254272056,
      "loss": 4.0375,
      "step": 159380
    },
    {
      "epoch": 0.3320625,
      "grad_norm": 0.7588279247283936,
      "learning_rate": 0.00022665300860266784,
      "loss": 4.003,
      "step": 159390
    },
    {
      "epoch": 0.33208333333333334,
      "grad_norm": 1.198195219039917,
      "learning_rate": 0.0002266445343315044,
      "loss": 4.0075,
      "step": 159400
    },
    {
      "epoch": 0.33210416666666664,
      "grad_norm": 0.7728379964828491,
      "learning_rate": 0.00022663605972926697,
      "loss": 3.9868,
      "step": 159410
    },
    {
      "epoch": 0.332125,
      "grad_norm": 0.8348070979118347,
      "learning_rate": 0.00022662758479599204,
      "loss": 3.8868,
      "step": 159420
    },
    {
      "epoch": 0.3321458333333333,
      "grad_norm": 0.8079178333282471,
      "learning_rate": 0.0002266191095317163,
      "loss": 3.8815,
      "step": 159430
    },
    {
      "epoch": 0.33216666666666667,
      "grad_norm": 0.8045470714569092,
      "learning_rate": 0.0002266106339364763,
      "loss": 3.847,
      "step": 159440
    },
    {
      "epoch": 0.3321875,
      "grad_norm": 0.8010411858558655,
      "learning_rate": 0.00022660215801030876,
      "loss": 3.9093,
      "step": 159450
    },
    {
      "epoch": 0.3322083333333333,
      "grad_norm": 0.8147642016410828,
      "learning_rate": 0.00022659368175325018,
      "loss": 4.116,
      "step": 159460
    },
    {
      "epoch": 0.3322291666666667,
      "grad_norm": 0.7494218349456787,
      "learning_rate": 0.00022658520516533723,
      "loss": 3.7727,
      "step": 159470
    },
    {
      "epoch": 0.33225,
      "grad_norm": 0.9134228229522705,
      "learning_rate": 0.00022657672824660647,
      "loss": 4.0281,
      "step": 159480
    },
    {
      "epoch": 0.33227083333333335,
      "grad_norm": 0.75748211145401,
      "learning_rate": 0.00022656825099709457,
      "loss": 3.8746,
      "step": 159490
    },
    {
      "epoch": 0.33229166666666665,
      "grad_norm": 0.7576847672462463,
      "learning_rate": 0.00022655977341683815,
      "loss": 3.9103,
      "step": 159500
    },
    {
      "epoch": 0.3323125,
      "grad_norm": 0.8494318127632141,
      "learning_rate": 0.00022655129550587378,
      "loss": 3.8226,
      "step": 159510
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 0.8085120320320129,
      "learning_rate": 0.00022654281726423815,
      "loss": 4.282,
      "step": 159520
    },
    {
      "epoch": 0.3323541666666667,
      "grad_norm": 0.7616888880729675,
      "learning_rate": 0.00022653433869196783,
      "loss": 3.9825,
      "step": 159530
    },
    {
      "epoch": 0.332375,
      "grad_norm": 0.8892888426780701,
      "learning_rate": 0.00022652585978909947,
      "loss": 4.091,
      "step": 159540
    },
    {
      "epoch": 0.33239583333333333,
      "grad_norm": 0.7969346642494202,
      "learning_rate": 0.0002265173805556697,
      "loss": 3.9495,
      "step": 159550
    },
    {
      "epoch": 0.3324166666666667,
      "grad_norm": 0.7539268732070923,
      "learning_rate": 0.0002265089009917151,
      "loss": 3.9036,
      "step": 159560
    },
    {
      "epoch": 0.3324375,
      "grad_norm": 0.8319138288497925,
      "learning_rate": 0.00022650042109727234,
      "loss": 3.9755,
      "step": 159570
    },
    {
      "epoch": 0.33245833333333336,
      "grad_norm": 0.78081876039505,
      "learning_rate": 0.0002264919408723781,
      "loss": 3.7122,
      "step": 159580
    },
    {
      "epoch": 0.33247916666666666,
      "grad_norm": 0.7891578078269958,
      "learning_rate": 0.0002264834603170689,
      "loss": 3.9414,
      "step": 159590
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.8741952180862427,
      "learning_rate": 0.0002264749794313814,
      "loss": 3.9097,
      "step": 159600
    },
    {
      "epoch": 0.3325208333333333,
      "grad_norm": 0.7697689533233643,
      "learning_rate": 0.0002264664982153523,
      "loss": 4.0148,
      "step": 159610
    },
    {
      "epoch": 0.3325416666666667,
      "grad_norm": 0.7396559715270996,
      "learning_rate": 0.00022645801666901818,
      "loss": 4.1543,
      "step": 159620
    },
    {
      "epoch": 0.3325625,
      "grad_norm": 0.9772401452064514,
      "learning_rate": 0.0002264495347924157,
      "loss": 4.0752,
      "step": 159630
    },
    {
      "epoch": 0.33258333333333334,
      "grad_norm": 0.7426838278770447,
      "learning_rate": 0.00022644105258558145,
      "loss": 3.9781,
      "step": 159640
    },
    {
      "epoch": 0.33260416666666665,
      "grad_norm": 0.8175108432769775,
      "learning_rate": 0.00022643257004855216,
      "loss": 3.8816,
      "step": 159650
    },
    {
      "epoch": 0.332625,
      "grad_norm": 0.7662731409072876,
      "learning_rate": 0.00022642408718136442,
      "loss": 3.9353,
      "step": 159660
    },
    {
      "epoch": 0.3326458333333333,
      "grad_norm": 0.7549337148666382,
      "learning_rate": 0.00022641560398405485,
      "loss": 4.0356,
      "step": 159670
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 0.8340426087379456,
      "learning_rate": 0.0002264071204566601,
      "loss": 3.8515,
      "step": 159680
    },
    {
      "epoch": 0.3326875,
      "grad_norm": 0.8077085018157959,
      "learning_rate": 0.00022639863659921694,
      "loss": 4.1658,
      "step": 159690
    },
    {
      "epoch": 0.33270833333333333,
      "grad_norm": 0.7620225548744202,
      "learning_rate": 0.00022639015241176177,
      "loss": 4.0559,
      "step": 159700
    },
    {
      "epoch": 0.3327291666666667,
      "grad_norm": 0.7731814384460449,
      "learning_rate": 0.00022638166789433147,
      "loss": 4.0386,
      "step": 159710
    },
    {
      "epoch": 0.33275,
      "grad_norm": 0.7822132110595703,
      "learning_rate": 0.0002263731830469626,
      "loss": 4.2218,
      "step": 159720
    },
    {
      "epoch": 0.33277083333333335,
      "grad_norm": 0.8863824009895325,
      "learning_rate": 0.00022636469786969175,
      "loss": 4.1025,
      "step": 159730
    },
    {
      "epoch": 0.33279166666666665,
      "grad_norm": 0.7850173711776733,
      "learning_rate": 0.00022635621236255567,
      "loss": 3.9058,
      "step": 159740
    },
    {
      "epoch": 0.3328125,
      "grad_norm": 0.8196864128112793,
      "learning_rate": 0.000226347726525591,
      "loss": 3.8713,
      "step": 159750
    },
    {
      "epoch": 0.3328333333333333,
      "grad_norm": 0.8506894111633301,
      "learning_rate": 0.00022633924035883433,
      "loss": 4.0329,
      "step": 159760
    },
    {
      "epoch": 0.3328541666666667,
      "grad_norm": 0.8497143387794495,
      "learning_rate": 0.00022633075386232232,
      "loss": 4.0162,
      "step": 159770
    },
    {
      "epoch": 0.332875,
      "grad_norm": 0.8626163601875305,
      "learning_rate": 0.00022632226703609174,
      "loss": 4.0214,
      "step": 159780
    },
    {
      "epoch": 0.33289583333333334,
      "grad_norm": 0.7693407535552979,
      "learning_rate": 0.0002263137798801792,
      "loss": 3.8869,
      "step": 159790
    },
    {
      "epoch": 0.3329166666666667,
      "grad_norm": 0.8419331908226013,
      "learning_rate": 0.0002263052923946213,
      "loss": 3.8822,
      "step": 159800
    },
    {
      "epoch": 0.3329375,
      "grad_norm": 0.8453782200813293,
      "learning_rate": 0.00022629680457945473,
      "loss": 3.8981,
      "step": 159810
    },
    {
      "epoch": 0.33295833333333336,
      "grad_norm": 0.8219398856163025,
      "learning_rate": 0.00022628831643471616,
      "loss": 3.9633,
      "step": 159820
    },
    {
      "epoch": 0.33297916666666666,
      "grad_norm": 0.8230854868888855,
      "learning_rate": 0.00022627982796044225,
      "loss": 3.9166,
      "step": 159830
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.8268619179725647,
      "learning_rate": 0.00022627133915666968,
      "loss": 3.7248,
      "step": 159840
    },
    {
      "epoch": 0.3330208333333333,
      "grad_norm": 0.8329147696495056,
      "learning_rate": 0.00022626285002343515,
      "loss": 3.9184,
      "step": 159850
    },
    {
      "epoch": 0.3330416666666667,
      "grad_norm": 0.7745372653007507,
      "learning_rate": 0.0002262543605607753,
      "loss": 3.6684,
      "step": 159860
    },
    {
      "epoch": 0.3330625,
      "grad_norm": 0.7772802114486694,
      "learning_rate": 0.00022624587076872674,
      "loss": 3.9717,
      "step": 159870
    },
    {
      "epoch": 0.33308333333333334,
      "grad_norm": 0.7747122049331665,
      "learning_rate": 0.00022623738064732622,
      "loss": 3.9762,
      "step": 159880
    },
    {
      "epoch": 0.33310416666666665,
      "grad_norm": 0.7897801399230957,
      "learning_rate": 0.00022622889019661047,
      "loss": 3.8059,
      "step": 159890
    },
    {
      "epoch": 0.333125,
      "grad_norm": 0.8081051111221313,
      "learning_rate": 0.000226220399416616,
      "loss": 3.932,
      "step": 159900
    },
    {
      "epoch": 0.3331458333333333,
      "grad_norm": 0.7845454812049866,
      "learning_rate": 0.00022621190830737957,
      "loss": 3.8283,
      "step": 159910
    },
    {
      "epoch": 0.33316666666666667,
      "grad_norm": 0.8191487789154053,
      "learning_rate": 0.0002262034168689379,
      "loss": 4.0705,
      "step": 159920
    },
    {
      "epoch": 0.3331875,
      "grad_norm": 0.7453425526618958,
      "learning_rate": 0.0002261949251013276,
      "loss": 4.0453,
      "step": 159930
    },
    {
      "epoch": 0.33320833333333333,
      "grad_norm": 0.7599347233772278,
      "learning_rate": 0.0002261864330045854,
      "loss": 4.1049,
      "step": 159940
    },
    {
      "epoch": 0.3332291666666667,
      "grad_norm": 0.799115777015686,
      "learning_rate": 0.00022617794057874798,
      "loss": 3.7668,
      "step": 159950
    },
    {
      "epoch": 0.33325,
      "grad_norm": 0.7686076760292053,
      "learning_rate": 0.00022616944782385203,
      "loss": 3.9323,
      "step": 159960
    },
    {
      "epoch": 0.33327083333333335,
      "grad_norm": 0.8773336410522461,
      "learning_rate": 0.00022616095473993415,
      "loss": 3.9641,
      "step": 159970
    },
    {
      "epoch": 0.33329166666666665,
      "grad_norm": 1.029396891593933,
      "learning_rate": 0.00022615246132703118,
      "loss": 3.9933,
      "step": 159980
    },
    {
      "epoch": 0.3333125,
      "grad_norm": 0.83232581615448,
      "learning_rate": 0.00022614396758517964,
      "loss": 3.9383,
      "step": 159990
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.7523022294044495,
      "learning_rate": 0.00022613547351441632,
      "loss": 3.8374,
      "step": 160000
    },
    {
      "epoch": 0.3333333333333333,
      "eval_loss": 3.7304883003234863,
      "eval_runtime": 6.8328,
      "eval_samples_per_second": 1.464,
      "eval_steps_per_second": 0.439,
      "step": 160000
    },
    {
      "epoch": 0.3333541666666667,
      "grad_norm": 0.7631809115409851,
      "learning_rate": 0.00022612697911477788,
      "loss": 3.9259,
      "step": 160010
    },
    {
      "epoch": 0.333375,
      "grad_norm": 0.7578721046447754,
      "learning_rate": 0.00022611848438630104,
      "loss": 4.0644,
      "step": 160020
    },
    {
      "epoch": 0.33339583333333334,
      "grad_norm": 0.7836513519287109,
      "learning_rate": 0.00022610998932902257,
      "loss": 4.056,
      "step": 160030
    },
    {
      "epoch": 0.33341666666666664,
      "grad_norm": 0.7718403339385986,
      "learning_rate": 0.00022610149394297892,
      "loss": 4.092,
      "step": 160040
    },
    {
      "epoch": 0.3334375,
      "grad_norm": 2.7062408924102783,
      "learning_rate": 0.000226092998228207,
      "loss": 4.1239,
      "step": 160050
    },
    {
      "epoch": 0.33345833333333336,
      "grad_norm": 0.7744140625,
      "learning_rate": 0.00022608450218474348,
      "loss": 4.079,
      "step": 160060
    },
    {
      "epoch": 0.33347916666666666,
      "grad_norm": 0.7969804406166077,
      "learning_rate": 0.00022607600581262495,
      "loss": 4.0417,
      "step": 160070
    },
    {
      "epoch": 0.3335,
      "grad_norm": 0.7961665987968445,
      "learning_rate": 0.00022606750911188822,
      "loss": 3.8727,
      "step": 160080
    },
    {
      "epoch": 0.3335208333333333,
      "grad_norm": 0.8822603821754456,
      "learning_rate": 0.00022605901208257,
      "loss": 4.0604,
      "step": 160090
    },
    {
      "epoch": 0.3335416666666667,
      "grad_norm": 0.8421279191970825,
      "learning_rate": 0.00022605051472470697,
      "loss": 3.8494,
      "step": 160100
    },
    {
      "epoch": 0.3335625,
      "grad_norm": 0.7979357242584229,
      "learning_rate": 0.00022604201703833572,
      "loss": 4.0713,
      "step": 160110
    },
    {
      "epoch": 0.33358333333333334,
      "grad_norm": 0.7412622570991516,
      "learning_rate": 0.00022603351902349312,
      "loss": 3.8721,
      "step": 160120
    },
    {
      "epoch": 0.33360416666666665,
      "grad_norm": 0.8349218368530273,
      "learning_rate": 0.00022602502068021585,
      "loss": 4.0654,
      "step": 160130
    },
    {
      "epoch": 0.333625,
      "grad_norm": 0.843578040599823,
      "learning_rate": 0.0002260165220085405,
      "loss": 3.9447,
      "step": 160140
    },
    {
      "epoch": 0.3336458333333333,
      "grad_norm": 1.0467573404312134,
      "learning_rate": 0.00022600802300850394,
      "loss": 3.9506,
      "step": 160150
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 0.7816462516784668,
      "learning_rate": 0.00022599952368014274,
      "loss": 3.9608,
      "step": 160160
    },
    {
      "epoch": 0.3336875,
      "grad_norm": 0.764054000377655,
      "learning_rate": 0.00022599102402349374,
      "loss": 4.1437,
      "step": 160170
    },
    {
      "epoch": 0.33370833333333333,
      "grad_norm": 1.0162562131881714,
      "learning_rate": 0.00022598252403859353,
      "loss": 3.9956,
      "step": 160180
    },
    {
      "epoch": 0.3337291666666667,
      "grad_norm": 0.9046305418014526,
      "learning_rate": 0.00022597402372547895,
      "loss": 3.726,
      "step": 160190
    },
    {
      "epoch": 0.33375,
      "grad_norm": 0.8045922517776489,
      "learning_rate": 0.00022596552308418665,
      "loss": 4.0294,
      "step": 160200
    },
    {
      "epoch": 0.33377083333333335,
      "grad_norm": 0.9441971182823181,
      "learning_rate": 0.00022595702211475335,
      "loss": 3.8061,
      "step": 160210
    },
    {
      "epoch": 0.33379166666666665,
      "grad_norm": 0.7671673893928528,
      "learning_rate": 0.00022594852081721576,
      "loss": 3.9665,
      "step": 160220
    },
    {
      "epoch": 0.3338125,
      "grad_norm": 0.8020820021629333,
      "learning_rate": 0.00022594001919161067,
      "loss": 4.0224,
      "step": 160230
    },
    {
      "epoch": 0.3338333333333333,
      "grad_norm": 0.7376258969306946,
      "learning_rate": 0.0002259315172379747,
      "loss": 3.9327,
      "step": 160240
    },
    {
      "epoch": 0.3338541666666667,
      "grad_norm": 0.7738602161407471,
      "learning_rate": 0.00022592301495634467,
      "loss": 3.8808,
      "step": 160250
    },
    {
      "epoch": 0.333875,
      "grad_norm": 0.7573304176330566,
      "learning_rate": 0.00022591451234675727,
      "loss": 3.9705,
      "step": 160260
    },
    {
      "epoch": 0.33389583333333334,
      "grad_norm": 0.8084840774536133,
      "learning_rate": 0.00022590600940924923,
      "loss": 3.984,
      "step": 160270
    },
    {
      "epoch": 0.33391666666666664,
      "grad_norm": 0.811063289642334,
      "learning_rate": 0.0002258975061438572,
      "loss": 3.8963,
      "step": 160280
    },
    {
      "epoch": 0.3339375,
      "grad_norm": 0.9068644046783447,
      "learning_rate": 0.0002258890025506181,
      "loss": 3.9461,
      "step": 160290
    },
    {
      "epoch": 0.33395833333333336,
      "grad_norm": 0.7411965727806091,
      "learning_rate": 0.0002258804986295685,
      "loss": 3.9862,
      "step": 160300
    },
    {
      "epoch": 0.33397916666666666,
      "grad_norm": 0.8751510381698608,
      "learning_rate": 0.00022587199438074516,
      "loss": 3.9743,
      "step": 160310
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.7699815034866333,
      "learning_rate": 0.00022586348980418484,
      "loss": 3.9558,
      "step": 160320
    },
    {
      "epoch": 0.3340208333333333,
      "grad_norm": 0.9104728698730469,
      "learning_rate": 0.00022585498489992425,
      "loss": 3.9343,
      "step": 160330
    },
    {
      "epoch": 0.3340416666666667,
      "grad_norm": 0.7458527684211731,
      "learning_rate": 0.0002258464796680002,
      "loss": 3.8604,
      "step": 160340
    },
    {
      "epoch": 0.3340625,
      "grad_norm": 0.8528423309326172,
      "learning_rate": 0.00022583797410844937,
      "loss": 4.1679,
      "step": 160350
    },
    {
      "epoch": 0.33408333333333334,
      "grad_norm": 0.8191193342208862,
      "learning_rate": 0.0002258294682213085,
      "loss": 3.7075,
      "step": 160360
    },
    {
      "epoch": 0.33410416666666665,
      "grad_norm": 0.7552249431610107,
      "learning_rate": 0.00022582096200661435,
      "loss": 3.9138,
      "step": 160370
    },
    {
      "epoch": 0.334125,
      "grad_norm": 0.8444952368736267,
      "learning_rate": 0.00022581245546440367,
      "loss": 3.8727,
      "step": 160380
    },
    {
      "epoch": 0.3341458333333333,
      "grad_norm": 0.8596428632736206,
      "learning_rate": 0.00022580394859471315,
      "loss": 3.8704,
      "step": 160390
    },
    {
      "epoch": 0.33416666666666667,
      "grad_norm": 0.74748694896698,
      "learning_rate": 0.0002257954413975796,
      "loss": 3.9389,
      "step": 160400
    },
    {
      "epoch": 0.3341875,
      "grad_norm": 0.7911832928657532,
      "learning_rate": 0.00022578693387303975,
      "loss": 3.9428,
      "step": 160410
    },
    {
      "epoch": 0.33420833333333333,
      "grad_norm": 0.8427125215530396,
      "learning_rate": 0.0002257784260211303,
      "loss": 4.0367,
      "step": 160420
    },
    {
      "epoch": 0.3342291666666667,
      "grad_norm": 0.8395203948020935,
      "learning_rate": 0.00022576991784188817,
      "loss": 3.8198,
      "step": 160430
    },
    {
      "epoch": 0.33425,
      "grad_norm": 0.9344608187675476,
      "learning_rate": 0.00022576140933534985,
      "loss": 3.9724,
      "step": 160440
    },
    {
      "epoch": 0.33427083333333335,
      "grad_norm": 0.7589917778968811,
      "learning_rate": 0.0002257529005015523,
      "loss": 3.9715,
      "step": 160450
    },
    {
      "epoch": 0.33429166666666665,
      "grad_norm": 0.8288010954856873,
      "learning_rate": 0.00022574439134053222,
      "loss": 4.1271,
      "step": 160460
    },
    {
      "epoch": 0.3343125,
      "grad_norm": 0.7673265933990479,
      "learning_rate": 0.0002257358818523263,
      "loss": 4.1209,
      "step": 160470
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 0.7689269185066223,
      "learning_rate": 0.00022572737203697138,
      "loss": 4.0723,
      "step": 160480
    },
    {
      "epoch": 0.3343541666666667,
      "grad_norm": 0.7173393964767456,
      "learning_rate": 0.00022571886189450417,
      "loss": 3.943,
      "step": 160490
    },
    {
      "epoch": 0.334375,
      "grad_norm": 0.823986828327179,
      "learning_rate": 0.00022571035142496143,
      "loss": 3.9566,
      "step": 160500
    },
    {
      "epoch": 0.33439583333333334,
      "grad_norm": 1.150687336921692,
      "learning_rate": 0.00022570184062837997,
      "loss": 3.8617,
      "step": 160510
    },
    {
      "epoch": 0.33441666666666664,
      "grad_norm": 0.9181443452835083,
      "learning_rate": 0.0002256933295047965,
      "loss": 3.9649,
      "step": 160520
    },
    {
      "epoch": 0.3344375,
      "grad_norm": 0.8208552598953247,
      "learning_rate": 0.00022568481805424785,
      "loss": 3.8996,
      "step": 160530
    },
    {
      "epoch": 0.33445833333333336,
      "grad_norm": 0.7641811966896057,
      "learning_rate": 0.0002256763062767707,
      "loss": 3.9784,
      "step": 160540
    },
    {
      "epoch": 0.33447916666666666,
      "grad_norm": 0.7952865958213806,
      "learning_rate": 0.0002256677941724019,
      "loss": 3.9834,
      "step": 160550
    },
    {
      "epoch": 0.3345,
      "grad_norm": 0.8132140040397644,
      "learning_rate": 0.00022565928174117815,
      "loss": 3.9361,
      "step": 160560
    },
    {
      "epoch": 0.3345208333333333,
      "grad_norm": 0.848585307598114,
      "learning_rate": 0.00022565076898313626,
      "loss": 4.0623,
      "step": 160570
    },
    {
      "epoch": 0.3345416666666667,
      "grad_norm": 0.8867815136909485,
      "learning_rate": 0.000225642255898313,
      "loss": 3.9439,
      "step": 160580
    },
    {
      "epoch": 0.3345625,
      "grad_norm": 0.8665806651115417,
      "learning_rate": 0.00022563374248674514,
      "loss": 4.02,
      "step": 160590
    },
    {
      "epoch": 0.33458333333333334,
      "grad_norm": 0.6870697736740112,
      "learning_rate": 0.00022562522874846943,
      "loss": 4.1054,
      "step": 160600
    },
    {
      "epoch": 0.33460416666666665,
      "grad_norm": 0.8063914179801941,
      "learning_rate": 0.00022561671468352264,
      "loss": 3.9228,
      "step": 160610
    },
    {
      "epoch": 0.334625,
      "grad_norm": 0.8055701851844788,
      "learning_rate": 0.00022560820029194167,
      "loss": 3.9566,
      "step": 160620
    },
    {
      "epoch": 0.3346458333333333,
      "grad_norm": 0.870814859867096,
      "learning_rate": 0.00022559968557376314,
      "loss": 3.8448,
      "step": 160630
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 0.8084012866020203,
      "learning_rate": 0.00022559117052902385,
      "loss": 3.7493,
      "step": 160640
    },
    {
      "epoch": 0.3346875,
      "grad_norm": 0.8138366937637329,
      "learning_rate": 0.0002255826551577607,
      "loss": 3.9233,
      "step": 160650
    },
    {
      "epoch": 0.33470833333333333,
      "grad_norm": 0.7941776514053345,
      "learning_rate": 0.00022557413946001039,
      "loss": 3.9459,
      "step": 160660
    },
    {
      "epoch": 0.3347291666666667,
      "grad_norm": 0.8387592434883118,
      "learning_rate": 0.00022556562343580965,
      "loss": 4.0412,
      "step": 160670
    },
    {
      "epoch": 0.33475,
      "grad_norm": 0.7752781510353088,
      "learning_rate": 0.0002255571070851954,
      "loss": 3.9589,
      "step": 160680
    },
    {
      "epoch": 0.33477083333333335,
      "grad_norm": 0.7627484798431396,
      "learning_rate": 0.0002255485904082043,
      "loss": 3.8731,
      "step": 160690
    },
    {
      "epoch": 0.33479166666666665,
      "grad_norm": 0.7983502745628357,
      "learning_rate": 0.00022554007340487323,
      "loss": 4.0983,
      "step": 160700
    },
    {
      "epoch": 0.3348125,
      "grad_norm": 0.735649585723877,
      "learning_rate": 0.00022553155607523892,
      "loss": 4.0797,
      "step": 160710
    },
    {
      "epoch": 0.3348333333333333,
      "grad_norm": 0.79020756483078,
      "learning_rate": 0.00022552303841933817,
      "loss": 3.8112,
      "step": 160720
    },
    {
      "epoch": 0.3348541666666667,
      "grad_norm": 0.7721657156944275,
      "learning_rate": 0.00022551452043720788,
      "loss": 3.9195,
      "step": 160730
    },
    {
      "epoch": 0.334875,
      "grad_norm": 0.9333049654960632,
      "learning_rate": 0.00022550600212888463,
      "loss": 4.1312,
      "step": 160740
    },
    {
      "epoch": 0.33489583333333334,
      "grad_norm": 0.8859468698501587,
      "learning_rate": 0.00022549748349440541,
      "loss": 3.9116,
      "step": 160750
    },
    {
      "epoch": 0.33491666666666664,
      "grad_norm": 0.7750353813171387,
      "learning_rate": 0.00022548896453380694,
      "loss": 4.0557,
      "step": 160760
    },
    {
      "epoch": 0.3349375,
      "grad_norm": 0.7817753553390503,
      "learning_rate": 0.00022548044524712602,
      "loss": 3.8613,
      "step": 160770
    },
    {
      "epoch": 0.33495833333333336,
      "grad_norm": 0.7791610956192017,
      "learning_rate": 0.00022547192563439943,
      "loss": 3.9231,
      "step": 160780
    },
    {
      "epoch": 0.33497916666666666,
      "grad_norm": 0.90267014503479,
      "learning_rate": 0.000225463405695664,
      "loss": 3.9477,
      "step": 160790
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.7424536347389221,
      "learning_rate": 0.00022545488543095657,
      "loss": 3.7864,
      "step": 160800
    },
    {
      "epoch": 0.3350208333333333,
      "grad_norm": 0.9138742089271545,
      "learning_rate": 0.00022544636484031385,
      "loss": 3.9349,
      "step": 160810
    },
    {
      "epoch": 0.3350416666666667,
      "grad_norm": 0.8596062660217285,
      "learning_rate": 0.00022543784392377273,
      "loss": 4.0568,
      "step": 160820
    },
    {
      "epoch": 0.3350625,
      "grad_norm": 0.8665869235992432,
      "learning_rate": 0.00022542932268136999,
      "loss": 4.0389,
      "step": 160830
    },
    {
      "epoch": 0.33508333333333334,
      "grad_norm": 0.8148677349090576,
      "learning_rate": 0.00022542080111314242,
      "loss": 4.136,
      "step": 160840
    },
    {
      "epoch": 0.33510416666666665,
      "grad_norm": 0.9587960839271545,
      "learning_rate": 0.00022541227921912683,
      "loss": 3.8262,
      "step": 160850
    },
    {
      "epoch": 0.335125,
      "grad_norm": 0.7800655961036682,
      "learning_rate": 0.00022540375699936006,
      "loss": 3.8687,
      "step": 160860
    },
    {
      "epoch": 0.3351458333333333,
      "grad_norm": 0.8203692436218262,
      "learning_rate": 0.00022539523445387887,
      "loss": 3.8902,
      "step": 160870
    },
    {
      "epoch": 0.33516666666666667,
      "grad_norm": 0.8146857619285583,
      "learning_rate": 0.00022538671158272016,
      "loss": 3.9719,
      "step": 160880
    },
    {
      "epoch": 0.3351875,
      "grad_norm": 0.7986838221549988,
      "learning_rate": 0.00022537818838592064,
      "loss": 4.1531,
      "step": 160890
    },
    {
      "epoch": 0.33520833333333333,
      "grad_norm": 0.7366148233413696,
      "learning_rate": 0.00022536966486351727,
      "loss": 3.8004,
      "step": 160900
    },
    {
      "epoch": 0.3352291666666667,
      "grad_norm": 0.7438657879829407,
      "learning_rate": 0.00022536114101554672,
      "loss": 4.0126,
      "step": 160910
    },
    {
      "epoch": 0.33525,
      "grad_norm": 0.8440759778022766,
      "learning_rate": 0.00022535261684204587,
      "loss": 3.9851,
      "step": 160920
    },
    {
      "epoch": 0.33527083333333335,
      "grad_norm": 1.202979326248169,
      "learning_rate": 0.00022534409234305157,
      "loss": 4.0769,
      "step": 160930
    },
    {
      "epoch": 0.33529166666666665,
      "grad_norm": 0.777442991733551,
      "learning_rate": 0.0002253355675186006,
      "loss": 4.1229,
      "step": 160940
    },
    {
      "epoch": 0.3353125,
      "grad_norm": 1.046937346458435,
      "learning_rate": 0.00022532704236872977,
      "loss": 3.9888,
      "step": 160950
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 0.7514855265617371,
      "learning_rate": 0.00022531851689347603,
      "loss": 3.9205,
      "step": 160960
    },
    {
      "epoch": 0.3353541666666667,
      "grad_norm": 0.8241945505142212,
      "learning_rate": 0.00022530999109287602,
      "loss": 4.0083,
      "step": 160970
    },
    {
      "epoch": 0.335375,
      "grad_norm": 0.7992525696754456,
      "learning_rate": 0.0002253014649669666,
      "loss": 3.8841,
      "step": 160980
    },
    {
      "epoch": 0.33539583333333334,
      "grad_norm": 0.7284411191940308,
      "learning_rate": 0.0002252929385157848,
      "loss": 4.0008,
      "step": 160990
    },
    {
      "epoch": 0.33541666666666664,
      "grad_norm": 0.8455864191055298,
      "learning_rate": 0.00022528441173936723,
      "loss": 3.9809,
      "step": 161000
    },
    {
      "epoch": 0.33541666666666664,
      "eval_loss": 3.7290968894958496,
      "eval_runtime": 6.8215,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 161000
    },
    {
      "epoch": 0.3354375,
      "grad_norm": 0.7968200445175171,
      "learning_rate": 0.0002252758846377508,
      "loss": 3.9212,
      "step": 161010
    },
    {
      "epoch": 0.33545833333333336,
      "grad_norm": 0.775184690952301,
      "learning_rate": 0.0002252673572109724,
      "loss": 3.9113,
      "step": 161020
    },
    {
      "epoch": 0.33547916666666666,
      "grad_norm": 0.8911364674568176,
      "learning_rate": 0.00022525882945906878,
      "loss": 3.8914,
      "step": 161030
    },
    {
      "epoch": 0.3355,
      "grad_norm": 0.8435154557228088,
      "learning_rate": 0.0002252503013820768,
      "loss": 3.8479,
      "step": 161040
    },
    {
      "epoch": 0.3355208333333333,
      "grad_norm": 0.80894935131073,
      "learning_rate": 0.00022524177298003327,
      "loss": 3.7974,
      "step": 161050
    },
    {
      "epoch": 0.3355416666666667,
      "grad_norm": 0.771905243396759,
      "learning_rate": 0.00022523324425297508,
      "loss": 4.1413,
      "step": 161060
    },
    {
      "epoch": 0.3355625,
      "grad_norm": 0.8193100094795227,
      "learning_rate": 0.00022522471520093905,
      "loss": 3.907,
      "step": 161070
    },
    {
      "epoch": 0.33558333333333334,
      "grad_norm": 0.827307939529419,
      "learning_rate": 0.00022521618582396207,
      "loss": 3.817,
      "step": 161080
    },
    {
      "epoch": 0.33560416666666665,
      "grad_norm": 0.8210097551345825,
      "learning_rate": 0.00022520765612208093,
      "loss": 3.8369,
      "step": 161090
    },
    {
      "epoch": 0.335625,
      "grad_norm": 0.798528254032135,
      "learning_rate": 0.00022519912609533245,
      "loss": 3.9443,
      "step": 161100
    },
    {
      "epoch": 0.3356458333333333,
      "grad_norm": 0.8617537021636963,
      "learning_rate": 0.00022519059574375357,
      "loss": 3.9351,
      "step": 161110
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 0.8086603283882141,
      "learning_rate": 0.000225182065067381,
      "loss": 4.3134,
      "step": 161120
    },
    {
      "epoch": 0.3356875,
      "grad_norm": 0.7855830192565918,
      "learning_rate": 0.00022517353406625173,
      "loss": 3.829,
      "step": 161130
    },
    {
      "epoch": 0.33570833333333333,
      "grad_norm": 0.7809748649597168,
      "learning_rate": 0.0002251650027404025,
      "loss": 3.9255,
      "step": 161140
    },
    {
      "epoch": 0.3357291666666667,
      "grad_norm": 1.259181022644043,
      "learning_rate": 0.00022515647108987025,
      "loss": 3.907,
      "step": 161150
    },
    {
      "epoch": 0.33575,
      "grad_norm": 0.7860927581787109,
      "learning_rate": 0.00022514793911469178,
      "loss": 4.0303,
      "step": 161160
    },
    {
      "epoch": 0.33577083333333335,
      "grad_norm": 1.156867504119873,
      "learning_rate": 0.000225139406814904,
      "loss": 3.8177,
      "step": 161170
    },
    {
      "epoch": 0.33579166666666665,
      "grad_norm": 0.8865979313850403,
      "learning_rate": 0.00022513087419054366,
      "loss": 3.844,
      "step": 161180
    },
    {
      "epoch": 0.3358125,
      "grad_norm": 0.803776204586029,
      "learning_rate": 0.00022512234124164772,
      "loss": 3.8654,
      "step": 161190
    },
    {
      "epoch": 0.3358333333333333,
      "grad_norm": 0.8464736342430115,
      "learning_rate": 0.00022511380796825297,
      "loss": 4.2018,
      "step": 161200
    },
    {
      "epoch": 0.3358541666666667,
      "grad_norm": 0.8735941648483276,
      "learning_rate": 0.0002251052743703963,
      "loss": 4.0894,
      "step": 161210
    },
    {
      "epoch": 0.335875,
      "grad_norm": 0.9668036699295044,
      "learning_rate": 0.0002250967404481146,
      "loss": 3.9486,
      "step": 161220
    },
    {
      "epoch": 0.33589583333333334,
      "grad_norm": 0.8095706105232239,
      "learning_rate": 0.00022508820620144467,
      "loss": 3.8312,
      "step": 161230
    },
    {
      "epoch": 0.33591666666666664,
      "grad_norm": 0.7945086359977722,
      "learning_rate": 0.00022507967163042347,
      "loss": 4.0782,
      "step": 161240
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 0.7337697744369507,
      "learning_rate": 0.00022507113673508777,
      "loss": 4.0356,
      "step": 161250
    },
    {
      "epoch": 0.33595833333333336,
      "grad_norm": 0.7519083023071289,
      "learning_rate": 0.0002250626015154745,
      "loss": 3.9244,
      "step": 161260
    },
    {
      "epoch": 0.33597916666666666,
      "grad_norm": 0.7663193941116333,
      "learning_rate": 0.0002250540659716205,
      "loss": 4.0731,
      "step": 161270
    },
    {
      "epoch": 0.336,
      "grad_norm": 2.010467529296875,
      "learning_rate": 0.00022504553010356258,
      "loss": 4.1828,
      "step": 161280
    },
    {
      "epoch": 0.3360208333333333,
      "grad_norm": 0.9348777532577515,
      "learning_rate": 0.00022503699391133772,
      "loss": 3.9637,
      "step": 161290
    },
    {
      "epoch": 0.3360416666666667,
      "grad_norm": 0.770226001739502,
      "learning_rate": 0.00022502845739498278,
      "loss": 4.0686,
      "step": 161300
    },
    {
      "epoch": 0.3360625,
      "grad_norm": 0.8134113550186157,
      "learning_rate": 0.00022501992055453456,
      "loss": 3.966,
      "step": 161310
    },
    {
      "epoch": 0.33608333333333335,
      "grad_norm": 0.8795642852783203,
      "learning_rate": 0.00022501138339003004,
      "loss": 4.0868,
      "step": 161320
    },
    {
      "epoch": 0.33610416666666665,
      "grad_norm": 0.8154042363166809,
      "learning_rate": 0.00022500284590150596,
      "loss": 3.8293,
      "step": 161330
    },
    {
      "epoch": 0.336125,
      "grad_norm": 0.8065338730812073,
      "learning_rate": 0.0002249943080889993,
      "loss": 3.9843,
      "step": 161340
    },
    {
      "epoch": 0.3361458333333333,
      "grad_norm": 0.7923732995986938,
      "learning_rate": 0.00022498576995254693,
      "loss": 4.0621,
      "step": 161350
    },
    {
      "epoch": 0.33616666666666667,
      "grad_norm": 0.8398104906082153,
      "learning_rate": 0.00022497723149218567,
      "loss": 3.977,
      "step": 161360
    },
    {
      "epoch": 0.3361875,
      "grad_norm": 0.9709382653236389,
      "learning_rate": 0.0002249686927079525,
      "loss": 3.9888,
      "step": 161370
    },
    {
      "epoch": 0.33620833333333333,
      "grad_norm": 0.8200648427009583,
      "learning_rate": 0.00022496015359988424,
      "loss": 3.9683,
      "step": 161380
    },
    {
      "epoch": 0.3362291666666667,
      "grad_norm": 0.8543182015419006,
      "learning_rate": 0.00022495161416801778,
      "loss": 4.0764,
      "step": 161390
    },
    {
      "epoch": 0.33625,
      "grad_norm": 0.7412464618682861,
      "learning_rate": 0.00022494307441238998,
      "loss": 3.9528,
      "step": 161400
    },
    {
      "epoch": 0.33627083333333335,
      "grad_norm": 0.7685803771018982,
      "learning_rate": 0.00022493453433303784,
      "loss": 3.8442,
      "step": 161410
    },
    {
      "epoch": 0.33629166666666666,
      "grad_norm": 0.7575539350509644,
      "learning_rate": 0.0002249259939299981,
      "loss": 3.9729,
      "step": 161420
    },
    {
      "epoch": 0.3363125,
      "grad_norm": 0.8052771687507629,
      "learning_rate": 0.00022491745320330774,
      "loss": 4.0756,
      "step": 161430
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 1.0949859619140625,
      "learning_rate": 0.00022490891215300366,
      "loss": 4.001,
      "step": 161440
    },
    {
      "epoch": 0.3363541666666667,
      "grad_norm": 0.8721044063568115,
      "learning_rate": 0.00022490037077912273,
      "loss": 3.7936,
      "step": 161450
    },
    {
      "epoch": 0.336375,
      "grad_norm": 0.8314675688743591,
      "learning_rate": 0.00022489182908170185,
      "loss": 3.7912,
      "step": 161460
    },
    {
      "epoch": 0.33639583333333334,
      "grad_norm": 0.7442392706871033,
      "learning_rate": 0.0002248832870607779,
      "loss": 4.1668,
      "step": 161470
    },
    {
      "epoch": 0.33641666666666664,
      "grad_norm": 0.7283623814582825,
      "learning_rate": 0.00022487474471638778,
      "loss": 4.0016,
      "step": 161480
    },
    {
      "epoch": 0.3364375,
      "grad_norm": 1.0072202682495117,
      "learning_rate": 0.0002248662020485684,
      "loss": 3.8177,
      "step": 161490
    },
    {
      "epoch": 0.33645833333333336,
      "grad_norm": 0.8563490509986877,
      "learning_rate": 0.0002248576590573567,
      "loss": 3.8223,
      "step": 161500
    },
    {
      "epoch": 0.33647916666666666,
      "grad_norm": 0.972073495388031,
      "learning_rate": 0.00022484911574278949,
      "loss": 3.868,
      "step": 161510
    },
    {
      "epoch": 0.3365,
      "grad_norm": 0.7257263660430908,
      "learning_rate": 0.00022484057210490378,
      "loss": 3.8015,
      "step": 161520
    },
    {
      "epoch": 0.3365208333333333,
      "grad_norm": 0.8497894406318665,
      "learning_rate": 0.0002248320281437364,
      "loss": 3.9443,
      "step": 161530
    },
    {
      "epoch": 0.3365416666666667,
      "grad_norm": 0.727021336555481,
      "learning_rate": 0.00022482348385932422,
      "loss": 3.8604,
      "step": 161540
    },
    {
      "epoch": 0.3365625,
      "grad_norm": 1.0488866567611694,
      "learning_rate": 0.00022481493925170432,
      "loss": 4.0399,
      "step": 161550
    },
    {
      "epoch": 0.33658333333333335,
      "grad_norm": 0.8007185459136963,
      "learning_rate": 0.0002248063943209134,
      "loss": 3.9846,
      "step": 161560
    },
    {
      "epoch": 0.33660416666666665,
      "grad_norm": 0.8408666849136353,
      "learning_rate": 0.0002247978490669885,
      "loss": 3.9923,
      "step": 161570
    },
    {
      "epoch": 0.336625,
      "grad_norm": 0.8178531527519226,
      "learning_rate": 0.00022478930348996648,
      "loss": 3.9485,
      "step": 161580
    },
    {
      "epoch": 0.3366458333333333,
      "grad_norm": 1.0119249820709229,
      "learning_rate": 0.00022478075758988433,
      "loss": 3.8839,
      "step": 161590
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 0.8639993071556091,
      "learning_rate": 0.00022477221136677885,
      "loss": 4.0639,
      "step": 161600
    },
    {
      "epoch": 0.3366875,
      "grad_norm": 0.7798958420753479,
      "learning_rate": 0.00022476366482068706,
      "loss": 3.8539,
      "step": 161610
    },
    {
      "epoch": 0.33670833333333333,
      "grad_norm": 0.8534601330757141,
      "learning_rate": 0.0002247551179516458,
      "loss": 4.0464,
      "step": 161620
    },
    {
      "epoch": 0.3367291666666667,
      "grad_norm": 1.0781503915786743,
      "learning_rate": 0.00022474657075969207,
      "loss": 3.9432,
      "step": 161630
    },
    {
      "epoch": 0.33675,
      "grad_norm": 0.8696296811103821,
      "learning_rate": 0.00022473802324486262,
      "loss": 4.0313,
      "step": 161640
    },
    {
      "epoch": 0.33677083333333335,
      "grad_norm": 0.730403482913971,
      "learning_rate": 0.0002247294754071946,
      "loss": 3.9593,
      "step": 161650
    },
    {
      "epoch": 0.33679166666666666,
      "grad_norm": 0.7700127363204956,
      "learning_rate": 0.00022472092724672483,
      "loss": 3.9514,
      "step": 161660
    },
    {
      "epoch": 0.3368125,
      "grad_norm": 0.7759024500846863,
      "learning_rate": 0.0002247123787634902,
      "loss": 4.0743,
      "step": 161670
    },
    {
      "epoch": 0.3368333333333333,
      "grad_norm": 0.7306858897209167,
      "learning_rate": 0.00022470382995752762,
      "loss": 3.9906,
      "step": 161680
    },
    {
      "epoch": 0.3368541666666667,
      "grad_norm": 0.9949498176574707,
      "learning_rate": 0.00022469528082887414,
      "loss": 4.1169,
      "step": 161690
    },
    {
      "epoch": 0.336875,
      "grad_norm": 0.9093483686447144,
      "learning_rate": 0.0002246867313775666,
      "loss": 3.945,
      "step": 161700
    },
    {
      "epoch": 0.33689583333333334,
      "grad_norm": 0.7933576703071594,
      "learning_rate": 0.0002246781816036419,
      "loss": 3.886,
      "step": 161710
    },
    {
      "epoch": 0.33691666666666664,
      "grad_norm": 0.7664082050323486,
      "learning_rate": 0.00022466963150713707,
      "loss": 3.8772,
      "step": 161720
    },
    {
      "epoch": 0.3369375,
      "grad_norm": 0.7749373912811279,
      "learning_rate": 0.00022466108108808893,
      "loss": 3.9799,
      "step": 161730
    },
    {
      "epoch": 0.33695833333333336,
      "grad_norm": 0.8040647506713867,
      "learning_rate": 0.00022465253034653453,
      "loss": 3.7642,
      "step": 161740
    },
    {
      "epoch": 0.33697916666666666,
      "grad_norm": 0.8332124352455139,
      "learning_rate": 0.00022464397928251072,
      "loss": 4.0376,
      "step": 161750
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.7941968441009521,
      "learning_rate": 0.00022463542789605444,
      "loss": 3.7991,
      "step": 161760
    },
    {
      "epoch": 0.3370208333333333,
      "grad_norm": 0.7930341958999634,
      "learning_rate": 0.00022462687618720272,
      "loss": 3.7598,
      "step": 161770
    },
    {
      "epoch": 0.3370416666666667,
      "grad_norm": 0.9288573265075684,
      "learning_rate": 0.00022461832415599238,
      "loss": 3.9039,
      "step": 161780
    },
    {
      "epoch": 0.3370625,
      "grad_norm": 0.7867137789726257,
      "learning_rate": 0.00022460977180246042,
      "loss": 4.1236,
      "step": 161790
    },
    {
      "epoch": 0.33708333333333335,
      "grad_norm": 0.7582424283027649,
      "learning_rate": 0.00022460121912664383,
      "loss": 3.9125,
      "step": 161800
    },
    {
      "epoch": 0.33710416666666665,
      "grad_norm": 0.8956112861633301,
      "learning_rate": 0.00022459266612857943,
      "loss": 4.0956,
      "step": 161810
    },
    {
      "epoch": 0.337125,
      "grad_norm": 0.78311687707901,
      "learning_rate": 0.00022458411280830429,
      "loss": 4.1171,
      "step": 161820
    },
    {
      "epoch": 0.3371458333333333,
      "grad_norm": 0.8096243143081665,
      "learning_rate": 0.00022457555916585527,
      "loss": 3.9583,
      "step": 161830
    },
    {
      "epoch": 0.33716666666666667,
      "grad_norm": 0.7972646355628967,
      "learning_rate": 0.00022456700520126938,
      "loss": 3.8685,
      "step": 161840
    },
    {
      "epoch": 0.3371875,
      "grad_norm": 0.9093496203422546,
      "learning_rate": 0.00022455845091458353,
      "loss": 3.708,
      "step": 161850
    },
    {
      "epoch": 0.33720833333333333,
      "grad_norm": 0.7789202928543091,
      "learning_rate": 0.00022454989630583472,
      "loss": 4.0088,
      "step": 161860
    },
    {
      "epoch": 0.3372291666666667,
      "grad_norm": 0.7078375816345215,
      "learning_rate": 0.0002245413413750598,
      "loss": 4.0461,
      "step": 161870
    },
    {
      "epoch": 0.33725,
      "grad_norm": 0.7700104117393494,
      "learning_rate": 0.0002245327861222958,
      "loss": 4.0173,
      "step": 161880
    },
    {
      "epoch": 0.33727083333333335,
      "grad_norm": 0.8782575726509094,
      "learning_rate": 0.00022452423054757973,
      "loss": 3.9185,
      "step": 161890
    },
    {
      "epoch": 0.33729166666666666,
      "grad_norm": 0.7777804732322693,
      "learning_rate": 0.00022451567465094844,
      "loss": 3.8431,
      "step": 161900
    },
    {
      "epoch": 0.3373125,
      "grad_norm": 0.7239716649055481,
      "learning_rate": 0.00022450711843243894,
      "loss": 4.0339,
      "step": 161910
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 0.9416463971138,
      "learning_rate": 0.00022449856189208815,
      "loss": 3.9169,
      "step": 161920
    },
    {
      "epoch": 0.3373541666666667,
      "grad_norm": 0.7416239380836487,
      "learning_rate": 0.0002244900050299331,
      "loss": 4.1183,
      "step": 161930
    },
    {
      "epoch": 0.337375,
      "grad_norm": 1.0181851387023926,
      "learning_rate": 0.0002244814478460107,
      "loss": 4.0196,
      "step": 161940
    },
    {
      "epoch": 0.33739583333333334,
      "grad_norm": 0.775286853313446,
      "learning_rate": 0.00022447289034035792,
      "loss": 3.844,
      "step": 161950
    },
    {
      "epoch": 0.33741666666666664,
      "grad_norm": 0.7494537234306335,
      "learning_rate": 0.00022446433251301174,
      "loss": 3.8767,
      "step": 161960
    },
    {
      "epoch": 0.3374375,
      "grad_norm": 0.8585761189460754,
      "learning_rate": 0.00022445577436400912,
      "loss": 3.8582,
      "step": 161970
    },
    {
      "epoch": 0.33745833333333336,
      "grad_norm": 0.9166967272758484,
      "learning_rate": 0.00022444721589338703,
      "loss": 3.9451,
      "step": 161980
    },
    {
      "epoch": 0.33747916666666666,
      "grad_norm": 0.7581289410591125,
      "learning_rate": 0.00022443865710118242,
      "loss": 3.8171,
      "step": 161990
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.8130501508712769,
      "learning_rate": 0.00022443009798743231,
      "loss": 3.9749,
      "step": 162000
    },
    {
      "epoch": 0.3375,
      "eval_loss": 3.7477104663848877,
      "eval_runtime": 6.8043,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 162000
    },
    {
      "epoch": 0.3375208333333333,
      "grad_norm": 0.7342872023582458,
      "learning_rate": 0.00022442153855217357,
      "loss": 4.1248,
      "step": 162010
    },
    {
      "epoch": 0.3375416666666667,
      "grad_norm": 0.8886352777481079,
      "learning_rate": 0.00022441297879544327,
      "loss": 3.8901,
      "step": 162020
    },
    {
      "epoch": 0.3375625,
      "grad_norm": 0.7396771311759949,
      "learning_rate": 0.00022440441871727842,
      "loss": 4.094,
      "step": 162030
    },
    {
      "epoch": 0.33758333333333335,
      "grad_norm": 0.8302015662193298,
      "learning_rate": 0.00022439585831771587,
      "loss": 3.6752,
      "step": 162040
    },
    {
      "epoch": 0.33760416666666665,
      "grad_norm": 0.9035605192184448,
      "learning_rate": 0.0002243872975967927,
      "loss": 3.9379,
      "step": 162050
    },
    {
      "epoch": 0.337625,
      "grad_norm": 0.7974288463592529,
      "learning_rate": 0.0002243787365545458,
      "loss": 3.8805,
      "step": 162060
    },
    {
      "epoch": 0.3376458333333333,
      "grad_norm": 0.8190938234329224,
      "learning_rate": 0.00022437017519101222,
      "loss": 4.0935,
      "step": 162070
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 1.2162421941757202,
      "learning_rate": 0.00022436161350622893,
      "loss": 3.8145,
      "step": 162080
    },
    {
      "epoch": 0.3376875,
      "grad_norm": 1.155202031135559,
      "learning_rate": 0.0002243530515002329,
      "loss": 4.009,
      "step": 162090
    },
    {
      "epoch": 0.33770833333333333,
      "grad_norm": 1.135533332824707,
      "learning_rate": 0.0002243444891730611,
      "loss": 4.2745,
      "step": 162100
    },
    {
      "epoch": 0.3377291666666667,
      "grad_norm": 0.8045693635940552,
      "learning_rate": 0.00022433592652475054,
      "loss": 3.8988,
      "step": 162110
    },
    {
      "epoch": 0.33775,
      "grad_norm": 0.8104230761528015,
      "learning_rate": 0.00022432736355533823,
      "loss": 4.0616,
      "step": 162120
    },
    {
      "epoch": 0.33777083333333335,
      "grad_norm": 0.8186234831809998,
      "learning_rate": 0.00022431880026486112,
      "loss": 3.9495,
      "step": 162130
    },
    {
      "epoch": 0.33779166666666666,
      "grad_norm": 1.0782862901687622,
      "learning_rate": 0.0002243102366533562,
      "loss": 4.2211,
      "step": 162140
    },
    {
      "epoch": 0.3378125,
      "grad_norm": 0.746877908706665,
      "learning_rate": 0.00022430167272086048,
      "loss": 3.9095,
      "step": 162150
    },
    {
      "epoch": 0.3378333333333333,
      "grad_norm": 0.7474284768104553,
      "learning_rate": 0.00022429310846741092,
      "loss": 3.8152,
      "step": 162160
    },
    {
      "epoch": 0.3378541666666667,
      "grad_norm": 0.7998188734054565,
      "learning_rate": 0.00022428454389304458,
      "loss": 3.8251,
      "step": 162170
    },
    {
      "epoch": 0.337875,
      "grad_norm": 0.8169445991516113,
      "learning_rate": 0.00022427597899779835,
      "loss": 3.9829,
      "step": 162180
    },
    {
      "epoch": 0.33789583333333334,
      "grad_norm": 0.9508313536643982,
      "learning_rate": 0.00022426741378170934,
      "loss": 3.9896,
      "step": 162190
    },
    {
      "epoch": 0.33791666666666664,
      "grad_norm": 0.7808263301849365,
      "learning_rate": 0.00022425884824481452,
      "loss": 3.8989,
      "step": 162200
    },
    {
      "epoch": 0.3379375,
      "grad_norm": 0.8256769180297852,
      "learning_rate": 0.00022425028238715083,
      "loss": 3.984,
      "step": 162210
    },
    {
      "epoch": 0.33795833333333336,
      "grad_norm": 0.7265108227729797,
      "learning_rate": 0.00022424171620875533,
      "loss": 3.738,
      "step": 162220
    },
    {
      "epoch": 0.33797916666666666,
      "grad_norm": 0.8325300812721252,
      "learning_rate": 0.00022423314970966503,
      "loss": 3.9101,
      "step": 162230
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.8021994829177856,
      "learning_rate": 0.00022422458288991683,
      "loss": 3.7575,
      "step": 162240
    },
    {
      "epoch": 0.3380208333333333,
      "grad_norm": 0.8056188821792603,
      "learning_rate": 0.00022421601574954786,
      "loss": 4.0255,
      "step": 162250
    },
    {
      "epoch": 0.3380416666666667,
      "grad_norm": 0.793844997882843,
      "learning_rate": 0.0002242074482885951,
      "loss": 3.7841,
      "step": 162260
    },
    {
      "epoch": 0.3380625,
      "grad_norm": 0.7764934301376343,
      "learning_rate": 0.00022419888050709548,
      "loss": 4.0315,
      "step": 162270
    },
    {
      "epoch": 0.33808333333333335,
      "grad_norm": 0.7436262369155884,
      "learning_rate": 0.0002241903124050861,
      "loss": 3.8146,
      "step": 162280
    },
    {
      "epoch": 0.33810416666666665,
      "grad_norm": 0.9331051707267761,
      "learning_rate": 0.00022418174398260393,
      "loss": 4.0405,
      "step": 162290
    },
    {
      "epoch": 0.338125,
      "grad_norm": 0.8229598999023438,
      "learning_rate": 0.000224173175239686,
      "loss": 3.9881,
      "step": 162300
    },
    {
      "epoch": 0.3381458333333333,
      "grad_norm": 0.7820064425468445,
      "learning_rate": 0.0002241646061763693,
      "loss": 4.0326,
      "step": 162310
    },
    {
      "epoch": 0.33816666666666667,
      "grad_norm": 0.7554141879081726,
      "learning_rate": 0.00022415603679269084,
      "loss": 3.8265,
      "step": 162320
    },
    {
      "epoch": 0.3381875,
      "grad_norm": 0.7441016435623169,
      "learning_rate": 0.0002241474670886877,
      "loss": 3.7601,
      "step": 162330
    },
    {
      "epoch": 0.33820833333333333,
      "grad_norm": 0.7487521171569824,
      "learning_rate": 0.00022413889706439683,
      "loss": 3.8592,
      "step": 162340
    },
    {
      "epoch": 0.3382291666666667,
      "grad_norm": 0.8802914619445801,
      "learning_rate": 0.00022413032671985526,
      "loss": 4.0973,
      "step": 162350
    },
    {
      "epoch": 0.33825,
      "grad_norm": 0.7656489610671997,
      "learning_rate": 0.00022412175605510004,
      "loss": 3.9714,
      "step": 162360
    },
    {
      "epoch": 0.33827083333333335,
      "grad_norm": 0.8148778676986694,
      "learning_rate": 0.00022411318507016816,
      "loss": 4.0129,
      "step": 162370
    },
    {
      "epoch": 0.33829166666666666,
      "grad_norm": 0.7403947710990906,
      "learning_rate": 0.00022410461376509664,
      "loss": 3.8893,
      "step": 162380
    },
    {
      "epoch": 0.3383125,
      "grad_norm": 0.8053754568099976,
      "learning_rate": 0.00022409604213992256,
      "loss": 4.1332,
      "step": 162390
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 0.888847291469574,
      "learning_rate": 0.0002240874701946829,
      "loss": 4.1897,
      "step": 162400
    },
    {
      "epoch": 0.3383541666666667,
      "grad_norm": 0.8760462999343872,
      "learning_rate": 0.00022407889792941467,
      "loss": 4.1065,
      "step": 162410
    },
    {
      "epoch": 0.338375,
      "grad_norm": 0.7233355045318604,
      "learning_rate": 0.00022407032534415492,
      "loss": 4.0533,
      "step": 162420
    },
    {
      "epoch": 0.33839583333333334,
      "grad_norm": 0.8535104393959045,
      "learning_rate": 0.0002240617524389407,
      "loss": 4.012,
      "step": 162430
    },
    {
      "epoch": 0.33841666666666664,
      "grad_norm": 0.7478011250495911,
      "learning_rate": 0.00022405317921380904,
      "loss": 4.2606,
      "step": 162440
    },
    {
      "epoch": 0.3384375,
      "grad_norm": 0.8753297924995422,
      "learning_rate": 0.00022404460566879692,
      "loss": 4.0588,
      "step": 162450
    },
    {
      "epoch": 0.33845833333333336,
      "grad_norm": 0.8928223848342896,
      "learning_rate": 0.00022403603180394145,
      "loss": 3.9512,
      "step": 162460
    },
    {
      "epoch": 0.33847916666666666,
      "grad_norm": 0.76938796043396,
      "learning_rate": 0.00022402745761927962,
      "loss": 4.0565,
      "step": 162470
    },
    {
      "epoch": 0.3385,
      "grad_norm": 0.9030153751373291,
      "learning_rate": 0.00022401888311484846,
      "loss": 3.8175,
      "step": 162480
    },
    {
      "epoch": 0.3385208333333333,
      "grad_norm": 0.7783787846565247,
      "learning_rate": 0.00022401030829068505,
      "loss": 3.6925,
      "step": 162490
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 0.7736326456069946,
      "learning_rate": 0.0002240017331468264,
      "loss": 3.8942,
      "step": 162500
    },
    {
      "epoch": 0.3385625,
      "grad_norm": 0.7867745757102966,
      "learning_rate": 0.00022399315768330952,
      "loss": 3.8335,
      "step": 162510
    },
    {
      "epoch": 0.33858333333333335,
      "grad_norm": 0.787312388420105,
      "learning_rate": 0.0002239845819001715,
      "loss": 3.758,
      "step": 162520
    },
    {
      "epoch": 0.33860416666666665,
      "grad_norm": 0.7647608518600464,
      "learning_rate": 0.00022397600579744938,
      "loss": 4.0457,
      "step": 162530
    },
    {
      "epoch": 0.338625,
      "grad_norm": 0.7987099289894104,
      "learning_rate": 0.0002239674293751802,
      "loss": 3.9539,
      "step": 162540
    },
    {
      "epoch": 0.3386458333333333,
      "grad_norm": 0.8107227683067322,
      "learning_rate": 0.00022395885263340096,
      "loss": 4.0032,
      "step": 162550
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 0.7670339941978455,
      "learning_rate": 0.00022395027557214884,
      "loss": 4.0869,
      "step": 162560
    },
    {
      "epoch": 0.3386875,
      "grad_norm": 0.7536309957504272,
      "learning_rate": 0.00022394169819146074,
      "loss": 3.902,
      "step": 162570
    },
    {
      "epoch": 0.33870833333333333,
      "grad_norm": 0.7886547446250916,
      "learning_rate": 0.00022393312049137377,
      "loss": 4.0009,
      "step": 162580
    },
    {
      "epoch": 0.3387291666666667,
      "grad_norm": 0.7713823318481445,
      "learning_rate": 0.000223924542471925,
      "loss": 3.9254,
      "step": 162590
    },
    {
      "epoch": 0.33875,
      "grad_norm": 0.8874303102493286,
      "learning_rate": 0.00022391596413315148,
      "loss": 3.9214,
      "step": 162600
    },
    {
      "epoch": 0.33877083333333335,
      "grad_norm": 1.0201647281646729,
      "learning_rate": 0.00022390738547509024,
      "loss": 3.904,
      "step": 162610
    },
    {
      "epoch": 0.33879166666666666,
      "grad_norm": 0.7743620872497559,
      "learning_rate": 0.00022389880649777835,
      "loss": 4.0345,
      "step": 162620
    },
    {
      "epoch": 0.3388125,
      "grad_norm": 0.7936593294143677,
      "learning_rate": 0.00022389022720125285,
      "loss": 3.9494,
      "step": 162630
    },
    {
      "epoch": 0.3388333333333333,
      "grad_norm": 0.7891659140586853,
      "learning_rate": 0.00022388164758555082,
      "loss": 3.9889,
      "step": 162640
    },
    {
      "epoch": 0.3388541666666667,
      "grad_norm": 0.8014134764671326,
      "learning_rate": 0.00022387306765070936,
      "loss": 3.8773,
      "step": 162650
    },
    {
      "epoch": 0.338875,
      "grad_norm": 1.0037477016448975,
      "learning_rate": 0.00022386448739676544,
      "loss": 3.9081,
      "step": 162660
    },
    {
      "epoch": 0.33889583333333334,
      "grad_norm": 0.7784523367881775,
      "learning_rate": 0.0002238559068237562,
      "loss": 3.9288,
      "step": 162670
    },
    {
      "epoch": 0.33891666666666664,
      "grad_norm": 0.7867985963821411,
      "learning_rate": 0.00022384732593171863,
      "loss": 4.104,
      "step": 162680
    },
    {
      "epoch": 0.3389375,
      "grad_norm": 0.9762236475944519,
      "learning_rate": 0.00022383874472068992,
      "loss": 4.0456,
      "step": 162690
    },
    {
      "epoch": 0.3389583333333333,
      "grad_norm": 0.8154585361480713,
      "learning_rate": 0.00022383016319070702,
      "loss": 3.8514,
      "step": 162700
    },
    {
      "epoch": 0.33897916666666666,
      "grad_norm": 0.843257486820221,
      "learning_rate": 0.00022382158134180702,
      "loss": 3.8926,
      "step": 162710
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.8014928698539734,
      "learning_rate": 0.000223812999174027,
      "loss": 4.1191,
      "step": 162720
    },
    {
      "epoch": 0.3390208333333333,
      "grad_norm": 0.7969096899032593,
      "learning_rate": 0.00022380441668740412,
      "loss": 3.9584,
      "step": 162730
    },
    {
      "epoch": 0.3390416666666667,
      "grad_norm": 0.7478466033935547,
      "learning_rate": 0.00022379583388197532,
      "loss": 3.9187,
      "step": 162740
    },
    {
      "epoch": 0.3390625,
      "grad_norm": 0.772162675857544,
      "learning_rate": 0.0002237872507577777,
      "loss": 3.8418,
      "step": 162750
    },
    {
      "epoch": 0.33908333333333335,
      "grad_norm": 0.7668770551681519,
      "learning_rate": 0.00022377866731484842,
      "loss": 3.8388,
      "step": 162760
    },
    {
      "epoch": 0.33910416666666665,
      "grad_norm": 0.8283595442771912,
      "learning_rate": 0.00022377008355322446,
      "loss": 3.7862,
      "step": 162770
    },
    {
      "epoch": 0.339125,
      "grad_norm": 0.8228563666343689,
      "learning_rate": 0.00022376149947294296,
      "loss": 3.9447,
      "step": 162780
    },
    {
      "epoch": 0.3391458333333333,
      "grad_norm": 0.8403246998786926,
      "learning_rate": 0.00022375291507404098,
      "loss": 3.9494,
      "step": 162790
    },
    {
      "epoch": 0.33916666666666667,
      "grad_norm": 0.8584428429603577,
      "learning_rate": 0.0002237443303565556,
      "loss": 4.0513,
      "step": 162800
    },
    {
      "epoch": 0.3391875,
      "grad_norm": 0.8159204721450806,
      "learning_rate": 0.00022373574532052388,
      "loss": 4.0243,
      "step": 162810
    },
    {
      "epoch": 0.33920833333333333,
      "grad_norm": 0.7785270810127258,
      "learning_rate": 0.00022372715996598293,
      "loss": 3.9548,
      "step": 162820
    },
    {
      "epoch": 0.3392291666666667,
      "grad_norm": 0.7865288257598877,
      "learning_rate": 0.00022371857429296984,
      "loss": 3.8038,
      "step": 162830
    },
    {
      "epoch": 0.33925,
      "grad_norm": 0.8303260207176208,
      "learning_rate": 0.00022370998830152172,
      "loss": 4.065,
      "step": 162840
    },
    {
      "epoch": 0.33927083333333335,
      "grad_norm": 0.7774438261985779,
      "learning_rate": 0.00022370140199167558,
      "loss": 4.1555,
      "step": 162850
    },
    {
      "epoch": 0.33929166666666666,
      "grad_norm": 0.7644675970077515,
      "learning_rate": 0.00022369281536346858,
      "loss": 3.9856,
      "step": 162860
    },
    {
      "epoch": 0.3393125,
      "grad_norm": 0.8306644558906555,
      "learning_rate": 0.00022368422841693782,
      "loss": 3.8662,
      "step": 162870
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 0.7863214015960693,
      "learning_rate": 0.00022367564115212028,
      "loss": 3.8246,
      "step": 162880
    },
    {
      "epoch": 0.3393541666666667,
      "grad_norm": 1.0186794996261597,
      "learning_rate": 0.00022366705356905318,
      "loss": 4.0075,
      "step": 162890
    },
    {
      "epoch": 0.339375,
      "grad_norm": 0.8102407455444336,
      "learning_rate": 0.00022365846566777358,
      "loss": 4.0544,
      "step": 162900
    },
    {
      "epoch": 0.33939583333333334,
      "grad_norm": 0.9574055075645447,
      "learning_rate": 0.00022364987744831857,
      "loss": 4.0787,
      "step": 162910
    },
    {
      "epoch": 0.33941666666666664,
      "grad_norm": 0.8285115361213684,
      "learning_rate": 0.0002236412889107252,
      "loss": 3.9492,
      "step": 162920
    },
    {
      "epoch": 0.3394375,
      "grad_norm": 0.7829485535621643,
      "learning_rate": 0.00022363270005503063,
      "loss": 3.8609,
      "step": 162930
    },
    {
      "epoch": 0.3394583333333333,
      "grad_norm": 0.7646336555480957,
      "learning_rate": 0.00022362411088127195,
      "loss": 3.9085,
      "step": 162940
    },
    {
      "epoch": 0.33947916666666667,
      "grad_norm": 0.7583005428314209,
      "learning_rate": 0.00022361552138948625,
      "loss": 3.88,
      "step": 162950
    },
    {
      "epoch": 0.3395,
      "grad_norm": 0.7584671974182129,
      "learning_rate": 0.00022360693157971062,
      "loss": 3.8388,
      "step": 162960
    },
    {
      "epoch": 0.3395208333333333,
      "grad_norm": 0.8318608403205872,
      "learning_rate": 0.0002235983414519822,
      "loss": 3.9817,
      "step": 162970
    },
    {
      "epoch": 0.3395416666666667,
      "grad_norm": 0.9444756507873535,
      "learning_rate": 0.00022358975100633807,
      "loss": 3.874,
      "step": 162980
    },
    {
      "epoch": 0.3395625,
      "grad_norm": 0.7840021848678589,
      "learning_rate": 0.00022358116024281537,
      "loss": 4.0079,
      "step": 162990
    },
    {
      "epoch": 0.33958333333333335,
      "grad_norm": 0.8669692873954773,
      "learning_rate": 0.00022357256916145113,
      "loss": 4.027,
      "step": 163000
    },
    {
      "epoch": 0.33958333333333335,
      "eval_loss": 3.7321040630340576,
      "eval_runtime": 6.8628,
      "eval_samples_per_second": 1.457,
      "eval_steps_per_second": 0.437,
      "step": 163000
    },
    {
      "epoch": 0.33960416666666665,
      "grad_norm": 0.9229458570480347,
      "learning_rate": 0.00022356397776228257,
      "loss": 3.904,
      "step": 163010
    },
    {
      "epoch": 0.339625,
      "grad_norm": 0.8211532831192017,
      "learning_rate": 0.0002235553860453467,
      "loss": 3.9568,
      "step": 163020
    },
    {
      "epoch": 0.3396458333333333,
      "grad_norm": 1.0345234870910645,
      "learning_rate": 0.0002235467940106807,
      "loss": 3.8532,
      "step": 163030
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 0.735464870929718,
      "learning_rate": 0.00022353820165832167,
      "loss": 3.8315,
      "step": 163040
    },
    {
      "epoch": 0.3396875,
      "grad_norm": 0.8463595509529114,
      "learning_rate": 0.00022352960898830668,
      "loss": 4.0221,
      "step": 163050
    },
    {
      "epoch": 0.33970833333333333,
      "grad_norm": 0.7797787189483643,
      "learning_rate": 0.0002235210160006729,
      "loss": 3.8627,
      "step": 163060
    },
    {
      "epoch": 0.3397291666666667,
      "grad_norm": 0.7870000600814819,
      "learning_rate": 0.00022351242269545745,
      "loss": 4.0412,
      "step": 163070
    },
    {
      "epoch": 0.33975,
      "grad_norm": 0.8315466046333313,
      "learning_rate": 0.00022350382907269744,
      "loss": 3.7862,
      "step": 163080
    },
    {
      "epoch": 0.33977083333333336,
      "grad_norm": 0.8373317122459412,
      "learning_rate": 0.00022349523513242998,
      "loss": 3.9589,
      "step": 163090
    },
    {
      "epoch": 0.33979166666666666,
      "grad_norm": 0.7295832633972168,
      "learning_rate": 0.00022348664087469216,
      "loss": 4.026,
      "step": 163100
    },
    {
      "epoch": 0.3398125,
      "grad_norm": 1.0317513942718506,
      "learning_rate": 0.00022347804629952117,
      "loss": 3.862,
      "step": 163110
    },
    {
      "epoch": 0.3398333333333333,
      "grad_norm": 0.809740424156189,
      "learning_rate": 0.0002234694514069541,
      "loss": 3.8562,
      "step": 163120
    },
    {
      "epoch": 0.3398541666666667,
      "grad_norm": 0.8755978941917419,
      "learning_rate": 0.0002234608561970281,
      "loss": 3.9236,
      "step": 163130
    },
    {
      "epoch": 0.339875,
      "grad_norm": 0.7928218245506287,
      "learning_rate": 0.00022345226066978024,
      "loss": 4.0362,
      "step": 163140
    },
    {
      "epoch": 0.33989583333333334,
      "grad_norm": 0.8312007188796997,
      "learning_rate": 0.0002234436648252477,
      "loss": 4.0513,
      "step": 163150
    },
    {
      "epoch": 0.33991666666666664,
      "grad_norm": 0.7415060997009277,
      "learning_rate": 0.0002234350686634676,
      "loss": 3.8861,
      "step": 163160
    },
    {
      "epoch": 0.3399375,
      "grad_norm": 0.8120036721229553,
      "learning_rate": 0.00022342647218447708,
      "loss": 3.7977,
      "step": 163170
    },
    {
      "epoch": 0.3399583333333333,
      "grad_norm": 0.7711758017539978,
      "learning_rate": 0.00022341787538831325,
      "loss": 4.0113,
      "step": 163180
    },
    {
      "epoch": 0.33997916666666667,
      "grad_norm": 0.8447312712669373,
      "learning_rate": 0.0002234092782750133,
      "loss": 3.8264,
      "step": 163190
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8090746402740479,
      "learning_rate": 0.00022340068084461423,
      "loss": 3.8644,
      "step": 163200
    },
    {
      "epoch": 0.3400208333333333,
      "grad_norm": 0.759580671787262,
      "learning_rate": 0.00022339208309715336,
      "loss": 3.9157,
      "step": 163210
    },
    {
      "epoch": 0.3400416666666667,
      "grad_norm": 0.8014101982116699,
      "learning_rate": 0.00022338348503266774,
      "loss": 3.9481,
      "step": 163220
    },
    {
      "epoch": 0.3400625,
      "grad_norm": 0.8489538431167603,
      "learning_rate": 0.00022337488665119453,
      "loss": 3.988,
      "step": 163230
    },
    {
      "epoch": 0.34008333333333335,
      "grad_norm": 0.7304545640945435,
      "learning_rate": 0.0002233662879527708,
      "loss": 4.0884,
      "step": 163240
    },
    {
      "epoch": 0.34010416666666665,
      "grad_norm": 0.7977946996688843,
      "learning_rate": 0.00022335768893743372,
      "loss": 3.9491,
      "step": 163250
    },
    {
      "epoch": 0.340125,
      "grad_norm": 0.7292487025260925,
      "learning_rate": 0.00022334908960522053,
      "loss": 3.86,
      "step": 163260
    },
    {
      "epoch": 0.3401458333333333,
      "grad_norm": 0.7715104222297668,
      "learning_rate": 0.00022334048995616826,
      "loss": 3.9488,
      "step": 163270
    },
    {
      "epoch": 0.3401666666666667,
      "grad_norm": 0.9001474976539612,
      "learning_rate": 0.00022333188999031415,
      "loss": 3.8621,
      "step": 163280
    },
    {
      "epoch": 0.3401875,
      "grad_norm": 0.8097929954528809,
      "learning_rate": 0.00022332328970769524,
      "loss": 3.6832,
      "step": 163290
    },
    {
      "epoch": 0.34020833333333333,
      "grad_norm": 0.7837545871734619,
      "learning_rate": 0.00022331468910834876,
      "loss": 3.9189,
      "step": 163300
    },
    {
      "epoch": 0.3402291666666667,
      "grad_norm": 0.801999032497406,
      "learning_rate": 0.00022330608819231187,
      "loss": 4.0112,
      "step": 163310
    },
    {
      "epoch": 0.34025,
      "grad_norm": 0.8372571468353271,
      "learning_rate": 0.0002232974869596217,
      "loss": 3.9895,
      "step": 163320
    },
    {
      "epoch": 0.34027083333333336,
      "grad_norm": 0.7964516878128052,
      "learning_rate": 0.00022328888541031536,
      "loss": 3.9576,
      "step": 163330
    },
    {
      "epoch": 0.34029166666666666,
      "grad_norm": 0.9645966291427612,
      "learning_rate": 0.00022328028354443006,
      "loss": 4.0975,
      "step": 163340
    },
    {
      "epoch": 0.3403125,
      "grad_norm": 0.845510721206665,
      "learning_rate": 0.00022327168136200296,
      "loss": 3.8821,
      "step": 163350
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 0.8199218511581421,
      "learning_rate": 0.0002232630788630712,
      "loss": 4.05,
      "step": 163360
    },
    {
      "epoch": 0.3403541666666667,
      "grad_norm": 0.8903608322143555,
      "learning_rate": 0.00022325447604767195,
      "loss": 4.0031,
      "step": 163370
    },
    {
      "epoch": 0.340375,
      "grad_norm": 0.754414975643158,
      "learning_rate": 0.00022324587291584232,
      "loss": 4.0406,
      "step": 163380
    },
    {
      "epoch": 0.34039583333333334,
      "grad_norm": 0.790267825126648,
      "learning_rate": 0.00022323726946761951,
      "loss": 4.1088,
      "step": 163390
    },
    {
      "epoch": 0.34041666666666665,
      "grad_norm": 0.8125233054161072,
      "learning_rate": 0.00022322866570304072,
      "loss": 4.1025,
      "step": 163400
    },
    {
      "epoch": 0.3404375,
      "grad_norm": 0.9051066040992737,
      "learning_rate": 0.0002232200616221431,
      "loss": 3.8941,
      "step": 163410
    },
    {
      "epoch": 0.3404583333333333,
      "grad_norm": 0.7770651578903198,
      "learning_rate": 0.00022321145722496372,
      "loss": 3.8289,
      "step": 163420
    },
    {
      "epoch": 0.34047916666666667,
      "grad_norm": 0.7587892413139343,
      "learning_rate": 0.00022320285251153989,
      "loss": 3.993,
      "step": 163430
    },
    {
      "epoch": 0.3405,
      "grad_norm": 0.8359626531600952,
      "learning_rate": 0.00022319424748190868,
      "loss": 4.085,
      "step": 163440
    },
    {
      "epoch": 0.34052083333333333,
      "grad_norm": 0.7619666457176208,
      "learning_rate": 0.00022318564213610727,
      "loss": 3.9416,
      "step": 163450
    },
    {
      "epoch": 0.3405416666666667,
      "grad_norm": 0.7995667457580566,
      "learning_rate": 0.0002231770364741729,
      "loss": 3.908,
      "step": 163460
    },
    {
      "epoch": 0.3405625,
      "grad_norm": 0.8526625037193298,
      "learning_rate": 0.0002231684304961427,
      "loss": 4.0375,
      "step": 163470
    },
    {
      "epoch": 0.34058333333333335,
      "grad_norm": 0.782322347164154,
      "learning_rate": 0.0002231598242020538,
      "loss": 3.8911,
      "step": 163480
    },
    {
      "epoch": 0.34060416666666665,
      "grad_norm": 0.7587718367576599,
      "learning_rate": 0.00022315121759194345,
      "loss": 4.0467,
      "step": 163490
    },
    {
      "epoch": 0.340625,
      "grad_norm": 0.7430241703987122,
      "learning_rate": 0.0002231426106658488,
      "loss": 3.9048,
      "step": 163500
    },
    {
      "epoch": 0.3406458333333333,
      "grad_norm": 0.8302218914031982,
      "learning_rate": 0.000223134003423807,
      "loss": 4.277,
      "step": 163510
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 0.8193610906600952,
      "learning_rate": 0.00022312539586585525,
      "loss": 3.8701,
      "step": 163520
    },
    {
      "epoch": 0.3406875,
      "grad_norm": 0.8061718940734863,
      "learning_rate": 0.0002231167879920308,
      "loss": 3.9897,
      "step": 163530
    },
    {
      "epoch": 0.34070833333333334,
      "grad_norm": 0.7900879979133606,
      "learning_rate": 0.0002231081798023707,
      "loss": 4.0102,
      "step": 163540
    },
    {
      "epoch": 0.3407291666666667,
      "grad_norm": 0.7976561784744263,
      "learning_rate": 0.0002230995712969122,
      "loss": 3.8937,
      "step": 163550
    },
    {
      "epoch": 0.34075,
      "grad_norm": 0.7295538783073425,
      "learning_rate": 0.0002230909624756925,
      "loss": 3.8275,
      "step": 163560
    },
    {
      "epoch": 0.34077083333333336,
      "grad_norm": 0.7943183183670044,
      "learning_rate": 0.0002230823533387488,
      "loss": 3.927,
      "step": 163570
    },
    {
      "epoch": 0.34079166666666666,
      "grad_norm": 1.0342899560928345,
      "learning_rate": 0.00022307374388611824,
      "loss": 3.9154,
      "step": 163580
    },
    {
      "epoch": 0.3408125,
      "grad_norm": 0.8227794170379639,
      "learning_rate": 0.00022306513411783803,
      "loss": 3.987,
      "step": 163590
    },
    {
      "epoch": 0.3408333333333333,
      "grad_norm": 0.829312801361084,
      "learning_rate": 0.00022305652403394537,
      "loss": 4.0494,
      "step": 163600
    },
    {
      "epoch": 0.3408541666666667,
      "grad_norm": 0.7328101992607117,
      "learning_rate": 0.00022304791363447746,
      "loss": 4.1457,
      "step": 163610
    },
    {
      "epoch": 0.340875,
      "grad_norm": 0.8086165189743042,
      "learning_rate": 0.00022303930291947142,
      "loss": 3.7815,
      "step": 163620
    },
    {
      "epoch": 0.34089583333333334,
      "grad_norm": 0.843964159488678,
      "learning_rate": 0.00022303069188896456,
      "loss": 3.7212,
      "step": 163630
    },
    {
      "epoch": 0.34091666666666665,
      "grad_norm": 0.8041848540306091,
      "learning_rate": 0.000223022080542994,
      "loss": 3.817,
      "step": 163640
    },
    {
      "epoch": 0.3409375,
      "grad_norm": 0.816435694694519,
      "learning_rate": 0.0002230134688815969,
      "loss": 3.887,
      "step": 163650
    },
    {
      "epoch": 0.3409583333333333,
      "grad_norm": 0.8374258875846863,
      "learning_rate": 0.0002230048569048106,
      "loss": 3.8403,
      "step": 163660
    },
    {
      "epoch": 0.34097916666666667,
      "grad_norm": 0.7539079785346985,
      "learning_rate": 0.0002229962446126722,
      "loss": 4.0202,
      "step": 163670
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.9095743298530579,
      "learning_rate": 0.0002229876320052189,
      "loss": 4.1138,
      "step": 163680
    },
    {
      "epoch": 0.34102083333333333,
      "grad_norm": 0.8163030743598938,
      "learning_rate": 0.00022297901908248792,
      "loss": 3.9251,
      "step": 163690
    },
    {
      "epoch": 0.3410416666666667,
      "grad_norm": 0.9444934129714966,
      "learning_rate": 0.00022297040584451646,
      "loss": 3.8983,
      "step": 163700
    },
    {
      "epoch": 0.3410625,
      "grad_norm": 0.9602312445640564,
      "learning_rate": 0.00022296179229134178,
      "loss": 3.8607,
      "step": 163710
    },
    {
      "epoch": 0.34108333333333335,
      "grad_norm": 0.8242424130439758,
      "learning_rate": 0.00022295317842300092,
      "loss": 3.892,
      "step": 163720
    },
    {
      "epoch": 0.34110416666666665,
      "grad_norm": 0.7813379168510437,
      "learning_rate": 0.00022294456423953133,
      "loss": 4.0342,
      "step": 163730
    },
    {
      "epoch": 0.341125,
      "grad_norm": 0.9138408303260803,
      "learning_rate": 0.00022293594974097004,
      "loss": 3.9711,
      "step": 163740
    },
    {
      "epoch": 0.3411458333333333,
      "grad_norm": 0.8744154572486877,
      "learning_rate": 0.0002229273349273543,
      "loss": 4.106,
      "step": 163750
    },
    {
      "epoch": 0.3411666666666667,
      "grad_norm": 0.7894696593284607,
      "learning_rate": 0.00022291871979872137,
      "loss": 4.0215,
      "step": 163760
    },
    {
      "epoch": 0.3411875,
      "grad_norm": 0.7845627665519714,
      "learning_rate": 0.00022291010435510848,
      "loss": 3.9962,
      "step": 163770
    },
    {
      "epoch": 0.34120833333333334,
      "grad_norm": 0.7808216214179993,
      "learning_rate": 0.00022290148859655272,
      "loss": 3.9876,
      "step": 163780
    },
    {
      "epoch": 0.34122916666666664,
      "grad_norm": 0.9073379039764404,
      "learning_rate": 0.00022289287252309138,
      "loss": 3.8027,
      "step": 163790
    },
    {
      "epoch": 0.34125,
      "grad_norm": 0.7559812664985657,
      "learning_rate": 0.00022288425613476175,
      "loss": 3.895,
      "step": 163800
    },
    {
      "epoch": 0.34127083333333336,
      "grad_norm": 0.8196319937705994,
      "learning_rate": 0.00022287563943160094,
      "loss": 3.9716,
      "step": 163810
    },
    {
      "epoch": 0.34129166666666666,
      "grad_norm": 0.8354671001434326,
      "learning_rate": 0.0002228670224136462,
      "loss": 3.911,
      "step": 163820
    },
    {
      "epoch": 0.3413125,
      "grad_norm": 0.7859495878219604,
      "learning_rate": 0.0002228584050809348,
      "loss": 4.1089,
      "step": 163830
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 0.7698469161987305,
      "learning_rate": 0.0002228497874335039,
      "loss": 3.9004,
      "step": 163840
    },
    {
      "epoch": 0.3413541666666667,
      "grad_norm": 0.7966249585151672,
      "learning_rate": 0.00022284116947139082,
      "loss": 4.1557,
      "step": 163850
    },
    {
      "epoch": 0.341375,
      "grad_norm": 0.8493022322654724,
      "learning_rate": 0.00022283255119463264,
      "loss": 3.8582,
      "step": 163860
    },
    {
      "epoch": 0.34139583333333334,
      "grad_norm": 0.7785982489585876,
      "learning_rate": 0.00022282393260326672,
      "loss": 3.8774,
      "step": 163870
    },
    {
      "epoch": 0.34141666666666665,
      "grad_norm": 0.8166801929473877,
      "learning_rate": 0.0002228153136973302,
      "loss": 3.998,
      "step": 163880
    },
    {
      "epoch": 0.3414375,
      "grad_norm": 0.8382560014724731,
      "learning_rate": 0.00022280669447686036,
      "loss": 4.0431,
      "step": 163890
    },
    {
      "epoch": 0.3414583333333333,
      "grad_norm": 0.7539278268814087,
      "learning_rate": 0.00022279807494189442,
      "loss": 3.981,
      "step": 163900
    },
    {
      "epoch": 0.34147916666666667,
      "grad_norm": 0.8365922570228577,
      "learning_rate": 0.00022278945509246966,
      "loss": 3.8915,
      "step": 163910
    },
    {
      "epoch": 0.3415,
      "grad_norm": 0.8069600462913513,
      "learning_rate": 0.00022278083492862315,
      "loss": 4.226,
      "step": 163920
    },
    {
      "epoch": 0.34152083333333333,
      "grad_norm": 0.8290421962738037,
      "learning_rate": 0.00022277221445039235,
      "loss": 4.2478,
      "step": 163930
    },
    {
      "epoch": 0.3415416666666667,
      "grad_norm": 0.7328014373779297,
      "learning_rate": 0.00022276359365781435,
      "loss": 4.0011,
      "step": 163940
    },
    {
      "epoch": 0.3415625,
      "grad_norm": 0.7830467820167542,
      "learning_rate": 0.0002227549725509264,
      "loss": 4.0455,
      "step": 163950
    },
    {
      "epoch": 0.34158333333333335,
      "grad_norm": 0.953683078289032,
      "learning_rate": 0.00022274635112976585,
      "loss": 3.7836,
      "step": 163960
    },
    {
      "epoch": 0.34160416666666665,
      "grad_norm": 0.8227435350418091,
      "learning_rate": 0.00022273772939436978,
      "loss": 3.8352,
      "step": 163970
    },
    {
      "epoch": 0.341625,
      "grad_norm": 0.8436691164970398,
      "learning_rate": 0.00022272910734477555,
      "loss": 3.9696,
      "step": 163980
    },
    {
      "epoch": 0.3416458333333333,
      "grad_norm": 0.8230594396591187,
      "learning_rate": 0.00022272048498102033,
      "loss": 3.9323,
      "step": 163990
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 0.7404151558876038,
      "learning_rate": 0.00022271186230314144,
      "loss": 3.9302,
      "step": 164000
    },
    {
      "epoch": 0.3416666666666667,
      "eval_loss": 3.72379994392395,
      "eval_runtime": 6.8116,
      "eval_samples_per_second": 1.468,
      "eval_steps_per_second": 0.44,
      "step": 164000
    },
    {
      "epoch": 0.3416875,
      "grad_norm": 0.7587722539901733,
      "learning_rate": 0.00022270323931117606,
      "loss": 3.8725,
      "step": 164010
    },
    {
      "epoch": 0.34170833333333334,
      "grad_norm": 0.7398022413253784,
      "learning_rate": 0.00022269461600516146,
      "loss": 4.0977,
      "step": 164020
    },
    {
      "epoch": 0.34172916666666664,
      "grad_norm": 0.835552453994751,
      "learning_rate": 0.0002226859923851349,
      "loss": 3.9658,
      "step": 164030
    },
    {
      "epoch": 0.34175,
      "grad_norm": 0.8084712624549866,
      "learning_rate": 0.00022267736845113363,
      "loss": 3.7952,
      "step": 164040
    },
    {
      "epoch": 0.34177083333333336,
      "grad_norm": 0.7540958523750305,
      "learning_rate": 0.0002226687442031949,
      "loss": 4.0762,
      "step": 164050
    },
    {
      "epoch": 0.34179166666666666,
      "grad_norm": 0.8368405699729919,
      "learning_rate": 0.00022266011964135592,
      "loss": 3.9132,
      "step": 164060
    },
    {
      "epoch": 0.3418125,
      "grad_norm": 0.7937635183334351,
      "learning_rate": 0.00022265149476565402,
      "loss": 3.9354,
      "step": 164070
    },
    {
      "epoch": 0.3418333333333333,
      "grad_norm": 0.845578670501709,
      "learning_rate": 0.00022264286957612644,
      "loss": 3.9538,
      "step": 164080
    },
    {
      "epoch": 0.3418541666666667,
      "grad_norm": 0.8410373330116272,
      "learning_rate": 0.00022263424407281037,
      "loss": 3.9971,
      "step": 164090
    },
    {
      "epoch": 0.341875,
      "grad_norm": 0.7899166345596313,
      "learning_rate": 0.00022262561825574315,
      "loss": 4.1833,
      "step": 164100
    },
    {
      "epoch": 0.34189583333333334,
      "grad_norm": 0.7734479904174805,
      "learning_rate": 0.000222616992124962,
      "loss": 4.049,
      "step": 164110
    },
    {
      "epoch": 0.34191666666666665,
      "grad_norm": 0.8735425472259521,
      "learning_rate": 0.00022260836568050417,
      "loss": 3.9718,
      "step": 164120
    },
    {
      "epoch": 0.3419375,
      "grad_norm": 1.0434023141860962,
      "learning_rate": 0.00022259973892240696,
      "loss": 3.8007,
      "step": 164130
    },
    {
      "epoch": 0.3419583333333333,
      "grad_norm": 0.8220922946929932,
      "learning_rate": 0.0002225911118507076,
      "loss": 3.8889,
      "step": 164140
    },
    {
      "epoch": 0.34197916666666667,
      "grad_norm": 0.9957159757614136,
      "learning_rate": 0.00022258248446544335,
      "loss": 3.9161,
      "step": 164150
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.8675850033760071,
      "learning_rate": 0.00022257385676665155,
      "loss": 3.9723,
      "step": 164160
    },
    {
      "epoch": 0.34202083333333333,
      "grad_norm": 0.8255591988563538,
      "learning_rate": 0.00022256522875436943,
      "loss": 3.9521,
      "step": 164170
    },
    {
      "epoch": 0.3420416666666667,
      "grad_norm": 0.7775712609291077,
      "learning_rate": 0.0002225566004286342,
      "loss": 3.967,
      "step": 164180
    },
    {
      "epoch": 0.3420625,
      "grad_norm": 0.8193880319595337,
      "learning_rate": 0.0002225479717894832,
      "loss": 3.8885,
      "step": 164190
    },
    {
      "epoch": 0.34208333333333335,
      "grad_norm": 0.8345721364021301,
      "learning_rate": 0.00022253934283695363,
      "loss": 3.9337,
      "step": 164200
    },
    {
      "epoch": 0.34210416666666665,
      "grad_norm": 1.1606273651123047,
      "learning_rate": 0.00022253071357108284,
      "loss": 3.9601,
      "step": 164210
    },
    {
      "epoch": 0.342125,
      "grad_norm": 0.8035097718238831,
      "learning_rate": 0.00022252208399190808,
      "loss": 4.1412,
      "step": 164220
    },
    {
      "epoch": 0.3421458333333333,
      "grad_norm": 0.8190913200378418,
      "learning_rate": 0.00022251345409946664,
      "loss": 4.0617,
      "step": 164230
    },
    {
      "epoch": 0.3421666666666667,
      "grad_norm": 0.8152456879615784,
      "learning_rate": 0.00022250482389379574,
      "loss": 3.8604,
      "step": 164240
    },
    {
      "epoch": 0.3421875,
      "grad_norm": 0.7765740156173706,
      "learning_rate": 0.00022249619337493272,
      "loss": 3.9168,
      "step": 164250
    },
    {
      "epoch": 0.34220833333333334,
      "grad_norm": 0.8128921389579773,
      "learning_rate": 0.00022248756254291486,
      "loss": 3.8716,
      "step": 164260
    },
    {
      "epoch": 0.34222916666666664,
      "grad_norm": 1.0371588468551636,
      "learning_rate": 0.00022247893139777943,
      "loss": 4.1134,
      "step": 164270
    },
    {
      "epoch": 0.34225,
      "grad_norm": 0.8468753099441528,
      "learning_rate": 0.00022247029993956367,
      "loss": 4.0753,
      "step": 164280
    },
    {
      "epoch": 0.34227083333333336,
      "grad_norm": 0.7811072468757629,
      "learning_rate": 0.0002224616681683049,
      "loss": 3.7975,
      "step": 164290
    },
    {
      "epoch": 0.34229166666666666,
      "grad_norm": 0.8074364066123962,
      "learning_rate": 0.00022245303608404044,
      "loss": 3.909,
      "step": 164300
    },
    {
      "epoch": 0.3423125,
      "grad_norm": 0.7461916208267212,
      "learning_rate": 0.00022244440368680753,
      "loss": 3.8479,
      "step": 164310
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 0.754689633846283,
      "learning_rate": 0.00022243577097664342,
      "loss": 4.0348,
      "step": 164320
    },
    {
      "epoch": 0.3423541666666667,
      "grad_norm": 0.8269166350364685,
      "learning_rate": 0.00022242713795358554,
      "loss": 4.07,
      "step": 164330
    },
    {
      "epoch": 0.342375,
      "grad_norm": 0.7404331564903259,
      "learning_rate": 0.00022241850461767102,
      "loss": 4.034,
      "step": 164340
    },
    {
      "epoch": 0.34239583333333334,
      "grad_norm": 0.7661170959472656,
      "learning_rate": 0.00022240987096893726,
      "loss": 3.9552,
      "step": 164350
    },
    {
      "epoch": 0.34241666666666665,
      "grad_norm": 0.7823278903961182,
      "learning_rate": 0.00022240123700742153,
      "loss": 4.0145,
      "step": 164360
    },
    {
      "epoch": 0.3424375,
      "grad_norm": 0.7808478474617004,
      "learning_rate": 0.0002223926027331611,
      "loss": 3.9797,
      "step": 164370
    },
    {
      "epoch": 0.3424583333333333,
      "grad_norm": 0.8217889070510864,
      "learning_rate": 0.00022238396814619328,
      "loss": 4.0408,
      "step": 164380
    },
    {
      "epoch": 0.34247916666666667,
      "grad_norm": 0.7711612582206726,
      "learning_rate": 0.00022237533324655535,
      "loss": 4.0891,
      "step": 164390
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.790495753288269,
      "learning_rate": 0.00022236669803428466,
      "loss": 3.9491,
      "step": 164400
    },
    {
      "epoch": 0.34252083333333333,
      "grad_norm": 0.802745521068573,
      "learning_rate": 0.0002223580625094185,
      "loss": 3.9701,
      "step": 164410
    },
    {
      "epoch": 0.3425416666666667,
      "grad_norm": 0.8375213742256165,
      "learning_rate": 0.00022234942667199406,
      "loss": 3.9282,
      "step": 164420
    },
    {
      "epoch": 0.3425625,
      "grad_norm": 1.31083345413208,
      "learning_rate": 0.0002223407905220488,
      "loss": 4.1359,
      "step": 164430
    },
    {
      "epoch": 0.34258333333333335,
      "grad_norm": 0.7790753245353699,
      "learning_rate": 0.00022233215405961999,
      "loss": 3.8346,
      "step": 164440
    },
    {
      "epoch": 0.34260416666666665,
      "grad_norm": 0.7576912641525269,
      "learning_rate": 0.0002223235172847448,
      "loss": 4.0059,
      "step": 164450
    },
    {
      "epoch": 0.342625,
      "grad_norm": 0.8114234805107117,
      "learning_rate": 0.00022231488019746072,
      "loss": 3.9218,
      "step": 164460
    },
    {
      "epoch": 0.3426458333333333,
      "grad_norm": 0.7699252963066101,
      "learning_rate": 0.00022230624279780502,
      "loss": 3.9914,
      "step": 164470
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 0.905066728591919,
      "learning_rate": 0.0002222976050858149,
      "loss": 3.9471,
      "step": 164480
    },
    {
      "epoch": 0.3426875,
      "grad_norm": 0.8053672909736633,
      "learning_rate": 0.00022228896706152776,
      "loss": 4.0653,
      "step": 164490
    },
    {
      "epoch": 0.34270833333333334,
      "grad_norm": 0.7454906702041626,
      "learning_rate": 0.0002222803287249809,
      "loss": 3.7388,
      "step": 164500
    },
    {
      "epoch": 0.34272916666666664,
      "grad_norm": 0.8270635008811951,
      "learning_rate": 0.00022227169007621165,
      "loss": 3.8605,
      "step": 164510
    },
    {
      "epoch": 0.34275,
      "grad_norm": 0.8757856488227844,
      "learning_rate": 0.00022226305111525726,
      "loss": 3.9652,
      "step": 164520
    },
    {
      "epoch": 0.34277083333333336,
      "grad_norm": 0.8068105578422546,
      "learning_rate": 0.00022225441184215515,
      "loss": 3.8977,
      "step": 164530
    },
    {
      "epoch": 0.34279166666666666,
      "grad_norm": 0.7682258486747742,
      "learning_rate": 0.00022224577225694254,
      "loss": 3.8646,
      "step": 164540
    },
    {
      "epoch": 0.3428125,
      "grad_norm": 0.7635992765426636,
      "learning_rate": 0.0002222371323596568,
      "loss": 3.7916,
      "step": 164550
    },
    {
      "epoch": 0.3428333333333333,
      "grad_norm": 0.8427746891975403,
      "learning_rate": 0.00022222849215033526,
      "loss": 4.1012,
      "step": 164560
    },
    {
      "epoch": 0.3428541666666667,
      "grad_norm": 0.8322609663009644,
      "learning_rate": 0.0002222198516290152,
      "loss": 3.9678,
      "step": 164570
    },
    {
      "epoch": 0.342875,
      "grad_norm": 0.8097890615463257,
      "learning_rate": 0.00022221121079573397,
      "loss": 3.8496,
      "step": 164580
    },
    {
      "epoch": 0.34289583333333334,
      "grad_norm": 1.0308301448822021,
      "learning_rate": 0.0002222025696505289,
      "loss": 3.9274,
      "step": 164590
    },
    {
      "epoch": 0.34291666666666665,
      "grad_norm": 0.8537904620170593,
      "learning_rate": 0.00022219392819343732,
      "loss": 3.9356,
      "step": 164600
    },
    {
      "epoch": 0.3429375,
      "grad_norm": 0.807160496711731,
      "learning_rate": 0.00022218528642449655,
      "loss": 4.0671,
      "step": 164610
    },
    {
      "epoch": 0.3429583333333333,
      "grad_norm": 0.8036623001098633,
      "learning_rate": 0.00022217664434374387,
      "loss": 3.8335,
      "step": 164620
    },
    {
      "epoch": 0.34297916666666667,
      "grad_norm": 0.7603380680084229,
      "learning_rate": 0.00022216800195121666,
      "loss": 3.9943,
      "step": 164630
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.8108162879943848,
      "learning_rate": 0.00022215935924695235,
      "loss": 3.8457,
      "step": 164640
    },
    {
      "epoch": 0.34302083333333333,
      "grad_norm": 0.9050084352493286,
      "learning_rate": 0.00022215071623098804,
      "loss": 3.9549,
      "step": 164650
    },
    {
      "epoch": 0.3430416666666667,
      "grad_norm": 0.7445191740989685,
      "learning_rate": 0.00022214207290336126,
      "loss": 3.8206,
      "step": 164660
    },
    {
      "epoch": 0.3430625,
      "grad_norm": 0.8257813453674316,
      "learning_rate": 0.00022213342926410932,
      "loss": 4.0002,
      "step": 164670
    },
    {
      "epoch": 0.34308333333333335,
      "grad_norm": 1.119676947593689,
      "learning_rate": 0.00022212478531326944,
      "loss": 4.0493,
      "step": 164680
    },
    {
      "epoch": 0.34310416666666665,
      "grad_norm": 0.7742168307304382,
      "learning_rate": 0.00022211614105087905,
      "loss": 3.8361,
      "step": 164690
    },
    {
      "epoch": 0.343125,
      "grad_norm": 0.7588708996772766,
      "learning_rate": 0.0002221074964769755,
      "loss": 4.0285,
      "step": 164700
    },
    {
      "epoch": 0.3431458333333333,
      "grad_norm": 0.7539065480232239,
      "learning_rate": 0.0002220988515915961,
      "loss": 3.786,
      "step": 164710
    },
    {
      "epoch": 0.3431666666666667,
      "grad_norm": 0.7874902486801147,
      "learning_rate": 0.0002220902063947782,
      "loss": 3.9165,
      "step": 164720
    },
    {
      "epoch": 0.3431875,
      "grad_norm": 0.8181449770927429,
      "learning_rate": 0.00022208156088655915,
      "loss": 3.8627,
      "step": 164730
    },
    {
      "epoch": 0.34320833333333334,
      "grad_norm": 0.7552546858787537,
      "learning_rate": 0.00022207291506697624,
      "loss": 3.8687,
      "step": 164740
    },
    {
      "epoch": 0.34322916666666664,
      "grad_norm": 0.9395064115524292,
      "learning_rate": 0.00022206426893606695,
      "loss": 4.1103,
      "step": 164750
    },
    {
      "epoch": 0.34325,
      "grad_norm": 0.7925572991371155,
      "learning_rate": 0.00022205562249386846,
      "loss": 3.9672,
      "step": 164760
    },
    {
      "epoch": 0.34327083333333336,
      "grad_norm": 0.7480078935623169,
      "learning_rate": 0.00022204697574041828,
      "loss": 3.9334,
      "step": 164770
    },
    {
      "epoch": 0.34329166666666666,
      "grad_norm": 0.8015756607055664,
      "learning_rate": 0.00022203832867575364,
      "loss": 3.9305,
      "step": 164780
    },
    {
      "epoch": 0.3433125,
      "grad_norm": 0.797227680683136,
      "learning_rate": 0.0002220296812999119,
      "loss": 3.8182,
      "step": 164790
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 0.7921199202537537,
      "learning_rate": 0.00022202103361293048,
      "loss": 4.0118,
      "step": 164800
    },
    {
      "epoch": 0.3433541666666667,
      "grad_norm": 0.8125026226043701,
      "learning_rate": 0.00022201238561484678,
      "loss": 3.8324,
      "step": 164810
    },
    {
      "epoch": 0.343375,
      "grad_norm": 0.8132122159004211,
      "learning_rate": 0.00022200373730569796,
      "loss": 3.8518,
      "step": 164820
    },
    {
      "epoch": 0.34339583333333334,
      "grad_norm": 0.7976289391517639,
      "learning_rate": 0.00022199508868552155,
      "loss": 4.1726,
      "step": 164830
    },
    {
      "epoch": 0.34341666666666665,
      "grad_norm": 0.8441296219825745,
      "learning_rate": 0.0002219864397543549,
      "loss": 3.9279,
      "step": 164840
    },
    {
      "epoch": 0.3434375,
      "grad_norm": 0.816497266292572,
      "learning_rate": 0.00022197779051223523,
      "loss": 3.7866,
      "step": 164850
    },
    {
      "epoch": 0.3434583333333333,
      "grad_norm": 0.8049619793891907,
      "learning_rate": 0.00022196914095920004,
      "loss": 4.0554,
      "step": 164860
    },
    {
      "epoch": 0.34347916666666667,
      "grad_norm": 1.0977765321731567,
      "learning_rate": 0.00022196049109528667,
      "loss": 4.0097,
      "step": 164870
    },
    {
      "epoch": 0.3435,
      "grad_norm": 0.8391017913818359,
      "learning_rate": 0.00022195184092053244,
      "loss": 4.0652,
      "step": 164880
    },
    {
      "epoch": 0.34352083333333333,
      "grad_norm": 0.9208124876022339,
      "learning_rate": 0.00022194319043497473,
      "loss": 3.9923,
      "step": 164890
    },
    {
      "epoch": 0.3435416666666667,
      "grad_norm": 0.8730143904685974,
      "learning_rate": 0.0002219345396386509,
      "loss": 3.9686,
      "step": 164900
    },
    {
      "epoch": 0.3435625,
      "grad_norm": 0.794891357421875,
      "learning_rate": 0.00022192588853159838,
      "loss": 3.8488,
      "step": 164910
    },
    {
      "epoch": 0.34358333333333335,
      "grad_norm": 0.7744539976119995,
      "learning_rate": 0.00022191723711385445,
      "loss": 3.8582,
      "step": 164920
    },
    {
      "epoch": 0.34360416666666665,
      "grad_norm": 0.9379103779792786,
      "learning_rate": 0.00022190858538545654,
      "loss": 3.9177,
      "step": 164930
    },
    {
      "epoch": 0.343625,
      "grad_norm": 0.7638415694236755,
      "learning_rate": 0.00022189993334644203,
      "loss": 3.9934,
      "step": 164940
    },
    {
      "epoch": 0.3436458333333333,
      "grad_norm": 0.8378534317016602,
      "learning_rate": 0.0002218912809968482,
      "loss": 3.8716,
      "step": 164950
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 0.6980041861534119,
      "learning_rate": 0.00022188262833671254,
      "loss": 3.9781,
      "step": 164960
    },
    {
      "epoch": 0.3436875,
      "grad_norm": 0.8056732416152954,
      "learning_rate": 0.0002218739753660724,
      "loss": 3.8675,
      "step": 164970
    },
    {
      "epoch": 0.34370833333333334,
      "grad_norm": 0.7613118886947632,
      "learning_rate": 0.00022186532208496513,
      "loss": 3.8295,
      "step": 164980
    },
    {
      "epoch": 0.34372916666666664,
      "grad_norm": 0.7774427533149719,
      "learning_rate": 0.00022185666849342805,
      "loss": 3.8691,
      "step": 164990
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.7594029903411865,
      "learning_rate": 0.00022184801459149868,
      "loss": 3.9177,
      "step": 165000
    },
    {
      "epoch": 0.34375,
      "eval_loss": 3.713747501373291,
      "eval_runtime": 7.2688,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 165000
    },
    {
      "epoch": 0.34377083333333336,
      "grad_norm": 0.808495283126831,
      "learning_rate": 0.0002218393603792143,
      "loss": 3.9179,
      "step": 165010
    },
    {
      "epoch": 0.34379166666666666,
      "grad_norm": 0.9282532930374146,
      "learning_rate": 0.0002218307058566123,
      "loss": 4.1794,
      "step": 165020
    },
    {
      "epoch": 0.3438125,
      "grad_norm": 0.8682499527931213,
      "learning_rate": 0.00022182205102373013,
      "loss": 3.9258,
      "step": 165030
    },
    {
      "epoch": 0.3438333333333333,
      "grad_norm": 0.8642475605010986,
      "learning_rate": 0.00022181339588060506,
      "loss": 3.9203,
      "step": 165040
    },
    {
      "epoch": 0.3438541666666667,
      "grad_norm": 0.8135398030281067,
      "learning_rate": 0.0002218047404272746,
      "loss": 3.9405,
      "step": 165050
    },
    {
      "epoch": 0.343875,
      "grad_norm": 0.8156816959381104,
      "learning_rate": 0.00022179608466377606,
      "loss": 3.8979,
      "step": 165060
    },
    {
      "epoch": 0.34389583333333335,
      "grad_norm": 0.8085175156593323,
      "learning_rate": 0.00022178742859014686,
      "loss": 3.8087,
      "step": 165070
    },
    {
      "epoch": 0.34391666666666665,
      "grad_norm": 0.8899531364440918,
      "learning_rate": 0.00022177877220642435,
      "loss": 3.8345,
      "step": 165080
    },
    {
      "epoch": 0.3439375,
      "grad_norm": 0.8442294001579285,
      "learning_rate": 0.000221770115512646,
      "loss": 4.0054,
      "step": 165090
    },
    {
      "epoch": 0.3439583333333333,
      "grad_norm": 0.7336574196815491,
      "learning_rate": 0.00022176145850884917,
      "loss": 4.1427,
      "step": 165100
    },
    {
      "epoch": 0.34397916666666667,
      "grad_norm": 0.8266586661338806,
      "learning_rate": 0.0002217528011950712,
      "loss": 3.99,
      "step": 165110
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.7388132810592651,
      "learning_rate": 0.00022174414357134956,
      "loss": 3.7277,
      "step": 165120
    },
    {
      "epoch": 0.34402083333333333,
      "grad_norm": 0.8556976914405823,
      "learning_rate": 0.0002217354856377216,
      "loss": 3.8754,
      "step": 165130
    },
    {
      "epoch": 0.3440416666666667,
      "grad_norm": 0.7707930207252502,
      "learning_rate": 0.00022172682739422477,
      "loss": 3.8235,
      "step": 165140
    },
    {
      "epoch": 0.3440625,
      "grad_norm": 0.7616534233093262,
      "learning_rate": 0.0002217181688408964,
      "loss": 3.6704,
      "step": 165150
    },
    {
      "epoch": 0.34408333333333335,
      "grad_norm": 0.7938776016235352,
      "learning_rate": 0.00022170950997777396,
      "loss": 3.9214,
      "step": 165160
    },
    {
      "epoch": 0.34410416666666666,
      "grad_norm": 0.7673901915550232,
      "learning_rate": 0.00022170085080489482,
      "loss": 4.006,
      "step": 165170
    },
    {
      "epoch": 0.344125,
      "grad_norm": 0.7480275630950928,
      "learning_rate": 0.00022169219132229636,
      "loss": 4.1276,
      "step": 165180
    },
    {
      "epoch": 0.3441458333333333,
      "grad_norm": 0.7790406346321106,
      "learning_rate": 0.000221683531530016,
      "loss": 3.9996,
      "step": 165190
    },
    {
      "epoch": 0.3441666666666667,
      "grad_norm": 0.9050449132919312,
      "learning_rate": 0.0002216748714280912,
      "loss": 3.9436,
      "step": 165200
    },
    {
      "epoch": 0.3441875,
      "grad_norm": 0.8076230883598328,
      "learning_rate": 0.00022166621101655932,
      "loss": 3.6769,
      "step": 165210
    },
    {
      "epoch": 0.34420833333333334,
      "grad_norm": 0.762987494468689,
      "learning_rate": 0.00022165755029545777,
      "loss": 3.9651,
      "step": 165220
    },
    {
      "epoch": 0.34422916666666664,
      "grad_norm": 0.7858375310897827,
      "learning_rate": 0.00022164888926482396,
      "loss": 3.8772,
      "step": 165230
    },
    {
      "epoch": 0.34425,
      "grad_norm": 0.7916918992996216,
      "learning_rate": 0.0002216402279246953,
      "loss": 3.8942,
      "step": 165240
    },
    {
      "epoch": 0.34427083333333336,
      "grad_norm": 0.9031370878219604,
      "learning_rate": 0.00022163156627510923,
      "loss": 3.9171,
      "step": 165250
    },
    {
      "epoch": 0.34429166666666666,
      "grad_norm": 0.7532799243927002,
      "learning_rate": 0.0002216229043161031,
      "loss": 3.7145,
      "step": 165260
    },
    {
      "epoch": 0.3443125,
      "grad_norm": 0.7498502731323242,
      "learning_rate": 0.00022161424204771441,
      "loss": 3.9431,
      "step": 165270
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 0.7361270785331726,
      "learning_rate": 0.00022160557946998056,
      "loss": 3.9156,
      "step": 165280
    },
    {
      "epoch": 0.3443541666666667,
      "grad_norm": 0.7901698350906372,
      "learning_rate": 0.00022159691658293895,
      "loss": 3.9585,
      "step": 165290
    },
    {
      "epoch": 0.344375,
      "grad_norm": 0.807391345500946,
      "learning_rate": 0.00022158825338662697,
      "loss": 3.9295,
      "step": 165300
    },
    {
      "epoch": 0.34439583333333335,
      "grad_norm": 0.8157454133033752,
      "learning_rate": 0.0002215795898810821,
      "loss": 3.8606,
      "step": 165310
    },
    {
      "epoch": 0.34441666666666665,
      "grad_norm": 0.8880363702774048,
      "learning_rate": 0.0002215709260663417,
      "loss": 4.007,
      "step": 165320
    },
    {
      "epoch": 0.3444375,
      "grad_norm": 0.8417025804519653,
      "learning_rate": 0.00022156226194244323,
      "loss": 4.0406,
      "step": 165330
    },
    {
      "epoch": 0.3444583333333333,
      "grad_norm": 0.7983288168907166,
      "learning_rate": 0.0002215535975094242,
      "loss": 4.0723,
      "step": 165340
    },
    {
      "epoch": 0.34447916666666667,
      "grad_norm": 0.9588406085968018,
      "learning_rate": 0.00022154493276732188,
      "loss": 3.8673,
      "step": 165350
    },
    {
      "epoch": 0.3445,
      "grad_norm": 0.79576176404953,
      "learning_rate": 0.00022153626771617373,
      "loss": 4.0712,
      "step": 165360
    },
    {
      "epoch": 0.34452083333333333,
      "grad_norm": 0.8572739958763123,
      "learning_rate": 0.0002215276023560173,
      "loss": 3.9343,
      "step": 165370
    },
    {
      "epoch": 0.3445416666666667,
      "grad_norm": 0.7811530828475952,
      "learning_rate": 0.0002215189366868899,
      "loss": 3.8141,
      "step": 165380
    },
    {
      "epoch": 0.3445625,
      "grad_norm": 0.8144004344940186,
      "learning_rate": 0.00022151027070882898,
      "loss": 3.7375,
      "step": 165390
    },
    {
      "epoch": 0.34458333333333335,
      "grad_norm": 0.8139293789863586,
      "learning_rate": 0.00022150160442187207,
      "loss": 4.0375,
      "step": 165400
    },
    {
      "epoch": 0.34460416666666666,
      "grad_norm": 0.8276699185371399,
      "learning_rate": 0.00022149293782605645,
      "loss": 4.0553,
      "step": 165410
    },
    {
      "epoch": 0.344625,
      "grad_norm": 0.743144690990448,
      "learning_rate": 0.0002214842709214197,
      "loss": 4.0523,
      "step": 165420
    },
    {
      "epoch": 0.3446458333333333,
      "grad_norm": 0.902638852596283,
      "learning_rate": 0.00022147560370799915,
      "loss": 3.9335,
      "step": 165430
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 0.7972555756568909,
      "learning_rate": 0.0002214669361858323,
      "loss": 3.8608,
      "step": 165440
    },
    {
      "epoch": 0.3446875,
      "grad_norm": 0.7836612462997437,
      "learning_rate": 0.0002214582683549566,
      "loss": 3.7989,
      "step": 165450
    },
    {
      "epoch": 0.34470833333333334,
      "grad_norm": 0.7701578736305237,
      "learning_rate": 0.0002214496002154094,
      "loss": 3.945,
      "step": 165460
    },
    {
      "epoch": 0.34472916666666664,
      "grad_norm": 0.8212696313858032,
      "learning_rate": 0.00022144093176722828,
      "loss": 3.8834,
      "step": 165470
    },
    {
      "epoch": 0.34475,
      "grad_norm": 0.7795567512512207,
      "learning_rate": 0.0002214322630104506,
      "loss": 4.0265,
      "step": 165480
    },
    {
      "epoch": 0.34477083333333336,
      "grad_norm": 0.8927777409553528,
      "learning_rate": 0.0002214235939451138,
      "loss": 4.0058,
      "step": 165490
    },
    {
      "epoch": 0.34479166666666666,
      "grad_norm": 0.9350533485412598,
      "learning_rate": 0.00022141492457125532,
      "loss": 4.0002,
      "step": 165500
    },
    {
      "epoch": 0.3448125,
      "grad_norm": 0.8359273672103882,
      "learning_rate": 0.00022140625488891268,
      "loss": 4.0623,
      "step": 165510
    },
    {
      "epoch": 0.3448333333333333,
      "grad_norm": 0.8357740044593811,
      "learning_rate": 0.00022139758489812326,
      "loss": 3.8466,
      "step": 165520
    },
    {
      "epoch": 0.3448541666666667,
      "grad_norm": 0.79412841796875,
      "learning_rate": 0.00022138891459892452,
      "loss": 4.033,
      "step": 165530
    },
    {
      "epoch": 0.344875,
      "grad_norm": 0.9343128800392151,
      "learning_rate": 0.000221380243991354,
      "loss": 3.8784,
      "step": 165540
    },
    {
      "epoch": 0.34489583333333335,
      "grad_norm": 0.7754428386688232,
      "learning_rate": 0.000221371573075449,
      "loss": 3.9336,
      "step": 165550
    },
    {
      "epoch": 0.34491666666666665,
      "grad_norm": 0.7434741258621216,
      "learning_rate": 0.00022136290185124707,
      "loss": 4.0248,
      "step": 165560
    },
    {
      "epoch": 0.3449375,
      "grad_norm": 0.8625922799110413,
      "learning_rate": 0.00022135423031878569,
      "loss": 3.9542,
      "step": 165570
    },
    {
      "epoch": 0.3449583333333333,
      "grad_norm": 0.7380844354629517,
      "learning_rate": 0.00022134555847810224,
      "loss": 3.8992,
      "step": 165580
    },
    {
      "epoch": 0.34497916666666667,
      "grad_norm": 0.8737988471984863,
      "learning_rate": 0.00022133688632923422,
      "loss": 3.9082,
      "step": 165590
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.7920722365379333,
      "learning_rate": 0.0002213282138722191,
      "loss": 4.001,
      "step": 165600
    },
    {
      "epoch": 0.34502083333333333,
      "grad_norm": 0.7845566868782043,
      "learning_rate": 0.00022131954110709434,
      "loss": 3.9851,
      "step": 165610
    },
    {
      "epoch": 0.3450416666666667,
      "grad_norm": 0.8001934885978699,
      "learning_rate": 0.00022131086803389737,
      "loss": 4.0207,
      "step": 165620
    },
    {
      "epoch": 0.3450625,
      "grad_norm": 0.8183552026748657,
      "learning_rate": 0.00022130219465266572,
      "loss": 4.0631,
      "step": 165630
    },
    {
      "epoch": 0.34508333333333335,
      "grad_norm": 0.9597198963165283,
      "learning_rate": 0.00022129352096343676,
      "loss": 3.776,
      "step": 165640
    },
    {
      "epoch": 0.34510416666666666,
      "grad_norm": 0.8193163275718689,
      "learning_rate": 0.000221284846966248,
      "loss": 3.8907,
      "step": 165650
    },
    {
      "epoch": 0.345125,
      "grad_norm": 0.9249968528747559,
      "learning_rate": 0.00022127617266113698,
      "loss": 4.0339,
      "step": 165660
    },
    {
      "epoch": 0.3451458333333333,
      "grad_norm": 0.9252091646194458,
      "learning_rate": 0.00022126749804814107,
      "loss": 3.9491,
      "step": 165670
    },
    {
      "epoch": 0.3451666666666667,
      "grad_norm": 1.3601891994476318,
      "learning_rate": 0.0002212588231272978,
      "loss": 4.057,
      "step": 165680
    },
    {
      "epoch": 0.3451875,
      "grad_norm": 0.774125874042511,
      "learning_rate": 0.0002212501478986446,
      "loss": 3.9296,
      "step": 165690
    },
    {
      "epoch": 0.34520833333333334,
      "grad_norm": 0.7434588074684143,
      "learning_rate": 0.00022124147236221895,
      "loss": 4.0259,
      "step": 165700
    },
    {
      "epoch": 0.34522916666666664,
      "grad_norm": 0.9188036918640137,
      "learning_rate": 0.00022123279651805838,
      "loss": 3.9846,
      "step": 165710
    },
    {
      "epoch": 0.34525,
      "grad_norm": 0.7304257750511169,
      "learning_rate": 0.0002212241203662003,
      "loss": 4.161,
      "step": 165720
    },
    {
      "epoch": 0.34527083333333336,
      "grad_norm": 0.7529458403587341,
      "learning_rate": 0.00022121544390668222,
      "loss": 4.107,
      "step": 165730
    },
    {
      "epoch": 0.34529166666666666,
      "grad_norm": 0.7384617328643799,
      "learning_rate": 0.00022120676713954158,
      "loss": 4.1085,
      "step": 165740
    },
    {
      "epoch": 0.3453125,
      "grad_norm": 0.8587954044342041,
      "learning_rate": 0.00022119809006481594,
      "loss": 3.8771,
      "step": 165750
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 0.9112710952758789,
      "learning_rate": 0.0002211894126825427,
      "loss": 3.9125,
      "step": 165760
    },
    {
      "epoch": 0.3453541666666667,
      "grad_norm": 0.9292786717414856,
      "learning_rate": 0.00022118073499275938,
      "loss": 3.8905,
      "step": 165770
    },
    {
      "epoch": 0.345375,
      "grad_norm": 0.8045846819877625,
      "learning_rate": 0.00022117205699550345,
      "loss": 4.1506,
      "step": 165780
    },
    {
      "epoch": 0.34539583333333335,
      "grad_norm": 1.0961971282958984,
      "learning_rate": 0.00022116337869081243,
      "loss": 4.0957,
      "step": 165790
    },
    {
      "epoch": 0.34541666666666665,
      "grad_norm": 0.8051519393920898,
      "learning_rate": 0.0002211547000787238,
      "loss": 3.9075,
      "step": 165800
    },
    {
      "epoch": 0.3454375,
      "grad_norm": 0.7879690527915955,
      "learning_rate": 0.000221146021159275,
      "loss": 3.9106,
      "step": 165810
    },
    {
      "epoch": 0.3454583333333333,
      "grad_norm": 0.8327351808547974,
      "learning_rate": 0.00022113734193250352,
      "loss": 4.0764,
      "step": 165820
    },
    {
      "epoch": 0.34547916666666667,
      "grad_norm": 0.9677614569664001,
      "learning_rate": 0.00022112866239844693,
      "loss": 3.8805,
      "step": 165830
    },
    {
      "epoch": 0.3455,
      "grad_norm": 0.7627501487731934,
      "learning_rate": 0.00022111998255714264,
      "loss": 3.9853,
      "step": 165840
    },
    {
      "epoch": 0.34552083333333333,
      "grad_norm": 0.7818294763565063,
      "learning_rate": 0.0002211113024086282,
      "loss": 3.9823,
      "step": 165850
    },
    {
      "epoch": 0.3455416666666667,
      "grad_norm": 0.7579910755157471,
      "learning_rate": 0.00022110262195294112,
      "loss": 3.9715,
      "step": 165860
    },
    {
      "epoch": 0.3455625,
      "grad_norm": 0.7304950952529907,
      "learning_rate": 0.00022109394119011877,
      "loss": 3.9263,
      "step": 165870
    },
    {
      "epoch": 0.34558333333333335,
      "grad_norm": 0.7511661052703857,
      "learning_rate": 0.00022108526012019883,
      "loss": 4.0025,
      "step": 165880
    },
    {
      "epoch": 0.34560416666666666,
      "grad_norm": 0.8037062883377075,
      "learning_rate": 0.00022107657874321861,
      "loss": 4.1766,
      "step": 165890
    },
    {
      "epoch": 0.345625,
      "grad_norm": 0.7887781858444214,
      "learning_rate": 0.00022106789705921576,
      "loss": 4.0248,
      "step": 165900
    },
    {
      "epoch": 0.3456458333333333,
      "grad_norm": 0.7561830282211304,
      "learning_rate": 0.0002210592150682277,
      "loss": 4.2086,
      "step": 165910
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 0.7757816314697266,
      "learning_rate": 0.000221050532770292,
      "loss": 3.8503,
      "step": 165920
    },
    {
      "epoch": 0.3456875,
      "grad_norm": 0.8615238666534424,
      "learning_rate": 0.00022104185016544607,
      "loss": 3.8654,
      "step": 165930
    },
    {
      "epoch": 0.34570833333333334,
      "grad_norm": 0.8790385127067566,
      "learning_rate": 0.0002210331672537275,
      "loss": 3.8248,
      "step": 165940
    },
    {
      "epoch": 0.34572916666666664,
      "grad_norm": 0.8200610280036926,
      "learning_rate": 0.00022102448403517376,
      "loss": 3.8421,
      "step": 165950
    },
    {
      "epoch": 0.34575,
      "grad_norm": 0.8546552062034607,
      "learning_rate": 0.00022101580050982235,
      "loss": 3.8919,
      "step": 165960
    },
    {
      "epoch": 0.34577083333333336,
      "grad_norm": 0.9429081082344055,
      "learning_rate": 0.0002210071166777108,
      "loss": 4.2666,
      "step": 165970
    },
    {
      "epoch": 0.34579166666666666,
      "grad_norm": 0.8025203347206116,
      "learning_rate": 0.0002209984325388766,
      "loss": 3.9199,
      "step": 165980
    },
    {
      "epoch": 0.3458125,
      "grad_norm": 0.8193325996398926,
      "learning_rate": 0.00022098974809335728,
      "loss": 4.0384,
      "step": 165990
    },
    {
      "epoch": 0.3458333333333333,
      "grad_norm": 0.877650797367096,
      "learning_rate": 0.00022098106334119037,
      "loss": 4.0352,
      "step": 166000
    },
    {
      "epoch": 0.3458333333333333,
      "eval_loss": 3.7023873329162598,
      "eval_runtime": 7.2124,
      "eval_samples_per_second": 1.387,
      "eval_steps_per_second": 0.416,
      "step": 166000
    },
    {
      "epoch": 0.3458541666666667,
      "grad_norm": 0.7777784466743469,
      "learning_rate": 0.00022097237828241334,
      "loss": 3.81,
      "step": 166010
    },
    {
      "epoch": 0.345875,
      "grad_norm": 0.7911484837532043,
      "learning_rate": 0.00022096369291706375,
      "loss": 3.9689,
      "step": 166020
    },
    {
      "epoch": 0.34589583333333335,
      "grad_norm": 0.7703332901000977,
      "learning_rate": 0.00022095500724517904,
      "loss": 3.9511,
      "step": 166030
    },
    {
      "epoch": 0.34591666666666665,
      "grad_norm": 1.065863013267517,
      "learning_rate": 0.00022094632126679688,
      "loss": 3.957,
      "step": 166040
    },
    {
      "epoch": 0.3459375,
      "grad_norm": 0.7673014998435974,
      "learning_rate": 0.00022093763498195462,
      "loss": 3.7861,
      "step": 166050
    },
    {
      "epoch": 0.3459583333333333,
      "grad_norm": 0.8041884899139404,
      "learning_rate": 0.00022092894839068986,
      "loss": 3.9754,
      "step": 166060
    },
    {
      "epoch": 0.34597916666666667,
      "grad_norm": 0.736075222492218,
      "learning_rate": 0.00022092026149304016,
      "loss": 3.9248,
      "step": 166070
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.9913243055343628,
      "learning_rate": 0.00022091157428904296,
      "loss": 4.1384,
      "step": 166080
    },
    {
      "epoch": 0.34602083333333333,
      "grad_norm": 0.801639974117279,
      "learning_rate": 0.00022090288677873582,
      "loss": 3.7797,
      "step": 166090
    },
    {
      "epoch": 0.3460416666666667,
      "grad_norm": 0.9520403146743774,
      "learning_rate": 0.00022089419896215634,
      "loss": 3.8663,
      "step": 166100
    },
    {
      "epoch": 0.3460625,
      "grad_norm": 1.1797230243682861,
      "learning_rate": 0.00022088551083934192,
      "loss": 3.9997,
      "step": 166110
    },
    {
      "epoch": 0.34608333333333335,
      "grad_norm": 0.8795830607414246,
      "learning_rate": 0.0002208768224103302,
      "loss": 3.8166,
      "step": 166120
    },
    {
      "epoch": 0.34610416666666666,
      "grad_norm": 1.0008976459503174,
      "learning_rate": 0.00022086813367515863,
      "loss": 3.9802,
      "step": 166130
    },
    {
      "epoch": 0.346125,
      "grad_norm": 0.7347398400306702,
      "learning_rate": 0.00022085944463386475,
      "loss": 4.0998,
      "step": 166140
    },
    {
      "epoch": 0.3461458333333333,
      "grad_norm": 0.8580107092857361,
      "learning_rate": 0.00022085075528648616,
      "loss": 4.0258,
      "step": 166150
    },
    {
      "epoch": 0.3461666666666667,
      "grad_norm": 0.8087290525436401,
      "learning_rate": 0.00022084206563306033,
      "loss": 4.0638,
      "step": 166160
    },
    {
      "epoch": 0.3461875,
      "grad_norm": 0.8090091347694397,
      "learning_rate": 0.00022083337567362484,
      "loss": 3.9839,
      "step": 166170
    },
    {
      "epoch": 0.34620833333333334,
      "grad_norm": 0.7567521929740906,
      "learning_rate": 0.00022082468540821721,
      "loss": 3.8859,
      "step": 166180
    },
    {
      "epoch": 0.34622916666666664,
      "grad_norm": 0.7501807808876038,
      "learning_rate": 0.00022081599483687493,
      "loss": 4.0264,
      "step": 166190
    },
    {
      "epoch": 0.34625,
      "grad_norm": 0.7768489718437195,
      "learning_rate": 0.00022080730395963562,
      "loss": 3.8966,
      "step": 166200
    },
    {
      "epoch": 0.34627083333333336,
      "grad_norm": 0.7198020219802856,
      "learning_rate": 0.00022079861277653678,
      "loss": 3.9182,
      "step": 166210
    },
    {
      "epoch": 0.34629166666666666,
      "grad_norm": 0.942541241645813,
      "learning_rate": 0.00022078992128761596,
      "loss": 3.8862,
      "step": 166220
    },
    {
      "epoch": 0.3463125,
      "grad_norm": 0.8547003269195557,
      "learning_rate": 0.00022078122949291065,
      "loss": 3.9516,
      "step": 166230
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 1.4763922691345215,
      "learning_rate": 0.00022077253739245852,
      "loss": 3.9761,
      "step": 166240
    },
    {
      "epoch": 0.3463541666666667,
      "grad_norm": 0.9129724502563477,
      "learning_rate": 0.000220763844986297,
      "loss": 3.9479,
      "step": 166250
    },
    {
      "epoch": 0.346375,
      "grad_norm": 0.7499735951423645,
      "learning_rate": 0.00022075515227446365,
      "loss": 3.9653,
      "step": 166260
    },
    {
      "epoch": 0.34639583333333335,
      "grad_norm": 0.8133123517036438,
      "learning_rate": 0.0002207464592569961,
      "loss": 4.015,
      "step": 166270
    },
    {
      "epoch": 0.34641666666666665,
      "grad_norm": 0.8318384289741516,
      "learning_rate": 0.00022073776593393185,
      "loss": 3.9981,
      "step": 166280
    },
    {
      "epoch": 0.3464375,
      "grad_norm": 0.7834234237670898,
      "learning_rate": 0.00022072907230530846,
      "loss": 3.8538,
      "step": 166290
    },
    {
      "epoch": 0.3464583333333333,
      "grad_norm": 0.6876031160354614,
      "learning_rate": 0.0002207203783711634,
      "loss": 3.9021,
      "step": 166300
    },
    {
      "epoch": 0.34647916666666667,
      "grad_norm": 0.7633276581764221,
      "learning_rate": 0.0002207116841315344,
      "loss": 3.7674,
      "step": 166310
    },
    {
      "epoch": 0.3465,
      "grad_norm": 0.8164272308349609,
      "learning_rate": 0.00022070298958645884,
      "loss": 4.0232,
      "step": 166320
    },
    {
      "epoch": 0.34652083333333333,
      "grad_norm": 0.7763646245002747,
      "learning_rate": 0.00022069429473597438,
      "loss": 3.9175,
      "step": 166330
    },
    {
      "epoch": 0.3465416666666667,
      "grad_norm": 0.8212124109268188,
      "learning_rate": 0.00022068559958011855,
      "loss": 3.9302,
      "step": 166340
    },
    {
      "epoch": 0.3465625,
      "grad_norm": 0.9033353328704834,
      "learning_rate": 0.00022067690411892892,
      "loss": 3.8524,
      "step": 166350
    },
    {
      "epoch": 0.34658333333333335,
      "grad_norm": 0.8118345737457275,
      "learning_rate": 0.000220668208352443,
      "loss": 3.8164,
      "step": 166360
    },
    {
      "epoch": 0.34660416666666666,
      "grad_norm": 0.9127033352851868,
      "learning_rate": 0.00022065951228069841,
      "loss": 3.7353,
      "step": 166370
    },
    {
      "epoch": 0.346625,
      "grad_norm": 0.7690006494522095,
      "learning_rate": 0.00022065081590373273,
      "loss": 3.9035,
      "step": 166380
    },
    {
      "epoch": 0.3466458333333333,
      "grad_norm": 0.8555273413658142,
      "learning_rate": 0.0002206421192215834,
      "loss": 3.7851,
      "step": 166390
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.7741481065750122,
      "learning_rate": 0.00022063342223428814,
      "loss": 3.9541,
      "step": 166400
    },
    {
      "epoch": 0.3466875,
      "grad_norm": 0.7521209120750427,
      "learning_rate": 0.0002206247249418845,
      "loss": 3.9005,
      "step": 166410
    },
    {
      "epoch": 0.34670833333333334,
      "grad_norm": 0.768154501914978,
      "learning_rate": 0.00022061602734440997,
      "loss": 3.783,
      "step": 166420
    },
    {
      "epoch": 0.34672916666666664,
      "grad_norm": 0.9063343405723572,
      "learning_rate": 0.00022060732944190211,
      "loss": 3.9836,
      "step": 166430
    },
    {
      "epoch": 0.34675,
      "grad_norm": 0.7482179403305054,
      "learning_rate": 0.0002205986312343986,
      "loss": 3.9937,
      "step": 166440
    },
    {
      "epoch": 0.3467708333333333,
      "grad_norm": 0.7461914420127869,
      "learning_rate": 0.00022058993272193692,
      "loss": 4.0962,
      "step": 166450
    },
    {
      "epoch": 0.34679166666666666,
      "grad_norm": 0.8176750540733337,
      "learning_rate": 0.00022058123390455465,
      "loss": 3.9803,
      "step": 166460
    },
    {
      "epoch": 0.3468125,
      "grad_norm": 0.9066433310508728,
      "learning_rate": 0.0002205725347822894,
      "loss": 4.0919,
      "step": 166470
    },
    {
      "epoch": 0.3468333333333333,
      "grad_norm": 0.7398238778114319,
      "learning_rate": 0.00022056383535517873,
      "loss": 3.7903,
      "step": 166480
    },
    {
      "epoch": 0.3468541666666667,
      "grad_norm": 0.7683438658714294,
      "learning_rate": 0.00022055513562326023,
      "loss": 3.9013,
      "step": 166490
    },
    {
      "epoch": 0.346875,
      "grad_norm": 1.0468264818191528,
      "learning_rate": 0.0002205464355865715,
      "loss": 3.866,
      "step": 166500
    },
    {
      "epoch": 0.34689583333333335,
      "grad_norm": 0.8513751029968262,
      "learning_rate": 0.00022053773524515006,
      "loss": 4.0122,
      "step": 166510
    },
    {
      "epoch": 0.34691666666666665,
      "grad_norm": 0.748279333114624,
      "learning_rate": 0.0002205290345990335,
      "loss": 3.9478,
      "step": 166520
    },
    {
      "epoch": 0.3469375,
      "grad_norm": 0.9712235927581787,
      "learning_rate": 0.00022052033364825948,
      "loss": 3.9834,
      "step": 166530
    },
    {
      "epoch": 0.3469583333333333,
      "grad_norm": 0.7804421782493591,
      "learning_rate": 0.00022051163239286548,
      "loss": 3.9771,
      "step": 166540
    },
    {
      "epoch": 0.34697916666666667,
      "grad_norm": 0.7609884142875671,
      "learning_rate": 0.0002205029308328892,
      "loss": 3.934,
      "step": 166550
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.8270766139030457,
      "learning_rate": 0.0002204942289683681,
      "loss": 4.1302,
      "step": 166560
    },
    {
      "epoch": 0.34702083333333333,
      "grad_norm": 1.016994595527649,
      "learning_rate": 0.00022048552679933986,
      "loss": 3.9276,
      "step": 166570
    },
    {
      "epoch": 0.3470416666666667,
      "grad_norm": 0.8980380892753601,
      "learning_rate": 0.00022047682432584212,
      "loss": 4.1505,
      "step": 166580
    },
    {
      "epoch": 0.3470625,
      "grad_norm": 1.0630905628204346,
      "learning_rate": 0.00022046812154791226,
      "loss": 4.1615,
      "step": 166590
    },
    {
      "epoch": 0.34708333333333335,
      "grad_norm": 0.8308378458023071,
      "learning_rate": 0.00022045941846558808,
      "loss": 3.7521,
      "step": 166600
    },
    {
      "epoch": 0.34710416666666666,
      "grad_norm": 0.7310075163841248,
      "learning_rate": 0.00022045071507890713,
      "loss": 3.8886,
      "step": 166610
    },
    {
      "epoch": 0.347125,
      "grad_norm": 0.7688772082328796,
      "learning_rate": 0.00022044201138790695,
      "loss": 4.0266,
      "step": 166620
    },
    {
      "epoch": 0.3471458333333333,
      "grad_norm": 0.7428908944129944,
      "learning_rate": 0.00022043330739262516,
      "loss": 3.7733,
      "step": 166630
    },
    {
      "epoch": 0.3471666666666667,
      "grad_norm": 0.8959392309188843,
      "learning_rate": 0.00022042460309309938,
      "loss": 3.7742,
      "step": 166640
    },
    {
      "epoch": 0.3471875,
      "grad_norm": 0.8374766111373901,
      "learning_rate": 0.00022041589848936717,
      "loss": 3.8597,
      "step": 166650
    },
    {
      "epoch": 0.34720833333333334,
      "grad_norm": 0.8772537708282471,
      "learning_rate": 0.00022040719358146612,
      "loss": 3.9067,
      "step": 166660
    },
    {
      "epoch": 0.34722916666666664,
      "grad_norm": 0.7623893618583679,
      "learning_rate": 0.0002203984883694339,
      "loss": 3.8571,
      "step": 166670
    },
    {
      "epoch": 0.34725,
      "grad_norm": 0.9070740938186646,
      "learning_rate": 0.00022038978285330806,
      "loss": 3.9369,
      "step": 166680
    },
    {
      "epoch": 0.3472708333333333,
      "grad_norm": 0.9749671220779419,
      "learning_rate": 0.00022038107703312623,
      "loss": 4.0,
      "step": 166690
    },
    {
      "epoch": 0.34729166666666667,
      "grad_norm": 0.8950222730636597,
      "learning_rate": 0.000220372370908926,
      "loss": 3.9652,
      "step": 166700
    },
    {
      "epoch": 0.3473125,
      "grad_norm": 0.7556383609771729,
      "learning_rate": 0.000220363664480745,
      "loss": 3.8612,
      "step": 166710
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 0.8122996091842651,
      "learning_rate": 0.00022035495774862086,
      "loss": 3.8938,
      "step": 166720
    },
    {
      "epoch": 0.3473541666666667,
      "grad_norm": 0.8204529881477356,
      "learning_rate": 0.00022034625071259108,
      "loss": 3.9161,
      "step": 166730
    },
    {
      "epoch": 0.347375,
      "grad_norm": 0.8478186726570129,
      "learning_rate": 0.00022033754337269336,
      "loss": 3.8883,
      "step": 166740
    },
    {
      "epoch": 0.34739583333333335,
      "grad_norm": 0.7999759912490845,
      "learning_rate": 0.0002203288357289653,
      "loss": 3.9262,
      "step": 166750
    },
    {
      "epoch": 0.34741666666666665,
      "grad_norm": 0.7450602650642395,
      "learning_rate": 0.0002203201277814445,
      "loss": 3.7854,
      "step": 166760
    },
    {
      "epoch": 0.3474375,
      "grad_norm": 0.7559604048728943,
      "learning_rate": 0.0002203114195301686,
      "loss": 4.0436,
      "step": 166770
    },
    {
      "epoch": 0.3474583333333333,
      "grad_norm": 0.7451836466789246,
      "learning_rate": 0.0002203027109751752,
      "loss": 4.0092,
      "step": 166780
    },
    {
      "epoch": 0.3474791666666667,
      "grad_norm": 0.8184470534324646,
      "learning_rate": 0.0002202940021165019,
      "loss": 3.9701,
      "step": 166790
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.7733164429664612,
      "learning_rate": 0.00022028529295418635,
      "loss": 4.0232,
      "step": 166800
    },
    {
      "epoch": 0.34752083333333333,
      "grad_norm": 1.032148003578186,
      "learning_rate": 0.00022027658348826616,
      "loss": 3.7527,
      "step": 166810
    },
    {
      "epoch": 0.3475416666666667,
      "grad_norm": 0.7528496384620667,
      "learning_rate": 0.0002202678737187789,
      "loss": 4.0144,
      "step": 166820
    },
    {
      "epoch": 0.3475625,
      "grad_norm": 0.9720773100852966,
      "learning_rate": 0.00022025916364576227,
      "loss": 4.0182,
      "step": 166830
    },
    {
      "epoch": 0.34758333333333336,
      "grad_norm": 0.8458130955696106,
      "learning_rate": 0.00022025045326925388,
      "loss": 4.2413,
      "step": 166840
    },
    {
      "epoch": 0.34760416666666666,
      "grad_norm": 0.7789526581764221,
      "learning_rate": 0.0002202417425892913,
      "loss": 3.6451,
      "step": 166850
    },
    {
      "epoch": 0.347625,
      "grad_norm": 0.8330723643302917,
      "learning_rate": 0.0002202330316059122,
      "loss": 3.9212,
      "step": 166860
    },
    {
      "epoch": 0.3476458333333333,
      "grad_norm": 0.8267167806625366,
      "learning_rate": 0.00022022432031915427,
      "loss": 3.8941,
      "step": 166870
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 0.8577209711074829,
      "learning_rate": 0.00022021560872905501,
      "loss": 3.8613,
      "step": 166880
    },
    {
      "epoch": 0.3476875,
      "grad_norm": 0.7918115854263306,
      "learning_rate": 0.00022020689683565213,
      "loss": 3.9359,
      "step": 166890
    },
    {
      "epoch": 0.34770833333333334,
      "grad_norm": 0.8509496450424194,
      "learning_rate": 0.00022019818463898323,
      "loss": 3.7461,
      "step": 166900
    },
    {
      "epoch": 0.34772916666666664,
      "grad_norm": 0.8164774179458618,
      "learning_rate": 0.000220189472139086,
      "loss": 3.7773,
      "step": 166910
    },
    {
      "epoch": 0.34775,
      "grad_norm": 0.8361877202987671,
      "learning_rate": 0.00022018075933599802,
      "loss": 3.9577,
      "step": 166920
    },
    {
      "epoch": 0.3477708333333333,
      "grad_norm": 0.8829956650733948,
      "learning_rate": 0.00022017204622975687,
      "loss": 3.8587,
      "step": 166930
    },
    {
      "epoch": 0.34779166666666667,
      "grad_norm": 0.8495442867279053,
      "learning_rate": 0.00022016333282040036,
      "loss": 4.0837,
      "step": 166940
    },
    {
      "epoch": 0.3478125,
      "grad_norm": 0.878423810005188,
      "learning_rate": 0.00022015461910796598,
      "loss": 3.9613,
      "step": 166950
    },
    {
      "epoch": 0.3478333333333333,
      "grad_norm": 0.751681387424469,
      "learning_rate": 0.00022014590509249137,
      "loss": 3.8548,
      "step": 166960
    },
    {
      "epoch": 0.3478541666666667,
      "grad_norm": 1.0083673000335693,
      "learning_rate": 0.00022013719077401429,
      "loss": 4.1306,
      "step": 166970
    },
    {
      "epoch": 0.347875,
      "grad_norm": 0.9269698858261108,
      "learning_rate": 0.00022012847615257228,
      "loss": 3.9918,
      "step": 166980
    },
    {
      "epoch": 0.34789583333333335,
      "grad_norm": 0.8246692419052124,
      "learning_rate": 0.000220119761228203,
      "loss": 3.9418,
      "step": 166990
    },
    {
      "epoch": 0.34791666666666665,
      "grad_norm": 0.7873455882072449,
      "learning_rate": 0.00022011104600094412,
      "loss": 4.0522,
      "step": 167000
    },
    {
      "epoch": 0.34791666666666665,
      "eval_loss": 3.7127254009246826,
      "eval_runtime": 7.252,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 167000
    },
    {
      "epoch": 0.3479375,
      "grad_norm": 2.8269565105438232,
      "learning_rate": 0.00022010233047083328,
      "loss": 4.0692,
      "step": 167010
    },
    {
      "epoch": 0.3479583333333333,
      "grad_norm": 0.8134657740592957,
      "learning_rate": 0.00022009361463790812,
      "loss": 3.8374,
      "step": 167020
    },
    {
      "epoch": 0.3479791666666667,
      "grad_norm": 0.8672472238540649,
      "learning_rate": 0.00022008489850220626,
      "loss": 4.0207,
      "step": 167030
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.8654832243919373,
      "learning_rate": 0.0002200761820637654,
      "loss": 4.0108,
      "step": 167040
    },
    {
      "epoch": 0.34802083333333333,
      "grad_norm": 0.9688195586204529,
      "learning_rate": 0.00022006746532262316,
      "loss": 3.9103,
      "step": 167050
    },
    {
      "epoch": 0.3480416666666667,
      "grad_norm": 0.7388427257537842,
      "learning_rate": 0.00022005874827881722,
      "loss": 4.026,
      "step": 167060
    },
    {
      "epoch": 0.3480625,
      "grad_norm": 0.8871471285820007,
      "learning_rate": 0.0002200500309323852,
      "loss": 3.9637,
      "step": 167070
    },
    {
      "epoch": 0.34808333333333336,
      "grad_norm": 0.7540428042411804,
      "learning_rate": 0.00022004131328336483,
      "loss": 4.175,
      "step": 167080
    },
    {
      "epoch": 0.34810416666666666,
      "grad_norm": 0.7746639847755432,
      "learning_rate": 0.0002200325953317936,
      "loss": 3.7909,
      "step": 167090
    },
    {
      "epoch": 0.348125,
      "grad_norm": 0.7709691524505615,
      "learning_rate": 0.00022002387707770933,
      "loss": 3.9302,
      "step": 167100
    },
    {
      "epoch": 0.3481458333333333,
      "grad_norm": 0.7584651112556458,
      "learning_rate": 0.0002200151585211497,
      "loss": 3.9073,
      "step": 167110
    },
    {
      "epoch": 0.3481666666666667,
      "grad_norm": 0.9622227549552917,
      "learning_rate": 0.00022000643966215225,
      "loss": 4.0148,
      "step": 167120
    },
    {
      "epoch": 0.3481875,
      "grad_norm": 0.757221519947052,
      "learning_rate": 0.00021999772050075464,
      "loss": 3.837,
      "step": 167130
    },
    {
      "epoch": 0.34820833333333334,
      "grad_norm": 0.8442012667655945,
      "learning_rate": 0.00021998900103699468,
      "loss": 4.0485,
      "step": 167140
    },
    {
      "epoch": 0.34822916666666665,
      "grad_norm": 0.736933708190918,
      "learning_rate": 0.0002199802812709099,
      "loss": 4.0738,
      "step": 167150
    },
    {
      "epoch": 0.34825,
      "grad_norm": 0.8237503170967102,
      "learning_rate": 0.00021997156120253796,
      "loss": 3.7953,
      "step": 167160
    },
    {
      "epoch": 0.3482708333333333,
      "grad_norm": 0.8347578048706055,
      "learning_rate": 0.0002199628408319166,
      "loss": 3.9869,
      "step": 167170
    },
    {
      "epoch": 0.34829166666666667,
      "grad_norm": 0.8675287365913391,
      "learning_rate": 0.0002199541201590835,
      "loss": 3.9025,
      "step": 167180
    },
    {
      "epoch": 0.3483125,
      "grad_norm": 0.8657518029212952,
      "learning_rate": 0.00021994539918407624,
      "loss": 3.9226,
      "step": 167190
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 0.7135550379753113,
      "learning_rate": 0.00021993667790693258,
      "loss": 4.1156,
      "step": 167200
    },
    {
      "epoch": 0.3483541666666667,
      "grad_norm": 0.7513936161994934,
      "learning_rate": 0.0002199279563276901,
      "loss": 3.7718,
      "step": 167210
    },
    {
      "epoch": 0.348375,
      "grad_norm": 0.7907136678695679,
      "learning_rate": 0.0002199192344463866,
      "loss": 3.9182,
      "step": 167220
    },
    {
      "epoch": 0.34839583333333335,
      "grad_norm": 0.8563754558563232,
      "learning_rate": 0.0002199105122630596,
      "loss": 4.095,
      "step": 167230
    },
    {
      "epoch": 0.34841666666666665,
      "grad_norm": 0.7572395205497742,
      "learning_rate": 0.0002199017897777469,
      "loss": 3.9372,
      "step": 167240
    },
    {
      "epoch": 0.3484375,
      "grad_norm": 0.8329953551292419,
      "learning_rate": 0.0002198930669904862,
      "loss": 3.8973,
      "step": 167250
    },
    {
      "epoch": 0.3484583333333333,
      "grad_norm": 0.7803242802619934,
      "learning_rate": 0.000219884343901315,
      "loss": 3.9495,
      "step": 167260
    },
    {
      "epoch": 0.3484791666666667,
      "grad_norm": 0.8330310583114624,
      "learning_rate": 0.00021987562051027114,
      "loss": 3.8691,
      "step": 167270
    },
    {
      "epoch": 0.3485,
      "grad_norm": 0.8053421378135681,
      "learning_rate": 0.00021986689681739233,
      "loss": 3.8637,
      "step": 167280
    },
    {
      "epoch": 0.34852083333333334,
      "grad_norm": 0.7876412272453308,
      "learning_rate": 0.0002198581728227161,
      "loss": 3.9403,
      "step": 167290
    },
    {
      "epoch": 0.3485416666666667,
      "grad_norm": 0.9203180074691772,
      "learning_rate": 0.00021984944852628023,
      "loss": 3.929,
      "step": 167300
    },
    {
      "epoch": 0.3485625,
      "grad_norm": 0.8304089903831482,
      "learning_rate": 0.00021984072392812243,
      "loss": 4.0385,
      "step": 167310
    },
    {
      "epoch": 0.34858333333333336,
      "grad_norm": 1.7980140447616577,
      "learning_rate": 0.00021983199902828033,
      "loss": 3.7261,
      "step": 167320
    },
    {
      "epoch": 0.34860416666666666,
      "grad_norm": 0.8918396830558777,
      "learning_rate": 0.00021982327382679158,
      "loss": 4.04,
      "step": 167330
    },
    {
      "epoch": 0.348625,
      "grad_norm": 0.879156231880188,
      "learning_rate": 0.00021981454832369396,
      "loss": 3.9256,
      "step": 167340
    },
    {
      "epoch": 0.3486458333333333,
      "grad_norm": 0.7954258918762207,
      "learning_rate": 0.00021980582251902514,
      "loss": 3.7758,
      "step": 167350
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 0.8710199594497681,
      "learning_rate": 0.0002197970964128228,
      "loss": 4.1055,
      "step": 167360
    },
    {
      "epoch": 0.3486875,
      "grad_norm": 0.8018636107444763,
      "learning_rate": 0.0002197883700051246,
      "loss": 3.9061,
      "step": 167370
    },
    {
      "epoch": 0.34870833333333334,
      "grad_norm": 0.8197258114814758,
      "learning_rate": 0.0002197796432959683,
      "loss": 4.1255,
      "step": 167380
    },
    {
      "epoch": 0.34872916666666665,
      "grad_norm": 0.7886502742767334,
      "learning_rate": 0.00021977091628539155,
      "loss": 4.0497,
      "step": 167390
    },
    {
      "epoch": 0.34875,
      "grad_norm": 0.7513138651847839,
      "learning_rate": 0.00021976218897343206,
      "loss": 3.8884,
      "step": 167400
    },
    {
      "epoch": 0.3487708333333333,
      "grad_norm": 0.8422245383262634,
      "learning_rate": 0.00021975346136012756,
      "loss": 3.9783,
      "step": 167410
    },
    {
      "epoch": 0.34879166666666667,
      "grad_norm": 0.7946741580963135,
      "learning_rate": 0.00021974473344551568,
      "loss": 3.8596,
      "step": 167420
    },
    {
      "epoch": 0.3488125,
      "grad_norm": 0.7487196922302246,
      "learning_rate": 0.00021973600522963413,
      "loss": 4.0612,
      "step": 167430
    },
    {
      "epoch": 0.34883333333333333,
      "grad_norm": 0.9325180649757385,
      "learning_rate": 0.00021972727671252067,
      "loss": 4.1346,
      "step": 167440
    },
    {
      "epoch": 0.3488541666666667,
      "grad_norm": 0.805688738822937,
      "learning_rate": 0.000219718547894213,
      "loss": 3.7667,
      "step": 167450
    },
    {
      "epoch": 0.348875,
      "grad_norm": 0.8612058162689209,
      "learning_rate": 0.00021970981877474875,
      "loss": 3.8649,
      "step": 167460
    },
    {
      "epoch": 0.34889583333333335,
      "grad_norm": 0.9732205867767334,
      "learning_rate": 0.0002197010893541657,
      "loss": 3.9101,
      "step": 167470
    },
    {
      "epoch": 0.34891666666666665,
      "grad_norm": 0.8157558441162109,
      "learning_rate": 0.00021969235963250155,
      "loss": 3.7406,
      "step": 167480
    },
    {
      "epoch": 0.3489375,
      "grad_norm": 0.7934774160385132,
      "learning_rate": 0.000219683629609794,
      "loss": 3.9155,
      "step": 167490
    },
    {
      "epoch": 0.3489583333333333,
      "grad_norm": 1.2225468158721924,
      "learning_rate": 0.00021967489928608074,
      "loss": 4.1436,
      "step": 167500
    },
    {
      "epoch": 0.3489791666666667,
      "grad_norm": 0.7795946002006531,
      "learning_rate": 0.00021966616866139944,
      "loss": 3.9814,
      "step": 167510
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.7946109175682068,
      "learning_rate": 0.00021965743773578794,
      "loss": 3.9644,
      "step": 167520
    },
    {
      "epoch": 0.34902083333333334,
      "grad_norm": 1.1133707761764526,
      "learning_rate": 0.00021964870650928382,
      "loss": 4.0151,
      "step": 167530
    },
    {
      "epoch": 0.34904166666666664,
      "grad_norm": 0.7710343599319458,
      "learning_rate": 0.00021963997498192494,
      "loss": 3.8118,
      "step": 167540
    },
    {
      "epoch": 0.3490625,
      "grad_norm": 0.7947289943695068,
      "learning_rate": 0.00021963124315374884,
      "loss": 3.866,
      "step": 167550
    },
    {
      "epoch": 0.34908333333333336,
      "grad_norm": 0.7465358376502991,
      "learning_rate": 0.0002196225110247934,
      "loss": 4.0141,
      "step": 167560
    },
    {
      "epoch": 0.34910416666666666,
      "grad_norm": 1.0071367025375366,
      "learning_rate": 0.00021961377859509626,
      "loss": 4.2257,
      "step": 167570
    },
    {
      "epoch": 0.349125,
      "grad_norm": 0.7677056789398193,
      "learning_rate": 0.00021960504586469512,
      "loss": 3.9218,
      "step": 167580
    },
    {
      "epoch": 0.3491458333333333,
      "grad_norm": 0.8455208539962769,
      "learning_rate": 0.00021959631283362775,
      "loss": 3.9471,
      "step": 167590
    },
    {
      "epoch": 0.3491666666666667,
      "grad_norm": 0.746379554271698,
      "learning_rate": 0.00021958757950193186,
      "loss": 3.8983,
      "step": 167600
    },
    {
      "epoch": 0.3491875,
      "grad_norm": 0.7417313456535339,
      "learning_rate": 0.00021957884586964516,
      "loss": 3.9928,
      "step": 167610
    },
    {
      "epoch": 0.34920833333333334,
      "grad_norm": 0.7959718108177185,
      "learning_rate": 0.00021957011193680543,
      "loss": 3.995,
      "step": 167620
    },
    {
      "epoch": 0.34922916666666665,
      "grad_norm": 0.8270727396011353,
      "learning_rate": 0.0002195613777034503,
      "loss": 3.9089,
      "step": 167630
    },
    {
      "epoch": 0.34925,
      "grad_norm": 0.7864301204681396,
      "learning_rate": 0.00021955264316961758,
      "loss": 3.9682,
      "step": 167640
    },
    {
      "epoch": 0.3492708333333333,
      "grad_norm": 0.7794902920722961,
      "learning_rate": 0.00021954390833534498,
      "loss": 3.9125,
      "step": 167650
    },
    {
      "epoch": 0.34929166666666667,
      "grad_norm": 0.935082733631134,
      "learning_rate": 0.0002195351732006702,
      "loss": 3.8916,
      "step": 167660
    },
    {
      "epoch": 0.3493125,
      "grad_norm": 0.8379712104797363,
      "learning_rate": 0.000219526437765631,
      "loss": 3.9356,
      "step": 167670
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 0.7570028901100159,
      "learning_rate": 0.00021951770203026513,
      "loss": 3.8874,
      "step": 167680
    },
    {
      "epoch": 0.3493541666666667,
      "grad_norm": 0.8810755014419556,
      "learning_rate": 0.00021950896599461027,
      "loss": 4.1035,
      "step": 167690
    },
    {
      "epoch": 0.349375,
      "grad_norm": 0.9032760858535767,
      "learning_rate": 0.00021950022965870424,
      "loss": 3.9303,
      "step": 167700
    },
    {
      "epoch": 0.34939583333333335,
      "grad_norm": 0.8229488730430603,
      "learning_rate": 0.0002194914930225847,
      "loss": 3.9185,
      "step": 167710
    },
    {
      "epoch": 0.34941666666666665,
      "grad_norm": 0.8656910061836243,
      "learning_rate": 0.00021948275608628937,
      "loss": 3.9338,
      "step": 167720
    },
    {
      "epoch": 0.3494375,
      "grad_norm": 1.0864036083221436,
      "learning_rate": 0.0002194740188498561,
      "loss": 3.8848,
      "step": 167730
    },
    {
      "epoch": 0.3494583333333333,
      "grad_norm": 0.7555918097496033,
      "learning_rate": 0.00021946528131332253,
      "loss": 3.8563,
      "step": 167740
    },
    {
      "epoch": 0.3494791666666667,
      "grad_norm": 0.796813428401947,
      "learning_rate": 0.00021945654347672647,
      "loss": 3.9336,
      "step": 167750
    },
    {
      "epoch": 0.3495,
      "grad_norm": 0.7578561305999756,
      "learning_rate": 0.00021944780534010564,
      "loss": 3.9648,
      "step": 167760
    },
    {
      "epoch": 0.34952083333333334,
      "grad_norm": 1.0189614295959473,
      "learning_rate": 0.00021943906690349775,
      "loss": 3.9736,
      "step": 167770
    },
    {
      "epoch": 0.34954166666666664,
      "grad_norm": 0.7599907517433167,
      "learning_rate": 0.0002194303281669406,
      "loss": 4.0882,
      "step": 167780
    },
    {
      "epoch": 0.3495625,
      "grad_norm": 0.732844889163971,
      "learning_rate": 0.00021942158913047194,
      "loss": 3.9034,
      "step": 167790
    },
    {
      "epoch": 0.34958333333333336,
      "grad_norm": 0.8983875513076782,
      "learning_rate": 0.0002194128497941294,
      "loss": 4.1736,
      "step": 167800
    },
    {
      "epoch": 0.34960416666666666,
      "grad_norm": 0.8934099674224854,
      "learning_rate": 0.0002194041101579509,
      "loss": 3.907,
      "step": 167810
    },
    {
      "epoch": 0.349625,
      "grad_norm": 0.8329620957374573,
      "learning_rate": 0.00021939537022197414,
      "loss": 3.8984,
      "step": 167820
    },
    {
      "epoch": 0.3496458333333333,
      "grad_norm": 0.8133862614631653,
      "learning_rate": 0.00021938662998623675,
      "loss": 3.8844,
      "step": 167830
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 0.8299854397773743,
      "learning_rate": 0.00021937788945077669,
      "loss": 4.0105,
      "step": 167840
    },
    {
      "epoch": 0.3496875,
      "grad_norm": 0.7881655097007751,
      "learning_rate": 0.00021936914861563157,
      "loss": 3.9027,
      "step": 167850
    },
    {
      "epoch": 0.34970833333333334,
      "grad_norm": 0.9789669513702393,
      "learning_rate": 0.00021936040748083918,
      "loss": 3.9155,
      "step": 167860
    },
    {
      "epoch": 0.34972916666666665,
      "grad_norm": 0.8458572030067444,
      "learning_rate": 0.00021935166604643728,
      "loss": 3.7067,
      "step": 167870
    },
    {
      "epoch": 0.34975,
      "grad_norm": 0.7796508073806763,
      "learning_rate": 0.00021934292431246365,
      "loss": 3.8902,
      "step": 167880
    },
    {
      "epoch": 0.3497708333333333,
      "grad_norm": 0.8123016953468323,
      "learning_rate": 0.000219334182278956,
      "loss": 3.9597,
      "step": 167890
    },
    {
      "epoch": 0.34979166666666667,
      "grad_norm": 1.2074168920516968,
      "learning_rate": 0.00021932543994595215,
      "loss": 3.9687,
      "step": 167900
    },
    {
      "epoch": 0.3498125,
      "grad_norm": 0.7839807868003845,
      "learning_rate": 0.00021931669731348983,
      "loss": 3.9379,
      "step": 167910
    },
    {
      "epoch": 0.34983333333333333,
      "grad_norm": 1.0189133882522583,
      "learning_rate": 0.00021930795438160683,
      "loss": 4.1579,
      "step": 167920
    },
    {
      "epoch": 0.3498541666666667,
      "grad_norm": 1.0346084833145142,
      "learning_rate": 0.0002192992111503409,
      "loss": 3.9113,
      "step": 167930
    },
    {
      "epoch": 0.349875,
      "grad_norm": 1.0010274648666382,
      "learning_rate": 0.00021929046761972983,
      "loss": 3.9466,
      "step": 167940
    },
    {
      "epoch": 0.34989583333333335,
      "grad_norm": 0.8522409200668335,
      "learning_rate": 0.00021928172378981133,
      "loss": 3.6834,
      "step": 167950
    },
    {
      "epoch": 0.34991666666666665,
      "grad_norm": 0.8773178458213806,
      "learning_rate": 0.00021927297966062317,
      "loss": 3.9717,
      "step": 167960
    },
    {
      "epoch": 0.3499375,
      "grad_norm": 0.7780824899673462,
      "learning_rate": 0.00021926423523220323,
      "loss": 4.0243,
      "step": 167970
    },
    {
      "epoch": 0.3499583333333333,
      "grad_norm": 0.9054962396621704,
      "learning_rate": 0.00021925549050458922,
      "loss": 4.0056,
      "step": 167980
    },
    {
      "epoch": 0.3499791666666667,
      "grad_norm": 0.8198496103286743,
      "learning_rate": 0.00021924674547781886,
      "loss": 3.8417,
      "step": 167990
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8219625353813171,
      "learning_rate": 0.00021923800015192997,
      "loss": 3.7986,
      "step": 168000
    },
    {
      "epoch": 0.35,
      "eval_loss": 3.710057497024536,
      "eval_runtime": 7.3394,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 168000
    },
    {
      "epoch": 0.35002083333333334,
      "grad_norm": 0.7943381667137146,
      "learning_rate": 0.00021922925452696036,
      "loss": 4.2373,
      "step": 168010
    },
    {
      "epoch": 0.35004166666666664,
      "grad_norm": 0.8741809129714966,
      "learning_rate": 0.00021922050860294774,
      "loss": 4.0498,
      "step": 168020
    },
    {
      "epoch": 0.3500625,
      "grad_norm": 0.9125949740409851,
      "learning_rate": 0.0002192117623799299,
      "loss": 3.9716,
      "step": 168030
    },
    {
      "epoch": 0.35008333333333336,
      "grad_norm": 0.7850413918495178,
      "learning_rate": 0.00021920301585794469,
      "loss": 3.9132,
      "step": 168040
    },
    {
      "epoch": 0.35010416666666666,
      "grad_norm": 1.0099982023239136,
      "learning_rate": 0.00021919426903702983,
      "loss": 3.9021,
      "step": 168050
    },
    {
      "epoch": 0.350125,
      "grad_norm": 0.7847177386283875,
      "learning_rate": 0.00021918552191722314,
      "loss": 3.9574,
      "step": 168060
    },
    {
      "epoch": 0.3501458333333333,
      "grad_norm": 0.7916444540023804,
      "learning_rate": 0.00021917677449856233,
      "loss": 3.9897,
      "step": 168070
    },
    {
      "epoch": 0.3501666666666667,
      "grad_norm": 0.8221728205680847,
      "learning_rate": 0.00021916802678108527,
      "loss": 4.0838,
      "step": 168080
    },
    {
      "epoch": 0.3501875,
      "grad_norm": 0.7681078314781189,
      "learning_rate": 0.0002191592787648297,
      "loss": 3.9475,
      "step": 168090
    },
    {
      "epoch": 0.35020833333333334,
      "grad_norm": 0.7783678770065308,
      "learning_rate": 0.0002191505304498334,
      "loss": 3.911,
      "step": 168100
    },
    {
      "epoch": 0.35022916666666665,
      "grad_norm": 0.8058329224586487,
      "learning_rate": 0.00021914178183613423,
      "loss": 3.8939,
      "step": 168110
    },
    {
      "epoch": 0.35025,
      "grad_norm": 0.8133320808410645,
      "learning_rate": 0.00021913303292376993,
      "loss": 3.8579,
      "step": 168120
    },
    {
      "epoch": 0.3502708333333333,
      "grad_norm": 0.9152538776397705,
      "learning_rate": 0.00021912428371277827,
      "loss": 3.7468,
      "step": 168130
    },
    {
      "epoch": 0.35029166666666667,
      "grad_norm": 0.7243102788925171,
      "learning_rate": 0.00021911553420319704,
      "loss": 4.0328,
      "step": 168140
    },
    {
      "epoch": 0.3503125,
      "grad_norm": 0.7703907489776611,
      "learning_rate": 0.00021910678439506412,
      "loss": 3.8442,
      "step": 168150
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 0.9120880365371704,
      "learning_rate": 0.0002190980342884172,
      "loss": 3.893,
      "step": 168160
    },
    {
      "epoch": 0.3503541666666667,
      "grad_norm": 0.7778944969177246,
      "learning_rate": 0.0002190892838832941,
      "loss": 3.836,
      "step": 168170
    },
    {
      "epoch": 0.350375,
      "grad_norm": 0.7497275471687317,
      "learning_rate": 0.0002190805331797327,
      "loss": 3.9657,
      "step": 168180
    },
    {
      "epoch": 0.35039583333333335,
      "grad_norm": 0.8057270646095276,
      "learning_rate": 0.00021907178217777073,
      "loss": 3.9308,
      "step": 168190
    },
    {
      "epoch": 0.35041666666666665,
      "grad_norm": 0.7949462532997131,
      "learning_rate": 0.00021906303087744594,
      "loss": 4.0361,
      "step": 168200
    },
    {
      "epoch": 0.3504375,
      "grad_norm": 0.8107296824455261,
      "learning_rate": 0.0002190542792787963,
      "loss": 3.9601,
      "step": 168210
    },
    {
      "epoch": 0.3504583333333333,
      "grad_norm": 0.9394373893737793,
      "learning_rate": 0.00021904552738185942,
      "loss": 3.8251,
      "step": 168220
    },
    {
      "epoch": 0.3504791666666667,
      "grad_norm": 0.7954110503196716,
      "learning_rate": 0.0002190367751866732,
      "loss": 4.0304,
      "step": 168230
    },
    {
      "epoch": 0.3505,
      "grad_norm": 0.7987843155860901,
      "learning_rate": 0.00021902802269327547,
      "loss": 3.9664,
      "step": 168240
    },
    {
      "epoch": 0.35052083333333334,
      "grad_norm": 0.7817571759223938,
      "learning_rate": 0.000219019269901704,
      "loss": 3.934,
      "step": 168250
    },
    {
      "epoch": 0.35054166666666664,
      "grad_norm": 0.7347349524497986,
      "learning_rate": 0.00021901051681199658,
      "loss": 3.9764,
      "step": 168260
    },
    {
      "epoch": 0.3505625,
      "grad_norm": 1.2849125862121582,
      "learning_rate": 0.00021900176342419105,
      "loss": 3.9891,
      "step": 168270
    },
    {
      "epoch": 0.35058333333333336,
      "grad_norm": 0.7821309566497803,
      "learning_rate": 0.00021899300973832525,
      "loss": 3.7362,
      "step": 168280
    },
    {
      "epoch": 0.35060416666666666,
      "grad_norm": 0.8057061433792114,
      "learning_rate": 0.00021898425575443697,
      "loss": 4.0424,
      "step": 168290
    },
    {
      "epoch": 0.350625,
      "grad_norm": 0.7632529139518738,
      "learning_rate": 0.0002189755014725639,
      "loss": 3.8483,
      "step": 168300
    },
    {
      "epoch": 0.3506458333333333,
      "grad_norm": 0.776286780834198,
      "learning_rate": 0.00021896674689274407,
      "loss": 4.0738,
      "step": 168310
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 0.9502235054969788,
      "learning_rate": 0.00021895799201501515,
      "loss": 4.0463,
      "step": 168320
    },
    {
      "epoch": 0.3506875,
      "grad_norm": 0.7857644557952881,
      "learning_rate": 0.000218949236839415,
      "loss": 3.8054,
      "step": 168330
    },
    {
      "epoch": 0.35070833333333334,
      "grad_norm": 0.8088769912719727,
      "learning_rate": 0.00021894048136598146,
      "loss": 3.929,
      "step": 168340
    },
    {
      "epoch": 0.35072916666666665,
      "grad_norm": 1.0801584720611572,
      "learning_rate": 0.00021893172559475234,
      "loss": 3.9329,
      "step": 168350
    },
    {
      "epoch": 0.35075,
      "grad_norm": 0.8176954388618469,
      "learning_rate": 0.00021892296952576545,
      "loss": 3.901,
      "step": 168360
    },
    {
      "epoch": 0.3507708333333333,
      "grad_norm": 0.8286924958229065,
      "learning_rate": 0.00021891421315905856,
      "loss": 4.0514,
      "step": 168370
    },
    {
      "epoch": 0.35079166666666667,
      "grad_norm": 0.7219845652580261,
      "learning_rate": 0.00021890545649466957,
      "loss": 3.7838,
      "step": 168380
    },
    {
      "epoch": 0.3508125,
      "grad_norm": 0.7840937972068787,
      "learning_rate": 0.0002188966995326363,
      "loss": 3.9596,
      "step": 168390
    },
    {
      "epoch": 0.35083333333333333,
      "grad_norm": 0.7617759704589844,
      "learning_rate": 0.00021888794227299657,
      "loss": 4.0405,
      "step": 168400
    },
    {
      "epoch": 0.3508541666666667,
      "grad_norm": 0.7486003041267395,
      "learning_rate": 0.0002188791847157882,
      "loss": 3.9222,
      "step": 168410
    },
    {
      "epoch": 0.350875,
      "grad_norm": 0.7432236671447754,
      "learning_rate": 0.00021887042686104897,
      "loss": 3.9929,
      "step": 168420
    },
    {
      "epoch": 0.35089583333333335,
      "grad_norm": 0.8540977835655212,
      "learning_rate": 0.00021886166870881677,
      "loss": 3.9662,
      "step": 168430
    },
    {
      "epoch": 0.35091666666666665,
      "grad_norm": 0.8204793334007263,
      "learning_rate": 0.00021885291025912942,
      "loss": 4.0027,
      "step": 168440
    },
    {
      "epoch": 0.3509375,
      "grad_norm": 0.8455365896224976,
      "learning_rate": 0.0002188441515120248,
      "loss": 3.754,
      "step": 168450
    },
    {
      "epoch": 0.3509583333333333,
      "grad_norm": 0.7383545637130737,
      "learning_rate": 0.00021883539246754063,
      "loss": 4.0559,
      "step": 168460
    },
    {
      "epoch": 0.3509791666666667,
      "grad_norm": 0.7924153804779053,
      "learning_rate": 0.00021882663312571481,
      "loss": 3.9698,
      "step": 168470
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.7807444930076599,
      "learning_rate": 0.00021881787348658523,
      "loss": 3.8855,
      "step": 168480
    },
    {
      "epoch": 0.35102083333333334,
      "grad_norm": 0.9079206585884094,
      "learning_rate": 0.00021880911355018966,
      "loss": 3.8522,
      "step": 168490
    },
    {
      "epoch": 0.35104166666666664,
      "grad_norm": 0.8614911437034607,
      "learning_rate": 0.00021880035331656592,
      "loss": 3.719,
      "step": 168500
    },
    {
      "epoch": 0.3510625,
      "grad_norm": 0.7555853724479675,
      "learning_rate": 0.00021879159278575196,
      "loss": 3.8606,
      "step": 168510
    },
    {
      "epoch": 0.35108333333333336,
      "grad_norm": 0.8300368785858154,
      "learning_rate": 0.0002187828319577855,
      "loss": 4.0852,
      "step": 168520
    },
    {
      "epoch": 0.35110416666666666,
      "grad_norm": 0.8218165636062622,
      "learning_rate": 0.00021877407083270442,
      "loss": 3.8068,
      "step": 168530
    },
    {
      "epoch": 0.351125,
      "grad_norm": 0.8264210224151611,
      "learning_rate": 0.0002187653094105466,
      "loss": 3.9427,
      "step": 168540
    },
    {
      "epoch": 0.3511458333333333,
      "grad_norm": 0.8046039938926697,
      "learning_rate": 0.0002187565476913499,
      "loss": 4.0417,
      "step": 168550
    },
    {
      "epoch": 0.3511666666666667,
      "grad_norm": 0.7851642370223999,
      "learning_rate": 0.00021874778567515206,
      "loss": 3.8771,
      "step": 168560
    },
    {
      "epoch": 0.3511875,
      "grad_norm": 0.8166818618774414,
      "learning_rate": 0.00021873902336199102,
      "loss": 3.9179,
      "step": 168570
    },
    {
      "epoch": 0.35120833333333334,
      "grad_norm": 0.8613319396972656,
      "learning_rate": 0.0002187302607519046,
      "loss": 3.9522,
      "step": 168580
    },
    {
      "epoch": 0.35122916666666665,
      "grad_norm": 0.9046094417572021,
      "learning_rate": 0.00021872149784493068,
      "loss": 3.7954,
      "step": 168590
    },
    {
      "epoch": 0.35125,
      "grad_norm": 0.831836462020874,
      "learning_rate": 0.0002187127346411071,
      "loss": 3.8898,
      "step": 168600
    },
    {
      "epoch": 0.3512708333333333,
      "grad_norm": 0.7881211638450623,
      "learning_rate": 0.00021870397114047167,
      "loss": 3.9334,
      "step": 168610
    },
    {
      "epoch": 0.35129166666666667,
      "grad_norm": 0.734203577041626,
      "learning_rate": 0.0002186952073430623,
      "loss": 3.8992,
      "step": 168620
    },
    {
      "epoch": 0.3513125,
      "grad_norm": 0.8822590708732605,
      "learning_rate": 0.00021868644324891682,
      "loss": 4.0568,
      "step": 168630
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 0.8917562365531921,
      "learning_rate": 0.00021867767885807307,
      "loss": 3.9064,
      "step": 168640
    },
    {
      "epoch": 0.3513541666666667,
      "grad_norm": 0.8870271444320679,
      "learning_rate": 0.00021866891417056898,
      "loss": 3.9894,
      "step": 168650
    },
    {
      "epoch": 0.351375,
      "grad_norm": 0.7403273582458496,
      "learning_rate": 0.00021866014918644239,
      "loss": 3.9363,
      "step": 168660
    },
    {
      "epoch": 0.35139583333333335,
      "grad_norm": 1.2278202772140503,
      "learning_rate": 0.00021865138390573103,
      "loss": 3.9228,
      "step": 168670
    },
    {
      "epoch": 0.35141666666666665,
      "grad_norm": 0.7838258147239685,
      "learning_rate": 0.00021864261832847296,
      "loss": 3.8645,
      "step": 168680
    },
    {
      "epoch": 0.3514375,
      "grad_norm": 0.763513445854187,
      "learning_rate": 0.0002186338524547059,
      "loss": 3.8592,
      "step": 168690
    },
    {
      "epoch": 0.3514583333333333,
      "grad_norm": 0.8487687706947327,
      "learning_rate": 0.00021862508628446776,
      "loss": 3.7626,
      "step": 168700
    },
    {
      "epoch": 0.3514791666666667,
      "grad_norm": 0.8408558368682861,
      "learning_rate": 0.00021861631981779644,
      "loss": 4.1048,
      "step": 168710
    },
    {
      "epoch": 0.3515,
      "grad_norm": 0.8381093740463257,
      "learning_rate": 0.00021860755305472976,
      "loss": 4.1086,
      "step": 168720
    },
    {
      "epoch": 0.35152083333333334,
      "grad_norm": 0.8048001527786255,
      "learning_rate": 0.0002185987859953056,
      "loss": 3.8922,
      "step": 168730
    },
    {
      "epoch": 0.35154166666666664,
      "grad_norm": 0.8333936929702759,
      "learning_rate": 0.00021859001863956185,
      "loss": 3.932,
      "step": 168740
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 0.9230017066001892,
      "learning_rate": 0.00021858125098753634,
      "loss": 3.8733,
      "step": 168750
    },
    {
      "epoch": 0.35158333333333336,
      "grad_norm": 0.8008311986923218,
      "learning_rate": 0.00021857248303926703,
      "loss": 3.8933,
      "step": 168760
    },
    {
      "epoch": 0.35160416666666666,
      "grad_norm": 0.7983719706535339,
      "learning_rate": 0.00021856371479479168,
      "loss": 3.9748,
      "step": 168770
    },
    {
      "epoch": 0.351625,
      "grad_norm": 0.7709873914718628,
      "learning_rate": 0.00021855494625414826,
      "loss": 3.894,
      "step": 168780
    },
    {
      "epoch": 0.3516458333333333,
      "grad_norm": 0.8178176879882812,
      "learning_rate": 0.0002185461774173746,
      "loss": 3.9124,
      "step": 168790
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 0.8680652379989624,
      "learning_rate": 0.00021853740828450856,
      "loss": 3.9002,
      "step": 168800
    },
    {
      "epoch": 0.3516875,
      "grad_norm": 0.7257236838340759,
      "learning_rate": 0.00021852863885558807,
      "loss": 3.9477,
      "step": 168810
    },
    {
      "epoch": 0.35170833333333335,
      "grad_norm": 0.7628697156906128,
      "learning_rate": 0.000218519869130651,
      "loss": 4.0575,
      "step": 168820
    },
    {
      "epoch": 0.35172916666666665,
      "grad_norm": 0.8534227013587952,
      "learning_rate": 0.00021851109910973518,
      "loss": 3.9095,
      "step": 168830
    },
    {
      "epoch": 0.35175,
      "grad_norm": 0.9451627731323242,
      "learning_rate": 0.00021850232879287853,
      "loss": 3.8383,
      "step": 168840
    },
    {
      "epoch": 0.3517708333333333,
      "grad_norm": 0.7699210047721863,
      "learning_rate": 0.00021849355818011898,
      "loss": 3.8644,
      "step": 168850
    },
    {
      "epoch": 0.35179166666666667,
      "grad_norm": 1.1120495796203613,
      "learning_rate": 0.00021848478727149435,
      "loss": 4.1274,
      "step": 168860
    },
    {
      "epoch": 0.3518125,
      "grad_norm": 0.7628689408302307,
      "learning_rate": 0.0002184760160670425,
      "loss": 4.0039,
      "step": 168870
    },
    {
      "epoch": 0.35183333333333333,
      "grad_norm": 0.7716010212898254,
      "learning_rate": 0.00021846724456680146,
      "loss": 3.9031,
      "step": 168880
    },
    {
      "epoch": 0.3518541666666667,
      "grad_norm": 0.833625853061676,
      "learning_rate": 0.00021845847277080895,
      "loss": 3.9092,
      "step": 168890
    },
    {
      "epoch": 0.351875,
      "grad_norm": 0.8106078505516052,
      "learning_rate": 0.00021844970067910294,
      "loss": 4.0171,
      "step": 168900
    },
    {
      "epoch": 0.35189583333333335,
      "grad_norm": 0.875609815120697,
      "learning_rate": 0.00021844092829172135,
      "loss": 3.7699,
      "step": 168910
    },
    {
      "epoch": 0.35191666666666666,
      "grad_norm": 0.8625528216362,
      "learning_rate": 0.00021843215560870204,
      "loss": 3.9796,
      "step": 168920
    },
    {
      "epoch": 0.3519375,
      "grad_norm": 0.9236056208610535,
      "learning_rate": 0.00021842338263008287,
      "loss": 3.9554,
      "step": 168930
    },
    {
      "epoch": 0.3519583333333333,
      "grad_norm": 0.8587365746498108,
      "learning_rate": 0.0002184146093559018,
      "loss": 3.781,
      "step": 168940
    },
    {
      "epoch": 0.3519791666666667,
      "grad_norm": 0.8891189694404602,
      "learning_rate": 0.0002184058357861967,
      "loss": 3.7786,
      "step": 168950
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.7345497012138367,
      "learning_rate": 0.00021839706192100544,
      "loss": 3.869,
      "step": 168960
    },
    {
      "epoch": 0.35202083333333334,
      "grad_norm": 0.8209373354911804,
      "learning_rate": 0.00021838828776036596,
      "loss": 3.9073,
      "step": 168970
    },
    {
      "epoch": 0.35204166666666664,
      "grad_norm": 0.8400036692619324,
      "learning_rate": 0.00021837951330431614,
      "loss": 3.9408,
      "step": 168980
    },
    {
      "epoch": 0.3520625,
      "grad_norm": 0.7334766387939453,
      "learning_rate": 0.00021837073855289393,
      "loss": 3.9107,
      "step": 168990
    },
    {
      "epoch": 0.35208333333333336,
      "grad_norm": 0.8089237213134766,
      "learning_rate": 0.00021836196350613713,
      "loss": 3.8614,
      "step": 169000
    },
    {
      "epoch": 0.35208333333333336,
      "eval_loss": 3.72697114944458,
      "eval_runtime": 7.2482,
      "eval_samples_per_second": 1.38,
      "eval_steps_per_second": 0.414,
      "step": 169000
    },
    {
      "epoch": 0.35210416666666666,
      "grad_norm": 0.7561759948730469,
      "learning_rate": 0.00021835318816408372,
      "loss": 3.9072,
      "step": 169010
    },
    {
      "epoch": 0.352125,
      "grad_norm": 0.8280551433563232,
      "learning_rate": 0.00021834441252677165,
      "loss": 3.9948,
      "step": 169020
    },
    {
      "epoch": 0.3521458333333333,
      "grad_norm": 0.8885156512260437,
      "learning_rate": 0.0002183356365942387,
      "loss": 3.9858,
      "step": 169030
    },
    {
      "epoch": 0.3521666666666667,
      "grad_norm": 0.8013561964035034,
      "learning_rate": 0.0002183268603665229,
      "loss": 3.9983,
      "step": 169040
    },
    {
      "epoch": 0.3521875,
      "grad_norm": 0.7974319458007812,
      "learning_rate": 0.00021831808384366208,
      "loss": 3.8854,
      "step": 169050
    },
    {
      "epoch": 0.35220833333333335,
      "grad_norm": 0.7397721409797668,
      "learning_rate": 0.00021830930702569417,
      "loss": 3.9068,
      "step": 169060
    },
    {
      "epoch": 0.35222916666666665,
      "grad_norm": 0.8407354950904846,
      "learning_rate": 0.0002183005299126571,
      "loss": 3.7413,
      "step": 169070
    },
    {
      "epoch": 0.35225,
      "grad_norm": 2.732391834259033,
      "learning_rate": 0.00021829175250458885,
      "loss": 3.8472,
      "step": 169080
    },
    {
      "epoch": 0.3522708333333333,
      "grad_norm": 0.9485359191894531,
      "learning_rate": 0.00021828297480152716,
      "loss": 4.0133,
      "step": 169090
    },
    {
      "epoch": 0.35229166666666667,
      "grad_norm": 0.7936031818389893,
      "learning_rate": 0.00021827419680351008,
      "loss": 3.7255,
      "step": 169100
    },
    {
      "epoch": 0.3523125,
      "grad_norm": 0.7974247336387634,
      "learning_rate": 0.00021826541851057552,
      "loss": 3.9833,
      "step": 169110
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 0.809228241443634,
      "learning_rate": 0.00021825663992276135,
      "loss": 3.9344,
      "step": 169120
    },
    {
      "epoch": 0.3523541666666667,
      "grad_norm": 0.7369673848152161,
      "learning_rate": 0.0002182478610401055,
      "loss": 4.0352,
      "step": 169130
    },
    {
      "epoch": 0.352375,
      "grad_norm": 0.7869745492935181,
      "learning_rate": 0.0002182390818626459,
      "loss": 3.9184,
      "step": 169140
    },
    {
      "epoch": 0.35239583333333335,
      "grad_norm": 0.8093615770339966,
      "learning_rate": 0.00021823030239042054,
      "loss": 3.9068,
      "step": 169150
    },
    {
      "epoch": 0.35241666666666666,
      "grad_norm": 0.9161242246627808,
      "learning_rate": 0.00021822152262346723,
      "loss": 3.7649,
      "step": 169160
    },
    {
      "epoch": 0.3524375,
      "grad_norm": 0.8451089859008789,
      "learning_rate": 0.00021821274256182395,
      "loss": 4.2296,
      "step": 169170
    },
    {
      "epoch": 0.3524583333333333,
      "grad_norm": 0.865803062915802,
      "learning_rate": 0.00021820396220552862,
      "loss": 3.9826,
      "step": 169180
    },
    {
      "epoch": 0.3524791666666667,
      "grad_norm": 0.7852504253387451,
      "learning_rate": 0.0002181951815546192,
      "loss": 4.0327,
      "step": 169190
    },
    {
      "epoch": 0.3525,
      "grad_norm": 0.829648494720459,
      "learning_rate": 0.00021818640060913353,
      "loss": 4.0636,
      "step": 169200
    },
    {
      "epoch": 0.35252083333333334,
      "grad_norm": 0.7428585290908813,
      "learning_rate": 0.00021817761936910964,
      "loss": 3.9668,
      "step": 169210
    },
    {
      "epoch": 0.35254166666666664,
      "grad_norm": 0.875255286693573,
      "learning_rate": 0.00021816883783458543,
      "loss": 3.9171,
      "step": 169220
    },
    {
      "epoch": 0.3525625,
      "grad_norm": 0.7853580713272095,
      "learning_rate": 0.00021816005600559882,
      "loss": 3.8617,
      "step": 169230
    },
    {
      "epoch": 0.35258333333333336,
      "grad_norm": 0.808578372001648,
      "learning_rate": 0.00021815127388218771,
      "loss": 3.8009,
      "step": 169240
    },
    {
      "epoch": 0.35260416666666666,
      "grad_norm": 0.7868937849998474,
      "learning_rate": 0.00021814249146439013,
      "loss": 3.9231,
      "step": 169250
    },
    {
      "epoch": 0.352625,
      "grad_norm": 1.1614526510238647,
      "learning_rate": 0.00021813370875224393,
      "loss": 4.0293,
      "step": 169260
    },
    {
      "epoch": 0.3526458333333333,
      "grad_norm": 1.0967427492141724,
      "learning_rate": 0.0002181249257457871,
      "loss": 4.0054,
      "step": 169270
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 0.7912607789039612,
      "learning_rate": 0.00021811614244505754,
      "loss": 4.0814,
      "step": 169280
    },
    {
      "epoch": 0.3526875,
      "grad_norm": 0.7091429233551025,
      "learning_rate": 0.00021810735885009316,
      "loss": 3.9008,
      "step": 169290
    },
    {
      "epoch": 0.35270833333333335,
      "grad_norm": 0.8418710231781006,
      "learning_rate": 0.00021809857496093199,
      "loss": 3.8259,
      "step": 169300
    },
    {
      "epoch": 0.35272916666666665,
      "grad_norm": 0.7833839058876038,
      "learning_rate": 0.00021808979077761194,
      "loss": 4.0323,
      "step": 169310
    },
    {
      "epoch": 0.35275,
      "grad_norm": 0.7573642730712891,
      "learning_rate": 0.00021808100630017093,
      "loss": 4.011,
      "step": 169320
    },
    {
      "epoch": 0.3527708333333333,
      "grad_norm": 0.7959491014480591,
      "learning_rate": 0.00021807222152864694,
      "loss": 3.8255,
      "step": 169330
    },
    {
      "epoch": 0.35279166666666667,
      "grad_norm": 0.7299448847770691,
      "learning_rate": 0.00021806343646307787,
      "loss": 3.9296,
      "step": 169340
    },
    {
      "epoch": 0.3528125,
      "grad_norm": 0.832395076751709,
      "learning_rate": 0.00021805465110350173,
      "loss": 3.9029,
      "step": 169350
    },
    {
      "epoch": 0.35283333333333333,
      "grad_norm": 1.0325164794921875,
      "learning_rate": 0.00021804586544995645,
      "loss": 3.7886,
      "step": 169360
    },
    {
      "epoch": 0.3528541666666667,
      "grad_norm": 0.7478258609771729,
      "learning_rate": 0.0002180370795024799,
      "loss": 4.0161,
      "step": 169370
    },
    {
      "epoch": 0.352875,
      "grad_norm": 0.8194229602813721,
      "learning_rate": 0.00021802829326111013,
      "loss": 4.0809,
      "step": 169380
    },
    {
      "epoch": 0.35289583333333335,
      "grad_norm": 0.8277410864830017,
      "learning_rate": 0.00021801950672588506,
      "loss": 3.7734,
      "step": 169390
    },
    {
      "epoch": 0.35291666666666666,
      "grad_norm": 0.8069385886192322,
      "learning_rate": 0.0002180107198968426,
      "loss": 3.9651,
      "step": 169400
    },
    {
      "epoch": 0.3529375,
      "grad_norm": 0.8085426092147827,
      "learning_rate": 0.00021800193277402084,
      "loss": 4.0278,
      "step": 169410
    },
    {
      "epoch": 0.3529583333333333,
      "grad_norm": 0.7607600092887878,
      "learning_rate": 0.00021799314535745764,
      "loss": 3.845,
      "step": 169420
    },
    {
      "epoch": 0.3529791666666667,
      "grad_norm": 0.9049203991889954,
      "learning_rate": 0.00021798435764719092,
      "loss": 3.7922,
      "step": 169430
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.8214228749275208,
      "learning_rate": 0.0002179755696432587,
      "loss": 4.0266,
      "step": 169440
    },
    {
      "epoch": 0.35302083333333334,
      "grad_norm": 0.804900050163269,
      "learning_rate": 0.0002179667813456989,
      "loss": 3.9644,
      "step": 169450
    },
    {
      "epoch": 0.35304166666666664,
      "grad_norm": 0.7503215074539185,
      "learning_rate": 0.00021795799275454953,
      "loss": 3.8187,
      "step": 169460
    },
    {
      "epoch": 0.3530625,
      "grad_norm": 0.7942063212394714,
      "learning_rate": 0.00021794920386984852,
      "loss": 4.051,
      "step": 169470
    },
    {
      "epoch": 0.35308333333333336,
      "grad_norm": 0.8568111062049866,
      "learning_rate": 0.00021794041469163386,
      "loss": 3.9915,
      "step": 169480
    },
    {
      "epoch": 0.35310416666666666,
      "grad_norm": 0.8016680479049683,
      "learning_rate": 0.0002179316252199435,
      "loss": 3.9303,
      "step": 169490
    },
    {
      "epoch": 0.353125,
      "grad_norm": 0.7799069881439209,
      "learning_rate": 0.00021792283545481541,
      "loss": 3.9054,
      "step": 169500
    },
    {
      "epoch": 0.3531458333333333,
      "grad_norm": 0.973530113697052,
      "learning_rate": 0.00021791404539628755,
      "loss": 3.8759,
      "step": 169510
    },
    {
      "epoch": 0.3531666666666667,
      "grad_norm": 0.8849547505378723,
      "learning_rate": 0.0002179052550443979,
      "loss": 3.8019,
      "step": 169520
    },
    {
      "epoch": 0.3531875,
      "grad_norm": 0.8339024186134338,
      "learning_rate": 0.00021789646439918442,
      "loss": 3.9442,
      "step": 169530
    },
    {
      "epoch": 0.35320833333333335,
      "grad_norm": 0.7611965537071228,
      "learning_rate": 0.0002178876734606851,
      "loss": 4.0974,
      "step": 169540
    },
    {
      "epoch": 0.35322916666666665,
      "grad_norm": 0.7778784036636353,
      "learning_rate": 0.00021787888222893784,
      "loss": 3.6735,
      "step": 169550
    },
    {
      "epoch": 0.35325,
      "grad_norm": 0.7884449362754822,
      "learning_rate": 0.00021787009070398078,
      "loss": 3.9506,
      "step": 169560
    },
    {
      "epoch": 0.3532708333333333,
      "grad_norm": 0.859689474105835,
      "learning_rate": 0.00021786129888585172,
      "loss": 3.8649,
      "step": 169570
    },
    {
      "epoch": 0.35329166666666667,
      "grad_norm": 0.7802408933639526,
      "learning_rate": 0.00021785250677458878,
      "loss": 3.934,
      "step": 169580
    },
    {
      "epoch": 0.3533125,
      "grad_norm": 1.003892183303833,
      "learning_rate": 0.00021784371437022984,
      "loss": 3.728,
      "step": 169590
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 0.7828409671783447,
      "learning_rate": 0.00021783492167281283,
      "loss": 3.9885,
      "step": 169600
    },
    {
      "epoch": 0.3533541666666667,
      "grad_norm": 0.9803515672683716,
      "learning_rate": 0.0002178261286823759,
      "loss": 4.1221,
      "step": 169610
    },
    {
      "epoch": 0.353375,
      "grad_norm": 1.0381146669387817,
      "learning_rate": 0.00021781733539895693,
      "loss": 4.1452,
      "step": 169620
    },
    {
      "epoch": 0.35339583333333335,
      "grad_norm": 0.836844265460968,
      "learning_rate": 0.0002178085418225939,
      "loss": 3.7279,
      "step": 169630
    },
    {
      "epoch": 0.35341666666666666,
      "grad_norm": 0.7949479222297668,
      "learning_rate": 0.00021779974795332478,
      "loss": 4.0003,
      "step": 169640
    },
    {
      "epoch": 0.3534375,
      "grad_norm": 0.8052338361740112,
      "learning_rate": 0.00021779095379118762,
      "loss": 4.0281,
      "step": 169650
    },
    {
      "epoch": 0.3534583333333333,
      "grad_norm": 0.7427154183387756,
      "learning_rate": 0.00021778215933622038,
      "loss": 3.9266,
      "step": 169660
    },
    {
      "epoch": 0.3534791666666667,
      "grad_norm": 0.774127721786499,
      "learning_rate": 0.00021777336458846103,
      "loss": 4.0753,
      "step": 169670
    },
    {
      "epoch": 0.3535,
      "grad_norm": 0.7864924073219299,
      "learning_rate": 0.00021776456954794755,
      "loss": 4.0182,
      "step": 169680
    },
    {
      "epoch": 0.35352083333333334,
      "grad_norm": 0.8691447973251343,
      "learning_rate": 0.00021775577421471798,
      "loss": 4.1217,
      "step": 169690
    },
    {
      "epoch": 0.35354166666666664,
      "grad_norm": 0.8257926106452942,
      "learning_rate": 0.00021774697858881027,
      "loss": 3.9903,
      "step": 169700
    },
    {
      "epoch": 0.3535625,
      "grad_norm": 0.8318910598754883,
      "learning_rate": 0.00021773818267026244,
      "loss": 4.1144,
      "step": 169710
    },
    {
      "epoch": 0.35358333333333336,
      "grad_norm": 0.8088268041610718,
      "learning_rate": 0.0002177293864591125,
      "loss": 4.0169,
      "step": 169720
    },
    {
      "epoch": 0.35360416666666666,
      "grad_norm": 0.7536077499389648,
      "learning_rate": 0.00021772058995539839,
      "loss": 4.0465,
      "step": 169730
    },
    {
      "epoch": 0.353625,
      "grad_norm": 0.882300615310669,
      "learning_rate": 0.0002177117931591581,
      "loss": 3.8267,
      "step": 169740
    },
    {
      "epoch": 0.3536458333333333,
      "grad_norm": 0.7471444010734558,
      "learning_rate": 0.00021770299607042973,
      "loss": 4.0169,
      "step": 169750
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 0.818515419960022,
      "learning_rate": 0.0002176941986892512,
      "loss": 4.1834,
      "step": 169760
    },
    {
      "epoch": 0.3536875,
      "grad_norm": 0.8197045922279358,
      "learning_rate": 0.00021768540101566047,
      "loss": 4.0676,
      "step": 169770
    },
    {
      "epoch": 0.35370833333333335,
      "grad_norm": 0.7919641137123108,
      "learning_rate": 0.00021767660304969566,
      "loss": 3.7889,
      "step": 169780
    },
    {
      "epoch": 0.35372916666666665,
      "grad_norm": 0.7825117111206055,
      "learning_rate": 0.0002176678047913947,
      "loss": 3.9108,
      "step": 169790
    },
    {
      "epoch": 0.35375,
      "grad_norm": 0.8453184962272644,
      "learning_rate": 0.00021765900624079562,
      "loss": 4.0415,
      "step": 169800
    },
    {
      "epoch": 0.3537708333333333,
      "grad_norm": 0.7852915525436401,
      "learning_rate": 0.00021765020739793642,
      "loss": 4.0055,
      "step": 169810
    },
    {
      "epoch": 0.35379166666666667,
      "grad_norm": 0.7453979253768921,
      "learning_rate": 0.00021764140826285505,
      "loss": 3.7837,
      "step": 169820
    },
    {
      "epoch": 0.3538125,
      "grad_norm": 0.8665858507156372,
      "learning_rate": 0.00021763260883558963,
      "loss": 4.014,
      "step": 169830
    },
    {
      "epoch": 0.35383333333333333,
      "grad_norm": 0.8113914728164673,
      "learning_rate": 0.00021762380911617807,
      "loss": 3.9659,
      "step": 169840
    },
    {
      "epoch": 0.3538541666666667,
      "grad_norm": 0.778303325176239,
      "learning_rate": 0.00021761500910465843,
      "loss": 3.8889,
      "step": 169850
    },
    {
      "epoch": 0.353875,
      "grad_norm": 0.8377773761749268,
      "learning_rate": 0.00021760620880106874,
      "loss": 3.9405,
      "step": 169860
    },
    {
      "epoch": 0.35389583333333335,
      "grad_norm": 0.7690545916557312,
      "learning_rate": 0.00021759740820544697,
      "loss": 3.8268,
      "step": 169870
    },
    {
      "epoch": 0.35391666666666666,
      "grad_norm": 0.8810467720031738,
      "learning_rate": 0.00021758860731783112,
      "loss": 3.9081,
      "step": 169880
    },
    {
      "epoch": 0.3539375,
      "grad_norm": 0.9129574298858643,
      "learning_rate": 0.0002175798061382593,
      "loss": 4.2635,
      "step": 169890
    },
    {
      "epoch": 0.3539583333333333,
      "grad_norm": 0.8840776681900024,
      "learning_rate": 0.00021757100466676942,
      "loss": 3.9315,
      "step": 169900
    },
    {
      "epoch": 0.3539791666666667,
      "grad_norm": 0.8977183699607849,
      "learning_rate": 0.00021756220290339957,
      "loss": 3.8953,
      "step": 169910
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.8443974852561951,
      "learning_rate": 0.00021755340084818775,
      "loss": 3.8555,
      "step": 169920
    },
    {
      "epoch": 0.35402083333333334,
      "grad_norm": 0.7817113399505615,
      "learning_rate": 0.00021754459850117198,
      "loss": 3.9479,
      "step": 169930
    },
    {
      "epoch": 0.35404166666666664,
      "grad_norm": 0.7910370826721191,
      "learning_rate": 0.00021753579586239022,
      "loss": 3.9954,
      "step": 169940
    },
    {
      "epoch": 0.3540625,
      "grad_norm": 0.9601077437400818,
      "learning_rate": 0.00021752699293188063,
      "loss": 3.8814,
      "step": 169950
    },
    {
      "epoch": 0.35408333333333336,
      "grad_norm": 0.985447883605957,
      "learning_rate": 0.00021751818970968116,
      "loss": 4.0018,
      "step": 169960
    },
    {
      "epoch": 0.35410416666666666,
      "grad_norm": 1.0463114976882935,
      "learning_rate": 0.00021750938619582977,
      "loss": 3.96,
      "step": 169970
    },
    {
      "epoch": 0.354125,
      "grad_norm": 0.7880219221115112,
      "learning_rate": 0.00021750058239036461,
      "loss": 3.853,
      "step": 169980
    },
    {
      "epoch": 0.3541458333333333,
      "grad_norm": 0.7938763499259949,
      "learning_rate": 0.00021749177829332364,
      "loss": 3.9528,
      "step": 169990
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 0.7763640284538269,
      "learning_rate": 0.0002174829739047449,
      "loss": 3.7471,
      "step": 170000
    },
    {
      "epoch": 0.3541666666666667,
      "eval_loss": 3.723046064376831,
      "eval_runtime": 7.2311,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 170000
    },
    {
      "epoch": 0.3541875,
      "grad_norm": 0.744365930557251,
      "learning_rate": 0.00021747416922466642,
      "loss": 4.0276,
      "step": 170010
    },
    {
      "epoch": 0.35420833333333335,
      "grad_norm": 0.8426578044891357,
      "learning_rate": 0.00021746536425312624,
      "loss": 3.9026,
      "step": 170020
    },
    {
      "epoch": 0.35422916666666665,
      "grad_norm": 0.7888756990432739,
      "learning_rate": 0.00021745655899016239,
      "loss": 4.041,
      "step": 170030
    },
    {
      "epoch": 0.35425,
      "grad_norm": 0.8262789845466614,
      "learning_rate": 0.0002174477534358129,
      "loss": 3.9417,
      "step": 170040
    },
    {
      "epoch": 0.3542708333333333,
      "grad_norm": 0.7503518462181091,
      "learning_rate": 0.00021743894759011583,
      "loss": 3.9457,
      "step": 170050
    },
    {
      "epoch": 0.35429166666666667,
      "grad_norm": 0.9555940628051758,
      "learning_rate": 0.00021743014145310922,
      "loss": 4.0911,
      "step": 170060
    },
    {
      "epoch": 0.3543125,
      "grad_norm": 0.8828819990158081,
      "learning_rate": 0.00021742133502483104,
      "loss": 4.0176,
      "step": 170070
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 0.7658157348632812,
      "learning_rate": 0.00021741252830531938,
      "loss": 4.0487,
      "step": 170080
    },
    {
      "epoch": 0.3543541666666667,
      "grad_norm": 0.8880703449249268,
      "learning_rate": 0.00021740372129461235,
      "loss": 3.9958,
      "step": 170090
    },
    {
      "epoch": 0.354375,
      "grad_norm": 0.814624011516571,
      "learning_rate": 0.00021739491399274785,
      "loss": 4.1579,
      "step": 170100
    },
    {
      "epoch": 0.35439583333333335,
      "grad_norm": 0.7164425253868103,
      "learning_rate": 0.000217386106399764,
      "loss": 3.8542,
      "step": 170110
    },
    {
      "epoch": 0.35441666666666666,
      "grad_norm": 0.7660688757896423,
      "learning_rate": 0.00021737729851569888,
      "loss": 3.8288,
      "step": 170120
    },
    {
      "epoch": 0.3544375,
      "grad_norm": 0.7723053693771362,
      "learning_rate": 0.00021736849034059052,
      "loss": 3.9257,
      "step": 170130
    },
    {
      "epoch": 0.3544583333333333,
      "grad_norm": 0.977694571018219,
      "learning_rate": 0.0002173596818744769,
      "loss": 4.0126,
      "step": 170140
    },
    {
      "epoch": 0.3544791666666667,
      "grad_norm": 0.7272211909294128,
      "learning_rate": 0.00021735087311739614,
      "loss": 3.934,
      "step": 170150
    },
    {
      "epoch": 0.3545,
      "grad_norm": 0.8520066142082214,
      "learning_rate": 0.00021734206406938628,
      "loss": 3.9143,
      "step": 170160
    },
    {
      "epoch": 0.35452083333333334,
      "grad_norm": 0.8903957009315491,
      "learning_rate": 0.00021733325473048532,
      "loss": 3.8559,
      "step": 170170
    },
    {
      "epoch": 0.35454166666666664,
      "grad_norm": 0.9483323693275452,
      "learning_rate": 0.00021732444510073136,
      "loss": 3.9261,
      "step": 170180
    },
    {
      "epoch": 0.3545625,
      "grad_norm": 0.7494141459465027,
      "learning_rate": 0.00021731563518016247,
      "loss": 3.9186,
      "step": 170190
    },
    {
      "epoch": 0.3545833333333333,
      "grad_norm": 0.8749033808708191,
      "learning_rate": 0.00021730682496881666,
      "loss": 3.9167,
      "step": 170200
    },
    {
      "epoch": 0.35460416666666666,
      "grad_norm": 0.7611426711082458,
      "learning_rate": 0.00021729801446673203,
      "loss": 3.9906,
      "step": 170210
    },
    {
      "epoch": 0.354625,
      "grad_norm": 0.851104736328125,
      "learning_rate": 0.0002172892036739466,
      "loss": 4.0301,
      "step": 170220
    },
    {
      "epoch": 0.3546458333333333,
      "grad_norm": 0.9031092524528503,
      "learning_rate": 0.00021728039259049847,
      "loss": 4.225,
      "step": 170230
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 0.8328729271888733,
      "learning_rate": 0.00021727158121642563,
      "loss": 4.0406,
      "step": 170240
    },
    {
      "epoch": 0.3546875,
      "grad_norm": 0.7464167475700378,
      "learning_rate": 0.0002172627695517662,
      "loss": 3.8401,
      "step": 170250
    },
    {
      "epoch": 0.35470833333333335,
      "grad_norm": 0.8688642382621765,
      "learning_rate": 0.00021725395759655827,
      "loss": 4.0703,
      "step": 170260
    },
    {
      "epoch": 0.35472916666666665,
      "grad_norm": 0.7435978651046753,
      "learning_rate": 0.0002172451453508398,
      "loss": 3.9218,
      "step": 170270
    },
    {
      "epoch": 0.35475,
      "grad_norm": 0.8667095303535461,
      "learning_rate": 0.00021723633281464896,
      "loss": 4.1114,
      "step": 170280
    },
    {
      "epoch": 0.3547708333333333,
      "grad_norm": 0.8674890398979187,
      "learning_rate": 0.0002172275199880238,
      "loss": 3.9087,
      "step": 170290
    },
    {
      "epoch": 0.35479166666666667,
      "grad_norm": 0.888903796672821,
      "learning_rate": 0.00021721870687100233,
      "loss": 3.7572,
      "step": 170300
    },
    {
      "epoch": 0.3548125,
      "grad_norm": 0.8993375897407532,
      "learning_rate": 0.00021720989346362264,
      "loss": 4.0082,
      "step": 170310
    },
    {
      "epoch": 0.35483333333333333,
      "grad_norm": 0.8262799978256226,
      "learning_rate": 0.00021720107976592285,
      "loss": 3.859,
      "step": 170320
    },
    {
      "epoch": 0.3548541666666667,
      "grad_norm": 0.732803225517273,
      "learning_rate": 0.00021719226577794097,
      "loss": 3.9548,
      "step": 170330
    },
    {
      "epoch": 0.354875,
      "grad_norm": 0.7376180291175842,
      "learning_rate": 0.0002171834514997151,
      "loss": 3.9919,
      "step": 170340
    },
    {
      "epoch": 0.35489583333333335,
      "grad_norm": 0.8607305884361267,
      "learning_rate": 0.00021717463693128331,
      "loss": 4.0222,
      "step": 170350
    },
    {
      "epoch": 0.35491666666666666,
      "grad_norm": 0.8393977880477905,
      "learning_rate": 0.0002171658220726837,
      "loss": 3.9389,
      "step": 170360
    },
    {
      "epoch": 0.3549375,
      "grad_norm": 0.803946316242218,
      "learning_rate": 0.0002171570069239543,
      "loss": 3.7999,
      "step": 170370
    },
    {
      "epoch": 0.3549583333333333,
      "grad_norm": 0.8266763687133789,
      "learning_rate": 0.00021714819148513324,
      "loss": 3.6741,
      "step": 170380
    },
    {
      "epoch": 0.3549791666666667,
      "grad_norm": 0.8100590705871582,
      "learning_rate": 0.00021713937575625856,
      "loss": 3.9511,
      "step": 170390
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.960513174533844,
      "learning_rate": 0.00021713055973736833,
      "loss": 4.0168,
      "step": 170400
    },
    {
      "epoch": 0.35502083333333334,
      "grad_norm": 0.8638201951980591,
      "learning_rate": 0.0002171217434285007,
      "loss": 4.0509,
      "step": 170410
    },
    {
      "epoch": 0.35504166666666664,
      "grad_norm": 0.9046754240989685,
      "learning_rate": 0.00021711292682969366,
      "loss": 4.0227,
      "step": 170420
    },
    {
      "epoch": 0.3550625,
      "grad_norm": 1.2941960096359253,
      "learning_rate": 0.0002171041099409854,
      "loss": 3.9365,
      "step": 170430
    },
    {
      "epoch": 0.3550833333333333,
      "grad_norm": 0.8291667699813843,
      "learning_rate": 0.00021709529276241386,
      "loss": 4.0912,
      "step": 170440
    },
    {
      "epoch": 0.35510416666666667,
      "grad_norm": 0.8976940512657166,
      "learning_rate": 0.0002170864752940173,
      "loss": 3.866,
      "step": 170450
    },
    {
      "epoch": 0.355125,
      "grad_norm": 0.7615755200386047,
      "learning_rate": 0.00021707765753583368,
      "loss": 4.2274,
      "step": 170460
    },
    {
      "epoch": 0.3551458333333333,
      "grad_norm": 0.8304765820503235,
      "learning_rate": 0.0002170688394879011,
      "loss": 3.9736,
      "step": 170470
    },
    {
      "epoch": 0.3551666666666667,
      "grad_norm": 0.7977964878082275,
      "learning_rate": 0.00021706002115025775,
      "loss": 4.0596,
      "step": 170480
    },
    {
      "epoch": 0.3551875,
      "grad_norm": 0.796099841594696,
      "learning_rate": 0.00021705120252294162,
      "loss": 3.8529,
      "step": 170490
    },
    {
      "epoch": 0.35520833333333335,
      "grad_norm": 0.8085097670555115,
      "learning_rate": 0.0002170423836059908,
      "loss": 3.9105,
      "step": 170500
    },
    {
      "epoch": 0.35522916666666665,
      "grad_norm": 0.7724606394767761,
      "learning_rate": 0.00021703356439944346,
      "loss": 3.7786,
      "step": 170510
    },
    {
      "epoch": 0.35525,
      "grad_norm": 0.8022292256355286,
      "learning_rate": 0.00021702474490333762,
      "loss": 3.8873,
      "step": 170520
    },
    {
      "epoch": 0.3552708333333333,
      "grad_norm": 0.8117178082466125,
      "learning_rate": 0.00021701592511771148,
      "loss": 3.9162,
      "step": 170530
    },
    {
      "epoch": 0.3552916666666667,
      "grad_norm": 0.7741518020629883,
      "learning_rate": 0.00021700710504260302,
      "loss": 3.955,
      "step": 170540
    },
    {
      "epoch": 0.3553125,
      "grad_norm": 0.7814295291900635,
      "learning_rate": 0.00021699828467805038,
      "loss": 3.9986,
      "step": 170550
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 0.7218459248542786,
      "learning_rate": 0.0002169894640240917,
      "loss": 3.9014,
      "step": 170560
    },
    {
      "epoch": 0.3553541666666667,
      "grad_norm": 0.7961388230323792,
      "learning_rate": 0.00021698064308076504,
      "loss": 3.9143,
      "step": 170570
    },
    {
      "epoch": 0.355375,
      "grad_norm": 0.8069843053817749,
      "learning_rate": 0.0002169718218481085,
      "loss": 3.8173,
      "step": 170580
    },
    {
      "epoch": 0.35539583333333336,
      "grad_norm": 0.8049778342247009,
      "learning_rate": 0.00021696300032616024,
      "loss": 4.1152,
      "step": 170590
    },
    {
      "epoch": 0.35541666666666666,
      "grad_norm": 0.7515397667884827,
      "learning_rate": 0.00021695417851495832,
      "loss": 3.9973,
      "step": 170600
    },
    {
      "epoch": 0.3554375,
      "grad_norm": 0.8381898999214172,
      "learning_rate": 0.00021694535641454083,
      "loss": 4.0083,
      "step": 170610
    },
    {
      "epoch": 0.3554583333333333,
      "grad_norm": 0.8232769966125488,
      "learning_rate": 0.0002169365340249459,
      "loss": 4.0249,
      "step": 170620
    },
    {
      "epoch": 0.3554791666666667,
      "grad_norm": 0.7754349112510681,
      "learning_rate": 0.00021692771134621165,
      "loss": 3.9133,
      "step": 170630
    },
    {
      "epoch": 0.3555,
      "grad_norm": 0.7783157229423523,
      "learning_rate": 0.00021691888837837612,
      "loss": 3.9429,
      "step": 170640
    },
    {
      "epoch": 0.35552083333333334,
      "grad_norm": 0.7636997103691101,
      "learning_rate": 0.00021691006512147756,
      "loss": 3.9714,
      "step": 170650
    },
    {
      "epoch": 0.35554166666666664,
      "grad_norm": 0.785747766494751,
      "learning_rate": 0.00021690124157555397,
      "loss": 3.8793,
      "step": 170660
    },
    {
      "epoch": 0.3555625,
      "grad_norm": 0.7709873914718628,
      "learning_rate": 0.0002168924177406435,
      "loss": 3.9011,
      "step": 170670
    },
    {
      "epoch": 0.3555833333333333,
      "grad_norm": 0.846770167350769,
      "learning_rate": 0.00021688359361678424,
      "loss": 3.9155,
      "step": 170680
    },
    {
      "epoch": 0.35560416666666667,
      "grad_norm": 1.0296978950500488,
      "learning_rate": 0.00021687476920401438,
      "loss": 3.8189,
      "step": 170690
    },
    {
      "epoch": 0.355625,
      "grad_norm": 0.8544007539749146,
      "learning_rate": 0.00021686594450237196,
      "loss": 3.7492,
      "step": 170700
    },
    {
      "epoch": 0.3556458333333333,
      "grad_norm": 0.7617716193199158,
      "learning_rate": 0.0002168571195118951,
      "loss": 3.7929,
      "step": 170710
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 0.8379435539245605,
      "learning_rate": 0.000216848294232622,
      "loss": 4.0668,
      "step": 170720
    },
    {
      "epoch": 0.3556875,
      "grad_norm": 1.013062834739685,
      "learning_rate": 0.00021683946866459075,
      "loss": 3.8591,
      "step": 170730
    },
    {
      "epoch": 0.35570833333333335,
      "grad_norm": 0.9829462170600891,
      "learning_rate": 0.00021683064280783934,
      "loss": 3.8449,
      "step": 170740
    },
    {
      "epoch": 0.35572916666666665,
      "grad_norm": 0.7845310568809509,
      "learning_rate": 0.0002168218166624061,
      "loss": 3.9846,
      "step": 170750
    },
    {
      "epoch": 0.35575,
      "grad_norm": 1.034528374671936,
      "learning_rate": 0.00021681299022832903,
      "loss": 3.8463,
      "step": 170760
    },
    {
      "epoch": 0.3557708333333333,
      "grad_norm": 0.7719312310218811,
      "learning_rate": 0.00021680416350564627,
      "loss": 3.8726,
      "step": 170770
    },
    {
      "epoch": 0.3557916666666667,
      "grad_norm": 0.8068119883537292,
      "learning_rate": 0.000216795336494396,
      "loss": 3.8982,
      "step": 170780
    },
    {
      "epoch": 0.3558125,
      "grad_norm": 0.8023483753204346,
      "learning_rate": 0.00021678650919461633,
      "loss": 4.0809,
      "step": 170790
    },
    {
      "epoch": 0.35583333333333333,
      "grad_norm": 0.8772960901260376,
      "learning_rate": 0.00021677768160634537,
      "loss": 4.1136,
      "step": 170800
    },
    {
      "epoch": 0.3558541666666667,
      "grad_norm": 0.7985514402389526,
      "learning_rate": 0.0002167688537296212,
      "loss": 4.0067,
      "step": 170810
    },
    {
      "epoch": 0.355875,
      "grad_norm": 0.8368074893951416,
      "learning_rate": 0.00021676002556448204,
      "loss": 4.0422,
      "step": 170820
    },
    {
      "epoch": 0.35589583333333336,
      "grad_norm": 0.7928455471992493,
      "learning_rate": 0.00021675119711096606,
      "loss": 3.8301,
      "step": 170830
    },
    {
      "epoch": 0.35591666666666666,
      "grad_norm": 0.8057251572608948,
      "learning_rate": 0.00021674236836911122,
      "loss": 4.1036,
      "step": 170840
    },
    {
      "epoch": 0.3559375,
      "grad_norm": 0.7852558493614197,
      "learning_rate": 0.00021673353933895583,
      "loss": 3.9728,
      "step": 170850
    },
    {
      "epoch": 0.3559583333333333,
      "grad_norm": 0.796934962272644,
      "learning_rate": 0.00021672471002053798,
      "loss": 3.9252,
      "step": 170860
    },
    {
      "epoch": 0.3559791666666667,
      "grad_norm": 0.7665131688117981,
      "learning_rate": 0.0002167158804138958,
      "loss": 3.7672,
      "step": 170870
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.7881661057472229,
      "learning_rate": 0.00021670705051906737,
      "loss": 4.224,
      "step": 170880
    },
    {
      "epoch": 0.35602083333333334,
      "grad_norm": 1.0093796253204346,
      "learning_rate": 0.00021669822033609093,
      "loss": 3.8993,
      "step": 170890
    },
    {
      "epoch": 0.35604166666666665,
      "grad_norm": 0.8798332214355469,
      "learning_rate": 0.00021668938986500454,
      "loss": 3.9279,
      "step": 170900
    },
    {
      "epoch": 0.3560625,
      "grad_norm": 0.9740110635757446,
      "learning_rate": 0.00021668055910584638,
      "loss": 4.155,
      "step": 170910
    },
    {
      "epoch": 0.3560833333333333,
      "grad_norm": 0.7340642213821411,
      "learning_rate": 0.00021667172805865464,
      "loss": 4.022,
      "step": 170920
    },
    {
      "epoch": 0.35610416666666667,
      "grad_norm": 0.7788530588150024,
      "learning_rate": 0.00021666289672346743,
      "loss": 3.8457,
      "step": 170930
    },
    {
      "epoch": 0.356125,
      "grad_norm": 0.875019371509552,
      "learning_rate": 0.00021665406510032285,
      "loss": 4.0015,
      "step": 170940
    },
    {
      "epoch": 0.35614583333333333,
      "grad_norm": 1.3375734090805054,
      "learning_rate": 0.0002166452331892591,
      "loss": 4.1076,
      "step": 170950
    },
    {
      "epoch": 0.3561666666666667,
      "grad_norm": 0.9004644751548767,
      "learning_rate": 0.00021663640099031436,
      "loss": 4.158,
      "step": 170960
    },
    {
      "epoch": 0.3561875,
      "grad_norm": 0.9041292667388916,
      "learning_rate": 0.0002166275685035267,
      "loss": 4.0575,
      "step": 170970
    },
    {
      "epoch": 0.35620833333333335,
      "grad_norm": 0.8685824871063232,
      "learning_rate": 0.00021661873572893434,
      "loss": 3.9243,
      "step": 170980
    },
    {
      "epoch": 0.35622916666666665,
      "grad_norm": 0.8225646615028381,
      "learning_rate": 0.00021660990266657545,
      "loss": 3.8283,
      "step": 170990
    },
    {
      "epoch": 0.35625,
      "grad_norm": 0.852482259273529,
      "learning_rate": 0.0002166010693164881,
      "loss": 3.99,
      "step": 171000
    },
    {
      "epoch": 0.35625,
      "eval_loss": 3.7103049755096436,
      "eval_runtime": 7.2919,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 171000
    },
    {
      "epoch": 0.3562708333333333,
      "grad_norm": 0.8431593179702759,
      "learning_rate": 0.00021659223567871048,
      "loss": 3.9268,
      "step": 171010
    },
    {
      "epoch": 0.3562916666666667,
      "grad_norm": 0.810670793056488,
      "learning_rate": 0.0002165834017532808,
      "loss": 3.9985,
      "step": 171020
    },
    {
      "epoch": 0.3563125,
      "grad_norm": 0.8060988187789917,
      "learning_rate": 0.00021657456754023714,
      "loss": 3.8821,
      "step": 171030
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 0.8635908365249634,
      "learning_rate": 0.00021656573303961775,
      "loss": 3.9857,
      "step": 171040
    },
    {
      "epoch": 0.3563541666666667,
      "grad_norm": 0.8040207028388977,
      "learning_rate": 0.0002165568982514607,
      "loss": 3.8228,
      "step": 171050
    },
    {
      "epoch": 0.356375,
      "grad_norm": 0.818118691444397,
      "learning_rate": 0.00021654806317580422,
      "loss": 4.1178,
      "step": 171060
    },
    {
      "epoch": 0.35639583333333336,
      "grad_norm": 0.8116081357002258,
      "learning_rate": 0.00021653922781268643,
      "loss": 3.9024,
      "step": 171070
    },
    {
      "epoch": 0.35641666666666666,
      "grad_norm": 0.7948840260505676,
      "learning_rate": 0.0002165303921621455,
      "loss": 4.1718,
      "step": 171080
    },
    {
      "epoch": 0.3564375,
      "grad_norm": 0.7557519674301147,
      "learning_rate": 0.00021652155622421963,
      "loss": 4.0797,
      "step": 171090
    },
    {
      "epoch": 0.3564583333333333,
      "grad_norm": 0.8956173062324524,
      "learning_rate": 0.000216512719998947,
      "loss": 3.9472,
      "step": 171100
    },
    {
      "epoch": 0.3564791666666667,
      "grad_norm": 0.7980810403823853,
      "learning_rate": 0.00021650388348636566,
      "loss": 3.9135,
      "step": 171110
    },
    {
      "epoch": 0.3565,
      "grad_norm": 0.7712350487709045,
      "learning_rate": 0.00021649504668651393,
      "loss": 3.8916,
      "step": 171120
    },
    {
      "epoch": 0.35652083333333334,
      "grad_norm": 0.8295763731002808,
      "learning_rate": 0.00021648620959942996,
      "loss": 4.0575,
      "step": 171130
    },
    {
      "epoch": 0.35654166666666665,
      "grad_norm": 0.7868075370788574,
      "learning_rate": 0.0002164773722251518,
      "loss": 3.8833,
      "step": 171140
    },
    {
      "epoch": 0.3565625,
      "grad_norm": 0.7460982203483582,
      "learning_rate": 0.00021646853456371774,
      "loss": 3.9899,
      "step": 171150
    },
    {
      "epoch": 0.3565833333333333,
      "grad_norm": 1.0573524236679077,
      "learning_rate": 0.00021645969661516592,
      "loss": 3.9761,
      "step": 171160
    },
    {
      "epoch": 0.35660416666666667,
      "grad_norm": 0.882617175579071,
      "learning_rate": 0.00021645085837953456,
      "loss": 3.9622,
      "step": 171170
    },
    {
      "epoch": 0.356625,
      "grad_norm": 0.8987309336662292,
      "learning_rate": 0.00021644201985686172,
      "loss": 3.9763,
      "step": 171180
    },
    {
      "epoch": 0.35664583333333333,
      "grad_norm": 0.8554335832595825,
      "learning_rate": 0.00021643318104718569,
      "loss": 4.1228,
      "step": 171190
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 0.7968333959579468,
      "learning_rate": 0.00021642434195054462,
      "loss": 4.0153,
      "step": 171200
    },
    {
      "epoch": 0.3566875,
      "grad_norm": 0.8057860732078552,
      "learning_rate": 0.00021641550256697666,
      "loss": 3.9882,
      "step": 171210
    },
    {
      "epoch": 0.35670833333333335,
      "grad_norm": 0.7166943550109863,
      "learning_rate": 0.00021640666289652005,
      "loss": 3.6811,
      "step": 171220
    },
    {
      "epoch": 0.35672916666666665,
      "grad_norm": 0.7971968054771423,
      "learning_rate": 0.0002163978229392129,
      "loss": 4.059,
      "step": 171230
    },
    {
      "epoch": 0.35675,
      "grad_norm": 0.8102658987045288,
      "learning_rate": 0.0002163889826950935,
      "loss": 3.8928,
      "step": 171240
    },
    {
      "epoch": 0.3567708333333333,
      "grad_norm": 0.7627331614494324,
      "learning_rate": 0.0002163801421641999,
      "loss": 3.9025,
      "step": 171250
    },
    {
      "epoch": 0.3567916666666667,
      "grad_norm": 0.8048737645149231,
      "learning_rate": 0.0002163713013465704,
      "loss": 3.9174,
      "step": 171260
    },
    {
      "epoch": 0.3568125,
      "grad_norm": 0.7959480285644531,
      "learning_rate": 0.00021636246024224316,
      "loss": 3.9778,
      "step": 171270
    },
    {
      "epoch": 0.35683333333333334,
      "grad_norm": 0.791045069694519,
      "learning_rate": 0.00021635361885125634,
      "loss": 3.8477,
      "step": 171280
    },
    {
      "epoch": 0.35685416666666664,
      "grad_norm": 0.8794688582420349,
      "learning_rate": 0.00021634477717364812,
      "loss": 4.1931,
      "step": 171290
    },
    {
      "epoch": 0.356875,
      "grad_norm": 0.8838870525360107,
      "learning_rate": 0.0002163359352094568,
      "loss": 3.984,
      "step": 171300
    },
    {
      "epoch": 0.35689583333333336,
      "grad_norm": 0.7750745415687561,
      "learning_rate": 0.00021632709295872044,
      "loss": 3.8425,
      "step": 171310
    },
    {
      "epoch": 0.35691666666666666,
      "grad_norm": 0.7746249437332153,
      "learning_rate": 0.00021631825042147735,
      "loss": 3.8715,
      "step": 171320
    },
    {
      "epoch": 0.3569375,
      "grad_norm": 0.8734846115112305,
      "learning_rate": 0.0002163094075977656,
      "loss": 3.9543,
      "step": 171330
    },
    {
      "epoch": 0.3569583333333333,
      "grad_norm": 0.8239141702651978,
      "learning_rate": 0.00021630056448762347,
      "loss": 3.9796,
      "step": 171340
    },
    {
      "epoch": 0.3569791666666667,
      "grad_norm": 0.7781500816345215,
      "learning_rate": 0.00021629172109108918,
      "loss": 3.8847,
      "step": 171350
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.7565808296203613,
      "learning_rate": 0.00021628287740820088,
      "loss": 3.864,
      "step": 171360
    },
    {
      "epoch": 0.35702083333333334,
      "grad_norm": 0.9100430011749268,
      "learning_rate": 0.00021627403343899682,
      "loss": 3.7771,
      "step": 171370
    },
    {
      "epoch": 0.35704166666666665,
      "grad_norm": 0.8357622027397156,
      "learning_rate": 0.0002162651891835151,
      "loss": 4.0588,
      "step": 171380
    },
    {
      "epoch": 0.3570625,
      "grad_norm": 0.7419844269752502,
      "learning_rate": 0.000216256344641794,
      "loss": 3.8835,
      "step": 171390
    },
    {
      "epoch": 0.3570833333333333,
      "grad_norm": 0.7841684222221375,
      "learning_rate": 0.00021624749981387175,
      "loss": 3.8946,
      "step": 171400
    },
    {
      "epoch": 0.35710416666666667,
      "grad_norm": 0.808160662651062,
      "learning_rate": 0.00021623865469978652,
      "loss": 4.1031,
      "step": 171410
    },
    {
      "epoch": 0.357125,
      "grad_norm": 0.9067994356155396,
      "learning_rate": 0.00021622980929957654,
      "loss": 3.8265,
      "step": 171420
    },
    {
      "epoch": 0.35714583333333333,
      "grad_norm": 0.8130466341972351,
      "learning_rate": 0.00021622096361327995,
      "loss": 3.8801,
      "step": 171430
    },
    {
      "epoch": 0.3571666666666667,
      "grad_norm": 0.7597320079803467,
      "learning_rate": 0.00021621211764093502,
      "loss": 3.9365,
      "step": 171440
    },
    {
      "epoch": 0.3571875,
      "grad_norm": 0.7086144685745239,
      "learning_rate": 0.00021620327138257997,
      "loss": 3.7334,
      "step": 171450
    },
    {
      "epoch": 0.35720833333333335,
      "grad_norm": 0.9697081446647644,
      "learning_rate": 0.000216194424838253,
      "loss": 3.9085,
      "step": 171460
    },
    {
      "epoch": 0.35722916666666665,
      "grad_norm": 0.8708318471908569,
      "learning_rate": 0.00021618557800799228,
      "loss": 3.9295,
      "step": 171470
    },
    {
      "epoch": 0.35725,
      "grad_norm": 0.7444789409637451,
      "learning_rate": 0.0002161767308918361,
      "loss": 3.9647,
      "step": 171480
    },
    {
      "epoch": 0.3572708333333333,
      "grad_norm": 0.9585354328155518,
      "learning_rate": 0.00021616788348982263,
      "loss": 4.1469,
      "step": 171490
    },
    {
      "epoch": 0.3572916666666667,
      "grad_norm": 0.8372567892074585,
      "learning_rate": 0.0002161590358019901,
      "loss": 3.9401,
      "step": 171500
    },
    {
      "epoch": 0.3573125,
      "grad_norm": 0.8838821053504944,
      "learning_rate": 0.00021615018782837668,
      "loss": 3.9378,
      "step": 171510
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 0.8203830718994141,
      "learning_rate": 0.00021614133956902068,
      "loss": 4.0718,
      "step": 171520
    },
    {
      "epoch": 0.35735416666666664,
      "grad_norm": 0.7740610241889954,
      "learning_rate": 0.00021613249102396027,
      "loss": 3.9301,
      "step": 171530
    },
    {
      "epoch": 0.357375,
      "grad_norm": 0.8662391901016235,
      "learning_rate": 0.0002161236421932336,
      "loss": 3.8734,
      "step": 171540
    },
    {
      "epoch": 0.35739583333333336,
      "grad_norm": 0.8704684972763062,
      "learning_rate": 0.00021611479307687907,
      "loss": 3.7845,
      "step": 171550
    },
    {
      "epoch": 0.35741666666666666,
      "grad_norm": 0.8834677338600159,
      "learning_rate": 0.00021610594367493476,
      "loss": 3.9394,
      "step": 171560
    },
    {
      "epoch": 0.3574375,
      "grad_norm": 0.8749561309814453,
      "learning_rate": 0.00021609709398743895,
      "loss": 3.8741,
      "step": 171570
    },
    {
      "epoch": 0.3574583333333333,
      "grad_norm": 0.7618019580841064,
      "learning_rate": 0.00021608824401442983,
      "loss": 3.8723,
      "step": 171580
    },
    {
      "epoch": 0.3574791666666667,
      "grad_norm": 0.8843570947647095,
      "learning_rate": 0.00021607939375594567,
      "loss": 3.9217,
      "step": 171590
    },
    {
      "epoch": 0.3575,
      "grad_norm": 0.788311243057251,
      "learning_rate": 0.0002160705432120247,
      "loss": 4.3979,
      "step": 171600
    },
    {
      "epoch": 0.35752083333333334,
      "grad_norm": 0.8599363565444946,
      "learning_rate": 0.00021606169238270516,
      "loss": 3.9603,
      "step": 171610
    },
    {
      "epoch": 0.35754166666666665,
      "grad_norm": 0.7809235453605652,
      "learning_rate": 0.00021605284126802518,
      "loss": 3.9265,
      "step": 171620
    },
    {
      "epoch": 0.3575625,
      "grad_norm": 0.8983935713768005,
      "learning_rate": 0.00021604398986802313,
      "loss": 4.0483,
      "step": 171630
    },
    {
      "epoch": 0.3575833333333333,
      "grad_norm": 0.7858482599258423,
      "learning_rate": 0.00021603513818273714,
      "loss": 3.8747,
      "step": 171640
    },
    {
      "epoch": 0.35760416666666667,
      "grad_norm": 0.7438595294952393,
      "learning_rate": 0.00021602628621220554,
      "loss": 4.0081,
      "step": 171650
    },
    {
      "epoch": 0.357625,
      "grad_norm": 0.7620977759361267,
      "learning_rate": 0.0002160174339564665,
      "loss": 3.9142,
      "step": 171660
    },
    {
      "epoch": 0.35764583333333333,
      "grad_norm": 0.7750093936920166,
      "learning_rate": 0.0002160085814155583,
      "loss": 3.902,
      "step": 171670
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 0.7434893846511841,
      "learning_rate": 0.00021599972858951912,
      "loss": 3.9267,
      "step": 171680
    },
    {
      "epoch": 0.3576875,
      "grad_norm": 0.8866552710533142,
      "learning_rate": 0.00021599087547838727,
      "loss": 4.1596,
      "step": 171690
    },
    {
      "epoch": 0.35770833333333335,
      "grad_norm": 0.8018654584884644,
      "learning_rate": 0.00021598202208220093,
      "loss": 3.7798,
      "step": 171700
    },
    {
      "epoch": 0.35772916666666665,
      "grad_norm": 0.7992060780525208,
      "learning_rate": 0.00021597316840099833,
      "loss": 3.8167,
      "step": 171710
    },
    {
      "epoch": 0.35775,
      "grad_norm": 0.9311937689781189,
      "learning_rate": 0.00021596431443481786,
      "loss": 3.9456,
      "step": 171720
    },
    {
      "epoch": 0.3577708333333333,
      "grad_norm": 0.8481715321540833,
      "learning_rate": 0.00021595546018369761,
      "loss": 3.9353,
      "step": 171730
    },
    {
      "epoch": 0.3577916666666667,
      "grad_norm": 0.7403221726417542,
      "learning_rate": 0.0002159466056476759,
      "loss": 3.9727,
      "step": 171740
    },
    {
      "epoch": 0.3578125,
      "grad_norm": 0.8066810965538025,
      "learning_rate": 0.00021593775082679093,
      "loss": 3.7398,
      "step": 171750
    },
    {
      "epoch": 0.35783333333333334,
      "grad_norm": 0.7914722561836243,
      "learning_rate": 0.00021592889572108096,
      "loss": 4.0059,
      "step": 171760
    },
    {
      "epoch": 0.35785416666666664,
      "grad_norm": 0.7797796726226807,
      "learning_rate": 0.00021592004033058428,
      "loss": 3.9684,
      "step": 171770
    },
    {
      "epoch": 0.357875,
      "grad_norm": 0.733647882938385,
      "learning_rate": 0.00021591118465533914,
      "loss": 3.9615,
      "step": 171780
    },
    {
      "epoch": 0.35789583333333336,
      "grad_norm": 0.8343179225921631,
      "learning_rate": 0.00021590232869538373,
      "loss": 3.8357,
      "step": 171790
    },
    {
      "epoch": 0.35791666666666666,
      "grad_norm": 0.7506361603736877,
      "learning_rate": 0.0002158934724507564,
      "loss": 3.805,
      "step": 171800
    },
    {
      "epoch": 0.3579375,
      "grad_norm": 0.8166367411613464,
      "learning_rate": 0.0002158846159214953,
      "loss": 3.9749,
      "step": 171810
    },
    {
      "epoch": 0.3579583333333333,
      "grad_norm": 0.8162296414375305,
      "learning_rate": 0.00021587575910763876,
      "loss": 4.0114,
      "step": 171820
    },
    {
      "epoch": 0.3579791666666667,
      "grad_norm": 0.8300498127937317,
      "learning_rate": 0.00021586690200922504,
      "loss": 3.6716,
      "step": 171830
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.7636210322380066,
      "learning_rate": 0.0002158580446262923,
      "loss": 3.8548,
      "step": 171840
    },
    {
      "epoch": 0.35802083333333334,
      "grad_norm": 0.8165673017501831,
      "learning_rate": 0.00021584918695887893,
      "loss": 4.0457,
      "step": 171850
    },
    {
      "epoch": 0.35804166666666665,
      "grad_norm": 0.9581976532936096,
      "learning_rate": 0.00021584032900702314,
      "loss": 4.0686,
      "step": 171860
    },
    {
      "epoch": 0.3580625,
      "grad_norm": 0.8795027136802673,
      "learning_rate": 0.0002158314707707632,
      "loss": 3.9066,
      "step": 171870
    },
    {
      "epoch": 0.3580833333333333,
      "grad_norm": 0.7553843259811401,
      "learning_rate": 0.00021582261225013732,
      "loss": 4.0377,
      "step": 171880
    },
    {
      "epoch": 0.35810416666666667,
      "grad_norm": 0.8009116649627686,
      "learning_rate": 0.00021581375344518385,
      "loss": 3.9439,
      "step": 171890
    },
    {
      "epoch": 0.358125,
      "grad_norm": 0.7696774005889893,
      "learning_rate": 0.000215804894355941,
      "loss": 3.9411,
      "step": 171900
    },
    {
      "epoch": 0.35814583333333333,
      "grad_norm": 0.861326277256012,
      "learning_rate": 0.00021579603498244704,
      "loss": 4.1638,
      "step": 171910
    },
    {
      "epoch": 0.3581666666666667,
      "grad_norm": 0.818972110748291,
      "learning_rate": 0.00021578717532474027,
      "loss": 3.885,
      "step": 171920
    },
    {
      "epoch": 0.3581875,
      "grad_norm": 0.7332231402397156,
      "learning_rate": 0.00021577831538285895,
      "loss": 4.2876,
      "step": 171930
    },
    {
      "epoch": 0.35820833333333335,
      "grad_norm": 0.7217758893966675,
      "learning_rate": 0.00021576945515684135,
      "loss": 4.0323,
      "step": 171940
    },
    {
      "epoch": 0.35822916666666665,
      "grad_norm": 0.8076890110969543,
      "learning_rate": 0.0002157605946467257,
      "loss": 3.8318,
      "step": 171950
    },
    {
      "epoch": 0.35825,
      "grad_norm": 0.8580703139305115,
      "learning_rate": 0.00021575173385255034,
      "loss": 3.8067,
      "step": 171960
    },
    {
      "epoch": 0.3582708333333333,
      "grad_norm": 0.8034890294075012,
      "learning_rate": 0.00021574287277435352,
      "loss": 3.9361,
      "step": 171970
    },
    {
      "epoch": 0.3582916666666667,
      "grad_norm": 0.9034226536750793,
      "learning_rate": 0.0002157340114121735,
      "loss": 3.8368,
      "step": 171980
    },
    {
      "epoch": 0.3583125,
      "grad_norm": 0.9477937817573547,
      "learning_rate": 0.00021572514976604852,
      "loss": 3.7969,
      "step": 171990
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 0.760450005531311,
      "learning_rate": 0.000215716287836017,
      "loss": 3.9798,
      "step": 172000
    },
    {
      "epoch": 0.35833333333333334,
      "eval_loss": 3.6977341175079346,
      "eval_runtime": 6.826,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.439,
      "step": 172000
    },
    {
      "epoch": 0.35835416666666664,
      "grad_norm": 0.8487088084220886,
      "learning_rate": 0.00021570742562211707,
      "loss": 3.8915,
      "step": 172010
    },
    {
      "epoch": 0.358375,
      "grad_norm": 0.7145853638648987,
      "learning_rate": 0.0002156985631243871,
      "loss": 4.0384,
      "step": 172020
    },
    {
      "epoch": 0.35839583333333336,
      "grad_norm": 0.767885148525238,
      "learning_rate": 0.00021568970034286538,
      "loss": 4.2712,
      "step": 172030
    },
    {
      "epoch": 0.35841666666666666,
      "grad_norm": 0.7759090662002563,
      "learning_rate": 0.00021568083727759006,
      "loss": 4.0495,
      "step": 172040
    },
    {
      "epoch": 0.3584375,
      "grad_norm": 0.8003881573677063,
      "learning_rate": 0.00021567197392859954,
      "loss": 3.9406,
      "step": 172050
    },
    {
      "epoch": 0.3584583333333333,
      "grad_norm": 0.8434577584266663,
      "learning_rate": 0.00021566311029593216,
      "loss": 3.8783,
      "step": 172060
    },
    {
      "epoch": 0.3584791666666667,
      "grad_norm": 0.7689105868339539,
      "learning_rate": 0.0002156542463796261,
      "loss": 3.6824,
      "step": 172070
    },
    {
      "epoch": 0.3585,
      "grad_norm": 0.776017427444458,
      "learning_rate": 0.00021564538217971966,
      "loss": 4.0327,
      "step": 172080
    },
    {
      "epoch": 0.35852083333333334,
      "grad_norm": 0.975023627281189,
      "learning_rate": 0.0002156365176962512,
      "loss": 3.8713,
      "step": 172090
    },
    {
      "epoch": 0.35854166666666665,
      "grad_norm": 0.7950428128242493,
      "learning_rate": 0.00021562765292925892,
      "loss": 3.9638,
      "step": 172100
    },
    {
      "epoch": 0.3585625,
      "grad_norm": 0.7965376377105713,
      "learning_rate": 0.00021561878787878115,
      "loss": 4.0462,
      "step": 172110
    },
    {
      "epoch": 0.3585833333333333,
      "grad_norm": 0.7507200241088867,
      "learning_rate": 0.00021560992254485622,
      "loss": 4.0163,
      "step": 172120
    },
    {
      "epoch": 0.35860416666666667,
      "grad_norm": 0.8847777247428894,
      "learning_rate": 0.0002156010569275224,
      "loss": 3.8908,
      "step": 172130
    },
    {
      "epoch": 0.358625,
      "grad_norm": 0.7941644787788391,
      "learning_rate": 0.00021559219102681792,
      "loss": 3.9991,
      "step": 172140
    },
    {
      "epoch": 0.35864583333333333,
      "grad_norm": 0.9644297361373901,
      "learning_rate": 0.00021558332484278119,
      "loss": 3.8612,
      "step": 172150
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 0.7308945059776306,
      "learning_rate": 0.00021557445837545045,
      "loss": 4.1699,
      "step": 172160
    },
    {
      "epoch": 0.3586875,
      "grad_norm": 0.8501540422439575,
      "learning_rate": 0.000215565591624864,
      "loss": 3.8564,
      "step": 172170
    },
    {
      "epoch": 0.35870833333333335,
      "grad_norm": 0.7936586737632751,
      "learning_rate": 0.00021555672459106016,
      "loss": 3.9468,
      "step": 172180
    },
    {
      "epoch": 0.35872916666666665,
      "grad_norm": 0.7949110865592957,
      "learning_rate": 0.0002155478572740772,
      "loss": 3.9266,
      "step": 172190
    },
    {
      "epoch": 0.35875,
      "grad_norm": 0.8588945269584656,
      "learning_rate": 0.00021553898967395347,
      "loss": 4.0769,
      "step": 172200
    },
    {
      "epoch": 0.3587708333333333,
      "grad_norm": 0.9199848771095276,
      "learning_rate": 0.0002155301217907272,
      "loss": 3.9571,
      "step": 172210
    },
    {
      "epoch": 0.3587916666666667,
      "grad_norm": 0.7914250493049622,
      "learning_rate": 0.0002155212536244368,
      "loss": 3.7277,
      "step": 172220
    },
    {
      "epoch": 0.3588125,
      "grad_norm": 0.8150506615638733,
      "learning_rate": 0.0002155123851751205,
      "loss": 3.8661,
      "step": 172230
    },
    {
      "epoch": 0.35883333333333334,
      "grad_norm": 0.9914901852607727,
      "learning_rate": 0.00021550351644281663,
      "loss": 4.1171,
      "step": 172240
    },
    {
      "epoch": 0.35885416666666664,
      "grad_norm": 0.7285699248313904,
      "learning_rate": 0.00021549464742756349,
      "loss": 3.9124,
      "step": 172250
    },
    {
      "epoch": 0.358875,
      "grad_norm": 0.8611466884613037,
      "learning_rate": 0.0002154857781293994,
      "loss": 3.9508,
      "step": 172260
    },
    {
      "epoch": 0.35889583333333336,
      "grad_norm": 0.9086621999740601,
      "learning_rate": 0.00021547690854836264,
      "loss": 3.9319,
      "step": 172270
    },
    {
      "epoch": 0.35891666666666666,
      "grad_norm": 0.8871957063674927,
      "learning_rate": 0.00021546803868449155,
      "loss": 4.2669,
      "step": 172280
    },
    {
      "epoch": 0.3589375,
      "grad_norm": 0.8361876606941223,
      "learning_rate": 0.0002154591685378245,
      "loss": 3.9893,
      "step": 172290
    },
    {
      "epoch": 0.3589583333333333,
      "grad_norm": 0.7173467874526978,
      "learning_rate": 0.00021545029810839973,
      "loss": 4.2504,
      "step": 172300
    },
    {
      "epoch": 0.3589791666666667,
      "grad_norm": 0.9167398810386658,
      "learning_rate": 0.00021544142739625557,
      "loss": 4.1127,
      "step": 172310
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.8596903681755066,
      "learning_rate": 0.00021543255640143035,
      "loss": 4.0873,
      "step": 172320
    },
    {
      "epoch": 0.35902083333333334,
      "grad_norm": 0.7751085162162781,
      "learning_rate": 0.00021542368512396238,
      "loss": 4.0864,
      "step": 172330
    },
    {
      "epoch": 0.35904166666666665,
      "grad_norm": 0.8429665565490723,
      "learning_rate": 0.00021541481356388998,
      "loss": 3.9949,
      "step": 172340
    },
    {
      "epoch": 0.3590625,
      "grad_norm": 0.8571141958236694,
      "learning_rate": 0.00021540594172125152,
      "loss": 3.994,
      "step": 172350
    },
    {
      "epoch": 0.3590833333333333,
      "grad_norm": 0.8538991212844849,
      "learning_rate": 0.00021539706959608528,
      "loss": 4.1591,
      "step": 172360
    },
    {
      "epoch": 0.35910416666666667,
      "grad_norm": 0.7479787468910217,
      "learning_rate": 0.00021538819718842954,
      "loss": 4.1093,
      "step": 172370
    },
    {
      "epoch": 0.359125,
      "grad_norm": 0.7584776878356934,
      "learning_rate": 0.00021537932449832263,
      "loss": 3.8647,
      "step": 172380
    },
    {
      "epoch": 0.35914583333333333,
      "grad_norm": 0.7696470022201538,
      "learning_rate": 0.00021537045152580307,
      "loss": 3.9114,
      "step": 172390
    },
    {
      "epoch": 0.3591666666666667,
      "grad_norm": 0.8258797526359558,
      "learning_rate": 0.0002153615782709089,
      "loss": 4.0918,
      "step": 172400
    },
    {
      "epoch": 0.3591875,
      "grad_norm": 0.8262894749641418,
      "learning_rate": 0.0002153527047336786,
      "loss": 3.9856,
      "step": 172410
    },
    {
      "epoch": 0.35920833333333335,
      "grad_norm": 0.8998713493347168,
      "learning_rate": 0.00021534383091415056,
      "loss": 3.9582,
      "step": 172420
    },
    {
      "epoch": 0.35922916666666665,
      "grad_norm": 1.0375235080718994,
      "learning_rate": 0.00021533495681236298,
      "loss": 4.1808,
      "step": 172430
    },
    {
      "epoch": 0.35925,
      "grad_norm": 0.8038543462753296,
      "learning_rate": 0.00021532608242835424,
      "loss": 4.0271,
      "step": 172440
    },
    {
      "epoch": 0.3592708333333333,
      "grad_norm": 0.7579536437988281,
      "learning_rate": 0.0002153172077621627,
      "loss": 4.0193,
      "step": 172450
    },
    {
      "epoch": 0.3592916666666667,
      "grad_norm": 0.7902264595031738,
      "learning_rate": 0.00021530833281382667,
      "loss": 4.0146,
      "step": 172460
    },
    {
      "epoch": 0.3593125,
      "grad_norm": 0.749039351940155,
      "learning_rate": 0.0002152994575833845,
      "loss": 4.0756,
      "step": 172470
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 0.7461576461791992,
      "learning_rate": 0.00021529058207087447,
      "loss": 4.2513,
      "step": 172480
    },
    {
      "epoch": 0.35935416666666664,
      "grad_norm": 2.156808614730835,
      "learning_rate": 0.00021528170627633505,
      "loss": 3.8898,
      "step": 172490
    },
    {
      "epoch": 0.359375,
      "grad_norm": 0.8200896382331848,
      "learning_rate": 0.0002152728301998045,
      "loss": 3.961,
      "step": 172500
    },
    {
      "epoch": 0.35939583333333336,
      "grad_norm": 0.7967774868011475,
      "learning_rate": 0.00021526395384132107,
      "loss": 4.1342,
      "step": 172510
    },
    {
      "epoch": 0.35941666666666666,
      "grad_norm": 0.9085809588432312,
      "learning_rate": 0.00021525507720092328,
      "loss": 3.9766,
      "step": 172520
    },
    {
      "epoch": 0.3594375,
      "grad_norm": 0.8554561734199524,
      "learning_rate": 0.00021524620027864937,
      "loss": 4.0768,
      "step": 172530
    },
    {
      "epoch": 0.3594583333333333,
      "grad_norm": 0.7947455644607544,
      "learning_rate": 0.00021523732307453762,
      "loss": 3.9954,
      "step": 172540
    },
    {
      "epoch": 0.3594791666666667,
      "grad_norm": 0.7791938185691833,
      "learning_rate": 0.00021522844558862655,
      "loss": 4.0333,
      "step": 172550
    },
    {
      "epoch": 0.3595,
      "grad_norm": 0.8085126876831055,
      "learning_rate": 0.0002152195678209544,
      "loss": 3.7903,
      "step": 172560
    },
    {
      "epoch": 0.35952083333333335,
      "grad_norm": 1.2404247522354126,
      "learning_rate": 0.00021521068977155953,
      "loss": 3.9426,
      "step": 172570
    },
    {
      "epoch": 0.35954166666666665,
      "grad_norm": 0.964914083480835,
      "learning_rate": 0.00021520181144048025,
      "loss": 4.039,
      "step": 172580
    },
    {
      "epoch": 0.3595625,
      "grad_norm": 0.8378754258155823,
      "learning_rate": 0.00021519293282775502,
      "loss": 3.966,
      "step": 172590
    },
    {
      "epoch": 0.3595833333333333,
      "grad_norm": 0.8237784504890442,
      "learning_rate": 0.0002151840539334221,
      "loss": 4.0962,
      "step": 172600
    },
    {
      "epoch": 0.35960416666666667,
      "grad_norm": 0.8512197732925415,
      "learning_rate": 0.00021517517475751983,
      "loss": 4.0722,
      "step": 172610
    },
    {
      "epoch": 0.359625,
      "grad_norm": 0.7745879888534546,
      "learning_rate": 0.0002151662953000866,
      "loss": 3.9907,
      "step": 172620
    },
    {
      "epoch": 0.35964583333333333,
      "grad_norm": 0.7935026288032532,
      "learning_rate": 0.00021515741556116084,
      "loss": 3.9172,
      "step": 172630
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 0.8253788948059082,
      "learning_rate": 0.00021514853554078077,
      "loss": 3.8388,
      "step": 172640
    },
    {
      "epoch": 0.3596875,
      "grad_norm": 0.8123776316642761,
      "learning_rate": 0.00021513965523898486,
      "loss": 3.8306,
      "step": 172650
    },
    {
      "epoch": 0.35970833333333335,
      "grad_norm": 0.7392637133598328,
      "learning_rate": 0.0002151307746558114,
      "loss": 3.8969,
      "step": 172660
    },
    {
      "epoch": 0.35972916666666666,
      "grad_norm": 0.8426891565322876,
      "learning_rate": 0.0002151218937912988,
      "loss": 4.1124,
      "step": 172670
    },
    {
      "epoch": 0.35975,
      "grad_norm": 0.7666971683502197,
      "learning_rate": 0.00021511301264548534,
      "loss": 3.9875,
      "step": 172680
    },
    {
      "epoch": 0.3597708333333333,
      "grad_norm": 0.8368973731994629,
      "learning_rate": 0.00021510413121840946,
      "loss": 4.0093,
      "step": 172690
    },
    {
      "epoch": 0.3597916666666667,
      "grad_norm": 0.7686004638671875,
      "learning_rate": 0.00021509524951010954,
      "loss": 3.8507,
      "step": 172700
    },
    {
      "epoch": 0.3598125,
      "grad_norm": 0.8524829149246216,
      "learning_rate": 0.00021508636752062385,
      "loss": 3.9181,
      "step": 172710
    },
    {
      "epoch": 0.35983333333333334,
      "grad_norm": 0.805239200592041,
      "learning_rate": 0.00021507748524999087,
      "loss": 4.06,
      "step": 172720
    },
    {
      "epoch": 0.35985416666666664,
      "grad_norm": 1.390184760093689,
      "learning_rate": 0.0002150686026982489,
      "loss": 3.8106,
      "step": 172730
    },
    {
      "epoch": 0.359875,
      "grad_norm": 0.9027460217475891,
      "learning_rate": 0.00021505971986543633,
      "loss": 3.7888,
      "step": 172740
    },
    {
      "epoch": 0.35989583333333336,
      "grad_norm": 0.8190820217132568,
      "learning_rate": 0.0002150508367515915,
      "loss": 4.0616,
      "step": 172750
    },
    {
      "epoch": 0.35991666666666666,
      "grad_norm": 0.8060587644577026,
      "learning_rate": 0.00021504195335675283,
      "loss": 3.8079,
      "step": 172760
    },
    {
      "epoch": 0.3599375,
      "grad_norm": 0.782370924949646,
      "learning_rate": 0.00021503306968095865,
      "loss": 3.8904,
      "step": 172770
    },
    {
      "epoch": 0.3599583333333333,
      "grad_norm": 0.8538259863853455,
      "learning_rate": 0.00021502418572424728,
      "loss": 3.9177,
      "step": 172780
    },
    {
      "epoch": 0.3599791666666667,
      "grad_norm": 0.7655117511749268,
      "learning_rate": 0.0002150153014866573,
      "loss": 4.0431,
      "step": 172790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7884553074836731,
      "learning_rate": 0.00021500641696822688,
      "loss": 3.9227,
      "step": 172800
    },
    {
      "epoch": 0.36002083333333335,
      "grad_norm": 0.7790417075157166,
      "learning_rate": 0.00021499753216899447,
      "loss": 4.2066,
      "step": 172810
    },
    {
      "epoch": 0.36004166666666665,
      "grad_norm": 0.7675506472587585,
      "learning_rate": 0.00021498864708899846,
      "loss": 3.9754,
      "step": 172820
    },
    {
      "epoch": 0.3600625,
      "grad_norm": 0.8129713535308838,
      "learning_rate": 0.0002149797617282772,
      "loss": 3.9714,
      "step": 172830
    },
    {
      "epoch": 0.3600833333333333,
      "grad_norm": 1.0853996276855469,
      "learning_rate": 0.0002149708760868691,
      "loss": 4.2024,
      "step": 172840
    },
    {
      "epoch": 0.36010416666666667,
      "grad_norm": 1.6651802062988281,
      "learning_rate": 0.00021496199016481253,
      "loss": 4.215,
      "step": 172850
    },
    {
      "epoch": 0.360125,
      "grad_norm": 0.8269901275634766,
      "learning_rate": 0.0002149531039621459,
      "loss": 3.8449,
      "step": 172860
    },
    {
      "epoch": 0.36014583333333333,
      "grad_norm": 0.7764214873313904,
      "learning_rate": 0.0002149442174789076,
      "loss": 4.0199,
      "step": 172870
    },
    {
      "epoch": 0.3601666666666667,
      "grad_norm": 0.7533766627311707,
      "learning_rate": 0.0002149353307151359,
      "loss": 3.9418,
      "step": 172880
    },
    {
      "epoch": 0.3601875,
      "grad_norm": 0.8937343955039978,
      "learning_rate": 0.0002149264436708693,
      "loss": 4.1357,
      "step": 172890
    },
    {
      "epoch": 0.36020833333333335,
      "grad_norm": 0.8275707960128784,
      "learning_rate": 0.00021491755634614622,
      "loss": 4.0152,
      "step": 172900
    },
    {
      "epoch": 0.36022916666666666,
      "grad_norm": 0.880743145942688,
      "learning_rate": 0.0002149086687410049,
      "loss": 3.6692,
      "step": 172910
    },
    {
      "epoch": 0.36025,
      "grad_norm": 0.8302017450332642,
      "learning_rate": 0.0002148997808554839,
      "loss": 4.0212,
      "step": 172920
    },
    {
      "epoch": 0.3602708333333333,
      "grad_norm": 0.7871797680854797,
      "learning_rate": 0.00021489089268962152,
      "loss": 4.0896,
      "step": 172930
    },
    {
      "epoch": 0.3602916666666667,
      "grad_norm": 0.7856454849243164,
      "learning_rate": 0.00021488200424345615,
      "loss": 3.9326,
      "step": 172940
    },
    {
      "epoch": 0.3603125,
      "grad_norm": 0.7897074818611145,
      "learning_rate": 0.00021487311551702623,
      "loss": 4.0614,
      "step": 172950
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 0.8096879720687866,
      "learning_rate": 0.0002148642265103701,
      "loss": 3.7757,
      "step": 172960
    },
    {
      "epoch": 0.36035416666666664,
      "grad_norm": 0.7345296740531921,
      "learning_rate": 0.00021485533722352625,
      "loss": 4.1138,
      "step": 172970
    },
    {
      "epoch": 0.360375,
      "grad_norm": 0.8154290914535522,
      "learning_rate": 0.00021484644765653292,
      "loss": 4.0376,
      "step": 172980
    },
    {
      "epoch": 0.36039583333333336,
      "grad_norm": 0.8000955581665039,
      "learning_rate": 0.00021483755780942867,
      "loss": 4.2241,
      "step": 172990
    },
    {
      "epoch": 0.36041666666666666,
      "grad_norm": 0.7557717561721802,
      "learning_rate": 0.0002148286676822518,
      "loss": 3.9396,
      "step": 173000
    },
    {
      "epoch": 0.36041666666666666,
      "eval_loss": 3.692235231399536,
      "eval_runtime": 7.2967,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 173000
    },
    {
      "epoch": 0.3604375,
      "grad_norm": 1.0891423225402832,
      "learning_rate": 0.00021481977727504076,
      "loss": 4.1579,
      "step": 173010
    },
    {
      "epoch": 0.3604583333333333,
      "grad_norm": 0.7398401498794556,
      "learning_rate": 0.00021481088658783395,
      "loss": 3.9793,
      "step": 173020
    },
    {
      "epoch": 0.3604791666666667,
      "grad_norm": 0.7477495074272156,
      "learning_rate": 0.00021480199562066976,
      "loss": 3.8615,
      "step": 173030
    },
    {
      "epoch": 0.3605,
      "grad_norm": 0.7719513177871704,
      "learning_rate": 0.00021479310437358656,
      "loss": 4.0293,
      "step": 173040
    },
    {
      "epoch": 0.36052083333333335,
      "grad_norm": 0.760522723197937,
      "learning_rate": 0.00021478421284662285,
      "loss": 3.9328,
      "step": 173050
    },
    {
      "epoch": 0.36054166666666665,
      "grad_norm": 0.8020740747451782,
      "learning_rate": 0.00021477532103981697,
      "loss": 4.0687,
      "step": 173060
    },
    {
      "epoch": 0.3605625,
      "grad_norm": 0.8377750515937805,
      "learning_rate": 0.00021476642895320737,
      "loss": 3.9336,
      "step": 173070
    },
    {
      "epoch": 0.3605833333333333,
      "grad_norm": 0.8207516670227051,
      "learning_rate": 0.00021475753658683236,
      "loss": 4.1496,
      "step": 173080
    },
    {
      "epoch": 0.36060416666666667,
      "grad_norm": 0.9910526275634766,
      "learning_rate": 0.0002147486439407305,
      "loss": 4.1296,
      "step": 173090
    },
    {
      "epoch": 0.360625,
      "grad_norm": 0.7772808074951172,
      "learning_rate": 0.00021473975101494007,
      "loss": 3.7859,
      "step": 173100
    },
    {
      "epoch": 0.36064583333333333,
      "grad_norm": 0.8774333000183105,
      "learning_rate": 0.00021473085780949954,
      "loss": 4.1872,
      "step": 173110
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 0.7939909100532532,
      "learning_rate": 0.00021472196432444738,
      "loss": 3.8551,
      "step": 173120
    },
    {
      "epoch": 0.3606875,
      "grad_norm": 0.9322582483291626,
      "learning_rate": 0.00021471307055982193,
      "loss": 4.1267,
      "step": 173130
    },
    {
      "epoch": 0.36070833333333335,
      "grad_norm": 0.8344478011131287,
      "learning_rate": 0.00021470417651566162,
      "loss": 3.936,
      "step": 173140
    },
    {
      "epoch": 0.36072916666666666,
      "grad_norm": 0.780719518661499,
      "learning_rate": 0.0002146952821920049,
      "loss": 3.859,
      "step": 173150
    },
    {
      "epoch": 0.36075,
      "grad_norm": 0.8390502333641052,
      "learning_rate": 0.00021468638758889014,
      "loss": 3.7422,
      "step": 173160
    },
    {
      "epoch": 0.3607708333333333,
      "grad_norm": 1.0755410194396973,
      "learning_rate": 0.00021467749270635578,
      "loss": 4.0034,
      "step": 173170
    },
    {
      "epoch": 0.3607916666666667,
      "grad_norm": 0.879951536655426,
      "learning_rate": 0.0002146685975444403,
      "loss": 4.0541,
      "step": 173180
    },
    {
      "epoch": 0.3608125,
      "grad_norm": 0.8313095569610596,
      "learning_rate": 0.00021465970210318204,
      "loss": 3.8582,
      "step": 173190
    },
    {
      "epoch": 0.36083333333333334,
      "grad_norm": 0.8064294457435608,
      "learning_rate": 0.00021465080638261946,
      "loss": 4.1938,
      "step": 173200
    },
    {
      "epoch": 0.36085416666666664,
      "grad_norm": 0.7202360033988953,
      "learning_rate": 0.00021464191038279102,
      "loss": 3.9248,
      "step": 173210
    },
    {
      "epoch": 0.360875,
      "grad_norm": 0.8347180485725403,
      "learning_rate": 0.00021463301410373507,
      "loss": 4.2242,
      "step": 173220
    },
    {
      "epoch": 0.36089583333333336,
      "grad_norm": 1.0657798051834106,
      "learning_rate": 0.00021462411754549012,
      "loss": 4.1959,
      "step": 173230
    },
    {
      "epoch": 0.36091666666666666,
      "grad_norm": 0.7374796271324158,
      "learning_rate": 0.00021461522070809457,
      "loss": 4.1751,
      "step": 173240
    },
    {
      "epoch": 0.3609375,
      "grad_norm": 0.8368383646011353,
      "learning_rate": 0.0002146063235915868,
      "loss": 3.9615,
      "step": 173250
    },
    {
      "epoch": 0.3609583333333333,
      "grad_norm": 0.7741550803184509,
      "learning_rate": 0.00021459742619600532,
      "loss": 3.9388,
      "step": 173260
    },
    {
      "epoch": 0.3609791666666667,
      "grad_norm": 0.9768174290657043,
      "learning_rate": 0.0002145885285213885,
      "loss": 3.909,
      "step": 173270
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.7591422200202942,
      "learning_rate": 0.0002145796305677748,
      "loss": 4.0107,
      "step": 173280
    },
    {
      "epoch": 0.36102083333333335,
      "grad_norm": 0.7086443901062012,
      "learning_rate": 0.0002145707323352027,
      "loss": 4.0013,
      "step": 173290
    },
    {
      "epoch": 0.36104166666666665,
      "grad_norm": 0.8091810941696167,
      "learning_rate": 0.00021456183382371054,
      "loss": 3.8656,
      "step": 173300
    },
    {
      "epoch": 0.3610625,
      "grad_norm": 0.7729772925376892,
      "learning_rate": 0.00021455293503333688,
      "loss": 4.0019,
      "step": 173310
    },
    {
      "epoch": 0.3610833333333333,
      "grad_norm": 0.8262425065040588,
      "learning_rate": 0.00021454403596412005,
      "loss": 3.8054,
      "step": 173320
    },
    {
      "epoch": 0.36110416666666667,
      "grad_norm": 0.7957054972648621,
      "learning_rate": 0.00021453513661609853,
      "loss": 3.9362,
      "step": 173330
    },
    {
      "epoch": 0.361125,
      "grad_norm": 0.8964882493019104,
      "learning_rate": 0.00021452623698931078,
      "loss": 4.0539,
      "step": 173340
    },
    {
      "epoch": 0.36114583333333333,
      "grad_norm": 0.7952867150306702,
      "learning_rate": 0.00021451733708379524,
      "loss": 3.7673,
      "step": 173350
    },
    {
      "epoch": 0.3611666666666667,
      "grad_norm": 0.8119451403617859,
      "learning_rate": 0.0002145084368995903,
      "loss": 3.9376,
      "step": 173360
    },
    {
      "epoch": 0.3611875,
      "grad_norm": 0.8222262859344482,
      "learning_rate": 0.00021449953643673446,
      "loss": 3.9534,
      "step": 173370
    },
    {
      "epoch": 0.36120833333333335,
      "grad_norm": 0.7967779040336609,
      "learning_rate": 0.00021449063569526616,
      "loss": 3.9383,
      "step": 173380
    },
    {
      "epoch": 0.36122916666666666,
      "grad_norm": 0.7327709794044495,
      "learning_rate": 0.00021448173467522388,
      "loss": 4.151,
      "step": 173390
    },
    {
      "epoch": 0.36125,
      "grad_norm": 0.8259020447731018,
      "learning_rate": 0.000214472833376646,
      "loss": 4.3025,
      "step": 173400
    },
    {
      "epoch": 0.3612708333333333,
      "grad_norm": 0.9406167268753052,
      "learning_rate": 0.00021446393179957096,
      "loss": 4.1432,
      "step": 173410
    },
    {
      "epoch": 0.3612916666666667,
      "grad_norm": 0.7689333558082581,
      "learning_rate": 0.0002144550299440373,
      "loss": 3.6946,
      "step": 173420
    },
    {
      "epoch": 0.3613125,
      "grad_norm": 1.0234426259994507,
      "learning_rate": 0.00021444612781008343,
      "loss": 4.004,
      "step": 173430
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 0.7948836088180542,
      "learning_rate": 0.00021443722539774777,
      "loss": 4.0312,
      "step": 173440
    },
    {
      "epoch": 0.36135416666666664,
      "grad_norm": 0.8113206624984741,
      "learning_rate": 0.00021442832270706876,
      "loss": 4.1493,
      "step": 173450
    },
    {
      "epoch": 0.361375,
      "grad_norm": 0.8279750347137451,
      "learning_rate": 0.00021441941973808495,
      "loss": 3.8958,
      "step": 173460
    },
    {
      "epoch": 0.36139583333333336,
      "grad_norm": 0.7946524024009705,
      "learning_rate": 0.00021441051649083478,
      "loss": 3.9927,
      "step": 173470
    },
    {
      "epoch": 0.36141666666666666,
      "grad_norm": 0.7685602903366089,
      "learning_rate": 0.00021440161296535658,
      "loss": 3.958,
      "step": 173480
    },
    {
      "epoch": 0.3614375,
      "grad_norm": 0.8506796956062317,
      "learning_rate": 0.000214392709161689,
      "loss": 3.9352,
      "step": 173490
    },
    {
      "epoch": 0.3614583333333333,
      "grad_norm": 0.7542934417724609,
      "learning_rate": 0.00021438380507987037,
      "loss": 3.9282,
      "step": 173500
    },
    {
      "epoch": 0.3614791666666667,
      "grad_norm": 0.8132628798484802,
      "learning_rate": 0.00021437490071993918,
      "loss": 4.0335,
      "step": 173510
    },
    {
      "epoch": 0.3615,
      "grad_norm": 0.822531521320343,
      "learning_rate": 0.00021436599608193392,
      "loss": 3.7781,
      "step": 173520
    },
    {
      "epoch": 0.36152083333333335,
      "grad_norm": 0.8571776151657104,
      "learning_rate": 0.000214357091165893,
      "loss": 3.8722,
      "step": 173530
    },
    {
      "epoch": 0.36154166666666665,
      "grad_norm": 0.8695054650306702,
      "learning_rate": 0.00021434818597185492,
      "loss": 4.1071,
      "step": 173540
    },
    {
      "epoch": 0.3615625,
      "grad_norm": 0.8426809310913086,
      "learning_rate": 0.0002143392804998582,
      "loss": 4.0071,
      "step": 173550
    },
    {
      "epoch": 0.3615833333333333,
      "grad_norm": 0.9617874622344971,
      "learning_rate": 0.0002143303747499412,
      "loss": 4.0723,
      "step": 173560
    },
    {
      "epoch": 0.36160416666666667,
      "grad_norm": 0.775014340877533,
      "learning_rate": 0.0002143214687221425,
      "loss": 3.9238,
      "step": 173570
    },
    {
      "epoch": 0.361625,
      "grad_norm": 0.8952356576919556,
      "learning_rate": 0.00021431256241650045,
      "loss": 3.9572,
      "step": 173580
    },
    {
      "epoch": 0.36164583333333333,
      "grad_norm": 0.813010036945343,
      "learning_rate": 0.0002143036558330536,
      "loss": 4.0998,
      "step": 173590
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 0.856457531452179,
      "learning_rate": 0.00021429474897184046,
      "loss": 4.0639,
      "step": 173600
    },
    {
      "epoch": 0.3616875,
      "grad_norm": 0.8262531161308289,
      "learning_rate": 0.0002142858418328994,
      "loss": 3.9027,
      "step": 173610
    },
    {
      "epoch": 0.36170833333333335,
      "grad_norm": 0.8185162544250488,
      "learning_rate": 0.00021427693441626898,
      "loss": 4.0754,
      "step": 173620
    },
    {
      "epoch": 0.36172916666666666,
      "grad_norm": 0.8230134844779968,
      "learning_rate": 0.00021426802672198765,
      "loss": 4.0516,
      "step": 173630
    },
    {
      "epoch": 0.36175,
      "grad_norm": 0.7764670848846436,
      "learning_rate": 0.00021425911875009386,
      "loss": 3.9139,
      "step": 173640
    },
    {
      "epoch": 0.3617708333333333,
      "grad_norm": 0.7798606753349304,
      "learning_rate": 0.0002142502105006261,
      "loss": 4.0001,
      "step": 173650
    },
    {
      "epoch": 0.3617916666666667,
      "grad_norm": 0.8032140135765076,
      "learning_rate": 0.00021424130197362292,
      "loss": 4.1359,
      "step": 173660
    },
    {
      "epoch": 0.3618125,
      "grad_norm": 0.8562147617340088,
      "learning_rate": 0.0002142323931691227,
      "loss": 3.9365,
      "step": 173670
    },
    {
      "epoch": 0.36183333333333334,
      "grad_norm": 0.8323447108268738,
      "learning_rate": 0.00021422348408716398,
      "loss": 3.8514,
      "step": 173680
    },
    {
      "epoch": 0.36185416666666664,
      "grad_norm": 0.830215573310852,
      "learning_rate": 0.00021421457472778523,
      "loss": 3.9268,
      "step": 173690
    },
    {
      "epoch": 0.361875,
      "grad_norm": 1.0451546907424927,
      "learning_rate": 0.00021420566509102492,
      "loss": 3.9649,
      "step": 173700
    },
    {
      "epoch": 0.36189583333333336,
      "grad_norm": 0.9140733480453491,
      "learning_rate": 0.0002141967551769216,
      "loss": 4.088,
      "step": 173710
    },
    {
      "epoch": 0.36191666666666666,
      "grad_norm": 0.7914663553237915,
      "learning_rate": 0.00021418784498551365,
      "loss": 3.9326,
      "step": 173720
    },
    {
      "epoch": 0.3619375,
      "grad_norm": 0.8032305836677551,
      "learning_rate": 0.0002141789345168396,
      "loss": 4.0749,
      "step": 173730
    },
    {
      "epoch": 0.3619583333333333,
      "grad_norm": 0.901220440864563,
      "learning_rate": 0.00021417002377093806,
      "loss": 4.1055,
      "step": 173740
    },
    {
      "epoch": 0.3619791666666667,
      "grad_norm": 0.9228100776672363,
      "learning_rate": 0.0002141611127478473,
      "loss": 3.8379,
      "step": 173750
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.7712092995643616,
      "learning_rate": 0.000214152201447606,
      "loss": 3.8677,
      "step": 173760
    },
    {
      "epoch": 0.36202083333333335,
      "grad_norm": 0.9405195116996765,
      "learning_rate": 0.0002141432898702526,
      "loss": 4.1327,
      "step": 173770
    },
    {
      "epoch": 0.36204166666666665,
      "grad_norm": 0.8638600707054138,
      "learning_rate": 0.00021413437801582548,
      "loss": 4.2034,
      "step": 173780
    },
    {
      "epoch": 0.3620625,
      "grad_norm": 0.8320870399475098,
      "learning_rate": 0.0002141254658843633,
      "loss": 3.9838,
      "step": 173790
    },
    {
      "epoch": 0.3620833333333333,
      "grad_norm": 0.7896868586540222,
      "learning_rate": 0.00021411655347590452,
      "loss": 3.9145,
      "step": 173800
    },
    {
      "epoch": 0.36210416666666667,
      "grad_norm": 0.8029789924621582,
      "learning_rate": 0.00021410764079048757,
      "loss": 4.0963,
      "step": 173810
    },
    {
      "epoch": 0.362125,
      "grad_norm": 0.7756109833717346,
      "learning_rate": 0.000214098727828151,
      "loss": 3.8446,
      "step": 173820
    },
    {
      "epoch": 0.36214583333333333,
      "grad_norm": 0.7486110925674438,
      "learning_rate": 0.0002140898145889333,
      "loss": 4.1774,
      "step": 173830
    },
    {
      "epoch": 0.3621666666666667,
      "grad_norm": 0.9842897653579712,
      "learning_rate": 0.00021408090107287293,
      "loss": 3.9136,
      "step": 173840
    },
    {
      "epoch": 0.3621875,
      "grad_norm": 0.7893216013908386,
      "learning_rate": 0.00021407198728000848,
      "loss": 3.9567,
      "step": 173850
    },
    {
      "epoch": 0.36220833333333335,
      "grad_norm": 0.7850276827812195,
      "learning_rate": 0.00021406307321037837,
      "loss": 3.957,
      "step": 173860
    },
    {
      "epoch": 0.36222916666666666,
      "grad_norm": 0.805578887462616,
      "learning_rate": 0.00021405415886402115,
      "loss": 3.9127,
      "step": 173870
    },
    {
      "epoch": 0.36225,
      "grad_norm": 0.7852205038070679,
      "learning_rate": 0.00021404524424097535,
      "loss": 3.9657,
      "step": 173880
    },
    {
      "epoch": 0.3622708333333333,
      "grad_norm": 0.7802397608757019,
      "learning_rate": 0.00021403632934127942,
      "loss": 3.9758,
      "step": 173890
    },
    {
      "epoch": 0.3622916666666667,
      "grad_norm": 0.7447906732559204,
      "learning_rate": 0.0002140274141649719,
      "loss": 3.8788,
      "step": 173900
    },
    {
      "epoch": 0.3623125,
      "grad_norm": 0.9278213381767273,
      "learning_rate": 0.00021401849871209127,
      "loss": 4.0381,
      "step": 173910
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 0.8637688159942627,
      "learning_rate": 0.00021400958298267608,
      "loss": 4.0745,
      "step": 173920
    },
    {
      "epoch": 0.36235416666666664,
      "grad_norm": 0.8024832010269165,
      "learning_rate": 0.00021400066697676486,
      "loss": 3.981,
      "step": 173930
    },
    {
      "epoch": 0.362375,
      "grad_norm": 0.8586660027503967,
      "learning_rate": 0.00021399175069439607,
      "loss": 4.1176,
      "step": 173940
    },
    {
      "epoch": 0.3623958333333333,
      "grad_norm": 0.8194723129272461,
      "learning_rate": 0.00021398283413560823,
      "loss": 3.8544,
      "step": 173950
    },
    {
      "epoch": 0.36241666666666666,
      "grad_norm": 0.7548344731330872,
      "learning_rate": 0.00021397391730043988,
      "loss": 3.9373,
      "step": 173960
    },
    {
      "epoch": 0.3624375,
      "grad_norm": 1.0793797969818115,
      "learning_rate": 0.00021396500018892956,
      "loss": 3.9885,
      "step": 173970
    },
    {
      "epoch": 0.3624583333333333,
      "grad_norm": 0.8495063185691833,
      "learning_rate": 0.0002139560828011157,
      "loss": 4.0801,
      "step": 173980
    },
    {
      "epoch": 0.3624791666666667,
      "grad_norm": 0.7396501302719116,
      "learning_rate": 0.00021394716513703697,
      "loss": 3.9766,
      "step": 173990
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.8023056983947754,
      "learning_rate": 0.0002139382471967317,
      "loss": 3.9882,
      "step": 174000
    },
    {
      "epoch": 0.3625,
      "eval_loss": 3.689159393310547,
      "eval_runtime": 7.3112,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 174000
    },
    {
      "epoch": 0.36252083333333335,
      "grad_norm": 0.8689549565315247,
      "learning_rate": 0.00021392932898023858,
      "loss": 3.9516,
      "step": 174010
    },
    {
      "epoch": 0.36254166666666665,
      "grad_norm": 0.8099939823150635,
      "learning_rate": 0.00021392041048759602,
      "loss": 4.0668,
      "step": 174020
    },
    {
      "epoch": 0.3625625,
      "grad_norm": 0.8280612230300903,
      "learning_rate": 0.0002139114917188426,
      "loss": 4.0553,
      "step": 174030
    },
    {
      "epoch": 0.3625833333333333,
      "grad_norm": 0.8171658515930176,
      "learning_rate": 0.00021390257267401682,
      "loss": 3.8898,
      "step": 174040
    },
    {
      "epoch": 0.36260416666666667,
      "grad_norm": 0.7603968381881714,
      "learning_rate": 0.00021389365335315727,
      "loss": 4.1264,
      "step": 174050
    },
    {
      "epoch": 0.362625,
      "grad_norm": 0.7859381437301636,
      "learning_rate": 0.0002138847337563024,
      "loss": 3.9666,
      "step": 174060
    },
    {
      "epoch": 0.36264583333333333,
      "grad_norm": 0.7933294177055359,
      "learning_rate": 0.00021387581388349075,
      "loss": 4.0338,
      "step": 174070
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 0.8599143028259277,
      "learning_rate": 0.00021386689373476087,
      "loss": 3.857,
      "step": 174080
    },
    {
      "epoch": 0.3626875,
      "grad_norm": 0.8627049326896667,
      "learning_rate": 0.0002138579733101513,
      "loss": 3.8759,
      "step": 174090
    },
    {
      "epoch": 0.36270833333333335,
      "grad_norm": 0.8622844815254211,
      "learning_rate": 0.00021384905260970056,
      "loss": 4.0112,
      "step": 174100
    },
    {
      "epoch": 0.36272916666666666,
      "grad_norm": 0.8264254927635193,
      "learning_rate": 0.00021384013163344722,
      "loss": 3.9549,
      "step": 174110
    },
    {
      "epoch": 0.36275,
      "grad_norm": 0.7556323409080505,
      "learning_rate": 0.00021383121038142972,
      "loss": 3.8486,
      "step": 174120
    },
    {
      "epoch": 0.3627708333333333,
      "grad_norm": 0.8027355074882507,
      "learning_rate": 0.00021382228885368672,
      "loss": 3.9294,
      "step": 174130
    },
    {
      "epoch": 0.3627916666666667,
      "grad_norm": 0.882708728313446,
      "learning_rate": 0.00021381336705025665,
      "loss": 4.0082,
      "step": 174140
    },
    {
      "epoch": 0.3628125,
      "grad_norm": 0.8961516618728638,
      "learning_rate": 0.00021380444497117807,
      "loss": 3.988,
      "step": 174150
    },
    {
      "epoch": 0.36283333333333334,
      "grad_norm": 0.8428937792778015,
      "learning_rate": 0.00021379552261648963,
      "loss": 3.9784,
      "step": 174160
    },
    {
      "epoch": 0.36285416666666664,
      "grad_norm": 1.0495611429214478,
      "learning_rate": 0.00021378659998622971,
      "loss": 3.9539,
      "step": 174170
    },
    {
      "epoch": 0.362875,
      "grad_norm": 0.8152185082435608,
      "learning_rate": 0.00021377767708043697,
      "loss": 3.9508,
      "step": 174180
    },
    {
      "epoch": 0.3628958333333333,
      "grad_norm": 0.8631849884986877,
      "learning_rate": 0.00021376875389914987,
      "loss": 3.997,
      "step": 174190
    },
    {
      "epoch": 0.36291666666666667,
      "grad_norm": 0.8132186532020569,
      "learning_rate": 0.00021375983044240703,
      "loss": 3.8379,
      "step": 174200
    },
    {
      "epoch": 0.3629375,
      "grad_norm": 0.9566584229469299,
      "learning_rate": 0.00021375090671024694,
      "loss": 3.9143,
      "step": 174210
    },
    {
      "epoch": 0.3629583333333333,
      "grad_norm": 0.8092548251152039,
      "learning_rate": 0.00021374198270270817,
      "loss": 4.0223,
      "step": 174220
    },
    {
      "epoch": 0.3629791666666667,
      "grad_norm": 0.7464221715927124,
      "learning_rate": 0.00021373305841982927,
      "loss": 3.9329,
      "step": 174230
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.737942636013031,
      "learning_rate": 0.00021372413386164878,
      "loss": 3.8129,
      "step": 174240
    },
    {
      "epoch": 0.36302083333333335,
      "grad_norm": 0.7883768677711487,
      "learning_rate": 0.00021371520902820526,
      "loss": 3.9357,
      "step": 174250
    },
    {
      "epoch": 0.36304166666666665,
      "grad_norm": 0.8454353213310242,
      "learning_rate": 0.00021370628391953724,
      "loss": 3.8691,
      "step": 174260
    },
    {
      "epoch": 0.3630625,
      "grad_norm": 1.0324748754501343,
      "learning_rate": 0.00021369735853568334,
      "loss": 3.8269,
      "step": 174270
    },
    {
      "epoch": 0.3630833333333333,
      "grad_norm": 0.777212381362915,
      "learning_rate": 0.00021368843287668203,
      "loss": 3.9542,
      "step": 174280
    },
    {
      "epoch": 0.3631041666666667,
      "grad_norm": 0.7921146154403687,
      "learning_rate": 0.0002136795069425719,
      "loss": 4.0405,
      "step": 174290
    },
    {
      "epoch": 0.363125,
      "grad_norm": 0.9396365880966187,
      "learning_rate": 0.0002136705807333915,
      "loss": 4.0264,
      "step": 174300
    },
    {
      "epoch": 0.36314583333333333,
      "grad_norm": 0.8286640048027039,
      "learning_rate": 0.0002136616542491794,
      "loss": 4.0443,
      "step": 174310
    },
    {
      "epoch": 0.3631666666666667,
      "grad_norm": 0.9508491158485413,
      "learning_rate": 0.00021365272748997415,
      "loss": 4.0208,
      "step": 174320
    },
    {
      "epoch": 0.3631875,
      "grad_norm": 0.8723816871643066,
      "learning_rate": 0.00021364380045581433,
      "loss": 3.9502,
      "step": 174330
    },
    {
      "epoch": 0.36320833333333336,
      "grad_norm": 0.8139633536338806,
      "learning_rate": 0.00021363487314673846,
      "loss": 3.9301,
      "step": 174340
    },
    {
      "epoch": 0.36322916666666666,
      "grad_norm": 0.7777935862541199,
      "learning_rate": 0.0002136259455627851,
      "loss": 3.9648,
      "step": 174350
    },
    {
      "epoch": 0.36325,
      "grad_norm": 0.8517107367515564,
      "learning_rate": 0.00021361701770399293,
      "loss": 3.9461,
      "step": 174360
    },
    {
      "epoch": 0.3632708333333333,
      "grad_norm": 0.877871036529541,
      "learning_rate": 0.00021360808957040036,
      "loss": 4.0823,
      "step": 174370
    },
    {
      "epoch": 0.3632916666666667,
      "grad_norm": 0.8232648372650146,
      "learning_rate": 0.000213599161162046,
      "loss": 3.7834,
      "step": 174380
    },
    {
      "epoch": 0.3633125,
      "grad_norm": 0.9775408506393433,
      "learning_rate": 0.00021359023247896847,
      "loss": 4.1883,
      "step": 174390
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 0.87041836977005,
      "learning_rate": 0.0002135813035212063,
      "loss": 3.9051,
      "step": 174400
    },
    {
      "epoch": 0.36335416666666664,
      "grad_norm": 0.7815132737159729,
      "learning_rate": 0.00021357237428879807,
      "loss": 3.835,
      "step": 174410
    },
    {
      "epoch": 0.363375,
      "grad_norm": 0.794146716594696,
      "learning_rate": 0.00021356344478178237,
      "loss": 4.0282,
      "step": 174420
    },
    {
      "epoch": 0.3633958333333333,
      "grad_norm": 0.8311973810195923,
      "learning_rate": 0.00021355451500019773,
      "loss": 3.9871,
      "step": 174430
    },
    {
      "epoch": 0.36341666666666667,
      "grad_norm": 0.8619807362556458,
      "learning_rate": 0.00021354558494408277,
      "loss": 3.9961,
      "step": 174440
    },
    {
      "epoch": 0.3634375,
      "grad_norm": 1.241540789604187,
      "learning_rate": 0.00021353665461347598,
      "loss": 4.0008,
      "step": 174450
    },
    {
      "epoch": 0.3634583333333333,
      "grad_norm": 0.850030779838562,
      "learning_rate": 0.00021352772400841602,
      "loss": 4.1881,
      "step": 174460
    },
    {
      "epoch": 0.3634791666666667,
      "grad_norm": 0.7723901271820068,
      "learning_rate": 0.00021351879312894145,
      "loss": 3.8397,
      "step": 174470
    },
    {
      "epoch": 0.3635,
      "grad_norm": 0.8476588726043701,
      "learning_rate": 0.00021350986197509077,
      "loss": 3.8465,
      "step": 174480
    },
    {
      "epoch": 0.36352083333333335,
      "grad_norm": 0.7805780172348022,
      "learning_rate": 0.00021350093054690268,
      "loss": 3.9922,
      "step": 174490
    },
    {
      "epoch": 0.36354166666666665,
      "grad_norm": 1.0259623527526855,
      "learning_rate": 0.00021349199884441574,
      "loss": 4.1304,
      "step": 174500
    },
    {
      "epoch": 0.3635625,
      "grad_norm": 0.7810003161430359,
      "learning_rate": 0.00021348306686766848,
      "loss": 4.0833,
      "step": 174510
    },
    {
      "epoch": 0.3635833333333333,
      "grad_norm": 0.7962567210197449,
      "learning_rate": 0.00021347413461669944,
      "loss": 3.8652,
      "step": 174520
    },
    {
      "epoch": 0.3636041666666667,
      "grad_norm": 3.2926745414733887,
      "learning_rate": 0.0002134652020915473,
      "loss": 3.8758,
      "step": 174530
    },
    {
      "epoch": 0.363625,
      "grad_norm": 0.9866490364074707,
      "learning_rate": 0.00021345626929225063,
      "loss": 4.0258,
      "step": 174540
    },
    {
      "epoch": 0.36364583333333333,
      "grad_norm": 0.8245503306388855,
      "learning_rate": 0.00021344733621884792,
      "loss": 3.9636,
      "step": 174550
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 0.8528587818145752,
      "learning_rate": 0.00021343840287137793,
      "loss": 3.9562,
      "step": 174560
    },
    {
      "epoch": 0.3636875,
      "grad_norm": 0.80953449010849,
      "learning_rate": 0.0002134294692498791,
      "loss": 3.8701,
      "step": 174570
    },
    {
      "epoch": 0.36370833333333336,
      "grad_norm": 1.179869294166565,
      "learning_rate": 0.00021342053535439008,
      "loss": 4.0631,
      "step": 174580
    },
    {
      "epoch": 0.36372916666666666,
      "grad_norm": 0.9608558416366577,
      "learning_rate": 0.00021341160118494945,
      "loss": 3.7613,
      "step": 174590
    },
    {
      "epoch": 0.36375,
      "grad_norm": 0.7556079626083374,
      "learning_rate": 0.0002134026667415958,
      "loss": 3.8327,
      "step": 174600
    },
    {
      "epoch": 0.3637708333333333,
      "grad_norm": 0.8766578435897827,
      "learning_rate": 0.00021339373202436773,
      "loss": 3.7897,
      "step": 174610
    },
    {
      "epoch": 0.3637916666666667,
      "grad_norm": 0.8542773723602295,
      "learning_rate": 0.0002133847970333038,
      "loss": 3.9671,
      "step": 174620
    },
    {
      "epoch": 0.3638125,
      "grad_norm": 0.7669239044189453,
      "learning_rate": 0.00021337586176844268,
      "loss": 3.9862,
      "step": 174630
    },
    {
      "epoch": 0.36383333333333334,
      "grad_norm": 0.9507899880409241,
      "learning_rate": 0.00021336692622982295,
      "loss": 3.9809,
      "step": 174640
    },
    {
      "epoch": 0.36385416666666665,
      "grad_norm": 0.8933753371238708,
      "learning_rate": 0.00021335799041748306,
      "loss": 4.0436,
      "step": 174650
    },
    {
      "epoch": 0.363875,
      "grad_norm": 0.7403197884559631,
      "learning_rate": 0.00021334905433146185,
      "loss": 3.9926,
      "step": 174660
    },
    {
      "epoch": 0.3638958333333333,
      "grad_norm": 0.8304490447044373,
      "learning_rate": 0.00021334011797179776,
      "loss": 3.8913,
      "step": 174670
    },
    {
      "epoch": 0.36391666666666667,
      "grad_norm": 0.8411203026771545,
      "learning_rate": 0.00021333118133852943,
      "loss": 3.8746,
      "step": 174680
    },
    {
      "epoch": 0.3639375,
      "grad_norm": 0.7432931661605835,
      "learning_rate": 0.00021332224443169543,
      "loss": 3.9882,
      "step": 174690
    },
    {
      "epoch": 0.36395833333333333,
      "grad_norm": 0.7701634168624878,
      "learning_rate": 0.00021331330725133448,
      "loss": 3.772,
      "step": 174700
    },
    {
      "epoch": 0.3639791666666667,
      "grad_norm": 0.7767758965492249,
      "learning_rate": 0.00021330436979748508,
      "loss": 3.8742,
      "step": 174710
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.7134754657745361,
      "learning_rate": 0.0002132954320701858,
      "loss": 3.8102,
      "step": 174720
    },
    {
      "epoch": 0.36402083333333335,
      "grad_norm": 0.8332526087760925,
      "learning_rate": 0.00021328649406947533,
      "loss": 4.1025,
      "step": 174730
    },
    {
      "epoch": 0.36404166666666665,
      "grad_norm": 0.777489423751831,
      "learning_rate": 0.0002132775557953923,
      "loss": 3.9145,
      "step": 174740
    },
    {
      "epoch": 0.3640625,
      "grad_norm": 1.0210281610488892,
      "learning_rate": 0.00021326861724797527,
      "loss": 4.008,
      "step": 174750
    },
    {
      "epoch": 0.3640833333333333,
      "grad_norm": 0.7608892917633057,
      "learning_rate": 0.0002132596784272628,
      "loss": 3.8368,
      "step": 174760
    },
    {
      "epoch": 0.3641041666666667,
      "grad_norm": 0.7629665732383728,
      "learning_rate": 0.0002132507393332936,
      "loss": 3.8997,
      "step": 174770
    },
    {
      "epoch": 0.364125,
      "grad_norm": 0.7865404486656189,
      "learning_rate": 0.00021324179996610624,
      "loss": 4.0929,
      "step": 174780
    },
    {
      "epoch": 0.36414583333333334,
      "grad_norm": 0.8129274845123291,
      "learning_rate": 0.00021323286032573935,
      "loss": 3.9973,
      "step": 174790
    },
    {
      "epoch": 0.3641666666666667,
      "grad_norm": 0.8387300372123718,
      "learning_rate": 0.0002132239204122315,
      "loss": 3.9174,
      "step": 174800
    },
    {
      "epoch": 0.3641875,
      "grad_norm": 0.8515400290489197,
      "learning_rate": 0.00021321498022562138,
      "loss": 3.9113,
      "step": 174810
    },
    {
      "epoch": 0.36420833333333336,
      "grad_norm": 0.8562884330749512,
      "learning_rate": 0.0002132060397659475,
      "loss": 3.9338,
      "step": 174820
    },
    {
      "epoch": 0.36422916666666666,
      "grad_norm": 0.8197867274284363,
      "learning_rate": 0.0002131970990332486,
      "loss": 3.9407,
      "step": 174830
    },
    {
      "epoch": 0.36425,
      "grad_norm": 0.8426045179367065,
      "learning_rate": 0.00021318815802756324,
      "loss": 3.9718,
      "step": 174840
    },
    {
      "epoch": 0.3642708333333333,
      "grad_norm": 0.8756848573684692,
      "learning_rate": 0.00021317921674893,
      "loss": 4.2542,
      "step": 174850
    },
    {
      "epoch": 0.3642916666666667,
      "grad_norm": 0.8059225678443909,
      "learning_rate": 0.00021317027519738766,
      "loss": 3.9368,
      "step": 174860
    },
    {
      "epoch": 0.3643125,
      "grad_norm": 0.896374523639679,
      "learning_rate": 0.00021316133337297464,
      "loss": 4.2023,
      "step": 174870
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 0.7513585686683655,
      "learning_rate": 0.0002131523912757297,
      "loss": 4.0092,
      "step": 174880
    },
    {
      "epoch": 0.36435416666666665,
      "grad_norm": 0.7989469766616821,
      "learning_rate": 0.00021314344890569146,
      "loss": 3.9271,
      "step": 174890
    },
    {
      "epoch": 0.364375,
      "grad_norm": 1.0156575441360474,
      "learning_rate": 0.00021313450626289846,
      "loss": 4.281,
      "step": 174900
    },
    {
      "epoch": 0.3643958333333333,
      "grad_norm": 0.8207781314849854,
      "learning_rate": 0.0002131255633473894,
      "loss": 3.8209,
      "step": 174910
    },
    {
      "epoch": 0.36441666666666667,
      "grad_norm": 0.7485414743423462,
      "learning_rate": 0.0002131166201592029,
      "loss": 3.9346,
      "step": 174920
    },
    {
      "epoch": 0.3644375,
      "grad_norm": 0.8851423263549805,
      "learning_rate": 0.00021310767669837754,
      "loss": 4.0842,
      "step": 174930
    },
    {
      "epoch": 0.36445833333333333,
      "grad_norm": 0.7906816601753235,
      "learning_rate": 0.00021309873296495205,
      "loss": 3.9377,
      "step": 174940
    },
    {
      "epoch": 0.3644791666666667,
      "grad_norm": 1.2099510431289673,
      "learning_rate": 0.000213089788958965,
      "loss": 3.952,
      "step": 174950
    },
    {
      "epoch": 0.3645,
      "grad_norm": 0.8232565522193909,
      "learning_rate": 0.00021308084468045502,
      "loss": 4.0591,
      "step": 174960
    },
    {
      "epoch": 0.36452083333333335,
      "grad_norm": 0.7940943241119385,
      "learning_rate": 0.00021307190012946078,
      "loss": 3.5417,
      "step": 174970
    },
    {
      "epoch": 0.36454166666666665,
      "grad_norm": 0.7957707643508911,
      "learning_rate": 0.00021306295530602087,
      "loss": 3.9279,
      "step": 174980
    },
    {
      "epoch": 0.3645625,
      "grad_norm": 0.8904888033866882,
      "learning_rate": 0.00021305401021017397,
      "loss": 3.8337,
      "step": 174990
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 0.8107237219810486,
      "learning_rate": 0.00021304506484195874,
      "loss": 3.9534,
      "step": 175000
    },
    {
      "epoch": 0.3645833333333333,
      "eval_loss": 3.6867289543151855,
      "eval_runtime": 7.3183,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 175000
    },
    {
      "epoch": 0.3646041666666667,
      "grad_norm": 0.7868074178695679,
      "learning_rate": 0.00021303611920141374,
      "loss": 4.0758,
      "step": 175010
    },
    {
      "epoch": 0.364625,
      "grad_norm": 0.7757470011711121,
      "learning_rate": 0.00021302717328857763,
      "loss": 3.9988,
      "step": 175020
    },
    {
      "epoch": 0.36464583333333334,
      "grad_norm": 0.7779345512390137,
      "learning_rate": 0.00021301822710348913,
      "loss": 4.2216,
      "step": 175030
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 0.7706355452537537,
      "learning_rate": 0.00021300928064618682,
      "loss": 3.9257,
      "step": 175040
    },
    {
      "epoch": 0.3646875,
      "grad_norm": 0.7683759927749634,
      "learning_rate": 0.00021300033391670933,
      "loss": 4.0359,
      "step": 175050
    },
    {
      "epoch": 0.36470833333333336,
      "grad_norm": 0.761775016784668,
      "learning_rate": 0.00021299138691509542,
      "loss": 4.0491,
      "step": 175060
    },
    {
      "epoch": 0.36472916666666666,
      "grad_norm": 0.7305473685264587,
      "learning_rate": 0.00021298243964138356,
      "loss": 3.8503,
      "step": 175070
    },
    {
      "epoch": 0.36475,
      "grad_norm": 0.9360226988792419,
      "learning_rate": 0.00021297349209561253,
      "loss": 3.9702,
      "step": 175080
    },
    {
      "epoch": 0.3647708333333333,
      "grad_norm": 0.7994722127914429,
      "learning_rate": 0.00021296454427782095,
      "loss": 3.7939,
      "step": 175090
    },
    {
      "epoch": 0.3647916666666667,
      "grad_norm": 0.8594479560852051,
      "learning_rate": 0.0002129555961880474,
      "loss": 3.7971,
      "step": 175100
    },
    {
      "epoch": 0.3648125,
      "grad_norm": 0.78879714012146,
      "learning_rate": 0.00021294664782633066,
      "loss": 4.1922,
      "step": 175110
    },
    {
      "epoch": 0.36483333333333334,
      "grad_norm": 0.9045877456665039,
      "learning_rate": 0.00021293769919270928,
      "loss": 3.9099,
      "step": 175120
    },
    {
      "epoch": 0.36485416666666665,
      "grad_norm": 0.7488057017326355,
      "learning_rate": 0.00021292875028722198,
      "loss": 4.071,
      "step": 175130
    },
    {
      "epoch": 0.364875,
      "grad_norm": 0.9492443799972534,
      "learning_rate": 0.0002129198011099074,
      "loss": 3.9179,
      "step": 175140
    },
    {
      "epoch": 0.3648958333333333,
      "grad_norm": 0.8071275949478149,
      "learning_rate": 0.00021291085166080413,
      "loss": 4.1233,
      "step": 175150
    },
    {
      "epoch": 0.36491666666666667,
      "grad_norm": 0.794013500213623,
      "learning_rate": 0.0002129019019399509,
      "loss": 3.8426,
      "step": 175160
    },
    {
      "epoch": 0.3649375,
      "grad_norm": 0.8351098895072937,
      "learning_rate": 0.00021289295194738646,
      "loss": 3.8073,
      "step": 175170
    },
    {
      "epoch": 0.36495833333333333,
      "grad_norm": 0.8332127332687378,
      "learning_rate": 0.00021288400168314924,
      "loss": 3.7521,
      "step": 175180
    },
    {
      "epoch": 0.3649791666666667,
      "grad_norm": 0.8349041938781738,
      "learning_rate": 0.00021287505114727802,
      "loss": 3.8031,
      "step": 175190
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.9304928779602051,
      "learning_rate": 0.00021286610033981152,
      "loss": 4.0101,
      "step": 175200
    },
    {
      "epoch": 0.36502083333333335,
      "grad_norm": 0.9058389663696289,
      "learning_rate": 0.00021285714926078833,
      "loss": 3.9186,
      "step": 175210
    },
    {
      "epoch": 0.36504166666666665,
      "grad_norm": 0.8554328680038452,
      "learning_rate": 0.0002128481979102471,
      "loss": 3.95,
      "step": 175220
    },
    {
      "epoch": 0.3650625,
      "grad_norm": 0.8607500195503235,
      "learning_rate": 0.0002128392462882266,
      "loss": 3.8106,
      "step": 175230
    },
    {
      "epoch": 0.3650833333333333,
      "grad_norm": 0.8183770775794983,
      "learning_rate": 0.0002128302943947654,
      "loss": 3.9608,
      "step": 175240
    },
    {
      "epoch": 0.3651041666666667,
      "grad_norm": 0.771547794342041,
      "learning_rate": 0.00021282134222990221,
      "loss": 4.1453,
      "step": 175250
    },
    {
      "epoch": 0.365125,
      "grad_norm": 0.8067498207092285,
      "learning_rate": 0.00021281238979367568,
      "loss": 3.9872,
      "step": 175260
    },
    {
      "epoch": 0.36514583333333334,
      "grad_norm": 0.8564248085021973,
      "learning_rate": 0.00021280343708612447,
      "loss": 3.8924,
      "step": 175270
    },
    {
      "epoch": 0.36516666666666664,
      "grad_norm": 0.7883774638175964,
      "learning_rate": 0.00021279448410728728,
      "loss": 3.8494,
      "step": 175280
    },
    {
      "epoch": 0.3651875,
      "grad_norm": 0.8727309703826904,
      "learning_rate": 0.00021278553085720276,
      "loss": 3.9091,
      "step": 175290
    },
    {
      "epoch": 0.36520833333333336,
      "grad_norm": 0.76287841796875,
      "learning_rate": 0.00021277657733590965,
      "loss": 4.003,
      "step": 175300
    },
    {
      "epoch": 0.36522916666666666,
      "grad_norm": 0.8200424909591675,
      "learning_rate": 0.00021276762354344655,
      "loss": 3.8382,
      "step": 175310
    },
    {
      "epoch": 0.36525,
      "grad_norm": 0.7892459034919739,
      "learning_rate": 0.00021275866947985213,
      "loss": 3.8931,
      "step": 175320
    },
    {
      "epoch": 0.3652708333333333,
      "grad_norm": 0.9357972145080566,
      "learning_rate": 0.00021274971514516512,
      "loss": 4.0752,
      "step": 175330
    },
    {
      "epoch": 0.3652916666666667,
      "grad_norm": 0.8328607678413391,
      "learning_rate": 0.00021274076053942422,
      "loss": 3.9275,
      "step": 175340
    },
    {
      "epoch": 0.3653125,
      "grad_norm": 0.865749716758728,
      "learning_rate": 0.00021273180566266797,
      "loss": 3.8995,
      "step": 175350
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 0.8704686760902405,
      "learning_rate": 0.00021272285051493524,
      "loss": 3.7877,
      "step": 175360
    },
    {
      "epoch": 0.36535416666666665,
      "grad_norm": 0.9141926765441895,
      "learning_rate": 0.00021271389509626459,
      "loss": 4.0667,
      "step": 175370
    },
    {
      "epoch": 0.365375,
      "grad_norm": 0.9498146772384644,
      "learning_rate": 0.00021270493940669477,
      "loss": 3.9721,
      "step": 175380
    },
    {
      "epoch": 0.3653958333333333,
      "grad_norm": 0.7925817966461182,
      "learning_rate": 0.00021269598344626436,
      "loss": 3.8973,
      "step": 175390
    },
    {
      "epoch": 0.36541666666666667,
      "grad_norm": 0.8356281518936157,
      "learning_rate": 0.0002126870272150122,
      "loss": 4.2139,
      "step": 175400
    },
    {
      "epoch": 0.3654375,
      "grad_norm": 0.7574059367179871,
      "learning_rate": 0.00021267807071297684,
      "loss": 3.9633,
      "step": 175410
    },
    {
      "epoch": 0.36545833333333333,
      "grad_norm": 0.7922923564910889,
      "learning_rate": 0.000212669113940197,
      "loss": 4.0457,
      "step": 175420
    },
    {
      "epoch": 0.3654791666666667,
      "grad_norm": 0.8444553017616272,
      "learning_rate": 0.0002126601568967115,
      "loss": 4.0298,
      "step": 175430
    },
    {
      "epoch": 0.3655,
      "grad_norm": 0.7358354926109314,
      "learning_rate": 0.00021265119958255882,
      "loss": 4.0692,
      "step": 175440
    },
    {
      "epoch": 0.36552083333333335,
      "grad_norm": 0.809901773929596,
      "learning_rate": 0.0002126422419977778,
      "loss": 3.8704,
      "step": 175450
    },
    {
      "epoch": 0.36554166666666665,
      "grad_norm": 0.8242422342300415,
      "learning_rate": 0.0002126332841424071,
      "loss": 3.8191,
      "step": 175460
    },
    {
      "epoch": 0.3655625,
      "grad_norm": 0.9170001745223999,
      "learning_rate": 0.0002126243260164854,
      "loss": 4.0225,
      "step": 175470
    },
    {
      "epoch": 0.3655833333333333,
      "grad_norm": 0.7136163711547852,
      "learning_rate": 0.00021261536762005138,
      "loss": 4.0584,
      "step": 175480
    },
    {
      "epoch": 0.3656041666666667,
      "grad_norm": 0.7731521725654602,
      "learning_rate": 0.00021260640895314376,
      "loss": 3.7572,
      "step": 175490
    },
    {
      "epoch": 0.365625,
      "grad_norm": 0.8262724876403809,
      "learning_rate": 0.00021259745001580126,
      "loss": 3.8682,
      "step": 175500
    },
    {
      "epoch": 0.36564583333333334,
      "grad_norm": 0.8330109715461731,
      "learning_rate": 0.00021258849080806256,
      "loss": 3.8061,
      "step": 175510
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 0.8498127460479736,
      "learning_rate": 0.0002125795313299663,
      "loss": 3.9835,
      "step": 175520
    },
    {
      "epoch": 0.3656875,
      "grad_norm": 0.9052436947822571,
      "learning_rate": 0.00021257057158155127,
      "loss": 3.9105,
      "step": 175530
    },
    {
      "epoch": 0.36570833333333336,
      "grad_norm": 0.8553155064582825,
      "learning_rate": 0.00021256161156285616,
      "loss": 4.0164,
      "step": 175540
    },
    {
      "epoch": 0.36572916666666666,
      "grad_norm": 1.0075995922088623,
      "learning_rate": 0.0002125526512739196,
      "loss": 3.9444,
      "step": 175550
    },
    {
      "epoch": 0.36575,
      "grad_norm": 0.7949206829071045,
      "learning_rate": 0.00021254369071478034,
      "loss": 4.0613,
      "step": 175560
    },
    {
      "epoch": 0.3657708333333333,
      "grad_norm": 0.7885585427284241,
      "learning_rate": 0.00021253472988547718,
      "loss": 4.0012,
      "step": 175570
    },
    {
      "epoch": 0.3657916666666667,
      "grad_norm": 0.7696713805198669,
      "learning_rate": 0.00021252576878604869,
      "loss": 4.0023,
      "step": 175580
    },
    {
      "epoch": 0.3658125,
      "grad_norm": 0.8613799810409546,
      "learning_rate": 0.00021251680741653364,
      "loss": 3.9681,
      "step": 175590
    },
    {
      "epoch": 0.36583333333333334,
      "grad_norm": 0.816809892654419,
      "learning_rate": 0.00021250784577697067,
      "loss": 3.8961,
      "step": 175600
    },
    {
      "epoch": 0.36585416666666665,
      "grad_norm": 0.8490100502967834,
      "learning_rate": 0.0002124988838673986,
      "loss": 3.8271,
      "step": 175610
    },
    {
      "epoch": 0.365875,
      "grad_norm": 0.8058775067329407,
      "learning_rate": 0.0002124899216878561,
      "loss": 4.0582,
      "step": 175620
    },
    {
      "epoch": 0.3658958333333333,
      "grad_norm": 0.8116158843040466,
      "learning_rate": 0.0002124809592383818,
      "loss": 3.9231,
      "step": 175630
    },
    {
      "epoch": 0.36591666666666667,
      "grad_norm": 0.8028062582015991,
      "learning_rate": 0.00021247199651901457,
      "loss": 3.9741,
      "step": 175640
    },
    {
      "epoch": 0.3659375,
      "grad_norm": 0.830862820148468,
      "learning_rate": 0.000212463033529793,
      "loss": 3.9113,
      "step": 175650
    },
    {
      "epoch": 0.36595833333333333,
      "grad_norm": 0.78169184923172,
      "learning_rate": 0.00021245407027075587,
      "loss": 3.8041,
      "step": 175660
    },
    {
      "epoch": 0.3659791666666667,
      "grad_norm": 0.8825494647026062,
      "learning_rate": 0.00021244510674194188,
      "loss": 4.0681,
      "step": 175670
    },
    {
      "epoch": 0.366,
      "grad_norm": 1.0486096143722534,
      "learning_rate": 0.00021243614294338977,
      "loss": 3.7217,
      "step": 175680
    },
    {
      "epoch": 0.36602083333333335,
      "grad_norm": 0.7113487124443054,
      "learning_rate": 0.00021242717887513818,
      "loss": 4.0124,
      "step": 175690
    },
    {
      "epoch": 0.36604166666666665,
      "grad_norm": 0.7505286931991577,
      "learning_rate": 0.0002124182145372259,
      "loss": 3.8605,
      "step": 175700
    },
    {
      "epoch": 0.3660625,
      "grad_norm": 0.822982132434845,
      "learning_rate": 0.00021240924992969168,
      "loss": 3.9255,
      "step": 175710
    },
    {
      "epoch": 0.3660833333333333,
      "grad_norm": 0.7943370938301086,
      "learning_rate": 0.00021240028505257414,
      "loss": 4.0494,
      "step": 175720
    },
    {
      "epoch": 0.3661041666666667,
      "grad_norm": 0.889911413192749,
      "learning_rate": 0.0002123913199059121,
      "loss": 4.0377,
      "step": 175730
    },
    {
      "epoch": 0.366125,
      "grad_norm": 0.9344258904457092,
      "learning_rate": 0.00021238235448974428,
      "loss": 4.0856,
      "step": 175740
    },
    {
      "epoch": 0.36614583333333334,
      "grad_norm": 0.7733643651008606,
      "learning_rate": 0.00021237338880410937,
      "loss": 3.965,
      "step": 175750
    },
    {
      "epoch": 0.36616666666666664,
      "grad_norm": 0.7855396866798401,
      "learning_rate": 0.0002123644228490461,
      "loss": 4.0538,
      "step": 175760
    },
    {
      "epoch": 0.3661875,
      "grad_norm": 0.8937869668006897,
      "learning_rate": 0.0002123554566245932,
      "loss": 3.8988,
      "step": 175770
    },
    {
      "epoch": 0.36620833333333336,
      "grad_norm": 0.843164324760437,
      "learning_rate": 0.00021234649013078945,
      "loss": 3.8496,
      "step": 175780
    },
    {
      "epoch": 0.36622916666666666,
      "grad_norm": 0.8376129865646362,
      "learning_rate": 0.0002123375233676735,
      "loss": 4.01,
      "step": 175790
    },
    {
      "epoch": 0.36625,
      "grad_norm": 0.7669414281845093,
      "learning_rate": 0.0002123285563352841,
      "loss": 4.0237,
      "step": 175800
    },
    {
      "epoch": 0.3662708333333333,
      "grad_norm": 0.8715810775756836,
      "learning_rate": 0.00021231958903366005,
      "loss": 4.0274,
      "step": 175810
    },
    {
      "epoch": 0.3662916666666667,
      "grad_norm": 0.8161295056343079,
      "learning_rate": 0.00021231062146284004,
      "loss": 3.8811,
      "step": 175820
    },
    {
      "epoch": 0.3663125,
      "grad_norm": 0.8540098667144775,
      "learning_rate": 0.00021230165362286278,
      "loss": 3.8923,
      "step": 175830
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 0.9082488417625427,
      "learning_rate": 0.00021229268551376708,
      "loss": 4.1253,
      "step": 175840
    },
    {
      "epoch": 0.36635416666666665,
      "grad_norm": 0.7559683322906494,
      "learning_rate": 0.00021228371713559162,
      "loss": 3.8744,
      "step": 175850
    },
    {
      "epoch": 0.366375,
      "grad_norm": 0.8244755864143372,
      "learning_rate": 0.00021227474848837516,
      "loss": 3.7778,
      "step": 175860
    },
    {
      "epoch": 0.3663958333333333,
      "grad_norm": 0.8920648694038391,
      "learning_rate": 0.00021226577957215642,
      "loss": 3.9953,
      "step": 175870
    },
    {
      "epoch": 0.36641666666666667,
      "grad_norm": 0.7411820888519287,
      "learning_rate": 0.00021225681038697418,
      "loss": 4.1325,
      "step": 175880
    },
    {
      "epoch": 0.3664375,
      "grad_norm": 0.8183485269546509,
      "learning_rate": 0.0002122478409328671,
      "loss": 3.8003,
      "step": 175890
    },
    {
      "epoch": 0.36645833333333333,
      "grad_norm": 0.7863892912864685,
      "learning_rate": 0.00021223887120987408,
      "loss": 4.0505,
      "step": 175900
    },
    {
      "epoch": 0.3664791666666667,
      "grad_norm": 1.103837490081787,
      "learning_rate": 0.00021222990121803372,
      "loss": 3.9682,
      "step": 175910
    },
    {
      "epoch": 0.3665,
      "grad_norm": 0.8505231738090515,
      "learning_rate": 0.0002122209309573848,
      "loss": 3.9664,
      "step": 175920
    },
    {
      "epoch": 0.36652083333333335,
      "grad_norm": 0.8649459481239319,
      "learning_rate": 0.00021221196042796615,
      "loss": 3.9177,
      "step": 175930
    },
    {
      "epoch": 0.36654166666666665,
      "grad_norm": 0.8314287066459656,
      "learning_rate": 0.00021220298962981642,
      "loss": 4.0639,
      "step": 175940
    },
    {
      "epoch": 0.3665625,
      "grad_norm": 0.8935902118682861,
      "learning_rate": 0.00021219401856297437,
      "loss": 3.9259,
      "step": 175950
    },
    {
      "epoch": 0.3665833333333333,
      "grad_norm": 0.9149857759475708,
      "learning_rate": 0.00021218504722747883,
      "loss": 3.9045,
      "step": 175960
    },
    {
      "epoch": 0.3666041666666667,
      "grad_norm": 0.8067873120307922,
      "learning_rate": 0.00021217607562336847,
      "loss": 3.9468,
      "step": 175970
    },
    {
      "epoch": 0.366625,
      "grad_norm": 1.0571788549423218,
      "learning_rate": 0.0002121671037506821,
      "loss": 3.8855,
      "step": 175980
    },
    {
      "epoch": 0.36664583333333334,
      "grad_norm": 0.9003515243530273,
      "learning_rate": 0.0002121581316094584,
      "loss": 4.0324,
      "step": 175990
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.7545402646064758,
      "learning_rate": 0.00021214915919973618,
      "loss": 3.9774,
      "step": 176000
    },
    {
      "epoch": 0.36666666666666664,
      "eval_loss": 3.6919312477111816,
      "eval_runtime": 7.2831,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 176000
    },
    {
      "epoch": 0.3666875,
      "grad_norm": 0.8465049862861633,
      "learning_rate": 0.00021214018652155424,
      "loss": 3.8626,
      "step": 176010
    },
    {
      "epoch": 0.36670833333333336,
      "grad_norm": 0.7664018273353577,
      "learning_rate": 0.00021213121357495127,
      "loss": 3.8474,
      "step": 176020
    },
    {
      "epoch": 0.36672916666666666,
      "grad_norm": 0.8121103048324585,
      "learning_rate": 0.00021212224035996603,
      "loss": 3.9029,
      "step": 176030
    },
    {
      "epoch": 0.36675,
      "grad_norm": 0.7684102058410645,
      "learning_rate": 0.00021211326687663735,
      "loss": 4.0383,
      "step": 176040
    },
    {
      "epoch": 0.3667708333333333,
      "grad_norm": 0.7499901056289673,
      "learning_rate": 0.0002121042931250039,
      "loss": 4.0194,
      "step": 176050
    },
    {
      "epoch": 0.3667916666666667,
      "grad_norm": 0.8382344245910645,
      "learning_rate": 0.00021209531910510452,
      "loss": 3.9176,
      "step": 176060
    },
    {
      "epoch": 0.3668125,
      "grad_norm": 0.7893832921981812,
      "learning_rate": 0.00021208634481697792,
      "loss": 4.0284,
      "step": 176070
    },
    {
      "epoch": 0.36683333333333334,
      "grad_norm": 0.7542648911476135,
      "learning_rate": 0.0002120773702606629,
      "loss": 4.0558,
      "step": 176080
    },
    {
      "epoch": 0.36685416666666665,
      "grad_norm": 0.9995589852333069,
      "learning_rate": 0.00021206839543619815,
      "loss": 4.0036,
      "step": 176090
    },
    {
      "epoch": 0.366875,
      "grad_norm": 0.8361140489578247,
      "learning_rate": 0.00021205942034362258,
      "loss": 4.0239,
      "step": 176100
    },
    {
      "epoch": 0.3668958333333333,
      "grad_norm": 0.7892849445343018,
      "learning_rate": 0.00021205044498297484,
      "loss": 3.864,
      "step": 176110
    },
    {
      "epoch": 0.36691666666666667,
      "grad_norm": 0.7655383348464966,
      "learning_rate": 0.00021204146935429374,
      "loss": 4.0188,
      "step": 176120
    },
    {
      "epoch": 0.3669375,
      "grad_norm": 0.7402347922325134,
      "learning_rate": 0.00021203249345761805,
      "loss": 3.9253,
      "step": 176130
    },
    {
      "epoch": 0.36695833333333333,
      "grad_norm": 0.8274865746498108,
      "learning_rate": 0.00021202351729298654,
      "loss": 3.9815,
      "step": 176140
    },
    {
      "epoch": 0.3669791666666667,
      "grad_norm": 1.0418025255203247,
      "learning_rate": 0.000212014540860438,
      "loss": 3.9167,
      "step": 176150
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.9060408473014832,
      "learning_rate": 0.0002120055641600112,
      "loss": 3.9849,
      "step": 176160
    },
    {
      "epoch": 0.36702083333333335,
      "grad_norm": 1.1831544637680054,
      "learning_rate": 0.00021199658719174487,
      "loss": 3.9777,
      "step": 176170
    },
    {
      "epoch": 0.36704166666666665,
      "grad_norm": 0.8429928421974182,
      "learning_rate": 0.0002119876099556779,
      "loss": 3.9123,
      "step": 176180
    },
    {
      "epoch": 0.3670625,
      "grad_norm": 0.8118047118186951,
      "learning_rate": 0.0002119786324518489,
      "loss": 4.0079,
      "step": 176190
    },
    {
      "epoch": 0.3670833333333333,
      "grad_norm": 0.8082947134971619,
      "learning_rate": 0.00021196965468029674,
      "loss": 3.9989,
      "step": 176200
    },
    {
      "epoch": 0.3671041666666667,
      "grad_norm": 0.9338401556015015,
      "learning_rate": 0.0002119606766410603,
      "loss": 3.8883,
      "step": 176210
    },
    {
      "epoch": 0.367125,
      "grad_norm": 0.7597886323928833,
      "learning_rate": 0.00021195169833417818,
      "loss": 3.92,
      "step": 176220
    },
    {
      "epoch": 0.36714583333333334,
      "grad_norm": 0.8606069684028625,
      "learning_rate": 0.00021194271975968925,
      "loss": 3.9237,
      "step": 176230
    },
    {
      "epoch": 0.36716666666666664,
      "grad_norm": 0.7912805676460266,
      "learning_rate": 0.00021193374091763232,
      "loss": 3.9082,
      "step": 176240
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 0.8468950986862183,
      "learning_rate": 0.00021192476180804612,
      "loss": 3.8397,
      "step": 176250
    },
    {
      "epoch": 0.36720833333333336,
      "grad_norm": 0.873825192451477,
      "learning_rate": 0.00021191578243096943,
      "loss": 3.8122,
      "step": 176260
    },
    {
      "epoch": 0.36722916666666666,
      "grad_norm": 0.7644955515861511,
      "learning_rate": 0.00021190680278644115,
      "loss": 4.153,
      "step": 176270
    },
    {
      "epoch": 0.36725,
      "grad_norm": 0.8039023876190186,
      "learning_rate": 0.00021189782287449994,
      "loss": 4.0187,
      "step": 176280
    },
    {
      "epoch": 0.3672708333333333,
      "grad_norm": 0.8394440412521362,
      "learning_rate": 0.0002118888426951846,
      "loss": 4.0125,
      "step": 176290
    },
    {
      "epoch": 0.3672916666666667,
      "grad_norm": 0.711140513420105,
      "learning_rate": 0.00021187986224853407,
      "loss": 3.9373,
      "step": 176300
    },
    {
      "epoch": 0.3673125,
      "grad_norm": 0.9071094989776611,
      "learning_rate": 0.00021187088153458693,
      "loss": 3.8832,
      "step": 176310
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 0.7784954309463501,
      "learning_rate": 0.0002118619005533821,
      "loss": 3.9337,
      "step": 176320
    },
    {
      "epoch": 0.36735416666666665,
      "grad_norm": 0.7832460403442383,
      "learning_rate": 0.00021185291930495833,
      "loss": 4.1184,
      "step": 176330
    },
    {
      "epoch": 0.367375,
      "grad_norm": 0.7967680096626282,
      "learning_rate": 0.00021184393778935447,
      "loss": 4.0777,
      "step": 176340
    },
    {
      "epoch": 0.3673958333333333,
      "grad_norm": 0.8077012896537781,
      "learning_rate": 0.00021183495600660924,
      "loss": 3.8937,
      "step": 176350
    },
    {
      "epoch": 0.36741666666666667,
      "grad_norm": 0.7638115286827087,
      "learning_rate": 0.00021182597395676147,
      "loss": 4.0027,
      "step": 176360
    },
    {
      "epoch": 0.3674375,
      "grad_norm": 1.1542775630950928,
      "learning_rate": 0.00021181699163984997,
      "loss": 4.0904,
      "step": 176370
    },
    {
      "epoch": 0.36745833333333333,
      "grad_norm": 0.8091464638710022,
      "learning_rate": 0.00021180800905591361,
      "loss": 3.9568,
      "step": 176380
    },
    {
      "epoch": 0.3674791666666667,
      "grad_norm": 0.803480327129364,
      "learning_rate": 0.000211799026204991,
      "loss": 3.8004,
      "step": 176390
    },
    {
      "epoch": 0.3675,
      "grad_norm": 0.7369893193244934,
      "learning_rate": 0.00021179004308712111,
      "loss": 3.9529,
      "step": 176400
    },
    {
      "epoch": 0.36752083333333335,
      "grad_norm": 0.7713267803192139,
      "learning_rate": 0.00021178105970234276,
      "loss": 4.1616,
      "step": 176410
    },
    {
      "epoch": 0.36754166666666666,
      "grad_norm": 0.9191179871559143,
      "learning_rate": 0.0002117720760506946,
      "loss": 3.95,
      "step": 176420
    },
    {
      "epoch": 0.3675625,
      "grad_norm": 0.941559374332428,
      "learning_rate": 0.00021176309213221552,
      "loss": 4.0823,
      "step": 176430
    },
    {
      "epoch": 0.3675833333333333,
      "grad_norm": 0.8984529972076416,
      "learning_rate": 0.00021175410794694438,
      "loss": 4.0758,
      "step": 176440
    },
    {
      "epoch": 0.3676041666666667,
      "grad_norm": 0.8309162259101868,
      "learning_rate": 0.0002117451234949199,
      "loss": 3.73,
      "step": 176450
    },
    {
      "epoch": 0.367625,
      "grad_norm": 0.7520968317985535,
      "learning_rate": 0.00021173613877618094,
      "loss": 4.1292,
      "step": 176460
    },
    {
      "epoch": 0.36764583333333334,
      "grad_norm": 0.817851722240448,
      "learning_rate": 0.00021172715379076632,
      "loss": 3.8489,
      "step": 176470
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 0.786117672920227,
      "learning_rate": 0.00021171816853871479,
      "loss": 4.2694,
      "step": 176480
    },
    {
      "epoch": 0.3676875,
      "grad_norm": 0.8662645816802979,
      "learning_rate": 0.0002117091830200652,
      "loss": 4.2287,
      "step": 176490
    },
    {
      "epoch": 0.36770833333333336,
      "grad_norm": 0.7368738055229187,
      "learning_rate": 0.0002117001972348564,
      "loss": 3.9557,
      "step": 176500
    },
    {
      "epoch": 0.36772916666666666,
      "grad_norm": 0.7601708769798279,
      "learning_rate": 0.00021169121118312718,
      "loss": 3.9725,
      "step": 176510
    },
    {
      "epoch": 0.36775,
      "grad_norm": 0.8688493967056274,
      "learning_rate": 0.00021168222486491628,
      "loss": 4.0178,
      "step": 176520
    },
    {
      "epoch": 0.3677708333333333,
      "grad_norm": 0.7594674229621887,
      "learning_rate": 0.00021167323828026266,
      "loss": 3.8065,
      "step": 176530
    },
    {
      "epoch": 0.3677916666666667,
      "grad_norm": 0.8579002022743225,
      "learning_rate": 0.000211664251429205,
      "loss": 3.9626,
      "step": 176540
    },
    {
      "epoch": 0.3678125,
      "grad_norm": 0.9374122619628906,
      "learning_rate": 0.00021165526431178225,
      "loss": 3.9769,
      "step": 176550
    },
    {
      "epoch": 0.36783333333333335,
      "grad_norm": 0.9291719794273376,
      "learning_rate": 0.00021164627692803306,
      "loss": 3.9505,
      "step": 176560
    },
    {
      "epoch": 0.36785416666666665,
      "grad_norm": 0.7354142069816589,
      "learning_rate": 0.00021163728927799645,
      "loss": 3.9827,
      "step": 176570
    },
    {
      "epoch": 0.367875,
      "grad_norm": 0.9969772100448608,
      "learning_rate": 0.00021162830136171114,
      "loss": 3.9337,
      "step": 176580
    },
    {
      "epoch": 0.3678958333333333,
      "grad_norm": 0.7786478996276855,
      "learning_rate": 0.0002116193131792159,
      "loss": 3.942,
      "step": 176590
    },
    {
      "epoch": 0.36791666666666667,
      "grad_norm": 0.7652330994606018,
      "learning_rate": 0.00021161032473054965,
      "loss": 3.9433,
      "step": 176600
    },
    {
      "epoch": 0.3679375,
      "grad_norm": 0.7996119260787964,
      "learning_rate": 0.00021160133601575123,
      "loss": 4.0355,
      "step": 176610
    },
    {
      "epoch": 0.36795833333333333,
      "grad_norm": 0.7861505746841431,
      "learning_rate": 0.00021159234703485938,
      "loss": 4.0996,
      "step": 176620
    },
    {
      "epoch": 0.3679791666666667,
      "grad_norm": 0.7258186936378479,
      "learning_rate": 0.00021158335778791298,
      "loss": 3.7987,
      "step": 176630
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.8074670433998108,
      "learning_rate": 0.00021157436827495084,
      "loss": 4.005,
      "step": 176640
    },
    {
      "epoch": 0.36802083333333335,
      "grad_norm": 0.8305922150611877,
      "learning_rate": 0.0002115653784960118,
      "loss": 3.7939,
      "step": 176650
    },
    {
      "epoch": 0.36804166666666666,
      "grad_norm": 0.7748121619224548,
      "learning_rate": 0.0002115563884511347,
      "loss": 4.0188,
      "step": 176660
    },
    {
      "epoch": 0.3680625,
      "grad_norm": 0.8397087454795837,
      "learning_rate": 0.00021154739814035835,
      "loss": 3.9835,
      "step": 176670
    },
    {
      "epoch": 0.3680833333333333,
      "grad_norm": 0.7868776917457581,
      "learning_rate": 0.00021153840756372162,
      "loss": 3.9868,
      "step": 176680
    },
    {
      "epoch": 0.3681041666666667,
      "grad_norm": 0.7994204163551331,
      "learning_rate": 0.00021152941672126333,
      "loss": 3.8651,
      "step": 176690
    },
    {
      "epoch": 0.368125,
      "grad_norm": 0.7870776653289795,
      "learning_rate": 0.0002115204256130223,
      "loss": 3.9403,
      "step": 176700
    },
    {
      "epoch": 0.36814583333333334,
      "grad_norm": 0.836442232131958,
      "learning_rate": 0.00021151143423903742,
      "loss": 3.8964,
      "step": 176710
    },
    {
      "epoch": 0.36816666666666664,
      "grad_norm": 0.753445029258728,
      "learning_rate": 0.00021150244259934747,
      "loss": 3.9314,
      "step": 176720
    },
    {
      "epoch": 0.3681875,
      "grad_norm": 0.8479573726654053,
      "learning_rate": 0.00021149345069399129,
      "loss": 4.0312,
      "step": 176730
    },
    {
      "epoch": 0.36820833333333336,
      "grad_norm": 0.8801167607307434,
      "learning_rate": 0.00021148445852300777,
      "loss": 3.8746,
      "step": 176740
    },
    {
      "epoch": 0.36822916666666666,
      "grad_norm": 0.8226267695426941,
      "learning_rate": 0.00021147546608643573,
      "loss": 3.9941,
      "step": 176750
    },
    {
      "epoch": 0.36825,
      "grad_norm": 0.8140013813972473,
      "learning_rate": 0.00021146647338431395,
      "loss": 3.9083,
      "step": 176760
    },
    {
      "epoch": 0.3682708333333333,
      "grad_norm": 0.8549817800521851,
      "learning_rate": 0.00021145748041668142,
      "loss": 3.8678,
      "step": 176770
    },
    {
      "epoch": 0.3682916666666667,
      "grad_norm": 0.7820525169372559,
      "learning_rate": 0.00021144848718357689,
      "loss": 3.9497,
      "step": 176780
    },
    {
      "epoch": 0.3683125,
      "grad_norm": 0.8103393912315369,
      "learning_rate": 0.00021143949368503914,
      "loss": 3.9269,
      "step": 176790
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 0.8373181223869324,
      "learning_rate": 0.0002114304999211072,
      "loss": 4.0153,
      "step": 176800
    },
    {
      "epoch": 0.36835416666666665,
      "grad_norm": 0.846218466758728,
      "learning_rate": 0.00021142150589181975,
      "loss": 4.0693,
      "step": 176810
    },
    {
      "epoch": 0.368375,
      "grad_norm": 0.7956348657608032,
      "learning_rate": 0.00021141251159721572,
      "loss": 3.8374,
      "step": 176820
    },
    {
      "epoch": 0.3683958333333333,
      "grad_norm": 0.8409094214439392,
      "learning_rate": 0.00021140351703733394,
      "loss": 3.9744,
      "step": 176830
    },
    {
      "epoch": 0.36841666666666667,
      "grad_norm": 0.8797431588172913,
      "learning_rate": 0.0002113945222122133,
      "loss": 4.0421,
      "step": 176840
    },
    {
      "epoch": 0.3684375,
      "grad_norm": 0.8695449233055115,
      "learning_rate": 0.00021138552712189263,
      "loss": 3.8536,
      "step": 176850
    },
    {
      "epoch": 0.36845833333333333,
      "grad_norm": 0.7960951328277588,
      "learning_rate": 0.00021137653176641073,
      "loss": 4.056,
      "step": 176860
    },
    {
      "epoch": 0.3684791666666667,
      "grad_norm": 0.7758358120918274,
      "learning_rate": 0.00021136753614580655,
      "loss": 3.9394,
      "step": 176870
    },
    {
      "epoch": 0.3685,
      "grad_norm": 0.7885096073150635,
      "learning_rate": 0.00021135854026011887,
      "loss": 3.8768,
      "step": 176880
    },
    {
      "epoch": 0.36852083333333335,
      "grad_norm": 0.757646381855011,
      "learning_rate": 0.00021134954410938661,
      "loss": 4.0939,
      "step": 176890
    },
    {
      "epoch": 0.36854166666666666,
      "grad_norm": 0.8229901790618896,
      "learning_rate": 0.0002113405476936486,
      "loss": 3.9549,
      "step": 176900
    },
    {
      "epoch": 0.3685625,
      "grad_norm": 0.8340992331504822,
      "learning_rate": 0.00021133155101294373,
      "loss": 3.8434,
      "step": 176910
    },
    {
      "epoch": 0.3685833333333333,
      "grad_norm": 0.7569010853767395,
      "learning_rate": 0.0002113225540673108,
      "loss": 3.9369,
      "step": 176920
    },
    {
      "epoch": 0.3686041666666667,
      "grad_norm": 0.7471826672554016,
      "learning_rate": 0.00021131355685678874,
      "loss": 3.9918,
      "step": 176930
    },
    {
      "epoch": 0.368625,
      "grad_norm": 0.7942003607749939,
      "learning_rate": 0.00021130455938141637,
      "loss": 4.0563,
      "step": 176940
    },
    {
      "epoch": 0.36864583333333334,
      "grad_norm": 0.7939067482948303,
      "learning_rate": 0.00021129556164123253,
      "loss": 3.8992,
      "step": 176950
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 0.7821951508522034,
      "learning_rate": 0.00021128656363627614,
      "loss": 3.9042,
      "step": 176960
    },
    {
      "epoch": 0.3686875,
      "grad_norm": 0.7753973007202148,
      "learning_rate": 0.0002112775653665861,
      "loss": 4.1092,
      "step": 176970
    },
    {
      "epoch": 0.36870833333333336,
      "grad_norm": 0.7529047131538391,
      "learning_rate": 0.00021126856683220124,
      "loss": 3.8645,
      "step": 176980
    },
    {
      "epoch": 0.36872916666666666,
      "grad_norm": 0.9373413324356079,
      "learning_rate": 0.00021125956803316032,
      "loss": 3.9949,
      "step": 176990
    },
    {
      "epoch": 0.36875,
      "grad_norm": 0.8899666666984558,
      "learning_rate": 0.0002112505689695024,
      "loss": 3.8443,
      "step": 177000
    },
    {
      "epoch": 0.36875,
      "eval_loss": 3.6835544109344482,
      "eval_runtime": 7.3054,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 177000
    },
    {
      "epoch": 0.3687708333333333,
      "grad_norm": 0.8526063561439514,
      "learning_rate": 0.00021124156964126626,
      "loss": 4.0189,
      "step": 177010
    },
    {
      "epoch": 0.3687916666666667,
      "grad_norm": 0.8359894156455994,
      "learning_rate": 0.00021123257004849078,
      "loss": 3.9104,
      "step": 177020
    },
    {
      "epoch": 0.3688125,
      "grad_norm": 0.8587720394134521,
      "learning_rate": 0.00021122357019121482,
      "loss": 4.114,
      "step": 177030
    },
    {
      "epoch": 0.36883333333333335,
      "grad_norm": 0.8005301356315613,
      "learning_rate": 0.0002112145700694773,
      "loss": 4.1265,
      "step": 177040
    },
    {
      "epoch": 0.36885416666666665,
      "grad_norm": 0.869875967502594,
      "learning_rate": 0.00021120556968331702,
      "loss": 3.8778,
      "step": 177050
    },
    {
      "epoch": 0.368875,
      "grad_norm": 0.8531376123428345,
      "learning_rate": 0.00021119656903277292,
      "loss": 4.2426,
      "step": 177060
    },
    {
      "epoch": 0.3688958333333333,
      "grad_norm": 1.9735727310180664,
      "learning_rate": 0.0002111875681178839,
      "loss": 3.9185,
      "step": 177070
    },
    {
      "epoch": 0.36891666666666667,
      "grad_norm": 0.7486052513122559,
      "learning_rate": 0.00021117856693868877,
      "loss": 3.9102,
      "step": 177080
    },
    {
      "epoch": 0.3689375,
      "grad_norm": 0.8496405482292175,
      "learning_rate": 0.00021116956549522645,
      "loss": 3.9356,
      "step": 177090
    },
    {
      "epoch": 0.36895833333333333,
      "grad_norm": 0.7474111318588257,
      "learning_rate": 0.00021116056378753584,
      "loss": 4.0761,
      "step": 177100
    },
    {
      "epoch": 0.3689791666666667,
      "grad_norm": 0.8069788813591003,
      "learning_rate": 0.00021115156181565582,
      "loss": 4.0916,
      "step": 177110
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.8499610424041748,
      "learning_rate": 0.00021114255957962522,
      "loss": 4.2099,
      "step": 177120
    },
    {
      "epoch": 0.36902083333333335,
      "grad_norm": 0.8863978385925293,
      "learning_rate": 0.00021113355707948295,
      "loss": 3.8802,
      "step": 177130
    },
    {
      "epoch": 0.36904166666666666,
      "grad_norm": 0.7994982004165649,
      "learning_rate": 0.00021112455431526796,
      "loss": 3.9502,
      "step": 177140
    },
    {
      "epoch": 0.3690625,
      "grad_norm": 0.9029748439788818,
      "learning_rate": 0.00021111555128701905,
      "loss": 4.0635,
      "step": 177150
    },
    {
      "epoch": 0.3690833333333333,
      "grad_norm": 0.7462756633758545,
      "learning_rate": 0.00021110654799477515,
      "loss": 4.1086,
      "step": 177160
    },
    {
      "epoch": 0.3691041666666667,
      "grad_norm": 0.792310357093811,
      "learning_rate": 0.00021109754443857518,
      "loss": 3.9702,
      "step": 177170
    },
    {
      "epoch": 0.369125,
      "grad_norm": 0.9631176590919495,
      "learning_rate": 0.00021108854061845797,
      "loss": 3.8331,
      "step": 177180
    },
    {
      "epoch": 0.36914583333333334,
      "grad_norm": 0.8832253813743591,
      "learning_rate": 0.00021107953653446248,
      "loss": 4.0794,
      "step": 177190
    },
    {
      "epoch": 0.36916666666666664,
      "grad_norm": 0.7814086675643921,
      "learning_rate": 0.00021107053218662755,
      "loss": 3.9327,
      "step": 177200
    },
    {
      "epoch": 0.3691875,
      "grad_norm": 0.8462542295455933,
      "learning_rate": 0.0002110615275749921,
      "loss": 4.0463,
      "step": 177210
    },
    {
      "epoch": 0.36920833333333336,
      "grad_norm": 0.8948476910591125,
      "learning_rate": 0.00021105252269959502,
      "loss": 4.0427,
      "step": 177220
    },
    {
      "epoch": 0.36922916666666666,
      "grad_norm": 0.8020244836807251,
      "learning_rate": 0.0002110435175604752,
      "loss": 4.1111,
      "step": 177230
    },
    {
      "epoch": 0.36925,
      "grad_norm": 0.8001309037208557,
      "learning_rate": 0.00021103451215767155,
      "loss": 4.081,
      "step": 177240
    },
    {
      "epoch": 0.3692708333333333,
      "grad_norm": 0.7944003939628601,
      "learning_rate": 0.00021102550649122298,
      "loss": 3.8087,
      "step": 177250
    },
    {
      "epoch": 0.3692916666666667,
      "grad_norm": 0.809441864490509,
      "learning_rate": 0.00021101650056116835,
      "loss": 4.0963,
      "step": 177260
    },
    {
      "epoch": 0.3693125,
      "grad_norm": 0.9456585049629211,
      "learning_rate": 0.0002110074943675466,
      "loss": 4.0383,
      "step": 177270
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 0.8591779470443726,
      "learning_rate": 0.00021099848791039666,
      "loss": 4.1921,
      "step": 177280
    },
    {
      "epoch": 0.36935416666666665,
      "grad_norm": 0.8467752933502197,
      "learning_rate": 0.00021098948118975733,
      "loss": 3.8685,
      "step": 177290
    },
    {
      "epoch": 0.369375,
      "grad_norm": 0.9081945419311523,
      "learning_rate": 0.0002109804742056676,
      "loss": 3.7651,
      "step": 177300
    },
    {
      "epoch": 0.3693958333333333,
      "grad_norm": 0.8310834169387817,
      "learning_rate": 0.0002109714669581664,
      "loss": 3.9977,
      "step": 177310
    },
    {
      "epoch": 0.36941666666666667,
      "grad_norm": 0.8513814806938171,
      "learning_rate": 0.00021096245944729258,
      "loss": 4.0128,
      "step": 177320
    },
    {
      "epoch": 0.3694375,
      "grad_norm": 0.7185007333755493,
      "learning_rate": 0.00021095345167308503,
      "loss": 3.847,
      "step": 177330
    },
    {
      "epoch": 0.36945833333333333,
      "grad_norm": 0.9030932784080505,
      "learning_rate": 0.00021094444363558277,
      "loss": 3.8659,
      "step": 177340
    },
    {
      "epoch": 0.3694791666666667,
      "grad_norm": 0.76188725233078,
      "learning_rate": 0.0002109354353348246,
      "loss": 3.9968,
      "step": 177350
    },
    {
      "epoch": 0.3695,
      "grad_norm": 0.9247029423713684,
      "learning_rate": 0.00021092642677084943,
      "loss": 3.9801,
      "step": 177360
    },
    {
      "epoch": 0.36952083333333335,
      "grad_norm": 0.7388356924057007,
      "learning_rate": 0.00021091741794369625,
      "loss": 3.7956,
      "step": 177370
    },
    {
      "epoch": 0.36954166666666666,
      "grad_norm": 0.7867369651794434,
      "learning_rate": 0.00021090840885340393,
      "loss": 3.9005,
      "step": 177380
    },
    {
      "epoch": 0.3695625,
      "grad_norm": 0.8286319971084595,
      "learning_rate": 0.0002108993995000114,
      "loss": 3.9441,
      "step": 177390
    },
    {
      "epoch": 0.3695833333333333,
      "grad_norm": 0.7760875821113586,
      "learning_rate": 0.00021089038988355758,
      "loss": 4.0128,
      "step": 177400
    },
    {
      "epoch": 0.3696041666666667,
      "grad_norm": 0.8728229999542236,
      "learning_rate": 0.00021088138000408135,
      "loss": 4.0454,
      "step": 177410
    },
    {
      "epoch": 0.369625,
      "grad_norm": 0.849589467048645,
      "learning_rate": 0.00021087236986162166,
      "loss": 4.0618,
      "step": 177420
    },
    {
      "epoch": 0.36964583333333334,
      "grad_norm": 0.8542487621307373,
      "learning_rate": 0.0002108633594562174,
      "loss": 3.9784,
      "step": 177430
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 0.8551609516143799,
      "learning_rate": 0.00021085434878790758,
      "loss": 3.9787,
      "step": 177440
    },
    {
      "epoch": 0.3696875,
      "grad_norm": 0.8098278045654297,
      "learning_rate": 0.00021084533785673107,
      "loss": 4.1827,
      "step": 177450
    },
    {
      "epoch": 0.36970833333333336,
      "grad_norm": 0.8248772025108337,
      "learning_rate": 0.0002108363266627267,
      "loss": 4.0779,
      "step": 177460
    },
    {
      "epoch": 0.36972916666666666,
      "grad_norm": 0.8027164340019226,
      "learning_rate": 0.00021082731520593356,
      "loss": 4.2375,
      "step": 177470
    },
    {
      "epoch": 0.36975,
      "grad_norm": 0.805881679058075,
      "learning_rate": 0.0002108183034863905,
      "loss": 4.0948,
      "step": 177480
    },
    {
      "epoch": 0.3697708333333333,
      "grad_norm": 0.8941742777824402,
      "learning_rate": 0.00021080929150413637,
      "loss": 4.1243,
      "step": 177490
    },
    {
      "epoch": 0.3697916666666667,
      "grad_norm": 0.8676363229751587,
      "learning_rate": 0.00021080027925921024,
      "loss": 3.9448,
      "step": 177500
    },
    {
      "epoch": 0.3698125,
      "grad_norm": 0.8368641138076782,
      "learning_rate": 0.00021079126675165093,
      "loss": 3.8729,
      "step": 177510
    },
    {
      "epoch": 0.36983333333333335,
      "grad_norm": 0.7598786950111389,
      "learning_rate": 0.0002107822539814974,
      "loss": 4.2525,
      "step": 177520
    },
    {
      "epoch": 0.36985416666666665,
      "grad_norm": 0.7819368243217468,
      "learning_rate": 0.00021077324094878863,
      "loss": 3.9965,
      "step": 177530
    },
    {
      "epoch": 0.369875,
      "grad_norm": 0.8177188038825989,
      "learning_rate": 0.00021076422765356348,
      "loss": 3.9662,
      "step": 177540
    },
    {
      "epoch": 0.3698958333333333,
      "grad_norm": 0.8555911779403687,
      "learning_rate": 0.00021075521409586096,
      "loss": 4.0393,
      "step": 177550
    },
    {
      "epoch": 0.36991666666666667,
      "grad_norm": 0.7285282015800476,
      "learning_rate": 0.00021074620027571994,
      "loss": 3.8771,
      "step": 177560
    },
    {
      "epoch": 0.3699375,
      "grad_norm": 0.8558883666992188,
      "learning_rate": 0.00021073718619317935,
      "loss": 3.9843,
      "step": 177570
    },
    {
      "epoch": 0.36995833333333333,
      "grad_norm": 0.8817157745361328,
      "learning_rate": 0.00021072817184827818,
      "loss": 3.898,
      "step": 177580
    },
    {
      "epoch": 0.3699791666666667,
      "grad_norm": 0.7856810092926025,
      "learning_rate": 0.00021071915724105535,
      "loss": 4.037,
      "step": 177590
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7755399942398071,
      "learning_rate": 0.00021071014237154982,
      "loss": 3.9159,
      "step": 177600
    },
    {
      "epoch": 0.37002083333333335,
      "grad_norm": 0.8022634983062744,
      "learning_rate": 0.00021070112723980047,
      "loss": 3.8648,
      "step": 177610
    },
    {
      "epoch": 0.37004166666666666,
      "grad_norm": 0.7740858197212219,
      "learning_rate": 0.0002106921118458463,
      "loss": 3.8096,
      "step": 177620
    },
    {
      "epoch": 0.3700625,
      "grad_norm": 0.8106473684310913,
      "learning_rate": 0.0002106830961897262,
      "loss": 4.0396,
      "step": 177630
    },
    {
      "epoch": 0.3700833333333333,
      "grad_norm": 0.746667742729187,
      "learning_rate": 0.00021067408027147916,
      "loss": 3.8448,
      "step": 177640
    },
    {
      "epoch": 0.3701041666666667,
      "grad_norm": 0.7521819472312927,
      "learning_rate": 0.00021066506409114417,
      "loss": 3.9579,
      "step": 177650
    },
    {
      "epoch": 0.370125,
      "grad_norm": 0.8118708729743958,
      "learning_rate": 0.00021065604764876,
      "loss": 4.0773,
      "step": 177660
    },
    {
      "epoch": 0.37014583333333334,
      "grad_norm": 0.8278580904006958,
      "learning_rate": 0.0002106470309443658,
      "loss": 4.0582,
      "step": 177670
    },
    {
      "epoch": 0.37016666666666664,
      "grad_norm": 0.7882925868034363,
      "learning_rate": 0.0002106380139780004,
      "loss": 3.9769,
      "step": 177680
    },
    {
      "epoch": 0.3701875,
      "grad_norm": 0.7994348406791687,
      "learning_rate": 0.0002106289967497028,
      "loss": 4.0267,
      "step": 177690
    },
    {
      "epoch": 0.3702083333333333,
      "grad_norm": 0.8851521611213684,
      "learning_rate": 0.0002106199792595119,
      "loss": 4.0353,
      "step": 177700
    },
    {
      "epoch": 0.37022916666666666,
      "grad_norm": 0.8237040042877197,
      "learning_rate": 0.0002106109615074667,
      "loss": 3.9959,
      "step": 177710
    },
    {
      "epoch": 0.37025,
      "grad_norm": 0.7337245345115662,
      "learning_rate": 0.00021060194349360614,
      "loss": 4.0786,
      "step": 177720
    },
    {
      "epoch": 0.3702708333333333,
      "grad_norm": 0.753614604473114,
      "learning_rate": 0.0002105929252179692,
      "loss": 3.9471,
      "step": 177730
    },
    {
      "epoch": 0.3702916666666667,
      "grad_norm": 0.751871645450592,
      "learning_rate": 0.00021058390668059475,
      "loss": 3.9834,
      "step": 177740
    },
    {
      "epoch": 0.3703125,
      "grad_norm": 0.8667337894439697,
      "learning_rate": 0.00021057488788152182,
      "loss": 4.0633,
      "step": 177750
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 0.8053142428398132,
      "learning_rate": 0.0002105658688207894,
      "loss": 4.1051,
      "step": 177760
    },
    {
      "epoch": 0.37035416666666665,
      "grad_norm": 0.8702206611633301,
      "learning_rate": 0.00021055684949843637,
      "loss": 4.0414,
      "step": 177770
    },
    {
      "epoch": 0.370375,
      "grad_norm": 1.0001949071884155,
      "learning_rate": 0.0002105478299145017,
      "loss": 3.7674,
      "step": 177780
    },
    {
      "epoch": 0.3703958333333333,
      "grad_norm": 0.7656511664390564,
      "learning_rate": 0.0002105388100690244,
      "loss": 3.8614,
      "step": 177790
    },
    {
      "epoch": 0.37041666666666667,
      "grad_norm": 0.8256453275680542,
      "learning_rate": 0.0002105297899620434,
      "loss": 3.9694,
      "step": 177800
    },
    {
      "epoch": 0.3704375,
      "grad_norm": 0.813403844833374,
      "learning_rate": 0.00021052076959359768,
      "loss": 4.0923,
      "step": 177810
    },
    {
      "epoch": 0.37045833333333333,
      "grad_norm": 0.8059887886047363,
      "learning_rate": 0.00021051174896372617,
      "loss": 3.7516,
      "step": 177820
    },
    {
      "epoch": 0.3704791666666667,
      "grad_norm": 0.7776246070861816,
      "learning_rate": 0.00021050272807246785,
      "loss": 3.9612,
      "step": 177830
    },
    {
      "epoch": 0.3705,
      "grad_norm": 0.834709644317627,
      "learning_rate": 0.00021049370691986172,
      "loss": 3.9214,
      "step": 177840
    },
    {
      "epoch": 0.37052083333333335,
      "grad_norm": 0.7607904672622681,
      "learning_rate": 0.00021048468550594667,
      "loss": 3.9798,
      "step": 177850
    },
    {
      "epoch": 0.37054166666666666,
      "grad_norm": 0.7513789534568787,
      "learning_rate": 0.00021047566383076174,
      "loss": 3.9554,
      "step": 177860
    },
    {
      "epoch": 0.3705625,
      "grad_norm": 0.7750254273414612,
      "learning_rate": 0.0002104666418943459,
      "loss": 4.0034,
      "step": 177870
    },
    {
      "epoch": 0.3705833333333333,
      "grad_norm": 0.9230775833129883,
      "learning_rate": 0.0002104576196967381,
      "loss": 3.8857,
      "step": 177880
    },
    {
      "epoch": 0.3706041666666667,
      "grad_norm": 1.0088438987731934,
      "learning_rate": 0.00021044859723797732,
      "loss": 3.9685,
      "step": 177890
    },
    {
      "epoch": 0.370625,
      "grad_norm": 0.838676393032074,
      "learning_rate": 0.0002104395745181025,
      "loss": 3.8757,
      "step": 177900
    },
    {
      "epoch": 0.37064583333333334,
      "grad_norm": 0.8037911057472229,
      "learning_rate": 0.00021043055153715268,
      "loss": 3.9727,
      "step": 177910
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 0.7552275657653809,
      "learning_rate": 0.00021042152829516675,
      "loss": 3.8324,
      "step": 177920
    },
    {
      "epoch": 0.3706875,
      "grad_norm": 0.7248891592025757,
      "learning_rate": 0.00021041250479218377,
      "loss": 3.67,
      "step": 177930
    },
    {
      "epoch": 0.3707083333333333,
      "grad_norm": 0.8880366086959839,
      "learning_rate": 0.00021040348102824264,
      "loss": 4.055,
      "step": 177940
    },
    {
      "epoch": 0.37072916666666667,
      "grad_norm": 0.7998579144477844,
      "learning_rate": 0.00021039445700338246,
      "loss": 3.988,
      "step": 177950
    },
    {
      "epoch": 0.37075,
      "grad_norm": 0.8317050933837891,
      "learning_rate": 0.00021038543271764205,
      "loss": 3.8782,
      "step": 177960
    },
    {
      "epoch": 0.3707708333333333,
      "grad_norm": 0.7854005694389343,
      "learning_rate": 0.00021037640817106053,
      "loss": 3.8287,
      "step": 177970
    },
    {
      "epoch": 0.3707916666666667,
      "grad_norm": 0.9334375262260437,
      "learning_rate": 0.0002103673833636768,
      "loss": 4.0645,
      "step": 177980
    },
    {
      "epoch": 0.3708125,
      "grad_norm": 0.8394498229026794,
      "learning_rate": 0.00021035835829552984,
      "loss": 4.0526,
      "step": 177990
    },
    {
      "epoch": 0.37083333333333335,
      "grad_norm": 0.7573537826538086,
      "learning_rate": 0.0002103493329666587,
      "loss": 3.8834,
      "step": 178000
    },
    {
      "epoch": 0.37083333333333335,
      "eval_loss": 3.674541473388672,
      "eval_runtime": 6.818,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.44,
      "step": 178000
    },
    {
      "epoch": 0.37085416666666665,
      "grad_norm": 1.1279339790344238,
      "learning_rate": 0.00021034030737710234,
      "loss": 4.0674,
      "step": 178010
    },
    {
      "epoch": 0.370875,
      "grad_norm": 0.9010765552520752,
      "learning_rate": 0.00021033128152689974,
      "loss": 4.1091,
      "step": 178020
    },
    {
      "epoch": 0.3708958333333333,
      "grad_norm": 0.8496131896972656,
      "learning_rate": 0.00021032225541608982,
      "loss": 3.8072,
      "step": 178030
    },
    {
      "epoch": 0.3709166666666667,
      "grad_norm": 0.8872792720794678,
      "learning_rate": 0.0002103132290447117,
      "loss": 3.9069,
      "step": 178040
    },
    {
      "epoch": 0.3709375,
      "grad_norm": 0.7368234992027283,
      "learning_rate": 0.0002103042024128043,
      "loss": 3.839,
      "step": 178050
    },
    {
      "epoch": 0.37095833333333333,
      "grad_norm": 0.8254014253616333,
      "learning_rate": 0.00021029517552040658,
      "loss": 4.1172,
      "step": 178060
    },
    {
      "epoch": 0.3709791666666667,
      "grad_norm": 0.7662582397460938,
      "learning_rate": 0.0002102861483675576,
      "loss": 4.1197,
      "step": 178070
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.756393551826477,
      "learning_rate": 0.0002102771209542963,
      "loss": 4.0354,
      "step": 178080
    },
    {
      "epoch": 0.37102083333333336,
      "grad_norm": 0.7676142454147339,
      "learning_rate": 0.00021026809328066168,
      "loss": 3.9619,
      "step": 178090
    },
    {
      "epoch": 0.37104166666666666,
      "grad_norm": 0.9107429385185242,
      "learning_rate": 0.00021025906534669279,
      "loss": 3.9439,
      "step": 178100
    },
    {
      "epoch": 0.3710625,
      "grad_norm": 0.7828434705734253,
      "learning_rate": 0.00021025003715242858,
      "loss": 4.082,
      "step": 178110
    },
    {
      "epoch": 0.3710833333333333,
      "grad_norm": 0.791207492351532,
      "learning_rate": 0.00021024100869790807,
      "loss": 3.9158,
      "step": 178120
    },
    {
      "epoch": 0.3711041666666667,
      "grad_norm": 0.850511908531189,
      "learning_rate": 0.0002102319799831702,
      "loss": 3.9157,
      "step": 178130
    },
    {
      "epoch": 0.371125,
      "grad_norm": 0.9274051785469055,
      "learning_rate": 0.00021022295100825403,
      "loss": 4.0148,
      "step": 178140
    },
    {
      "epoch": 0.37114583333333334,
      "grad_norm": 0.9730486869812012,
      "learning_rate": 0.00021021392177319862,
      "loss": 3.7699,
      "step": 178150
    },
    {
      "epoch": 0.37116666666666664,
      "grad_norm": 0.9645429253578186,
      "learning_rate": 0.00021020489227804282,
      "loss": 3.9582,
      "step": 178160
    },
    {
      "epoch": 0.3711875,
      "grad_norm": 0.7833570837974548,
      "learning_rate": 0.00021019586252282575,
      "loss": 4.0383,
      "step": 178170
    },
    {
      "epoch": 0.3712083333333333,
      "grad_norm": 0.8075218796730042,
      "learning_rate": 0.00021018683250758642,
      "loss": 3.9848,
      "step": 178180
    },
    {
      "epoch": 0.37122916666666667,
      "grad_norm": 0.7849200367927551,
      "learning_rate": 0.00021017780223236374,
      "loss": 3.9627,
      "step": 178190
    },
    {
      "epoch": 0.37125,
      "grad_norm": 0.8517335653305054,
      "learning_rate": 0.00021016877169719676,
      "loss": 4.0916,
      "step": 178200
    },
    {
      "epoch": 0.3712708333333333,
      "grad_norm": 0.7889776229858398,
      "learning_rate": 0.00021015974090212456,
      "loss": 3.9395,
      "step": 178210
    },
    {
      "epoch": 0.3712916666666667,
      "grad_norm": 0.8145193457603455,
      "learning_rate": 0.0002101507098471861,
      "loss": 3.7994,
      "step": 178220
    },
    {
      "epoch": 0.3713125,
      "grad_norm": 0.8438712954521179,
      "learning_rate": 0.00021014167853242028,
      "loss": 4.1072,
      "step": 178230
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 0.75578373670578,
      "learning_rate": 0.00021013264695786632,
      "loss": 3.9756,
      "step": 178240
    },
    {
      "epoch": 0.37135416666666665,
      "grad_norm": 0.8152165412902832,
      "learning_rate": 0.00021012361512356308,
      "loss": 4.1247,
      "step": 178250
    },
    {
      "epoch": 0.371375,
      "grad_norm": 0.8906006813049316,
      "learning_rate": 0.00021011458302954965,
      "loss": 4.0832,
      "step": 178260
    },
    {
      "epoch": 0.3713958333333333,
      "grad_norm": 0.9236748814582825,
      "learning_rate": 0.000210105550675865,
      "loss": 3.9435,
      "step": 178270
    },
    {
      "epoch": 0.3714166666666667,
      "grad_norm": 0.8522821664810181,
      "learning_rate": 0.00021009651806254816,
      "loss": 3.8475,
      "step": 178280
    },
    {
      "epoch": 0.3714375,
      "grad_norm": 0.7613406777381897,
      "learning_rate": 0.00021008748518963814,
      "loss": 3.8129,
      "step": 178290
    },
    {
      "epoch": 0.37145833333333333,
      "grad_norm": 0.8009233474731445,
      "learning_rate": 0.00021007845205717396,
      "loss": 4.1095,
      "step": 178300
    },
    {
      "epoch": 0.3714791666666667,
      "grad_norm": 0.7992208003997803,
      "learning_rate": 0.00021006941866519467,
      "loss": 3.9585,
      "step": 178310
    },
    {
      "epoch": 0.3715,
      "grad_norm": 0.8013927936553955,
      "learning_rate": 0.00021006038501373932,
      "loss": 3.7717,
      "step": 178320
    },
    {
      "epoch": 0.37152083333333336,
      "grad_norm": 0.8041297793388367,
      "learning_rate": 0.00021005135110284677,
      "loss": 4.1671,
      "step": 178330
    },
    {
      "epoch": 0.37154166666666666,
      "grad_norm": 0.749431312084198,
      "learning_rate": 0.0002100423169325562,
      "loss": 3.9385,
      "step": 178340
    },
    {
      "epoch": 0.3715625,
      "grad_norm": 0.7559088468551636,
      "learning_rate": 0.00021003328250290666,
      "loss": 4.0002,
      "step": 178350
    },
    {
      "epoch": 0.3715833333333333,
      "grad_norm": 0.8268453478813171,
      "learning_rate": 0.000210024247813937,
      "loss": 4.0729,
      "step": 178360
    },
    {
      "epoch": 0.3716041666666667,
      "grad_norm": 0.832944393157959,
      "learning_rate": 0.00021001521286568637,
      "loss": 4.0571,
      "step": 178370
    },
    {
      "epoch": 0.371625,
      "grad_norm": 0.8145478367805481,
      "learning_rate": 0.00021000617765819384,
      "loss": 3.9217,
      "step": 178380
    },
    {
      "epoch": 0.37164583333333334,
      "grad_norm": 0.807266354560852,
      "learning_rate": 0.00020999714219149834,
      "loss": 3.9016,
      "step": 178390
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 0.8264378309249878,
      "learning_rate": 0.00020998810646563889,
      "loss": 3.9905,
      "step": 178400
    },
    {
      "epoch": 0.3716875,
      "grad_norm": 0.7620464563369751,
      "learning_rate": 0.0002099790704806546,
      "loss": 3.957,
      "step": 178410
    },
    {
      "epoch": 0.3717083333333333,
      "grad_norm": 0.9009968042373657,
      "learning_rate": 0.00020997003423658448,
      "loss": 3.9811,
      "step": 178420
    },
    {
      "epoch": 0.37172916666666667,
      "grad_norm": 0.8505023121833801,
      "learning_rate": 0.00020996099773346752,
      "loss": 3.9082,
      "step": 178430
    },
    {
      "epoch": 0.37175,
      "grad_norm": 0.764482319355011,
      "learning_rate": 0.00020995196097134278,
      "loss": 3.9827,
      "step": 178440
    },
    {
      "epoch": 0.37177083333333333,
      "grad_norm": 0.7504163384437561,
      "learning_rate": 0.00020994292395024933,
      "loss": 3.9389,
      "step": 178450
    },
    {
      "epoch": 0.3717916666666667,
      "grad_norm": 0.8725404143333435,
      "learning_rate": 0.00020993388667022616,
      "loss": 3.7789,
      "step": 178460
    },
    {
      "epoch": 0.3718125,
      "grad_norm": 0.8241796493530273,
      "learning_rate": 0.00020992484913131233,
      "loss": 4.0321,
      "step": 178470
    },
    {
      "epoch": 0.37183333333333335,
      "grad_norm": 0.9737016558647156,
      "learning_rate": 0.00020991581133354687,
      "loss": 4.1198,
      "step": 178480
    },
    {
      "epoch": 0.37185416666666665,
      "grad_norm": 0.794383704662323,
      "learning_rate": 0.00020990677327696882,
      "loss": 3.9152,
      "step": 178490
    },
    {
      "epoch": 0.371875,
      "grad_norm": 0.8186852931976318,
      "learning_rate": 0.0002098977349616172,
      "loss": 3.9749,
      "step": 178500
    },
    {
      "epoch": 0.3718958333333333,
      "grad_norm": 0.9562807083129883,
      "learning_rate": 0.00020988869638753112,
      "loss": 3.9363,
      "step": 178510
    },
    {
      "epoch": 0.3719166666666667,
      "grad_norm": 0.8165115118026733,
      "learning_rate": 0.00020987965755474956,
      "loss": 3.9957,
      "step": 178520
    },
    {
      "epoch": 0.3719375,
      "grad_norm": 0.8246346116065979,
      "learning_rate": 0.00020987061846331154,
      "loss": 3.9902,
      "step": 178530
    },
    {
      "epoch": 0.37195833333333334,
      "grad_norm": 0.8179309964179993,
      "learning_rate": 0.0002098615791132562,
      "loss": 3.887,
      "step": 178540
    },
    {
      "epoch": 0.3719791666666667,
      "grad_norm": 0.7860984802246094,
      "learning_rate": 0.00020985253950462252,
      "loss": 3.9588,
      "step": 178550
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.780379593372345,
      "learning_rate": 0.00020984349963744955,
      "loss": 4.02,
      "step": 178560
    },
    {
      "epoch": 0.37202083333333336,
      "grad_norm": 0.8605762720108032,
      "learning_rate": 0.00020983445951177636,
      "loss": 3.8035,
      "step": 178570
    },
    {
      "epoch": 0.37204166666666666,
      "grad_norm": 0.8354408144950867,
      "learning_rate": 0.00020982541912764198,
      "loss": 3.8865,
      "step": 178580
    },
    {
      "epoch": 0.3720625,
      "grad_norm": 0.801479697227478,
      "learning_rate": 0.00020981637848508546,
      "loss": 3.9447,
      "step": 178590
    },
    {
      "epoch": 0.3720833333333333,
      "grad_norm": 0.756585955619812,
      "learning_rate": 0.00020980733758414586,
      "loss": 4.0297,
      "step": 178600
    },
    {
      "epoch": 0.3721041666666667,
      "grad_norm": 0.8699013590812683,
      "learning_rate": 0.00020979829642486228,
      "loss": 4.0181,
      "step": 178610
    },
    {
      "epoch": 0.372125,
      "grad_norm": 0.8177464008331299,
      "learning_rate": 0.00020978925500727367,
      "loss": 4.0395,
      "step": 178620
    },
    {
      "epoch": 0.37214583333333334,
      "grad_norm": 0.8171346783638,
      "learning_rate": 0.0002097802133314192,
      "loss": 4.0876,
      "step": 178630
    },
    {
      "epoch": 0.37216666666666665,
      "grad_norm": 0.7212769985198975,
      "learning_rate": 0.00020977117139733782,
      "loss": 3.9884,
      "step": 178640
    },
    {
      "epoch": 0.3721875,
      "grad_norm": 0.7655004858970642,
      "learning_rate": 0.00020976212920506868,
      "loss": 3.9232,
      "step": 178650
    },
    {
      "epoch": 0.3722083333333333,
      "grad_norm": 0.8287346363067627,
      "learning_rate": 0.00020975308675465077,
      "loss": 3.6485,
      "step": 178660
    },
    {
      "epoch": 0.37222916666666667,
      "grad_norm": 0.8287953734397888,
      "learning_rate": 0.00020974404404612318,
      "loss": 3.985,
      "step": 178670
    },
    {
      "epoch": 0.37225,
      "grad_norm": 0.7406823635101318,
      "learning_rate": 0.000209735001079525,
      "loss": 3.788,
      "step": 178680
    },
    {
      "epoch": 0.37227083333333333,
      "grad_norm": 0.7184710502624512,
      "learning_rate": 0.00020972595785489524,
      "loss": 4.0835,
      "step": 178690
    },
    {
      "epoch": 0.3722916666666667,
      "grad_norm": 0.8501705527305603,
      "learning_rate": 0.00020971691437227295,
      "loss": 3.9402,
      "step": 178700
    },
    {
      "epoch": 0.3723125,
      "grad_norm": 0.8362222909927368,
      "learning_rate": 0.00020970787063169727,
      "loss": 3.9882,
      "step": 178710
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 0.7535850405693054,
      "learning_rate": 0.0002096988266332072,
      "loss": 3.9259,
      "step": 178720
    },
    {
      "epoch": 0.37235416666666665,
      "grad_norm": 0.8002573847770691,
      "learning_rate": 0.00020968978237684185,
      "loss": 3.9118,
      "step": 178730
    },
    {
      "epoch": 0.372375,
      "grad_norm": 0.7954972386360168,
      "learning_rate": 0.00020968073786264025,
      "loss": 4.0915,
      "step": 178740
    },
    {
      "epoch": 0.3723958333333333,
      "grad_norm": 0.814321756362915,
      "learning_rate": 0.0002096716930906415,
      "loss": 4.0613,
      "step": 178750
    },
    {
      "epoch": 0.3724166666666667,
      "grad_norm": 0.9622707962989807,
      "learning_rate": 0.00020966264806088463,
      "loss": 3.9068,
      "step": 178760
    },
    {
      "epoch": 0.3724375,
      "grad_norm": 0.7942123413085938,
      "learning_rate": 0.0002096536027734088,
      "loss": 3.9336,
      "step": 178770
    },
    {
      "epoch": 0.37245833333333334,
      "grad_norm": 0.8475898504257202,
      "learning_rate": 0.00020964455722825295,
      "loss": 4.0007,
      "step": 178780
    },
    {
      "epoch": 0.37247916666666664,
      "grad_norm": 0.8479440212249756,
      "learning_rate": 0.00020963551142545622,
      "loss": 4.0753,
      "step": 178790
    },
    {
      "epoch": 0.3725,
      "grad_norm": 0.812531590461731,
      "learning_rate": 0.00020962646536505774,
      "loss": 3.8826,
      "step": 178800
    },
    {
      "epoch": 0.37252083333333336,
      "grad_norm": 0.9118866324424744,
      "learning_rate": 0.00020961741904709647,
      "loss": 3.9002,
      "step": 178810
    },
    {
      "epoch": 0.37254166666666666,
      "grad_norm": 0.9369315505027771,
      "learning_rate": 0.0002096083724716116,
      "loss": 3.8837,
      "step": 178820
    },
    {
      "epoch": 0.3725625,
      "grad_norm": 0.8674403429031372,
      "learning_rate": 0.00020959932563864212,
      "loss": 3.8279,
      "step": 178830
    },
    {
      "epoch": 0.3725833333333333,
      "grad_norm": 0.7625774145126343,
      "learning_rate": 0.00020959027854822716,
      "loss": 3.9485,
      "step": 178840
    },
    {
      "epoch": 0.3726041666666667,
      "grad_norm": 0.8879821300506592,
      "learning_rate": 0.0002095812312004058,
      "loss": 4.0493,
      "step": 178850
    },
    {
      "epoch": 0.372625,
      "grad_norm": 0.8143153190612793,
      "learning_rate": 0.00020957218359521706,
      "loss": 3.9708,
      "step": 178860
    },
    {
      "epoch": 0.37264583333333334,
      "grad_norm": 0.8136600852012634,
      "learning_rate": 0.0002095631357327001,
      "loss": 3.8672,
      "step": 178870
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 0.7863997220993042,
      "learning_rate": 0.000209554087612894,
      "loss": 4.0753,
      "step": 178880
    },
    {
      "epoch": 0.3726875,
      "grad_norm": 0.7383772134780884,
      "learning_rate": 0.00020954503923583775,
      "loss": 4.1633,
      "step": 178890
    },
    {
      "epoch": 0.3727083333333333,
      "grad_norm": 0.8255006670951843,
      "learning_rate": 0.00020953599060157053,
      "loss": 3.9734,
      "step": 178900
    },
    {
      "epoch": 0.37272916666666667,
      "grad_norm": 0.7687782645225525,
      "learning_rate": 0.0002095269417101314,
      "loss": 3.72,
      "step": 178910
    },
    {
      "epoch": 0.37275,
      "grad_norm": 0.8346306681632996,
      "learning_rate": 0.00020951789256155946,
      "loss": 4.0311,
      "step": 178920
    },
    {
      "epoch": 0.37277083333333333,
      "grad_norm": 0.8505507111549377,
      "learning_rate": 0.00020950884315589372,
      "loss": 3.8345,
      "step": 178930
    },
    {
      "epoch": 0.3727916666666667,
      "grad_norm": 1.0298818349838257,
      "learning_rate": 0.0002094997934931734,
      "loss": 4.0174,
      "step": 178940
    },
    {
      "epoch": 0.3728125,
      "grad_norm": 0.8655686974525452,
      "learning_rate": 0.00020949074357343752,
      "loss": 4.1366,
      "step": 178950
    },
    {
      "epoch": 0.37283333333333335,
      "grad_norm": 0.8223986029624939,
      "learning_rate": 0.00020948169339672512,
      "loss": 3.8942,
      "step": 178960
    },
    {
      "epoch": 0.37285416666666665,
      "grad_norm": 0.8375672698020935,
      "learning_rate": 0.00020947264296307543,
      "loss": 3.8744,
      "step": 178970
    },
    {
      "epoch": 0.372875,
      "grad_norm": 0.7951323390007019,
      "learning_rate": 0.0002094635922725274,
      "loss": 3.8538,
      "step": 178980
    },
    {
      "epoch": 0.3728958333333333,
      "grad_norm": 0.7907932996749878,
      "learning_rate": 0.0002094545413251202,
      "loss": 4.1421,
      "step": 178990
    },
    {
      "epoch": 0.3729166666666667,
      "grad_norm": 0.8397800326347351,
      "learning_rate": 0.00020944549012089292,
      "loss": 3.7871,
      "step": 179000
    },
    {
      "epoch": 0.3729166666666667,
      "eval_loss": 3.6849606037139893,
      "eval_runtime": 7.4813,
      "eval_samples_per_second": 1.337,
      "eval_steps_per_second": 0.401,
      "step": 179000
    },
    {
      "epoch": 0.3729375,
      "grad_norm": 0.837810218334198,
      "learning_rate": 0.00020943643865988467,
      "loss": 4.0229,
      "step": 179010
    },
    {
      "epoch": 0.37295833333333334,
      "grad_norm": 0.7605753540992737,
      "learning_rate": 0.00020942738694213454,
      "loss": 4.0343,
      "step": 179020
    },
    {
      "epoch": 0.37297916666666664,
      "grad_norm": 0.8636977672576904,
      "learning_rate": 0.00020941833496768156,
      "loss": 4.0143,
      "step": 179030
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.8193013072013855,
      "learning_rate": 0.00020940928273656493,
      "loss": 3.8077,
      "step": 179040
    },
    {
      "epoch": 0.37302083333333336,
      "grad_norm": 0.7905924320220947,
      "learning_rate": 0.00020940023024882374,
      "loss": 3.946,
      "step": 179050
    },
    {
      "epoch": 0.37304166666666666,
      "grad_norm": 0.7454416751861572,
      "learning_rate": 0.00020939117750449704,
      "loss": 3.9112,
      "step": 179060
    },
    {
      "epoch": 0.3730625,
      "grad_norm": 0.8460472226142883,
      "learning_rate": 0.00020938212450362392,
      "loss": 4.2098,
      "step": 179070
    },
    {
      "epoch": 0.3730833333333333,
      "grad_norm": 0.7570464015007019,
      "learning_rate": 0.00020937307124624364,
      "loss": 3.8761,
      "step": 179080
    },
    {
      "epoch": 0.3731041666666667,
      "grad_norm": 0.774132490158081,
      "learning_rate": 0.0002093640177323951,
      "loss": 3.8846,
      "step": 179090
    },
    {
      "epoch": 0.373125,
      "grad_norm": 0.897058367729187,
      "learning_rate": 0.0002093549639621175,
      "loss": 3.8404,
      "step": 179100
    },
    {
      "epoch": 0.37314583333333334,
      "grad_norm": 0.7725065350532532,
      "learning_rate": 0.00020934590993545,
      "loss": 3.936,
      "step": 179110
    },
    {
      "epoch": 0.37316666666666665,
      "grad_norm": 0.7351257801055908,
      "learning_rate": 0.00020933685565243166,
      "loss": 3.9569,
      "step": 179120
    },
    {
      "epoch": 0.3731875,
      "grad_norm": 0.8218316435813904,
      "learning_rate": 0.00020932780111310154,
      "loss": 4.0514,
      "step": 179130
    },
    {
      "epoch": 0.3732083333333333,
      "grad_norm": 0.9994546175003052,
      "learning_rate": 0.00020931874631749883,
      "loss": 3.8399,
      "step": 179140
    },
    {
      "epoch": 0.37322916666666667,
      "grad_norm": 0.6990506052970886,
      "learning_rate": 0.00020930969126566263,
      "loss": 4.0056,
      "step": 179150
    },
    {
      "epoch": 0.37325,
      "grad_norm": 0.8830322623252869,
      "learning_rate": 0.000209300635957632,
      "loss": 3.9194,
      "step": 179160
    },
    {
      "epoch": 0.37327083333333333,
      "grad_norm": 1.297095537185669,
      "learning_rate": 0.00020929158039344613,
      "loss": 3.978,
      "step": 179170
    },
    {
      "epoch": 0.3732916666666667,
      "grad_norm": 0.7825167775154114,
      "learning_rate": 0.00020928252457314413,
      "loss": 3.9203,
      "step": 179180
    },
    {
      "epoch": 0.3733125,
      "grad_norm": 0.8388954401016235,
      "learning_rate": 0.00020927346849676506,
      "loss": 3.8925,
      "step": 179190
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.7857701778411865,
      "learning_rate": 0.00020926441216434803,
      "loss": 4.0916,
      "step": 179200
    },
    {
      "epoch": 0.37335416666666665,
      "grad_norm": 0.8138476610183716,
      "learning_rate": 0.0002092553555759322,
      "loss": 4.0613,
      "step": 179210
    },
    {
      "epoch": 0.373375,
      "grad_norm": 0.8922391533851624,
      "learning_rate": 0.00020924629873155678,
      "loss": 3.8792,
      "step": 179220
    },
    {
      "epoch": 0.3733958333333333,
      "grad_norm": 0.8040567636489868,
      "learning_rate": 0.0002092372416312607,
      "loss": 4.0477,
      "step": 179230
    },
    {
      "epoch": 0.3734166666666667,
      "grad_norm": 0.8840393424034119,
      "learning_rate": 0.0002092281842750832,
      "loss": 3.9827,
      "step": 179240
    },
    {
      "epoch": 0.3734375,
      "grad_norm": 0.7644792795181274,
      "learning_rate": 0.00020921912666306346,
      "loss": 3.94,
      "step": 179250
    },
    {
      "epoch": 0.37345833333333334,
      "grad_norm": 0.7460934519767761,
      "learning_rate": 0.00020921006879524048,
      "loss": 4.033,
      "step": 179260
    },
    {
      "epoch": 0.37347916666666664,
      "grad_norm": 0.7728189826011658,
      "learning_rate": 0.00020920101067165343,
      "loss": 4.2032,
      "step": 179270
    },
    {
      "epoch": 0.3735,
      "grad_norm": 0.8060280680656433,
      "learning_rate": 0.00020919195229234146,
      "loss": 4.0347,
      "step": 179280
    },
    {
      "epoch": 0.37352083333333336,
      "grad_norm": 0.7827382683753967,
      "learning_rate": 0.00020918289365734369,
      "loss": 4.0087,
      "step": 179290
    },
    {
      "epoch": 0.37354166666666666,
      "grad_norm": 0.748559832572937,
      "learning_rate": 0.00020917383476669926,
      "loss": 3.9532,
      "step": 179300
    },
    {
      "epoch": 0.3735625,
      "grad_norm": 0.8981858491897583,
      "learning_rate": 0.00020916477562044725,
      "loss": 4.0745,
      "step": 179310
    },
    {
      "epoch": 0.3735833333333333,
      "grad_norm": 0.9949166774749756,
      "learning_rate": 0.00020915571621862684,
      "loss": 4.011,
      "step": 179320
    },
    {
      "epoch": 0.3736041666666667,
      "grad_norm": 0.8150349855422974,
      "learning_rate": 0.0002091466565612772,
      "loss": 3.8779,
      "step": 179330
    },
    {
      "epoch": 0.373625,
      "grad_norm": 0.8274047374725342,
      "learning_rate": 0.00020913759664843734,
      "loss": 4.1303,
      "step": 179340
    },
    {
      "epoch": 0.37364583333333334,
      "grad_norm": 0.765582263469696,
      "learning_rate": 0.0002091285364801465,
      "loss": 4.0891,
      "step": 179350
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 0.9665006399154663,
      "learning_rate": 0.0002091194760564438,
      "loss": 4.0646,
      "step": 179360
    },
    {
      "epoch": 0.3736875,
      "grad_norm": 0.7804911732673645,
      "learning_rate": 0.00020911041537736833,
      "loss": 3.9576,
      "step": 179370
    },
    {
      "epoch": 0.3737083333333333,
      "grad_norm": 0.7630646228790283,
      "learning_rate": 0.00020910135444295933,
      "loss": 4.0925,
      "step": 179380
    },
    {
      "epoch": 0.37372916666666667,
      "grad_norm": 0.902412474155426,
      "learning_rate": 0.00020909229325325582,
      "loss": 3.9222,
      "step": 179390
    },
    {
      "epoch": 0.37375,
      "grad_norm": 0.8168773055076599,
      "learning_rate": 0.00020908323180829697,
      "loss": 3.9838,
      "step": 179400
    },
    {
      "epoch": 0.37377083333333333,
      "grad_norm": 0.7817949056625366,
      "learning_rate": 0.00020907417010812202,
      "loss": 4.064,
      "step": 179410
    },
    {
      "epoch": 0.3737916666666667,
      "grad_norm": 0.8031489849090576,
      "learning_rate": 0.00020906510815277,
      "loss": 3.9624,
      "step": 179420
    },
    {
      "epoch": 0.3738125,
      "grad_norm": 0.7471982836723328,
      "learning_rate": 0.00020905604594228006,
      "loss": 3.9356,
      "step": 179430
    },
    {
      "epoch": 0.37383333333333335,
      "grad_norm": 0.8098932504653931,
      "learning_rate": 0.00020904698347669147,
      "loss": 4.002,
      "step": 179440
    },
    {
      "epoch": 0.37385416666666665,
      "grad_norm": 0.7592636346817017,
      "learning_rate": 0.00020903792075604319,
      "loss": 3.9542,
      "step": 179450
    },
    {
      "epoch": 0.373875,
      "grad_norm": 0.8610755205154419,
      "learning_rate": 0.0002090288577803745,
      "loss": 3.989,
      "step": 179460
    },
    {
      "epoch": 0.3738958333333333,
      "grad_norm": 0.8241984248161316,
      "learning_rate": 0.00020901979454972453,
      "loss": 4.051,
      "step": 179470
    },
    {
      "epoch": 0.3739166666666667,
      "grad_norm": 0.7498344779014587,
      "learning_rate": 0.0002090107310641324,
      "loss": 3.9203,
      "step": 179480
    },
    {
      "epoch": 0.3739375,
      "grad_norm": 0.8456887602806091,
      "learning_rate": 0.0002090016673236372,
      "loss": 3.9016,
      "step": 179490
    },
    {
      "epoch": 0.37395833333333334,
      "grad_norm": 0.7832499742507935,
      "learning_rate": 0.00020899260332827823,
      "loss": 3.9569,
      "step": 179500
    },
    {
      "epoch": 0.37397916666666664,
      "grad_norm": 0.8401855230331421,
      "learning_rate": 0.00020898353907809454,
      "loss": 3.7591,
      "step": 179510
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.7205602526664734,
      "learning_rate": 0.0002089744745731253,
      "loss": 4.0094,
      "step": 179520
    },
    {
      "epoch": 0.37402083333333336,
      "grad_norm": 0.814948558807373,
      "learning_rate": 0.00020896540981340966,
      "loss": 4.0631,
      "step": 179530
    },
    {
      "epoch": 0.37404166666666666,
      "grad_norm": 0.7656164169311523,
      "learning_rate": 0.00020895634479898683,
      "loss": 3.9657,
      "step": 179540
    },
    {
      "epoch": 0.3740625,
      "grad_norm": 0.7158343195915222,
      "learning_rate": 0.00020894727952989588,
      "loss": 3.925,
      "step": 179550
    },
    {
      "epoch": 0.3740833333333333,
      "grad_norm": 0.7763817310333252,
      "learning_rate": 0.00020893821400617607,
      "loss": 3.7527,
      "step": 179560
    },
    {
      "epoch": 0.3741041666666667,
      "grad_norm": 0.8043009638786316,
      "learning_rate": 0.00020892914822786646,
      "loss": 3.9786,
      "step": 179570
    },
    {
      "epoch": 0.374125,
      "grad_norm": 0.7805070877075195,
      "learning_rate": 0.00020892008219500628,
      "loss": 3.9332,
      "step": 179580
    },
    {
      "epoch": 0.37414583333333334,
      "grad_norm": 0.7956777811050415,
      "learning_rate": 0.0002089110159076347,
      "loss": 4.1091,
      "step": 179590
    },
    {
      "epoch": 0.37416666666666665,
      "grad_norm": 0.7949550747871399,
      "learning_rate": 0.00020890194936579079,
      "loss": 3.9215,
      "step": 179600
    },
    {
      "epoch": 0.3741875,
      "grad_norm": 1.094103455543518,
      "learning_rate": 0.0002088928825695138,
      "loss": 4.0082,
      "step": 179610
    },
    {
      "epoch": 0.3742083333333333,
      "grad_norm": 1.152436375617981,
      "learning_rate": 0.00020888381551884287,
      "loss": 3.9161,
      "step": 179620
    },
    {
      "epoch": 0.37422916666666667,
      "grad_norm": 0.7633534669876099,
      "learning_rate": 0.00020887474821381716,
      "loss": 4.0848,
      "step": 179630
    },
    {
      "epoch": 0.37425,
      "grad_norm": 0.770473301410675,
      "learning_rate": 0.00020886568065447584,
      "loss": 3.797,
      "step": 179640
    },
    {
      "epoch": 0.37427083333333333,
      "grad_norm": 0.8028346300125122,
      "learning_rate": 0.00020885661284085805,
      "loss": 3.9751,
      "step": 179650
    },
    {
      "epoch": 0.3742916666666667,
      "grad_norm": 0.9961349368095398,
      "learning_rate": 0.00020884754477300306,
      "loss": 3.87,
      "step": 179660
    },
    {
      "epoch": 0.3743125,
      "grad_norm": 0.7257757186889648,
      "learning_rate": 0.0002088384764509499,
      "loss": 3.9145,
      "step": 179670
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 0.8345752954483032,
      "learning_rate": 0.00020882940787473784,
      "loss": 3.8002,
      "step": 179680
    },
    {
      "epoch": 0.37435416666666665,
      "grad_norm": 0.7718591094017029,
      "learning_rate": 0.00020882033904440602,
      "loss": 3.9093,
      "step": 179690
    },
    {
      "epoch": 0.374375,
      "grad_norm": 0.7543949484825134,
      "learning_rate": 0.00020881126995999364,
      "loss": 3.9924,
      "step": 179700
    },
    {
      "epoch": 0.3743958333333333,
      "grad_norm": 0.7773703336715698,
      "learning_rate": 0.00020880220062153982,
      "loss": 4.0237,
      "step": 179710
    },
    {
      "epoch": 0.3744166666666667,
      "grad_norm": 0.7932100892066956,
      "learning_rate": 0.00020879313102908383,
      "loss": 3.8994,
      "step": 179720
    },
    {
      "epoch": 0.3744375,
      "grad_norm": 0.7887119054794312,
      "learning_rate": 0.0002087840611826647,
      "loss": 4.0515,
      "step": 179730
    },
    {
      "epoch": 0.37445833333333334,
      "grad_norm": 0.7808579206466675,
      "learning_rate": 0.00020877499108232174,
      "loss": 4.0625,
      "step": 179740
    },
    {
      "epoch": 0.37447916666666664,
      "grad_norm": 0.8678069114685059,
      "learning_rate": 0.0002087659207280941,
      "loss": 4.1229,
      "step": 179750
    },
    {
      "epoch": 0.3745,
      "grad_norm": 1.0073566436767578,
      "learning_rate": 0.00020875685012002092,
      "loss": 4.0052,
      "step": 179760
    },
    {
      "epoch": 0.37452083333333336,
      "grad_norm": 0.8140522241592407,
      "learning_rate": 0.00020874777925814137,
      "loss": 4.0417,
      "step": 179770
    },
    {
      "epoch": 0.37454166666666666,
      "grad_norm": 0.8853468894958496,
      "learning_rate": 0.00020873870814249474,
      "loss": 3.9173,
      "step": 179780
    },
    {
      "epoch": 0.3745625,
      "grad_norm": 0.7836836576461792,
      "learning_rate": 0.0002087296367731201,
      "loss": 3.8151,
      "step": 179790
    },
    {
      "epoch": 0.3745833333333333,
      "grad_norm": 0.7656924724578857,
      "learning_rate": 0.00020872056515005666,
      "loss": 3.9935,
      "step": 179800
    },
    {
      "epoch": 0.3746041666666667,
      "grad_norm": 0.8462589979171753,
      "learning_rate": 0.00020871149327334368,
      "loss": 3.9465,
      "step": 179810
    },
    {
      "epoch": 0.374625,
      "grad_norm": 0.8481580018997192,
      "learning_rate": 0.00020870242114302026,
      "loss": 4.0869,
      "step": 179820
    },
    {
      "epoch": 0.37464583333333334,
      "grad_norm": 0.754840075969696,
      "learning_rate": 0.00020869334875912559,
      "loss": 4.0947,
      "step": 179830
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 0.9488505721092224,
      "learning_rate": 0.0002086842761216989,
      "loss": 3.8874,
      "step": 179840
    },
    {
      "epoch": 0.3746875,
      "grad_norm": 0.8089699745178223,
      "learning_rate": 0.0002086752032307794,
      "loss": 3.8366,
      "step": 179850
    },
    {
      "epoch": 0.3747083333333333,
      "grad_norm": 0.8242655992507935,
      "learning_rate": 0.0002086661300864062,
      "loss": 4.151,
      "step": 179860
    },
    {
      "epoch": 0.37472916666666667,
      "grad_norm": 0.8007593154907227,
      "learning_rate": 0.00020865705668861857,
      "loss": 3.8308,
      "step": 179870
    },
    {
      "epoch": 0.37475,
      "grad_norm": 0.7920885682106018,
      "learning_rate": 0.00020864798303745565,
      "loss": 4.0498,
      "step": 179880
    },
    {
      "epoch": 0.37477083333333333,
      "grad_norm": 0.7640913724899292,
      "learning_rate": 0.0002086389091329567,
      "loss": 4.1387,
      "step": 179890
    },
    {
      "epoch": 0.3747916666666667,
      "grad_norm": 0.8356793522834778,
      "learning_rate": 0.0002086298349751608,
      "loss": 4.0275,
      "step": 179900
    },
    {
      "epoch": 0.3748125,
      "grad_norm": 0.7679981589317322,
      "learning_rate": 0.00020862076056410724,
      "loss": 4.0032,
      "step": 179910
    },
    {
      "epoch": 0.37483333333333335,
      "grad_norm": 0.8307067155838013,
      "learning_rate": 0.00020861168589983526,
      "loss": 3.8701,
      "step": 179920
    },
    {
      "epoch": 0.37485416666666665,
      "grad_norm": 0.8742333650588989,
      "learning_rate": 0.00020860261098238397,
      "loss": 3.9631,
      "step": 179930
    },
    {
      "epoch": 0.374875,
      "grad_norm": 0.9519498348236084,
      "learning_rate": 0.00020859353581179256,
      "loss": 4.0112,
      "step": 179940
    },
    {
      "epoch": 0.3748958333333333,
      "grad_norm": 0.9066961407661438,
      "learning_rate": 0.00020858446038810033,
      "loss": 4.1368,
      "step": 179950
    },
    {
      "epoch": 0.3749166666666667,
      "grad_norm": 0.7345368266105652,
      "learning_rate": 0.00020857538471134637,
      "loss": 4.0595,
      "step": 179960
    },
    {
      "epoch": 0.3749375,
      "grad_norm": 0.7953757643699646,
      "learning_rate": 0.0002085663087815699,
      "loss": 3.9944,
      "step": 179970
    },
    {
      "epoch": 0.37495833333333334,
      "grad_norm": 0.7858942151069641,
      "learning_rate": 0.00020855723259881025,
      "loss": 4.0407,
      "step": 179980
    },
    {
      "epoch": 0.37497916666666664,
      "grad_norm": 0.7425816059112549,
      "learning_rate": 0.0002085481561631065,
      "loss": 3.875,
      "step": 179990
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.8601263761520386,
      "learning_rate": 0.00020853907947449788,
      "loss": 4.0395,
      "step": 180000
    },
    {
      "epoch": 0.375,
      "eval_loss": 3.680173397064209,
      "eval_runtime": 7.2805,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 180000
    },
    {
      "epoch": 0.37502083333333336,
      "grad_norm": 0.805626630783081,
      "learning_rate": 0.00020853000253302358,
      "loss": 3.8695,
      "step": 180010
    },
    {
      "epoch": 0.37504166666666666,
      "grad_norm": 0.8544490933418274,
      "learning_rate": 0.00020852092533872287,
      "loss": 3.8609,
      "step": 180020
    },
    {
      "epoch": 0.3750625,
      "grad_norm": 0.791618824005127,
      "learning_rate": 0.0002085118478916349,
      "loss": 3.9237,
      "step": 180030
    },
    {
      "epoch": 0.3750833333333333,
      "grad_norm": 0.9557298421859741,
      "learning_rate": 0.00020850277019179896,
      "loss": 4.1527,
      "step": 180040
    },
    {
      "epoch": 0.3751041666666667,
      "grad_norm": 0.8223689794540405,
      "learning_rate": 0.00020849369223925417,
      "loss": 3.9932,
      "step": 180050
    },
    {
      "epoch": 0.375125,
      "grad_norm": 0.7840011715888977,
      "learning_rate": 0.0002084846140340398,
      "loss": 3.9739,
      "step": 180060
    },
    {
      "epoch": 0.37514583333333335,
      "grad_norm": 0.7802304029464722,
      "learning_rate": 0.00020847553557619503,
      "loss": 4.0326,
      "step": 180070
    },
    {
      "epoch": 0.37516666666666665,
      "grad_norm": 0.7613938450813293,
      "learning_rate": 0.0002084664568657591,
      "loss": 3.9966,
      "step": 180080
    },
    {
      "epoch": 0.3751875,
      "grad_norm": 1.0290229320526123,
      "learning_rate": 0.00020845737790277125,
      "loss": 3.8117,
      "step": 180090
    },
    {
      "epoch": 0.3752083333333333,
      "grad_norm": 0.7312213182449341,
      "learning_rate": 0.0002084482986872706,
      "loss": 3.9803,
      "step": 180100
    },
    {
      "epoch": 0.37522916666666667,
      "grad_norm": 0.800378143787384,
      "learning_rate": 0.00020843921921929646,
      "loss": 4.0306,
      "step": 180110
    },
    {
      "epoch": 0.37525,
      "grad_norm": 0.7564583420753479,
      "learning_rate": 0.0002084301394988881,
      "loss": 3.9789,
      "step": 180120
    },
    {
      "epoch": 0.37527083333333333,
      "grad_norm": 0.7734698057174683,
      "learning_rate": 0.00020842105952608458,
      "loss": 3.9347,
      "step": 180130
    },
    {
      "epoch": 0.3752916666666667,
      "grad_norm": 0.8280203938484192,
      "learning_rate": 0.0002084119793009252,
      "loss": 3.9682,
      "step": 180140
    },
    {
      "epoch": 0.3753125,
      "grad_norm": 0.928565502166748,
      "learning_rate": 0.00020840289882344924,
      "loss": 3.9695,
      "step": 180150
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 0.7825417518615723,
      "learning_rate": 0.00020839381809369586,
      "loss": 3.939,
      "step": 180160
    },
    {
      "epoch": 0.37535416666666666,
      "grad_norm": 0.8413439989089966,
      "learning_rate": 0.0002083847371117043,
      "loss": 4.0918,
      "step": 180170
    },
    {
      "epoch": 0.375375,
      "grad_norm": 0.8394284248352051,
      "learning_rate": 0.00020837565587751377,
      "loss": 3.8668,
      "step": 180180
    },
    {
      "epoch": 0.3753958333333333,
      "grad_norm": 0.7975468635559082,
      "learning_rate": 0.00020836657439116352,
      "loss": 3.9144,
      "step": 180190
    },
    {
      "epoch": 0.3754166666666667,
      "grad_norm": 0.8662997484207153,
      "learning_rate": 0.00020835749265269278,
      "loss": 4.0401,
      "step": 180200
    },
    {
      "epoch": 0.3754375,
      "grad_norm": 1.0690323114395142,
      "learning_rate": 0.00020834841066214076,
      "loss": 3.9961,
      "step": 180210
    },
    {
      "epoch": 0.37545833333333334,
      "grad_norm": 0.7487589716911316,
      "learning_rate": 0.0002083393284195467,
      "loss": 3.8728,
      "step": 180220
    },
    {
      "epoch": 0.37547916666666664,
      "grad_norm": 0.8721569180488586,
      "learning_rate": 0.00020833024592494984,
      "loss": 3.8937,
      "step": 180230
    },
    {
      "epoch": 0.3755,
      "grad_norm": 0.7562749981880188,
      "learning_rate": 0.00020832116317838942,
      "loss": 3.8692,
      "step": 180240
    },
    {
      "epoch": 0.37552083333333336,
      "grad_norm": 0.9302074313163757,
      "learning_rate": 0.00020831208017990465,
      "loss": 3.8759,
      "step": 180250
    },
    {
      "epoch": 0.37554166666666666,
      "grad_norm": 1.0805326700210571,
      "learning_rate": 0.0002083029969295348,
      "loss": 4.1609,
      "step": 180260
    },
    {
      "epoch": 0.3755625,
      "grad_norm": 0.8409522175788879,
      "learning_rate": 0.00020829391342731902,
      "loss": 3.9184,
      "step": 180270
    },
    {
      "epoch": 0.3755833333333333,
      "grad_norm": 0.7772311568260193,
      "learning_rate": 0.00020828482967329666,
      "loss": 3.7398,
      "step": 180280
    },
    {
      "epoch": 0.3756041666666667,
      "grad_norm": 0.8311966061592102,
      "learning_rate": 0.0002082757456675069,
      "loss": 3.961,
      "step": 180290
    },
    {
      "epoch": 0.375625,
      "grad_norm": 0.988801896572113,
      "learning_rate": 0.00020826666140998895,
      "loss": 3.8221,
      "step": 180300
    },
    {
      "epoch": 0.37564583333333335,
      "grad_norm": 0.77927565574646,
      "learning_rate": 0.00020825757690078216,
      "loss": 3.9443,
      "step": 180310
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 0.7992938756942749,
      "learning_rate": 0.00020824849213992562,
      "loss": 3.9144,
      "step": 180320
    },
    {
      "epoch": 0.3756875,
      "grad_norm": 0.7983275055885315,
      "learning_rate": 0.0002082394071274587,
      "loss": 3.9095,
      "step": 180330
    },
    {
      "epoch": 0.3757083333333333,
      "grad_norm": 0.9691892266273499,
      "learning_rate": 0.00020823032186342055,
      "loss": 3.9976,
      "step": 180340
    },
    {
      "epoch": 0.37572916666666667,
      "grad_norm": 0.8517653942108154,
      "learning_rate": 0.0002082212363478505,
      "loss": 3.9326,
      "step": 180350
    },
    {
      "epoch": 0.37575,
      "grad_norm": 0.8217425346374512,
      "learning_rate": 0.0002082121505807877,
      "loss": 4.0061,
      "step": 180360
    },
    {
      "epoch": 0.37577083333333333,
      "grad_norm": 0.7992933392524719,
      "learning_rate": 0.0002082030645622715,
      "loss": 3.8669,
      "step": 180370
    },
    {
      "epoch": 0.3757916666666667,
      "grad_norm": 0.7756053805351257,
      "learning_rate": 0.00020819397829234112,
      "loss": 3.889,
      "step": 180380
    },
    {
      "epoch": 0.3758125,
      "grad_norm": 0.8505245447158813,
      "learning_rate": 0.00020818489177103574,
      "loss": 4.0804,
      "step": 180390
    },
    {
      "epoch": 0.37583333333333335,
      "grad_norm": 0.8081752061843872,
      "learning_rate": 0.0002081758049983947,
      "loss": 3.8688,
      "step": 180400
    },
    {
      "epoch": 0.37585416666666666,
      "grad_norm": 2.6638131141662598,
      "learning_rate": 0.00020816671797445718,
      "loss": 3.8229,
      "step": 180410
    },
    {
      "epoch": 0.375875,
      "grad_norm": 1.4214396476745605,
      "learning_rate": 0.00020815763069926242,
      "loss": 4.1863,
      "step": 180420
    },
    {
      "epoch": 0.3758958333333333,
      "grad_norm": 0.8240277767181396,
      "learning_rate": 0.00020814854317284978,
      "loss": 3.9192,
      "step": 180430
    },
    {
      "epoch": 0.3759166666666667,
      "grad_norm": 1.0021311044692993,
      "learning_rate": 0.00020813945539525843,
      "loss": 4.0178,
      "step": 180440
    },
    {
      "epoch": 0.3759375,
      "grad_norm": 0.7927663922309875,
      "learning_rate": 0.00020813036736652772,
      "loss": 3.8692,
      "step": 180450
    },
    {
      "epoch": 0.37595833333333334,
      "grad_norm": 0.8228457570075989,
      "learning_rate": 0.00020812127908669673,
      "loss": 4.1898,
      "step": 180460
    },
    {
      "epoch": 0.37597916666666664,
      "grad_norm": 0.8596324920654297,
      "learning_rate": 0.00020811219055580482,
      "loss": 3.9049,
      "step": 180470
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.8576069474220276,
      "learning_rate": 0.0002081031017738913,
      "loss": 4.0,
      "step": 180480
    },
    {
      "epoch": 0.37602083333333336,
      "grad_norm": 0.8050878643989563,
      "learning_rate": 0.00020809401274099536,
      "loss": 3.9678,
      "step": 180490
    },
    {
      "epoch": 0.37604166666666666,
      "grad_norm": 0.8339435458183289,
      "learning_rate": 0.00020808492345715624,
      "loss": 3.9012,
      "step": 180500
    },
    {
      "epoch": 0.3760625,
      "grad_norm": 0.8226518034934998,
      "learning_rate": 0.00020807583392241333,
      "loss": 3.998,
      "step": 180510
    },
    {
      "epoch": 0.3760833333333333,
      "grad_norm": 0.8029392957687378,
      "learning_rate": 0.00020806674413680577,
      "loss": 4.0101,
      "step": 180520
    },
    {
      "epoch": 0.3761041666666667,
      "grad_norm": 0.8364439606666565,
      "learning_rate": 0.00020805765410037284,
      "loss": 3.8025,
      "step": 180530
    },
    {
      "epoch": 0.376125,
      "grad_norm": 1.0596836805343628,
      "learning_rate": 0.00020804856381315384,
      "loss": 3.8333,
      "step": 180540
    },
    {
      "epoch": 0.37614583333333335,
      "grad_norm": 0.7745611071586609,
      "learning_rate": 0.000208039473275188,
      "loss": 4.109,
      "step": 180550
    },
    {
      "epoch": 0.37616666666666665,
      "grad_norm": 0.8104532361030579,
      "learning_rate": 0.00020803038248651465,
      "loss": 4.0101,
      "step": 180560
    },
    {
      "epoch": 0.3761875,
      "grad_norm": 0.9493996500968933,
      "learning_rate": 0.000208021291447173,
      "loss": 3.9985,
      "step": 180570
    },
    {
      "epoch": 0.3762083333333333,
      "grad_norm": 0.7643193602561951,
      "learning_rate": 0.00020801220015720227,
      "loss": 3.9964,
      "step": 180580
    },
    {
      "epoch": 0.37622916666666667,
      "grad_norm": 0.7503741979598999,
      "learning_rate": 0.00020800310861664192,
      "loss": 3.9378,
      "step": 180590
    },
    {
      "epoch": 0.37625,
      "grad_norm": 0.8219732046127319,
      "learning_rate": 0.000207994016825531,
      "loss": 3.9331,
      "step": 180600
    },
    {
      "epoch": 0.37627083333333333,
      "grad_norm": 0.8172866106033325,
      "learning_rate": 0.00020798492478390894,
      "loss": 4.0403,
      "step": 180610
    },
    {
      "epoch": 0.3762916666666667,
      "grad_norm": 0.9695031642913818,
      "learning_rate": 0.00020797583249181493,
      "loss": 3.7876,
      "step": 180620
    },
    {
      "epoch": 0.3763125,
      "grad_norm": 0.9976949691772461,
      "learning_rate": 0.0002079667399492883,
      "loss": 4.1623,
      "step": 180630
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 0.7809831500053406,
      "learning_rate": 0.00020795764715636822,
      "loss": 3.9606,
      "step": 180640
    },
    {
      "epoch": 0.37635416666666666,
      "grad_norm": 0.8336308598518372,
      "learning_rate": 0.00020794855411309415,
      "loss": 4.0055,
      "step": 180650
    },
    {
      "epoch": 0.376375,
      "grad_norm": 0.8593964576721191,
      "learning_rate": 0.0002079394608195052,
      "loss": 3.8335,
      "step": 180660
    },
    {
      "epoch": 0.3763958333333333,
      "grad_norm": 0.7608790397644043,
      "learning_rate": 0.00020793036727564072,
      "loss": 4.1802,
      "step": 180670
    },
    {
      "epoch": 0.3764166666666667,
      "grad_norm": 0.8002671599388123,
      "learning_rate": 0.00020792127348154003,
      "loss": 3.8688,
      "step": 180680
    },
    {
      "epoch": 0.3764375,
      "grad_norm": 0.8590700626373291,
      "learning_rate": 0.0002079121794372423,
      "loss": 3.7983,
      "step": 180690
    },
    {
      "epoch": 0.37645833333333334,
      "grad_norm": 0.774639904499054,
      "learning_rate": 0.00020790308514278695,
      "loss": 4.2044,
      "step": 180700
    },
    {
      "epoch": 0.37647916666666664,
      "grad_norm": 0.7915239930152893,
      "learning_rate": 0.00020789399059821314,
      "loss": 3.8899,
      "step": 180710
    },
    {
      "epoch": 0.3765,
      "grad_norm": 0.7993525862693787,
      "learning_rate": 0.00020788489580356019,
      "loss": 3.8516,
      "step": 180720
    },
    {
      "epoch": 0.37652083333333336,
      "grad_norm": 0.8026728630065918,
      "learning_rate": 0.00020787580075886744,
      "loss": 4.1096,
      "step": 180730
    },
    {
      "epoch": 0.37654166666666666,
      "grad_norm": 0.7374939918518066,
      "learning_rate": 0.00020786670546417413,
      "loss": 3.8672,
      "step": 180740
    },
    {
      "epoch": 0.3765625,
      "grad_norm": 0.7550307512283325,
      "learning_rate": 0.00020785760991951955,
      "loss": 3.8939,
      "step": 180750
    },
    {
      "epoch": 0.3765833333333333,
      "grad_norm": 0.9054502248764038,
      "learning_rate": 0.00020784851412494304,
      "loss": 4.0433,
      "step": 180760
    },
    {
      "epoch": 0.3766041666666667,
      "grad_norm": 0.8814800381660461,
      "learning_rate": 0.00020783941808048375,
      "loss": 4.0006,
      "step": 180770
    },
    {
      "epoch": 0.376625,
      "grad_norm": 0.8919636607170105,
      "learning_rate": 0.00020783032178618114,
      "loss": 3.9016,
      "step": 180780
    },
    {
      "epoch": 0.37664583333333335,
      "grad_norm": 0.7641777992248535,
      "learning_rate": 0.00020782122524207446,
      "loss": 3.9361,
      "step": 180790
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 0.8176330924034119,
      "learning_rate": 0.0002078121284482029,
      "loss": 3.941,
      "step": 180800
    },
    {
      "epoch": 0.3766875,
      "grad_norm": 1.022975206375122,
      "learning_rate": 0.00020780303140460583,
      "loss": 3.9702,
      "step": 180810
    },
    {
      "epoch": 0.3767083333333333,
      "grad_norm": 0.7840420007705688,
      "learning_rate": 0.00020779393411132262,
      "loss": 3.9481,
      "step": 180820
    },
    {
      "epoch": 0.37672916666666667,
      "grad_norm": 0.8154148459434509,
      "learning_rate": 0.00020778483656839247,
      "loss": 4.0263,
      "step": 180830
    },
    {
      "epoch": 0.37675,
      "grad_norm": 0.7908229827880859,
      "learning_rate": 0.00020777573877585464,
      "loss": 4.0474,
      "step": 180840
    },
    {
      "epoch": 0.37677083333333333,
      "grad_norm": 0.759599506855011,
      "learning_rate": 0.00020776664073374855,
      "loss": 3.8982,
      "step": 180850
    },
    {
      "epoch": 0.3767916666666667,
      "grad_norm": 0.8458876609802246,
      "learning_rate": 0.00020775754244211343,
      "loss": 4.0317,
      "step": 180860
    },
    {
      "epoch": 0.3768125,
      "grad_norm": 0.8097103834152222,
      "learning_rate": 0.0002077484439009885,
      "loss": 3.9089,
      "step": 180870
    },
    {
      "epoch": 0.37683333333333335,
      "grad_norm": 0.8760379552841187,
      "learning_rate": 0.00020773934511041325,
      "loss": 3.8262,
      "step": 180880
    },
    {
      "epoch": 0.37685416666666666,
      "grad_norm": 0.8057441115379333,
      "learning_rate": 0.00020773024607042686,
      "loss": 3.8124,
      "step": 180890
    },
    {
      "epoch": 0.376875,
      "grad_norm": 0.8297159075737,
      "learning_rate": 0.00020772114678106865,
      "loss": 4.0265,
      "step": 180900
    },
    {
      "epoch": 0.3768958333333333,
      "grad_norm": 0.7953928709030151,
      "learning_rate": 0.00020771204724237793,
      "loss": 3.797,
      "step": 180910
    },
    {
      "epoch": 0.3769166666666667,
      "grad_norm": 0.802203357219696,
      "learning_rate": 0.00020770294745439403,
      "loss": 4.0331,
      "step": 180920
    },
    {
      "epoch": 0.3769375,
      "grad_norm": 0.8300957083702087,
      "learning_rate": 0.00020769384741715623,
      "loss": 4.0145,
      "step": 180930
    },
    {
      "epoch": 0.37695833333333334,
      "grad_norm": 0.864856481552124,
      "learning_rate": 0.00020768474713070382,
      "loss": 3.9942,
      "step": 180940
    },
    {
      "epoch": 0.37697916666666664,
      "grad_norm": 0.8568112254142761,
      "learning_rate": 0.00020767564659507617,
      "loss": 3.937,
      "step": 180950
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.7911821603775024,
      "learning_rate": 0.00020766654581031257,
      "loss": 4.069,
      "step": 180960
    },
    {
      "epoch": 0.37702083333333336,
      "grad_norm": 0.7991981506347656,
      "learning_rate": 0.00020765744477645228,
      "loss": 3.8248,
      "step": 180970
    },
    {
      "epoch": 0.37704166666666666,
      "grad_norm": 0.8317744731903076,
      "learning_rate": 0.00020764834349353464,
      "loss": 3.9701,
      "step": 180980
    },
    {
      "epoch": 0.3770625,
      "grad_norm": 0.8149412870407104,
      "learning_rate": 0.000207639241961599,
      "loss": 3.879,
      "step": 180990
    },
    {
      "epoch": 0.3770833333333333,
      "grad_norm": 0.8103992342948914,
      "learning_rate": 0.00020763014018068462,
      "loss": 3.9295,
      "step": 181000
    },
    {
      "epoch": 0.3770833333333333,
      "eval_loss": 3.6699154376983643,
      "eval_runtime": 6.801,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 181000
    },
    {
      "epoch": 0.3771041666666667,
      "grad_norm": 0.8040991425514221,
      "learning_rate": 0.00020762103815083087,
      "loss": 4.0565,
      "step": 181010
    },
    {
      "epoch": 0.377125,
      "grad_norm": 0.7801553010940552,
      "learning_rate": 0.00020761193587207706,
      "loss": 3.8933,
      "step": 181020
    },
    {
      "epoch": 0.37714583333333335,
      "grad_norm": 0.8353037238121033,
      "learning_rate": 0.0002076028333444625,
      "loss": 4.0316,
      "step": 181030
    },
    {
      "epoch": 0.37716666666666665,
      "grad_norm": 0.8528782725334167,
      "learning_rate": 0.00020759373056802646,
      "loss": 4.0363,
      "step": 181040
    },
    {
      "epoch": 0.3771875,
      "grad_norm": 0.7583286762237549,
      "learning_rate": 0.00020758462754280835,
      "loss": 4.0567,
      "step": 181050
    },
    {
      "epoch": 0.3772083333333333,
      "grad_norm": 0.8488799333572388,
      "learning_rate": 0.0002075755242688474,
      "loss": 3.9811,
      "step": 181060
    },
    {
      "epoch": 0.37722916666666667,
      "grad_norm": 0.7936094999313354,
      "learning_rate": 0.00020756642074618297,
      "loss": 3.9893,
      "step": 181070
    },
    {
      "epoch": 0.37725,
      "grad_norm": 0.9902555346488953,
      "learning_rate": 0.0002075573169748544,
      "loss": 3.9722,
      "step": 181080
    },
    {
      "epoch": 0.37727083333333333,
      "grad_norm": 0.8732287883758545,
      "learning_rate": 0.000207548212954901,
      "loss": 3.9561,
      "step": 181090
    },
    {
      "epoch": 0.3772916666666667,
      "grad_norm": 0.7916266322135925,
      "learning_rate": 0.00020753910868636215,
      "loss": 4.1138,
      "step": 181100
    },
    {
      "epoch": 0.3773125,
      "grad_norm": 0.820003092288971,
      "learning_rate": 0.00020753000416927705,
      "loss": 3.9169,
      "step": 181110
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 0.7853191494941711,
      "learning_rate": 0.00020752089940368515,
      "loss": 4.0643,
      "step": 181120
    },
    {
      "epoch": 0.37735416666666666,
      "grad_norm": 0.9143486618995667,
      "learning_rate": 0.00020751179438962573,
      "loss": 4.0644,
      "step": 181130
    },
    {
      "epoch": 0.377375,
      "grad_norm": 0.7378573417663574,
      "learning_rate": 0.00020750268912713806,
      "loss": 3.8945,
      "step": 181140
    },
    {
      "epoch": 0.3773958333333333,
      "grad_norm": 0.7808645963668823,
      "learning_rate": 0.00020749358361626163,
      "loss": 3.9934,
      "step": 181150
    },
    {
      "epoch": 0.3774166666666667,
      "grad_norm": 0.930107057094574,
      "learning_rate": 0.00020748447785703565,
      "loss": 3.8079,
      "step": 181160
    },
    {
      "epoch": 0.3774375,
      "grad_norm": 0.7912294864654541,
      "learning_rate": 0.00020747537184949945,
      "loss": 4.1226,
      "step": 181170
    },
    {
      "epoch": 0.37745833333333334,
      "grad_norm": 0.8209898471832275,
      "learning_rate": 0.00020746626559369242,
      "loss": 3.9026,
      "step": 181180
    },
    {
      "epoch": 0.37747916666666664,
      "grad_norm": 0.76459801197052,
      "learning_rate": 0.00020745715908965383,
      "loss": 3.9299,
      "step": 181190
    },
    {
      "epoch": 0.3775,
      "grad_norm": 0.9129888415336609,
      "learning_rate": 0.0002074480523374231,
      "loss": 3.7525,
      "step": 181200
    },
    {
      "epoch": 0.37752083333333336,
      "grad_norm": 0.7176045775413513,
      "learning_rate": 0.00020743894533703953,
      "loss": 3.9886,
      "step": 181210
    },
    {
      "epoch": 0.37754166666666666,
      "grad_norm": 0.8002221584320068,
      "learning_rate": 0.0002074298380885424,
      "loss": 3.8974,
      "step": 181220
    },
    {
      "epoch": 0.3775625,
      "grad_norm": 0.8626331090927124,
      "learning_rate": 0.00020742073059197113,
      "loss": 3.9349,
      "step": 181230
    },
    {
      "epoch": 0.3775833333333333,
      "grad_norm": 0.8386013507843018,
      "learning_rate": 0.00020741162284736506,
      "loss": 4.1453,
      "step": 181240
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 0.7751058340072632,
      "learning_rate": 0.00020740251485476345,
      "loss": 4.0711,
      "step": 181250
    },
    {
      "epoch": 0.377625,
      "grad_norm": 0.7775140404701233,
      "learning_rate": 0.0002073934066142057,
      "loss": 3.9874,
      "step": 181260
    },
    {
      "epoch": 0.37764583333333335,
      "grad_norm": 0.8626095056533813,
      "learning_rate": 0.00020738429812573118,
      "loss": 3.9644,
      "step": 181270
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 0.7681931853294373,
      "learning_rate": 0.0002073751893893792,
      "loss": 4.0454,
      "step": 181280
    },
    {
      "epoch": 0.3776875,
      "grad_norm": 0.7780680656433105,
      "learning_rate": 0.00020736608040518913,
      "loss": 4.0237,
      "step": 181290
    },
    {
      "epoch": 0.3777083333333333,
      "grad_norm": 0.8093820214271545,
      "learning_rate": 0.0002073569711732003,
      "loss": 3.8246,
      "step": 181300
    },
    {
      "epoch": 0.37772916666666667,
      "grad_norm": 0.7699819803237915,
      "learning_rate": 0.00020734786169345203,
      "loss": 3.8021,
      "step": 181310
    },
    {
      "epoch": 0.37775,
      "grad_norm": 0.8663231730461121,
      "learning_rate": 0.0002073387519659837,
      "loss": 3.9974,
      "step": 181320
    },
    {
      "epoch": 0.37777083333333333,
      "grad_norm": 0.8729103803634644,
      "learning_rate": 0.00020732964199083467,
      "loss": 3.9063,
      "step": 181330
    },
    {
      "epoch": 0.3777916666666667,
      "grad_norm": 0.7988868355751038,
      "learning_rate": 0.00020732053176804427,
      "loss": 3.9565,
      "step": 181340
    },
    {
      "epoch": 0.3778125,
      "grad_norm": 0.9123815298080444,
      "learning_rate": 0.0002073114212976519,
      "loss": 3.9998,
      "step": 181350
    },
    {
      "epoch": 0.37783333333333335,
      "grad_norm": 0.7678574323654175,
      "learning_rate": 0.00020730231057969684,
      "loss": 4.0217,
      "step": 181360
    },
    {
      "epoch": 0.37785416666666666,
      "grad_norm": 0.8098852038383484,
      "learning_rate": 0.00020729319961421843,
      "loss": 3.9452,
      "step": 181370
    },
    {
      "epoch": 0.377875,
      "grad_norm": 0.7861517667770386,
      "learning_rate": 0.00020728408840125617,
      "loss": 3.9374,
      "step": 181380
    },
    {
      "epoch": 0.3778958333333333,
      "grad_norm": 0.8138147592544556,
      "learning_rate": 0.0002072749769408493,
      "loss": 3.9667,
      "step": 181390
    },
    {
      "epoch": 0.3779166666666667,
      "grad_norm": 0.8220028877258301,
      "learning_rate": 0.0002072658652330372,
      "loss": 3.9124,
      "step": 181400
    },
    {
      "epoch": 0.3779375,
      "grad_norm": 0.7424938678741455,
      "learning_rate": 0.0002072567532778592,
      "loss": 4.0377,
      "step": 181410
    },
    {
      "epoch": 0.37795833333333334,
      "grad_norm": 0.8276353478431702,
      "learning_rate": 0.0002072476410753547,
      "loss": 3.991,
      "step": 181420
    },
    {
      "epoch": 0.37797916666666664,
      "grad_norm": 0.8661589026451111,
      "learning_rate": 0.00020723852862556305,
      "loss": 4.0888,
      "step": 181430
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.7548835277557373,
      "learning_rate": 0.00020722941592852363,
      "loss": 4.0054,
      "step": 181440
    },
    {
      "epoch": 0.3780208333333333,
      "grad_norm": 0.7545599341392517,
      "learning_rate": 0.00020722030298427576,
      "loss": 3.9274,
      "step": 181450
    },
    {
      "epoch": 0.37804166666666666,
      "grad_norm": 0.8593860864639282,
      "learning_rate": 0.00020721118979285884,
      "loss": 3.9023,
      "step": 181460
    },
    {
      "epoch": 0.3780625,
      "grad_norm": 0.8724414110183716,
      "learning_rate": 0.00020720207635431222,
      "loss": 3.9466,
      "step": 181470
    },
    {
      "epoch": 0.3780833333333333,
      "grad_norm": 0.954442024230957,
      "learning_rate": 0.00020719296266867528,
      "loss": 4.0313,
      "step": 181480
    },
    {
      "epoch": 0.3781041666666667,
      "grad_norm": 0.874919593334198,
      "learning_rate": 0.0002071838487359874,
      "loss": 4.0725,
      "step": 181490
    },
    {
      "epoch": 0.378125,
      "grad_norm": 0.8204424977302551,
      "learning_rate": 0.0002071747345562879,
      "loss": 4.0526,
      "step": 181500
    },
    {
      "epoch": 0.37814583333333335,
      "grad_norm": 0.7583501935005188,
      "learning_rate": 0.00020716562012961618,
      "loss": 4.0691,
      "step": 181510
    },
    {
      "epoch": 0.37816666666666665,
      "grad_norm": 0.7785010933876038,
      "learning_rate": 0.00020715650545601163,
      "loss": 3.9879,
      "step": 181520
    },
    {
      "epoch": 0.3781875,
      "grad_norm": 1.073784589767456,
      "learning_rate": 0.0002071473905355136,
      "loss": 4.0142,
      "step": 181530
    },
    {
      "epoch": 0.3782083333333333,
      "grad_norm": 0.7891635894775391,
      "learning_rate": 0.0002071382753681614,
      "loss": 3.8155,
      "step": 181540
    },
    {
      "epoch": 0.37822916666666667,
      "grad_norm": 0.695406973361969,
      "learning_rate": 0.00020712915995399454,
      "loss": 3.9795,
      "step": 181550
    },
    {
      "epoch": 0.37825,
      "grad_norm": 0.7763595581054688,
      "learning_rate": 0.0002071200442930523,
      "loss": 4.0113,
      "step": 181560
    },
    {
      "epoch": 0.37827083333333333,
      "grad_norm": 0.8746078610420227,
      "learning_rate": 0.00020711092838537407,
      "loss": 4.0188,
      "step": 181570
    },
    {
      "epoch": 0.3782916666666667,
      "grad_norm": 0.8619527220726013,
      "learning_rate": 0.00020710181223099926,
      "loss": 3.9183,
      "step": 181580
    },
    {
      "epoch": 0.3783125,
      "grad_norm": 1.0545594692230225,
      "learning_rate": 0.00020709269582996722,
      "loss": 3.7617,
      "step": 181590
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 0.7196412086486816,
      "learning_rate": 0.00020708357918231728,
      "loss": 4.1021,
      "step": 181600
    },
    {
      "epoch": 0.37835416666666666,
      "grad_norm": 0.936438262462616,
      "learning_rate": 0.00020707446228808893,
      "loss": 3.9314,
      "step": 181610
    },
    {
      "epoch": 0.378375,
      "grad_norm": 0.6989050507545471,
      "learning_rate": 0.0002070653451473215,
      "loss": 3.9349,
      "step": 181620
    },
    {
      "epoch": 0.3783958333333333,
      "grad_norm": 0.7894084453582764,
      "learning_rate": 0.00020705622776005434,
      "loss": 4.0293,
      "step": 181630
    },
    {
      "epoch": 0.3784166666666667,
      "grad_norm": 0.7909161448478699,
      "learning_rate": 0.00020704711012632684,
      "loss": 3.8574,
      "step": 181640
    },
    {
      "epoch": 0.3784375,
      "grad_norm": 0.8013380169868469,
      "learning_rate": 0.00020703799224617843,
      "loss": 3.8681,
      "step": 181650
    },
    {
      "epoch": 0.37845833333333334,
      "grad_norm": 0.818958044052124,
      "learning_rate": 0.0002070288741196485,
      "loss": 3.9926,
      "step": 181660
    },
    {
      "epoch": 0.37847916666666664,
      "grad_norm": 0.8202728033065796,
      "learning_rate": 0.00020701975574677635,
      "loss": 3.8715,
      "step": 181670
    },
    {
      "epoch": 0.3785,
      "grad_norm": 0.7788850665092468,
      "learning_rate": 0.00020701063712760145,
      "loss": 3.8883,
      "step": 181680
    },
    {
      "epoch": 0.3785208333333333,
      "grad_norm": 0.7680433988571167,
      "learning_rate": 0.0002070015182621632,
      "loss": 3.9197,
      "step": 181690
    },
    {
      "epoch": 0.37854166666666667,
      "grad_norm": 0.8440110683441162,
      "learning_rate": 0.0002069923991505009,
      "loss": 4.0352,
      "step": 181700
    },
    {
      "epoch": 0.3785625,
      "grad_norm": 1.3247779607772827,
      "learning_rate": 0.000206983279792654,
      "loss": 3.8171,
      "step": 181710
    },
    {
      "epoch": 0.3785833333333333,
      "grad_norm": 1.0645408630371094,
      "learning_rate": 0.00020697416018866194,
      "loss": 4.1378,
      "step": 181720
    },
    {
      "epoch": 0.3786041666666667,
      "grad_norm": 0.7535272836685181,
      "learning_rate": 0.00020696504033856399,
      "loss": 4.1223,
      "step": 181730
    },
    {
      "epoch": 0.378625,
      "grad_norm": 0.7887020111083984,
      "learning_rate": 0.00020695592024239963,
      "loss": 3.9987,
      "step": 181740
    },
    {
      "epoch": 0.37864583333333335,
      "grad_norm": 0.7525006532669067,
      "learning_rate": 0.00020694679990020828,
      "loss": 3.952,
      "step": 181750
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 0.7542239427566528,
      "learning_rate": 0.0002069376793120293,
      "loss": 3.8779,
      "step": 181760
    },
    {
      "epoch": 0.3786875,
      "grad_norm": 0.8018816709518433,
      "learning_rate": 0.00020692855847790202,
      "loss": 4.1099,
      "step": 181770
    },
    {
      "epoch": 0.3787083333333333,
      "grad_norm": 0.926159679889679,
      "learning_rate": 0.00020691943739786593,
      "loss": 4.0127,
      "step": 181780
    },
    {
      "epoch": 0.3787291666666667,
      "grad_norm": 0.803526759147644,
      "learning_rate": 0.00020691031607196042,
      "loss": 3.8805,
      "step": 181790
    },
    {
      "epoch": 0.37875,
      "grad_norm": 0.7580192685127258,
      "learning_rate": 0.00020690119450022485,
      "loss": 3.838,
      "step": 181800
    },
    {
      "epoch": 0.37877083333333333,
      "grad_norm": 0.7354386448860168,
      "learning_rate": 0.00020689207268269864,
      "loss": 4.0852,
      "step": 181810
    },
    {
      "epoch": 0.3787916666666667,
      "grad_norm": 0.7959159016609192,
      "learning_rate": 0.0002068829506194212,
      "loss": 3.923,
      "step": 181820
    },
    {
      "epoch": 0.3788125,
      "grad_norm": 0.7747985124588013,
      "learning_rate": 0.00020687382831043199,
      "loss": 3.9405,
      "step": 181830
    },
    {
      "epoch": 0.37883333333333336,
      "grad_norm": 0.7938662767410278,
      "learning_rate": 0.00020686470575577028,
      "loss": 3.9361,
      "step": 181840
    },
    {
      "epoch": 0.37885416666666666,
      "grad_norm": 0.9059613943099976,
      "learning_rate": 0.00020685558295547554,
      "loss": 3.8665,
      "step": 181850
    },
    {
      "epoch": 0.378875,
      "grad_norm": 0.8232626914978027,
      "learning_rate": 0.00020684645990958723,
      "loss": 3.9059,
      "step": 181860
    },
    {
      "epoch": 0.3788958333333333,
      "grad_norm": 0.8834039568901062,
      "learning_rate": 0.00020683733661814468,
      "loss": 3.8552,
      "step": 181870
    },
    {
      "epoch": 0.3789166666666667,
      "grad_norm": 0.8435128927230835,
      "learning_rate": 0.00020682821308118737,
      "loss": 3.6616,
      "step": 181880
    },
    {
      "epoch": 0.3789375,
      "grad_norm": 0.8029159903526306,
      "learning_rate": 0.00020681908929875468,
      "loss": 3.8282,
      "step": 181890
    },
    {
      "epoch": 0.37895833333333334,
      "grad_norm": 0.815609872341156,
      "learning_rate": 0.000206809965270886,
      "loss": 3.9805,
      "step": 181900
    },
    {
      "epoch": 0.37897916666666664,
      "grad_norm": 0.7946432828903198,
      "learning_rate": 0.0002068008409976207,
      "loss": 3.9541,
      "step": 181910
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.9221199154853821,
      "learning_rate": 0.00020679171647899832,
      "loss": 4.0735,
      "step": 181920
    },
    {
      "epoch": 0.3790208333333333,
      "grad_norm": 0.7831931710243225,
      "learning_rate": 0.0002067825917150582,
      "loss": 3.8779,
      "step": 181930
    },
    {
      "epoch": 0.37904166666666667,
      "grad_norm": 0.8540181517601013,
      "learning_rate": 0.0002067734667058397,
      "loss": 3.9172,
      "step": 181940
    },
    {
      "epoch": 0.3790625,
      "grad_norm": 0.8757852911949158,
      "learning_rate": 0.00020676434145138237,
      "loss": 4.0267,
      "step": 181950
    },
    {
      "epoch": 0.3790833333333333,
      "grad_norm": 0.7777619361877441,
      "learning_rate": 0.00020675521595172553,
      "loss": 3.7746,
      "step": 181960
    },
    {
      "epoch": 0.3791041666666667,
      "grad_norm": 0.7655578255653381,
      "learning_rate": 0.00020674609020690862,
      "loss": 3.8986,
      "step": 181970
    },
    {
      "epoch": 0.379125,
      "grad_norm": 0.8602051734924316,
      "learning_rate": 0.00020673696421697103,
      "loss": 3.7845,
      "step": 181980
    },
    {
      "epoch": 0.37914583333333335,
      "grad_norm": 0.7590323090553284,
      "learning_rate": 0.00020672783798195228,
      "loss": 3.9232,
      "step": 181990
    },
    {
      "epoch": 0.37916666666666665,
      "grad_norm": 0.8859683275222778,
      "learning_rate": 0.0002067187115018917,
      "loss": 3.9957,
      "step": 182000
    },
    {
      "epoch": 0.37916666666666665,
      "eval_loss": 3.6828837394714355,
      "eval_runtime": 7.2624,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 182000
    },
    {
      "epoch": 0.3791875,
      "grad_norm": 0.7689818143844604,
      "learning_rate": 0.00020670958477682867,
      "loss": 3.9346,
      "step": 182010
    },
    {
      "epoch": 0.3792083333333333,
      "grad_norm": 0.8642706871032715,
      "learning_rate": 0.00020670045780680273,
      "loss": 4.0886,
      "step": 182020
    },
    {
      "epoch": 0.3792291666666667,
      "grad_norm": 0.807913601398468,
      "learning_rate": 0.0002066913305918533,
      "loss": 3.9766,
      "step": 182030
    },
    {
      "epoch": 0.37925,
      "grad_norm": 0.7990118861198425,
      "learning_rate": 0.0002066822031320197,
      "loss": 3.7606,
      "step": 182040
    },
    {
      "epoch": 0.37927083333333333,
      "grad_norm": 1.0069212913513184,
      "learning_rate": 0.00020667307542734142,
      "loss": 4.1405,
      "step": 182050
    },
    {
      "epoch": 0.3792916666666667,
      "grad_norm": 0.8377295732498169,
      "learning_rate": 0.00020666394747785794,
      "loss": 3.854,
      "step": 182060
    },
    {
      "epoch": 0.3793125,
      "grad_norm": 0.7786423563957214,
      "learning_rate": 0.00020665481928360858,
      "loss": 3.8719,
      "step": 182070
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 0.893775224685669,
      "learning_rate": 0.00020664569084463287,
      "loss": 3.9504,
      "step": 182080
    },
    {
      "epoch": 0.37935416666666666,
      "grad_norm": 0.9663839340209961,
      "learning_rate": 0.00020663656216097015,
      "loss": 4.0616,
      "step": 182090
    },
    {
      "epoch": 0.379375,
      "grad_norm": 0.7972050309181213,
      "learning_rate": 0.00020662743323265992,
      "loss": 3.944,
      "step": 182100
    },
    {
      "epoch": 0.3793958333333333,
      "grad_norm": 0.818138837814331,
      "learning_rate": 0.00020661830405974162,
      "loss": 3.9736,
      "step": 182110
    },
    {
      "epoch": 0.3794166666666667,
      "grad_norm": 0.8476619720458984,
      "learning_rate": 0.00020660917464225464,
      "loss": 3.9546,
      "step": 182120
    },
    {
      "epoch": 0.3794375,
      "grad_norm": 0.8382546901702881,
      "learning_rate": 0.0002066000449802384,
      "loss": 3.9219,
      "step": 182130
    },
    {
      "epoch": 0.37945833333333334,
      "grad_norm": 0.8200608491897583,
      "learning_rate": 0.00020659091507373243,
      "loss": 3.864,
      "step": 182140
    },
    {
      "epoch": 0.37947916666666665,
      "grad_norm": 0.8564023971557617,
      "learning_rate": 0.00020658178492277606,
      "loss": 4.0314,
      "step": 182150
    },
    {
      "epoch": 0.3795,
      "grad_norm": 0.7970272302627563,
      "learning_rate": 0.0002065726545274088,
      "loss": 4.02,
      "step": 182160
    },
    {
      "epoch": 0.3795208333333333,
      "grad_norm": 0.8374611139297485,
      "learning_rate": 0.00020656352388767006,
      "loss": 4.1029,
      "step": 182170
    },
    {
      "epoch": 0.37954166666666667,
      "grad_norm": 0.7550624012947083,
      "learning_rate": 0.00020655439300359927,
      "loss": 3.9547,
      "step": 182180
    },
    {
      "epoch": 0.3795625,
      "grad_norm": 0.8521561026573181,
      "learning_rate": 0.00020654526187523591,
      "loss": 4.1602,
      "step": 182190
    },
    {
      "epoch": 0.37958333333333333,
      "grad_norm": 0.8497228026390076,
      "learning_rate": 0.00020653613050261943,
      "loss": 3.8053,
      "step": 182200
    },
    {
      "epoch": 0.3796041666666667,
      "grad_norm": 1.0808461904525757,
      "learning_rate": 0.00020652699888578917,
      "loss": 4.2016,
      "step": 182210
    },
    {
      "epoch": 0.379625,
      "grad_norm": 0.7604379653930664,
      "learning_rate": 0.0002065178670247847,
      "loss": 3.8291,
      "step": 182220
    },
    {
      "epoch": 0.37964583333333335,
      "grad_norm": 0.7393806576728821,
      "learning_rate": 0.00020650873491964543,
      "loss": 3.7959,
      "step": 182230
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 0.8228068351745605,
      "learning_rate": 0.0002064996025704107,
      "loss": 3.7735,
      "step": 182240
    },
    {
      "epoch": 0.3796875,
      "grad_norm": 0.7083495259284973,
      "learning_rate": 0.00020649046997712017,
      "loss": 3.8639,
      "step": 182250
    },
    {
      "epoch": 0.3797083333333333,
      "grad_norm": 0.804357647895813,
      "learning_rate": 0.0002064813371398131,
      "loss": 3.9001,
      "step": 182260
    },
    {
      "epoch": 0.3797291666666667,
      "grad_norm": 0.89864182472229,
      "learning_rate": 0.00020647220405852905,
      "loss": 3.8059,
      "step": 182270
    },
    {
      "epoch": 0.37975,
      "grad_norm": 0.9938352704048157,
      "learning_rate": 0.00020646307073330739,
      "loss": 3.988,
      "step": 182280
    },
    {
      "epoch": 0.37977083333333334,
      "grad_norm": 1.0362930297851562,
      "learning_rate": 0.00020645393716418764,
      "loss": 3.9237,
      "step": 182290
    },
    {
      "epoch": 0.3797916666666667,
      "grad_norm": 0.8100041151046753,
      "learning_rate": 0.00020644480335120922,
      "loss": 3.8851,
      "step": 182300
    },
    {
      "epoch": 0.3798125,
      "grad_norm": 0.8740254044532776,
      "learning_rate": 0.0002064356692944116,
      "loss": 3.8744,
      "step": 182310
    },
    {
      "epoch": 0.37983333333333336,
      "grad_norm": 1.058341145515442,
      "learning_rate": 0.0002064265349938342,
      "loss": 4.07,
      "step": 182320
    },
    {
      "epoch": 0.37985416666666666,
      "grad_norm": 0.768631637096405,
      "learning_rate": 0.00020641740044951654,
      "loss": 3.8124,
      "step": 182330
    },
    {
      "epoch": 0.379875,
      "grad_norm": 0.7641202807426453,
      "learning_rate": 0.00020640826566149803,
      "loss": 4.2075,
      "step": 182340
    },
    {
      "epoch": 0.3798958333333333,
      "grad_norm": 0.8372697234153748,
      "learning_rate": 0.00020639913062981812,
      "loss": 3.9157,
      "step": 182350
    },
    {
      "epoch": 0.3799166666666667,
      "grad_norm": 0.791157603263855,
      "learning_rate": 0.00020638999535451633,
      "loss": 3.8697,
      "step": 182360
    },
    {
      "epoch": 0.3799375,
      "grad_norm": 0.819101095199585,
      "learning_rate": 0.00020638085983563204,
      "loss": 4.0328,
      "step": 182370
    },
    {
      "epoch": 0.37995833333333334,
      "grad_norm": 0.7300788760185242,
      "learning_rate": 0.00020637172407320478,
      "loss": 4.0602,
      "step": 182380
    },
    {
      "epoch": 0.37997916666666665,
      "grad_norm": 0.8297311067581177,
      "learning_rate": 0.000206362588067274,
      "loss": 3.8818,
      "step": 182390
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9259467124938965,
      "learning_rate": 0.0002063534518178791,
      "loss": 3.8981,
      "step": 182400
    },
    {
      "epoch": 0.3800208333333333,
      "grad_norm": 0.8156601786613464,
      "learning_rate": 0.0002063443153250596,
      "loss": 3.6686,
      "step": 182410
    },
    {
      "epoch": 0.38004166666666667,
      "grad_norm": 0.8011270761489868,
      "learning_rate": 0.00020633517858885498,
      "loss": 3.9133,
      "step": 182420
    },
    {
      "epoch": 0.3800625,
      "grad_norm": 0.9625239372253418,
      "learning_rate": 0.00020632604160930468,
      "loss": 3.9264,
      "step": 182430
    },
    {
      "epoch": 0.38008333333333333,
      "grad_norm": 0.7707148790359497,
      "learning_rate": 0.00020631690438644817,
      "loss": 3.9366,
      "step": 182440
    },
    {
      "epoch": 0.3801041666666667,
      "grad_norm": 0.8451889753341675,
      "learning_rate": 0.00020630776692032496,
      "loss": 4.0664,
      "step": 182450
    },
    {
      "epoch": 0.380125,
      "grad_norm": 0.7311269044876099,
      "learning_rate": 0.00020629862921097444,
      "loss": 3.9234,
      "step": 182460
    },
    {
      "epoch": 0.38014583333333335,
      "grad_norm": 0.7990831136703491,
      "learning_rate": 0.00020628949125843616,
      "loss": 3.9349,
      "step": 182470
    },
    {
      "epoch": 0.38016666666666665,
      "grad_norm": 0.7801277041435242,
      "learning_rate": 0.00020628035306274954,
      "loss": 4.0775,
      "step": 182480
    },
    {
      "epoch": 0.3801875,
      "grad_norm": 0.8373782634735107,
      "learning_rate": 0.00020627121462395408,
      "loss": 4.0295,
      "step": 182490
    },
    {
      "epoch": 0.3802083333333333,
      "grad_norm": 0.7682083249092102,
      "learning_rate": 0.00020626207594208929,
      "loss": 3.9866,
      "step": 182500
    },
    {
      "epoch": 0.3802291666666667,
      "grad_norm": 1.0625203847885132,
      "learning_rate": 0.00020625293701719452,
      "loss": 4.0246,
      "step": 182510
    },
    {
      "epoch": 0.38025,
      "grad_norm": 0.8631958365440369,
      "learning_rate": 0.00020624379784930935,
      "loss": 3.9444,
      "step": 182520
    },
    {
      "epoch": 0.38027083333333334,
      "grad_norm": 0.7951214909553528,
      "learning_rate": 0.00020623465843847328,
      "loss": 4.0243,
      "step": 182530
    },
    {
      "epoch": 0.38029166666666664,
      "grad_norm": 0.8941739201545715,
      "learning_rate": 0.0002062255187847257,
      "loss": 3.8521,
      "step": 182540
    },
    {
      "epoch": 0.3803125,
      "grad_norm": 0.8070735931396484,
      "learning_rate": 0.00020621637888810614,
      "loss": 3.9343,
      "step": 182550
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 0.8498517870903015,
      "learning_rate": 0.00020620723874865415,
      "loss": 3.8299,
      "step": 182560
    },
    {
      "epoch": 0.38035416666666666,
      "grad_norm": 1.0017249584197998,
      "learning_rate": 0.00020619809836640906,
      "loss": 3.893,
      "step": 182570
    },
    {
      "epoch": 0.380375,
      "grad_norm": 0.8714577555656433,
      "learning_rate": 0.00020618895774141043,
      "loss": 3.7752,
      "step": 182580
    },
    {
      "epoch": 0.3803958333333333,
      "grad_norm": 0.8193759322166443,
      "learning_rate": 0.00020617981687369777,
      "loss": 3.9541,
      "step": 182590
    },
    {
      "epoch": 0.3804166666666667,
      "grad_norm": 0.8737110495567322,
      "learning_rate": 0.0002061706757633105,
      "loss": 3.7808,
      "step": 182600
    },
    {
      "epoch": 0.3804375,
      "grad_norm": 0.9151216149330139,
      "learning_rate": 0.00020616153441028816,
      "loss": 3.8446,
      "step": 182610
    },
    {
      "epoch": 0.38045833333333334,
      "grad_norm": 0.8698142766952515,
      "learning_rate": 0.00020615239281467025,
      "loss": 4.0441,
      "step": 182620
    },
    {
      "epoch": 0.38047916666666665,
      "grad_norm": 0.7709510326385498,
      "learning_rate": 0.0002061432509764962,
      "loss": 3.966,
      "step": 182630
    },
    {
      "epoch": 0.3805,
      "grad_norm": 0.9328067302703857,
      "learning_rate": 0.00020613410889580556,
      "loss": 3.9137,
      "step": 182640
    },
    {
      "epoch": 0.3805208333333333,
      "grad_norm": 0.8664053678512573,
      "learning_rate": 0.00020612496657263776,
      "loss": 3.875,
      "step": 182650
    },
    {
      "epoch": 0.38054166666666667,
      "grad_norm": 0.8055638670921326,
      "learning_rate": 0.00020611582400703233,
      "loss": 3.8862,
      "step": 182660
    },
    {
      "epoch": 0.3805625,
      "grad_norm": 0.760261058807373,
      "learning_rate": 0.00020610668119902875,
      "loss": 3.9612,
      "step": 182670
    },
    {
      "epoch": 0.38058333333333333,
      "grad_norm": 0.8477953672409058,
      "learning_rate": 0.0002060975381486665,
      "loss": 4.001,
      "step": 182680
    },
    {
      "epoch": 0.3806041666666667,
      "grad_norm": 0.9263636469841003,
      "learning_rate": 0.00020608839485598512,
      "loss": 4.0891,
      "step": 182690
    },
    {
      "epoch": 0.380625,
      "grad_norm": 0.7811514735221863,
      "learning_rate": 0.00020607925132102412,
      "loss": 4.0483,
      "step": 182700
    },
    {
      "epoch": 0.38064583333333335,
      "grad_norm": 0.9736097455024719,
      "learning_rate": 0.00020607010754382284,
      "loss": 3.7883,
      "step": 182710
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 0.8676441311836243,
      "learning_rate": 0.00020606096352442096,
      "loss": 4.1396,
      "step": 182720
    },
    {
      "epoch": 0.3806875,
      "grad_norm": 0.7905780076980591,
      "learning_rate": 0.0002060518192628579,
      "loss": 3.9211,
      "step": 182730
    },
    {
      "epoch": 0.3807083333333333,
      "grad_norm": 0.8095181584358215,
      "learning_rate": 0.00020604267475917315,
      "loss": 3.9477,
      "step": 182740
    },
    {
      "epoch": 0.3807291666666667,
      "grad_norm": 0.7924585342407227,
      "learning_rate": 0.00020603353001340623,
      "loss": 3.9656,
      "step": 182750
    },
    {
      "epoch": 0.38075,
      "grad_norm": 0.724803626537323,
      "learning_rate": 0.00020602438502559668,
      "loss": 3.9871,
      "step": 182760
    },
    {
      "epoch": 0.38077083333333334,
      "grad_norm": 0.8104422688484192,
      "learning_rate": 0.00020601523979578394,
      "loss": 4.0572,
      "step": 182770
    },
    {
      "epoch": 0.38079166666666664,
      "grad_norm": 0.7859383821487427,
      "learning_rate": 0.0002060060943240075,
      "loss": 3.9979,
      "step": 182780
    },
    {
      "epoch": 0.3808125,
      "grad_norm": 0.8109689354896545,
      "learning_rate": 0.00020599694861030696,
      "loss": 3.7295,
      "step": 182790
    },
    {
      "epoch": 0.38083333333333336,
      "grad_norm": 0.8226852416992188,
      "learning_rate": 0.00020598780265472172,
      "loss": 3.9749,
      "step": 182800
    },
    {
      "epoch": 0.38085416666666666,
      "grad_norm": 0.9258158206939697,
      "learning_rate": 0.00020597865645729133,
      "loss": 3.7518,
      "step": 182810
    },
    {
      "epoch": 0.380875,
      "grad_norm": 0.8226062059402466,
      "learning_rate": 0.00020596951001805531,
      "loss": 3.8537,
      "step": 182820
    },
    {
      "epoch": 0.3808958333333333,
      "grad_norm": 0.7544174194335938,
      "learning_rate": 0.0002059603633370532,
      "loss": 3.941,
      "step": 182830
    },
    {
      "epoch": 0.3809166666666667,
      "grad_norm": 0.7804239988327026,
      "learning_rate": 0.00020595121641432446,
      "loss": 3.9297,
      "step": 182840
    },
    {
      "epoch": 0.3809375,
      "grad_norm": 0.7946019172668457,
      "learning_rate": 0.00020594206924990857,
      "loss": 3.8539,
      "step": 182850
    },
    {
      "epoch": 0.38095833333333334,
      "grad_norm": 0.7729616165161133,
      "learning_rate": 0.00020593292184384513,
      "loss": 4.0794,
      "step": 182860
    },
    {
      "epoch": 0.38097916666666665,
      "grad_norm": 0.873343825340271,
      "learning_rate": 0.0002059237741961736,
      "loss": 3.9608,
      "step": 182870
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.8215559720993042,
      "learning_rate": 0.00020591462630693347,
      "loss": 3.9978,
      "step": 182880
    },
    {
      "epoch": 0.3810208333333333,
      "grad_norm": 0.7941721081733704,
      "learning_rate": 0.0002059054781761643,
      "loss": 3.8277,
      "step": 182890
    },
    {
      "epoch": 0.38104166666666667,
      "grad_norm": 0.8411217331886292,
      "learning_rate": 0.00020589632980390566,
      "loss": 3.9995,
      "step": 182900
    },
    {
      "epoch": 0.3810625,
      "grad_norm": 0.7741181254386902,
      "learning_rate": 0.00020588718119019688,
      "loss": 3.807,
      "step": 182910
    },
    {
      "epoch": 0.38108333333333333,
      "grad_norm": 0.7689210176467896,
      "learning_rate": 0.00020587803233507765,
      "loss": 4.0467,
      "step": 182920
    },
    {
      "epoch": 0.3811041666666667,
      "grad_norm": 0.8023479580879211,
      "learning_rate": 0.00020586888323858747,
      "loss": 3.9608,
      "step": 182930
    },
    {
      "epoch": 0.381125,
      "grad_norm": 0.8881589770317078,
      "learning_rate": 0.00020585973390076578,
      "loss": 3.8982,
      "step": 182940
    },
    {
      "epoch": 0.38114583333333335,
      "grad_norm": 0.9360150694847107,
      "learning_rate": 0.00020585058432165222,
      "loss": 4.0345,
      "step": 182950
    },
    {
      "epoch": 0.38116666666666665,
      "grad_norm": 0.8033786416053772,
      "learning_rate": 0.0002058414345012862,
      "loss": 3.9488,
      "step": 182960
    },
    {
      "epoch": 0.3811875,
      "grad_norm": 0.7643054127693176,
      "learning_rate": 0.0002058322844397073,
      "loss": 3.8478,
      "step": 182970
    },
    {
      "epoch": 0.3812083333333333,
      "grad_norm": 1.0488020181655884,
      "learning_rate": 0.00020582313413695499,
      "loss": 3.8131,
      "step": 182980
    },
    {
      "epoch": 0.3812291666666667,
      "grad_norm": 0.7789106965065002,
      "learning_rate": 0.00020581398359306887,
      "loss": 3.8976,
      "step": 182990
    },
    {
      "epoch": 0.38125,
      "grad_norm": 0.828449547290802,
      "learning_rate": 0.0002058048328080884,
      "loss": 4.0249,
      "step": 183000
    },
    {
      "epoch": 0.38125,
      "eval_loss": 3.672816038131714,
      "eval_runtime": 7.3559,
      "eval_samples_per_second": 1.359,
      "eval_steps_per_second": 0.408,
      "step": 183000
    },
    {
      "epoch": 0.38127083333333334,
      "grad_norm": 0.941993236541748,
      "learning_rate": 0.00020579568178205322,
      "loss": 3.9346,
      "step": 183010
    },
    {
      "epoch": 0.38129166666666664,
      "grad_norm": 0.8734946846961975,
      "learning_rate": 0.0002057865305150027,
      "loss": 4.0251,
      "step": 183020
    },
    {
      "epoch": 0.3813125,
      "grad_norm": 1.9706534147262573,
      "learning_rate": 0.0002057773790069765,
      "loss": 3.9141,
      "step": 183030
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 0.8375985026359558,
      "learning_rate": 0.00020576822725801406,
      "loss": 3.9516,
      "step": 183040
    },
    {
      "epoch": 0.38135416666666666,
      "grad_norm": 0.8686630725860596,
      "learning_rate": 0.00020575907526815498,
      "loss": 3.9826,
      "step": 183050
    },
    {
      "epoch": 0.381375,
      "grad_norm": 0.840886652469635,
      "learning_rate": 0.00020574992303743874,
      "loss": 4.1095,
      "step": 183060
    },
    {
      "epoch": 0.3813958333333333,
      "grad_norm": 0.8610498905181885,
      "learning_rate": 0.00020574077056590497,
      "loss": 3.7922,
      "step": 183070
    },
    {
      "epoch": 0.3814166666666667,
      "grad_norm": 1.026577115058899,
      "learning_rate": 0.00020573161785359303,
      "loss": 3.9899,
      "step": 183080
    },
    {
      "epoch": 0.3814375,
      "grad_norm": 0.8631018400192261,
      "learning_rate": 0.00020572246490054266,
      "loss": 4.1351,
      "step": 183090
    },
    {
      "epoch": 0.38145833333333334,
      "grad_norm": 0.86175936460495,
      "learning_rate": 0.00020571331170679324,
      "loss": 4.0857,
      "step": 183100
    },
    {
      "epoch": 0.38147916666666665,
      "grad_norm": 0.8409514427185059,
      "learning_rate": 0.00020570415827238434,
      "loss": 4.0628,
      "step": 183110
    },
    {
      "epoch": 0.3815,
      "grad_norm": 0.8583815693855286,
      "learning_rate": 0.0002056950045973556,
      "loss": 3.8583,
      "step": 183120
    },
    {
      "epoch": 0.3815208333333333,
      "grad_norm": 0.8600128293037415,
      "learning_rate": 0.00020568585068174645,
      "loss": 3.9401,
      "step": 183130
    },
    {
      "epoch": 0.38154166666666667,
      "grad_norm": 0.9136013388633728,
      "learning_rate": 0.0002056766965255965,
      "loss": 3.991,
      "step": 183140
    },
    {
      "epoch": 0.3815625,
      "grad_norm": 0.7309572100639343,
      "learning_rate": 0.0002056675421289452,
      "loss": 4.043,
      "step": 183150
    },
    {
      "epoch": 0.38158333333333333,
      "grad_norm": 0.7843198180198669,
      "learning_rate": 0.0002056583874918322,
      "loss": 3.9696,
      "step": 183160
    },
    {
      "epoch": 0.3816041666666667,
      "grad_norm": 0.75871741771698,
      "learning_rate": 0.00020564923261429696,
      "loss": 3.8732,
      "step": 183170
    },
    {
      "epoch": 0.381625,
      "grad_norm": 0.7924041748046875,
      "learning_rate": 0.00020564007749637907,
      "loss": 4.1483,
      "step": 183180
    },
    {
      "epoch": 0.38164583333333335,
      "grad_norm": 0.74620121717453,
      "learning_rate": 0.00020563092213811808,
      "loss": 3.9175,
      "step": 183190
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 1.0810352563858032,
      "learning_rate": 0.00020562176653955353,
      "loss": 4.1422,
      "step": 183200
    },
    {
      "epoch": 0.3816875,
      "grad_norm": 0.7866244316101074,
      "learning_rate": 0.00020561261070072494,
      "loss": 4.0816,
      "step": 183210
    },
    {
      "epoch": 0.3817083333333333,
      "grad_norm": 0.7825265526771545,
      "learning_rate": 0.0002056034546216719,
      "loss": 3.7847,
      "step": 183220
    },
    {
      "epoch": 0.3817291666666667,
      "grad_norm": 0.7434515953063965,
      "learning_rate": 0.00020559429830243397,
      "loss": 3.9334,
      "step": 183230
    },
    {
      "epoch": 0.38175,
      "grad_norm": 0.83646160364151,
      "learning_rate": 0.00020558514174305066,
      "loss": 3.9089,
      "step": 183240
    },
    {
      "epoch": 0.38177083333333334,
      "grad_norm": 0.8222284317016602,
      "learning_rate": 0.00020557598494356152,
      "loss": 3.9576,
      "step": 183250
    },
    {
      "epoch": 0.38179166666666664,
      "grad_norm": 0.7194392681121826,
      "learning_rate": 0.0002055668279040062,
      "loss": 3.9946,
      "step": 183260
    },
    {
      "epoch": 0.3818125,
      "grad_norm": 0.7341813445091248,
      "learning_rate": 0.00020555767062442409,
      "loss": 4.1275,
      "step": 183270
    },
    {
      "epoch": 0.38183333333333336,
      "grad_norm": 0.8943121433258057,
      "learning_rate": 0.00020554851310485486,
      "loss": 3.9589,
      "step": 183280
    },
    {
      "epoch": 0.38185416666666666,
      "grad_norm": 0.8433710336685181,
      "learning_rate": 0.0002055393553453381,
      "loss": 4.1098,
      "step": 183290
    },
    {
      "epoch": 0.381875,
      "grad_norm": 0.8759274482727051,
      "learning_rate": 0.0002055301973459132,
      "loss": 4.0869,
      "step": 183300
    },
    {
      "epoch": 0.3818958333333333,
      "grad_norm": 0.8279551863670349,
      "learning_rate": 0.00020552103910661984,
      "loss": 3.8801,
      "step": 183310
    },
    {
      "epoch": 0.3819166666666667,
      "grad_norm": 0.8071465492248535,
      "learning_rate": 0.00020551188062749767,
      "loss": 3.9649,
      "step": 183320
    },
    {
      "epoch": 0.3819375,
      "grad_norm": 0.8472610712051392,
      "learning_rate": 0.00020550272190858606,
      "loss": 3.9604,
      "step": 183330
    },
    {
      "epoch": 0.38195833333333334,
      "grad_norm": 0.7870229482650757,
      "learning_rate": 0.0002054935629499247,
      "loss": 3.8911,
      "step": 183340
    },
    {
      "epoch": 0.38197916666666665,
      "grad_norm": 0.9567539095878601,
      "learning_rate": 0.00020548440375155308,
      "loss": 3.9794,
      "step": 183350
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.8103927373886108,
      "learning_rate": 0.00020547524431351085,
      "loss": 3.8816,
      "step": 183360
    },
    {
      "epoch": 0.3820208333333333,
      "grad_norm": 0.8315306901931763,
      "learning_rate": 0.00020546608463583747,
      "loss": 3.8355,
      "step": 183370
    },
    {
      "epoch": 0.38204166666666667,
      "grad_norm": 0.7797238230705261,
      "learning_rate": 0.0002054569247185726,
      "loss": 3.9428,
      "step": 183380
    },
    {
      "epoch": 0.3820625,
      "grad_norm": 1.1893974542617798,
      "learning_rate": 0.00020544776456175574,
      "loss": 3.9728,
      "step": 183390
    },
    {
      "epoch": 0.38208333333333333,
      "grad_norm": 0.7383859753608704,
      "learning_rate": 0.00020543860416542654,
      "loss": 4.0262,
      "step": 183400
    },
    {
      "epoch": 0.3821041666666667,
      "grad_norm": 0.7535367608070374,
      "learning_rate": 0.00020542944352962443,
      "loss": 3.9058,
      "step": 183410
    },
    {
      "epoch": 0.382125,
      "grad_norm": 1.180207371711731,
      "learning_rate": 0.0002054202826543891,
      "loss": 3.897,
      "step": 183420
    },
    {
      "epoch": 0.38214583333333335,
      "grad_norm": 1.2609702348709106,
      "learning_rate": 0.0002054111215397601,
      "loss": 4.1373,
      "step": 183430
    },
    {
      "epoch": 0.38216666666666665,
      "grad_norm": 0.8801747560501099,
      "learning_rate": 0.00020540196018577696,
      "loss": 4.0023,
      "step": 183440
    },
    {
      "epoch": 0.3821875,
      "grad_norm": 0.7862343192100525,
      "learning_rate": 0.0002053927985924793,
      "loss": 4.0661,
      "step": 183450
    },
    {
      "epoch": 0.3822083333333333,
      "grad_norm": 0.802095353603363,
      "learning_rate": 0.0002053836367599067,
      "loss": 3.8933,
      "step": 183460
    },
    {
      "epoch": 0.3822291666666667,
      "grad_norm": 0.9035215973854065,
      "learning_rate": 0.0002053744746880987,
      "loss": 4.131,
      "step": 183470
    },
    {
      "epoch": 0.38225,
      "grad_norm": 0.7975472211837769,
      "learning_rate": 0.00020536531237709484,
      "loss": 4.0879,
      "step": 183480
    },
    {
      "epoch": 0.38227083333333334,
      "grad_norm": 0.7444075345993042,
      "learning_rate": 0.0002053561498269348,
      "loss": 3.9229,
      "step": 183490
    },
    {
      "epoch": 0.38229166666666664,
      "grad_norm": 1.3317883014678955,
      "learning_rate": 0.0002053469870376581,
      "loss": 3.967,
      "step": 183500
    },
    {
      "epoch": 0.3823125,
      "grad_norm": 0.8437880277633667,
      "learning_rate": 0.00020533782400930427,
      "loss": 3.7686,
      "step": 183510
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 0.8375652432441711,
      "learning_rate": 0.000205328660741913,
      "loss": 3.9751,
      "step": 183520
    },
    {
      "epoch": 0.38235416666666666,
      "grad_norm": 0.8584551215171814,
      "learning_rate": 0.0002053194972355238,
      "loss": 4.0562,
      "step": 183530
    },
    {
      "epoch": 0.382375,
      "grad_norm": 0.809905469417572,
      "learning_rate": 0.00020531033349017625,
      "loss": 3.9289,
      "step": 183540
    },
    {
      "epoch": 0.3823958333333333,
      "grad_norm": 0.8700228333473206,
      "learning_rate": 0.00020530116950591,
      "loss": 3.9049,
      "step": 183550
    },
    {
      "epoch": 0.3824166666666667,
      "grad_norm": 0.915795624256134,
      "learning_rate": 0.00020529200528276453,
      "loss": 3.8183,
      "step": 183560
    },
    {
      "epoch": 0.3824375,
      "grad_norm": 0.8966755867004395,
      "learning_rate": 0.00020528284082077958,
      "loss": 3.7577,
      "step": 183570
    },
    {
      "epoch": 0.38245833333333334,
      "grad_norm": 0.8294914960861206,
      "learning_rate": 0.0002052736761199945,
      "loss": 3.9074,
      "step": 183580
    },
    {
      "epoch": 0.38247916666666665,
      "grad_norm": 0.8072088956832886,
      "learning_rate": 0.00020526451118044908,
      "loss": 3.8431,
      "step": 183590
    },
    {
      "epoch": 0.3825,
      "grad_norm": 0.8078316450119019,
      "learning_rate": 0.0002052553460021829,
      "loss": 3.7984,
      "step": 183600
    },
    {
      "epoch": 0.3825208333333333,
      "grad_norm": 0.7687435746192932,
      "learning_rate": 0.00020524618058523542,
      "loss": 3.9716,
      "step": 183610
    },
    {
      "epoch": 0.38254166666666667,
      "grad_norm": 1.0367523431777954,
      "learning_rate": 0.00020523701492964635,
      "loss": 3.9247,
      "step": 183620
    },
    {
      "epoch": 0.3825625,
      "grad_norm": 0.8181233406066895,
      "learning_rate": 0.0002052278490354553,
      "loss": 3.8052,
      "step": 183630
    },
    {
      "epoch": 0.38258333333333333,
      "grad_norm": 0.7896218299865723,
      "learning_rate": 0.0002052186829027017,
      "loss": 3.9118,
      "step": 183640
    },
    {
      "epoch": 0.3826041666666667,
      "grad_norm": 0.9380615949630737,
      "learning_rate": 0.00020520951653142525,
      "loss": 4.0458,
      "step": 183650
    },
    {
      "epoch": 0.382625,
      "grad_norm": 0.7838051319122314,
      "learning_rate": 0.00020520034992166562,
      "loss": 3.8974,
      "step": 183660
    },
    {
      "epoch": 0.38264583333333335,
      "grad_norm": 0.9343448281288147,
      "learning_rate": 0.00020519118307346225,
      "loss": 4.0392,
      "step": 183670
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 1.0135691165924072,
      "learning_rate": 0.00020518201598685484,
      "loss": 3.9926,
      "step": 183680
    },
    {
      "epoch": 0.3826875,
      "grad_norm": 0.9754766821861267,
      "learning_rate": 0.00020517284866188298,
      "loss": 4.1492,
      "step": 183690
    },
    {
      "epoch": 0.3827083333333333,
      "grad_norm": 0.7170152068138123,
      "learning_rate": 0.00020516368109858626,
      "loss": 3.7411,
      "step": 183700
    },
    {
      "epoch": 0.3827291666666667,
      "grad_norm": 0.7257307767868042,
      "learning_rate": 0.00020515451329700422,
      "loss": 3.9205,
      "step": 183710
    },
    {
      "epoch": 0.38275,
      "grad_norm": 0.79533451795578,
      "learning_rate": 0.00020514534525717656,
      "loss": 3.8754,
      "step": 183720
    },
    {
      "epoch": 0.38277083333333334,
      "grad_norm": 0.799940288066864,
      "learning_rate": 0.00020513617697914282,
      "loss": 3.8209,
      "step": 183730
    },
    {
      "epoch": 0.38279166666666664,
      "grad_norm": 0.8076045513153076,
      "learning_rate": 0.00020512700846294263,
      "loss": 3.8524,
      "step": 183740
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 0.8151795864105225,
      "learning_rate": 0.0002051178397086156,
      "loss": 3.8117,
      "step": 183750
    },
    {
      "epoch": 0.38283333333333336,
      "grad_norm": 0.7721542716026306,
      "learning_rate": 0.00020510867071620126,
      "loss": 3.8136,
      "step": 183760
    },
    {
      "epoch": 0.38285416666666666,
      "grad_norm": 0.8408957123756409,
      "learning_rate": 0.00020509950148573936,
      "loss": 3.9107,
      "step": 183770
    },
    {
      "epoch": 0.382875,
      "grad_norm": 0.7447496056556702,
      "learning_rate": 0.00020509033201726937,
      "loss": 3.9856,
      "step": 183780
    },
    {
      "epoch": 0.3828958333333333,
      "grad_norm": 0.7278885245323181,
      "learning_rate": 0.00020508116231083095,
      "loss": 4.2085,
      "step": 183790
    },
    {
      "epoch": 0.3829166666666667,
      "grad_norm": 0.9119598269462585,
      "learning_rate": 0.00020507199236646375,
      "loss": 3.9572,
      "step": 183800
    },
    {
      "epoch": 0.3829375,
      "grad_norm": 0.7714458703994751,
      "learning_rate": 0.00020506282218420727,
      "loss": 3.9913,
      "step": 183810
    },
    {
      "epoch": 0.38295833333333335,
      "grad_norm": 0.7962180376052856,
      "learning_rate": 0.00020505365176410126,
      "loss": 3.9861,
      "step": 183820
    },
    {
      "epoch": 0.38297916666666665,
      "grad_norm": 0.7670072913169861,
      "learning_rate": 0.00020504448110618526,
      "loss": 4.0945,
      "step": 183830
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.7786399126052856,
      "learning_rate": 0.00020503531021049887,
      "loss": 4.0276,
      "step": 183840
    },
    {
      "epoch": 0.3830208333333333,
      "grad_norm": 0.8011192679405212,
      "learning_rate": 0.00020502613907708175,
      "loss": 3.9461,
      "step": 183850
    },
    {
      "epoch": 0.38304166666666667,
      "grad_norm": 0.823315441608429,
      "learning_rate": 0.00020501696770597344,
      "loss": 4.0136,
      "step": 183860
    },
    {
      "epoch": 0.3830625,
      "grad_norm": 1.2335174083709717,
      "learning_rate": 0.00020500779609721365,
      "loss": 3.9628,
      "step": 183870
    },
    {
      "epoch": 0.38308333333333333,
      "grad_norm": 0.7458991408348083,
      "learning_rate": 0.00020499862425084193,
      "loss": 3.8208,
      "step": 183880
    },
    {
      "epoch": 0.3831041666666667,
      "grad_norm": 0.7984833121299744,
      "learning_rate": 0.00020498945216689793,
      "loss": 4.0088,
      "step": 183890
    },
    {
      "epoch": 0.383125,
      "grad_norm": 0.7894824743270874,
      "learning_rate": 0.00020498027984542126,
      "loss": 4.1008,
      "step": 183900
    },
    {
      "epoch": 0.38314583333333335,
      "grad_norm": 0.8425320982933044,
      "learning_rate": 0.00020497110728645156,
      "loss": 4.1361,
      "step": 183910
    },
    {
      "epoch": 0.38316666666666666,
      "grad_norm": 0.8122034072875977,
      "learning_rate": 0.00020496193449002841,
      "loss": 4.1961,
      "step": 183920
    },
    {
      "epoch": 0.3831875,
      "grad_norm": 0.8326811194419861,
      "learning_rate": 0.00020495276145619147,
      "loss": 3.9722,
      "step": 183930
    },
    {
      "epoch": 0.3832083333333333,
      "grad_norm": 0.7990293502807617,
      "learning_rate": 0.00020494358818498037,
      "loss": 3.7995,
      "step": 183940
    },
    {
      "epoch": 0.3832291666666667,
      "grad_norm": 0.9588804244995117,
      "learning_rate": 0.00020493441467643472,
      "loss": 3.8407,
      "step": 183950
    },
    {
      "epoch": 0.38325,
      "grad_norm": 0.7901915907859802,
      "learning_rate": 0.0002049252409305941,
      "loss": 3.9408,
      "step": 183960
    },
    {
      "epoch": 0.38327083333333334,
      "grad_norm": 0.8750462532043457,
      "learning_rate": 0.00020491606694749825,
      "loss": 3.9748,
      "step": 183970
    },
    {
      "epoch": 0.38329166666666664,
      "grad_norm": 0.887404203414917,
      "learning_rate": 0.00020490689272718664,
      "loss": 3.8692,
      "step": 183980
    },
    {
      "epoch": 0.3833125,
      "grad_norm": 0.8204249739646912,
      "learning_rate": 0.00020489771826969906,
      "loss": 3.9282,
      "step": 183990
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.8569247722625732,
      "learning_rate": 0.00020488854357507503,
      "loss": 3.7347,
      "step": 184000
    },
    {
      "epoch": 0.38333333333333336,
      "eval_loss": 3.661334276199341,
      "eval_runtime": 6.8281,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.439,
      "step": 184000
    },
    {
      "epoch": 0.38335416666666666,
      "grad_norm": 0.8836413025856018,
      "learning_rate": 0.00020487936864335425,
      "loss": 3.8385,
      "step": 184010
    },
    {
      "epoch": 0.383375,
      "grad_norm": 0.8639957904815674,
      "learning_rate": 0.0002048701934745763,
      "loss": 3.8995,
      "step": 184020
    },
    {
      "epoch": 0.3833958333333333,
      "grad_norm": 0.8280469179153442,
      "learning_rate": 0.00020486101806878082,
      "loss": 3.8358,
      "step": 184030
    },
    {
      "epoch": 0.3834166666666667,
      "grad_norm": 0.8643330335617065,
      "learning_rate": 0.00020485184242600746,
      "loss": 3.8059,
      "step": 184040
    },
    {
      "epoch": 0.3834375,
      "grad_norm": 1.0614440441131592,
      "learning_rate": 0.00020484266654629583,
      "loss": 4.0083,
      "step": 184050
    },
    {
      "epoch": 0.38345833333333335,
      "grad_norm": 0.7499904632568359,
      "learning_rate": 0.00020483349042968565,
      "loss": 3.865,
      "step": 184060
    },
    {
      "epoch": 0.38347916666666665,
      "grad_norm": 0.8334598541259766,
      "learning_rate": 0.00020482431407621647,
      "loss": 3.7815,
      "step": 184070
    },
    {
      "epoch": 0.3835,
      "grad_norm": 0.9001242518424988,
      "learning_rate": 0.00020481513748592795,
      "loss": 3.8507,
      "step": 184080
    },
    {
      "epoch": 0.3835208333333333,
      "grad_norm": 0.8026877045631409,
      "learning_rate": 0.00020480596065885974,
      "loss": 3.9317,
      "step": 184090
    },
    {
      "epoch": 0.38354166666666667,
      "grad_norm": 0.7889086604118347,
      "learning_rate": 0.00020479678359505146,
      "loss": 3.9836,
      "step": 184100
    },
    {
      "epoch": 0.3835625,
      "grad_norm": 0.8109723329544067,
      "learning_rate": 0.00020478760629454276,
      "loss": 3.8708,
      "step": 184110
    },
    {
      "epoch": 0.38358333333333333,
      "grad_norm": 0.792171835899353,
      "learning_rate": 0.0002047784287573733,
      "loss": 4.0183,
      "step": 184120
    },
    {
      "epoch": 0.3836041666666667,
      "grad_norm": 0.9676364064216614,
      "learning_rate": 0.00020476925098358273,
      "loss": 3.941,
      "step": 184130
    },
    {
      "epoch": 0.383625,
      "grad_norm": 0.7923359870910645,
      "learning_rate": 0.00020476007297321066,
      "loss": 3.9214,
      "step": 184140
    },
    {
      "epoch": 0.38364583333333335,
      "grad_norm": 0.9154660105705261,
      "learning_rate": 0.0002047508947262967,
      "loss": 3.8615,
      "step": 184150
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 0.8614102602005005,
      "learning_rate": 0.00020474171624288064,
      "loss": 3.8933,
      "step": 184160
    },
    {
      "epoch": 0.3836875,
      "grad_norm": 0.8262205123901367,
      "learning_rate": 0.00020473253752300197,
      "loss": 3.8324,
      "step": 184170
    },
    {
      "epoch": 0.3837083333333333,
      "grad_norm": 0.8670951128005981,
      "learning_rate": 0.0002047233585667004,
      "loss": 4.0725,
      "step": 184180
    },
    {
      "epoch": 0.3837291666666667,
      "grad_norm": 0.8211897015571594,
      "learning_rate": 0.0002047141793740156,
      "loss": 3.9007,
      "step": 184190
    },
    {
      "epoch": 0.38375,
      "grad_norm": 0.768358588218689,
      "learning_rate": 0.00020470499994498722,
      "loss": 3.9267,
      "step": 184200
    },
    {
      "epoch": 0.38377083333333334,
      "grad_norm": 0.8190129995346069,
      "learning_rate": 0.00020469582027965487,
      "loss": 3.9872,
      "step": 184210
    },
    {
      "epoch": 0.38379166666666664,
      "grad_norm": 0.8369306325912476,
      "learning_rate": 0.00020468664037805824,
      "loss": 3.8923,
      "step": 184220
    },
    {
      "epoch": 0.3838125,
      "grad_norm": 0.8048892617225647,
      "learning_rate": 0.00020467746024023696,
      "loss": 3.9704,
      "step": 184230
    },
    {
      "epoch": 0.38383333333333336,
      "grad_norm": 0.9074710011482239,
      "learning_rate": 0.0002046682798662307,
      "loss": 3.9548,
      "step": 184240
    },
    {
      "epoch": 0.38385416666666666,
      "grad_norm": 0.8411635160446167,
      "learning_rate": 0.0002046590992560791,
      "loss": 3.7455,
      "step": 184250
    },
    {
      "epoch": 0.383875,
      "grad_norm": 0.7558981776237488,
      "learning_rate": 0.00020464991840982185,
      "loss": 4.0885,
      "step": 184260
    },
    {
      "epoch": 0.3838958333333333,
      "grad_norm": 0.8080182671546936,
      "learning_rate": 0.00020464073732749858,
      "loss": 3.9207,
      "step": 184270
    },
    {
      "epoch": 0.3839166666666667,
      "grad_norm": 0.7677124738693237,
      "learning_rate": 0.00020463155600914892,
      "loss": 3.931,
      "step": 184280
    },
    {
      "epoch": 0.3839375,
      "grad_norm": 0.8538327813148499,
      "learning_rate": 0.0002046223744548126,
      "loss": 4.0864,
      "step": 184290
    },
    {
      "epoch": 0.38395833333333335,
      "grad_norm": 0.7698591947555542,
      "learning_rate": 0.00020461319266452924,
      "loss": 3.8215,
      "step": 184300
    },
    {
      "epoch": 0.38397916666666665,
      "grad_norm": 0.7181622385978699,
      "learning_rate": 0.00020460401063833846,
      "loss": 4.0174,
      "step": 184310
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.7882829904556274,
      "learning_rate": 0.00020459482837628,
      "loss": 4.0258,
      "step": 184320
    },
    {
      "epoch": 0.3840208333333333,
      "grad_norm": 0.7162224054336548,
      "learning_rate": 0.0002045856458783935,
      "loss": 4.0838,
      "step": 184330
    },
    {
      "epoch": 0.38404166666666667,
      "grad_norm": 0.8866620063781738,
      "learning_rate": 0.0002045764631447186,
      "loss": 4.018,
      "step": 184340
    },
    {
      "epoch": 0.3840625,
      "grad_norm": 0.8035120368003845,
      "learning_rate": 0.00020456728017529497,
      "loss": 4.0364,
      "step": 184350
    },
    {
      "epoch": 0.38408333333333333,
      "grad_norm": 1.1077752113342285,
      "learning_rate": 0.00020455809697016234,
      "loss": 3.998,
      "step": 184360
    },
    {
      "epoch": 0.3841041666666667,
      "grad_norm": 0.8062023520469666,
      "learning_rate": 0.00020454891352936032,
      "loss": 3.9273,
      "step": 184370
    },
    {
      "epoch": 0.384125,
      "grad_norm": 0.8049507737159729,
      "learning_rate": 0.00020453972985292853,
      "loss": 3.7308,
      "step": 184380
    },
    {
      "epoch": 0.38414583333333335,
      "grad_norm": 0.7591463923454285,
      "learning_rate": 0.00020453054594090676,
      "loss": 3.942,
      "step": 184390
    },
    {
      "epoch": 0.38416666666666666,
      "grad_norm": 0.7994083166122437,
      "learning_rate": 0.00020452136179333456,
      "loss": 3.9992,
      "step": 184400
    },
    {
      "epoch": 0.3841875,
      "grad_norm": 0.7510181069374084,
      "learning_rate": 0.00020451217741025167,
      "loss": 4.0078,
      "step": 184410
    },
    {
      "epoch": 0.3842083333333333,
      "grad_norm": 0.8945229053497314,
      "learning_rate": 0.00020450299279169777,
      "loss": 4.1624,
      "step": 184420
    },
    {
      "epoch": 0.3842291666666667,
      "grad_norm": 0.826025128364563,
      "learning_rate": 0.00020449380793771254,
      "loss": 4.1522,
      "step": 184430
    },
    {
      "epoch": 0.38425,
      "grad_norm": 0.9423109292984009,
      "learning_rate": 0.00020448462284833557,
      "loss": 3.7661,
      "step": 184440
    },
    {
      "epoch": 0.38427083333333334,
      "grad_norm": 0.8004992604255676,
      "learning_rate": 0.00020447543752360662,
      "loss": 4.0132,
      "step": 184450
    },
    {
      "epoch": 0.38429166666666664,
      "grad_norm": 0.8948343396186829,
      "learning_rate": 0.00020446625196356537,
      "loss": 3.9014,
      "step": 184460
    },
    {
      "epoch": 0.3843125,
      "grad_norm": 0.7914004325866699,
      "learning_rate": 0.00020445706616825144,
      "loss": 3.8263,
      "step": 184470
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 0.8082365989685059,
      "learning_rate": 0.00020444788013770454,
      "loss": 4.0983,
      "step": 184480
    },
    {
      "epoch": 0.38435416666666666,
      "grad_norm": 1.070022702217102,
      "learning_rate": 0.00020443869387196434,
      "loss": 3.994,
      "step": 184490
    },
    {
      "epoch": 0.384375,
      "grad_norm": 0.8196695446968079,
      "learning_rate": 0.0002044295073710706,
      "loss": 3.739,
      "step": 184500
    },
    {
      "epoch": 0.3843958333333333,
      "grad_norm": 0.8364558219909668,
      "learning_rate": 0.00020442032063506285,
      "loss": 3.8697,
      "step": 184510
    },
    {
      "epoch": 0.3844166666666667,
      "grad_norm": 0.8138489723205566,
      "learning_rate": 0.00020441113366398086,
      "loss": 3.846,
      "step": 184520
    },
    {
      "epoch": 0.3844375,
      "grad_norm": 0.7687197327613831,
      "learning_rate": 0.00020440194645786436,
      "loss": 3.9977,
      "step": 184530
    },
    {
      "epoch": 0.38445833333333335,
      "grad_norm": 0.7557411789894104,
      "learning_rate": 0.00020439275901675298,
      "loss": 3.9036,
      "step": 184540
    },
    {
      "epoch": 0.38447916666666665,
      "grad_norm": 0.8029736876487732,
      "learning_rate": 0.00020438357134068636,
      "loss": 3.9019,
      "step": 184550
    },
    {
      "epoch": 0.3845,
      "grad_norm": 0.8596205711364746,
      "learning_rate": 0.0002043743834297043,
      "loss": 4.1806,
      "step": 184560
    },
    {
      "epoch": 0.3845208333333333,
      "grad_norm": 0.7853806018829346,
      "learning_rate": 0.00020436519528384638,
      "loss": 4.0289,
      "step": 184570
    },
    {
      "epoch": 0.38454166666666667,
      "grad_norm": 0.8370758891105652,
      "learning_rate": 0.00020435600690315236,
      "loss": 4.0821,
      "step": 184580
    },
    {
      "epoch": 0.3845625,
      "grad_norm": 0.9948261380195618,
      "learning_rate": 0.00020434681828766188,
      "loss": 4.0511,
      "step": 184590
    },
    {
      "epoch": 0.38458333333333333,
      "grad_norm": 0.8156493902206421,
      "learning_rate": 0.0002043376294374147,
      "loss": 3.9395,
      "step": 184600
    },
    {
      "epoch": 0.3846041666666667,
      "grad_norm": 0.725973904132843,
      "learning_rate": 0.00020432844035245043,
      "loss": 3.8217,
      "step": 184610
    },
    {
      "epoch": 0.384625,
      "grad_norm": 1.26520574092865,
      "learning_rate": 0.00020431925103280883,
      "loss": 3.859,
      "step": 184620
    },
    {
      "epoch": 0.38464583333333335,
      "grad_norm": 0.8902660012245178,
      "learning_rate": 0.00020431006147852954,
      "loss": 4.0094,
      "step": 184630
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 0.7985900044441223,
      "learning_rate": 0.00020430087168965232,
      "loss": 3.7595,
      "step": 184640
    },
    {
      "epoch": 0.3846875,
      "grad_norm": 0.7182382345199585,
      "learning_rate": 0.00020429168166621677,
      "loss": 4.1159,
      "step": 184650
    },
    {
      "epoch": 0.3847083333333333,
      "grad_norm": 0.8123177289962769,
      "learning_rate": 0.00020428249140826268,
      "loss": 4.0429,
      "step": 184660
    },
    {
      "epoch": 0.3847291666666667,
      "grad_norm": 0.7632468938827515,
      "learning_rate": 0.00020427330091582973,
      "loss": 3.8347,
      "step": 184670
    },
    {
      "epoch": 0.38475,
      "grad_norm": 0.7622640132904053,
      "learning_rate": 0.00020426411018895758,
      "loss": 3.7722,
      "step": 184680
    },
    {
      "epoch": 0.38477083333333334,
      "grad_norm": 0.7344177961349487,
      "learning_rate": 0.00020425491922768593,
      "loss": 3.9565,
      "step": 184690
    },
    {
      "epoch": 0.38479166666666664,
      "grad_norm": 0.7767121195793152,
      "learning_rate": 0.00020424572803205457,
      "loss": 3.9119,
      "step": 184700
    },
    {
      "epoch": 0.3848125,
      "grad_norm": 0.8388927578926086,
      "learning_rate": 0.00020423653660210308,
      "loss": 3.9712,
      "step": 184710
    },
    {
      "epoch": 0.38483333333333336,
      "grad_norm": 0.9191557168960571,
      "learning_rate": 0.00020422734493787126,
      "loss": 3.9143,
      "step": 184720
    },
    {
      "epoch": 0.38485416666666666,
      "grad_norm": 1.0741065740585327,
      "learning_rate": 0.00020421815303939874,
      "loss": 3.9888,
      "step": 184730
    },
    {
      "epoch": 0.384875,
      "grad_norm": 0.8826248645782471,
      "learning_rate": 0.00020420896090672528,
      "loss": 3.9666,
      "step": 184740
    },
    {
      "epoch": 0.3848958333333333,
      "grad_norm": 0.7619590759277344,
      "learning_rate": 0.00020419976853989057,
      "loss": 4.0654,
      "step": 184750
    },
    {
      "epoch": 0.3849166666666667,
      "grad_norm": 0.8139491677284241,
      "learning_rate": 0.00020419057593893427,
      "loss": 4.0431,
      "step": 184760
    },
    {
      "epoch": 0.3849375,
      "grad_norm": 0.7956133484840393,
      "learning_rate": 0.00020418138310389618,
      "loss": 3.7629,
      "step": 184770
    },
    {
      "epoch": 0.38495833333333335,
      "grad_norm": 0.8481830358505249,
      "learning_rate": 0.00020417219003481598,
      "loss": 3.7717,
      "step": 184780
    },
    {
      "epoch": 0.38497916666666665,
      "grad_norm": 0.7672078609466553,
      "learning_rate": 0.0002041629967317333,
      "loss": 4.0246,
      "step": 184790
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.8409602046012878,
      "learning_rate": 0.00020415380319468795,
      "loss": 4.1634,
      "step": 184800
    },
    {
      "epoch": 0.3850208333333333,
      "grad_norm": 0.7716719508171082,
      "learning_rate": 0.0002041446094237196,
      "loss": 3.9194,
      "step": 184810
    },
    {
      "epoch": 0.38504166666666667,
      "grad_norm": 0.7719280123710632,
      "learning_rate": 0.00020413541541886796,
      "loss": 4.0124,
      "step": 184820
    },
    {
      "epoch": 0.3850625,
      "grad_norm": 0.8241494297981262,
      "learning_rate": 0.00020412622118017276,
      "loss": 3.9761,
      "step": 184830
    },
    {
      "epoch": 0.38508333333333333,
      "grad_norm": 0.9352026581764221,
      "learning_rate": 0.00020411702670767375,
      "loss": 3.9199,
      "step": 184840
    },
    {
      "epoch": 0.3851041666666667,
      "grad_norm": 0.860863447189331,
      "learning_rate": 0.00020410783200141053,
      "loss": 3.745,
      "step": 184850
    },
    {
      "epoch": 0.385125,
      "grad_norm": 0.8279072642326355,
      "learning_rate": 0.00020409863706142295,
      "loss": 3.9263,
      "step": 184860
    },
    {
      "epoch": 0.38514583333333335,
      "grad_norm": 0.8546714782714844,
      "learning_rate": 0.00020408944188775066,
      "loss": 4.0264,
      "step": 184870
    },
    {
      "epoch": 0.38516666666666666,
      "grad_norm": 0.755348265171051,
      "learning_rate": 0.00020408024648043335,
      "loss": 3.9468,
      "step": 184880
    },
    {
      "epoch": 0.3851875,
      "grad_norm": 0.833508312702179,
      "learning_rate": 0.00020407105083951083,
      "loss": 4.0051,
      "step": 184890
    },
    {
      "epoch": 0.3852083333333333,
      "grad_norm": 0.889551043510437,
      "learning_rate": 0.00020406185496502278,
      "loss": 4.1142,
      "step": 184900
    },
    {
      "epoch": 0.3852291666666667,
      "grad_norm": 0.7791829705238342,
      "learning_rate": 0.00020405265885700889,
      "loss": 3.9475,
      "step": 184910
    },
    {
      "epoch": 0.38525,
      "grad_norm": 0.7993990778923035,
      "learning_rate": 0.0002040434625155089,
      "loss": 3.8882,
      "step": 184920
    },
    {
      "epoch": 0.38527083333333334,
      "grad_norm": 0.7800440788269043,
      "learning_rate": 0.00020403426594056256,
      "loss": 3.9665,
      "step": 184930
    },
    {
      "epoch": 0.38529166666666664,
      "grad_norm": 0.9440896511077881,
      "learning_rate": 0.00020402506913220957,
      "loss": 3.9047,
      "step": 184940
    },
    {
      "epoch": 0.3853125,
      "grad_norm": 0.8213474750518799,
      "learning_rate": 0.00020401587209048968,
      "loss": 3.86,
      "step": 184950
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 0.8272477388381958,
      "learning_rate": 0.0002040066748154426,
      "loss": 3.9019,
      "step": 184960
    },
    {
      "epoch": 0.38535416666666666,
      "grad_norm": 0.8891654014587402,
      "learning_rate": 0.00020399747730710804,
      "loss": 4.0879,
      "step": 184970
    },
    {
      "epoch": 0.385375,
      "grad_norm": 0.9725010991096497,
      "learning_rate": 0.00020398827956552578,
      "loss": 3.9942,
      "step": 184980
    },
    {
      "epoch": 0.3853958333333333,
      "grad_norm": 0.8161216378211975,
      "learning_rate": 0.0002039790815907355,
      "loss": 4.062,
      "step": 184990
    },
    {
      "epoch": 0.3854166666666667,
      "grad_norm": 0.9336228370666504,
      "learning_rate": 0.00020396988338277695,
      "loss": 3.9043,
      "step": 185000
    },
    {
      "epoch": 0.3854166666666667,
      "eval_loss": 3.6630470752716064,
      "eval_runtime": 6.8035,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 185000
    },
    {
      "epoch": 0.3854375,
      "grad_norm": 0.8540574908256531,
      "learning_rate": 0.00020396068494168995,
      "loss": 4.0025,
      "step": 185010
    },
    {
      "epoch": 0.38545833333333335,
      "grad_norm": 0.7922999858856201,
      "learning_rate": 0.00020395148626751403,
      "loss": 3.8161,
      "step": 185020
    },
    {
      "epoch": 0.38547916666666665,
      "grad_norm": 0.7627305388450623,
      "learning_rate": 0.0002039422873602891,
      "loss": 3.9054,
      "step": 185030
    },
    {
      "epoch": 0.3855,
      "grad_norm": 0.8846553564071655,
      "learning_rate": 0.00020393308822005485,
      "loss": 3.9285,
      "step": 185040
    },
    {
      "epoch": 0.3855208333333333,
      "grad_norm": 1.0397746562957764,
      "learning_rate": 0.00020392388884685097,
      "loss": 3.8301,
      "step": 185050
    },
    {
      "epoch": 0.38554166666666667,
      "grad_norm": 0.8942000865936279,
      "learning_rate": 0.0002039146892407173,
      "loss": 3.8905,
      "step": 185060
    },
    {
      "epoch": 0.3855625,
      "grad_norm": 0.8053861856460571,
      "learning_rate": 0.00020390548940169345,
      "loss": 4.0083,
      "step": 185070
    },
    {
      "epoch": 0.38558333333333333,
      "grad_norm": 0.8648433685302734,
      "learning_rate": 0.00020389628932981926,
      "loss": 3.9878,
      "step": 185080
    },
    {
      "epoch": 0.3856041666666667,
      "grad_norm": 0.9301185607910156,
      "learning_rate": 0.0002038870890251344,
      "loss": 4.1587,
      "step": 185090
    },
    {
      "epoch": 0.385625,
      "grad_norm": 0.880193293094635,
      "learning_rate": 0.00020387788848767868,
      "loss": 3.8673,
      "step": 185100
    },
    {
      "epoch": 0.38564583333333335,
      "grad_norm": 0.7592805624008179,
      "learning_rate": 0.0002038686877174918,
      "loss": 4.1787,
      "step": 185110
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 0.9011757373809814,
      "learning_rate": 0.0002038594867146135,
      "loss": 4.0732,
      "step": 185120
    },
    {
      "epoch": 0.3856875,
      "grad_norm": 0.7914527654647827,
      "learning_rate": 0.0002038502854790835,
      "loss": 3.9833,
      "step": 185130
    },
    {
      "epoch": 0.3857083333333333,
      "grad_norm": 0.8823403716087341,
      "learning_rate": 0.00020384108401094167,
      "loss": 3.6512,
      "step": 185140
    },
    {
      "epoch": 0.3857291666666667,
      "grad_norm": 0.7762349843978882,
      "learning_rate": 0.0002038318823102276,
      "loss": 3.7454,
      "step": 185150
    },
    {
      "epoch": 0.38575,
      "grad_norm": 1.0832877159118652,
      "learning_rate": 0.00020382268037698111,
      "loss": 4.0874,
      "step": 185160
    },
    {
      "epoch": 0.38577083333333334,
      "grad_norm": 0.7602418661117554,
      "learning_rate": 0.00020381347821124202,
      "loss": 3.9185,
      "step": 185170
    },
    {
      "epoch": 0.38579166666666664,
      "grad_norm": 0.8740423321723938,
      "learning_rate": 0.00020380427581304992,
      "loss": 4.0086,
      "step": 185180
    },
    {
      "epoch": 0.3858125,
      "grad_norm": 0.7425138354301453,
      "learning_rate": 0.00020379507318244467,
      "loss": 3.9784,
      "step": 185190
    },
    {
      "epoch": 0.3858333333333333,
      "grad_norm": 0.8459023237228394,
      "learning_rate": 0.00020378587031946602,
      "loss": 3.9328,
      "step": 185200
    },
    {
      "epoch": 0.38585416666666666,
      "grad_norm": 0.7064265012741089,
      "learning_rate": 0.0002037766672241537,
      "loss": 3.843,
      "step": 185210
    },
    {
      "epoch": 0.385875,
      "grad_norm": 0.729764997959137,
      "learning_rate": 0.0002037674638965474,
      "loss": 3.937,
      "step": 185220
    },
    {
      "epoch": 0.3858958333333333,
      "grad_norm": 0.7457491755485535,
      "learning_rate": 0.000203758260336687,
      "loss": 4.1409,
      "step": 185230
    },
    {
      "epoch": 0.3859166666666667,
      "grad_norm": 0.9326768517494202,
      "learning_rate": 0.00020374905654461218,
      "loss": 3.8692,
      "step": 185240
    },
    {
      "epoch": 0.3859375,
      "grad_norm": 0.7541523575782776,
      "learning_rate": 0.0002037398525203627,
      "loss": 3.8223,
      "step": 185250
    },
    {
      "epoch": 0.38595833333333335,
      "grad_norm": 0.9140107035636902,
      "learning_rate": 0.00020373064826397836,
      "loss": 4.071,
      "step": 185260
    },
    {
      "epoch": 0.38597916666666665,
      "grad_norm": 0.9712915420532227,
      "learning_rate": 0.00020372144377549885,
      "loss": 3.9974,
      "step": 185270
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.7986315488815308,
      "learning_rate": 0.000203712239054964,
      "loss": 3.9732,
      "step": 185280
    },
    {
      "epoch": 0.3860208333333333,
      "grad_norm": 0.8814319372177124,
      "learning_rate": 0.0002037030341024135,
      "loss": 4.1087,
      "step": 185290
    },
    {
      "epoch": 0.38604166666666667,
      "grad_norm": 0.7331024408340454,
      "learning_rate": 0.00020369382891788717,
      "loss": 4.0749,
      "step": 185300
    },
    {
      "epoch": 0.3860625,
      "grad_norm": 0.8189013600349426,
      "learning_rate": 0.0002036846235014248,
      "loss": 4.0575,
      "step": 185310
    },
    {
      "epoch": 0.38608333333333333,
      "grad_norm": 0.7976628541946411,
      "learning_rate": 0.000203675417853066,
      "loss": 4.0035,
      "step": 185320
    },
    {
      "epoch": 0.3861041666666667,
      "grad_norm": 0.8034444451332092,
      "learning_rate": 0.0002036662119728507,
      "loss": 3.994,
      "step": 185330
    },
    {
      "epoch": 0.386125,
      "grad_norm": 0.8186025619506836,
      "learning_rate": 0.00020365700586081869,
      "loss": 3.9111,
      "step": 185340
    },
    {
      "epoch": 0.38614583333333335,
      "grad_norm": 1.0259393453598022,
      "learning_rate": 0.0002036477995170095,
      "loss": 3.9755,
      "step": 185350
    },
    {
      "epoch": 0.38616666666666666,
      "grad_norm": 0.8523930907249451,
      "learning_rate": 0.00020363859294146312,
      "loss": 3.8949,
      "step": 185360
    },
    {
      "epoch": 0.3861875,
      "grad_norm": 0.8391129374504089,
      "learning_rate": 0.0002036293861342193,
      "loss": 3.933,
      "step": 185370
    },
    {
      "epoch": 0.3862083333333333,
      "grad_norm": 0.826249361038208,
      "learning_rate": 0.00020362017909531768,
      "loss": 3.6914,
      "step": 185380
    },
    {
      "epoch": 0.3862291666666667,
      "grad_norm": 1.2323155403137207,
      "learning_rate": 0.00020361097182479814,
      "loss": 3.8765,
      "step": 185390
    },
    {
      "epoch": 0.38625,
      "grad_norm": 0.7659693956375122,
      "learning_rate": 0.00020360176432270043,
      "loss": 3.9241,
      "step": 185400
    },
    {
      "epoch": 0.38627083333333334,
      "grad_norm": 0.8586176037788391,
      "learning_rate": 0.00020359255658906433,
      "loss": 3.8608,
      "step": 185410
    },
    {
      "epoch": 0.38629166666666664,
      "grad_norm": 0.7724847793579102,
      "learning_rate": 0.00020358334862392955,
      "loss": 3.7515,
      "step": 185420
    },
    {
      "epoch": 0.3863125,
      "grad_norm": 0.9738552570343018,
      "learning_rate": 0.00020357414042733595,
      "loss": 3.8639,
      "step": 185430
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 0.7689467668533325,
      "learning_rate": 0.00020356493199932328,
      "loss": 3.8079,
      "step": 185440
    },
    {
      "epoch": 0.38635416666666667,
      "grad_norm": 0.8979545831680298,
      "learning_rate": 0.00020355572333993129,
      "loss": 3.9672,
      "step": 185450
    },
    {
      "epoch": 0.386375,
      "grad_norm": 0.7738462090492249,
      "learning_rate": 0.00020354651444919977,
      "loss": 3.8412,
      "step": 185460
    },
    {
      "epoch": 0.3863958333333333,
      "grad_norm": 0.8874869346618652,
      "learning_rate": 0.00020353730532716852,
      "loss": 3.9378,
      "step": 185470
    },
    {
      "epoch": 0.3864166666666667,
      "grad_norm": 0.898309051990509,
      "learning_rate": 0.00020352809597387728,
      "loss": 4.0662,
      "step": 185480
    },
    {
      "epoch": 0.3864375,
      "grad_norm": 0.8050537705421448,
      "learning_rate": 0.00020351888638936585,
      "loss": 3.9716,
      "step": 185490
    },
    {
      "epoch": 0.38645833333333335,
      "grad_norm": 0.8099555969238281,
      "learning_rate": 0.00020350967657367403,
      "loss": 3.9615,
      "step": 185500
    },
    {
      "epoch": 0.38647916666666665,
      "grad_norm": 0.750905454158783,
      "learning_rate": 0.0002035004665268416,
      "loss": 3.7785,
      "step": 185510
    },
    {
      "epoch": 0.3865,
      "grad_norm": 0.7787798643112183,
      "learning_rate": 0.00020349125624890833,
      "loss": 3.9517,
      "step": 185520
    },
    {
      "epoch": 0.3865208333333333,
      "grad_norm": 0.765705406665802,
      "learning_rate": 0.00020348204573991395,
      "loss": 4.1175,
      "step": 185530
    },
    {
      "epoch": 0.3865416666666667,
      "grad_norm": 0.8517614603042603,
      "learning_rate": 0.0002034728349998984,
      "loss": 4.1523,
      "step": 185540
    },
    {
      "epoch": 0.3865625,
      "grad_norm": 0.9142370820045471,
      "learning_rate": 0.00020346362402890125,
      "loss": 3.852,
      "step": 185550
    },
    {
      "epoch": 0.38658333333333333,
      "grad_norm": 0.9604034423828125,
      "learning_rate": 0.0002034544128269625,
      "loss": 4.0522,
      "step": 185560
    },
    {
      "epoch": 0.3866041666666667,
      "grad_norm": 0.7823735475540161,
      "learning_rate": 0.00020344520139412183,
      "loss": 4.0797,
      "step": 185570
    },
    {
      "epoch": 0.386625,
      "grad_norm": 0.7951788902282715,
      "learning_rate": 0.00020343598973041906,
      "loss": 3.8971,
      "step": 185580
    },
    {
      "epoch": 0.38664583333333336,
      "grad_norm": 0.7993021011352539,
      "learning_rate": 0.0002034267778358939,
      "loss": 3.8648,
      "step": 185590
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 0.7969011664390564,
      "learning_rate": 0.00020341756571058624,
      "loss": 3.8679,
      "step": 185600
    },
    {
      "epoch": 0.3866875,
      "grad_norm": 0.7413485050201416,
      "learning_rate": 0.00020340835335453585,
      "loss": 3.8916,
      "step": 185610
    },
    {
      "epoch": 0.3867083333333333,
      "grad_norm": 0.9904707074165344,
      "learning_rate": 0.00020339914076778252,
      "loss": 4.1763,
      "step": 185620
    },
    {
      "epoch": 0.3867291666666667,
      "grad_norm": 0.8482048511505127,
      "learning_rate": 0.00020338992795036604,
      "loss": 4.0913,
      "step": 185630
    },
    {
      "epoch": 0.38675,
      "grad_norm": 0.7761877179145813,
      "learning_rate": 0.00020338071490232616,
      "loss": 3.9549,
      "step": 185640
    },
    {
      "epoch": 0.38677083333333334,
      "grad_norm": 0.7841675877571106,
      "learning_rate": 0.00020337150162370274,
      "loss": 3.8916,
      "step": 185650
    },
    {
      "epoch": 0.38679166666666664,
      "grad_norm": 0.7187864780426025,
      "learning_rate": 0.0002033622881145356,
      "loss": 4.0902,
      "step": 185660
    },
    {
      "epoch": 0.3868125,
      "grad_norm": 0.962704598903656,
      "learning_rate": 0.00020335307437486445,
      "loss": 4.0422,
      "step": 185670
    },
    {
      "epoch": 0.3868333333333333,
      "grad_norm": 0.8020605444908142,
      "learning_rate": 0.0002033438604047292,
      "loss": 3.8971,
      "step": 185680
    },
    {
      "epoch": 0.38685416666666667,
      "grad_norm": 0.7673811316490173,
      "learning_rate": 0.0002033346462041695,
      "loss": 3.8373,
      "step": 185690
    },
    {
      "epoch": 0.386875,
      "grad_norm": 0.7819320559501648,
      "learning_rate": 0.00020332543177322532,
      "loss": 3.8877,
      "step": 185700
    },
    {
      "epoch": 0.3868958333333333,
      "grad_norm": 0.8184483051300049,
      "learning_rate": 0.00020331621711193633,
      "loss": 3.9275,
      "step": 185710
    },
    {
      "epoch": 0.3869166666666667,
      "grad_norm": 0.7704219222068787,
      "learning_rate": 0.0002033070022203424,
      "loss": 3.9916,
      "step": 185720
    },
    {
      "epoch": 0.3869375,
      "grad_norm": 0.9908442497253418,
      "learning_rate": 0.0002032977870984833,
      "loss": 4.0885,
      "step": 185730
    },
    {
      "epoch": 0.38695833333333335,
      "grad_norm": 0.8267863988876343,
      "learning_rate": 0.00020328857174639893,
      "loss": 3.9189,
      "step": 185740
    },
    {
      "epoch": 0.38697916666666665,
      "grad_norm": 0.8889909386634827,
      "learning_rate": 0.00020327935616412893,
      "loss": 3.9393,
      "step": 185750
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.7765786051750183,
      "learning_rate": 0.0002032701403517133,
      "loss": 3.9742,
      "step": 185760
    },
    {
      "epoch": 0.3870208333333333,
      "grad_norm": 0.7686753273010254,
      "learning_rate": 0.00020326092430919166,
      "loss": 3.9222,
      "step": 185770
    },
    {
      "epoch": 0.3870416666666667,
      "grad_norm": 0.8978695273399353,
      "learning_rate": 0.00020325170803660393,
      "loss": 3.8529,
      "step": 185780
    },
    {
      "epoch": 0.3870625,
      "grad_norm": 0.7808695435523987,
      "learning_rate": 0.00020324249153398993,
      "loss": 3.9771,
      "step": 185790
    },
    {
      "epoch": 0.38708333333333333,
      "grad_norm": 0.6950942277908325,
      "learning_rate": 0.00020323327480138942,
      "loss": 3.866,
      "step": 185800
    },
    {
      "epoch": 0.3871041666666667,
      "grad_norm": 0.8602031469345093,
      "learning_rate": 0.00020322405783884225,
      "loss": 3.9844,
      "step": 185810
    },
    {
      "epoch": 0.387125,
      "grad_norm": 0.8883991837501526,
      "learning_rate": 0.00020321484064638818,
      "loss": 4.0311,
      "step": 185820
    },
    {
      "epoch": 0.38714583333333336,
      "grad_norm": 1.0246973037719727,
      "learning_rate": 0.0002032056232240671,
      "loss": 3.9766,
      "step": 185830
    },
    {
      "epoch": 0.38716666666666666,
      "grad_norm": 0.7386856079101562,
      "learning_rate": 0.00020319640557191877,
      "loss": 4.0484,
      "step": 185840
    },
    {
      "epoch": 0.3871875,
      "grad_norm": 0.7946546077728271,
      "learning_rate": 0.000203187187689983,
      "loss": 4.2539,
      "step": 185850
    },
    {
      "epoch": 0.3872083333333333,
      "grad_norm": 0.8557960987091064,
      "learning_rate": 0.00020317796957829967,
      "loss": 3.8642,
      "step": 185860
    },
    {
      "epoch": 0.3872291666666667,
      "grad_norm": 0.8099115490913391,
      "learning_rate": 0.00020316875123690858,
      "loss": 4.0329,
      "step": 185870
    },
    {
      "epoch": 0.38725,
      "grad_norm": 0.8740972280502319,
      "learning_rate": 0.00020315953266584948,
      "loss": 3.9473,
      "step": 185880
    },
    {
      "epoch": 0.38727083333333334,
      "grad_norm": 0.8911025524139404,
      "learning_rate": 0.00020315031386516227,
      "loss": 3.9506,
      "step": 185890
    },
    {
      "epoch": 0.38729166666666665,
      "grad_norm": 0.8000408411026001,
      "learning_rate": 0.00020314109483488677,
      "loss": 3.8191,
      "step": 185900
    },
    {
      "epoch": 0.3873125,
      "grad_norm": 0.7953471541404724,
      "learning_rate": 0.00020313187557506276,
      "loss": 3.9136,
      "step": 185910
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 0.7980731129646301,
      "learning_rate": 0.00020312265608573,
      "loss": 3.927,
      "step": 185920
    },
    {
      "epoch": 0.38735416666666667,
      "grad_norm": 0.8534718751907349,
      "learning_rate": 0.0002031134363669285,
      "loss": 4.0004,
      "step": 185930
    },
    {
      "epoch": 0.387375,
      "grad_norm": 0.8259757161140442,
      "learning_rate": 0.00020310421641869792,
      "loss": 3.9111,
      "step": 185940
    },
    {
      "epoch": 0.38739583333333333,
      "grad_norm": 0.8658301830291748,
      "learning_rate": 0.00020309499624107812,
      "loss": 3.8811,
      "step": 185950
    },
    {
      "epoch": 0.3874166666666667,
      "grad_norm": 0.8369820713996887,
      "learning_rate": 0.00020308577583410905,
      "loss": 4.0889,
      "step": 185960
    },
    {
      "epoch": 0.3874375,
      "grad_norm": 0.862006425857544,
      "learning_rate": 0.00020307655519783034,
      "loss": 3.8541,
      "step": 185970
    },
    {
      "epoch": 0.38745833333333335,
      "grad_norm": 1.0583293437957764,
      "learning_rate": 0.00020306733433228196,
      "loss": 4.0464,
      "step": 185980
    },
    {
      "epoch": 0.38747916666666665,
      "grad_norm": 0.7988514304161072,
      "learning_rate": 0.00020305811323750373,
      "loss": 4.0424,
      "step": 185990
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.8242684006690979,
      "learning_rate": 0.0002030488919135354,
      "loss": 3.9551,
      "step": 186000
    },
    {
      "epoch": 0.3875,
      "eval_loss": 3.6610989570617676,
      "eval_runtime": 7.277,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 186000
    },
    {
      "epoch": 0.3875208333333333,
      "grad_norm": 0.7579420208930969,
      "learning_rate": 0.0002030396703604169,
      "loss": 3.9099,
      "step": 186010
    },
    {
      "epoch": 0.3875416666666667,
      "grad_norm": 0.8645018935203552,
      "learning_rate": 0.000203030448578188,
      "loss": 3.8541,
      "step": 186020
    },
    {
      "epoch": 0.3875625,
      "grad_norm": 0.837709903717041,
      "learning_rate": 0.00020302122656688858,
      "loss": 4.0477,
      "step": 186030
    },
    {
      "epoch": 0.38758333333333334,
      "grad_norm": 0.8492981195449829,
      "learning_rate": 0.00020301200432655843,
      "loss": 3.9591,
      "step": 186040
    },
    {
      "epoch": 0.3876041666666667,
      "grad_norm": 0.7570533156394958,
      "learning_rate": 0.00020300278185723738,
      "loss": 3.8281,
      "step": 186050
    },
    {
      "epoch": 0.387625,
      "grad_norm": 0.7713333964347839,
      "learning_rate": 0.0002029935591589653,
      "loss": 4.0883,
      "step": 186060
    },
    {
      "epoch": 0.38764583333333336,
      "grad_norm": 0.8340398669242859,
      "learning_rate": 0.00020298433623178205,
      "loss": 3.9048,
      "step": 186070
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 0.7574172616004944,
      "learning_rate": 0.00020297511307572743,
      "loss": 3.9838,
      "step": 186080
    },
    {
      "epoch": 0.3876875,
      "grad_norm": 0.8917703032493591,
      "learning_rate": 0.00020296588969084126,
      "loss": 4.0356,
      "step": 186090
    },
    {
      "epoch": 0.3877083333333333,
      "grad_norm": 0.7367913126945496,
      "learning_rate": 0.0002029566660771634,
      "loss": 4.0154,
      "step": 186100
    },
    {
      "epoch": 0.3877291666666667,
      "grad_norm": 0.844828724861145,
      "learning_rate": 0.00020294744223473376,
      "loss": 3.761,
      "step": 186110
    },
    {
      "epoch": 0.38775,
      "grad_norm": 0.8237796425819397,
      "learning_rate": 0.00020293821816359206,
      "loss": 3.6999,
      "step": 186120
    },
    {
      "epoch": 0.38777083333333334,
      "grad_norm": 0.6899739503860474,
      "learning_rate": 0.0002029289938637783,
      "loss": 3.7211,
      "step": 186130
    },
    {
      "epoch": 0.38779166666666665,
      "grad_norm": 0.8483132719993591,
      "learning_rate": 0.00020291976933533218,
      "loss": 3.9516,
      "step": 186140
    },
    {
      "epoch": 0.3878125,
      "grad_norm": 0.7727493643760681,
      "learning_rate": 0.0002029105445782936,
      "loss": 3.8422,
      "step": 186150
    },
    {
      "epoch": 0.3878333333333333,
      "grad_norm": 0.962614119052887,
      "learning_rate": 0.00020290131959270247,
      "loss": 4.0812,
      "step": 186160
    },
    {
      "epoch": 0.38785416666666667,
      "grad_norm": 0.7542482018470764,
      "learning_rate": 0.0002028920943785985,
      "loss": 4.0475,
      "step": 186170
    },
    {
      "epoch": 0.387875,
      "grad_norm": 0.7983097434043884,
      "learning_rate": 0.00020288286893602167,
      "loss": 3.8591,
      "step": 186180
    },
    {
      "epoch": 0.38789583333333333,
      "grad_norm": 0.7980847954750061,
      "learning_rate": 0.00020287364326501177,
      "loss": 3.9921,
      "step": 186190
    },
    {
      "epoch": 0.3879166666666667,
      "grad_norm": 0.8277808427810669,
      "learning_rate": 0.00020286441736560865,
      "loss": 4.1796,
      "step": 186200
    },
    {
      "epoch": 0.3879375,
      "grad_norm": 0.8756154775619507,
      "learning_rate": 0.0002028551912378522,
      "loss": 4.0371,
      "step": 186210
    },
    {
      "epoch": 0.38795833333333335,
      "grad_norm": 0.8169154524803162,
      "learning_rate": 0.0002028459648817822,
      "loss": 3.8147,
      "step": 186220
    },
    {
      "epoch": 0.38797916666666665,
      "grad_norm": 0.8216454982757568,
      "learning_rate": 0.00020283673829743856,
      "loss": 3.9635,
      "step": 186230
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.7572112679481506,
      "learning_rate": 0.00020282751148486118,
      "loss": 3.8226,
      "step": 186240
    },
    {
      "epoch": 0.3880208333333333,
      "grad_norm": 0.7950752973556519,
      "learning_rate": 0.00020281828444408976,
      "loss": 3.9417,
      "step": 186250
    },
    {
      "epoch": 0.3880416666666667,
      "grad_norm": 1.090498685836792,
      "learning_rate": 0.00020280905717516432,
      "loss": 3.9035,
      "step": 186260
    },
    {
      "epoch": 0.3880625,
      "grad_norm": 0.8668925166130066,
      "learning_rate": 0.00020279982967812469,
      "loss": 4.0007,
      "step": 186270
    },
    {
      "epoch": 0.38808333333333334,
      "grad_norm": 0.8179715871810913,
      "learning_rate": 0.00020279060195301063,
      "loss": 3.9349,
      "step": 186280
    },
    {
      "epoch": 0.38810416666666664,
      "grad_norm": 0.8333868384361267,
      "learning_rate": 0.00020278137399986205,
      "loss": 3.943,
      "step": 186290
    },
    {
      "epoch": 0.388125,
      "grad_norm": 0.9270184636116028,
      "learning_rate": 0.0002027721458187189,
      "loss": 4.1123,
      "step": 186300
    },
    {
      "epoch": 0.38814583333333336,
      "grad_norm": 0.8013253808021545,
      "learning_rate": 0.00020276291740962095,
      "loss": 4.02,
      "step": 186310
    },
    {
      "epoch": 0.38816666666666666,
      "grad_norm": 0.9941296577453613,
      "learning_rate": 0.00020275368877260803,
      "loss": 4.0369,
      "step": 186320
    },
    {
      "epoch": 0.3881875,
      "grad_norm": 0.9422081708908081,
      "learning_rate": 0.00020274445990772012,
      "loss": 3.8193,
      "step": 186330
    },
    {
      "epoch": 0.3882083333333333,
      "grad_norm": 0.7494916915893555,
      "learning_rate": 0.00020273523081499703,
      "loss": 4.1716,
      "step": 186340
    },
    {
      "epoch": 0.3882291666666667,
      "grad_norm": 0.8655103445053101,
      "learning_rate": 0.00020272600149447856,
      "loss": 3.9301,
      "step": 186350
    },
    {
      "epoch": 0.38825,
      "grad_norm": 1.0262973308563232,
      "learning_rate": 0.00020271677194620463,
      "loss": 3.9542,
      "step": 186360
    },
    {
      "epoch": 0.38827083333333334,
      "grad_norm": 0.7959965467453003,
      "learning_rate": 0.00020270754217021519,
      "loss": 4.0382,
      "step": 186370
    },
    {
      "epoch": 0.38829166666666665,
      "grad_norm": 0.8086434602737427,
      "learning_rate": 0.00020269831216654998,
      "loss": 3.6895,
      "step": 186380
    },
    {
      "epoch": 0.3883125,
      "grad_norm": 0.9344306588172913,
      "learning_rate": 0.00020268908193524888,
      "loss": 3.8382,
      "step": 186390
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 0.982367992401123,
      "learning_rate": 0.00020267985147635187,
      "loss": 3.8711,
      "step": 186400
    },
    {
      "epoch": 0.38835416666666667,
      "grad_norm": 0.8162280321121216,
      "learning_rate": 0.00020267062078989872,
      "loss": 3.9329,
      "step": 186410
    },
    {
      "epoch": 0.388375,
      "grad_norm": 0.8786364793777466,
      "learning_rate": 0.00020266138987592931,
      "loss": 3.8218,
      "step": 186420
    },
    {
      "epoch": 0.38839583333333333,
      "grad_norm": 0.9577809572219849,
      "learning_rate": 0.0002026521587344836,
      "loss": 3.9583,
      "step": 186430
    },
    {
      "epoch": 0.3884166666666667,
      "grad_norm": 0.9354451894760132,
      "learning_rate": 0.00020264292736560141,
      "loss": 3.9361,
      "step": 186440
    },
    {
      "epoch": 0.3884375,
      "grad_norm": 0.849004328250885,
      "learning_rate": 0.00020263369576932255,
      "loss": 3.9663,
      "step": 186450
    },
    {
      "epoch": 0.38845833333333335,
      "grad_norm": 0.8016316890716553,
      "learning_rate": 0.00020262446394568698,
      "loss": 4.0022,
      "step": 186460
    },
    {
      "epoch": 0.38847916666666665,
      "grad_norm": 0.8644285798072815,
      "learning_rate": 0.00020261523189473457,
      "loss": 3.8872,
      "step": 186470
    },
    {
      "epoch": 0.3885,
      "grad_norm": 0.8518584370613098,
      "learning_rate": 0.0002026059996165052,
      "loss": 3.8772,
      "step": 186480
    },
    {
      "epoch": 0.3885208333333333,
      "grad_norm": 0.7505459785461426,
      "learning_rate": 0.0002025967671110387,
      "loss": 3.8942,
      "step": 186490
    },
    {
      "epoch": 0.3885416666666667,
      "grad_norm": 0.8648091554641724,
      "learning_rate": 0.000202587534378375,
      "loss": 4.034,
      "step": 186500
    },
    {
      "epoch": 0.3885625,
      "grad_norm": 0.8340556025505066,
      "learning_rate": 0.00020257830141855396,
      "loss": 3.8549,
      "step": 186510
    },
    {
      "epoch": 0.38858333333333334,
      "grad_norm": 0.790088951587677,
      "learning_rate": 0.00020256906823161547,
      "loss": 4.0661,
      "step": 186520
    },
    {
      "epoch": 0.38860416666666664,
      "grad_norm": 0.7382675409317017,
      "learning_rate": 0.00020255983481759943,
      "loss": 3.801,
      "step": 186530
    },
    {
      "epoch": 0.388625,
      "grad_norm": 0.7439005374908447,
      "learning_rate": 0.0002025506011765457,
      "loss": 3.9631,
      "step": 186540
    },
    {
      "epoch": 0.38864583333333336,
      "grad_norm": 0.8228477239608765,
      "learning_rate": 0.00020254136730849415,
      "loss": 3.8614,
      "step": 186550
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 0.7656694650650024,
      "learning_rate": 0.0002025321332134847,
      "loss": 4.0509,
      "step": 186560
    },
    {
      "epoch": 0.3886875,
      "grad_norm": 0.8119052648544312,
      "learning_rate": 0.00020252289889155725,
      "loss": 4.0956,
      "step": 186570
    },
    {
      "epoch": 0.3887083333333333,
      "grad_norm": 0.7986176609992981,
      "learning_rate": 0.00020251366434275169,
      "loss": 3.9833,
      "step": 186580
    },
    {
      "epoch": 0.3887291666666667,
      "grad_norm": 0.7793766260147095,
      "learning_rate": 0.00020250442956710785,
      "loss": 4.0295,
      "step": 186590
    },
    {
      "epoch": 0.38875,
      "grad_norm": 0.9438263773918152,
      "learning_rate": 0.00020249519456466564,
      "loss": 3.9387,
      "step": 186600
    },
    {
      "epoch": 0.38877083333333334,
      "grad_norm": 0.9530987739562988,
      "learning_rate": 0.00020248595933546504,
      "loss": 3.9696,
      "step": 186610
    },
    {
      "epoch": 0.38879166666666665,
      "grad_norm": 0.837669849395752,
      "learning_rate": 0.00020247672387954573,
      "loss": 3.8261,
      "step": 186620
    },
    {
      "epoch": 0.3888125,
      "grad_norm": 0.8460307121276855,
      "learning_rate": 0.0002024674881969479,
      "loss": 3.9568,
      "step": 186630
    },
    {
      "epoch": 0.3888333333333333,
      "grad_norm": 0.8569469451904297,
      "learning_rate": 0.0002024582522877112,
      "loss": 4.0566,
      "step": 186640
    },
    {
      "epoch": 0.38885416666666667,
      "grad_norm": 1.0211350917816162,
      "learning_rate": 0.00020244901615187563,
      "loss": 4.1244,
      "step": 186650
    },
    {
      "epoch": 0.388875,
      "grad_norm": 0.7755910158157349,
      "learning_rate": 0.00020243977978948112,
      "loss": 4.0685,
      "step": 186660
    },
    {
      "epoch": 0.38889583333333333,
      "grad_norm": 0.8056086897850037,
      "learning_rate": 0.00020243054320056745,
      "loss": 3.8845,
      "step": 186670
    },
    {
      "epoch": 0.3889166666666667,
      "grad_norm": 0.8362356424331665,
      "learning_rate": 0.0002024213063851746,
      "loss": 3.8662,
      "step": 186680
    },
    {
      "epoch": 0.3889375,
      "grad_norm": 0.9677206873893738,
      "learning_rate": 0.0002024120693433425,
      "loss": 4.1276,
      "step": 186690
    },
    {
      "epoch": 0.38895833333333335,
      "grad_norm": 0.7772249579429626,
      "learning_rate": 0.00020240283207511098,
      "loss": 4.1113,
      "step": 186700
    },
    {
      "epoch": 0.38897916666666665,
      "grad_norm": 0.8875367641448975,
      "learning_rate": 0.00020239359458051995,
      "loss": 4.0234,
      "step": 186710
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.8953182101249695,
      "learning_rate": 0.00020238435685960933,
      "loss": 4.0609,
      "step": 186720
    },
    {
      "epoch": 0.3890208333333333,
      "grad_norm": 0.9454053640365601,
      "learning_rate": 0.00020237511891241905,
      "loss": 3.9616,
      "step": 186730
    },
    {
      "epoch": 0.3890416666666667,
      "grad_norm": 0.8152496218681335,
      "learning_rate": 0.000202365880738989,
      "loss": 3.9759,
      "step": 186740
    },
    {
      "epoch": 0.3890625,
      "grad_norm": 0.8207560181617737,
      "learning_rate": 0.00020235664233935903,
      "loss": 3.9831,
      "step": 186750
    },
    {
      "epoch": 0.38908333333333334,
      "grad_norm": 0.7910041809082031,
      "learning_rate": 0.0002023474037135691,
      "loss": 3.9251,
      "step": 186760
    },
    {
      "epoch": 0.38910416666666664,
      "grad_norm": 0.8016204237937927,
      "learning_rate": 0.00020233816486165911,
      "loss": 3.9661,
      "step": 186770
    },
    {
      "epoch": 0.389125,
      "grad_norm": 0.7938375473022461,
      "learning_rate": 0.00020232892578366898,
      "loss": 3.8905,
      "step": 186780
    },
    {
      "epoch": 0.38914583333333336,
      "grad_norm": 0.7775170803070068,
      "learning_rate": 0.00020231968647963858,
      "loss": 3.8543,
      "step": 186790
    },
    {
      "epoch": 0.38916666666666666,
      "grad_norm": 0.7770060896873474,
      "learning_rate": 0.00020231044694960786,
      "loss": 3.9201,
      "step": 186800
    },
    {
      "epoch": 0.3891875,
      "grad_norm": 0.7909024953842163,
      "learning_rate": 0.00020230120719361676,
      "loss": 3.9263,
      "step": 186810
    },
    {
      "epoch": 0.3892083333333333,
      "grad_norm": 0.9752283692359924,
      "learning_rate": 0.00020229196721170505,
      "loss": 3.7804,
      "step": 186820
    },
    {
      "epoch": 0.3892291666666667,
      "grad_norm": 0.7823483347892761,
      "learning_rate": 0.0002022827270039128,
      "loss": 3.8915,
      "step": 186830
    },
    {
      "epoch": 0.38925,
      "grad_norm": 0.841269850730896,
      "learning_rate": 0.00020227348657027988,
      "loss": 4.0163,
      "step": 186840
    },
    {
      "epoch": 0.38927083333333334,
      "grad_norm": 0.8152697086334229,
      "learning_rate": 0.00020226424591084614,
      "loss": 3.8214,
      "step": 186850
    },
    {
      "epoch": 0.38929166666666665,
      "grad_norm": 0.8706862330436707,
      "learning_rate": 0.0002022550050256516,
      "loss": 3.7791,
      "step": 186860
    },
    {
      "epoch": 0.3893125,
      "grad_norm": 0.7330436110496521,
      "learning_rate": 0.00020224576391473606,
      "loss": 4.0171,
      "step": 186870
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 0.8435348272323608,
      "learning_rate": 0.0002022365225781395,
      "loss": 3.9228,
      "step": 186880
    },
    {
      "epoch": 0.38935416666666667,
      "grad_norm": 0.8235369324684143,
      "learning_rate": 0.0002022272810159019,
      "loss": 4.07,
      "step": 186890
    },
    {
      "epoch": 0.389375,
      "grad_norm": 0.9104869961738586,
      "learning_rate": 0.00020221803922806307,
      "loss": 3.9867,
      "step": 186900
    },
    {
      "epoch": 0.38939583333333333,
      "grad_norm": 0.8134052157402039,
      "learning_rate": 0.00020220879721466304,
      "loss": 3.7762,
      "step": 186910
    },
    {
      "epoch": 0.3894166666666667,
      "grad_norm": 0.8277671933174133,
      "learning_rate": 0.00020219955497574162,
      "loss": 3.8658,
      "step": 186920
    },
    {
      "epoch": 0.3894375,
      "grad_norm": 0.8271559476852417,
      "learning_rate": 0.00020219031251133876,
      "loss": 3.9353,
      "step": 186930
    },
    {
      "epoch": 0.38945833333333335,
      "grad_norm": 0.8439114093780518,
      "learning_rate": 0.0002021810698214945,
      "loss": 3.8609,
      "step": 186940
    },
    {
      "epoch": 0.38947916666666665,
      "grad_norm": 0.818707287311554,
      "learning_rate": 0.00020217182690624862,
      "loss": 3.7704,
      "step": 186950
    },
    {
      "epoch": 0.3895,
      "grad_norm": 0.8147977590560913,
      "learning_rate": 0.00020216258376564109,
      "loss": 3.8286,
      "step": 186960
    },
    {
      "epoch": 0.3895208333333333,
      "grad_norm": 0.8599955439567566,
      "learning_rate": 0.00020215334039971184,
      "loss": 3.8155,
      "step": 186970
    },
    {
      "epoch": 0.3895416666666667,
      "grad_norm": 0.8191339373588562,
      "learning_rate": 0.0002021440968085008,
      "loss": 3.9101,
      "step": 186980
    },
    {
      "epoch": 0.3895625,
      "grad_norm": 0.9160606265068054,
      "learning_rate": 0.0002021348529920479,
      "loss": 3.784,
      "step": 186990
    },
    {
      "epoch": 0.38958333333333334,
      "grad_norm": 0.7907547354698181,
      "learning_rate": 0.00020212560895039312,
      "loss": 3.906,
      "step": 187000
    },
    {
      "epoch": 0.38958333333333334,
      "eval_loss": 3.664905071258545,
      "eval_runtime": 7.2407,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 187000
    },
    {
      "epoch": 0.38960416666666664,
      "grad_norm": 0.7229909896850586,
      "learning_rate": 0.00020211636468357632,
      "loss": 3.8259,
      "step": 187010
    },
    {
      "epoch": 0.389625,
      "grad_norm": 0.9265626072883606,
      "learning_rate": 0.00020210712019163744,
      "loss": 4.1047,
      "step": 187020
    },
    {
      "epoch": 0.38964583333333336,
      "grad_norm": 0.8498361110687256,
      "learning_rate": 0.00020209787547461643,
      "loss": 4.1399,
      "step": 187030
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 0.8736012578010559,
      "learning_rate": 0.0002020886305325532,
      "loss": 4.0869,
      "step": 187040
    },
    {
      "epoch": 0.3896875,
      "grad_norm": 0.8169742822647095,
      "learning_rate": 0.00020207938536548773,
      "loss": 3.9169,
      "step": 187050
    },
    {
      "epoch": 0.3897083333333333,
      "grad_norm": 0.7832297086715698,
      "learning_rate": 0.00020207013997345993,
      "loss": 3.8565,
      "step": 187060
    },
    {
      "epoch": 0.3897291666666667,
      "grad_norm": 0.8884533047676086,
      "learning_rate": 0.00020206089435650972,
      "loss": 4.0866,
      "step": 187070
    },
    {
      "epoch": 0.38975,
      "grad_norm": 0.7841807007789612,
      "learning_rate": 0.00020205164851467707,
      "loss": 4.1374,
      "step": 187080
    },
    {
      "epoch": 0.38977083333333334,
      "grad_norm": 0.7466182112693787,
      "learning_rate": 0.00020204240244800189,
      "loss": 4.2062,
      "step": 187090
    },
    {
      "epoch": 0.38979166666666665,
      "grad_norm": 0.8059983253479004,
      "learning_rate": 0.0002020331561565241,
      "loss": 3.9231,
      "step": 187100
    },
    {
      "epoch": 0.3898125,
      "grad_norm": 0.7674645781517029,
      "learning_rate": 0.00020202390964028377,
      "loss": 3.8407,
      "step": 187110
    },
    {
      "epoch": 0.3898333333333333,
      "grad_norm": 0.8737958669662476,
      "learning_rate": 0.00020201466289932065,
      "loss": 3.9167,
      "step": 187120
    },
    {
      "epoch": 0.38985416666666667,
      "grad_norm": 0.8214428424835205,
      "learning_rate": 0.0002020054159336748,
      "loss": 3.8781,
      "step": 187130
    },
    {
      "epoch": 0.389875,
      "grad_norm": 0.844061553478241,
      "learning_rate": 0.00020199616874338615,
      "loss": 3.9222,
      "step": 187140
    },
    {
      "epoch": 0.38989583333333333,
      "grad_norm": 0.7767237424850464,
      "learning_rate": 0.00020198692132849464,
      "loss": 4.0193,
      "step": 187150
    },
    {
      "epoch": 0.3899166666666667,
      "grad_norm": 0.7567142248153687,
      "learning_rate": 0.00020197767368904018,
      "loss": 3.962,
      "step": 187160
    },
    {
      "epoch": 0.3899375,
      "grad_norm": 0.8269602656364441,
      "learning_rate": 0.00020196842582506278,
      "loss": 3.853,
      "step": 187170
    },
    {
      "epoch": 0.38995833333333335,
      "grad_norm": 0.8239809274673462,
      "learning_rate": 0.00020195917773660233,
      "loss": 3.9824,
      "step": 187180
    },
    {
      "epoch": 0.38997916666666665,
      "grad_norm": 0.9049923419952393,
      "learning_rate": 0.00020194992942369874,
      "loss": 3.9924,
      "step": 187190
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7883520126342773,
      "learning_rate": 0.00020194068088639212,
      "loss": 4.1596,
      "step": 187200
    },
    {
      "epoch": 0.3900208333333333,
      "grad_norm": 0.843543291091919,
      "learning_rate": 0.00020193143212472226,
      "loss": 4.142,
      "step": 187210
    },
    {
      "epoch": 0.3900416666666667,
      "grad_norm": 0.8284189105033875,
      "learning_rate": 0.0002019221831387292,
      "loss": 4.0492,
      "step": 187220
    },
    {
      "epoch": 0.3900625,
      "grad_norm": 0.7988413572311401,
      "learning_rate": 0.00020191293392845286,
      "loss": 3.9988,
      "step": 187230
    },
    {
      "epoch": 0.39008333333333334,
      "grad_norm": 0.8007846474647522,
      "learning_rate": 0.00020190368449393315,
      "loss": 3.8879,
      "step": 187240
    },
    {
      "epoch": 0.39010416666666664,
      "grad_norm": 0.7880586981773376,
      "learning_rate": 0.0002018944348352101,
      "loss": 3.8509,
      "step": 187250
    },
    {
      "epoch": 0.390125,
      "grad_norm": 0.8705548048019409,
      "learning_rate": 0.00020188518495232362,
      "loss": 3.9015,
      "step": 187260
    },
    {
      "epoch": 0.39014583333333336,
      "grad_norm": 0.7923963665962219,
      "learning_rate": 0.0002018759348453137,
      "loss": 3.9,
      "step": 187270
    },
    {
      "epoch": 0.39016666666666666,
      "grad_norm": 0.8195702433586121,
      "learning_rate": 0.00020186668451422027,
      "loss": 3.9264,
      "step": 187280
    },
    {
      "epoch": 0.3901875,
      "grad_norm": 0.9174069166183472,
      "learning_rate": 0.00020185743395908327,
      "loss": 3.9971,
      "step": 187290
    },
    {
      "epoch": 0.3902083333333333,
      "grad_norm": 0.8185279965400696,
      "learning_rate": 0.0002018481831799427,
      "loss": 3.7889,
      "step": 187300
    },
    {
      "epoch": 0.3902291666666667,
      "grad_norm": 0.8152373433113098,
      "learning_rate": 0.00020183893217683854,
      "loss": 4.0444,
      "step": 187310
    },
    {
      "epoch": 0.39025,
      "grad_norm": 0.8048704266548157,
      "learning_rate": 0.00020182968094981064,
      "loss": 4.0041,
      "step": 187320
    },
    {
      "epoch": 0.39027083333333334,
      "grad_norm": 0.7505688071250916,
      "learning_rate": 0.00020182042949889905,
      "loss": 4.059,
      "step": 187330
    },
    {
      "epoch": 0.39029166666666665,
      "grad_norm": 1.2681766748428345,
      "learning_rate": 0.00020181117782414377,
      "loss": 3.8912,
      "step": 187340
    },
    {
      "epoch": 0.3903125,
      "grad_norm": 0.7432224154472351,
      "learning_rate": 0.00020180192592558467,
      "loss": 3.8457,
      "step": 187350
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 0.8270361423492432,
      "learning_rate": 0.00020179267380326173,
      "loss": 4.0521,
      "step": 187360
    },
    {
      "epoch": 0.39035416666666667,
      "grad_norm": 0.803021252155304,
      "learning_rate": 0.000201783421457215,
      "loss": 3.9205,
      "step": 187370
    },
    {
      "epoch": 0.390375,
      "grad_norm": 0.7981391549110413,
      "learning_rate": 0.00020177416888748434,
      "loss": 3.9414,
      "step": 187380
    },
    {
      "epoch": 0.39039583333333333,
      "grad_norm": 0.7725334763526917,
      "learning_rate": 0.00020176491609410978,
      "loss": 4.09,
      "step": 187390
    },
    {
      "epoch": 0.3904166666666667,
      "grad_norm": 0.7622905969619751,
      "learning_rate": 0.00020175566307713128,
      "loss": 3.838,
      "step": 187400
    },
    {
      "epoch": 0.3904375,
      "grad_norm": 0.8979831337928772,
      "learning_rate": 0.00020174640983658878,
      "loss": 3.8911,
      "step": 187410
    },
    {
      "epoch": 0.39045833333333335,
      "grad_norm": 0.9476839900016785,
      "learning_rate": 0.00020173715637252228,
      "loss": 3.9979,
      "step": 187420
    },
    {
      "epoch": 0.39047916666666665,
      "grad_norm": 0.8533033728599548,
      "learning_rate": 0.00020172790268497176,
      "loss": 3.981,
      "step": 187430
    },
    {
      "epoch": 0.3905,
      "grad_norm": 0.8509420156478882,
      "learning_rate": 0.00020171864877397715,
      "loss": 3.9584,
      "step": 187440
    },
    {
      "epoch": 0.3905208333333333,
      "grad_norm": 0.8715693950653076,
      "learning_rate": 0.00020170939463957848,
      "loss": 3.9273,
      "step": 187450
    },
    {
      "epoch": 0.3905416666666667,
      "grad_norm": 0.7994163036346436,
      "learning_rate": 0.00020170014028181565,
      "loss": 4.0558,
      "step": 187460
    },
    {
      "epoch": 0.3905625,
      "grad_norm": 0.8220416903495789,
      "learning_rate": 0.00020169088570072872,
      "loss": 3.7722,
      "step": 187470
    },
    {
      "epoch": 0.39058333333333334,
      "grad_norm": 0.8847853541374207,
      "learning_rate": 0.0002016816308963576,
      "loss": 4.0346,
      "step": 187480
    },
    {
      "epoch": 0.39060416666666664,
      "grad_norm": 0.8819895386695862,
      "learning_rate": 0.0002016723758687423,
      "loss": 4.0106,
      "step": 187490
    },
    {
      "epoch": 0.390625,
      "grad_norm": 0.9188631176948547,
      "learning_rate": 0.00020166312061792278,
      "loss": 4.0225,
      "step": 187500
    },
    {
      "epoch": 0.39064583333333336,
      "grad_norm": 0.9042447209358215,
      "learning_rate": 0.00020165386514393906,
      "loss": 4.0128,
      "step": 187510
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 0.7509567141532898,
      "learning_rate": 0.0002016446094468311,
      "loss": 4.0426,
      "step": 187520
    },
    {
      "epoch": 0.3906875,
      "grad_norm": 0.7316131591796875,
      "learning_rate": 0.00020163535352663882,
      "loss": 3.8774,
      "step": 187530
    },
    {
      "epoch": 0.3907083333333333,
      "grad_norm": 0.7623981237411499,
      "learning_rate": 0.00020162609738340228,
      "loss": 3.9104,
      "step": 187540
    },
    {
      "epoch": 0.3907291666666667,
      "grad_norm": 0.7357638478279114,
      "learning_rate": 0.00020161684101716138,
      "loss": 3.9201,
      "step": 187550
    },
    {
      "epoch": 0.39075,
      "grad_norm": 0.8141914010047913,
      "learning_rate": 0.00020160758442795625,
      "loss": 3.9397,
      "step": 187560
    },
    {
      "epoch": 0.39077083333333335,
      "grad_norm": 0.8162372708320618,
      "learning_rate": 0.00020159832761582668,
      "loss": 4.006,
      "step": 187570
    },
    {
      "epoch": 0.39079166666666665,
      "grad_norm": 0.8337495923042297,
      "learning_rate": 0.00020158907058081283,
      "loss": 4.1367,
      "step": 187580
    },
    {
      "epoch": 0.3908125,
      "grad_norm": 0.9786813855171204,
      "learning_rate": 0.0002015798133229546,
      "loss": 3.7933,
      "step": 187590
    },
    {
      "epoch": 0.3908333333333333,
      "grad_norm": 0.9225630164146423,
      "learning_rate": 0.000201570555842292,
      "loss": 4.0576,
      "step": 187600
    },
    {
      "epoch": 0.39085416666666667,
      "grad_norm": 0.8081610798835754,
      "learning_rate": 0.00020156129813886497,
      "loss": 4.0619,
      "step": 187610
    },
    {
      "epoch": 0.390875,
      "grad_norm": 0.7620759010314941,
      "learning_rate": 0.0002015520402127136,
      "loss": 4.0208,
      "step": 187620
    },
    {
      "epoch": 0.39089583333333333,
      "grad_norm": 0.8483232259750366,
      "learning_rate": 0.00020154278206387777,
      "loss": 4.1014,
      "step": 187630
    },
    {
      "epoch": 0.3909166666666667,
      "grad_norm": 0.8769963979721069,
      "learning_rate": 0.00020153352369239758,
      "loss": 4.1438,
      "step": 187640
    },
    {
      "epoch": 0.3909375,
      "grad_norm": 0.8616542220115662,
      "learning_rate": 0.00020152426509831297,
      "loss": 3.8172,
      "step": 187650
    },
    {
      "epoch": 0.39095833333333335,
      "grad_norm": 0.7951528429985046,
      "learning_rate": 0.00020151500628166384,
      "loss": 3.9283,
      "step": 187660
    },
    {
      "epoch": 0.39097916666666666,
      "grad_norm": 0.9851082563400269,
      "learning_rate": 0.00020150574724249037,
      "loss": 4.1074,
      "step": 187670
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.8448706269264221,
      "learning_rate": 0.00020149648798083243,
      "loss": 4.1545,
      "step": 187680
    },
    {
      "epoch": 0.3910208333333333,
      "grad_norm": 0.780420184135437,
      "learning_rate": 0.00020148722849672995,
      "loss": 3.7537,
      "step": 187690
    },
    {
      "epoch": 0.3910416666666667,
      "grad_norm": 0.787689208984375,
      "learning_rate": 0.00020147796879022316,
      "loss": 3.8701,
      "step": 187700
    },
    {
      "epoch": 0.3910625,
      "grad_norm": 1.2569652795791626,
      "learning_rate": 0.0002014687088613519,
      "loss": 3.9011,
      "step": 187710
    },
    {
      "epoch": 0.39108333333333334,
      "grad_norm": 0.8448602557182312,
      "learning_rate": 0.00020145944871015613,
      "loss": 3.7016,
      "step": 187720
    },
    {
      "epoch": 0.39110416666666664,
      "grad_norm": 0.8004619479179382,
      "learning_rate": 0.00020145018833667594,
      "loss": 4.008,
      "step": 187730
    },
    {
      "epoch": 0.391125,
      "grad_norm": 0.8507548570632935,
      "learning_rate": 0.0002014409277409513,
      "loss": 3.7805,
      "step": 187740
    },
    {
      "epoch": 0.39114583333333336,
      "grad_norm": 0.7781723737716675,
      "learning_rate": 0.0002014316669230222,
      "loss": 4.0212,
      "step": 187750
    },
    {
      "epoch": 0.39116666666666666,
      "grad_norm": 0.8633938431739807,
      "learning_rate": 0.00020142240588292865,
      "loss": 3.853,
      "step": 187760
    },
    {
      "epoch": 0.3911875,
      "grad_norm": 0.7560097575187683,
      "learning_rate": 0.0002014131446207107,
      "loss": 4.0309,
      "step": 187770
    },
    {
      "epoch": 0.3912083333333333,
      "grad_norm": 0.8012973070144653,
      "learning_rate": 0.0002014038831364083,
      "loss": 3.9315,
      "step": 187780
    },
    {
      "epoch": 0.3912291666666667,
      "grad_norm": 0.9364020228385925,
      "learning_rate": 0.0002013946214300615,
      "loss": 3.9694,
      "step": 187790
    },
    {
      "epoch": 0.39125,
      "grad_norm": 0.9728809595108032,
      "learning_rate": 0.00020138535950171022,
      "loss": 3.9944,
      "step": 187800
    },
    {
      "epoch": 0.39127083333333335,
      "grad_norm": 0.7919806241989136,
      "learning_rate": 0.00020137609735139457,
      "loss": 4.0761,
      "step": 187810
    },
    {
      "epoch": 0.39129166666666665,
      "grad_norm": 0.8198660612106323,
      "learning_rate": 0.00020136683497915447,
      "loss": 3.9355,
      "step": 187820
    },
    {
      "epoch": 0.3913125,
      "grad_norm": 0.9200780391693115,
      "learning_rate": 0.00020135757238503002,
      "loss": 3.8219,
      "step": 187830
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 1.058750033378601,
      "learning_rate": 0.0002013483095690612,
      "loss": 3.7754,
      "step": 187840
    },
    {
      "epoch": 0.39135416666666667,
      "grad_norm": 0.7953848242759705,
      "learning_rate": 0.00020133904653128797,
      "loss": 3.9658,
      "step": 187850
    },
    {
      "epoch": 0.391375,
      "grad_norm": 0.8066200613975525,
      "learning_rate": 0.00020132978327175037,
      "loss": 4.1239,
      "step": 187860
    },
    {
      "epoch": 0.39139583333333333,
      "grad_norm": 0.7867559790611267,
      "learning_rate": 0.0002013205197904885,
      "loss": 4.032,
      "step": 187870
    },
    {
      "epoch": 0.3914166666666667,
      "grad_norm": 0.757744312286377,
      "learning_rate": 0.0002013112560875422,
      "loss": 3.9393,
      "step": 187880
    },
    {
      "epoch": 0.3914375,
      "grad_norm": 0.8011762499809265,
      "learning_rate": 0.0002013019921629516,
      "loss": 3.9012,
      "step": 187890
    },
    {
      "epoch": 0.39145833333333335,
      "grad_norm": 0.8666387796401978,
      "learning_rate": 0.00020129272801675677,
      "loss": 4.069,
      "step": 187900
    },
    {
      "epoch": 0.39147916666666666,
      "grad_norm": 0.8249914646148682,
      "learning_rate": 0.0002012834636489976,
      "loss": 3.9112,
      "step": 187910
    },
    {
      "epoch": 0.3915,
      "grad_norm": 1.0004075765609741,
      "learning_rate": 0.0002012741990597142,
      "loss": 3.9503,
      "step": 187920
    },
    {
      "epoch": 0.3915208333333333,
      "grad_norm": 0.8471998572349548,
      "learning_rate": 0.00020126493424894653,
      "loss": 3.8289,
      "step": 187930
    },
    {
      "epoch": 0.3915416666666667,
      "grad_norm": 0.8343613743782043,
      "learning_rate": 0.00020125566921673466,
      "loss": 4.0479,
      "step": 187940
    },
    {
      "epoch": 0.3915625,
      "grad_norm": 0.7885268330574036,
      "learning_rate": 0.0002012464039631186,
      "loss": 4.0579,
      "step": 187950
    },
    {
      "epoch": 0.39158333333333334,
      "grad_norm": 0.7906642556190491,
      "learning_rate": 0.00020123713848813827,
      "loss": 3.9761,
      "step": 187960
    },
    {
      "epoch": 0.39160416666666664,
      "grad_norm": 0.7867144346237183,
      "learning_rate": 0.00020122787279183384,
      "loss": 4.0593,
      "step": 187970
    },
    {
      "epoch": 0.391625,
      "grad_norm": 0.9167994856834412,
      "learning_rate": 0.00020121860687424533,
      "loss": 3.8397,
      "step": 187980
    },
    {
      "epoch": 0.39164583333333336,
      "grad_norm": 0.7499153017997742,
      "learning_rate": 0.0002012093407354126,
      "loss": 3.8954,
      "step": 187990
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 0.7786511778831482,
      "learning_rate": 0.00020120007437537585,
      "loss": 4.3365,
      "step": 188000
    },
    {
      "epoch": 0.39166666666666666,
      "eval_loss": 3.675736904144287,
      "eval_runtime": 7.2029,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.416,
      "step": 188000
    },
    {
      "epoch": 0.3916875,
      "grad_norm": 0.8130050897598267,
      "learning_rate": 0.0002011908077941751,
      "loss": 3.6836,
      "step": 188010
    },
    {
      "epoch": 0.3917083333333333,
      "grad_norm": 0.7877856492996216,
      "learning_rate": 0.00020118154099185026,
      "loss": 4.0091,
      "step": 188020
    },
    {
      "epoch": 0.3917291666666667,
      "grad_norm": 0.8477944135665894,
      "learning_rate": 0.00020117227396844142,
      "loss": 3.8113,
      "step": 188030
    },
    {
      "epoch": 0.39175,
      "grad_norm": 0.9738712906837463,
      "learning_rate": 0.00020116300672398866,
      "loss": 3.9953,
      "step": 188040
    },
    {
      "epoch": 0.39177083333333335,
      "grad_norm": 0.8050086498260498,
      "learning_rate": 0.00020115373925853192,
      "loss": 3.8712,
      "step": 188050
    },
    {
      "epoch": 0.39179166666666665,
      "grad_norm": 0.828673243522644,
      "learning_rate": 0.00020114447157211122,
      "loss": 4.0313,
      "step": 188060
    },
    {
      "epoch": 0.3918125,
      "grad_norm": 0.7771435379981995,
      "learning_rate": 0.00020113520366476676,
      "loss": 4.0397,
      "step": 188070
    },
    {
      "epoch": 0.3918333333333333,
      "grad_norm": 0.8074076175689697,
      "learning_rate": 0.00020112593553653843,
      "loss": 3.9949,
      "step": 188080
    },
    {
      "epoch": 0.39185416666666667,
      "grad_norm": 1.0628279447555542,
      "learning_rate": 0.00020111666718746626,
      "loss": 3.9881,
      "step": 188090
    },
    {
      "epoch": 0.391875,
      "grad_norm": 0.8161787390708923,
      "learning_rate": 0.00020110739861759034,
      "loss": 3.9267,
      "step": 188100
    },
    {
      "epoch": 0.39189583333333333,
      "grad_norm": 0.7582052946090698,
      "learning_rate": 0.00020109812982695065,
      "loss": 3.8413,
      "step": 188110
    },
    {
      "epoch": 0.3919166666666667,
      "grad_norm": 0.8371642231941223,
      "learning_rate": 0.0002010888608155873,
      "loss": 3.9342,
      "step": 188120
    },
    {
      "epoch": 0.3919375,
      "grad_norm": 0.751457691192627,
      "learning_rate": 0.0002010795915835403,
      "loss": 3.9453,
      "step": 188130
    },
    {
      "epoch": 0.39195833333333335,
      "grad_norm": 0.8680673241615295,
      "learning_rate": 0.0002010703221308497,
      "loss": 3.9343,
      "step": 188140
    },
    {
      "epoch": 0.39197916666666666,
      "grad_norm": 0.8945992588996887,
      "learning_rate": 0.0002010610524575555,
      "loss": 3.7786,
      "step": 188150
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.8447045087814331,
      "learning_rate": 0.00020105178256369773,
      "loss": 4.012,
      "step": 188160
    },
    {
      "epoch": 0.3920208333333333,
      "grad_norm": 0.7560120224952698,
      "learning_rate": 0.0002010425124493165,
      "loss": 3.9683,
      "step": 188170
    },
    {
      "epoch": 0.3920416666666667,
      "grad_norm": 0.8317705392837524,
      "learning_rate": 0.00020103324211445187,
      "loss": 4.011,
      "step": 188180
    },
    {
      "epoch": 0.3920625,
      "grad_norm": 0.8106669783592224,
      "learning_rate": 0.00020102397155914375,
      "loss": 4.0402,
      "step": 188190
    },
    {
      "epoch": 0.39208333333333334,
      "grad_norm": 0.8390953540802002,
      "learning_rate": 0.00020101470078343227,
      "loss": 4.1084,
      "step": 188200
    },
    {
      "epoch": 0.39210416666666664,
      "grad_norm": 0.9771499037742615,
      "learning_rate": 0.00020100542978735756,
      "loss": 3.9589,
      "step": 188210
    },
    {
      "epoch": 0.392125,
      "grad_norm": 0.7916730642318726,
      "learning_rate": 0.00020099615857095953,
      "loss": 3.8586,
      "step": 188220
    },
    {
      "epoch": 0.39214583333333336,
      "grad_norm": 0.7619590759277344,
      "learning_rate": 0.00020098688713427823,
      "loss": 4.1651,
      "step": 188230
    },
    {
      "epoch": 0.39216666666666666,
      "grad_norm": 0.7710770964622498,
      "learning_rate": 0.00020097761547735387,
      "loss": 3.9725,
      "step": 188240
    },
    {
      "epoch": 0.3921875,
      "grad_norm": 0.7921819686889648,
      "learning_rate": 0.00020096834360022633,
      "loss": 3.9337,
      "step": 188250
    },
    {
      "epoch": 0.3922083333333333,
      "grad_norm": 0.7806053757667542,
      "learning_rate": 0.00020095907150293572,
      "loss": 3.9061,
      "step": 188260
    },
    {
      "epoch": 0.3922291666666667,
      "grad_norm": 0.7995234131813049,
      "learning_rate": 0.00020094979918552208,
      "loss": 3.8563,
      "step": 188270
    },
    {
      "epoch": 0.39225,
      "grad_norm": 0.9632774591445923,
      "learning_rate": 0.0002009405266480255,
      "loss": 4.0742,
      "step": 188280
    },
    {
      "epoch": 0.39227083333333335,
      "grad_norm": 0.8945006728172302,
      "learning_rate": 0.000200931253890486,
      "loss": 4.0501,
      "step": 188290
    },
    {
      "epoch": 0.39229166666666665,
      "grad_norm": 0.7821311354637146,
      "learning_rate": 0.00020092198091294365,
      "loss": 3.9447,
      "step": 188300
    },
    {
      "epoch": 0.3923125,
      "grad_norm": 0.8214733004570007,
      "learning_rate": 0.00020091270771543848,
      "loss": 3.9161,
      "step": 188310
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 0.8479467630386353,
      "learning_rate": 0.00020090343429801058,
      "loss": 4.0171,
      "step": 188320
    },
    {
      "epoch": 0.39235416666666667,
      "grad_norm": 0.8045603632926941,
      "learning_rate": 0.00020089416066069999,
      "loss": 3.9194,
      "step": 188330
    },
    {
      "epoch": 0.392375,
      "grad_norm": 1.6957191228866577,
      "learning_rate": 0.00020088488680354677,
      "loss": 3.8711,
      "step": 188340
    },
    {
      "epoch": 0.39239583333333333,
      "grad_norm": 0.8026666045188904,
      "learning_rate": 0.000200875612726591,
      "loss": 3.9329,
      "step": 188350
    },
    {
      "epoch": 0.3924166666666667,
      "grad_norm": 0.8482190370559692,
      "learning_rate": 0.00020086633842987268,
      "loss": 3.9284,
      "step": 188360
    },
    {
      "epoch": 0.3924375,
      "grad_norm": 0.7459434270858765,
      "learning_rate": 0.0002008570639134319,
      "loss": 4.1466,
      "step": 188370
    },
    {
      "epoch": 0.39245833333333335,
      "grad_norm": 0.7822830677032471,
      "learning_rate": 0.0002008477891773088,
      "loss": 3.9822,
      "step": 188380
    },
    {
      "epoch": 0.39247916666666666,
      "grad_norm": 0.7384653687477112,
      "learning_rate": 0.0002008385142215433,
      "loss": 4.182,
      "step": 188390
    },
    {
      "epoch": 0.3925,
      "grad_norm": 0.8092246651649475,
      "learning_rate": 0.00020082923904617562,
      "loss": 3.7596,
      "step": 188400
    },
    {
      "epoch": 0.3925208333333333,
      "grad_norm": 0.8040724396705627,
      "learning_rate": 0.00020081996365124574,
      "loss": 3.9115,
      "step": 188410
    },
    {
      "epoch": 0.3925416666666667,
      "grad_norm": 0.7846620678901672,
      "learning_rate": 0.00020081068803679371,
      "loss": 3.913,
      "step": 188420
    },
    {
      "epoch": 0.3925625,
      "grad_norm": 0.8301624655723572,
      "learning_rate": 0.0002008014122028596,
      "loss": 3.7296,
      "step": 188430
    },
    {
      "epoch": 0.39258333333333334,
      "grad_norm": 0.8094172477722168,
      "learning_rate": 0.00020079213614948352,
      "loss": 3.8809,
      "step": 188440
    },
    {
      "epoch": 0.39260416666666664,
      "grad_norm": 0.786245584487915,
      "learning_rate": 0.0002007828598767055,
      "loss": 3.7979,
      "step": 188450
    },
    {
      "epoch": 0.392625,
      "grad_norm": 0.7681753039360046,
      "learning_rate": 0.00020077358338456566,
      "loss": 4.0883,
      "step": 188460
    },
    {
      "epoch": 0.39264583333333336,
      "grad_norm": 0.7520596385002136,
      "learning_rate": 0.000200764306673104,
      "loss": 4.09,
      "step": 188470
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 1.1094261407852173,
      "learning_rate": 0.00020075502974236067,
      "loss": 3.9375,
      "step": 188480
    },
    {
      "epoch": 0.3926875,
      "grad_norm": 0.9183629155158997,
      "learning_rate": 0.00020074575259237563,
      "loss": 4.116,
      "step": 188490
    },
    {
      "epoch": 0.3927083333333333,
      "grad_norm": 0.8431882262229919,
      "learning_rate": 0.00020073647522318909,
      "loss": 3.7773,
      "step": 188500
    },
    {
      "epoch": 0.3927291666666667,
      "grad_norm": 0.7734983563423157,
      "learning_rate": 0.00020072719763484107,
      "loss": 3.9439,
      "step": 188510
    },
    {
      "epoch": 0.39275,
      "grad_norm": 1.2762274742126465,
      "learning_rate": 0.0002007179198273716,
      "loss": 3.8991,
      "step": 188520
    },
    {
      "epoch": 0.39277083333333335,
      "grad_norm": 0.8708309531211853,
      "learning_rate": 0.00020070864180082076,
      "loss": 3.9715,
      "step": 188530
    },
    {
      "epoch": 0.39279166666666665,
      "grad_norm": 0.8678053021430969,
      "learning_rate": 0.00020069936355522874,
      "loss": 3.9038,
      "step": 188540
    },
    {
      "epoch": 0.3928125,
      "grad_norm": 0.7708322405815125,
      "learning_rate": 0.0002006900850906355,
      "loss": 4.1087,
      "step": 188550
    },
    {
      "epoch": 0.3928333333333333,
      "grad_norm": 0.8867802619934082,
      "learning_rate": 0.0002006808064070811,
      "loss": 3.914,
      "step": 188560
    },
    {
      "epoch": 0.39285416666666667,
      "grad_norm": 0.7459794878959656,
      "learning_rate": 0.0002006715275046058,
      "loss": 3.9161,
      "step": 188570
    },
    {
      "epoch": 0.392875,
      "grad_norm": 0.8833437561988831,
      "learning_rate": 0.00020066224838324949,
      "loss": 3.9684,
      "step": 188580
    },
    {
      "epoch": 0.39289583333333333,
      "grad_norm": 0.9101994037628174,
      "learning_rate": 0.0002006529690430523,
      "loss": 3.8715,
      "step": 188590
    },
    {
      "epoch": 0.3929166666666667,
      "grad_norm": 0.7979941368103027,
      "learning_rate": 0.00020064368948405435,
      "loss": 4.0814,
      "step": 188600
    },
    {
      "epoch": 0.3929375,
      "grad_norm": 0.6937137842178345,
      "learning_rate": 0.0002006344097062957,
      "loss": 3.9616,
      "step": 188610
    },
    {
      "epoch": 0.39295833333333335,
      "grad_norm": 0.8500086069107056,
      "learning_rate": 0.00020062512970981647,
      "loss": 4.0756,
      "step": 188620
    },
    {
      "epoch": 0.39297916666666666,
      "grad_norm": 0.7935165762901306,
      "learning_rate": 0.00020061584949465668,
      "loss": 3.9661,
      "step": 188630
    },
    {
      "epoch": 0.393,
      "grad_norm": 1.0477330684661865,
      "learning_rate": 0.00020060656906085647,
      "loss": 3.7386,
      "step": 188640
    },
    {
      "epoch": 0.3930208333333333,
      "grad_norm": 0.8444287180900574,
      "learning_rate": 0.00020059728840845595,
      "loss": 3.8669,
      "step": 188650
    },
    {
      "epoch": 0.3930416666666667,
      "grad_norm": 0.7953004837036133,
      "learning_rate": 0.00020058800753749512,
      "loss": 3.96,
      "step": 188660
    },
    {
      "epoch": 0.3930625,
      "grad_norm": 0.7760809659957886,
      "learning_rate": 0.00020057872644801413,
      "loss": 4.0529,
      "step": 188670
    },
    {
      "epoch": 0.39308333333333334,
      "grad_norm": 0.8115095496177673,
      "learning_rate": 0.0002005694451400531,
      "loss": 3.7496,
      "step": 188680
    },
    {
      "epoch": 0.39310416666666664,
      "grad_norm": 0.9184636473655701,
      "learning_rate": 0.00020056016361365202,
      "loss": 3.6616,
      "step": 188690
    },
    {
      "epoch": 0.393125,
      "grad_norm": 0.8787567019462585,
      "learning_rate": 0.00020055088186885113,
      "loss": 3.8778,
      "step": 188700
    },
    {
      "epoch": 0.39314583333333336,
      "grad_norm": 0.7284030914306641,
      "learning_rate": 0.0002005415999056904,
      "loss": 4.0935,
      "step": 188710
    },
    {
      "epoch": 0.39316666666666666,
      "grad_norm": 0.8367375135421753,
      "learning_rate": 0.00020053231772420996,
      "loss": 3.923,
      "step": 188720
    },
    {
      "epoch": 0.3931875,
      "grad_norm": 0.8313100337982178,
      "learning_rate": 0.00020052303532444986,
      "loss": 3.9457,
      "step": 188730
    },
    {
      "epoch": 0.3932083333333333,
      "grad_norm": 0.8582214713096619,
      "learning_rate": 0.00020051375270645035,
      "loss": 4.0124,
      "step": 188740
    },
    {
      "epoch": 0.3932291666666667,
      "grad_norm": 0.7679702043533325,
      "learning_rate": 0.00020050446987025135,
      "loss": 3.9331,
      "step": 188750
    },
    {
      "epoch": 0.39325,
      "grad_norm": 1.0714058876037598,
      "learning_rate": 0.00020049518681589305,
      "loss": 3.8752,
      "step": 188760
    },
    {
      "epoch": 0.39327083333333335,
      "grad_norm": 0.8040102124214172,
      "learning_rate": 0.00020048590354341555,
      "loss": 3.9486,
      "step": 188770
    },
    {
      "epoch": 0.39329166666666665,
      "grad_norm": 0.7858290672302246,
      "learning_rate": 0.0002004766200528589,
      "loss": 3.9403,
      "step": 188780
    },
    {
      "epoch": 0.3933125,
      "grad_norm": 0.7954513430595398,
      "learning_rate": 0.00020046733634426325,
      "loss": 3.9909,
      "step": 188790
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 1.1092782020568848,
      "learning_rate": 0.0002004580524176687,
      "loss": 3.9244,
      "step": 188800
    },
    {
      "epoch": 0.39335416666666667,
      "grad_norm": 0.860604465007782,
      "learning_rate": 0.00020044876827311528,
      "loss": 3.9336,
      "step": 188810
    },
    {
      "epoch": 0.393375,
      "grad_norm": 0.7867226600646973,
      "learning_rate": 0.00020043948391064317,
      "loss": 4.0269,
      "step": 188820
    },
    {
      "epoch": 0.39339583333333333,
      "grad_norm": 0.7961929440498352,
      "learning_rate": 0.00020043019933029246,
      "loss": 3.9557,
      "step": 188830
    },
    {
      "epoch": 0.3934166666666667,
      "grad_norm": 0.9363775253295898,
      "learning_rate": 0.00020042091453210327,
      "loss": 3.9249,
      "step": 188840
    },
    {
      "epoch": 0.3934375,
      "grad_norm": 0.8037152886390686,
      "learning_rate": 0.0002004116295161157,
      "loss": 3.987,
      "step": 188850
    },
    {
      "epoch": 0.39345833333333335,
      "grad_norm": 0.8504047989845276,
      "learning_rate": 0.00020040234428236978,
      "loss": 3.9811,
      "step": 188860
    },
    {
      "epoch": 0.39347916666666666,
      "grad_norm": 0.7725526094436646,
      "learning_rate": 0.00020039305883090574,
      "loss": 3.9645,
      "step": 188870
    },
    {
      "epoch": 0.3935,
      "grad_norm": 0.7684325575828552,
      "learning_rate": 0.00020038377316176364,
      "loss": 4.1821,
      "step": 188880
    },
    {
      "epoch": 0.3935208333333333,
      "grad_norm": 0.8244726657867432,
      "learning_rate": 0.0002003744872749835,
      "loss": 3.952,
      "step": 188890
    },
    {
      "epoch": 0.3935416666666667,
      "grad_norm": 1.1590582132339478,
      "learning_rate": 0.00020036520117060557,
      "loss": 3.9376,
      "step": 188900
    },
    {
      "epoch": 0.3935625,
      "grad_norm": 0.8637810945510864,
      "learning_rate": 0.00020035591484866995,
      "loss": 4.0931,
      "step": 188910
    },
    {
      "epoch": 0.39358333333333334,
      "grad_norm": 0.9135140776634216,
      "learning_rate": 0.00020034662830921665,
      "loss": 4.0477,
      "step": 188920
    },
    {
      "epoch": 0.39360416666666664,
      "grad_norm": 0.8558409214019775,
      "learning_rate": 0.00020033734155228586,
      "loss": 3.9848,
      "step": 188930
    },
    {
      "epoch": 0.393625,
      "grad_norm": 0.7750051021575928,
      "learning_rate": 0.0002003280545779177,
      "loss": 3.835,
      "step": 188940
    },
    {
      "epoch": 0.3936458333333333,
      "grad_norm": 0.9519956111907959,
      "learning_rate": 0.00020031876738615224,
      "loss": 3.8613,
      "step": 188950
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 0.7458165884017944,
      "learning_rate": 0.00020030947997702966,
      "loss": 4.1717,
      "step": 188960
    },
    {
      "epoch": 0.3936875,
      "grad_norm": 0.8149725794792175,
      "learning_rate": 0.00020030019235058998,
      "loss": 3.8073,
      "step": 188970
    },
    {
      "epoch": 0.3937083333333333,
      "grad_norm": 0.8164801597595215,
      "learning_rate": 0.0002002909045068734,
      "loss": 3.8893,
      "step": 188980
    },
    {
      "epoch": 0.3937291666666667,
      "grad_norm": 0.8141413331031799,
      "learning_rate": 0.00020028161644592007,
      "loss": 4.0824,
      "step": 188990
    },
    {
      "epoch": 0.39375,
      "grad_norm": 0.8712912797927856,
      "learning_rate": 0.00020027232816777,
      "loss": 4.0758,
      "step": 189000
    },
    {
      "epoch": 0.39375,
      "eval_loss": 3.6666111946105957,
      "eval_runtime": 7.1975,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.417,
      "step": 189000
    },
    {
      "epoch": 0.39377083333333335,
      "grad_norm": 0.9212903380393982,
      "learning_rate": 0.00020026303967246337,
      "loss": 3.9378,
      "step": 189010
    },
    {
      "epoch": 0.39379166666666665,
      "grad_norm": 0.7553296089172363,
      "learning_rate": 0.00020025375096004034,
      "loss": 3.9578,
      "step": 189020
    },
    {
      "epoch": 0.3938125,
      "grad_norm": 0.9593687057495117,
      "learning_rate": 0.00020024446203054097,
      "loss": 3.8521,
      "step": 189030
    },
    {
      "epoch": 0.3938333333333333,
      "grad_norm": 0.8196554780006409,
      "learning_rate": 0.00020023517288400542,
      "loss": 3.833,
      "step": 189040
    },
    {
      "epoch": 0.39385416666666667,
      "grad_norm": 0.8679210543632507,
      "learning_rate": 0.00020022588352047385,
      "loss": 3.8467,
      "step": 189050
    },
    {
      "epoch": 0.393875,
      "grad_norm": 0.8485094904899597,
      "learning_rate": 0.00020021659393998627,
      "loss": 3.9969,
      "step": 189060
    },
    {
      "epoch": 0.39389583333333333,
      "grad_norm": 0.7910242676734924,
      "learning_rate": 0.0002002073041425829,
      "loss": 3.8788,
      "step": 189070
    },
    {
      "epoch": 0.3939166666666667,
      "grad_norm": 0.7992343902587891,
      "learning_rate": 0.00020019801412830392,
      "loss": 3.9998,
      "step": 189080
    },
    {
      "epoch": 0.3939375,
      "grad_norm": 0.7962736487388611,
      "learning_rate": 0.00020018872389718933,
      "loss": 3.803,
      "step": 189090
    },
    {
      "epoch": 0.39395833333333335,
      "grad_norm": 0.8766419291496277,
      "learning_rate": 0.00020017943344927933,
      "loss": 3.9998,
      "step": 189100
    },
    {
      "epoch": 0.39397916666666666,
      "grad_norm": 0.7617236971855164,
      "learning_rate": 0.00020017014278461405,
      "loss": 4.0537,
      "step": 189110
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.8483220934867859,
      "learning_rate": 0.00020016085190323357,
      "loss": 3.9216,
      "step": 189120
    },
    {
      "epoch": 0.3940208333333333,
      "grad_norm": 0.7847669124603271,
      "learning_rate": 0.0002001515608051781,
      "loss": 3.8598,
      "step": 189130
    },
    {
      "epoch": 0.3940416666666667,
      "grad_norm": 0.8208518624305725,
      "learning_rate": 0.00020014226949048773,
      "loss": 3.9424,
      "step": 189140
    },
    {
      "epoch": 0.3940625,
      "grad_norm": 0.8312162756919861,
      "learning_rate": 0.00020013297795920258,
      "loss": 3.9995,
      "step": 189150
    },
    {
      "epoch": 0.39408333333333334,
      "grad_norm": 0.8070520758628845,
      "learning_rate": 0.00020012368621136285,
      "loss": 4.0126,
      "step": 189160
    },
    {
      "epoch": 0.39410416666666664,
      "grad_norm": 0.7928863167762756,
      "learning_rate": 0.00020011439424700862,
      "loss": 3.8014,
      "step": 189170
    },
    {
      "epoch": 0.394125,
      "grad_norm": 0.845806360244751,
      "learning_rate": 0.00020010510206618003,
      "loss": 4.0281,
      "step": 189180
    },
    {
      "epoch": 0.3941458333333333,
      "grad_norm": 0.7542019486427307,
      "learning_rate": 0.00020009580966891724,
      "loss": 3.965,
      "step": 189190
    },
    {
      "epoch": 0.39416666666666667,
      "grad_norm": 0.8130329847335815,
      "learning_rate": 0.00020008651705526038,
      "loss": 3.9556,
      "step": 189200
    },
    {
      "epoch": 0.3941875,
      "grad_norm": 0.7101858854293823,
      "learning_rate": 0.00020007722422524962,
      "loss": 4.102,
      "step": 189210
    },
    {
      "epoch": 0.3942083333333333,
      "grad_norm": 0.9125829339027405,
      "learning_rate": 0.00020006793117892507,
      "loss": 4.0824,
      "step": 189220
    },
    {
      "epoch": 0.3942291666666667,
      "grad_norm": 0.7929902672767639,
      "learning_rate": 0.0002000586379163268,
      "loss": 3.9807,
      "step": 189230
    },
    {
      "epoch": 0.39425,
      "grad_norm": 0.9334871768951416,
      "learning_rate": 0.00020004934443749512,
      "loss": 4.1605,
      "step": 189240
    },
    {
      "epoch": 0.39427083333333335,
      "grad_norm": 0.8916148543357849,
      "learning_rate": 0.00020004005074247006,
      "loss": 4.0508,
      "step": 189250
    },
    {
      "epoch": 0.39429166666666665,
      "grad_norm": 0.8249302506446838,
      "learning_rate": 0.00020003075683129178,
      "loss": 3.9662,
      "step": 189260
    },
    {
      "epoch": 0.3943125,
      "grad_norm": 0.8446831107139587,
      "learning_rate": 0.0002000214627040004,
      "loss": 4.1306,
      "step": 189270
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 0.8105348944664001,
      "learning_rate": 0.00020001216836063618,
      "loss": 3.8272,
      "step": 189280
    },
    {
      "epoch": 0.3943541666666667,
      "grad_norm": 2.004788637161255,
      "learning_rate": 0.00020000287380123912,
      "loss": 3.9829,
      "step": 189290
    },
    {
      "epoch": 0.394375,
      "grad_norm": 0.8227534294128418,
      "learning_rate": 0.00019999357902584947,
      "loss": 3.8363,
      "step": 189300
    },
    {
      "epoch": 0.39439583333333333,
      "grad_norm": 0.9899327754974365,
      "learning_rate": 0.00019998428403450731,
      "loss": 4.0716,
      "step": 189310
    },
    {
      "epoch": 0.3944166666666667,
      "grad_norm": 1.910029411315918,
      "learning_rate": 0.00019997498882725283,
      "loss": 3.9573,
      "step": 189320
    },
    {
      "epoch": 0.3944375,
      "grad_norm": 0.8698821663856506,
      "learning_rate": 0.00019996569340412622,
      "loss": 3.7217,
      "step": 189330
    },
    {
      "epoch": 0.39445833333333336,
      "grad_norm": 0.8140445351600647,
      "learning_rate": 0.00019995639776516759,
      "loss": 3.8211,
      "step": 189340
    },
    {
      "epoch": 0.39447916666666666,
      "grad_norm": 1.148173213005066,
      "learning_rate": 0.0001999471019104171,
      "loss": 3.9698,
      "step": 189350
    },
    {
      "epoch": 0.3945,
      "grad_norm": 0.8461769819259644,
      "learning_rate": 0.00019993780583991486,
      "loss": 4.0246,
      "step": 189360
    },
    {
      "epoch": 0.3945208333333333,
      "grad_norm": 0.861171305179596,
      "learning_rate": 0.0001999285095537011,
      "loss": 4.0477,
      "step": 189370
    },
    {
      "epoch": 0.3945416666666667,
      "grad_norm": 0.9547560811042786,
      "learning_rate": 0.00019991921305181592,
      "loss": 3.9958,
      "step": 189380
    },
    {
      "epoch": 0.3945625,
      "grad_norm": 0.8780415058135986,
      "learning_rate": 0.00019990991633429952,
      "loss": 3.9118,
      "step": 189390
    },
    {
      "epoch": 0.39458333333333334,
      "grad_norm": 0.9006150960922241,
      "learning_rate": 0.00019990061940119202,
      "loss": 3.944,
      "step": 189400
    },
    {
      "epoch": 0.39460416666666664,
      "grad_norm": 0.8971996307373047,
      "learning_rate": 0.00019989132225253358,
      "loss": 3.8145,
      "step": 189410
    },
    {
      "epoch": 0.394625,
      "grad_norm": 0.7801942825317383,
      "learning_rate": 0.00019988202488836442,
      "loss": 3.7912,
      "step": 189420
    },
    {
      "epoch": 0.3946458333333333,
      "grad_norm": 0.7528591156005859,
      "learning_rate": 0.0001998727273087246,
      "loss": 3.8149,
      "step": 189430
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 0.8034103512763977,
      "learning_rate": 0.00019986342951365443,
      "loss": 4.0092,
      "step": 189440
    },
    {
      "epoch": 0.3946875,
      "grad_norm": 1.2099518775939941,
      "learning_rate": 0.00019985413150319393,
      "loss": 4.012,
      "step": 189450
    },
    {
      "epoch": 0.3947083333333333,
      "grad_norm": 0.8389021158218384,
      "learning_rate": 0.00019984483327738328,
      "loss": 3.9273,
      "step": 189460
    },
    {
      "epoch": 0.3947291666666667,
      "grad_norm": 0.9684277772903442,
      "learning_rate": 0.00019983553483626272,
      "loss": 3.91,
      "step": 189470
    },
    {
      "epoch": 0.39475,
      "grad_norm": 0.882288932800293,
      "learning_rate": 0.00019982623617987235,
      "loss": 3.7916,
      "step": 189480
    },
    {
      "epoch": 0.39477083333333335,
      "grad_norm": 0.803126335144043,
      "learning_rate": 0.00019981693730825237,
      "loss": 4.0773,
      "step": 189490
    },
    {
      "epoch": 0.39479166666666665,
      "grad_norm": 0.8586052656173706,
      "learning_rate": 0.00019980763822144296,
      "loss": 3.9112,
      "step": 189500
    },
    {
      "epoch": 0.3948125,
      "grad_norm": 0.7790777087211609,
      "learning_rate": 0.00019979833891948425,
      "loss": 3.7463,
      "step": 189510
    },
    {
      "epoch": 0.3948333333333333,
      "grad_norm": 0.8723761439323425,
      "learning_rate": 0.00019978903940241646,
      "loss": 4.1254,
      "step": 189520
    },
    {
      "epoch": 0.3948541666666667,
      "grad_norm": 0.7596293091773987,
      "learning_rate": 0.00019977973967027967,
      "loss": 3.9571,
      "step": 189530
    },
    {
      "epoch": 0.394875,
      "grad_norm": 0.8131830096244812,
      "learning_rate": 0.00019977043972311414,
      "loss": 4.0407,
      "step": 189540
    },
    {
      "epoch": 0.39489583333333333,
      "grad_norm": 0.8055283427238464,
      "learning_rate": 0.00019976113956096002,
      "loss": 4.0078,
      "step": 189550
    },
    {
      "epoch": 0.3949166666666667,
      "grad_norm": 0.8450635671615601,
      "learning_rate": 0.0001997518391838575,
      "loss": 4.1493,
      "step": 189560
    },
    {
      "epoch": 0.3949375,
      "grad_norm": 0.8478940725326538,
      "learning_rate": 0.00019974253859184667,
      "loss": 3.952,
      "step": 189570
    },
    {
      "epoch": 0.39495833333333336,
      "grad_norm": 0.7624578475952148,
      "learning_rate": 0.0001997332377849678,
      "loss": 4.1346,
      "step": 189580
    },
    {
      "epoch": 0.39497916666666666,
      "grad_norm": 0.8000368475914001,
      "learning_rate": 0.00019972393676326102,
      "loss": 3.9926,
      "step": 189590
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.7566719055175781,
      "learning_rate": 0.00019971463552676647,
      "loss": 3.8044,
      "step": 189600
    },
    {
      "epoch": 0.3950208333333333,
      "grad_norm": 0.824425458908081,
      "learning_rate": 0.00019970533407552446,
      "loss": 4.0504,
      "step": 189610
    },
    {
      "epoch": 0.3950416666666667,
      "grad_norm": 0.7499178051948547,
      "learning_rate": 0.00019969603240957504,
      "loss": 4.0209,
      "step": 189620
    },
    {
      "epoch": 0.3950625,
      "grad_norm": 0.7946286797523499,
      "learning_rate": 0.00019968673052895837,
      "loss": 4.0079,
      "step": 189630
    },
    {
      "epoch": 0.39508333333333334,
      "grad_norm": 0.812048077583313,
      "learning_rate": 0.0001996774284337148,
      "loss": 3.9513,
      "step": 189640
    },
    {
      "epoch": 0.39510416666666665,
      "grad_norm": 0.996602475643158,
      "learning_rate": 0.00019966812612388433,
      "loss": 3.9414,
      "step": 189650
    },
    {
      "epoch": 0.395125,
      "grad_norm": 0.8563312292098999,
      "learning_rate": 0.00019965882359950722,
      "loss": 3.7357,
      "step": 189660
    },
    {
      "epoch": 0.3951458333333333,
      "grad_norm": 0.7369801998138428,
      "learning_rate": 0.00019964952086062366,
      "loss": 3.8449,
      "step": 189670
    },
    {
      "epoch": 0.39516666666666667,
      "grad_norm": 0.9114436507225037,
      "learning_rate": 0.00019964021790727383,
      "loss": 3.8934,
      "step": 189680
    },
    {
      "epoch": 0.3951875,
      "grad_norm": 0.8004292845726013,
      "learning_rate": 0.00019963091473949792,
      "loss": 3.8708,
      "step": 189690
    },
    {
      "epoch": 0.39520833333333333,
      "grad_norm": 0.8171865344047546,
      "learning_rate": 0.00019962161135733607,
      "loss": 3.8775,
      "step": 189700
    },
    {
      "epoch": 0.3952291666666667,
      "grad_norm": 0.8394479155540466,
      "learning_rate": 0.00019961230776082854,
      "loss": 3.9166,
      "step": 189710
    },
    {
      "epoch": 0.39525,
      "grad_norm": 0.8373361229896545,
      "learning_rate": 0.0001996030039500155,
      "loss": 3.9546,
      "step": 189720
    },
    {
      "epoch": 0.39527083333333335,
      "grad_norm": 0.8001139760017395,
      "learning_rate": 0.00019959369992493702,
      "loss": 3.9091,
      "step": 189730
    },
    {
      "epoch": 0.39529166666666665,
      "grad_norm": 0.9705923199653625,
      "learning_rate": 0.00019958439568563345,
      "loss": 3.9687,
      "step": 189740
    },
    {
      "epoch": 0.3953125,
      "grad_norm": 0.8591119050979614,
      "learning_rate": 0.00019957509123214493,
      "loss": 3.9748,
      "step": 189750
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 0.9194433689117432,
      "learning_rate": 0.00019956578656451157,
      "loss": 3.8836,
      "step": 189760
    },
    {
      "epoch": 0.3953541666666667,
      "grad_norm": 0.8325124979019165,
      "learning_rate": 0.0001995564816827737,
      "loss": 3.9933,
      "step": 189770
    },
    {
      "epoch": 0.395375,
      "grad_norm": 0.811452329158783,
      "learning_rate": 0.00019954717658697145,
      "loss": 3.8856,
      "step": 189780
    },
    {
      "epoch": 0.39539583333333334,
      "grad_norm": 0.8932302594184875,
      "learning_rate": 0.00019953787127714498,
      "loss": 3.9433,
      "step": 189790
    },
    {
      "epoch": 0.3954166666666667,
      "grad_norm": 1.0251725912094116,
      "learning_rate": 0.00019952856575333448,
      "loss": 3.9265,
      "step": 189800
    },
    {
      "epoch": 0.3954375,
      "grad_norm": 0.8821377754211426,
      "learning_rate": 0.00019951926001558025,
      "loss": 3.8222,
      "step": 189810
    },
    {
      "epoch": 0.39545833333333336,
      "grad_norm": 0.8055866956710815,
      "learning_rate": 0.00019950995406392238,
      "loss": 4.0133,
      "step": 189820
    },
    {
      "epoch": 0.39547916666666666,
      "grad_norm": 0.8783947825431824,
      "learning_rate": 0.00019950064789840105,
      "loss": 3.8108,
      "step": 189830
    },
    {
      "epoch": 0.3955,
      "grad_norm": 0.8616703152656555,
      "learning_rate": 0.00019949134151905662,
      "loss": 3.8794,
      "step": 189840
    },
    {
      "epoch": 0.3955208333333333,
      "grad_norm": 0.8444184064865112,
      "learning_rate": 0.00019948203492592916,
      "loss": 3.7831,
      "step": 189850
    },
    {
      "epoch": 0.3955416666666667,
      "grad_norm": 0.8147047758102417,
      "learning_rate": 0.00019947272811905885,
      "loss": 4.0244,
      "step": 189860
    },
    {
      "epoch": 0.3955625,
      "grad_norm": 0.7813247442245483,
      "learning_rate": 0.00019946342109848595,
      "loss": 3.881,
      "step": 189870
    },
    {
      "epoch": 0.39558333333333334,
      "grad_norm": 0.9176456928253174,
      "learning_rate": 0.0001994541138642507,
      "loss": 4.1152,
      "step": 189880
    },
    {
      "epoch": 0.39560416666666665,
      "grad_norm": 0.828545868396759,
      "learning_rate": 0.00019944480641639323,
      "loss": 3.8451,
      "step": 189890
    },
    {
      "epoch": 0.395625,
      "grad_norm": 0.7779313921928406,
      "learning_rate": 0.00019943549875495374,
      "loss": 3.8587,
      "step": 189900
    },
    {
      "epoch": 0.3956458333333333,
      "grad_norm": 0.7805293202400208,
      "learning_rate": 0.00019942619087997247,
      "loss": 3.8466,
      "step": 189910
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 0.8472417593002319,
      "learning_rate": 0.00019941688279148965,
      "loss": 3.8531,
      "step": 189920
    },
    {
      "epoch": 0.3956875,
      "grad_norm": 0.942451536655426,
      "learning_rate": 0.0001994075744895454,
      "loss": 3.9134,
      "step": 189930
    },
    {
      "epoch": 0.39570833333333333,
      "grad_norm": 0.8471928238868713,
      "learning_rate": 0.00019939826597418,
      "loss": 3.9906,
      "step": 189940
    },
    {
      "epoch": 0.3957291666666667,
      "grad_norm": 0.9131810069084167,
      "learning_rate": 0.0001993889572454337,
      "loss": 3.8971,
      "step": 189950
    },
    {
      "epoch": 0.39575,
      "grad_norm": 0.8544792532920837,
      "learning_rate": 0.00019937964830334665,
      "loss": 3.869,
      "step": 189960
    },
    {
      "epoch": 0.39577083333333335,
      "grad_norm": 0.8596664667129517,
      "learning_rate": 0.000199370339147959,
      "loss": 3.9129,
      "step": 189970
    },
    {
      "epoch": 0.39579166666666665,
      "grad_norm": 0.771856963634491,
      "learning_rate": 0.00019936102977931107,
      "loss": 4.0244,
      "step": 189980
    },
    {
      "epoch": 0.3958125,
      "grad_norm": 0.857119083404541,
      "learning_rate": 0.00019935172019744303,
      "loss": 3.8437,
      "step": 189990
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 1.0679632425308228,
      "learning_rate": 0.00019934241040239501,
      "loss": 3.9797,
      "step": 190000
    },
    {
      "epoch": 0.3958333333333333,
      "eval_loss": 3.670820713043213,
      "eval_runtime": 7.2899,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.412,
      "step": 190000
    },
    {
      "epoch": 0.3958541666666667,
      "grad_norm": 0.812411367893219,
      "learning_rate": 0.00019933310039420746,
      "loss": 3.7184,
      "step": 190010
    },
    {
      "epoch": 0.395875,
      "grad_norm": 0.8294915556907654,
      "learning_rate": 0.00019932379017292037,
      "loss": 4.1481,
      "step": 190020
    },
    {
      "epoch": 0.39589583333333334,
      "grad_norm": 0.8833837509155273,
      "learning_rate": 0.000199314479738574,
      "loss": 3.888,
      "step": 190030
    },
    {
      "epoch": 0.39591666666666664,
      "grad_norm": 0.7961257100105286,
      "learning_rate": 0.0001993051690912086,
      "loss": 3.9231,
      "step": 190040
    },
    {
      "epoch": 0.3959375,
      "grad_norm": 0.9170709252357483,
      "learning_rate": 0.00019929585823086444,
      "loss": 4.0385,
      "step": 190050
    },
    {
      "epoch": 0.39595833333333336,
      "grad_norm": 0.7814323306083679,
      "learning_rate": 0.00019928654715758163,
      "loss": 3.8447,
      "step": 190060
    },
    {
      "epoch": 0.39597916666666666,
      "grad_norm": 0.8020954132080078,
      "learning_rate": 0.00019927723587140046,
      "loss": 4.0154,
      "step": 190070
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.966579794883728,
      "learning_rate": 0.0001992679243723612,
      "loss": 3.9527,
      "step": 190080
    },
    {
      "epoch": 0.3960208333333333,
      "grad_norm": 0.8576562404632568,
      "learning_rate": 0.00019925861266050394,
      "loss": 3.852,
      "step": 190090
    },
    {
      "epoch": 0.3960416666666667,
      "grad_norm": 0.9018971920013428,
      "learning_rate": 0.00019924930073586896,
      "loss": 4.1592,
      "step": 190100
    },
    {
      "epoch": 0.3960625,
      "grad_norm": 0.9028066992759705,
      "learning_rate": 0.0001992399885984965,
      "loss": 4.0615,
      "step": 190110
    },
    {
      "epoch": 0.39608333333333334,
      "grad_norm": 0.8153415322303772,
      "learning_rate": 0.00019923067624842683,
      "loss": 4.0495,
      "step": 190120
    },
    {
      "epoch": 0.39610416666666665,
      "grad_norm": 0.8394514918327332,
      "learning_rate": 0.0001992213636857001,
      "loss": 3.9098,
      "step": 190130
    },
    {
      "epoch": 0.396125,
      "grad_norm": 0.8098955154418945,
      "learning_rate": 0.00019921205091035654,
      "loss": 3.8737,
      "step": 190140
    },
    {
      "epoch": 0.3961458333333333,
      "grad_norm": 0.9537833333015442,
      "learning_rate": 0.00019920273792243647,
      "loss": 3.9423,
      "step": 190150
    },
    {
      "epoch": 0.39616666666666667,
      "grad_norm": 0.9092845916748047,
      "learning_rate": 0.00019919342472197996,
      "loss": 3.7869,
      "step": 190160
    },
    {
      "epoch": 0.3961875,
      "grad_norm": 0.8904619216918945,
      "learning_rate": 0.00019918411130902738,
      "loss": 4.0616,
      "step": 190170
    },
    {
      "epoch": 0.39620833333333333,
      "grad_norm": 0.835466206073761,
      "learning_rate": 0.00019917479768361888,
      "loss": 3.8082,
      "step": 190180
    },
    {
      "epoch": 0.3962291666666667,
      "grad_norm": 1.4956094026565552,
      "learning_rate": 0.00019916548384579474,
      "loss": 3.8761,
      "step": 190190
    },
    {
      "epoch": 0.39625,
      "grad_norm": 0.8047796487808228,
      "learning_rate": 0.00019915616979559515,
      "loss": 4.0489,
      "step": 190200
    },
    {
      "epoch": 0.39627083333333335,
      "grad_norm": 0.7444066405296326,
      "learning_rate": 0.00019914685553306036,
      "loss": 3.8749,
      "step": 190210
    },
    {
      "epoch": 0.39629166666666665,
      "grad_norm": 0.8119881749153137,
      "learning_rate": 0.00019913754105823064,
      "loss": 3.9263,
      "step": 190220
    },
    {
      "epoch": 0.3963125,
      "grad_norm": 0.8498702049255371,
      "learning_rate": 0.0001991282263711462,
      "loss": 3.8655,
      "step": 190230
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 0.8045549988746643,
      "learning_rate": 0.00019911891147184722,
      "loss": 3.9677,
      "step": 190240
    },
    {
      "epoch": 0.3963541666666667,
      "grad_norm": 0.8375502824783325,
      "learning_rate": 0.00019910959636037397,
      "loss": 3.9346,
      "step": 190250
    },
    {
      "epoch": 0.396375,
      "grad_norm": 0.8725453019142151,
      "learning_rate": 0.00019910028103676676,
      "loss": 4.0807,
      "step": 190260
    },
    {
      "epoch": 0.39639583333333334,
      "grad_norm": 0.9238985180854797,
      "learning_rate": 0.00019909096550106573,
      "loss": 3.9562,
      "step": 190270
    },
    {
      "epoch": 0.39641666666666664,
      "grad_norm": 0.8746864199638367,
      "learning_rate": 0.0001990816497533112,
      "loss": 3.883,
      "step": 190280
    },
    {
      "epoch": 0.3964375,
      "grad_norm": 0.8078534603118896,
      "learning_rate": 0.0001990723337935434,
      "loss": 4.0841,
      "step": 190290
    },
    {
      "epoch": 0.39645833333333336,
      "grad_norm": 0.8921381235122681,
      "learning_rate": 0.00019906301762180246,
      "loss": 4.0131,
      "step": 190300
    },
    {
      "epoch": 0.39647916666666666,
      "grad_norm": 0.7770863175392151,
      "learning_rate": 0.00019905370123812877,
      "loss": 3.8393,
      "step": 190310
    },
    {
      "epoch": 0.3965,
      "grad_norm": 0.9054032564163208,
      "learning_rate": 0.00019904438464256248,
      "loss": 3.9698,
      "step": 190320
    },
    {
      "epoch": 0.3965208333333333,
      "grad_norm": 0.8650739192962646,
      "learning_rate": 0.0001990350678351438,
      "loss": 3.8661,
      "step": 190330
    },
    {
      "epoch": 0.3965416666666667,
      "grad_norm": 0.9476436376571655,
      "learning_rate": 0.00019902575081591313,
      "loss": 4.0549,
      "step": 190340
    },
    {
      "epoch": 0.3965625,
      "grad_norm": 0.8404841423034668,
      "learning_rate": 0.0001990164335849106,
      "loss": 4.0628,
      "step": 190350
    },
    {
      "epoch": 0.39658333333333334,
      "grad_norm": 0.7742053270339966,
      "learning_rate": 0.00019900711614217643,
      "loss": 3.9239,
      "step": 190360
    },
    {
      "epoch": 0.39660416666666665,
      "grad_norm": 0.8017050623893738,
      "learning_rate": 0.00019899779848775095,
      "loss": 3.903,
      "step": 190370
    },
    {
      "epoch": 0.396625,
      "grad_norm": 0.8071475625038147,
      "learning_rate": 0.0001989884806216744,
      "loss": 4.0483,
      "step": 190380
    },
    {
      "epoch": 0.3966458333333333,
      "grad_norm": 0.7604867219924927,
      "learning_rate": 0.00019897916254398698,
      "loss": 3.8385,
      "step": 190390
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 0.7946303486824036,
      "learning_rate": 0.00019896984425472896,
      "loss": 3.9477,
      "step": 190400
    },
    {
      "epoch": 0.3966875,
      "grad_norm": 0.8327791094779968,
      "learning_rate": 0.0001989605257539406,
      "loss": 3.8611,
      "step": 190410
    },
    {
      "epoch": 0.39670833333333333,
      "grad_norm": 0.802327036857605,
      "learning_rate": 0.00019895120704166213,
      "loss": 3.9603,
      "step": 190420
    },
    {
      "epoch": 0.3967291666666667,
      "grad_norm": 0.8473473191261292,
      "learning_rate": 0.00019894188811793385,
      "loss": 3.8781,
      "step": 190430
    },
    {
      "epoch": 0.39675,
      "grad_norm": 0.7834233641624451,
      "learning_rate": 0.000198932568982796,
      "loss": 3.9658,
      "step": 190440
    },
    {
      "epoch": 0.39677083333333335,
      "grad_norm": 0.8121834397315979,
      "learning_rate": 0.00019892324963628882,
      "loss": 3.9347,
      "step": 190450
    },
    {
      "epoch": 0.39679166666666665,
      "grad_norm": 0.7929867506027222,
      "learning_rate": 0.00019891393007845254,
      "loss": 3.8873,
      "step": 190460
    },
    {
      "epoch": 0.3968125,
      "grad_norm": 0.8725576996803284,
      "learning_rate": 0.00019890461030932743,
      "loss": 4.202,
      "step": 190470
    },
    {
      "epoch": 0.3968333333333333,
      "grad_norm": 0.9662015438079834,
      "learning_rate": 0.00019889529032895382,
      "loss": 3.9435,
      "step": 190480
    },
    {
      "epoch": 0.3968541666666667,
      "grad_norm": 0.8159516453742981,
      "learning_rate": 0.00019888597013737188,
      "loss": 3.9024,
      "step": 190490
    },
    {
      "epoch": 0.396875,
      "grad_norm": 0.8624784350395203,
      "learning_rate": 0.00019887664973462183,
      "loss": 3.999,
      "step": 190500
    },
    {
      "epoch": 0.39689583333333334,
      "grad_norm": 0.789651095867157,
      "learning_rate": 0.0001988673291207441,
      "loss": 3.9074,
      "step": 190510
    },
    {
      "epoch": 0.39691666666666664,
      "grad_norm": 0.8487949371337891,
      "learning_rate": 0.0001988580082957788,
      "loss": 3.8439,
      "step": 190520
    },
    {
      "epoch": 0.3969375,
      "grad_norm": 0.8307615518569946,
      "learning_rate": 0.00019884868725976627,
      "loss": 3.8545,
      "step": 190530
    },
    {
      "epoch": 0.39695833333333336,
      "grad_norm": 0.7263081669807434,
      "learning_rate": 0.00019883936601274675,
      "loss": 3.9021,
      "step": 190540
    },
    {
      "epoch": 0.39697916666666666,
      "grad_norm": 0.7812256217002869,
      "learning_rate": 0.00019883004455476048,
      "loss": 4.0009,
      "step": 190550
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.7322501540184021,
      "learning_rate": 0.00019882072288584772,
      "loss": 3.7782,
      "step": 190560
    },
    {
      "epoch": 0.3970208333333333,
      "grad_norm": 0.8971085548400879,
      "learning_rate": 0.0001988114010060488,
      "loss": 4.0081,
      "step": 190570
    },
    {
      "epoch": 0.3970416666666667,
      "grad_norm": 0.8356196880340576,
      "learning_rate": 0.00019880207891540393,
      "loss": 3.8135,
      "step": 190580
    },
    {
      "epoch": 0.3970625,
      "grad_norm": 0.7719225287437439,
      "learning_rate": 0.00019879275661395342,
      "loss": 4.013,
      "step": 190590
    },
    {
      "epoch": 0.39708333333333334,
      "grad_norm": 0.9521182775497437,
      "learning_rate": 0.00019878343410173748,
      "loss": 4.034,
      "step": 190600
    },
    {
      "epoch": 0.39710416666666665,
      "grad_norm": 0.8409897685050964,
      "learning_rate": 0.00019877411137879646,
      "loss": 3.9863,
      "step": 190610
    },
    {
      "epoch": 0.397125,
      "grad_norm": 0.8286186456680298,
      "learning_rate": 0.0001987647884451706,
      "loss": 3.8542,
      "step": 190620
    },
    {
      "epoch": 0.3971458333333333,
      "grad_norm": 0.8033563494682312,
      "learning_rate": 0.00019875546530090005,
      "loss": 4.0107,
      "step": 190630
    },
    {
      "epoch": 0.39716666666666667,
      "grad_norm": 0.8513357043266296,
      "learning_rate": 0.00019874614194602524,
      "loss": 3.9665,
      "step": 190640
    },
    {
      "epoch": 0.3971875,
      "grad_norm": 0.7877298593521118,
      "learning_rate": 0.00019873681838058647,
      "loss": 3.9248,
      "step": 190650
    },
    {
      "epoch": 0.39720833333333333,
      "grad_norm": 0.8381128907203674,
      "learning_rate": 0.00019872749460462386,
      "loss": 3.8462,
      "step": 190660
    },
    {
      "epoch": 0.3972291666666667,
      "grad_norm": 0.7974349856376648,
      "learning_rate": 0.00019871817061817775,
      "loss": 3.9528,
      "step": 190670
    },
    {
      "epoch": 0.39725,
      "grad_norm": 0.8323217630386353,
      "learning_rate": 0.00019870884642128847,
      "loss": 3.7496,
      "step": 190680
    },
    {
      "epoch": 0.39727083333333335,
      "grad_norm": 0.8198018074035645,
      "learning_rate": 0.00019869952201399623,
      "loss": 3.7987,
      "step": 190690
    },
    {
      "epoch": 0.39729166666666665,
      "grad_norm": 0.8507325649261475,
      "learning_rate": 0.00019869019739634133,
      "loss": 3.7013,
      "step": 190700
    },
    {
      "epoch": 0.3973125,
      "grad_norm": 1.3123396635055542,
      "learning_rate": 0.00019868087256836407,
      "loss": 4.1561,
      "step": 190710
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 0.8838520050048828,
      "learning_rate": 0.00019867154753010468,
      "loss": 3.9366,
      "step": 190720
    },
    {
      "epoch": 0.3973541666666667,
      "grad_norm": 0.8585157990455627,
      "learning_rate": 0.0001986622222816035,
      "loss": 3.937,
      "step": 190730
    },
    {
      "epoch": 0.397375,
      "grad_norm": 0.9952539205551147,
      "learning_rate": 0.00019865289682290078,
      "loss": 3.9265,
      "step": 190740
    },
    {
      "epoch": 0.39739583333333334,
      "grad_norm": 0.9913550615310669,
      "learning_rate": 0.00019864357115403677,
      "loss": 3.9317,
      "step": 190750
    },
    {
      "epoch": 0.39741666666666664,
      "grad_norm": 0.9277647137641907,
      "learning_rate": 0.0001986342452750518,
      "loss": 4.1334,
      "step": 190760
    },
    {
      "epoch": 0.3974375,
      "grad_norm": 0.7961763739585876,
      "learning_rate": 0.00019862491918598617,
      "loss": 3.7208,
      "step": 190770
    },
    {
      "epoch": 0.39745833333333336,
      "grad_norm": 0.8148515224456787,
      "learning_rate": 0.0001986155928868801,
      "loss": 4.0311,
      "step": 190780
    },
    {
      "epoch": 0.39747916666666666,
      "grad_norm": 0.8401340842247009,
      "learning_rate": 0.00019860626637777397,
      "loss": 3.9823,
      "step": 190790
    },
    {
      "epoch": 0.3975,
      "grad_norm": 0.914850115776062,
      "learning_rate": 0.00019859693965870793,
      "loss": 4.1039,
      "step": 190800
    },
    {
      "epoch": 0.3975208333333333,
      "grad_norm": 0.8035584688186646,
      "learning_rate": 0.0001985876127297224,
      "loss": 3.9358,
      "step": 190810
    },
    {
      "epoch": 0.3975416666666667,
      "grad_norm": 0.7723363637924194,
      "learning_rate": 0.0001985782855908576,
      "loss": 3.9707,
      "step": 190820
    },
    {
      "epoch": 0.3975625,
      "grad_norm": 1.0350332260131836,
      "learning_rate": 0.0001985689582421538,
      "loss": 4.1189,
      "step": 190830
    },
    {
      "epoch": 0.39758333333333334,
      "grad_norm": 0.9020529389381409,
      "learning_rate": 0.0001985596306836514,
      "loss": 4.0408,
      "step": 190840
    },
    {
      "epoch": 0.39760416666666665,
      "grad_norm": 0.9741461277008057,
      "learning_rate": 0.0001985503029153906,
      "loss": 3.8092,
      "step": 190850
    },
    {
      "epoch": 0.397625,
      "grad_norm": 0.8115312457084656,
      "learning_rate": 0.00019854097493741168,
      "loss": 3.8386,
      "step": 190860
    },
    {
      "epoch": 0.3976458333333333,
      "grad_norm": 0.9138055443763733,
      "learning_rate": 0.00019853164674975493,
      "loss": 3.7849,
      "step": 190870
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 0.8004270195960999,
      "learning_rate": 0.00019852231835246073,
      "loss": 4.0688,
      "step": 190880
    },
    {
      "epoch": 0.3976875,
      "grad_norm": 0.7793254852294922,
      "learning_rate": 0.00019851298974556933,
      "loss": 4.0595,
      "step": 190890
    },
    {
      "epoch": 0.39770833333333333,
      "grad_norm": 0.7756091356277466,
      "learning_rate": 0.00019850366092912097,
      "loss": 3.6547,
      "step": 190900
    },
    {
      "epoch": 0.3977291666666667,
      "grad_norm": 0.8858596682548523,
      "learning_rate": 0.00019849433190315601,
      "loss": 3.8877,
      "step": 190910
    },
    {
      "epoch": 0.39775,
      "grad_norm": 0.7855123281478882,
      "learning_rate": 0.00019848500266771474,
      "loss": 3.7896,
      "step": 190920
    },
    {
      "epoch": 0.39777083333333335,
      "grad_norm": 0.7673954367637634,
      "learning_rate": 0.00019847567322283746,
      "loss": 3.8112,
      "step": 190930
    },
    {
      "epoch": 0.39779166666666665,
      "grad_norm": 0.8211221098899841,
      "learning_rate": 0.00019846634356856445,
      "loss": 4.1043,
      "step": 190940
    },
    {
      "epoch": 0.3978125,
      "grad_norm": 0.8391903042793274,
      "learning_rate": 0.000198457013704936,
      "loss": 4.003,
      "step": 190950
    },
    {
      "epoch": 0.3978333333333333,
      "grad_norm": 0.7795878648757935,
      "learning_rate": 0.00019844768363199247,
      "loss": 3.8923,
      "step": 190960
    },
    {
      "epoch": 0.3978541666666667,
      "grad_norm": 0.8156377673149109,
      "learning_rate": 0.00019843835334977408,
      "loss": 3.8445,
      "step": 190970
    },
    {
      "epoch": 0.397875,
      "grad_norm": 0.891869843006134,
      "learning_rate": 0.00019842902285832121,
      "loss": 4.0957,
      "step": 190980
    },
    {
      "epoch": 0.39789583333333334,
      "grad_norm": 0.7403299808502197,
      "learning_rate": 0.00019841969215767414,
      "loss": 3.859,
      "step": 190990
    },
    {
      "epoch": 0.39791666666666664,
      "grad_norm": 0.8955034613609314,
      "learning_rate": 0.00019841036124787313,
      "loss": 3.9825,
      "step": 191000
    },
    {
      "epoch": 0.39791666666666664,
      "eval_loss": 3.663257598876953,
      "eval_runtime": 7.2612,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 191000
    },
    {
      "epoch": 0.3979375,
      "grad_norm": 0.9696611762046814,
      "learning_rate": 0.0001984010301289585,
      "loss": 3.9745,
      "step": 191010
    },
    {
      "epoch": 0.39795833333333336,
      "grad_norm": 0.8505391478538513,
      "learning_rate": 0.00019839169880097067,
      "loss": 3.931,
      "step": 191020
    },
    {
      "epoch": 0.39797916666666666,
      "grad_norm": 0.8996502161026001,
      "learning_rate": 0.0001983823672639498,
      "loss": 3.9018,
      "step": 191030
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.8260256052017212,
      "learning_rate": 0.00019837303551793625,
      "loss": 3.7997,
      "step": 191040
    },
    {
      "epoch": 0.3980208333333333,
      "grad_norm": 0.8264574408531189,
      "learning_rate": 0.00019836370356297035,
      "loss": 3.9161,
      "step": 191050
    },
    {
      "epoch": 0.3980416666666667,
      "grad_norm": 0.733430027961731,
      "learning_rate": 0.00019835437139909237,
      "loss": 3.9165,
      "step": 191060
    },
    {
      "epoch": 0.3980625,
      "grad_norm": 0.8060557246208191,
      "learning_rate": 0.00019834503902634265,
      "loss": 4.1231,
      "step": 191070
    },
    {
      "epoch": 0.39808333333333334,
      "grad_norm": 0.7803911566734314,
      "learning_rate": 0.0001983357064447615,
      "loss": 3.8547,
      "step": 191080
    },
    {
      "epoch": 0.39810416666666665,
      "grad_norm": 1.0451667308807373,
      "learning_rate": 0.00019832637365438925,
      "loss": 3.9231,
      "step": 191090
    },
    {
      "epoch": 0.398125,
      "grad_norm": 0.8889461159706116,
      "learning_rate": 0.0001983170406552662,
      "loss": 3.9965,
      "step": 191100
    },
    {
      "epoch": 0.3981458333333333,
      "grad_norm": 0.7965053915977478,
      "learning_rate": 0.0001983077074474326,
      "loss": 4.0254,
      "step": 191110
    },
    {
      "epoch": 0.39816666666666667,
      "grad_norm": 1.0556522607803345,
      "learning_rate": 0.0001982983740309289,
      "loss": 3.943,
      "step": 191120
    },
    {
      "epoch": 0.3981875,
      "grad_norm": 0.7696182131767273,
      "learning_rate": 0.00019828904040579529,
      "loss": 3.8957,
      "step": 191130
    },
    {
      "epoch": 0.39820833333333333,
      "grad_norm": 0.8033695220947266,
      "learning_rate": 0.00019827970657207216,
      "loss": 3.905,
      "step": 191140
    },
    {
      "epoch": 0.3982291666666667,
      "grad_norm": 0.7974333763122559,
      "learning_rate": 0.0001982703725297998,
      "loss": 3.839,
      "step": 191150
    },
    {
      "epoch": 0.39825,
      "grad_norm": 0.8015395402908325,
      "learning_rate": 0.0001982610382790186,
      "loss": 4.2,
      "step": 191160
    },
    {
      "epoch": 0.39827083333333335,
      "grad_norm": 0.8347017168998718,
      "learning_rate": 0.00019825170381976872,
      "loss": 3.9861,
      "step": 191170
    },
    {
      "epoch": 0.39829166666666665,
      "grad_norm": 0.9013696312904358,
      "learning_rate": 0.0001982423691520906,
      "loss": 4.005,
      "step": 191180
    },
    {
      "epoch": 0.3983125,
      "grad_norm": 0.8041136860847473,
      "learning_rate": 0.00019823303427602462,
      "loss": 4.1027,
      "step": 191190
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 0.7623394131660461,
      "learning_rate": 0.00019822369919161094,
      "loss": 4.0682,
      "step": 191200
    },
    {
      "epoch": 0.3983541666666667,
      "grad_norm": 0.7840372920036316,
      "learning_rate": 0.00019821436389889002,
      "loss": 3.9308,
      "step": 191210
    },
    {
      "epoch": 0.398375,
      "grad_norm": 0.7636991143226624,
      "learning_rate": 0.0001982050283979021,
      "loss": 3.9885,
      "step": 191220
    },
    {
      "epoch": 0.39839583333333334,
      "grad_norm": 0.8005905747413635,
      "learning_rate": 0.00019819569268868755,
      "loss": 3.8842,
      "step": 191230
    },
    {
      "epoch": 0.39841666666666664,
      "grad_norm": 0.8051067590713501,
      "learning_rate": 0.00019818635677128666,
      "loss": 3.8639,
      "step": 191240
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 0.8381704092025757,
      "learning_rate": 0.0001981770206457398,
      "loss": 3.9604,
      "step": 191250
    },
    {
      "epoch": 0.39845833333333336,
      "grad_norm": 0.8276082277297974,
      "learning_rate": 0.0001981676843120873,
      "loss": 4.0654,
      "step": 191260
    },
    {
      "epoch": 0.39847916666666666,
      "grad_norm": 0.7983572483062744,
      "learning_rate": 0.00019815834777036942,
      "loss": 4.0384,
      "step": 191270
    },
    {
      "epoch": 0.3985,
      "grad_norm": 0.7872976660728455,
      "learning_rate": 0.00019814901102062658,
      "loss": 4.0616,
      "step": 191280
    },
    {
      "epoch": 0.3985208333333333,
      "grad_norm": 0.831324577331543,
      "learning_rate": 0.00019813967406289907,
      "loss": 3.9451,
      "step": 191290
    },
    {
      "epoch": 0.3985416666666667,
      "grad_norm": 0.8437702059745789,
      "learning_rate": 0.00019813033689722719,
      "loss": 3.9503,
      "step": 191300
    },
    {
      "epoch": 0.3985625,
      "grad_norm": 0.7888028025627136,
      "learning_rate": 0.00019812099952365135,
      "loss": 3.8865,
      "step": 191310
    },
    {
      "epoch": 0.39858333333333335,
      "grad_norm": 0.8457204699516296,
      "learning_rate": 0.00019811166194221182,
      "loss": 4.0531,
      "step": 191320
    },
    {
      "epoch": 0.39860416666666665,
      "grad_norm": 0.7924638986587524,
      "learning_rate": 0.00019810232415294897,
      "loss": 3.8808,
      "step": 191330
    },
    {
      "epoch": 0.398625,
      "grad_norm": 0.7926444411277771,
      "learning_rate": 0.0001980929861559031,
      "loss": 3.9341,
      "step": 191340
    },
    {
      "epoch": 0.3986458333333333,
      "grad_norm": 0.8011378049850464,
      "learning_rate": 0.0001980836479511146,
      "loss": 3.9921,
      "step": 191350
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 0.83210289478302,
      "learning_rate": 0.00019807430953862375,
      "loss": 3.9523,
      "step": 191360
    },
    {
      "epoch": 0.3986875,
      "grad_norm": 0.9030183553695679,
      "learning_rate": 0.00019806497091847086,
      "loss": 4.0115,
      "step": 191370
    },
    {
      "epoch": 0.39870833333333333,
      "grad_norm": 0.8003233671188354,
      "learning_rate": 0.0001980556320906964,
      "loss": 3.8515,
      "step": 191380
    },
    {
      "epoch": 0.3987291666666667,
      "grad_norm": 0.8520292043685913,
      "learning_rate": 0.00019804629305534058,
      "loss": 3.9671,
      "step": 191390
    },
    {
      "epoch": 0.39875,
      "grad_norm": 0.7918692827224731,
      "learning_rate": 0.00019803695381244383,
      "loss": 3.8527,
      "step": 191400
    },
    {
      "epoch": 0.39877083333333335,
      "grad_norm": 0.9915968775749207,
      "learning_rate": 0.00019802761436204643,
      "loss": 3.924,
      "step": 191410
    },
    {
      "epoch": 0.39879166666666666,
      "grad_norm": 0.9678127765655518,
      "learning_rate": 0.00019801827470418879,
      "loss": 3.9269,
      "step": 191420
    },
    {
      "epoch": 0.3988125,
      "grad_norm": 1.0872145891189575,
      "learning_rate": 0.00019800893483891115,
      "loss": 4.1744,
      "step": 191430
    },
    {
      "epoch": 0.3988333333333333,
      "grad_norm": 0.8213961720466614,
      "learning_rate": 0.00019799959476625393,
      "loss": 3.876,
      "step": 191440
    },
    {
      "epoch": 0.3988541666666667,
      "grad_norm": 0.8021628260612488,
      "learning_rate": 0.00019799025448625747,
      "loss": 3.7461,
      "step": 191450
    },
    {
      "epoch": 0.398875,
      "grad_norm": 1.0071585178375244,
      "learning_rate": 0.0001979809139989621,
      "loss": 4.1092,
      "step": 191460
    },
    {
      "epoch": 0.39889583333333334,
      "grad_norm": 0.8151200413703918,
      "learning_rate": 0.00019797157330440817,
      "loss": 4.1318,
      "step": 191470
    },
    {
      "epoch": 0.39891666666666664,
      "grad_norm": 0.7697810530662537,
      "learning_rate": 0.00019796223240263605,
      "loss": 3.9435,
      "step": 191480
    },
    {
      "epoch": 0.3989375,
      "grad_norm": 1.3119175434112549,
      "learning_rate": 0.0001979528912936861,
      "loss": 3.9356,
      "step": 191490
    },
    {
      "epoch": 0.39895833333333336,
      "grad_norm": 0.8838894963264465,
      "learning_rate": 0.00019794354997759855,
      "loss": 3.8923,
      "step": 191500
    },
    {
      "epoch": 0.39897916666666666,
      "grad_norm": 0.7452849745750427,
      "learning_rate": 0.0001979342084544139,
      "loss": 3.8643,
      "step": 191510
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.7590758204460144,
      "learning_rate": 0.00019792486672417245,
      "loss": 3.9638,
      "step": 191520
    },
    {
      "epoch": 0.3990208333333333,
      "grad_norm": 0.7820984125137329,
      "learning_rate": 0.00019791552478691453,
      "loss": 4.0179,
      "step": 191530
    },
    {
      "epoch": 0.3990416666666667,
      "grad_norm": 0.9328718185424805,
      "learning_rate": 0.0001979061826426805,
      "loss": 4.0676,
      "step": 191540
    },
    {
      "epoch": 0.3990625,
      "grad_norm": 0.823983371257782,
      "learning_rate": 0.00019789684029151075,
      "loss": 3.8935,
      "step": 191550
    },
    {
      "epoch": 0.39908333333333335,
      "grad_norm": 0.7916577458381653,
      "learning_rate": 0.0001978874977334456,
      "loss": 4.008,
      "step": 191560
    },
    {
      "epoch": 0.39910416666666665,
      "grad_norm": 0.7627788782119751,
      "learning_rate": 0.00019787815496852536,
      "loss": 3.9566,
      "step": 191570
    },
    {
      "epoch": 0.399125,
      "grad_norm": 0.7940243482589722,
      "learning_rate": 0.00019786881199679052,
      "loss": 3.794,
      "step": 191580
    },
    {
      "epoch": 0.3991458333333333,
      "grad_norm": 0.7751270532608032,
      "learning_rate": 0.00019785946881828133,
      "loss": 3.7998,
      "step": 191590
    },
    {
      "epoch": 0.39916666666666667,
      "grad_norm": 0.8630878329277039,
      "learning_rate": 0.0001978501254330382,
      "loss": 3.7367,
      "step": 191600
    },
    {
      "epoch": 0.3991875,
      "grad_norm": 1.135000228881836,
      "learning_rate": 0.00019784078184110143,
      "loss": 4.1095,
      "step": 191610
    },
    {
      "epoch": 0.39920833333333333,
      "grad_norm": 0.8092300891876221,
      "learning_rate": 0.00019783143804251145,
      "loss": 3.8616,
      "step": 191620
    },
    {
      "epoch": 0.3992291666666667,
      "grad_norm": 0.7473193407058716,
      "learning_rate": 0.00019782209403730857,
      "loss": 3.8299,
      "step": 191630
    },
    {
      "epoch": 0.39925,
      "grad_norm": 1.0199493169784546,
      "learning_rate": 0.0001978127498255332,
      "loss": 3.777,
      "step": 191640
    },
    {
      "epoch": 0.39927083333333335,
      "grad_norm": 0.9931123852729797,
      "learning_rate": 0.00019780340540722562,
      "loss": 3.9358,
      "step": 191650
    },
    {
      "epoch": 0.39929166666666666,
      "grad_norm": 1.0351598262786865,
      "learning_rate": 0.00019779406078242634,
      "loss": 3.9368,
      "step": 191660
    },
    {
      "epoch": 0.3993125,
      "grad_norm": 0.9360870718955994,
      "learning_rate": 0.00019778471595117554,
      "loss": 3.8966,
      "step": 191670
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 0.7970837354660034,
      "learning_rate": 0.0001977753709135137,
      "loss": 4.2157,
      "step": 191680
    },
    {
      "epoch": 0.3993541666666667,
      "grad_norm": 0.7691543102264404,
      "learning_rate": 0.00019776602566948123,
      "loss": 4.065,
      "step": 191690
    },
    {
      "epoch": 0.399375,
      "grad_norm": 0.780951738357544,
      "learning_rate": 0.00019775668021911839,
      "loss": 3.9745,
      "step": 191700
    },
    {
      "epoch": 0.39939583333333334,
      "grad_norm": 0.8980010151863098,
      "learning_rate": 0.0001977473345624656,
      "loss": 4.0239,
      "step": 191710
    },
    {
      "epoch": 0.39941666666666664,
      "grad_norm": 0.7700257897377014,
      "learning_rate": 0.00019773798869956327,
      "loss": 3.9222,
      "step": 191720
    },
    {
      "epoch": 0.3994375,
      "grad_norm": 0.8084100484848022,
      "learning_rate": 0.00019772864263045166,
      "loss": 4.0128,
      "step": 191730
    },
    {
      "epoch": 0.39945833333333336,
      "grad_norm": 0.8062630891799927,
      "learning_rate": 0.00019771929635517118,
      "loss": 3.908,
      "step": 191740
    },
    {
      "epoch": 0.39947916666666666,
      "grad_norm": 0.9044273495674133,
      "learning_rate": 0.00019770994987376234,
      "loss": 3.9893,
      "step": 191750
    },
    {
      "epoch": 0.3995,
      "grad_norm": 0.8473299741744995,
      "learning_rate": 0.00019770060318626532,
      "loss": 3.9871,
      "step": 191760
    },
    {
      "epoch": 0.3995208333333333,
      "grad_norm": 0.7905389070510864,
      "learning_rate": 0.00019769125629272058,
      "loss": 4.0055,
      "step": 191770
    },
    {
      "epoch": 0.3995416666666667,
      "grad_norm": 0.8173834681510925,
      "learning_rate": 0.0001976819091931685,
      "loss": 4.0144,
      "step": 191780
    },
    {
      "epoch": 0.3995625,
      "grad_norm": 0.8755290508270264,
      "learning_rate": 0.00019767256188764947,
      "loss": 3.8622,
      "step": 191790
    },
    {
      "epoch": 0.39958333333333335,
      "grad_norm": 0.7580443024635315,
      "learning_rate": 0.00019766321437620385,
      "loss": 4.0628,
      "step": 191800
    },
    {
      "epoch": 0.39960416666666665,
      "grad_norm": 0.9874073266983032,
      "learning_rate": 0.00019765386665887195,
      "loss": 3.8782,
      "step": 191810
    },
    {
      "epoch": 0.399625,
      "grad_norm": 0.9538424015045166,
      "learning_rate": 0.00019764451873569426,
      "loss": 3.8425,
      "step": 191820
    },
    {
      "epoch": 0.3996458333333333,
      "grad_norm": 0.9483100175857544,
      "learning_rate": 0.0001976351706067111,
      "loss": 3.9766,
      "step": 191830
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 0.7892928719520569,
      "learning_rate": 0.00019762582227196283,
      "loss": 4.0314,
      "step": 191840
    },
    {
      "epoch": 0.3996875,
      "grad_norm": 0.8364514708518982,
      "learning_rate": 0.00019761647373148987,
      "loss": 3.6855,
      "step": 191850
    },
    {
      "epoch": 0.39970833333333333,
      "grad_norm": 0.9009734988212585,
      "learning_rate": 0.00019760712498533264,
      "loss": 3.8497,
      "step": 191860
    },
    {
      "epoch": 0.3997291666666667,
      "grad_norm": 0.8611868619918823,
      "learning_rate": 0.00019759777603353142,
      "loss": 3.9488,
      "step": 191870
    },
    {
      "epoch": 0.39975,
      "grad_norm": 0.7729347348213196,
      "learning_rate": 0.00019758842687612663,
      "loss": 3.8263,
      "step": 191880
    },
    {
      "epoch": 0.39977083333333335,
      "grad_norm": 0.8163679838180542,
      "learning_rate": 0.00019757907751315876,
      "loss": 4.0382,
      "step": 191890
    },
    {
      "epoch": 0.39979166666666666,
      "grad_norm": 0.8393774628639221,
      "learning_rate": 0.00019756972794466804,
      "loss": 3.9196,
      "step": 191900
    },
    {
      "epoch": 0.3998125,
      "grad_norm": 0.7705051302909851,
      "learning_rate": 0.0001975603781706949,
      "loss": 3.9801,
      "step": 191910
    },
    {
      "epoch": 0.3998333333333333,
      "grad_norm": 0.8608353734016418,
      "learning_rate": 0.00019755102819127982,
      "loss": 4.0513,
      "step": 191920
    },
    {
      "epoch": 0.3998541666666667,
      "grad_norm": 0.8909624814987183,
      "learning_rate": 0.0001975416780064631,
      "loss": 3.846,
      "step": 191930
    },
    {
      "epoch": 0.399875,
      "grad_norm": 0.9083081483840942,
      "learning_rate": 0.0001975323276162851,
      "loss": 3.953,
      "step": 191940
    },
    {
      "epoch": 0.39989583333333334,
      "grad_norm": 0.9002474546432495,
      "learning_rate": 0.00019752297702078632,
      "loss": 3.817,
      "step": 191950
    },
    {
      "epoch": 0.39991666666666664,
      "grad_norm": 0.8542330861091614,
      "learning_rate": 0.00019751362622000707,
      "loss": 3.9871,
      "step": 191960
    },
    {
      "epoch": 0.3999375,
      "grad_norm": 0.8366946578025818,
      "learning_rate": 0.00019750427521398776,
      "loss": 3.937,
      "step": 191970
    },
    {
      "epoch": 0.39995833333333336,
      "grad_norm": 1.1705946922302246,
      "learning_rate": 0.00019749492400276882,
      "loss": 3.8869,
      "step": 191980
    },
    {
      "epoch": 0.39997916666666666,
      "grad_norm": 0.9361239075660706,
      "learning_rate": 0.00019748557258639056,
      "loss": 3.9841,
      "step": 191990
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8756771087646484,
      "learning_rate": 0.00019747622096489341,
      "loss": 3.8849,
      "step": 192000
    },
    {
      "epoch": 0.4,
      "eval_loss": 3.663203477859497,
      "eval_runtime": 7.2687,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 192000
    },
    {
      "epoch": 0.4000208333333333,
      "grad_norm": 0.9382302761077881,
      "learning_rate": 0.0001974668691383178,
      "loss": 3.798,
      "step": 192010
    },
    {
      "epoch": 0.4000416666666667,
      "grad_norm": 0.810193657875061,
      "learning_rate": 0.0001974575171067041,
      "loss": 3.9463,
      "step": 192020
    },
    {
      "epoch": 0.4000625,
      "grad_norm": 0.9289306998252869,
      "learning_rate": 0.00019744816487009278,
      "loss": 3.9451,
      "step": 192030
    },
    {
      "epoch": 0.40008333333333335,
      "grad_norm": 0.9007999897003174,
      "learning_rate": 0.00019743881242852406,
      "loss": 4.3323,
      "step": 192040
    },
    {
      "epoch": 0.40010416666666665,
      "grad_norm": 0.9237189888954163,
      "learning_rate": 0.0001974294597820385,
      "loss": 3.8835,
      "step": 192050
    },
    {
      "epoch": 0.400125,
      "grad_norm": 0.9297427535057068,
      "learning_rate": 0.00019742010693067646,
      "loss": 3.9524,
      "step": 192060
    },
    {
      "epoch": 0.4001458333333333,
      "grad_norm": 0.8920590281486511,
      "learning_rate": 0.0001974107538744783,
      "loss": 3.9409,
      "step": 192070
    },
    {
      "epoch": 0.40016666666666667,
      "grad_norm": 0.8702463507652283,
      "learning_rate": 0.0001974014006134845,
      "loss": 3.7579,
      "step": 192080
    },
    {
      "epoch": 0.4001875,
      "grad_norm": 0.8106079697608948,
      "learning_rate": 0.00019739204714773535,
      "loss": 4.0665,
      "step": 192090
    },
    {
      "epoch": 0.40020833333333333,
      "grad_norm": 0.8039808869361877,
      "learning_rate": 0.00019738269347727134,
      "loss": 4.0103,
      "step": 192100
    },
    {
      "epoch": 0.4002291666666667,
      "grad_norm": 0.7845399975776672,
      "learning_rate": 0.00019737333960213286,
      "loss": 3.945,
      "step": 192110
    },
    {
      "epoch": 0.40025,
      "grad_norm": 0.8531239032745361,
      "learning_rate": 0.0001973639855223603,
      "loss": 3.7674,
      "step": 192120
    },
    {
      "epoch": 0.40027083333333335,
      "grad_norm": 0.9275808930397034,
      "learning_rate": 0.00019735463123799404,
      "loss": 3.9868,
      "step": 192130
    },
    {
      "epoch": 0.40029166666666666,
      "grad_norm": 0.9173688888549805,
      "learning_rate": 0.00019734527674907456,
      "loss": 3.9274,
      "step": 192140
    },
    {
      "epoch": 0.4003125,
      "grad_norm": 0.8928179144859314,
      "learning_rate": 0.00019733592205564216,
      "loss": 4.1289,
      "step": 192150
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 0.79529869556427,
      "learning_rate": 0.0001973265671577374,
      "loss": 3.91,
      "step": 192160
    },
    {
      "epoch": 0.4003541666666667,
      "grad_norm": 0.9628537893295288,
      "learning_rate": 0.00019731721205540055,
      "loss": 3.9418,
      "step": 192170
    },
    {
      "epoch": 0.400375,
      "grad_norm": 0.7832165360450745,
      "learning_rate": 0.0001973078567486721,
      "loss": 3.9168,
      "step": 192180
    },
    {
      "epoch": 0.40039583333333334,
      "grad_norm": 0.8243972659111023,
      "learning_rate": 0.0001972985012375924,
      "loss": 3.8905,
      "step": 192190
    },
    {
      "epoch": 0.40041666666666664,
      "grad_norm": 0.7903937101364136,
      "learning_rate": 0.00019728914552220192,
      "loss": 3.9259,
      "step": 192200
    },
    {
      "epoch": 0.4004375,
      "grad_norm": 0.8139280676841736,
      "learning_rate": 0.00019727978960254106,
      "loss": 3.9696,
      "step": 192210
    },
    {
      "epoch": 0.40045833333333336,
      "grad_norm": 0.8517966866493225,
      "learning_rate": 0.0001972704334786502,
      "loss": 4.0724,
      "step": 192220
    },
    {
      "epoch": 0.40047916666666666,
      "grad_norm": 0.9138879179954529,
      "learning_rate": 0.00019726107715056982,
      "loss": 4.0511,
      "step": 192230
    },
    {
      "epoch": 0.4005,
      "grad_norm": 0.8130284547805786,
      "learning_rate": 0.0001972517206183402,
      "loss": 4.0315,
      "step": 192240
    },
    {
      "epoch": 0.4005208333333333,
      "grad_norm": 0.8127964735031128,
      "learning_rate": 0.00019724236388200198,
      "loss": 3.8034,
      "step": 192250
    },
    {
      "epoch": 0.4005416666666667,
      "grad_norm": 0.85600346326828,
      "learning_rate": 0.00019723300694159536,
      "loss": 3.9665,
      "step": 192260
    },
    {
      "epoch": 0.4005625,
      "grad_norm": 0.8560646176338196,
      "learning_rate": 0.00019722364979716085,
      "loss": 3.9122,
      "step": 192270
    },
    {
      "epoch": 0.40058333333333335,
      "grad_norm": 0.8978623747825623,
      "learning_rate": 0.0001972142924487389,
      "loss": 4.0801,
      "step": 192280
    },
    {
      "epoch": 0.40060416666666665,
      "grad_norm": 0.8296193480491638,
      "learning_rate": 0.0001972049348963699,
      "loss": 3.9916,
      "step": 192290
    },
    {
      "epoch": 0.400625,
      "grad_norm": 0.8746733665466309,
      "learning_rate": 0.00019719557714009423,
      "loss": 3.818,
      "step": 192300
    },
    {
      "epoch": 0.4006458333333333,
      "grad_norm": 0.8270879983901978,
      "learning_rate": 0.00019718621917995234,
      "loss": 3.9046,
      "step": 192310
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 0.9694868326187134,
      "learning_rate": 0.0001971768610159847,
      "loss": 3.987,
      "step": 192320
    },
    {
      "epoch": 0.4006875,
      "grad_norm": 1.0999234914779663,
      "learning_rate": 0.00019716750264823168,
      "loss": 3.9405,
      "step": 192330
    },
    {
      "epoch": 0.40070833333333333,
      "grad_norm": 0.8695681691169739,
      "learning_rate": 0.0001971581440767337,
      "loss": 3.9614,
      "step": 192340
    },
    {
      "epoch": 0.4007291666666667,
      "grad_norm": 0.8895555138587952,
      "learning_rate": 0.00019714878530153123,
      "loss": 4.0901,
      "step": 192350
    },
    {
      "epoch": 0.40075,
      "grad_norm": 0.8105711936950684,
      "learning_rate": 0.00019713942632266465,
      "loss": 3.9266,
      "step": 192360
    },
    {
      "epoch": 0.40077083333333335,
      "grad_norm": 0.801608681678772,
      "learning_rate": 0.00019713006714017442,
      "loss": 3.9529,
      "step": 192370
    },
    {
      "epoch": 0.40079166666666666,
      "grad_norm": 0.8056893348693848,
      "learning_rate": 0.00019712070775410094,
      "loss": 3.8298,
      "step": 192380
    },
    {
      "epoch": 0.4008125,
      "grad_norm": 0.8323225975036621,
      "learning_rate": 0.00019711134816448471,
      "loss": 3.8451,
      "step": 192390
    },
    {
      "epoch": 0.4008333333333333,
      "grad_norm": 0.7745836973190308,
      "learning_rate": 0.00019710198837136604,
      "loss": 3.9813,
      "step": 192400
    },
    {
      "epoch": 0.4008541666666667,
      "grad_norm": 1.4083139896392822,
      "learning_rate": 0.00019709262837478545,
      "loss": 3.9792,
      "step": 192410
    },
    {
      "epoch": 0.400875,
      "grad_norm": 0.8358666300773621,
      "learning_rate": 0.00019708326817478335,
      "loss": 3.8926,
      "step": 192420
    },
    {
      "epoch": 0.40089583333333334,
      "grad_norm": 0.8256165981292725,
      "learning_rate": 0.00019707390777140015,
      "loss": 3.923,
      "step": 192430
    },
    {
      "epoch": 0.40091666666666664,
      "grad_norm": 0.8156459927558899,
      "learning_rate": 0.0001970645471646763,
      "loss": 3.8654,
      "step": 192440
    },
    {
      "epoch": 0.4009375,
      "grad_norm": 0.7837642431259155,
      "learning_rate": 0.00019705518635465227,
      "loss": 4.0359,
      "step": 192450
    },
    {
      "epoch": 0.40095833333333336,
      "grad_norm": 0.8194560408592224,
      "learning_rate": 0.00019704582534136846,
      "loss": 3.9915,
      "step": 192460
    },
    {
      "epoch": 0.40097916666666666,
      "grad_norm": 0.814000129699707,
      "learning_rate": 0.00019703646412486524,
      "loss": 3.989,
      "step": 192470
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.8002319931983948,
      "learning_rate": 0.00019702710270518318,
      "loss": 4.2032,
      "step": 192480
    },
    {
      "epoch": 0.4010208333333333,
      "grad_norm": 1.0143988132476807,
      "learning_rate": 0.00019701774108236262,
      "loss": 4.0077,
      "step": 192490
    },
    {
      "epoch": 0.4010416666666667,
      "grad_norm": 0.7768157720565796,
      "learning_rate": 0.00019700837925644405,
      "loss": 3.7357,
      "step": 192500
    },
    {
      "epoch": 0.4010625,
      "grad_norm": 0.8052846193313599,
      "learning_rate": 0.00019699901722746785,
      "loss": 3.8918,
      "step": 192510
    },
    {
      "epoch": 0.40108333333333335,
      "grad_norm": 0.7563629150390625,
      "learning_rate": 0.00019698965499547453,
      "loss": 3.7372,
      "step": 192520
    },
    {
      "epoch": 0.40110416666666665,
      "grad_norm": 0.8728175759315491,
      "learning_rate": 0.00019698029256050452,
      "loss": 4.0068,
      "step": 192530
    },
    {
      "epoch": 0.401125,
      "grad_norm": 0.7566282153129578,
      "learning_rate": 0.0001969709299225982,
      "loss": 3.8435,
      "step": 192540
    },
    {
      "epoch": 0.4011458333333333,
      "grad_norm": 1.114732027053833,
      "learning_rate": 0.00019696156708179607,
      "loss": 3.8841,
      "step": 192550
    },
    {
      "epoch": 0.40116666666666667,
      "grad_norm": 0.787528395652771,
      "learning_rate": 0.0001969522040381386,
      "loss": 3.8547,
      "step": 192560
    },
    {
      "epoch": 0.4011875,
      "grad_norm": 0.8387600779533386,
      "learning_rate": 0.0001969428407916661,
      "loss": 3.8866,
      "step": 192570
    },
    {
      "epoch": 0.40120833333333333,
      "grad_norm": 0.8210233449935913,
      "learning_rate": 0.0001969334773424192,
      "loss": 4.1574,
      "step": 192580
    },
    {
      "epoch": 0.4012291666666667,
      "grad_norm": 0.7609658241271973,
      "learning_rate": 0.00019692411369043824,
      "loss": 3.9092,
      "step": 192590
    },
    {
      "epoch": 0.40125,
      "grad_norm": 0.7969278693199158,
      "learning_rate": 0.00019691474983576365,
      "loss": 3.9539,
      "step": 192600
    },
    {
      "epoch": 0.40127083333333335,
      "grad_norm": 0.9103403091430664,
      "learning_rate": 0.0001969053857784359,
      "loss": 3.9615,
      "step": 192610
    },
    {
      "epoch": 0.40129166666666666,
      "grad_norm": 0.8291060328483582,
      "learning_rate": 0.00019689602151849552,
      "loss": 3.9372,
      "step": 192620
    },
    {
      "epoch": 0.4013125,
      "grad_norm": 0.8007346987724304,
      "learning_rate": 0.00019688665705598282,
      "loss": 4.0347,
      "step": 192630
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 0.8060334920883179,
      "learning_rate": 0.00019687729239093832,
      "loss": 3.9841,
      "step": 192640
    },
    {
      "epoch": 0.4013541666666667,
      "grad_norm": 0.8444026112556458,
      "learning_rate": 0.00019686792752340255,
      "loss": 3.9569,
      "step": 192650
    },
    {
      "epoch": 0.401375,
      "grad_norm": 0.9838314652442932,
      "learning_rate": 0.00019685856245341582,
      "loss": 4.1454,
      "step": 192660
    },
    {
      "epoch": 0.40139583333333334,
      "grad_norm": 0.8372482657432556,
      "learning_rate": 0.00019684919718101866,
      "loss": 3.7036,
      "step": 192670
    },
    {
      "epoch": 0.40141666666666664,
      "grad_norm": 0.8322941660881042,
      "learning_rate": 0.00019683983170625148,
      "loss": 3.9816,
      "step": 192680
    },
    {
      "epoch": 0.4014375,
      "grad_norm": 1.0207232236862183,
      "learning_rate": 0.00019683046602915483,
      "loss": 3.7793,
      "step": 192690
    },
    {
      "epoch": 0.4014583333333333,
      "grad_norm": 0.9900042414665222,
      "learning_rate": 0.00019682110014976903,
      "loss": 4.0313,
      "step": 192700
    },
    {
      "epoch": 0.40147916666666666,
      "grad_norm": 0.8890374898910522,
      "learning_rate": 0.00019681173406813467,
      "loss": 4.0009,
      "step": 192710
    },
    {
      "epoch": 0.4015,
      "grad_norm": 0.7982715368270874,
      "learning_rate": 0.00019680236778429213,
      "loss": 3.9726,
      "step": 192720
    },
    {
      "epoch": 0.4015208333333333,
      "grad_norm": 0.8020021319389343,
      "learning_rate": 0.00019679300129828191,
      "loss": 3.9289,
      "step": 192730
    },
    {
      "epoch": 0.4015416666666667,
      "grad_norm": 0.814782440662384,
      "learning_rate": 0.00019678363461014443,
      "loss": 3.8915,
      "step": 192740
    },
    {
      "epoch": 0.4015625,
      "grad_norm": 0.8772587776184082,
      "learning_rate": 0.00019677426771992016,
      "loss": 3.9429,
      "step": 192750
    },
    {
      "epoch": 0.40158333333333335,
      "grad_norm": 0.8855379819869995,
      "learning_rate": 0.00019676490062764957,
      "loss": 4.1463,
      "step": 192760
    },
    {
      "epoch": 0.40160416666666665,
      "grad_norm": 0.785720944404602,
      "learning_rate": 0.0001967555333333731,
      "loss": 3.7847,
      "step": 192770
    },
    {
      "epoch": 0.401625,
      "grad_norm": 0.7569149136543274,
      "learning_rate": 0.00019674616583713122,
      "loss": 3.8241,
      "step": 192780
    },
    {
      "epoch": 0.4016458333333333,
      "grad_norm": 0.7786223292350769,
      "learning_rate": 0.0001967367981389645,
      "loss": 4.0552,
      "step": 192790
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 0.8483279347419739,
      "learning_rate": 0.00019672743023891324,
      "loss": 4.1145,
      "step": 192800
    },
    {
      "epoch": 0.4016875,
      "grad_norm": 0.8033506274223328,
      "learning_rate": 0.000196718062137018,
      "loss": 3.9816,
      "step": 192810
    },
    {
      "epoch": 0.40170833333333333,
      "grad_norm": 0.9621549248695374,
      "learning_rate": 0.00019670869383331922,
      "loss": 4.0298,
      "step": 192820
    },
    {
      "epoch": 0.4017291666666667,
      "grad_norm": 0.7648439407348633,
      "learning_rate": 0.00019669932532785734,
      "loss": 4.0943,
      "step": 192830
    },
    {
      "epoch": 0.40175,
      "grad_norm": 0.981975793838501,
      "learning_rate": 0.0001966899566206729,
      "loss": 3.8517,
      "step": 192840
    },
    {
      "epoch": 0.40177083333333335,
      "grad_norm": 0.807523250579834,
      "learning_rate": 0.0001966805877118063,
      "loss": 3.9051,
      "step": 192850
    },
    {
      "epoch": 0.40179166666666666,
      "grad_norm": 0.781408965587616,
      "learning_rate": 0.00019667121860129805,
      "loss": 3.8255,
      "step": 192860
    },
    {
      "epoch": 0.4018125,
      "grad_norm": 0.9148565530776978,
      "learning_rate": 0.0001966618492891886,
      "loss": 4.1341,
      "step": 192870
    },
    {
      "epoch": 0.4018333333333333,
      "grad_norm": 1.262552261352539,
      "learning_rate": 0.00019665247977551843,
      "loss": 3.9689,
      "step": 192880
    },
    {
      "epoch": 0.4018541666666667,
      "grad_norm": 0.9988980889320374,
      "learning_rate": 0.00019664311006032805,
      "loss": 3.8048,
      "step": 192890
    },
    {
      "epoch": 0.401875,
      "grad_norm": 0.7658078074455261,
      "learning_rate": 0.00019663374014365788,
      "loss": 4.0135,
      "step": 192900
    },
    {
      "epoch": 0.40189583333333334,
      "grad_norm": 0.7743064761161804,
      "learning_rate": 0.00019662437002554838,
      "loss": 3.9421,
      "step": 192910
    },
    {
      "epoch": 0.40191666666666664,
      "grad_norm": 0.8071531057357788,
      "learning_rate": 0.00019661499970604008,
      "loss": 3.8363,
      "step": 192920
    },
    {
      "epoch": 0.4019375,
      "grad_norm": 0.8462159633636475,
      "learning_rate": 0.00019660562918517348,
      "loss": 3.9899,
      "step": 192930
    },
    {
      "epoch": 0.4019583333333333,
      "grad_norm": 0.9340302348136902,
      "learning_rate": 0.00019659625846298889,
      "loss": 3.7529,
      "step": 192940
    },
    {
      "epoch": 0.40197916666666667,
      "grad_norm": 0.8263055682182312,
      "learning_rate": 0.00019658688753952704,
      "loss": 3.8257,
      "step": 192950
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.9073488116264343,
      "learning_rate": 0.0001965775164148282,
      "loss": 4.0594,
      "step": 192960
    },
    {
      "epoch": 0.4020208333333333,
      "grad_norm": 0.9670469760894775,
      "learning_rate": 0.00019656814508893294,
      "loss": 3.8446,
      "step": 192970
    },
    {
      "epoch": 0.4020416666666667,
      "grad_norm": 0.7828278541564941,
      "learning_rate": 0.00019655877356188173,
      "loss": 3.8317,
      "step": 192980
    },
    {
      "epoch": 0.4020625,
      "grad_norm": 0.8046969175338745,
      "learning_rate": 0.00019654940183371506,
      "loss": 3.9368,
      "step": 192990
    },
    {
      "epoch": 0.40208333333333335,
      "grad_norm": 0.7993130683898926,
      "learning_rate": 0.0001965400299044734,
      "loss": 3.9139,
      "step": 193000
    },
    {
      "epoch": 0.40208333333333335,
      "eval_loss": 3.683206081390381,
      "eval_runtime": 7.2506,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 193000
    },
    {
      "epoch": 0.40210416666666665,
      "grad_norm": 0.8537322878837585,
      "learning_rate": 0.0001965306577741972,
      "loss": 3.9167,
      "step": 193010
    },
    {
      "epoch": 0.402125,
      "grad_norm": 0.8148548603057861,
      "learning_rate": 0.00019652128544292698,
      "loss": 3.7841,
      "step": 193020
    },
    {
      "epoch": 0.4021458333333333,
      "grad_norm": 0.8449295163154602,
      "learning_rate": 0.00019651191291070324,
      "loss": 3.9808,
      "step": 193030
    },
    {
      "epoch": 0.4021666666666667,
      "grad_norm": 1.098807692527771,
      "learning_rate": 0.00019650254017756645,
      "loss": 3.7903,
      "step": 193040
    },
    {
      "epoch": 0.4021875,
      "grad_norm": 0.7684045433998108,
      "learning_rate": 0.0001964931672435571,
      "loss": 3.672,
      "step": 193050
    },
    {
      "epoch": 0.40220833333333333,
      "grad_norm": 0.8977664113044739,
      "learning_rate": 0.00019648379410871564,
      "loss": 3.8554,
      "step": 193060
    },
    {
      "epoch": 0.4022291666666667,
      "grad_norm": 0.8265103697776794,
      "learning_rate": 0.00019647442077308259,
      "loss": 3.9873,
      "step": 193070
    },
    {
      "epoch": 0.40225,
      "grad_norm": 0.7631109356880188,
      "learning_rate": 0.00019646504723669844,
      "loss": 4.0582,
      "step": 193080
    },
    {
      "epoch": 0.40227083333333336,
      "grad_norm": 0.8060027360916138,
      "learning_rate": 0.00019645567349960372,
      "loss": 3.8075,
      "step": 193090
    },
    {
      "epoch": 0.40229166666666666,
      "grad_norm": 0.8797120451927185,
      "learning_rate": 0.00019644629956183887,
      "loss": 3.7677,
      "step": 193100
    },
    {
      "epoch": 0.4023125,
      "grad_norm": 0.8258503675460815,
      "learning_rate": 0.0001964369254234443,
      "loss": 3.915,
      "step": 193110
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 0.8250443935394287,
      "learning_rate": 0.00019642755108446072,
      "loss": 3.8148,
      "step": 193120
    },
    {
      "epoch": 0.4023541666666667,
      "grad_norm": 0.8942677974700928,
      "learning_rate": 0.00019641817654492846,
      "loss": 4.0887,
      "step": 193130
    },
    {
      "epoch": 0.402375,
      "grad_norm": 0.7720279097557068,
      "learning_rate": 0.000196408801804888,
      "loss": 4.0918,
      "step": 193140
    },
    {
      "epoch": 0.40239583333333334,
      "grad_norm": 0.9360669851303101,
      "learning_rate": 0.00019639942686437993,
      "loss": 3.9088,
      "step": 193150
    },
    {
      "epoch": 0.40241666666666664,
      "grad_norm": 0.7831534743309021,
      "learning_rate": 0.0001963900517234447,
      "loss": 3.8444,
      "step": 193160
    },
    {
      "epoch": 0.4024375,
      "grad_norm": 0.7909237742424011,
      "learning_rate": 0.00019638067638212277,
      "loss": 3.9005,
      "step": 193170
    },
    {
      "epoch": 0.4024583333333333,
      "grad_norm": 1.0880249738693237,
      "learning_rate": 0.00019637130084045471,
      "loss": 4.0065,
      "step": 193180
    },
    {
      "epoch": 0.40247916666666667,
      "grad_norm": 0.7892722487449646,
      "learning_rate": 0.000196361925098481,
      "loss": 3.9174,
      "step": 193190
    },
    {
      "epoch": 0.4025,
      "grad_norm": 0.8638129234313965,
      "learning_rate": 0.0001963525491562421,
      "loss": 3.8644,
      "step": 193200
    },
    {
      "epoch": 0.4025208333333333,
      "grad_norm": 0.8011640310287476,
      "learning_rate": 0.00019634317301377854,
      "loss": 4.0565,
      "step": 193210
    },
    {
      "epoch": 0.4025416666666667,
      "grad_norm": 0.8685630559921265,
      "learning_rate": 0.00019633379667113082,
      "loss": 4.0089,
      "step": 193220
    },
    {
      "epoch": 0.4025625,
      "grad_norm": 0.7577605843544006,
      "learning_rate": 0.00019632442012833943,
      "loss": 4.0149,
      "step": 193230
    },
    {
      "epoch": 0.40258333333333335,
      "grad_norm": 0.8301789164543152,
      "learning_rate": 0.0001963150433854449,
      "loss": 3.8005,
      "step": 193240
    },
    {
      "epoch": 0.40260416666666665,
      "grad_norm": 0.787868857383728,
      "learning_rate": 0.0001963056664424877,
      "loss": 4.0695,
      "step": 193250
    },
    {
      "epoch": 0.402625,
      "grad_norm": 0.8889078497886658,
      "learning_rate": 0.00019629628929950836,
      "loss": 3.8582,
      "step": 193260
    },
    {
      "epoch": 0.4026458333333333,
      "grad_norm": 0.7680497765541077,
      "learning_rate": 0.00019628691195654736,
      "loss": 4.0331,
      "step": 193270
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 0.8948684334754944,
      "learning_rate": 0.00019627753441364525,
      "loss": 3.9238,
      "step": 193280
    },
    {
      "epoch": 0.4026875,
      "grad_norm": 0.8440494537353516,
      "learning_rate": 0.0001962681566708425,
      "loss": 3.9551,
      "step": 193290
    },
    {
      "epoch": 0.40270833333333333,
      "grad_norm": 0.8196101784706116,
      "learning_rate": 0.00019625877872817961,
      "loss": 3.9226,
      "step": 193300
    },
    {
      "epoch": 0.4027291666666667,
      "grad_norm": 0.856235682964325,
      "learning_rate": 0.00019624940058569708,
      "loss": 3.9553,
      "step": 193310
    },
    {
      "epoch": 0.40275,
      "grad_norm": 0.782717764377594,
      "learning_rate": 0.0001962400222434355,
      "loss": 3.9771,
      "step": 193320
    },
    {
      "epoch": 0.40277083333333336,
      "grad_norm": 0.7823829054832458,
      "learning_rate": 0.00019623064370143532,
      "loss": 3.9939,
      "step": 193330
    },
    {
      "epoch": 0.40279166666666666,
      "grad_norm": 0.7961686849594116,
      "learning_rate": 0.00019622126495973702,
      "loss": 3.8713,
      "step": 193340
    },
    {
      "epoch": 0.4028125,
      "grad_norm": 0.7940747141838074,
      "learning_rate": 0.0001962118860183812,
      "loss": 3.8903,
      "step": 193350
    },
    {
      "epoch": 0.4028333333333333,
      "grad_norm": 0.7928746938705444,
      "learning_rate": 0.0001962025068774083,
      "loss": 3.7223,
      "step": 193360
    },
    {
      "epoch": 0.4028541666666667,
      "grad_norm": 0.8389255404472351,
      "learning_rate": 0.00019619312753685886,
      "loss": 3.8489,
      "step": 193370
    },
    {
      "epoch": 0.402875,
      "grad_norm": 2.701974630355835,
      "learning_rate": 0.0001961837479967734,
      "loss": 4.0345,
      "step": 193380
    },
    {
      "epoch": 0.40289583333333334,
      "grad_norm": 0.8492233753204346,
      "learning_rate": 0.0001961743682571924,
      "loss": 3.846,
      "step": 193390
    },
    {
      "epoch": 0.40291666666666665,
      "grad_norm": 0.8135585188865662,
      "learning_rate": 0.00019616498831815648,
      "loss": 3.9217,
      "step": 193400
    },
    {
      "epoch": 0.4029375,
      "grad_norm": 0.7348787784576416,
      "learning_rate": 0.000196155608179706,
      "loss": 3.6921,
      "step": 193410
    },
    {
      "epoch": 0.4029583333333333,
      "grad_norm": 0.8334381580352783,
      "learning_rate": 0.0001961462278418816,
      "loss": 4.0721,
      "step": 193420
    },
    {
      "epoch": 0.40297916666666667,
      "grad_norm": 1.0947662591934204,
      "learning_rate": 0.0001961368473047238,
      "loss": 3.9992,
      "step": 193430
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.8898848295211792,
      "learning_rate": 0.00019612746656827296,
      "loss": 3.6998,
      "step": 193440
    },
    {
      "epoch": 0.40302083333333333,
      "grad_norm": 0.8810720443725586,
      "learning_rate": 0.0001961180856325698,
      "loss": 3.9149,
      "step": 193450
    },
    {
      "epoch": 0.4030416666666667,
      "grad_norm": 0.8270742893218994,
      "learning_rate": 0.00019610870449765483,
      "loss": 3.8372,
      "step": 193460
    },
    {
      "epoch": 0.4030625,
      "grad_norm": 0.7526468634605408,
      "learning_rate": 0.00019609932316356842,
      "loss": 3.8402,
      "step": 193470
    },
    {
      "epoch": 0.40308333333333335,
      "grad_norm": 0.8093604445457458,
      "learning_rate": 0.00019608994163035118,
      "loss": 4.1378,
      "step": 193480
    },
    {
      "epoch": 0.40310416666666665,
      "grad_norm": 0.8023034334182739,
      "learning_rate": 0.0001960805598980437,
      "loss": 3.9518,
      "step": 193490
    },
    {
      "epoch": 0.403125,
      "grad_norm": 0.7734159231185913,
      "learning_rate": 0.0001960711779666864,
      "loss": 3.9147,
      "step": 193500
    },
    {
      "epoch": 0.4031458333333333,
      "grad_norm": 0.8230303525924683,
      "learning_rate": 0.00019606179583631984,
      "loss": 4.0489,
      "step": 193510
    },
    {
      "epoch": 0.4031666666666667,
      "grad_norm": 0.7477729916572571,
      "learning_rate": 0.00019605241350698457,
      "loss": 3.9726,
      "step": 193520
    },
    {
      "epoch": 0.4031875,
      "grad_norm": 0.8884289860725403,
      "learning_rate": 0.00019604303097872107,
      "loss": 3.9551,
      "step": 193530
    },
    {
      "epoch": 0.40320833333333334,
      "grad_norm": 0.8542530536651611,
      "learning_rate": 0.00019603364825156996,
      "loss": 3.8983,
      "step": 193540
    },
    {
      "epoch": 0.4032291666666667,
      "grad_norm": 1.2844856977462769,
      "learning_rate": 0.00019602426532557165,
      "loss": 3.9225,
      "step": 193550
    },
    {
      "epoch": 0.40325,
      "grad_norm": 0.7781488299369812,
      "learning_rate": 0.00019601488220076678,
      "loss": 3.7759,
      "step": 193560
    },
    {
      "epoch": 0.40327083333333336,
      "grad_norm": 0.7413091659545898,
      "learning_rate": 0.0001960054988771958,
      "loss": 3.969,
      "step": 193570
    },
    {
      "epoch": 0.40329166666666666,
      "grad_norm": 0.8137164115905762,
      "learning_rate": 0.00019599611535489928,
      "loss": 4.0529,
      "step": 193580
    },
    {
      "epoch": 0.4033125,
      "grad_norm": 0.8709092736244202,
      "learning_rate": 0.00019598673163391777,
      "loss": 3.9482,
      "step": 193590
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 0.8618177175521851,
      "learning_rate": 0.00019597734771429178,
      "loss": 3.998,
      "step": 193600
    },
    {
      "epoch": 0.4033541666666667,
      "grad_norm": 0.852563202381134,
      "learning_rate": 0.00019596796359606185,
      "loss": 3.8989,
      "step": 193610
    },
    {
      "epoch": 0.403375,
      "grad_norm": 0.7481313347816467,
      "learning_rate": 0.00019595857927926847,
      "loss": 4.1108,
      "step": 193620
    },
    {
      "epoch": 0.40339583333333334,
      "grad_norm": 0.8349257707595825,
      "learning_rate": 0.00019594919476395228,
      "loss": 3.9197,
      "step": 193630
    },
    {
      "epoch": 0.40341666666666665,
      "grad_norm": 0.7968504428863525,
      "learning_rate": 0.0001959398100501537,
      "loss": 3.9758,
      "step": 193640
    },
    {
      "epoch": 0.4034375,
      "grad_norm": 0.8472979664802551,
      "learning_rate": 0.00019593042513791332,
      "loss": 3.8768,
      "step": 193650
    },
    {
      "epoch": 0.4034583333333333,
      "grad_norm": 0.8241965770721436,
      "learning_rate": 0.00019592104002727175,
      "loss": 3.752,
      "step": 193660
    },
    {
      "epoch": 0.40347916666666667,
      "grad_norm": 0.8976832628250122,
      "learning_rate": 0.00019591165471826943,
      "loss": 4.0313,
      "step": 193670
    },
    {
      "epoch": 0.4035,
      "grad_norm": 0.7643691897392273,
      "learning_rate": 0.0001959022692109469,
      "loss": 3.9205,
      "step": 193680
    },
    {
      "epoch": 0.40352083333333333,
      "grad_norm": 0.7793116569519043,
      "learning_rate": 0.0001958928835053448,
      "loss": 4.0142,
      "step": 193690
    },
    {
      "epoch": 0.4035416666666667,
      "grad_norm": 0.8352329730987549,
      "learning_rate": 0.0001958834976015036,
      "loss": 4.092,
      "step": 193700
    },
    {
      "epoch": 0.4035625,
      "grad_norm": 0.7498587369918823,
      "learning_rate": 0.0001958741114994638,
      "loss": 3.805,
      "step": 193710
    },
    {
      "epoch": 0.40358333333333335,
      "grad_norm": 0.8111348152160645,
      "learning_rate": 0.00019586472519926603,
      "loss": 4.0014,
      "step": 193720
    },
    {
      "epoch": 0.40360416666666665,
      "grad_norm": 0.8523840308189392,
      "learning_rate": 0.0001958553387009508,
      "loss": 3.9517,
      "step": 193730
    },
    {
      "epoch": 0.403625,
      "grad_norm": 0.7864552736282349,
      "learning_rate": 0.00019584595200455865,
      "loss": 3.83,
      "step": 193740
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 0.8212310671806335,
      "learning_rate": 0.00019583656511013012,
      "loss": 4.0053,
      "step": 193750
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 0.9627000689506531,
      "learning_rate": 0.0001958271780177058,
      "loss": 4.0204,
      "step": 193760
    },
    {
      "epoch": 0.4036875,
      "grad_norm": 0.9819654226303101,
      "learning_rate": 0.00019581779072732619,
      "loss": 3.9977,
      "step": 193770
    },
    {
      "epoch": 0.40370833333333334,
      "grad_norm": 0.8414497971534729,
      "learning_rate": 0.00019580840323903188,
      "loss": 3.9666,
      "step": 193780
    },
    {
      "epoch": 0.40372916666666664,
      "grad_norm": 0.9232487082481384,
      "learning_rate": 0.00019579901555286339,
      "loss": 4.0261,
      "step": 193790
    },
    {
      "epoch": 0.40375,
      "grad_norm": 0.8505847454071045,
      "learning_rate": 0.00019578962766886134,
      "loss": 4.1467,
      "step": 193800
    },
    {
      "epoch": 0.40377083333333336,
      "grad_norm": 0.790753185749054,
      "learning_rate": 0.00019578023958706611,
      "loss": 3.9239,
      "step": 193810
    },
    {
      "epoch": 0.40379166666666666,
      "grad_norm": 0.8787394762039185,
      "learning_rate": 0.0001957708513075184,
      "loss": 3.8439,
      "step": 193820
    },
    {
      "epoch": 0.4038125,
      "grad_norm": 0.8428431749343872,
      "learning_rate": 0.00019576146283025884,
      "loss": 3.8951,
      "step": 193830
    },
    {
      "epoch": 0.4038333333333333,
      "grad_norm": 0.9077473282814026,
      "learning_rate": 0.00019575207415532773,
      "loss": 3.7711,
      "step": 193840
    },
    {
      "epoch": 0.4038541666666667,
      "grad_norm": 0.8242495656013489,
      "learning_rate": 0.00019574268528276586,
      "loss": 3.9209,
      "step": 193850
    },
    {
      "epoch": 0.403875,
      "grad_norm": 0.8126428723335266,
      "learning_rate": 0.00019573329621261367,
      "loss": 3.8373,
      "step": 193860
    },
    {
      "epoch": 0.40389583333333334,
      "grad_norm": 0.8647289872169495,
      "learning_rate": 0.00019572390694491175,
      "loss": 3.8083,
      "step": 193870
    },
    {
      "epoch": 0.40391666666666665,
      "grad_norm": 0.7704232335090637,
      "learning_rate": 0.0001957145174797006,
      "loss": 3.8529,
      "step": 193880
    },
    {
      "epoch": 0.4039375,
      "grad_norm": 0.9186901450157166,
      "learning_rate": 0.00019570512781702087,
      "loss": 3.9927,
      "step": 193890
    },
    {
      "epoch": 0.4039583333333333,
      "grad_norm": 0.8442615866661072,
      "learning_rate": 0.0001956957379569131,
      "loss": 3.9947,
      "step": 193900
    },
    {
      "epoch": 0.40397916666666667,
      "grad_norm": 0.7823705673217773,
      "learning_rate": 0.0001956863478994178,
      "loss": 3.76,
      "step": 193910
    },
    {
      "epoch": 0.404,
      "grad_norm": 0.8928066492080688,
      "learning_rate": 0.00019567695764457555,
      "loss": 4.0605,
      "step": 193920
    },
    {
      "epoch": 0.40402083333333333,
      "grad_norm": 0.7758588790893555,
      "learning_rate": 0.00019566756719242693,
      "loss": 3.7951,
      "step": 193930
    },
    {
      "epoch": 0.4040416666666667,
      "grad_norm": 0.8042582273483276,
      "learning_rate": 0.00019565817654301252,
      "loss": 3.8552,
      "step": 193940
    },
    {
      "epoch": 0.4040625,
      "grad_norm": 0.7544575333595276,
      "learning_rate": 0.00019564878569637283,
      "loss": 4.102,
      "step": 193950
    },
    {
      "epoch": 0.40408333333333335,
      "grad_norm": 0.783848226070404,
      "learning_rate": 0.00019563939465254846,
      "loss": 3.9019,
      "step": 193960
    },
    {
      "epoch": 0.40410416666666665,
      "grad_norm": 0.8224977850914001,
      "learning_rate": 0.00019563000341158004,
      "loss": 4.0128,
      "step": 193970
    },
    {
      "epoch": 0.404125,
      "grad_norm": 0.7311299443244934,
      "learning_rate": 0.00019562061197350795,
      "loss": 4.0933,
      "step": 193980
    },
    {
      "epoch": 0.4041458333333333,
      "grad_norm": 1.046467900276184,
      "learning_rate": 0.00019561122033837298,
      "loss": 3.888,
      "step": 193990
    },
    {
      "epoch": 0.4041666666666667,
      "grad_norm": 0.8241180777549744,
      "learning_rate": 0.00019560182850621554,
      "loss": 3.9537,
      "step": 194000
    },
    {
      "epoch": 0.4041666666666667,
      "eval_loss": 3.6711134910583496,
      "eval_runtime": 7.2999,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 194000
    },
    {
      "epoch": 0.4041875,
      "grad_norm": 0.9467294216156006,
      "learning_rate": 0.0001955924364770762,
      "loss": 4.1417,
      "step": 194010
    },
    {
      "epoch": 0.40420833333333334,
      "grad_norm": 0.7676600217819214,
      "learning_rate": 0.00019558304425099568,
      "loss": 3.8878,
      "step": 194020
    },
    {
      "epoch": 0.40422916666666664,
      "grad_norm": 0.7393509745597839,
      "learning_rate": 0.0001955736518280144,
      "loss": 3.7699,
      "step": 194030
    },
    {
      "epoch": 0.40425,
      "grad_norm": 0.8561587929725647,
      "learning_rate": 0.00019556425920817298,
      "loss": 4.0118,
      "step": 194040
    },
    {
      "epoch": 0.40427083333333336,
      "grad_norm": 0.8577226996421814,
      "learning_rate": 0.00019555486639151202,
      "loss": 3.8452,
      "step": 194050
    },
    {
      "epoch": 0.40429166666666666,
      "grad_norm": 0.7931360006332397,
      "learning_rate": 0.00019554547337807208,
      "loss": 3.9812,
      "step": 194060
    },
    {
      "epoch": 0.4043125,
      "grad_norm": 0.8866499066352844,
      "learning_rate": 0.00019553608016789365,
      "loss": 3.9135,
      "step": 194070
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 0.6820247173309326,
      "learning_rate": 0.00019552668676101745,
      "loss": 3.8089,
      "step": 194080
    },
    {
      "epoch": 0.4043541666666667,
      "grad_norm": 0.7968602180480957,
      "learning_rate": 0.00019551729315748397,
      "loss": 3.9654,
      "step": 194090
    },
    {
      "epoch": 0.404375,
      "grad_norm": 1.2495331764221191,
      "learning_rate": 0.0001955078993573338,
      "loss": 3.9739,
      "step": 194100
    },
    {
      "epoch": 0.40439583333333334,
      "grad_norm": 0.8256315588951111,
      "learning_rate": 0.00019549850536060748,
      "loss": 3.9616,
      "step": 194110
    },
    {
      "epoch": 0.40441666666666665,
      "grad_norm": 0.8410977125167847,
      "learning_rate": 0.00019548911116734564,
      "loss": 3.9989,
      "step": 194120
    },
    {
      "epoch": 0.4044375,
      "grad_norm": 0.8079461455345154,
      "learning_rate": 0.00019547971677758892,
      "loss": 4.128,
      "step": 194130
    },
    {
      "epoch": 0.4044583333333333,
      "grad_norm": 0.7484844923019409,
      "learning_rate": 0.00019547032219137771,
      "loss": 3.9954,
      "step": 194140
    },
    {
      "epoch": 0.40447916666666667,
      "grad_norm": 0.7978470921516418,
      "learning_rate": 0.00019546092740875277,
      "loss": 3.9376,
      "step": 194150
    },
    {
      "epoch": 0.4045,
      "grad_norm": 0.9688490033149719,
      "learning_rate": 0.00019545153242975466,
      "loss": 4.0432,
      "step": 194160
    },
    {
      "epoch": 0.40452083333333333,
      "grad_norm": 1.156562089920044,
      "learning_rate": 0.00019544213725442388,
      "loss": 4.0667,
      "step": 194170
    },
    {
      "epoch": 0.4045416666666667,
      "grad_norm": 0.8022201657295227,
      "learning_rate": 0.00019543274188280098,
      "loss": 3.7782,
      "step": 194180
    },
    {
      "epoch": 0.4045625,
      "grad_norm": 0.7979027628898621,
      "learning_rate": 0.00019542334631492673,
      "loss": 3.8906,
      "step": 194190
    },
    {
      "epoch": 0.40458333333333335,
      "grad_norm": 0.9568315744400024,
      "learning_rate": 0.00019541395055084156,
      "loss": 3.8248,
      "step": 194200
    },
    {
      "epoch": 0.40460416666666665,
      "grad_norm": 0.7636455297470093,
      "learning_rate": 0.00019540455459058606,
      "loss": 4.0488,
      "step": 194210
    },
    {
      "epoch": 0.404625,
      "grad_norm": 0.9895274043083191,
      "learning_rate": 0.00019539515843420093,
      "loss": 3.9769,
      "step": 194220
    },
    {
      "epoch": 0.4046458333333333,
      "grad_norm": 0.8407876491546631,
      "learning_rate": 0.00019538576208172668,
      "loss": 3.842,
      "step": 194230
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 0.7931240200996399,
      "learning_rate": 0.00019537636553320387,
      "loss": 3.793,
      "step": 194240
    },
    {
      "epoch": 0.4046875,
      "grad_norm": 0.8469457030296326,
      "learning_rate": 0.0001953669687886731,
      "loss": 4.1117,
      "step": 194250
    },
    {
      "epoch": 0.40470833333333334,
      "grad_norm": 0.8451922535896301,
      "learning_rate": 0.00019535757184817502,
      "loss": 3.87,
      "step": 194260
    },
    {
      "epoch": 0.40472916666666664,
      "grad_norm": 0.8391969799995422,
      "learning_rate": 0.00019534817471175017,
      "loss": 3.9698,
      "step": 194270
    },
    {
      "epoch": 0.40475,
      "grad_norm": 0.9003919363021851,
      "learning_rate": 0.00019533877737943912,
      "loss": 3.9088,
      "step": 194280
    },
    {
      "epoch": 0.40477083333333336,
      "grad_norm": 0.8000204563140869,
      "learning_rate": 0.00019532937985128253,
      "loss": 4.064,
      "step": 194290
    },
    {
      "epoch": 0.40479166666666666,
      "grad_norm": 0.8408387899398804,
      "learning_rate": 0.00019531998212732102,
      "loss": 3.7462,
      "step": 194300
    },
    {
      "epoch": 0.4048125,
      "grad_norm": 0.854719340801239,
      "learning_rate": 0.00019531058420759503,
      "loss": 4.006,
      "step": 194310
    },
    {
      "epoch": 0.4048333333333333,
      "grad_norm": 0.8229917287826538,
      "learning_rate": 0.0001953011860921453,
      "loss": 3.8809,
      "step": 194320
    },
    {
      "epoch": 0.4048541666666667,
      "grad_norm": 0.7812030911445618,
      "learning_rate": 0.00019529178778101243,
      "loss": 3.9841,
      "step": 194330
    },
    {
      "epoch": 0.404875,
      "grad_norm": 0.8055709600448608,
      "learning_rate": 0.0001952823892742369,
      "loss": 3.8666,
      "step": 194340
    },
    {
      "epoch": 0.40489583333333334,
      "grad_norm": 0.8607456088066101,
      "learning_rate": 0.00019527299057185932,
      "loss": 4.0939,
      "step": 194350
    },
    {
      "epoch": 0.40491666666666665,
      "grad_norm": 0.8723680377006531,
      "learning_rate": 0.00019526359167392043,
      "loss": 3.9875,
      "step": 194360
    },
    {
      "epoch": 0.4049375,
      "grad_norm": 0.7933099865913391,
      "learning_rate": 0.0001952541925804607,
      "loss": 4.0278,
      "step": 194370
    },
    {
      "epoch": 0.4049583333333333,
      "grad_norm": 0.8009951710700989,
      "learning_rate": 0.00019524479329152076,
      "loss": 3.8815,
      "step": 194380
    },
    {
      "epoch": 0.40497916666666667,
      "grad_norm": 0.8031399250030518,
      "learning_rate": 0.00019523539380714126,
      "loss": 4.0024,
      "step": 194390
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.7435570955276489,
      "learning_rate": 0.00019522599412736275,
      "loss": 3.6915,
      "step": 194400
    },
    {
      "epoch": 0.40502083333333333,
      "grad_norm": 0.8040961623191833,
      "learning_rate": 0.00019521659425222586,
      "loss": 3.9671,
      "step": 194410
    },
    {
      "epoch": 0.4050416666666667,
      "grad_norm": 0.7951735258102417,
      "learning_rate": 0.00019520719418177114,
      "loss": 3.8879,
      "step": 194420
    },
    {
      "epoch": 0.4050625,
      "grad_norm": 0.9799025058746338,
      "learning_rate": 0.00019519779391603926,
      "loss": 4.0397,
      "step": 194430
    },
    {
      "epoch": 0.40508333333333335,
      "grad_norm": 0.7965633869171143,
      "learning_rate": 0.0001951883934550708,
      "loss": 3.9251,
      "step": 194440
    },
    {
      "epoch": 0.40510416666666665,
      "grad_norm": 0.8619155883789062,
      "learning_rate": 0.00019517899279890638,
      "loss": 3.9184,
      "step": 194450
    },
    {
      "epoch": 0.405125,
      "grad_norm": 0.862995982170105,
      "learning_rate": 0.00019516959194758657,
      "loss": 4.1033,
      "step": 194460
    },
    {
      "epoch": 0.4051458333333333,
      "grad_norm": 0.8166871070861816,
      "learning_rate": 0.00019516019090115206,
      "loss": 3.8484,
      "step": 194470
    },
    {
      "epoch": 0.4051666666666667,
      "grad_norm": 0.9270918965339661,
      "learning_rate": 0.0001951507896596433,
      "loss": 3.911,
      "step": 194480
    },
    {
      "epoch": 0.4051875,
      "grad_norm": 0.921461284160614,
      "learning_rate": 0.00019514138822310107,
      "loss": 3.8494,
      "step": 194490
    },
    {
      "epoch": 0.40520833333333334,
      "grad_norm": 0.8434766530990601,
      "learning_rate": 0.00019513198659156593,
      "loss": 3.8857,
      "step": 194500
    },
    {
      "epoch": 0.40522916666666664,
      "grad_norm": 0.8380606174468994,
      "learning_rate": 0.0001951225847650784,
      "loss": 3.77,
      "step": 194510
    },
    {
      "epoch": 0.40525,
      "grad_norm": 0.8353108167648315,
      "learning_rate": 0.00019511318274367923,
      "loss": 4.0502,
      "step": 194520
    },
    {
      "epoch": 0.40527083333333336,
      "grad_norm": 0.8700574636459351,
      "learning_rate": 0.00019510378052740895,
      "loss": 4.069,
      "step": 194530
    },
    {
      "epoch": 0.40529166666666666,
      "grad_norm": 0.8124142289161682,
      "learning_rate": 0.00019509437811630816,
      "loss": 3.8811,
      "step": 194540
    },
    {
      "epoch": 0.4053125,
      "grad_norm": 0.8367194533348083,
      "learning_rate": 0.00019508497551041753,
      "loss": 3.9123,
      "step": 194550
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 0.7983338236808777,
      "learning_rate": 0.00019507557270977764,
      "loss": 4.0168,
      "step": 194560
    },
    {
      "epoch": 0.4053541666666667,
      "grad_norm": 0.7285773158073425,
      "learning_rate": 0.00019506616971442917,
      "loss": 3.8969,
      "step": 194570
    },
    {
      "epoch": 0.405375,
      "grad_norm": 0.7301810383796692,
      "learning_rate": 0.0001950567665244126,
      "loss": 3.7531,
      "step": 194580
    },
    {
      "epoch": 0.40539583333333334,
      "grad_norm": 0.791610598564148,
      "learning_rate": 0.0001950473631397687,
      "loss": 3.9964,
      "step": 194590
    },
    {
      "epoch": 0.40541666666666665,
      "grad_norm": 0.8188368082046509,
      "learning_rate": 0.000195037959560538,
      "loss": 3.8315,
      "step": 194600
    },
    {
      "epoch": 0.4054375,
      "grad_norm": 0.8487467765808105,
      "learning_rate": 0.00019502855578676115,
      "loss": 4.0262,
      "step": 194610
    },
    {
      "epoch": 0.4054583333333333,
      "grad_norm": 0.7755231857299805,
      "learning_rate": 0.00019501915181847874,
      "loss": 4.0003,
      "step": 194620
    },
    {
      "epoch": 0.40547916666666667,
      "grad_norm": 0.8051208257675171,
      "learning_rate": 0.0001950097476557314,
      "loss": 3.92,
      "step": 194630
    },
    {
      "epoch": 0.4055,
      "grad_norm": 0.7878503799438477,
      "learning_rate": 0.0001950003432985598,
      "loss": 3.91,
      "step": 194640
    },
    {
      "epoch": 0.40552083333333333,
      "grad_norm": 0.8091864585876465,
      "learning_rate": 0.00019499093874700456,
      "loss": 3.9488,
      "step": 194650
    },
    {
      "epoch": 0.4055416666666667,
      "grad_norm": 0.820091187953949,
      "learning_rate": 0.00019498153400110624,
      "loss": 3.9865,
      "step": 194660
    },
    {
      "epoch": 0.4055625,
      "grad_norm": 0.8410861492156982,
      "learning_rate": 0.0001949721290609055,
      "loss": 3.9087,
      "step": 194670
    },
    {
      "epoch": 0.40558333333333335,
      "grad_norm": 0.9808787107467651,
      "learning_rate": 0.00019496272392644293,
      "loss": 3.8817,
      "step": 194680
    },
    {
      "epoch": 0.40560416666666665,
      "grad_norm": 0.8301340341567993,
      "learning_rate": 0.00019495331859775922,
      "loss": 4.0613,
      "step": 194690
    },
    {
      "epoch": 0.405625,
      "grad_norm": 0.8738494515419006,
      "learning_rate": 0.00019494391307489498,
      "loss": 3.7097,
      "step": 194700
    },
    {
      "epoch": 0.4056458333333333,
      "grad_norm": 0.7360886931419373,
      "learning_rate": 0.0001949345073578908,
      "loss": 3.9873,
      "step": 194710
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 0.85683274269104,
      "learning_rate": 0.00019492510144678737,
      "loss": 3.8701,
      "step": 194720
    },
    {
      "epoch": 0.4056875,
      "grad_norm": 0.7630480527877808,
      "learning_rate": 0.00019491569534162525,
      "loss": 3.9834,
      "step": 194730
    },
    {
      "epoch": 0.40570833333333334,
      "grad_norm": 0.8645130395889282,
      "learning_rate": 0.00019490628904244512,
      "loss": 3.7454,
      "step": 194740
    },
    {
      "epoch": 0.40572916666666664,
      "grad_norm": 1.0101897716522217,
      "learning_rate": 0.0001948968825492876,
      "loss": 3.9434,
      "step": 194750
    },
    {
      "epoch": 0.40575,
      "grad_norm": 0.8249618411064148,
      "learning_rate": 0.0001948874758621933,
      "loss": 4.0305,
      "step": 194760
    },
    {
      "epoch": 0.40577083333333336,
      "grad_norm": 0.7764105796813965,
      "learning_rate": 0.00019487806898120288,
      "loss": 3.9409,
      "step": 194770
    },
    {
      "epoch": 0.40579166666666666,
      "grad_norm": 0.7737268805503845,
      "learning_rate": 0.00019486866190635696,
      "loss": 4.0443,
      "step": 194780
    },
    {
      "epoch": 0.4058125,
      "grad_norm": 0.8771787285804749,
      "learning_rate": 0.00019485925463769618,
      "loss": 3.7266,
      "step": 194790
    },
    {
      "epoch": 0.4058333333333333,
      "grad_norm": 1.0564244985580444,
      "learning_rate": 0.00019484984717526118,
      "loss": 4.2923,
      "step": 194800
    },
    {
      "epoch": 0.4058541666666667,
      "grad_norm": 1.069960594177246,
      "learning_rate": 0.00019484043951909264,
      "loss": 3.971,
      "step": 194810
    },
    {
      "epoch": 0.405875,
      "grad_norm": 0.8124207854270935,
      "learning_rate": 0.00019483103166923109,
      "loss": 3.7843,
      "step": 194820
    },
    {
      "epoch": 0.40589583333333334,
      "grad_norm": 0.8121157288551331,
      "learning_rate": 0.00019482162362571725,
      "loss": 3.9541,
      "step": 194830
    },
    {
      "epoch": 0.40591666666666665,
      "grad_norm": 1.0806910991668701,
      "learning_rate": 0.00019481221538859175,
      "loss": 3.9815,
      "step": 194840
    },
    {
      "epoch": 0.4059375,
      "grad_norm": 0.7824618220329285,
      "learning_rate": 0.00019480280695789517,
      "loss": 4.0536,
      "step": 194850
    },
    {
      "epoch": 0.4059583333333333,
      "grad_norm": 0.8409979343414307,
      "learning_rate": 0.00019479339833366826,
      "loss": 4.0228,
      "step": 194860
    },
    {
      "epoch": 0.40597916666666667,
      "grad_norm": 0.8406856060028076,
      "learning_rate": 0.00019478398951595157,
      "loss": 3.8983,
      "step": 194870
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.8619185090065002,
      "learning_rate": 0.00019477458050478575,
      "loss": 3.8339,
      "step": 194880
    },
    {
      "epoch": 0.40602083333333333,
      "grad_norm": 0.9678549766540527,
      "learning_rate": 0.0001947651713002115,
      "loss": 3.9915,
      "step": 194890
    },
    {
      "epoch": 0.4060416666666667,
      "grad_norm": 0.8104917407035828,
      "learning_rate": 0.00019475576190226943,
      "loss": 3.7807,
      "step": 194900
    },
    {
      "epoch": 0.4060625,
      "grad_norm": 0.9507297873497009,
      "learning_rate": 0.00019474635231100015,
      "loss": 3.9823,
      "step": 194910
    },
    {
      "epoch": 0.40608333333333335,
      "grad_norm": 0.7595386505126953,
      "learning_rate": 0.00019473694252644438,
      "loss": 3.9286,
      "step": 194920
    },
    {
      "epoch": 0.40610416666666665,
      "grad_norm": 0.7458054423332214,
      "learning_rate": 0.0001947275325486427,
      "loss": 3.7736,
      "step": 194930
    },
    {
      "epoch": 0.406125,
      "grad_norm": 1.0831254720687866,
      "learning_rate": 0.0001947181223776358,
      "loss": 3.9937,
      "step": 194940
    },
    {
      "epoch": 0.4061458333333333,
      "grad_norm": 0.9131256937980652,
      "learning_rate": 0.0001947087120134643,
      "loss": 3.9149,
      "step": 194950
    },
    {
      "epoch": 0.4061666666666667,
      "grad_norm": 0.8903982043266296,
      "learning_rate": 0.00019469930145616884,
      "loss": 3.9547,
      "step": 194960
    },
    {
      "epoch": 0.4061875,
      "grad_norm": 0.8653090000152588,
      "learning_rate": 0.0001946898907057901,
      "loss": 3.9264,
      "step": 194970
    },
    {
      "epoch": 0.40620833333333334,
      "grad_norm": 0.8223428130149841,
      "learning_rate": 0.00019468047976236875,
      "loss": 4.0841,
      "step": 194980
    },
    {
      "epoch": 0.40622916666666664,
      "grad_norm": 0.7891864776611328,
      "learning_rate": 0.0001946710686259454,
      "loss": 3.9562,
      "step": 194990
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.9491565227508545,
      "learning_rate": 0.0001946616572965607,
      "loss": 4.0484,
      "step": 195000
    },
    {
      "epoch": 0.40625,
      "eval_loss": 3.6685757637023926,
      "eval_runtime": 7.356,
      "eval_samples_per_second": 1.359,
      "eval_steps_per_second": 0.408,
      "step": 195000
    },
    {
      "epoch": 0.40627083333333336,
      "grad_norm": 0.848543107509613,
      "learning_rate": 0.00019465224577425535,
      "loss": 3.9062,
      "step": 195010
    },
    {
      "epoch": 0.40629166666666666,
      "grad_norm": 0.7332349419593811,
      "learning_rate": 0.00019464283405906996,
      "loss": 4.0235,
      "step": 195020
    },
    {
      "epoch": 0.4063125,
      "grad_norm": 0.8401354551315308,
      "learning_rate": 0.00019463342215104523,
      "loss": 3.8068,
      "step": 195030
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 1.0059537887573242,
      "learning_rate": 0.00019462401005022173,
      "loss": 3.8946,
      "step": 195040
    },
    {
      "epoch": 0.4063541666666667,
      "grad_norm": 0.8890304565429688,
      "learning_rate": 0.00019461459775664018,
      "loss": 3.6733,
      "step": 195050
    },
    {
      "epoch": 0.406375,
      "grad_norm": 0.8074659705162048,
      "learning_rate": 0.00019460518527034126,
      "loss": 3.9073,
      "step": 195060
    },
    {
      "epoch": 0.40639583333333335,
      "grad_norm": 0.8731901049613953,
      "learning_rate": 0.00019459577259136557,
      "loss": 3.8372,
      "step": 195070
    },
    {
      "epoch": 0.40641666666666665,
      "grad_norm": 0.8248193860054016,
      "learning_rate": 0.00019458635971975375,
      "loss": 3.9047,
      "step": 195080
    },
    {
      "epoch": 0.4064375,
      "grad_norm": 0.8125927448272705,
      "learning_rate": 0.00019457694665554658,
      "loss": 3.8706,
      "step": 195090
    },
    {
      "epoch": 0.4064583333333333,
      "grad_norm": 0.823055624961853,
      "learning_rate": 0.00019456753339878462,
      "loss": 4.0581,
      "step": 195100
    },
    {
      "epoch": 0.40647916666666667,
      "grad_norm": 0.7754226922988892,
      "learning_rate": 0.00019455811994950855,
      "loss": 3.8388,
      "step": 195110
    },
    {
      "epoch": 0.4065,
      "grad_norm": 0.8099340200424194,
      "learning_rate": 0.00019454870630775903,
      "loss": 3.9241,
      "step": 195120
    },
    {
      "epoch": 0.40652083333333333,
      "grad_norm": 0.8154563903808594,
      "learning_rate": 0.00019453929247357675,
      "loss": 3.9473,
      "step": 195130
    },
    {
      "epoch": 0.4065416666666667,
      "grad_norm": 0.8422232270240784,
      "learning_rate": 0.00019452987844700235,
      "loss": 4.0419,
      "step": 195140
    },
    {
      "epoch": 0.4065625,
      "grad_norm": 0.769834578037262,
      "learning_rate": 0.00019452046422807653,
      "loss": 4.1576,
      "step": 195150
    },
    {
      "epoch": 0.40658333333333335,
      "grad_norm": 0.7442358136177063,
      "learning_rate": 0.00019451104981683986,
      "loss": 4.025,
      "step": 195160
    },
    {
      "epoch": 0.40660416666666666,
      "grad_norm": 0.7525717616081238,
      "learning_rate": 0.00019450163521333316,
      "loss": 3.9072,
      "step": 195170
    },
    {
      "epoch": 0.406625,
      "grad_norm": 0.7909498810768127,
      "learning_rate": 0.00019449222041759693,
      "loss": 4.1223,
      "step": 195180
    },
    {
      "epoch": 0.4066458333333333,
      "grad_norm": 0.8291946649551392,
      "learning_rate": 0.00019448280542967196,
      "loss": 3.9803,
      "step": 195190
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 0.9601483941078186,
      "learning_rate": 0.00019447339024959888,
      "loss": 4.1522,
      "step": 195200
    },
    {
      "epoch": 0.4066875,
      "grad_norm": 0.8323516845703125,
      "learning_rate": 0.00019446397487741832,
      "loss": 3.9193,
      "step": 195210
    },
    {
      "epoch": 0.40670833333333334,
      "grad_norm": 0.9600509405136108,
      "learning_rate": 0.00019445455931317102,
      "loss": 3.8436,
      "step": 195220
    },
    {
      "epoch": 0.40672916666666664,
      "grad_norm": 0.8950518369674683,
      "learning_rate": 0.00019444514355689766,
      "loss": 3.7712,
      "step": 195230
    },
    {
      "epoch": 0.40675,
      "grad_norm": 0.7956373691558838,
      "learning_rate": 0.00019443572760863883,
      "loss": 3.9073,
      "step": 195240
    },
    {
      "epoch": 0.40677083333333336,
      "grad_norm": 0.7929950952529907,
      "learning_rate": 0.0001944263114684352,
      "loss": 3.7801,
      "step": 195250
    },
    {
      "epoch": 0.40679166666666666,
      "grad_norm": 0.8447905778884888,
      "learning_rate": 0.00019441689513632755,
      "loss": 4.0209,
      "step": 195260
    },
    {
      "epoch": 0.4068125,
      "grad_norm": 1.0229690074920654,
      "learning_rate": 0.0001944074786123565,
      "loss": 3.6884,
      "step": 195270
    },
    {
      "epoch": 0.4068333333333333,
      "grad_norm": 0.8376579880714417,
      "learning_rate": 0.00019439806189656264,
      "loss": 3.9001,
      "step": 195280
    },
    {
      "epoch": 0.4068541666666667,
      "grad_norm": 1.1688848733901978,
      "learning_rate": 0.00019438864498898682,
      "loss": 4.0305,
      "step": 195290
    },
    {
      "epoch": 0.406875,
      "grad_norm": 0.8742673993110657,
      "learning_rate": 0.0001943792278896696,
      "loss": 3.742,
      "step": 195300
    },
    {
      "epoch": 0.40689583333333335,
      "grad_norm": 0.7870048880577087,
      "learning_rate": 0.0001943698105986517,
      "loss": 3.8438,
      "step": 195310
    },
    {
      "epoch": 0.40691666666666665,
      "grad_norm": 0.796917200088501,
      "learning_rate": 0.00019436039311597372,
      "loss": 3.9793,
      "step": 195320
    },
    {
      "epoch": 0.4069375,
      "grad_norm": 0.8834099769592285,
      "learning_rate": 0.00019435097544167641,
      "loss": 3.926,
      "step": 195330
    },
    {
      "epoch": 0.4069583333333333,
      "grad_norm": 0.9851760864257812,
      "learning_rate": 0.0001943415575758005,
      "loss": 3.975,
      "step": 195340
    },
    {
      "epoch": 0.40697916666666667,
      "grad_norm": 0.8657785654067993,
      "learning_rate": 0.00019433213951838656,
      "loss": 3.946,
      "step": 195350
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.9618560075759888,
      "learning_rate": 0.00019432272126947533,
      "loss": 4.0864,
      "step": 195360
    },
    {
      "epoch": 0.40702083333333333,
      "grad_norm": 0.7815588712692261,
      "learning_rate": 0.00019431330282910754,
      "loss": 3.9991,
      "step": 195370
    },
    {
      "epoch": 0.4070416666666667,
      "grad_norm": 0.6929189562797546,
      "learning_rate": 0.00019430388419732376,
      "loss": 3.9119,
      "step": 195380
    },
    {
      "epoch": 0.4070625,
      "grad_norm": 0.7772921323776245,
      "learning_rate": 0.00019429446537416473,
      "loss": 3.9528,
      "step": 195390
    },
    {
      "epoch": 0.40708333333333335,
      "grad_norm": 0.9386743307113647,
      "learning_rate": 0.00019428504635967124,
      "loss": 3.9932,
      "step": 195400
    },
    {
      "epoch": 0.40710416666666666,
      "grad_norm": 0.8918010592460632,
      "learning_rate": 0.0001942756271538838,
      "loss": 3.9734,
      "step": 195410
    },
    {
      "epoch": 0.407125,
      "grad_norm": 0.7702274322509766,
      "learning_rate": 0.00019426620775684313,
      "loss": 4.0803,
      "step": 195420
    },
    {
      "epoch": 0.4071458333333333,
      "grad_norm": 0.7774205803871155,
      "learning_rate": 0.00019425678816859006,
      "loss": 3.8209,
      "step": 195430
    },
    {
      "epoch": 0.4071666666666667,
      "grad_norm": 0.8411247134208679,
      "learning_rate": 0.00019424736838916516,
      "loss": 4.0545,
      "step": 195440
    },
    {
      "epoch": 0.4071875,
      "grad_norm": 0.9468759298324585,
      "learning_rate": 0.0001942379484186091,
      "loss": 3.8584,
      "step": 195450
    },
    {
      "epoch": 0.40720833333333334,
      "grad_norm": 0.9373353123664856,
      "learning_rate": 0.00019422852825696268,
      "loss": 3.9127,
      "step": 195460
    },
    {
      "epoch": 0.40722916666666664,
      "grad_norm": 0.7926095128059387,
      "learning_rate": 0.00019421910790426645,
      "loss": 3.8637,
      "step": 195470
    },
    {
      "epoch": 0.40725,
      "grad_norm": 0.8703141212463379,
      "learning_rate": 0.00019420968736056125,
      "loss": 3.8422,
      "step": 195480
    },
    {
      "epoch": 0.40727083333333336,
      "grad_norm": 1.0583691596984863,
      "learning_rate": 0.00019420026662588766,
      "loss": 4.0121,
      "step": 195490
    },
    {
      "epoch": 0.40729166666666666,
      "grad_norm": 0.8121160268783569,
      "learning_rate": 0.00019419084570028637,
      "loss": 3.8999,
      "step": 195500
    },
    {
      "epoch": 0.4073125,
      "grad_norm": 0.8085344433784485,
      "learning_rate": 0.00019418142458379816,
      "loss": 3.9527,
      "step": 195510
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 0.7589377760887146,
      "learning_rate": 0.00019417200327646373,
      "loss": 3.9488,
      "step": 195520
    },
    {
      "epoch": 0.4073541666666667,
      "grad_norm": 0.816447913646698,
      "learning_rate": 0.00019416258177832368,
      "loss": 3.9669,
      "step": 195530
    },
    {
      "epoch": 0.407375,
      "grad_norm": 0.8479295969009399,
      "learning_rate": 0.0001941531600894188,
      "loss": 4.002,
      "step": 195540
    },
    {
      "epoch": 0.40739583333333335,
      "grad_norm": 0.8246734738349915,
      "learning_rate": 0.00019414373820978966,
      "loss": 3.9728,
      "step": 195550
    },
    {
      "epoch": 0.40741666666666665,
      "grad_norm": 0.787091076374054,
      "learning_rate": 0.0001941343161394771,
      "loss": 3.9719,
      "step": 195560
    },
    {
      "epoch": 0.4074375,
      "grad_norm": 0.913428544998169,
      "learning_rate": 0.00019412489387852182,
      "loss": 3.9277,
      "step": 195570
    },
    {
      "epoch": 0.4074583333333333,
      "grad_norm": 0.8222102522850037,
      "learning_rate": 0.00019411547142696435,
      "loss": 3.9521,
      "step": 195580
    },
    {
      "epoch": 0.40747916666666667,
      "grad_norm": 0.7880796790122986,
      "learning_rate": 0.00019410604878484556,
      "loss": 4.0969,
      "step": 195590
    },
    {
      "epoch": 0.4075,
      "grad_norm": 0.8574671149253845,
      "learning_rate": 0.00019409662595220613,
      "loss": 3.9517,
      "step": 195600
    },
    {
      "epoch": 0.40752083333333333,
      "grad_norm": 0.8806409239768982,
      "learning_rate": 0.00019408720292908672,
      "loss": 3.772,
      "step": 195610
    },
    {
      "epoch": 0.4075416666666667,
      "grad_norm": 0.833792507648468,
      "learning_rate": 0.000194077779715528,
      "loss": 4.0444,
      "step": 195620
    },
    {
      "epoch": 0.4075625,
      "grad_norm": 0.790846049785614,
      "learning_rate": 0.00019406835631157076,
      "loss": 3.8927,
      "step": 195630
    },
    {
      "epoch": 0.40758333333333335,
      "grad_norm": 0.867607831954956,
      "learning_rate": 0.0001940589327172556,
      "loss": 3.893,
      "step": 195640
    },
    {
      "epoch": 0.40760416666666666,
      "grad_norm": 1.3509037494659424,
      "learning_rate": 0.00019404950893262338,
      "loss": 3.9576,
      "step": 195650
    },
    {
      "epoch": 0.407625,
      "grad_norm": 0.7941242456436157,
      "learning_rate": 0.00019404008495771467,
      "loss": 3.9081,
      "step": 195660
    },
    {
      "epoch": 0.4076458333333333,
      "grad_norm": 0.9347992539405823,
      "learning_rate": 0.00019403066079257022,
      "loss": 3.8863,
      "step": 195670
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 0.765917956829071,
      "learning_rate": 0.00019402123643723072,
      "loss": 3.8581,
      "step": 195680
    },
    {
      "epoch": 0.4076875,
      "grad_norm": 0.765886127948761,
      "learning_rate": 0.00019401181189173698,
      "loss": 4.066,
      "step": 195690
    },
    {
      "epoch": 0.40770833333333334,
      "grad_norm": 0.7112885117530823,
      "learning_rate": 0.00019400238715612956,
      "loss": 4.0149,
      "step": 195700
    },
    {
      "epoch": 0.40772916666666664,
      "grad_norm": 0.7716166973114014,
      "learning_rate": 0.00019399296223044927,
      "loss": 3.8063,
      "step": 195710
    },
    {
      "epoch": 0.40775,
      "grad_norm": 0.9229034185409546,
      "learning_rate": 0.0001939835371147368,
      "loss": 4.0665,
      "step": 195720
    },
    {
      "epoch": 0.40777083333333336,
      "grad_norm": 0.8762247562408447,
      "learning_rate": 0.00019397411180903287,
      "loss": 3.8849,
      "step": 195730
    },
    {
      "epoch": 0.40779166666666666,
      "grad_norm": 0.8317976593971252,
      "learning_rate": 0.00019396468631337823,
      "loss": 4.0592,
      "step": 195740
    },
    {
      "epoch": 0.4078125,
      "grad_norm": 0.9182308316230774,
      "learning_rate": 0.00019395526062781343,
      "loss": 3.9575,
      "step": 195750
    },
    {
      "epoch": 0.4078333333333333,
      "grad_norm": 0.7682631015777588,
      "learning_rate": 0.0001939458347523794,
      "loss": 4.1248,
      "step": 195760
    },
    {
      "epoch": 0.4078541666666667,
      "grad_norm": 0.7738717198371887,
      "learning_rate": 0.00019393640868711672,
      "loss": 4.0269,
      "step": 195770
    },
    {
      "epoch": 0.407875,
      "grad_norm": 0.8116806149482727,
      "learning_rate": 0.00019392698243206612,
      "loss": 3.9462,
      "step": 195780
    },
    {
      "epoch": 0.40789583333333335,
      "grad_norm": 0.8041186332702637,
      "learning_rate": 0.00019391755598726843,
      "loss": 4.0123,
      "step": 195790
    },
    {
      "epoch": 0.40791666666666665,
      "grad_norm": 0.8671901226043701,
      "learning_rate": 0.0001939081293527642,
      "loss": 3.8247,
      "step": 195800
    },
    {
      "epoch": 0.4079375,
      "grad_norm": 0.7987220287322998,
      "learning_rate": 0.00019389870252859426,
      "loss": 3.8591,
      "step": 195810
    },
    {
      "epoch": 0.4079583333333333,
      "grad_norm": 0.8031610250473022,
      "learning_rate": 0.0001938892755147993,
      "loss": 3.8744,
      "step": 195820
    },
    {
      "epoch": 0.40797916666666667,
      "grad_norm": 0.8035831451416016,
      "learning_rate": 0.00019387984831142004,
      "loss": 3.8524,
      "step": 195830
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.8427791595458984,
      "learning_rate": 0.0001938704209184972,
      "loss": 3.9016,
      "step": 195840
    },
    {
      "epoch": 0.40802083333333333,
      "grad_norm": 0.7719494700431824,
      "learning_rate": 0.0001938609933360715,
      "loss": 4.0669,
      "step": 195850
    },
    {
      "epoch": 0.4080416666666667,
      "grad_norm": 0.8507357239723206,
      "learning_rate": 0.00019385156556418369,
      "loss": 3.6688,
      "step": 195860
    },
    {
      "epoch": 0.4080625,
      "grad_norm": 0.8416293263435364,
      "learning_rate": 0.00019384213760287447,
      "loss": 3.9784,
      "step": 195870
    },
    {
      "epoch": 0.40808333333333335,
      "grad_norm": 0.8227179646492004,
      "learning_rate": 0.00019383270945218456,
      "loss": 3.8436,
      "step": 195880
    },
    {
      "epoch": 0.40810416666666666,
      "grad_norm": 0.75225830078125,
      "learning_rate": 0.0001938232811121547,
      "loss": 3.8122,
      "step": 195890
    },
    {
      "epoch": 0.408125,
      "grad_norm": 0.8023702502250671,
      "learning_rate": 0.00019381385258282564,
      "loss": 4.1032,
      "step": 195900
    },
    {
      "epoch": 0.4081458333333333,
      "grad_norm": 0.7953793406486511,
      "learning_rate": 0.00019380442386423806,
      "loss": 4.1647,
      "step": 195910
    },
    {
      "epoch": 0.4081666666666667,
      "grad_norm": 0.9096897840499878,
      "learning_rate": 0.00019379499495643265,
      "loss": 3.9904,
      "step": 195920
    },
    {
      "epoch": 0.4081875,
      "grad_norm": 0.8232142329216003,
      "learning_rate": 0.00019378556585945028,
      "loss": 4.0574,
      "step": 195930
    },
    {
      "epoch": 0.40820833333333334,
      "grad_norm": 0.9333726763725281,
      "learning_rate": 0.00019377613657333158,
      "loss": 4.0112,
      "step": 195940
    },
    {
      "epoch": 0.40822916666666664,
      "grad_norm": 0.9687715172767639,
      "learning_rate": 0.00019376670709811723,
      "loss": 4.0034,
      "step": 195950
    },
    {
      "epoch": 0.40825,
      "grad_norm": 0.8359967470169067,
      "learning_rate": 0.0001937572774338481,
      "loss": 4.0575,
      "step": 195960
    },
    {
      "epoch": 0.40827083333333336,
      "grad_norm": 0.8417865633964539,
      "learning_rate": 0.00019374784758056484,
      "loss": 4.0599,
      "step": 195970
    },
    {
      "epoch": 0.40829166666666666,
      "grad_norm": 0.7274612188339233,
      "learning_rate": 0.0001937384175383082,
      "loss": 3.7792,
      "step": 195980
    },
    {
      "epoch": 0.4083125,
      "grad_norm": 0.7962144613265991,
      "learning_rate": 0.00019372898730711887,
      "loss": 3.8272,
      "step": 195990
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 0.8456487655639648,
      "learning_rate": 0.00019371955688703767,
      "loss": 4.1876,
      "step": 196000
    },
    {
      "epoch": 0.4083333333333333,
      "eval_loss": 3.661292314529419,
      "eval_runtime": 7.2464,
      "eval_samples_per_second": 1.38,
      "eval_steps_per_second": 0.414,
      "step": 196000
    },
    {
      "epoch": 0.4083541666666667,
      "grad_norm": 0.811817467212677,
      "learning_rate": 0.00019371012627810528,
      "loss": 4.0523,
      "step": 196010
    },
    {
      "epoch": 0.408375,
      "grad_norm": 0.8218362927436829,
      "learning_rate": 0.0001937006954803624,
      "loss": 3.8256,
      "step": 196020
    },
    {
      "epoch": 0.40839583333333335,
      "grad_norm": 1.1113574504852295,
      "learning_rate": 0.00019369126449384985,
      "loss": 3.8731,
      "step": 196030
    },
    {
      "epoch": 0.40841666666666665,
      "grad_norm": 1.0404998064041138,
      "learning_rate": 0.00019368183331860836,
      "loss": 3.89,
      "step": 196040
    },
    {
      "epoch": 0.4084375,
      "grad_norm": 0.8234138488769531,
      "learning_rate": 0.0001936724019546786,
      "loss": 4.0244,
      "step": 196050
    },
    {
      "epoch": 0.4084583333333333,
      "grad_norm": 0.8494483232498169,
      "learning_rate": 0.00019366297040210136,
      "loss": 3.9863,
      "step": 196060
    },
    {
      "epoch": 0.40847916666666667,
      "grad_norm": 1.0332897901535034,
      "learning_rate": 0.0001936535386609174,
      "loss": 3.749,
      "step": 196070
    },
    {
      "epoch": 0.4085,
      "grad_norm": 0.882350742816925,
      "learning_rate": 0.00019364410673116737,
      "loss": 3.9786,
      "step": 196080
    },
    {
      "epoch": 0.40852083333333333,
      "grad_norm": 0.8793845176696777,
      "learning_rate": 0.00019363467461289212,
      "loss": 3.9854,
      "step": 196090
    },
    {
      "epoch": 0.4085416666666667,
      "grad_norm": 0.8462061882019043,
      "learning_rate": 0.00019362524230613236,
      "loss": 4.1003,
      "step": 196100
    },
    {
      "epoch": 0.4085625,
      "grad_norm": 0.8073198795318604,
      "learning_rate": 0.0001936158098109288,
      "loss": 3.8145,
      "step": 196110
    },
    {
      "epoch": 0.40858333333333335,
      "grad_norm": 0.8785343170166016,
      "learning_rate": 0.00019360637712732218,
      "loss": 4.0672,
      "step": 196120
    },
    {
      "epoch": 0.40860416666666666,
      "grad_norm": 0.8262306451797485,
      "learning_rate": 0.00019359694425535333,
      "loss": 4.0536,
      "step": 196130
    },
    {
      "epoch": 0.408625,
      "grad_norm": 0.8451662063598633,
      "learning_rate": 0.0001935875111950629,
      "loss": 3.8758,
      "step": 196140
    },
    {
      "epoch": 0.4086458333333333,
      "grad_norm": 0.8918321132659912,
      "learning_rate": 0.00019357807794649162,
      "loss": 3.8874,
      "step": 196150
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 0.8893583416938782,
      "learning_rate": 0.00019356864450968038,
      "loss": 4.1608,
      "step": 196160
    },
    {
      "epoch": 0.4086875,
      "grad_norm": 0.7816909551620483,
      "learning_rate": 0.00019355921088466983,
      "loss": 4.0872,
      "step": 196170
    },
    {
      "epoch": 0.40870833333333334,
      "grad_norm": 0.9633708000183105,
      "learning_rate": 0.00019354977707150073,
      "loss": 3.8269,
      "step": 196180
    },
    {
      "epoch": 0.40872916666666664,
      "grad_norm": 0.8611162900924683,
      "learning_rate": 0.00019354034307021383,
      "loss": 3.8033,
      "step": 196190
    },
    {
      "epoch": 0.40875,
      "grad_norm": 0.7922196388244629,
      "learning_rate": 0.00019353090888084984,
      "loss": 3.7319,
      "step": 196200
    },
    {
      "epoch": 0.40877083333333336,
      "grad_norm": 0.9495687484741211,
      "learning_rate": 0.0001935214745034496,
      "loss": 3.8046,
      "step": 196210
    },
    {
      "epoch": 0.40879166666666666,
      "grad_norm": 0.8442795276641846,
      "learning_rate": 0.00019351203993805377,
      "loss": 3.8711,
      "step": 196220
    },
    {
      "epoch": 0.4088125,
      "grad_norm": 0.8143826723098755,
      "learning_rate": 0.00019350260518470318,
      "loss": 3.7898,
      "step": 196230
    },
    {
      "epoch": 0.4088333333333333,
      "grad_norm": 0.8410317301750183,
      "learning_rate": 0.00019349317024343858,
      "loss": 3.8713,
      "step": 196240
    },
    {
      "epoch": 0.4088541666666667,
      "grad_norm": 1.2317817211151123,
      "learning_rate": 0.00019348373511430064,
      "loss": 3.9847,
      "step": 196250
    },
    {
      "epoch": 0.408875,
      "grad_norm": 0.8239881992340088,
      "learning_rate": 0.0001934742997973302,
      "loss": 3.9073,
      "step": 196260
    },
    {
      "epoch": 0.40889583333333335,
      "grad_norm": 0.7771927118301392,
      "learning_rate": 0.00019346486429256806,
      "loss": 4.0809,
      "step": 196270
    },
    {
      "epoch": 0.40891666666666665,
      "grad_norm": 0.9664710164070129,
      "learning_rate": 0.00019345542860005482,
      "loss": 3.9221,
      "step": 196280
    },
    {
      "epoch": 0.4089375,
      "grad_norm": 0.9192319512367249,
      "learning_rate": 0.00019344599271983138,
      "loss": 3.9719,
      "step": 196290
    },
    {
      "epoch": 0.4089583333333333,
      "grad_norm": 0.8604680299758911,
      "learning_rate": 0.00019343655665193845,
      "loss": 3.9534,
      "step": 196300
    },
    {
      "epoch": 0.40897916666666667,
      "grad_norm": 1.0613367557525635,
      "learning_rate": 0.00019342712039641677,
      "loss": 4.1017,
      "step": 196310
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.844327449798584,
      "learning_rate": 0.0001934176839533071,
      "loss": 4.0203,
      "step": 196320
    },
    {
      "epoch": 0.40902083333333333,
      "grad_norm": 0.9328582882881165,
      "learning_rate": 0.0001934082473226503,
      "loss": 3.9677,
      "step": 196330
    },
    {
      "epoch": 0.4090416666666667,
      "grad_norm": 0.8437007665634155,
      "learning_rate": 0.00019339881050448694,
      "loss": 3.956,
      "step": 196340
    },
    {
      "epoch": 0.4090625,
      "grad_norm": 0.7748837471008301,
      "learning_rate": 0.00019338937349885798,
      "loss": 3.9807,
      "step": 196350
    },
    {
      "epoch": 0.40908333333333335,
      "grad_norm": 0.8397225737571716,
      "learning_rate": 0.00019337993630580405,
      "loss": 3.9331,
      "step": 196360
    },
    {
      "epoch": 0.40910416666666666,
      "grad_norm": 0.8219311833381653,
      "learning_rate": 0.000193370498925366,
      "loss": 4.0383,
      "step": 196370
    },
    {
      "epoch": 0.409125,
      "grad_norm": 0.8760101795196533,
      "learning_rate": 0.00019336106135758456,
      "loss": 3.8842,
      "step": 196380
    },
    {
      "epoch": 0.4091458333333333,
      "grad_norm": 0.8241147398948669,
      "learning_rate": 0.00019335162360250047,
      "loss": 4.0449,
      "step": 196390
    },
    {
      "epoch": 0.4091666666666667,
      "grad_norm": 0.7700458765029907,
      "learning_rate": 0.00019334218566015456,
      "loss": 3.8554,
      "step": 196400
    },
    {
      "epoch": 0.4091875,
      "grad_norm": 0.8188643455505371,
      "learning_rate": 0.00019333274753058759,
      "loss": 3.9938,
      "step": 196410
    },
    {
      "epoch": 0.40920833333333334,
      "grad_norm": 0.8138540983200073,
      "learning_rate": 0.00019332330921384023,
      "loss": 3.9494,
      "step": 196420
    },
    {
      "epoch": 0.40922916666666664,
      "grad_norm": 0.914939284324646,
      "learning_rate": 0.00019331387070995335,
      "loss": 3.9702,
      "step": 196430
    },
    {
      "epoch": 0.40925,
      "grad_norm": 0.8972758650779724,
      "learning_rate": 0.00019330443201896774,
      "loss": 3.929,
      "step": 196440
    },
    {
      "epoch": 0.4092708333333333,
      "grad_norm": 0.8873956799507141,
      "learning_rate": 0.00019329499314092404,
      "loss": 3.9583,
      "step": 196450
    },
    {
      "epoch": 0.40929166666666666,
      "grad_norm": 0.7317529916763306,
      "learning_rate": 0.00019328555407586317,
      "loss": 3.893,
      "step": 196460
    },
    {
      "epoch": 0.4093125,
      "grad_norm": 0.8190144896507263,
      "learning_rate": 0.00019327611482382583,
      "loss": 3.9841,
      "step": 196470
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 0.8230093121528625,
      "learning_rate": 0.0001932666753848528,
      "loss": 3.8994,
      "step": 196480
    },
    {
      "epoch": 0.4093541666666667,
      "grad_norm": 0.8964460492134094,
      "learning_rate": 0.00019325723575898485,
      "loss": 3.8804,
      "step": 196490
    },
    {
      "epoch": 0.409375,
      "grad_norm": 0.8671902418136597,
      "learning_rate": 0.00019324779594626277,
      "loss": 3.7828,
      "step": 196500
    },
    {
      "epoch": 0.40939583333333335,
      "grad_norm": 0.8168450593948364,
      "learning_rate": 0.00019323835594672734,
      "loss": 3.9535,
      "step": 196510
    },
    {
      "epoch": 0.40941666666666665,
      "grad_norm": 0.8055922985076904,
      "learning_rate": 0.0001932289157604193,
      "loss": 3.8989,
      "step": 196520
    },
    {
      "epoch": 0.4094375,
      "grad_norm": 0.9772000908851624,
      "learning_rate": 0.00019321947538737948,
      "loss": 3.8692,
      "step": 196530
    },
    {
      "epoch": 0.4094583333333333,
      "grad_norm": 0.7817082405090332,
      "learning_rate": 0.0001932100348276486,
      "loss": 3.9258,
      "step": 196540
    },
    {
      "epoch": 0.40947916666666667,
      "grad_norm": 0.7769038677215576,
      "learning_rate": 0.0001932005940812675,
      "loss": 4.0253,
      "step": 196550
    },
    {
      "epoch": 0.4095,
      "grad_norm": 0.8642607927322388,
      "learning_rate": 0.00019319115314827697,
      "loss": 3.9756,
      "step": 196560
    },
    {
      "epoch": 0.40952083333333333,
      "grad_norm": 0.8333157300949097,
      "learning_rate": 0.00019318171202871768,
      "loss": 3.9154,
      "step": 196570
    },
    {
      "epoch": 0.4095416666666667,
      "grad_norm": 0.776822030544281,
      "learning_rate": 0.0001931722707226305,
      "loss": 3.9531,
      "step": 196580
    },
    {
      "epoch": 0.4095625,
      "grad_norm": 1.2644315958023071,
      "learning_rate": 0.00019316282923005626,
      "loss": 4.0439,
      "step": 196590
    },
    {
      "epoch": 0.40958333333333335,
      "grad_norm": 0.7797113656997681,
      "learning_rate": 0.00019315338755103564,
      "loss": 3.7913,
      "step": 196600
    },
    {
      "epoch": 0.40960416666666666,
      "grad_norm": 1.0089651346206665,
      "learning_rate": 0.00019314394568560947,
      "loss": 3.9087,
      "step": 196610
    },
    {
      "epoch": 0.409625,
      "grad_norm": 0.9364798069000244,
      "learning_rate": 0.0001931345036338185,
      "loss": 4.0057,
      "step": 196620
    },
    {
      "epoch": 0.4096458333333333,
      "grad_norm": 0.8458881974220276,
      "learning_rate": 0.00019312506139570364,
      "loss": 3.8996,
      "step": 196630
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 0.7838174104690552,
      "learning_rate": 0.0001931156189713055,
      "loss": 3.8799,
      "step": 196640
    },
    {
      "epoch": 0.4096875,
      "grad_norm": 0.7793780565261841,
      "learning_rate": 0.00019310617636066494,
      "loss": 3.9761,
      "step": 196650
    },
    {
      "epoch": 0.40970833333333334,
      "grad_norm": 0.917827844619751,
      "learning_rate": 0.00019309673356382285,
      "loss": 3.8079,
      "step": 196660
    },
    {
      "epoch": 0.40972916666666664,
      "grad_norm": 0.9509583115577698,
      "learning_rate": 0.0001930872905808199,
      "loss": 4.1265,
      "step": 196670
    },
    {
      "epoch": 0.40975,
      "grad_norm": 0.7371139526367188,
      "learning_rate": 0.00019307784741169685,
      "loss": 4.0205,
      "step": 196680
    },
    {
      "epoch": 0.4097708333333333,
      "grad_norm": 1.0218641757965088,
      "learning_rate": 0.00019306840405649463,
      "loss": 4.132,
      "step": 196690
    },
    {
      "epoch": 0.40979166666666667,
      "grad_norm": 0.8857977390289307,
      "learning_rate": 0.0001930589605152539,
      "loss": 3.9608,
      "step": 196700
    },
    {
      "epoch": 0.4098125,
      "grad_norm": 0.8639402985572815,
      "learning_rate": 0.0001930495167880155,
      "loss": 3.9279,
      "step": 196710
    },
    {
      "epoch": 0.4098333333333333,
      "grad_norm": 0.8443908095359802,
      "learning_rate": 0.00019304007287482025,
      "loss": 3.8895,
      "step": 196720
    },
    {
      "epoch": 0.4098541666666667,
      "grad_norm": 0.7368846535682678,
      "learning_rate": 0.0001930306287757089,
      "loss": 3.9815,
      "step": 196730
    },
    {
      "epoch": 0.409875,
      "grad_norm": 0.7935574650764465,
      "learning_rate": 0.00019302118449072227,
      "loss": 3.9755,
      "step": 196740
    },
    {
      "epoch": 0.40989583333333335,
      "grad_norm": 0.8154013752937317,
      "learning_rate": 0.00019301174001990122,
      "loss": 3.9315,
      "step": 196750
    },
    {
      "epoch": 0.40991666666666665,
      "grad_norm": 0.8373135924339294,
      "learning_rate": 0.00019300229536328638,
      "loss": 3.8933,
      "step": 196760
    },
    {
      "epoch": 0.4099375,
      "grad_norm": 0.9887328147888184,
      "learning_rate": 0.00019299285052091868,
      "loss": 3.9883,
      "step": 196770
    },
    {
      "epoch": 0.4099583333333333,
      "grad_norm": 0.7834038138389587,
      "learning_rate": 0.0001929834054928389,
      "loss": 3.9277,
      "step": 196780
    },
    {
      "epoch": 0.4099791666666667,
      "grad_norm": 0.7700896263122559,
      "learning_rate": 0.0001929739602790878,
      "loss": 4.0337,
      "step": 196790
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8414839506149292,
      "learning_rate": 0.00019296451487970628,
      "loss": 4.1253,
      "step": 196800
    },
    {
      "epoch": 0.41002083333333333,
      "grad_norm": 0.8100232481956482,
      "learning_rate": 0.00019295506929473496,
      "loss": 4.0902,
      "step": 196810
    },
    {
      "epoch": 0.4100416666666667,
      "grad_norm": 0.8127110004425049,
      "learning_rate": 0.00019294562352421477,
      "loss": 4.1222,
      "step": 196820
    },
    {
      "epoch": 0.4100625,
      "grad_norm": 1.0975030660629272,
      "learning_rate": 0.00019293617756818652,
      "loss": 3.8875,
      "step": 196830
    },
    {
      "epoch": 0.41008333333333336,
      "grad_norm": 0.8332809209823608,
      "learning_rate": 0.00019292673142669097,
      "loss": 3.9791,
      "step": 196840
    },
    {
      "epoch": 0.41010416666666666,
      "grad_norm": 0.842927098274231,
      "learning_rate": 0.0001929172850997689,
      "loss": 3.8596,
      "step": 196850
    },
    {
      "epoch": 0.410125,
      "grad_norm": 0.9594541192054749,
      "learning_rate": 0.00019290783858746116,
      "loss": 3.8101,
      "step": 196860
    },
    {
      "epoch": 0.4101458333333333,
      "grad_norm": 0.8786411881446838,
      "learning_rate": 0.00019289839188980855,
      "loss": 3.864,
      "step": 196870
    },
    {
      "epoch": 0.4101666666666667,
      "grad_norm": 0.9622544050216675,
      "learning_rate": 0.00019288894500685188,
      "loss": 4.0488,
      "step": 196880
    },
    {
      "epoch": 0.4101875,
      "grad_norm": 0.8727253079414368,
      "learning_rate": 0.00019287949793863192,
      "loss": 3.9977,
      "step": 196890
    },
    {
      "epoch": 0.41020833333333334,
      "grad_norm": 1.0700775384902954,
      "learning_rate": 0.0001928700506851895,
      "loss": 3.7854,
      "step": 196900
    },
    {
      "epoch": 0.41022916666666664,
      "grad_norm": 1.6392098665237427,
      "learning_rate": 0.00019286060324656543,
      "loss": 4.0124,
      "step": 196910
    },
    {
      "epoch": 0.41025,
      "grad_norm": 0.8259035348892212,
      "learning_rate": 0.00019285115562280052,
      "loss": 3.9789,
      "step": 196920
    },
    {
      "epoch": 0.4102708333333333,
      "grad_norm": 0.9296919107437134,
      "learning_rate": 0.0001928417078139356,
      "loss": 4.0972,
      "step": 196930
    },
    {
      "epoch": 0.41029166666666667,
      "grad_norm": 0.9733103513717651,
      "learning_rate": 0.0001928322598200115,
      "loss": 4.0317,
      "step": 196940
    },
    {
      "epoch": 0.4103125,
      "grad_norm": 0.8590737581253052,
      "learning_rate": 0.0001928228116410689,
      "loss": 3.8061,
      "step": 196950
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 0.8070682883262634,
      "learning_rate": 0.00019281336327714872,
      "loss": 4.0711,
      "step": 196960
    },
    {
      "epoch": 0.4103541666666667,
      "grad_norm": 0.8242955207824707,
      "learning_rate": 0.0001928039147282918,
      "loss": 3.8096,
      "step": 196970
    },
    {
      "epoch": 0.410375,
      "grad_norm": 0.8514155745506287,
      "learning_rate": 0.00019279446599453892,
      "loss": 3.9812,
      "step": 196980
    },
    {
      "epoch": 0.41039583333333335,
      "grad_norm": 1.011663794517517,
      "learning_rate": 0.00019278501707593082,
      "loss": 3.9718,
      "step": 196990
    },
    {
      "epoch": 0.41041666666666665,
      "grad_norm": 0.8976200819015503,
      "learning_rate": 0.00019277556797250842,
      "loss": 3.8799,
      "step": 197000
    },
    {
      "epoch": 0.41041666666666665,
      "eval_loss": 3.6589393615722656,
      "eval_runtime": 7.2954,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 197000
    },
    {
      "epoch": 0.4104375,
      "grad_norm": 0.8735655546188354,
      "learning_rate": 0.00019276611868431252,
      "loss": 3.9616,
      "step": 197010
    },
    {
      "epoch": 0.4104583333333333,
      "grad_norm": 0.8037649393081665,
      "learning_rate": 0.00019275666921138385,
      "loss": 4.1,
      "step": 197020
    },
    {
      "epoch": 0.4104791666666667,
      "grad_norm": 0.9061188101768494,
      "learning_rate": 0.00019274721955376336,
      "loss": 3.9907,
      "step": 197030
    },
    {
      "epoch": 0.4105,
      "grad_norm": 0.8825053572654724,
      "learning_rate": 0.0001927377697114918,
      "loss": 3.7476,
      "step": 197040
    },
    {
      "epoch": 0.41052083333333333,
      "grad_norm": 0.8136116862297058,
      "learning_rate": 0.00019272831968460995,
      "loss": 4.0715,
      "step": 197050
    },
    {
      "epoch": 0.4105416666666667,
      "grad_norm": 0.8594006896018982,
      "learning_rate": 0.0001927188694731587,
      "loss": 3.7693,
      "step": 197060
    },
    {
      "epoch": 0.4105625,
      "grad_norm": 1.164562702178955,
      "learning_rate": 0.00019270941907717883,
      "loss": 4.11,
      "step": 197070
    },
    {
      "epoch": 0.41058333333333336,
      "grad_norm": 0.7941683530807495,
      "learning_rate": 0.00019269996849671117,
      "loss": 4.2176,
      "step": 197080
    },
    {
      "epoch": 0.41060416666666666,
      "grad_norm": 0.7669846415519714,
      "learning_rate": 0.0001926905177317966,
      "loss": 3.788,
      "step": 197090
    },
    {
      "epoch": 0.410625,
      "grad_norm": 0.7884765267372131,
      "learning_rate": 0.0001926810667824758,
      "loss": 4.1867,
      "step": 197100
    },
    {
      "epoch": 0.4106458333333333,
      "grad_norm": 0.7790921926498413,
      "learning_rate": 0.00019267161564878976,
      "loss": 3.9133,
      "step": 197110
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 0.8707401752471924,
      "learning_rate": 0.0001926621643307792,
      "loss": 4.0527,
      "step": 197120
    },
    {
      "epoch": 0.4106875,
      "grad_norm": 0.7955415844917297,
      "learning_rate": 0.00019265271282848496,
      "loss": 3.8847,
      "step": 197130
    },
    {
      "epoch": 0.41070833333333334,
      "grad_norm": 0.9159451723098755,
      "learning_rate": 0.00019264326114194796,
      "loss": 3.9392,
      "step": 197140
    },
    {
      "epoch": 0.41072916666666665,
      "grad_norm": 0.8341398239135742,
      "learning_rate": 0.00019263380927120885,
      "loss": 3.786,
      "step": 197150
    },
    {
      "epoch": 0.41075,
      "grad_norm": 0.8651400804519653,
      "learning_rate": 0.0001926243572163086,
      "loss": 4.0423,
      "step": 197160
    },
    {
      "epoch": 0.4107708333333333,
      "grad_norm": 0.8460220694541931,
      "learning_rate": 0.00019261490497728806,
      "loss": 3.9636,
      "step": 197170
    },
    {
      "epoch": 0.41079166666666667,
      "grad_norm": 0.8960328102111816,
      "learning_rate": 0.00019260545255418793,
      "loss": 3.9076,
      "step": 197180
    },
    {
      "epoch": 0.4108125,
      "grad_norm": 0.832112193107605,
      "learning_rate": 0.0001925959999470491,
      "loss": 4.1591,
      "step": 197190
    },
    {
      "epoch": 0.41083333333333333,
      "grad_norm": 0.9393174648284912,
      "learning_rate": 0.00019258654715591247,
      "loss": 4.0631,
      "step": 197200
    },
    {
      "epoch": 0.4108541666666667,
      "grad_norm": 0.8443828821182251,
      "learning_rate": 0.00019257709418081878,
      "loss": 3.971,
      "step": 197210
    },
    {
      "epoch": 0.410875,
      "grad_norm": 0.7905459403991699,
      "learning_rate": 0.00019256764102180892,
      "loss": 4.0921,
      "step": 197220
    },
    {
      "epoch": 0.41089583333333335,
      "grad_norm": 0.9002822637557983,
      "learning_rate": 0.00019255818767892365,
      "loss": 3.9371,
      "step": 197230
    },
    {
      "epoch": 0.41091666666666665,
      "grad_norm": 0.897411048412323,
      "learning_rate": 0.0001925487341522039,
      "loss": 3.8279,
      "step": 197240
    },
    {
      "epoch": 0.4109375,
      "grad_norm": 0.7766639590263367,
      "learning_rate": 0.0001925392804416904,
      "loss": 3.888,
      "step": 197250
    },
    {
      "epoch": 0.4109583333333333,
      "grad_norm": 0.834237277507782,
      "learning_rate": 0.0001925298265474241,
      "loss": 3.8167,
      "step": 197260
    },
    {
      "epoch": 0.4109791666666667,
      "grad_norm": 1.1268936395645142,
      "learning_rate": 0.00019252037246944578,
      "loss": 3.9608,
      "step": 197270
    },
    {
      "epoch": 0.411,
      "grad_norm": 1.0691548585891724,
      "learning_rate": 0.00019251091820779627,
      "loss": 4.0026,
      "step": 197280
    },
    {
      "epoch": 0.41102083333333334,
      "grad_norm": 0.9997497797012329,
      "learning_rate": 0.0001925014637625164,
      "loss": 3.9134,
      "step": 197290
    },
    {
      "epoch": 0.4110416666666667,
      "grad_norm": 1.1101261377334595,
      "learning_rate": 0.00019249200913364704,
      "loss": 3.8093,
      "step": 197300
    },
    {
      "epoch": 0.4110625,
      "grad_norm": 0.9913759231567383,
      "learning_rate": 0.0001924825543212291,
      "loss": 4.1403,
      "step": 197310
    },
    {
      "epoch": 0.41108333333333336,
      "grad_norm": 0.8472638726234436,
      "learning_rate": 0.00019247309932530324,
      "loss": 4.1983,
      "step": 197320
    },
    {
      "epoch": 0.41110416666666666,
      "grad_norm": 1.1557254791259766,
      "learning_rate": 0.0001924636441459104,
      "loss": 3.8464,
      "step": 197330
    },
    {
      "epoch": 0.411125,
      "grad_norm": 0.8014543056488037,
      "learning_rate": 0.00019245418878309153,
      "loss": 3.8772,
      "step": 197340
    },
    {
      "epoch": 0.4111458333333333,
      "grad_norm": 0.9693608283996582,
      "learning_rate": 0.00019244473323688728,
      "loss": 3.9743,
      "step": 197350
    },
    {
      "epoch": 0.4111666666666667,
      "grad_norm": 0.7650168538093567,
      "learning_rate": 0.00019243527750733858,
      "loss": 3.9161,
      "step": 197360
    },
    {
      "epoch": 0.4111875,
      "grad_norm": 1.0490018129348755,
      "learning_rate": 0.00019242582159448632,
      "loss": 3.9158,
      "step": 197370
    },
    {
      "epoch": 0.41120833333333334,
      "grad_norm": 0.7991997003555298,
      "learning_rate": 0.00019241636549837128,
      "loss": 3.923,
      "step": 197380
    },
    {
      "epoch": 0.41122916666666665,
      "grad_norm": 0.9082112908363342,
      "learning_rate": 0.00019240690921903435,
      "loss": 4.0776,
      "step": 197390
    },
    {
      "epoch": 0.41125,
      "grad_norm": 0.7966587543487549,
      "learning_rate": 0.00019239745275651633,
      "loss": 3.8155,
      "step": 197400
    },
    {
      "epoch": 0.4112708333333333,
      "grad_norm": 0.7818239331245422,
      "learning_rate": 0.00019238799611085813,
      "loss": 3.8373,
      "step": 197410
    },
    {
      "epoch": 0.41129166666666667,
      "grad_norm": 0.8086351752281189,
      "learning_rate": 0.00019237853928210055,
      "loss": 3.985,
      "step": 197420
    },
    {
      "epoch": 0.4113125,
      "grad_norm": 0.8073270916938782,
      "learning_rate": 0.00019236908227028443,
      "loss": 4.1245,
      "step": 197430
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 0.9397731423377991,
      "learning_rate": 0.00019235962507545068,
      "loss": 3.9411,
      "step": 197440
    },
    {
      "epoch": 0.4113541666666667,
      "grad_norm": 0.9028817415237427,
      "learning_rate": 0.0001923501676976401,
      "loss": 3.9831,
      "step": 197450
    },
    {
      "epoch": 0.411375,
      "grad_norm": 0.8219002485275269,
      "learning_rate": 0.00019234071013689356,
      "loss": 3.9423,
      "step": 197460
    },
    {
      "epoch": 0.41139583333333335,
      "grad_norm": 0.7917417883872986,
      "learning_rate": 0.00019233125239325193,
      "loss": 4.0495,
      "step": 197470
    },
    {
      "epoch": 0.41141666666666665,
      "grad_norm": 0.8219624757766724,
      "learning_rate": 0.00019232179446675604,
      "loss": 3.802,
      "step": 197480
    },
    {
      "epoch": 0.4114375,
      "grad_norm": 0.8628140687942505,
      "learning_rate": 0.0001923123363574467,
      "loss": 3.912,
      "step": 197490
    },
    {
      "epoch": 0.4114583333333333,
      "grad_norm": 0.8011211156845093,
      "learning_rate": 0.00019230287806536487,
      "loss": 3.9811,
      "step": 197500
    },
    {
      "epoch": 0.4114791666666667,
      "grad_norm": 0.7298376560211182,
      "learning_rate": 0.0001922934195905514,
      "loss": 3.823,
      "step": 197510
    },
    {
      "epoch": 0.4115,
      "grad_norm": 0.7922889590263367,
      "learning_rate": 0.000192283960933047,
      "loss": 3.9241,
      "step": 197520
    },
    {
      "epoch": 0.41152083333333334,
      "grad_norm": 0.8628325462341309,
      "learning_rate": 0.0001922745020928927,
      "loss": 3.8784,
      "step": 197530
    },
    {
      "epoch": 0.41154166666666664,
      "grad_norm": 1.0024720430374146,
      "learning_rate": 0.00019226504307012923,
      "loss": 3.9358,
      "step": 197540
    },
    {
      "epoch": 0.4115625,
      "grad_norm": 1.0019339323043823,
      "learning_rate": 0.0001922555838647975,
      "loss": 3.8645,
      "step": 197550
    },
    {
      "epoch": 0.41158333333333336,
      "grad_norm": 0.7514876127243042,
      "learning_rate": 0.0001922461244769384,
      "loss": 3.8454,
      "step": 197560
    },
    {
      "epoch": 0.41160416666666666,
      "grad_norm": 0.8011103868484497,
      "learning_rate": 0.00019223666490659276,
      "loss": 4.0177,
      "step": 197570
    },
    {
      "epoch": 0.411625,
      "grad_norm": 0.8376477956771851,
      "learning_rate": 0.00019222720515380142,
      "loss": 3.7665,
      "step": 197580
    },
    {
      "epoch": 0.4116458333333333,
      "grad_norm": 0.8802842497825623,
      "learning_rate": 0.0001922177452186053,
      "loss": 3.9595,
      "step": 197590
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 0.8854244947433472,
      "learning_rate": 0.00019220828510104523,
      "loss": 4.1708,
      "step": 197600
    },
    {
      "epoch": 0.4116875,
      "grad_norm": 0.9910719990730286,
      "learning_rate": 0.00019219882480116205,
      "loss": 4.0564,
      "step": 197610
    },
    {
      "epoch": 0.41170833333333334,
      "grad_norm": 0.9665071368217468,
      "learning_rate": 0.00019218936431899665,
      "loss": 3.9407,
      "step": 197620
    },
    {
      "epoch": 0.41172916666666665,
      "grad_norm": 1.1477744579315186,
      "learning_rate": 0.00019217990365458996,
      "loss": 4.0429,
      "step": 197630
    },
    {
      "epoch": 0.41175,
      "grad_norm": 0.7957108020782471,
      "learning_rate": 0.00019217044280798272,
      "loss": 3.9195,
      "step": 197640
    },
    {
      "epoch": 0.4117708333333333,
      "grad_norm": 0.8197682499885559,
      "learning_rate": 0.00019216098177921587,
      "loss": 4.0757,
      "step": 197650
    },
    {
      "epoch": 0.41179166666666667,
      "grad_norm": 0.7405412793159485,
      "learning_rate": 0.00019215152056833025,
      "loss": 4.1621,
      "step": 197660
    },
    {
      "epoch": 0.4118125,
      "grad_norm": 0.7971634268760681,
      "learning_rate": 0.00019214205917536683,
      "loss": 3.8731,
      "step": 197670
    },
    {
      "epoch": 0.41183333333333333,
      "grad_norm": 0.7699558138847351,
      "learning_rate": 0.00019213259760036632,
      "loss": 3.9665,
      "step": 197680
    },
    {
      "epoch": 0.4118541666666667,
      "grad_norm": 0.9334081411361694,
      "learning_rate": 0.00019212313584336964,
      "loss": 3.9869,
      "step": 197690
    },
    {
      "epoch": 0.411875,
      "grad_norm": 0.835437536239624,
      "learning_rate": 0.00019211367390441775,
      "loss": 3.8678,
      "step": 197700
    },
    {
      "epoch": 0.41189583333333335,
      "grad_norm": 0.8040030598640442,
      "learning_rate": 0.00019210421178355146,
      "loss": 3.8235,
      "step": 197710
    },
    {
      "epoch": 0.41191666666666665,
      "grad_norm": 0.943630039691925,
      "learning_rate": 0.00019209474948081158,
      "loss": 3.9343,
      "step": 197720
    },
    {
      "epoch": 0.4119375,
      "grad_norm": 1.0366681814193726,
      "learning_rate": 0.00019208528699623913,
      "loss": 3.9118,
      "step": 197730
    },
    {
      "epoch": 0.4119583333333333,
      "grad_norm": 0.8166480660438538,
      "learning_rate": 0.00019207582432987483,
      "loss": 3.8442,
      "step": 197740
    },
    {
      "epoch": 0.4119791666666667,
      "grad_norm": 0.7763833999633789,
      "learning_rate": 0.00019206636148175963,
      "loss": 3.8797,
      "step": 197750
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.8047868013381958,
      "learning_rate": 0.00019205689845193442,
      "loss": 4.0447,
      "step": 197760
    },
    {
      "epoch": 0.41202083333333334,
      "grad_norm": 0.829979658126831,
      "learning_rate": 0.00019204743524044006,
      "loss": 4.1357,
      "step": 197770
    },
    {
      "epoch": 0.41204166666666664,
      "grad_norm": 0.7605280876159668,
      "learning_rate": 0.00019203797184731743,
      "loss": 3.9497,
      "step": 197780
    },
    {
      "epoch": 0.4120625,
      "grad_norm": 0.8595722317695618,
      "learning_rate": 0.00019202850827260734,
      "loss": 4.1659,
      "step": 197790
    },
    {
      "epoch": 0.41208333333333336,
      "grad_norm": 0.9290639758110046,
      "learning_rate": 0.0001920190445163508,
      "loss": 3.9225,
      "step": 197800
    },
    {
      "epoch": 0.41210416666666666,
      "grad_norm": 0.889737606048584,
      "learning_rate": 0.0001920095805785886,
      "loss": 3.9829,
      "step": 197810
    },
    {
      "epoch": 0.412125,
      "grad_norm": 0.8875331282615662,
      "learning_rate": 0.0001920001164593616,
      "loss": 4.01,
      "step": 197820
    },
    {
      "epoch": 0.4121458333333333,
      "grad_norm": 0.8254603147506714,
      "learning_rate": 0.00019199065215871075,
      "loss": 4.0189,
      "step": 197830
    },
    {
      "epoch": 0.4121666666666667,
      "grad_norm": 0.7963840961456299,
      "learning_rate": 0.00019198118767667696,
      "loss": 3.8629,
      "step": 197840
    },
    {
      "epoch": 0.4121875,
      "grad_norm": 0.8173839449882507,
      "learning_rate": 0.00019197172301330099,
      "loss": 3.866,
      "step": 197850
    },
    {
      "epoch": 0.41220833333333334,
      "grad_norm": 0.7627364993095398,
      "learning_rate": 0.00019196225816862377,
      "loss": 4.038,
      "step": 197860
    },
    {
      "epoch": 0.41222916666666665,
      "grad_norm": 0.9870050549507141,
      "learning_rate": 0.0001919527931426863,
      "loss": 4.027,
      "step": 197870
    },
    {
      "epoch": 0.41225,
      "grad_norm": 0.783053994178772,
      "learning_rate": 0.00019194332793552932,
      "loss": 3.9073,
      "step": 197880
    },
    {
      "epoch": 0.4122708333333333,
      "grad_norm": 0.9579281806945801,
      "learning_rate": 0.00019193386254719372,
      "loss": 3.8913,
      "step": 197890
    },
    {
      "epoch": 0.41229166666666667,
      "grad_norm": 0.7611291408538818,
      "learning_rate": 0.00019192439697772047,
      "loss": 4.0407,
      "step": 197900
    },
    {
      "epoch": 0.4123125,
      "grad_norm": 0.781032145023346,
      "learning_rate": 0.00019191493122715044,
      "loss": 4.0047,
      "step": 197910
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 0.8778787851333618,
      "learning_rate": 0.00019190546529552447,
      "loss": 3.9882,
      "step": 197920
    },
    {
      "epoch": 0.4123541666666667,
      "grad_norm": 0.8148987889289856,
      "learning_rate": 0.00019189599918288346,
      "loss": 3.92,
      "step": 197930
    },
    {
      "epoch": 0.412375,
      "grad_norm": 0.828799307346344,
      "learning_rate": 0.00019188653288926836,
      "loss": 4.1951,
      "step": 197940
    },
    {
      "epoch": 0.41239583333333335,
      "grad_norm": 0.8257221579551697,
      "learning_rate": 0.00019187706641472002,
      "loss": 4.0573,
      "step": 197950
    },
    {
      "epoch": 0.41241666666666665,
      "grad_norm": 0.7902345657348633,
      "learning_rate": 0.0001918675997592793,
      "loss": 3.8943,
      "step": 197960
    },
    {
      "epoch": 0.4124375,
      "grad_norm": 0.7788981199264526,
      "learning_rate": 0.00019185813292298712,
      "loss": 4.0769,
      "step": 197970
    },
    {
      "epoch": 0.4124583333333333,
      "grad_norm": 0.8050214648246765,
      "learning_rate": 0.00019184866590588439,
      "loss": 4.0096,
      "step": 197980
    },
    {
      "epoch": 0.4124791666666667,
      "grad_norm": 0.8826879858970642,
      "learning_rate": 0.00019183919870801195,
      "loss": 3.9453,
      "step": 197990
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.9810413718223572,
      "learning_rate": 0.0001918297313294108,
      "loss": 3.7906,
      "step": 198000
    },
    {
      "epoch": 0.4125,
      "eval_loss": 3.666184902191162,
      "eval_runtime": 7.2499,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 198000
    },
    {
      "epoch": 0.41252083333333334,
      "grad_norm": 0.9276989102363586,
      "learning_rate": 0.00019182026377012176,
      "loss": 3.9724,
      "step": 198010
    },
    {
      "epoch": 0.41254166666666664,
      "grad_norm": 0.8328851461410522,
      "learning_rate": 0.00019181079603018564,
      "loss": 4.0864,
      "step": 198020
    },
    {
      "epoch": 0.4125625,
      "grad_norm": 0.8562611937522888,
      "learning_rate": 0.0001918013281096435,
      "loss": 3.9003,
      "step": 198030
    },
    {
      "epoch": 0.41258333333333336,
      "grad_norm": 0.7509471774101257,
      "learning_rate": 0.0001917918600085362,
      "loss": 3.8897,
      "step": 198040
    },
    {
      "epoch": 0.41260416666666666,
      "grad_norm": 0.8719743490219116,
      "learning_rate": 0.00019178239172690456,
      "loss": 3.8603,
      "step": 198050
    },
    {
      "epoch": 0.412625,
      "grad_norm": 0.7346491813659668,
      "learning_rate": 0.00019177292326478954,
      "loss": 4.0371,
      "step": 198060
    },
    {
      "epoch": 0.4126458333333333,
      "grad_norm": 0.8019338846206665,
      "learning_rate": 0.00019176345462223207,
      "loss": 3.8564,
      "step": 198070
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 0.797545850276947,
      "learning_rate": 0.00019175398579927293,
      "loss": 3.8643,
      "step": 198080
    },
    {
      "epoch": 0.4126875,
      "grad_norm": 0.8146029114723206,
      "learning_rate": 0.0001917445167959531,
      "loss": 3.9486,
      "step": 198090
    },
    {
      "epoch": 0.41270833333333334,
      "grad_norm": 0.8023325204849243,
      "learning_rate": 0.00019173504761231354,
      "loss": 4.1187,
      "step": 198100
    },
    {
      "epoch": 0.41272916666666665,
      "grad_norm": 0.8551670908927917,
      "learning_rate": 0.0001917255782483951,
      "loss": 3.794,
      "step": 198110
    },
    {
      "epoch": 0.41275,
      "grad_norm": 0.75226891040802,
      "learning_rate": 0.00019171610870423862,
      "loss": 3.9468,
      "step": 198120
    },
    {
      "epoch": 0.4127708333333333,
      "grad_norm": 0.7976340651512146,
      "learning_rate": 0.0001917066389798851,
      "loss": 3.937,
      "step": 198130
    },
    {
      "epoch": 0.41279166666666667,
      "grad_norm": 0.8829418420791626,
      "learning_rate": 0.0001916971690753754,
      "loss": 3.8987,
      "step": 198140
    },
    {
      "epoch": 0.4128125,
      "grad_norm": 0.8848394155502319,
      "learning_rate": 0.0001916876989907504,
      "loss": 3.894,
      "step": 198150
    },
    {
      "epoch": 0.41283333333333333,
      "grad_norm": 0.9542608261108398,
      "learning_rate": 0.00019167822872605107,
      "loss": 3.6971,
      "step": 198160
    },
    {
      "epoch": 0.4128541666666667,
      "grad_norm": 0.8178799748420715,
      "learning_rate": 0.0001916687582813183,
      "loss": 4.0214,
      "step": 198170
    },
    {
      "epoch": 0.412875,
      "grad_norm": 0.9946759343147278,
      "learning_rate": 0.000191659287656593,
      "loss": 4.0211,
      "step": 198180
    },
    {
      "epoch": 0.41289583333333335,
      "grad_norm": 0.8461208939552307,
      "learning_rate": 0.00019164981685191603,
      "loss": 4.0195,
      "step": 198190
    },
    {
      "epoch": 0.41291666666666665,
      "grad_norm": 0.8210337162017822,
      "learning_rate": 0.00019164034586732838,
      "loss": 3.9433,
      "step": 198200
    },
    {
      "epoch": 0.4129375,
      "grad_norm": 0.8438023328781128,
      "learning_rate": 0.0001916308747028709,
      "loss": 3.8313,
      "step": 198210
    },
    {
      "epoch": 0.4129583333333333,
      "grad_norm": 0.9237316250801086,
      "learning_rate": 0.00019162140335858446,
      "loss": 3.8127,
      "step": 198220
    },
    {
      "epoch": 0.4129791666666667,
      "grad_norm": 0.8134517073631287,
      "learning_rate": 0.00019161193183451009,
      "loss": 4.0389,
      "step": 198230
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.8340561389923096,
      "learning_rate": 0.0001916024601306887,
      "loss": 4.043,
      "step": 198240
    },
    {
      "epoch": 0.41302083333333334,
      "grad_norm": 0.7927513718605042,
      "learning_rate": 0.00019159298824716106,
      "loss": 3.981,
      "step": 198250
    },
    {
      "epoch": 0.41304166666666664,
      "grad_norm": 0.8942965269088745,
      "learning_rate": 0.00019158351618396823,
      "loss": 3.9444,
      "step": 198260
    },
    {
      "epoch": 0.4130625,
      "grad_norm": 0.9709722399711609,
      "learning_rate": 0.000191574043941151,
      "loss": 3.8358,
      "step": 198270
    },
    {
      "epoch": 0.41308333333333336,
      "grad_norm": 0.8184868693351746,
      "learning_rate": 0.00019156457151875043,
      "loss": 3.977,
      "step": 198280
    },
    {
      "epoch": 0.41310416666666666,
      "grad_norm": 0.8749063014984131,
      "learning_rate": 0.00019155509891680733,
      "loss": 4.0848,
      "step": 198290
    },
    {
      "epoch": 0.413125,
      "grad_norm": 0.7851928472518921,
      "learning_rate": 0.00019154562613536266,
      "loss": 4.0296,
      "step": 198300
    },
    {
      "epoch": 0.4131458333333333,
      "grad_norm": 0.8892025947570801,
      "learning_rate": 0.00019153615317445732,
      "loss": 3.9406,
      "step": 198310
    },
    {
      "epoch": 0.4131666666666667,
      "grad_norm": 0.8437385559082031,
      "learning_rate": 0.00019152668003413225,
      "loss": 3.8915,
      "step": 198320
    },
    {
      "epoch": 0.4131875,
      "grad_norm": 0.8906130790710449,
      "learning_rate": 0.00019151720671442836,
      "loss": 3.9445,
      "step": 198330
    },
    {
      "epoch": 0.41320833333333334,
      "grad_norm": 1.1367826461791992,
      "learning_rate": 0.00019150773321538657,
      "loss": 4.1029,
      "step": 198340
    },
    {
      "epoch": 0.41322916666666665,
      "grad_norm": 0.7825372219085693,
      "learning_rate": 0.00019149825953704782,
      "loss": 3.837,
      "step": 198350
    },
    {
      "epoch": 0.41325,
      "grad_norm": 0.825072169303894,
      "learning_rate": 0.00019148878567945297,
      "loss": 3.9994,
      "step": 198360
    },
    {
      "epoch": 0.4132708333333333,
      "grad_norm": 0.8479739427566528,
      "learning_rate": 0.000191479311642643,
      "loss": 3.9345,
      "step": 198370
    },
    {
      "epoch": 0.41329166666666667,
      "grad_norm": 0.7714216709136963,
      "learning_rate": 0.00019146983742665885,
      "loss": 3.9677,
      "step": 198380
    },
    {
      "epoch": 0.4133125,
      "grad_norm": 0.823269784450531,
      "learning_rate": 0.00019146036303154137,
      "loss": 3.9213,
      "step": 198390
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 0.7845802903175354,
      "learning_rate": 0.0001914508884573316,
      "loss": 3.7312,
      "step": 198400
    },
    {
      "epoch": 0.4133541666666667,
      "grad_norm": 0.715976893901825,
      "learning_rate": 0.00019144141370407036,
      "loss": 4.0342,
      "step": 198410
    },
    {
      "epoch": 0.413375,
      "grad_norm": 0.8198109865188599,
      "learning_rate": 0.00019143193877179862,
      "loss": 3.8203,
      "step": 198420
    },
    {
      "epoch": 0.41339583333333335,
      "grad_norm": 0.7907198667526245,
      "learning_rate": 0.0001914224636605573,
      "loss": 4.0193,
      "step": 198430
    },
    {
      "epoch": 0.41341666666666665,
      "grad_norm": 0.8552406430244446,
      "learning_rate": 0.00019141298837038734,
      "loss": 3.9848,
      "step": 198440
    },
    {
      "epoch": 0.4134375,
      "grad_norm": 0.8053984045982361,
      "learning_rate": 0.00019140351290132965,
      "loss": 3.963,
      "step": 198450
    },
    {
      "epoch": 0.4134583333333333,
      "grad_norm": 0.8038265705108643,
      "learning_rate": 0.0001913940372534252,
      "loss": 4.0002,
      "step": 198460
    },
    {
      "epoch": 0.4134791666666667,
      "grad_norm": 0.8366135954856873,
      "learning_rate": 0.00019138456142671486,
      "loss": 3.8447,
      "step": 198470
    },
    {
      "epoch": 0.4135,
      "grad_norm": 0.798683226108551,
      "learning_rate": 0.0001913750854212396,
      "loss": 3.7763,
      "step": 198480
    },
    {
      "epoch": 0.41352083333333334,
      "grad_norm": 0.766512930393219,
      "learning_rate": 0.00019136560923704038,
      "loss": 3.9549,
      "step": 198490
    },
    {
      "epoch": 0.41354166666666664,
      "grad_norm": 0.9714314937591553,
      "learning_rate": 0.00019135613287415808,
      "loss": 4.0053,
      "step": 198500
    },
    {
      "epoch": 0.4135625,
      "grad_norm": 0.783787190914154,
      "learning_rate": 0.00019134665633263365,
      "loss": 4.0789,
      "step": 198510
    },
    {
      "epoch": 0.41358333333333336,
      "grad_norm": 0.90003901720047,
      "learning_rate": 0.00019133717961250803,
      "loss": 3.9754,
      "step": 198520
    },
    {
      "epoch": 0.41360416666666666,
      "grad_norm": 0.7839478850364685,
      "learning_rate": 0.00019132770271382217,
      "loss": 4.0071,
      "step": 198530
    },
    {
      "epoch": 0.413625,
      "grad_norm": 0.7993234992027283,
      "learning_rate": 0.00019131822563661698,
      "loss": 4.071,
      "step": 198540
    },
    {
      "epoch": 0.4136458333333333,
      "grad_norm": 0.8118970990180969,
      "learning_rate": 0.00019130874838093343,
      "loss": 4.0111,
      "step": 198550
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 0.9683892726898193,
      "learning_rate": 0.0001912992709468124,
      "loss": 3.9596,
      "step": 198560
    },
    {
      "epoch": 0.4136875,
      "grad_norm": 0.8369494080543518,
      "learning_rate": 0.00019128979333429496,
      "loss": 3.9439,
      "step": 198570
    },
    {
      "epoch": 0.41370833333333334,
      "grad_norm": 0.8037004470825195,
      "learning_rate": 0.00019128031554342185,
      "loss": 4.017,
      "step": 198580
    },
    {
      "epoch": 0.41372916666666665,
      "grad_norm": 0.7721781134605408,
      "learning_rate": 0.00019127083757423415,
      "loss": 4.2776,
      "step": 198590
    },
    {
      "epoch": 0.41375,
      "grad_norm": 1.3488248586654663,
      "learning_rate": 0.0001912613594267728,
      "loss": 4.0757,
      "step": 198600
    },
    {
      "epoch": 0.4137708333333333,
      "grad_norm": 0.8589937686920166,
      "learning_rate": 0.00019125188110107868,
      "loss": 3.9237,
      "step": 198610
    },
    {
      "epoch": 0.41379166666666667,
      "grad_norm": 0.825312077999115,
      "learning_rate": 0.00019124240259719278,
      "loss": 3.925,
      "step": 198620
    },
    {
      "epoch": 0.4138125,
      "grad_norm": 0.7496930360794067,
      "learning_rate": 0.000191232923915156,
      "loss": 4.077,
      "step": 198630
    },
    {
      "epoch": 0.41383333333333333,
      "grad_norm": 0.830996036529541,
      "learning_rate": 0.0001912234450550093,
      "loss": 4.0575,
      "step": 198640
    },
    {
      "epoch": 0.4138541666666667,
      "grad_norm": 0.8464560508728027,
      "learning_rate": 0.00019121396601679368,
      "loss": 4.0921,
      "step": 198650
    },
    {
      "epoch": 0.413875,
      "grad_norm": 0.7923887968063354,
      "learning_rate": 0.00019120448680055,
      "loss": 4.1625,
      "step": 198660
    },
    {
      "epoch": 0.41389583333333335,
      "grad_norm": 0.8969581127166748,
      "learning_rate": 0.00019119500740631928,
      "loss": 3.9249,
      "step": 198670
    },
    {
      "epoch": 0.41391666666666665,
      "grad_norm": 0.7381203770637512,
      "learning_rate": 0.0001911855278341424,
      "loss": 4.0073,
      "step": 198680
    },
    {
      "epoch": 0.4139375,
      "grad_norm": 0.9047878980636597,
      "learning_rate": 0.00019117604808406035,
      "loss": 3.9797,
      "step": 198690
    },
    {
      "epoch": 0.4139583333333333,
      "grad_norm": 0.9133292436599731,
      "learning_rate": 0.0001911665681561141,
      "loss": 3.9448,
      "step": 198700
    },
    {
      "epoch": 0.4139791666666667,
      "grad_norm": 0.8126296997070312,
      "learning_rate": 0.00019115708805034456,
      "loss": 4.0435,
      "step": 198710
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.823245644569397,
      "learning_rate": 0.00019114760776679267,
      "loss": 3.9139,
      "step": 198720
    },
    {
      "epoch": 0.41402083333333334,
      "grad_norm": 0.8221986889839172,
      "learning_rate": 0.0001911381273054994,
      "loss": 3.9471,
      "step": 198730
    },
    {
      "epoch": 0.41404166666666664,
      "grad_norm": 0.7954281568527222,
      "learning_rate": 0.00019112864666650573,
      "loss": 3.8318,
      "step": 198740
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 0.7751153111457825,
      "learning_rate": 0.0001911191658498526,
      "loss": 4.0077,
      "step": 198750
    },
    {
      "epoch": 0.41408333333333336,
      "grad_norm": 0.8863866329193115,
      "learning_rate": 0.0001911096848555809,
      "loss": 4.0285,
      "step": 198760
    },
    {
      "epoch": 0.41410416666666666,
      "grad_norm": 0.778319239616394,
      "learning_rate": 0.00019110020368373167,
      "loss": 4.0075,
      "step": 198770
    },
    {
      "epoch": 0.414125,
      "grad_norm": 0.9025651216506958,
      "learning_rate": 0.00019109072233434584,
      "loss": 3.9623,
      "step": 198780
    },
    {
      "epoch": 0.4141458333333333,
      "grad_norm": 1.0459712743759155,
      "learning_rate": 0.0001910812408074643,
      "loss": 3.8815,
      "step": 198790
    },
    {
      "epoch": 0.4141666666666667,
      "grad_norm": 0.758231520652771,
      "learning_rate": 0.00019107175910312808,
      "loss": 3.9722,
      "step": 198800
    },
    {
      "epoch": 0.4141875,
      "grad_norm": 0.8338282108306885,
      "learning_rate": 0.00019106227722137816,
      "loss": 3.8786,
      "step": 198810
    },
    {
      "epoch": 0.41420833333333335,
      "grad_norm": 0.9381093978881836,
      "learning_rate": 0.00019105279516225542,
      "loss": 4.1307,
      "step": 198820
    },
    {
      "epoch": 0.41422916666666665,
      "grad_norm": 0.8353650569915771,
      "learning_rate": 0.00019104331292580084,
      "loss": 3.9633,
      "step": 198830
    },
    {
      "epoch": 0.41425,
      "grad_norm": 0.8612228631973267,
      "learning_rate": 0.0001910338305120554,
      "loss": 3.8861,
      "step": 198840
    },
    {
      "epoch": 0.4142708333333333,
      "grad_norm": 0.8390281796455383,
      "learning_rate": 0.0001910243479210601,
      "loss": 4.0169,
      "step": 198850
    },
    {
      "epoch": 0.41429166666666667,
      "grad_norm": 0.789566159248352,
      "learning_rate": 0.0001910148651528558,
      "loss": 3.8738,
      "step": 198860
    },
    {
      "epoch": 0.4143125,
      "grad_norm": 0.7614129781723022,
      "learning_rate": 0.00019100538220748355,
      "loss": 3.9688,
      "step": 198870
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 1.1549065113067627,
      "learning_rate": 0.0001909958990849843,
      "loss": 3.8951,
      "step": 198880
    },
    {
      "epoch": 0.4143541666666667,
      "grad_norm": 1.0199580192565918,
      "learning_rate": 0.00019098641578539895,
      "loss": 3.961,
      "step": 198890
    },
    {
      "epoch": 0.414375,
      "grad_norm": 0.8049607276916504,
      "learning_rate": 0.0001909769323087685,
      "loss": 3.9363,
      "step": 198900
    },
    {
      "epoch": 0.41439583333333335,
      "grad_norm": 0.7991700768470764,
      "learning_rate": 0.000190967448655134,
      "loss": 3.9982,
      "step": 198910
    },
    {
      "epoch": 0.41441666666666666,
      "grad_norm": 0.8745971322059631,
      "learning_rate": 0.00019095796482453625,
      "loss": 4.0582,
      "step": 198920
    },
    {
      "epoch": 0.4144375,
      "grad_norm": 0.7606672644615173,
      "learning_rate": 0.00019094848081701633,
      "loss": 4.0992,
      "step": 198930
    },
    {
      "epoch": 0.4144583333333333,
      "grad_norm": 0.8245756030082703,
      "learning_rate": 0.0001909389966326152,
      "loss": 3.9072,
      "step": 198940
    },
    {
      "epoch": 0.4144791666666667,
      "grad_norm": 0.7860081791877747,
      "learning_rate": 0.00019092951227137379,
      "loss": 3.7881,
      "step": 198950
    },
    {
      "epoch": 0.4145,
      "grad_norm": 0.7688088417053223,
      "learning_rate": 0.00019092002773333307,
      "loss": 3.8902,
      "step": 198960
    },
    {
      "epoch": 0.41452083333333334,
      "grad_norm": 0.7420051693916321,
      "learning_rate": 0.00019091054301853408,
      "loss": 3.9188,
      "step": 198970
    },
    {
      "epoch": 0.41454166666666664,
      "grad_norm": 0.8333168029785156,
      "learning_rate": 0.0001909010581270177,
      "loss": 3.9042,
      "step": 198980
    },
    {
      "epoch": 0.4145625,
      "grad_norm": 0.8020434379577637,
      "learning_rate": 0.00019089157305882495,
      "loss": 3.947,
      "step": 198990
    },
    {
      "epoch": 0.41458333333333336,
      "grad_norm": 0.8553095459938049,
      "learning_rate": 0.0001908820878139968,
      "loss": 4.0187,
      "step": 199000
    },
    {
      "epoch": 0.41458333333333336,
      "eval_loss": 3.6712353229522705,
      "eval_runtime": 7.3664,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 199000
    },
    {
      "epoch": 0.41460416666666666,
      "grad_norm": 0.7641918659210205,
      "learning_rate": 0.0001908726023925742,
      "loss": 3.8501,
      "step": 199010
    },
    {
      "epoch": 0.414625,
      "grad_norm": 0.9622071981430054,
      "learning_rate": 0.00019086311679459813,
      "loss": 4.1258,
      "step": 199020
    },
    {
      "epoch": 0.4146458333333333,
      "grad_norm": 0.8842875957489014,
      "learning_rate": 0.0001908536310201096,
      "loss": 4.0509,
      "step": 199030
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 0.9168344140052795,
      "learning_rate": 0.00019084414506914953,
      "loss": 3.9901,
      "step": 199040
    },
    {
      "epoch": 0.4146875,
      "grad_norm": 0.9696424603462219,
      "learning_rate": 0.00019083465894175893,
      "loss": 3.9502,
      "step": 199050
    },
    {
      "epoch": 0.41470833333333335,
      "grad_norm": 0.7868849039077759,
      "learning_rate": 0.00019082517263797872,
      "loss": 4.0359,
      "step": 199060
    },
    {
      "epoch": 0.41472916666666665,
      "grad_norm": 0.7971192598342896,
      "learning_rate": 0.00019081568615785,
      "loss": 3.9917,
      "step": 199070
    },
    {
      "epoch": 0.41475,
      "grad_norm": 0.8134174942970276,
      "learning_rate": 0.00019080619950141364,
      "loss": 3.9404,
      "step": 199080
    },
    {
      "epoch": 0.4147708333333333,
      "grad_norm": 0.7778221964836121,
      "learning_rate": 0.00019079671266871063,
      "loss": 3.9981,
      "step": 199090
    },
    {
      "epoch": 0.41479166666666667,
      "grad_norm": 0.9224565625190735,
      "learning_rate": 0.000190787225659782,
      "loss": 3.9757,
      "step": 199100
    },
    {
      "epoch": 0.4148125,
      "grad_norm": 0.8122518062591553,
      "learning_rate": 0.0001907777384746687,
      "loss": 3.8771,
      "step": 199110
    },
    {
      "epoch": 0.41483333333333333,
      "grad_norm": 0.8007913827896118,
      "learning_rate": 0.00019076825111341168,
      "loss": 3.8844,
      "step": 199120
    },
    {
      "epoch": 0.4148541666666667,
      "grad_norm": 0.7633015513420105,
      "learning_rate": 0.00019075876357605193,
      "loss": 4.0026,
      "step": 199130
    },
    {
      "epoch": 0.414875,
      "grad_norm": 0.7921295762062073,
      "learning_rate": 0.00019074927586263055,
      "loss": 4.0432,
      "step": 199140
    },
    {
      "epoch": 0.41489583333333335,
      "grad_norm": 0.9944300055503845,
      "learning_rate": 0.00019073978797318834,
      "loss": 3.988,
      "step": 199150
    },
    {
      "epoch": 0.41491666666666666,
      "grad_norm": 0.7962160110473633,
      "learning_rate": 0.0001907302999077664,
      "loss": 4.0881,
      "step": 199160
    },
    {
      "epoch": 0.4149375,
      "grad_norm": 0.8208732604980469,
      "learning_rate": 0.0001907208116664057,
      "loss": 3.9198,
      "step": 199170
    },
    {
      "epoch": 0.4149583333333333,
      "grad_norm": 0.7919883728027344,
      "learning_rate": 0.00019071132324914721,
      "loss": 3.8659,
      "step": 199180
    },
    {
      "epoch": 0.4149791666666667,
      "grad_norm": 0.9062007665634155,
      "learning_rate": 0.00019070183465603191,
      "loss": 3.7319,
      "step": 199190
    },
    {
      "epoch": 0.415,
      "grad_norm": 0.9487602114677429,
      "learning_rate": 0.00019069234588710082,
      "loss": 3.9802,
      "step": 199200
    },
    {
      "epoch": 0.41502083333333334,
      "grad_norm": 0.7791662812232971,
      "learning_rate": 0.00019068285694239485,
      "loss": 4.1409,
      "step": 199210
    },
    {
      "epoch": 0.41504166666666664,
      "grad_norm": 0.8738299012184143,
      "learning_rate": 0.00019067336782195509,
      "loss": 3.9665,
      "step": 199220
    },
    {
      "epoch": 0.4150625,
      "grad_norm": 0.8063280582427979,
      "learning_rate": 0.00019066387852582244,
      "loss": 3.8892,
      "step": 199230
    },
    {
      "epoch": 0.41508333333333336,
      "grad_norm": 0.8391934633255005,
      "learning_rate": 0.00019065438905403794,
      "loss": 3.867,
      "step": 199240
    },
    {
      "epoch": 0.41510416666666666,
      "grad_norm": 0.7502283453941345,
      "learning_rate": 0.00019064489940664263,
      "loss": 4.1148,
      "step": 199250
    },
    {
      "epoch": 0.415125,
      "grad_norm": 0.9050316214561462,
      "learning_rate": 0.00019063540958367737,
      "loss": 3.9819,
      "step": 199260
    },
    {
      "epoch": 0.4151458333333333,
      "grad_norm": 0.8747128844261169,
      "learning_rate": 0.00019062591958518324,
      "loss": 3.998,
      "step": 199270
    },
    {
      "epoch": 0.4151666666666667,
      "grad_norm": 0.8727758526802063,
      "learning_rate": 0.00019061642941120126,
      "loss": 4.1203,
      "step": 199280
    },
    {
      "epoch": 0.4151875,
      "grad_norm": 0.838564932346344,
      "learning_rate": 0.00019060693906177236,
      "loss": 3.8436,
      "step": 199290
    },
    {
      "epoch": 0.41520833333333335,
      "grad_norm": 0.7991289496421814,
      "learning_rate": 0.00019059744853693755,
      "loss": 3.7566,
      "step": 199300
    },
    {
      "epoch": 0.41522916666666665,
      "grad_norm": 0.91753089427948,
      "learning_rate": 0.0001905879578367378,
      "loss": 3.8842,
      "step": 199310
    },
    {
      "epoch": 0.41525,
      "grad_norm": 0.763894259929657,
      "learning_rate": 0.0001905784669612142,
      "loss": 4.1068,
      "step": 199320
    },
    {
      "epoch": 0.4152708333333333,
      "grad_norm": 0.7752363085746765,
      "learning_rate": 0.00019056897591040764,
      "loss": 3.9551,
      "step": 199330
    },
    {
      "epoch": 0.41529166666666667,
      "grad_norm": 1.072074055671692,
      "learning_rate": 0.0001905594846843592,
      "loss": 4.068,
      "step": 199340
    },
    {
      "epoch": 0.4153125,
      "grad_norm": 0.81267911195755,
      "learning_rate": 0.0001905499932831098,
      "loss": 3.8932,
      "step": 199350
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 0.7444985508918762,
      "learning_rate": 0.0001905405017067005,
      "loss": 3.8352,
      "step": 199360
    },
    {
      "epoch": 0.4153541666666667,
      "grad_norm": 0.8572893142700195,
      "learning_rate": 0.0001905310099551723,
      "loss": 4.259,
      "step": 199370
    },
    {
      "epoch": 0.415375,
      "grad_norm": 0.8250063061714172,
      "learning_rate": 0.0001905215180285661,
      "loss": 3.8804,
      "step": 199380
    },
    {
      "epoch": 0.41539583333333335,
      "grad_norm": 0.8328939080238342,
      "learning_rate": 0.00019051202592692304,
      "loss": 4.0663,
      "step": 199390
    },
    {
      "epoch": 0.41541666666666666,
      "grad_norm": 1.0885248184204102,
      "learning_rate": 0.00019050253365028406,
      "loss": 4.0202,
      "step": 199400
    },
    {
      "epoch": 0.4154375,
      "grad_norm": 0.7879712581634521,
      "learning_rate": 0.00019049304119869018,
      "loss": 4.1851,
      "step": 199410
    },
    {
      "epoch": 0.4154583333333333,
      "grad_norm": 0.844711422920227,
      "learning_rate": 0.00019048354857218242,
      "loss": 3.8694,
      "step": 199420
    },
    {
      "epoch": 0.4154791666666667,
      "grad_norm": 0.7560138702392578,
      "learning_rate": 0.00019047405577080165,
      "loss": 3.892,
      "step": 199430
    },
    {
      "epoch": 0.4155,
      "grad_norm": 0.7912480235099792,
      "learning_rate": 0.0001904645627945891,
      "loss": 3.9509,
      "step": 199440
    },
    {
      "epoch": 0.41552083333333334,
      "grad_norm": 0.7924752831459045,
      "learning_rate": 0.0001904550696435856,
      "loss": 4.1176,
      "step": 199450
    },
    {
      "epoch": 0.41554166666666664,
      "grad_norm": 0.9116522073745728,
      "learning_rate": 0.00019044557631783216,
      "loss": 4.1481,
      "step": 199460
    },
    {
      "epoch": 0.4155625,
      "grad_norm": 0.9203510880470276,
      "learning_rate": 0.00019043608281736992,
      "loss": 3.9393,
      "step": 199470
    },
    {
      "epoch": 0.41558333333333336,
      "grad_norm": 0.9559403657913208,
      "learning_rate": 0.0001904265891422398,
      "loss": 3.8938,
      "step": 199480
    },
    {
      "epoch": 0.41560416666666666,
      "grad_norm": 0.8668909072875977,
      "learning_rate": 0.00019041709529248277,
      "loss": 3.8198,
      "step": 199490
    },
    {
      "epoch": 0.415625,
      "grad_norm": 0.7938018441200256,
      "learning_rate": 0.00019040760126813993,
      "loss": 4.0097,
      "step": 199500
    },
    {
      "epoch": 0.4156458333333333,
      "grad_norm": 0.832318902015686,
      "learning_rate": 0.00019039810706925222,
      "loss": 3.741,
      "step": 199510
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 0.8128868937492371,
      "learning_rate": 0.0001903886126958607,
      "loss": 4.0094,
      "step": 199520
    },
    {
      "epoch": 0.4156875,
      "grad_norm": 0.9976019263267517,
      "learning_rate": 0.00019037911814800634,
      "loss": 3.8969,
      "step": 199530
    },
    {
      "epoch": 0.41570833333333335,
      "grad_norm": 0.9117785692214966,
      "learning_rate": 0.00019036962342573017,
      "loss": 4.1818,
      "step": 199540
    },
    {
      "epoch": 0.41572916666666665,
      "grad_norm": 0.9112390875816345,
      "learning_rate": 0.00019036012852907322,
      "loss": 3.8648,
      "step": 199550
    },
    {
      "epoch": 0.41575,
      "grad_norm": 0.9737818837165833,
      "learning_rate": 0.00019035063345807646,
      "loss": 3.8637,
      "step": 199560
    },
    {
      "epoch": 0.4157708333333333,
      "grad_norm": 0.8728925585746765,
      "learning_rate": 0.00019034113821278097,
      "loss": 4.0246,
      "step": 199570
    },
    {
      "epoch": 0.41579166666666667,
      "grad_norm": 0.7872579097747803,
      "learning_rate": 0.00019033164279322776,
      "loss": 4.0115,
      "step": 199580
    },
    {
      "epoch": 0.4158125,
      "grad_norm": 0.8817199468612671,
      "learning_rate": 0.00019032214719945774,
      "loss": 3.9601,
      "step": 199590
    },
    {
      "epoch": 0.41583333333333333,
      "grad_norm": 0.8132811188697815,
      "learning_rate": 0.00019031265143151205,
      "loss": 3.9306,
      "step": 199600
    },
    {
      "epoch": 0.4158541666666667,
      "grad_norm": 3.752000570297241,
      "learning_rate": 0.0001903031554894317,
      "loss": 4.0848,
      "step": 199610
    },
    {
      "epoch": 0.415875,
      "grad_norm": 0.8411692976951599,
      "learning_rate": 0.00019029365937325762,
      "loss": 3.8727,
      "step": 199620
    },
    {
      "epoch": 0.41589583333333335,
      "grad_norm": 0.8566808104515076,
      "learning_rate": 0.00019028416308303084,
      "loss": 3.8563,
      "step": 199630
    },
    {
      "epoch": 0.41591666666666666,
      "grad_norm": 0.7839494347572327,
      "learning_rate": 0.00019027466661879252,
      "loss": 3.8267,
      "step": 199640
    },
    {
      "epoch": 0.4159375,
      "grad_norm": 0.7935570478439331,
      "learning_rate": 0.00019026516998058352,
      "loss": 3.9366,
      "step": 199650
    },
    {
      "epoch": 0.4159583333333333,
      "grad_norm": 0.9202539920806885,
      "learning_rate": 0.0001902556731684449,
      "loss": 3.9343,
      "step": 199660
    },
    {
      "epoch": 0.4159791666666667,
      "grad_norm": 0.7778466939926147,
      "learning_rate": 0.00019024617618241778,
      "loss": 3.8735,
      "step": 199670
    },
    {
      "epoch": 0.416,
      "grad_norm": 2.518604278564453,
      "learning_rate": 0.0001902366790225431,
      "loss": 4.2065,
      "step": 199680
    },
    {
      "epoch": 0.41602083333333334,
      "grad_norm": 1.4702084064483643,
      "learning_rate": 0.00019022718168886182,
      "loss": 3.9668,
      "step": 199690
    },
    {
      "epoch": 0.41604166666666664,
      "grad_norm": 0.9353994131088257,
      "learning_rate": 0.00019021768418141512,
      "loss": 3.8754,
      "step": 199700
    },
    {
      "epoch": 0.4160625,
      "grad_norm": 0.8134700655937195,
      "learning_rate": 0.00019020818650024388,
      "loss": 4.0733,
      "step": 199710
    },
    {
      "epoch": 0.41608333333333336,
      "grad_norm": 0.8715515732765198,
      "learning_rate": 0.00019019868864538923,
      "loss": 4.0003,
      "step": 199720
    },
    {
      "epoch": 0.41610416666666666,
      "grad_norm": 0.8217188119888306,
      "learning_rate": 0.00019018919061689215,
      "loss": 4.0777,
      "step": 199730
    },
    {
      "epoch": 0.416125,
      "grad_norm": 0.8530902862548828,
      "learning_rate": 0.00019017969241479364,
      "loss": 3.9831,
      "step": 199740
    },
    {
      "epoch": 0.4161458333333333,
      "grad_norm": 0.8263647556304932,
      "learning_rate": 0.00019017019403913486,
      "loss": 3.8308,
      "step": 199750
    },
    {
      "epoch": 0.4161666666666667,
      "grad_norm": 0.8515620231628418,
      "learning_rate": 0.00019016069548995662,
      "loss": 4.0741,
      "step": 199760
    },
    {
      "epoch": 0.4161875,
      "grad_norm": 0.8142468929290771,
      "learning_rate": 0.00019015119676730013,
      "loss": 4.0766,
      "step": 199770
    },
    {
      "epoch": 0.41620833333333335,
      "grad_norm": 0.8138918876647949,
      "learning_rate": 0.0001901416978712064,
      "loss": 4.1406,
      "step": 199780
    },
    {
      "epoch": 0.41622916666666665,
      "grad_norm": 0.7856622934341431,
      "learning_rate": 0.00019013219880171636,
      "loss": 3.6994,
      "step": 199790
    },
    {
      "epoch": 0.41625,
      "grad_norm": 1.0034905672073364,
      "learning_rate": 0.0001901226995588711,
      "loss": 4.0235,
      "step": 199800
    },
    {
      "epoch": 0.4162708333333333,
      "grad_norm": 0.7612481117248535,
      "learning_rate": 0.00019011320014271173,
      "loss": 3.997,
      "step": 199810
    },
    {
      "epoch": 0.41629166666666667,
      "grad_norm": 0.946230947971344,
      "learning_rate": 0.00019010370055327916,
      "loss": 3.9122,
      "step": 199820
    },
    {
      "epoch": 0.4163125,
      "grad_norm": 0.7744734883308411,
      "learning_rate": 0.00019009420079061447,
      "loss": 3.9181,
      "step": 199830
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 0.9983252286911011,
      "learning_rate": 0.00019008470085475875,
      "loss": 3.897,
      "step": 199840
    },
    {
      "epoch": 0.4163541666666667,
      "grad_norm": 0.8226770758628845,
      "learning_rate": 0.00019007520074575295,
      "loss": 4.0196,
      "step": 199850
    },
    {
      "epoch": 0.416375,
      "grad_norm": 0.7968957424163818,
      "learning_rate": 0.00019006570046363816,
      "loss": 3.7863,
      "step": 199860
    },
    {
      "epoch": 0.41639583333333335,
      "grad_norm": 0.9380565285682678,
      "learning_rate": 0.0001900562000084554,
      "loss": 3.905,
      "step": 199870
    },
    {
      "epoch": 0.41641666666666666,
      "grad_norm": 0.8409465551376343,
      "learning_rate": 0.00019004669938024572,
      "loss": 4.1586,
      "step": 199880
    },
    {
      "epoch": 0.4164375,
      "grad_norm": 0.7982617616653442,
      "learning_rate": 0.00019003719857905015,
      "loss": 3.9569,
      "step": 199890
    },
    {
      "epoch": 0.4164583333333333,
      "grad_norm": 0.8431510925292969,
      "learning_rate": 0.0001900276976049097,
      "loss": 3.874,
      "step": 199900
    },
    {
      "epoch": 0.4164791666666667,
      "grad_norm": 1.717758059501648,
      "learning_rate": 0.00019001819645786546,
      "loss": 3.9059,
      "step": 199910
    },
    {
      "epoch": 0.4165,
      "grad_norm": 0.9315281510353088,
      "learning_rate": 0.00019000869513795848,
      "loss": 4.0072,
      "step": 199920
    },
    {
      "epoch": 0.41652083333333334,
      "grad_norm": 0.8053846955299377,
      "learning_rate": 0.00018999919364522973,
      "loss": 4.0576,
      "step": 199930
    },
    {
      "epoch": 0.41654166666666664,
      "grad_norm": 0.782086193561554,
      "learning_rate": 0.0001899896919797203,
      "loss": 4.0657,
      "step": 199940
    },
    {
      "epoch": 0.4165625,
      "grad_norm": 0.8445415496826172,
      "learning_rate": 0.00018998019014147127,
      "loss": 3.9088,
      "step": 199950
    },
    {
      "epoch": 0.41658333333333336,
      "grad_norm": 0.8439046144485474,
      "learning_rate": 0.00018997068813052362,
      "loss": 4.0466,
      "step": 199960
    },
    {
      "epoch": 0.41660416666666666,
      "grad_norm": 2.089155435562134,
      "learning_rate": 0.0001899611859469184,
      "loss": 3.8879,
      "step": 199970
    },
    {
      "epoch": 0.416625,
      "grad_norm": 0.7608992457389832,
      "learning_rate": 0.00018995168359069671,
      "loss": 4.0995,
      "step": 199980
    },
    {
      "epoch": 0.4166458333333333,
      "grad_norm": 0.8388068079948425,
      "learning_rate": 0.00018994218106189954,
      "loss": 3.8903,
      "step": 199990
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.7715835571289062,
      "learning_rate": 0.00018993267836056794,
      "loss": 3.8207,
      "step": 200000
    },
    {
      "epoch": 0.4166666666666667,
      "eval_loss": 3.6693954467773438,
      "eval_runtime": 6.8287,
      "eval_samples_per_second": 1.464,
      "eval_steps_per_second": 0.439,
      "step": 200000
    },
    {
      "epoch": 0.4166875,
      "grad_norm": 0.8174994587898254,
      "learning_rate": 0.000189923175486743,
      "loss": 3.8914,
      "step": 200010
    },
    {
      "epoch": 0.41670833333333335,
      "grad_norm": 0.779055118560791,
      "learning_rate": 0.00018991367244046577,
      "loss": 3.7729,
      "step": 200020
    },
    {
      "epoch": 0.41672916666666665,
      "grad_norm": 0.8532329797744751,
      "learning_rate": 0.00018990416922177723,
      "loss": 3.642,
      "step": 200030
    },
    {
      "epoch": 0.41675,
      "grad_norm": 0.887991189956665,
      "learning_rate": 0.00018989466583071852,
      "loss": 3.9603,
      "step": 200040
    },
    {
      "epoch": 0.4167708333333333,
      "grad_norm": 0.8145932555198669,
      "learning_rate": 0.00018988516226733058,
      "loss": 4.122,
      "step": 200050
    },
    {
      "epoch": 0.41679166666666667,
      "grad_norm": 0.8103453516960144,
      "learning_rate": 0.00018987565853165458,
      "loss": 3.8503,
      "step": 200060
    },
    {
      "epoch": 0.4168125,
      "grad_norm": 0.8692229986190796,
      "learning_rate": 0.00018986615462373148,
      "loss": 3.8791,
      "step": 200070
    },
    {
      "epoch": 0.41683333333333333,
      "grad_norm": 0.8973404765129089,
      "learning_rate": 0.00018985665054360238,
      "loss": 4.0124,
      "step": 200080
    },
    {
      "epoch": 0.4168541666666667,
      "grad_norm": 0.800892174243927,
      "learning_rate": 0.00018984714629130835,
      "loss": 3.9576,
      "step": 200090
    },
    {
      "epoch": 0.416875,
      "grad_norm": 0.869383692741394,
      "learning_rate": 0.00018983764186689041,
      "loss": 3.8051,
      "step": 200100
    },
    {
      "epoch": 0.41689583333333335,
      "grad_norm": 0.8197451829910278,
      "learning_rate": 0.00018982813727038965,
      "loss": 4.065,
      "step": 200110
    },
    {
      "epoch": 0.41691666666666666,
      "grad_norm": 0.8554432988166809,
      "learning_rate": 0.00018981863250184709,
      "loss": 3.9123,
      "step": 200120
    },
    {
      "epoch": 0.4169375,
      "grad_norm": 0.8195068836212158,
      "learning_rate": 0.00018980912756130374,
      "loss": 3.8382,
      "step": 200130
    },
    {
      "epoch": 0.4169583333333333,
      "grad_norm": 0.832790195941925,
      "learning_rate": 0.00018979962244880077,
      "loss": 3.9372,
      "step": 200140
    },
    {
      "epoch": 0.4169791666666667,
      "grad_norm": 0.739902913570404,
      "learning_rate": 0.0001897901171643792,
      "loss": 3.9826,
      "step": 200150
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.8447681069374084,
      "learning_rate": 0.00018978061170808,
      "loss": 3.9309,
      "step": 200160
    },
    {
      "epoch": 0.41702083333333334,
      "grad_norm": 0.8306650519371033,
      "learning_rate": 0.0001897711060799444,
      "loss": 3.9556,
      "step": 200170
    },
    {
      "epoch": 0.41704166666666664,
      "grad_norm": 0.8868096470832825,
      "learning_rate": 0.0001897616002800133,
      "loss": 3.9943,
      "step": 200180
    },
    {
      "epoch": 0.4170625,
      "grad_norm": 0.9831441044807434,
      "learning_rate": 0.00018975209430832787,
      "loss": 3.9808,
      "step": 200190
    },
    {
      "epoch": 0.4170833333333333,
      "grad_norm": 0.7859470844268799,
      "learning_rate": 0.00018974258816492907,
      "loss": 3.9009,
      "step": 200200
    },
    {
      "epoch": 0.41710416666666666,
      "grad_norm": 0.803766667842865,
      "learning_rate": 0.00018973308184985804,
      "loss": 3.9787,
      "step": 200210
    },
    {
      "epoch": 0.417125,
      "grad_norm": 0.9585459232330322,
      "learning_rate": 0.00018972357536315587,
      "loss": 4.0081,
      "step": 200220
    },
    {
      "epoch": 0.4171458333333333,
      "grad_norm": 0.9476982355117798,
      "learning_rate": 0.00018971406870486353,
      "loss": 4.0188,
      "step": 200230
    },
    {
      "epoch": 0.4171666666666667,
      "grad_norm": 0.8636327385902405,
      "learning_rate": 0.00018970456187502213,
      "loss": 3.9232,
      "step": 200240
    },
    {
      "epoch": 0.4171875,
      "grad_norm": 0.8310404419898987,
      "learning_rate": 0.00018969505487367278,
      "loss": 3.9798,
      "step": 200250
    },
    {
      "epoch": 0.41720833333333335,
      "grad_norm": 0.8054004311561584,
      "learning_rate": 0.00018968554770085647,
      "loss": 4.1088,
      "step": 200260
    },
    {
      "epoch": 0.41722916666666665,
      "grad_norm": 0.8499534726142883,
      "learning_rate": 0.0001896760403566143,
      "loss": 4.0713,
      "step": 200270
    },
    {
      "epoch": 0.41725,
      "grad_norm": 0.7588903307914734,
      "learning_rate": 0.00018966653284098738,
      "loss": 4.0376,
      "step": 200280
    },
    {
      "epoch": 0.4172708333333333,
      "grad_norm": 0.8769240975379944,
      "learning_rate": 0.00018965702515401673,
      "loss": 3.9926,
      "step": 200290
    },
    {
      "epoch": 0.41729166666666667,
      "grad_norm": 0.932578980922699,
      "learning_rate": 0.00018964751729574336,
      "loss": 3.8932,
      "step": 200300
    },
    {
      "epoch": 0.4173125,
      "grad_norm": 0.8388150930404663,
      "learning_rate": 0.00018963800926620854,
      "loss": 4.1362,
      "step": 200310
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 0.8499429821968079,
      "learning_rate": 0.0001896285010654531,
      "loss": 3.8774,
      "step": 200320
    },
    {
      "epoch": 0.4173541666666667,
      "grad_norm": 0.989109456539154,
      "learning_rate": 0.00018961899269351822,
      "loss": 3.9155,
      "step": 200330
    },
    {
      "epoch": 0.417375,
      "grad_norm": 0.8356727361679077,
      "learning_rate": 0.00018960948415044506,
      "loss": 4.0263,
      "step": 200340
    },
    {
      "epoch": 0.41739583333333335,
      "grad_norm": 0.8205066919326782,
      "learning_rate": 0.00018959997543627454,
      "loss": 3.7685,
      "step": 200350
    },
    {
      "epoch": 0.41741666666666666,
      "grad_norm": 0.8791090250015259,
      "learning_rate": 0.00018959046655104783,
      "loss": 3.9594,
      "step": 200360
    },
    {
      "epoch": 0.4174375,
      "grad_norm": 0.967262327671051,
      "learning_rate": 0.00018958095749480592,
      "loss": 4.1046,
      "step": 200370
    },
    {
      "epoch": 0.4174583333333333,
      "grad_norm": 0.7622228860855103,
      "learning_rate": 0.00018957144826759002,
      "loss": 4.077,
      "step": 200380
    },
    {
      "epoch": 0.4174791666666667,
      "grad_norm": 0.9745829701423645,
      "learning_rate": 0.00018956193886944105,
      "loss": 4.0727,
      "step": 200390
    },
    {
      "epoch": 0.4175,
      "grad_norm": 0.728911280632019,
      "learning_rate": 0.0001895524293004002,
      "loss": 4.087,
      "step": 200400
    },
    {
      "epoch": 0.41752083333333334,
      "grad_norm": 0.8427680134773254,
      "learning_rate": 0.0001895429195605085,
      "loss": 3.853,
      "step": 200410
    },
    {
      "epoch": 0.41754166666666664,
      "grad_norm": 0.8094137907028198,
      "learning_rate": 0.00018953340964980705,
      "loss": 4.0269,
      "step": 200420
    },
    {
      "epoch": 0.4175625,
      "grad_norm": 0.8181145191192627,
      "learning_rate": 0.00018952389956833693,
      "loss": 3.9896,
      "step": 200430
    },
    {
      "epoch": 0.4175833333333333,
      "grad_norm": 0.7901816964149475,
      "learning_rate": 0.00018951438931613922,
      "loss": 4.0804,
      "step": 200440
    },
    {
      "epoch": 0.41760416666666667,
      "grad_norm": 0.794609785079956,
      "learning_rate": 0.00018950487889325497,
      "loss": 3.8735,
      "step": 200450
    },
    {
      "epoch": 0.417625,
      "grad_norm": 0.8787553310394287,
      "learning_rate": 0.00018949536829972525,
      "loss": 3.8775,
      "step": 200460
    },
    {
      "epoch": 0.4176458333333333,
      "grad_norm": 0.8636717200279236,
      "learning_rate": 0.0001894858575355912,
      "loss": 4.0924,
      "step": 200470
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 0.8437294960021973,
      "learning_rate": 0.00018947634660089393,
      "loss": 3.9146,
      "step": 200480
    },
    {
      "epoch": 0.4176875,
      "grad_norm": 0.8256930708885193,
      "learning_rate": 0.00018946683549567439,
      "loss": 3.9395,
      "step": 200490
    },
    {
      "epoch": 0.41770833333333335,
      "grad_norm": 0.7805673480033875,
      "learning_rate": 0.00018945732421997376,
      "loss": 3.9217,
      "step": 200500
    },
    {
      "epoch": 0.41772916666666665,
      "grad_norm": 0.8520360589027405,
      "learning_rate": 0.00018944781277383313,
      "loss": 3.9252,
      "step": 200510
    },
    {
      "epoch": 0.41775,
      "grad_norm": 0.7814285755157471,
      "learning_rate": 0.00018943830115729352,
      "loss": 4.0143,
      "step": 200520
    },
    {
      "epoch": 0.4177708333333333,
      "grad_norm": 0.9357162714004517,
      "learning_rate": 0.00018942878937039606,
      "loss": 3.865,
      "step": 200530
    },
    {
      "epoch": 0.4177916666666667,
      "grad_norm": 0.781617283821106,
      "learning_rate": 0.00018941927741318191,
      "loss": 3.9313,
      "step": 200540
    },
    {
      "epoch": 0.4178125,
      "grad_norm": 0.7611327767372131,
      "learning_rate": 0.00018940976528569205,
      "loss": 3.9194,
      "step": 200550
    },
    {
      "epoch": 0.41783333333333333,
      "grad_norm": 0.7963621616363525,
      "learning_rate": 0.0001894002529879676,
      "loss": 3.8374,
      "step": 200560
    },
    {
      "epoch": 0.4178541666666667,
      "grad_norm": 0.8972395658493042,
      "learning_rate": 0.00018939074052004963,
      "loss": 3.8128,
      "step": 200570
    },
    {
      "epoch": 0.417875,
      "grad_norm": 0.7764529585838318,
      "learning_rate": 0.00018938122788197926,
      "loss": 3.9906,
      "step": 200580
    },
    {
      "epoch": 0.41789583333333336,
      "grad_norm": 0.8317456245422363,
      "learning_rate": 0.0001893717150737976,
      "loss": 4.1401,
      "step": 200590
    },
    {
      "epoch": 0.41791666666666666,
      "grad_norm": 0.9578794836997986,
      "learning_rate": 0.0001893622020955457,
      "loss": 3.9648,
      "step": 200600
    },
    {
      "epoch": 0.4179375,
      "grad_norm": 0.740721583366394,
      "learning_rate": 0.00018935268894726463,
      "loss": 3.9283,
      "step": 200610
    },
    {
      "epoch": 0.4179583333333333,
      "grad_norm": 0.8334965705871582,
      "learning_rate": 0.0001893431756289956,
      "loss": 3.9436,
      "step": 200620
    },
    {
      "epoch": 0.4179791666666667,
      "grad_norm": 0.797632098197937,
      "learning_rate": 0.00018933366214077954,
      "loss": 3.8397,
      "step": 200630
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.8283674716949463,
      "learning_rate": 0.00018932414848265767,
      "loss": 3.913,
      "step": 200640
    },
    {
      "epoch": 0.41802083333333334,
      "grad_norm": 0.7870818376541138,
      "learning_rate": 0.0001893146346546711,
      "loss": 3.7646,
      "step": 200650
    },
    {
      "epoch": 0.41804166666666664,
      "grad_norm": 0.8225062489509583,
      "learning_rate": 0.00018930512065686074,
      "loss": 3.9674,
      "step": 200660
    },
    {
      "epoch": 0.4180625,
      "grad_norm": 0.8961771726608276,
      "learning_rate": 0.0001892956064892679,
      "loss": 4.0391,
      "step": 200670
    },
    {
      "epoch": 0.4180833333333333,
      "grad_norm": 0.9823199510574341,
      "learning_rate": 0.00018928609215193364,
      "loss": 3.9035,
      "step": 200680
    },
    {
      "epoch": 0.41810416666666667,
      "grad_norm": 0.7550249099731445,
      "learning_rate": 0.00018927657764489895,
      "loss": 3.9741,
      "step": 200690
    },
    {
      "epoch": 0.418125,
      "grad_norm": 0.7868804335594177,
      "learning_rate": 0.00018926706296820494,
      "loss": 4.0698,
      "step": 200700
    },
    {
      "epoch": 0.4181458333333333,
      "grad_norm": 0.8146883845329285,
      "learning_rate": 0.00018925754812189287,
      "loss": 4.0419,
      "step": 200710
    },
    {
      "epoch": 0.4181666666666667,
      "grad_norm": 0.8525583148002625,
      "learning_rate": 0.00018924803310600368,
      "loss": 3.9176,
      "step": 200720
    },
    {
      "epoch": 0.4181875,
      "grad_norm": 0.8147372007369995,
      "learning_rate": 0.00018923851792057846,
      "loss": 4.0218,
      "step": 200730
    },
    {
      "epoch": 0.41820833333333335,
      "grad_norm": 0.7923517823219299,
      "learning_rate": 0.0001892290025656585,
      "loss": 3.9897,
      "step": 200740
    },
    {
      "epoch": 0.41822916666666665,
      "grad_norm": 0.811208963394165,
      "learning_rate": 0.00018921948704128468,
      "loss": 3.6914,
      "step": 200750
    },
    {
      "epoch": 0.41825,
      "grad_norm": 0.9613795280456543,
      "learning_rate": 0.00018920997134749826,
      "loss": 4.0383,
      "step": 200760
    },
    {
      "epoch": 0.4182708333333333,
      "grad_norm": 0.790678083896637,
      "learning_rate": 0.00018920045548434023,
      "loss": 4.0257,
      "step": 200770
    },
    {
      "epoch": 0.4182916666666667,
      "grad_norm": 0.8255969285964966,
      "learning_rate": 0.0001891909394518518,
      "loss": 4.064,
      "step": 200780
    },
    {
      "epoch": 0.4183125,
      "grad_norm": 0.9011142253875732,
      "learning_rate": 0.00018918142325007403,
      "loss": 3.9326,
      "step": 200790
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 0.810218095779419,
      "learning_rate": 0.00018917190687904795,
      "loss": 3.9269,
      "step": 200800
    },
    {
      "epoch": 0.4183541666666667,
      "grad_norm": 0.940338671207428,
      "learning_rate": 0.00018916239033881478,
      "loss": 3.7672,
      "step": 200810
    },
    {
      "epoch": 0.418375,
      "grad_norm": 0.914323091506958,
      "learning_rate": 0.00018915287362941563,
      "loss": 3.8349,
      "step": 200820
    },
    {
      "epoch": 0.41839583333333336,
      "grad_norm": 0.8709378242492676,
      "learning_rate": 0.00018914335675089148,
      "loss": 3.7063,
      "step": 200830
    },
    {
      "epoch": 0.41841666666666666,
      "grad_norm": 0.8751447200775146,
      "learning_rate": 0.00018913383970328357,
      "loss": 3.9534,
      "step": 200840
    },
    {
      "epoch": 0.4184375,
      "grad_norm": 0.8748767375946045,
      "learning_rate": 0.00018912432248663295,
      "loss": 3.9931,
      "step": 200850
    },
    {
      "epoch": 0.4184583333333333,
      "grad_norm": 0.8014135360717773,
      "learning_rate": 0.00018911480510098078,
      "loss": 3.8033,
      "step": 200860
    },
    {
      "epoch": 0.4184791666666667,
      "grad_norm": 0.9037374258041382,
      "learning_rate": 0.00018910528754636805,
      "loss": 3.9214,
      "step": 200870
    },
    {
      "epoch": 0.4185,
      "grad_norm": 0.812118649482727,
      "learning_rate": 0.00018909576982283606,
      "loss": 3.8567,
      "step": 200880
    },
    {
      "epoch": 0.41852083333333334,
      "grad_norm": 1.705773115158081,
      "learning_rate": 0.00018908625193042578,
      "loss": 3.6942,
      "step": 200890
    },
    {
      "epoch": 0.41854166666666665,
      "grad_norm": 0.9540640711784363,
      "learning_rate": 0.00018907673386917833,
      "loss": 3.9082,
      "step": 200900
    },
    {
      "epoch": 0.4185625,
      "grad_norm": 0.8294951915740967,
      "learning_rate": 0.00018906721563913487,
      "loss": 4.0599,
      "step": 200910
    },
    {
      "epoch": 0.4185833333333333,
      "grad_norm": 2.1800520420074463,
      "learning_rate": 0.00018905769724033653,
      "loss": 4.0742,
      "step": 200920
    },
    {
      "epoch": 0.41860416666666667,
      "grad_norm": 0.9038340449333191,
      "learning_rate": 0.00018904817867282438,
      "loss": 3.833,
      "step": 200930
    },
    {
      "epoch": 0.418625,
      "grad_norm": 0.8483964204788208,
      "learning_rate": 0.00018903865993663953,
      "loss": 3.9317,
      "step": 200940
    },
    {
      "epoch": 0.41864583333333333,
      "grad_norm": 0.932168185710907,
      "learning_rate": 0.00018902914103182316,
      "loss": 3.9371,
      "step": 200950
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 0.9818368554115295,
      "learning_rate": 0.00018901962195841632,
      "loss": 3.9323,
      "step": 200960
    },
    {
      "epoch": 0.4186875,
      "grad_norm": 0.7734552621841431,
      "learning_rate": 0.00018901010271646018,
      "loss": 3.9024,
      "step": 200970
    },
    {
      "epoch": 0.41870833333333335,
      "grad_norm": 0.9086999297142029,
      "learning_rate": 0.00018900058330599583,
      "loss": 3.7996,
      "step": 200980
    },
    {
      "epoch": 0.41872916666666665,
      "grad_norm": 0.8762370944023132,
      "learning_rate": 0.00018899106372706446,
      "loss": 4.0286,
      "step": 200990
    },
    {
      "epoch": 0.41875,
      "grad_norm": 0.869947075843811,
      "learning_rate": 0.000188981543979707,
      "loss": 3.7844,
      "step": 201000
    },
    {
      "epoch": 0.41875,
      "eval_loss": 3.6687703132629395,
      "eval_runtime": 7.2629,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 201000
    },
    {
      "epoch": 0.4187708333333333,
      "grad_norm": 0.7853095531463623,
      "learning_rate": 0.00018897202406396478,
      "loss": 3.8418,
      "step": 201010
    },
    {
      "epoch": 0.4187916666666667,
      "grad_norm": 0.8581950664520264,
      "learning_rate": 0.00018896250397987886,
      "loss": 3.8715,
      "step": 201020
    },
    {
      "epoch": 0.4188125,
      "grad_norm": 0.9057934880256653,
      "learning_rate": 0.00018895298372749027,
      "loss": 3.8561,
      "step": 201030
    },
    {
      "epoch": 0.41883333333333334,
      "grad_norm": 0.769201934337616,
      "learning_rate": 0.00018894346330684028,
      "loss": 3.9139,
      "step": 201040
    },
    {
      "epoch": 0.4188541666666667,
      "grad_norm": 0.8940995931625366,
      "learning_rate": 0.00018893394271796995,
      "loss": 4.0062,
      "step": 201050
    },
    {
      "epoch": 0.418875,
      "grad_norm": 0.8662816286087036,
      "learning_rate": 0.00018892442196092032,
      "loss": 3.8522,
      "step": 201060
    },
    {
      "epoch": 0.41889583333333336,
      "grad_norm": 1.5651419162750244,
      "learning_rate": 0.00018891490103573264,
      "loss": 3.9403,
      "step": 201070
    },
    {
      "epoch": 0.41891666666666666,
      "grad_norm": 1.4630532264709473,
      "learning_rate": 0.000188905379942448,
      "loss": 3.8856,
      "step": 201080
    },
    {
      "epoch": 0.4189375,
      "grad_norm": 0.8780098557472229,
      "learning_rate": 0.00018889585868110751,
      "loss": 3.978,
      "step": 201090
    },
    {
      "epoch": 0.4189583333333333,
      "grad_norm": 0.7892767190933228,
      "learning_rate": 0.00018888633725175233,
      "loss": 4.0095,
      "step": 201100
    },
    {
      "epoch": 0.4189791666666667,
      "grad_norm": 0.7713834047317505,
      "learning_rate": 0.00018887681565442352,
      "loss": 4.1734,
      "step": 201110
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.8815500736236572,
      "learning_rate": 0.00018886729388916228,
      "loss": 3.861,
      "step": 201120
    },
    {
      "epoch": 0.41902083333333334,
      "grad_norm": 0.8738261461257935,
      "learning_rate": 0.0001888577719560097,
      "loss": 3.9786,
      "step": 201130
    },
    {
      "epoch": 0.41904166666666665,
      "grad_norm": 0.8403491973876953,
      "learning_rate": 0.00018884824985500694,
      "loss": 4.0625,
      "step": 201140
    },
    {
      "epoch": 0.4190625,
      "grad_norm": 0.9805476665496826,
      "learning_rate": 0.0001888387275861951,
      "loss": 4.1409,
      "step": 201150
    },
    {
      "epoch": 0.4190833333333333,
      "grad_norm": 0.8225404620170593,
      "learning_rate": 0.00018882920514961537,
      "loss": 3.9189,
      "step": 201160
    },
    {
      "epoch": 0.41910416666666667,
      "grad_norm": 0.76149582862854,
      "learning_rate": 0.0001888196825453088,
      "loss": 3.8977,
      "step": 201170
    },
    {
      "epoch": 0.419125,
      "grad_norm": 0.8918058276176453,
      "learning_rate": 0.0001888101597733166,
      "loss": 3.9199,
      "step": 201180
    },
    {
      "epoch": 0.41914583333333333,
      "grad_norm": 0.8363346457481384,
      "learning_rate": 0.0001888006368336799,
      "loss": 3.7479,
      "step": 201190
    },
    {
      "epoch": 0.4191666666666667,
      "grad_norm": 0.9857446551322937,
      "learning_rate": 0.00018879111372643973,
      "loss": 3.8991,
      "step": 201200
    },
    {
      "epoch": 0.4191875,
      "grad_norm": 0.7958643436431885,
      "learning_rate": 0.00018878159045163738,
      "loss": 3.9734,
      "step": 201210
    },
    {
      "epoch": 0.41920833333333335,
      "grad_norm": 0.8563844561576843,
      "learning_rate": 0.00018877206700931382,
      "loss": 4.0525,
      "step": 201220
    },
    {
      "epoch": 0.41922916666666665,
      "grad_norm": 0.8507603406906128,
      "learning_rate": 0.00018876254339951032,
      "loss": 3.8749,
      "step": 201230
    },
    {
      "epoch": 0.41925,
      "grad_norm": 0.8187161684036255,
      "learning_rate": 0.000188753019622268,
      "loss": 3.7918,
      "step": 201240
    },
    {
      "epoch": 0.4192708333333333,
      "grad_norm": 0.8773009777069092,
      "learning_rate": 0.00018874349567762794,
      "loss": 4.0695,
      "step": 201250
    },
    {
      "epoch": 0.4192916666666667,
      "grad_norm": 0.8711107969284058,
      "learning_rate": 0.00018873397156563134,
      "loss": 3.7624,
      "step": 201260
    },
    {
      "epoch": 0.4193125,
      "grad_norm": 0.7983685731887817,
      "learning_rate": 0.00018872444728631932,
      "loss": 3.9377,
      "step": 201270
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 1.0443923473358154,
      "learning_rate": 0.000188714922839733,
      "loss": 3.8369,
      "step": 201280
    },
    {
      "epoch": 0.41935416666666664,
      "grad_norm": 0.733342707157135,
      "learning_rate": 0.00018870539822591354,
      "loss": 3.9658,
      "step": 201290
    },
    {
      "epoch": 0.419375,
      "grad_norm": 0.7818321585655212,
      "learning_rate": 0.00018869587344490208,
      "loss": 3.8421,
      "step": 201300
    },
    {
      "epoch": 0.41939583333333336,
      "grad_norm": 0.7587990760803223,
      "learning_rate": 0.00018868634849673977,
      "loss": 4.0145,
      "step": 201310
    },
    {
      "epoch": 0.41941666666666666,
      "grad_norm": 0.8237298727035522,
      "learning_rate": 0.00018867682338146772,
      "loss": 3.8569,
      "step": 201320
    },
    {
      "epoch": 0.4194375,
      "grad_norm": 0.7636311054229736,
      "learning_rate": 0.00018866729809912712,
      "loss": 3.9928,
      "step": 201330
    },
    {
      "epoch": 0.4194583333333333,
      "grad_norm": 0.837539553642273,
      "learning_rate": 0.00018865777264975912,
      "loss": 3.9823,
      "step": 201340
    },
    {
      "epoch": 0.4194791666666667,
      "grad_norm": 0.8686155080795288,
      "learning_rate": 0.00018864824703340485,
      "loss": 4.0035,
      "step": 201350
    },
    {
      "epoch": 0.4195,
      "grad_norm": 0.8687475323677063,
      "learning_rate": 0.0001886387212501054,
      "loss": 3.9189,
      "step": 201360
    },
    {
      "epoch": 0.41952083333333334,
      "grad_norm": 0.9069444537162781,
      "learning_rate": 0.00018862919529990198,
      "loss": 3.9929,
      "step": 201370
    },
    {
      "epoch": 0.41954166666666665,
      "grad_norm": 0.9291727542877197,
      "learning_rate": 0.00018861966918283578,
      "loss": 3.8986,
      "step": 201380
    },
    {
      "epoch": 0.4195625,
      "grad_norm": 0.7713142037391663,
      "learning_rate": 0.00018861014289894788,
      "loss": 3.6646,
      "step": 201390
    },
    {
      "epoch": 0.4195833333333333,
      "grad_norm": 0.8195651173591614,
      "learning_rate": 0.00018860061644827936,
      "loss": 4.0817,
      "step": 201400
    },
    {
      "epoch": 0.41960416666666667,
      "grad_norm": 0.7514854669570923,
      "learning_rate": 0.00018859108983087155,
      "loss": 4.0527,
      "step": 201410
    },
    {
      "epoch": 0.419625,
      "grad_norm": 0.8474819660186768,
      "learning_rate": 0.0001885815630467655,
      "loss": 3.8813,
      "step": 201420
    },
    {
      "epoch": 0.41964583333333333,
      "grad_norm": 0.9127298593521118,
      "learning_rate": 0.00018857203609600232,
      "loss": 4.0384,
      "step": 201430
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 0.8342463970184326,
      "learning_rate": 0.00018856250897862322,
      "loss": 3.9075,
      "step": 201440
    },
    {
      "epoch": 0.4196875,
      "grad_norm": 0.9298831820487976,
      "learning_rate": 0.00018855298169466938,
      "loss": 3.8485,
      "step": 201450
    },
    {
      "epoch": 0.41970833333333335,
      "grad_norm": 1.0280342102050781,
      "learning_rate": 0.0001885434542441819,
      "loss": 4.0478,
      "step": 201460
    },
    {
      "epoch": 0.41972916666666665,
      "grad_norm": 1.0498396158218384,
      "learning_rate": 0.00018853392662720195,
      "loss": 3.9839,
      "step": 201470
    },
    {
      "epoch": 0.41975,
      "grad_norm": 0.7986411452293396,
      "learning_rate": 0.0001885243988437707,
      "loss": 4.0792,
      "step": 201480
    },
    {
      "epoch": 0.4197708333333333,
      "grad_norm": 0.8286328315734863,
      "learning_rate": 0.00018851487089392932,
      "loss": 3.9901,
      "step": 201490
    },
    {
      "epoch": 0.4197916666666667,
      "grad_norm": 0.8655912280082703,
      "learning_rate": 0.0001885053427777189,
      "loss": 3.8329,
      "step": 201500
    },
    {
      "epoch": 0.4198125,
      "grad_norm": 0.892143189907074,
      "learning_rate": 0.00018849581449518064,
      "loss": 4.0526,
      "step": 201510
    },
    {
      "epoch": 0.41983333333333334,
      "grad_norm": 0.7585766911506653,
      "learning_rate": 0.00018848628604635576,
      "loss": 3.853,
      "step": 201520
    },
    {
      "epoch": 0.41985416666666664,
      "grad_norm": 0.8114873170852661,
      "learning_rate": 0.00018847675743128528,
      "loss": 3.9002,
      "step": 201530
    },
    {
      "epoch": 0.419875,
      "grad_norm": 0.823434054851532,
      "learning_rate": 0.00018846722865001046,
      "loss": 4.0862,
      "step": 201540
    },
    {
      "epoch": 0.41989583333333336,
      "grad_norm": 0.8757217526435852,
      "learning_rate": 0.00018845769970257247,
      "loss": 4.097,
      "step": 201550
    },
    {
      "epoch": 0.41991666666666666,
      "grad_norm": 0.8862162828445435,
      "learning_rate": 0.00018844817058901242,
      "loss": 3.904,
      "step": 201560
    },
    {
      "epoch": 0.4199375,
      "grad_norm": 0.9161386489868164,
      "learning_rate": 0.00018843864130937147,
      "loss": 3.8334,
      "step": 201570
    },
    {
      "epoch": 0.4199583333333333,
      "grad_norm": 0.8465360999107361,
      "learning_rate": 0.00018842911186369086,
      "loss": 3.786,
      "step": 201580
    },
    {
      "epoch": 0.4199791666666667,
      "grad_norm": 0.8235177993774414,
      "learning_rate": 0.00018841958225201166,
      "loss": 3.8048,
      "step": 201590
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7509612441062927,
      "learning_rate": 0.00018841005247437502,
      "loss": 4.0473,
      "step": 201600
    },
    {
      "epoch": 0.42002083333333334,
      "grad_norm": 0.8694748878479004,
      "learning_rate": 0.00018840052253082227,
      "loss": 3.929,
      "step": 201610
    },
    {
      "epoch": 0.42004166666666665,
      "grad_norm": 0.7659242749214172,
      "learning_rate": 0.00018839099242139442,
      "loss": 3.9737,
      "step": 201620
    },
    {
      "epoch": 0.4200625,
      "grad_norm": 0.8296797275543213,
      "learning_rate": 0.00018838146214613267,
      "loss": 4.1535,
      "step": 201630
    },
    {
      "epoch": 0.4200833333333333,
      "grad_norm": 0.841835618019104,
      "learning_rate": 0.0001883719317050782,
      "loss": 4.008,
      "step": 201640
    },
    {
      "epoch": 0.42010416666666667,
      "grad_norm": 0.8476245403289795,
      "learning_rate": 0.00018836240109827213,
      "loss": 4.0146,
      "step": 201650
    },
    {
      "epoch": 0.420125,
      "grad_norm": 0.8342917561531067,
      "learning_rate": 0.0001883528703257557,
      "loss": 4.2438,
      "step": 201660
    },
    {
      "epoch": 0.42014583333333333,
      "grad_norm": 0.9187431335449219,
      "learning_rate": 0.00018834333938757005,
      "loss": 3.9595,
      "step": 201670
    },
    {
      "epoch": 0.4201666666666667,
      "grad_norm": 0.8265174031257629,
      "learning_rate": 0.00018833380828375636,
      "loss": 3.8555,
      "step": 201680
    },
    {
      "epoch": 0.4201875,
      "grad_norm": 0.9368773698806763,
      "learning_rate": 0.00018832427701435584,
      "loss": 4.038,
      "step": 201690
    },
    {
      "epoch": 0.42020833333333335,
      "grad_norm": 0.9292174577713013,
      "learning_rate": 0.00018831474557940954,
      "loss": 3.8191,
      "step": 201700
    },
    {
      "epoch": 0.42022916666666665,
      "grad_norm": 0.885375440120697,
      "learning_rate": 0.0001883052139789587,
      "loss": 3.9603,
      "step": 201710
    },
    {
      "epoch": 0.42025,
      "grad_norm": 0.7906859517097473,
      "learning_rate": 0.00018829568221304457,
      "loss": 3.9785,
      "step": 201720
    },
    {
      "epoch": 0.4202708333333333,
      "grad_norm": 0.8008785843849182,
      "learning_rate": 0.00018828615028170819,
      "loss": 3.8237,
      "step": 201730
    },
    {
      "epoch": 0.4202916666666667,
      "grad_norm": 0.8920891880989075,
      "learning_rate": 0.0001882766181849908,
      "loss": 3.9627,
      "step": 201740
    },
    {
      "epoch": 0.4203125,
      "grad_norm": 1.426617980003357,
      "learning_rate": 0.0001882670859229336,
      "loss": 4.1608,
      "step": 201750
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 0.9078603386878967,
      "learning_rate": 0.0001882575534955777,
      "loss": 4.0084,
      "step": 201760
    },
    {
      "epoch": 0.42035416666666664,
      "grad_norm": 0.9206089973449707,
      "learning_rate": 0.00018824802090296433,
      "loss": 3.9358,
      "step": 201770
    },
    {
      "epoch": 0.420375,
      "grad_norm": 0.7893168926239014,
      "learning_rate": 0.00018823848814513466,
      "loss": 3.9861,
      "step": 201780
    },
    {
      "epoch": 0.42039583333333336,
      "grad_norm": 0.7904237508773804,
      "learning_rate": 0.00018822895522212988,
      "loss": 4.0016,
      "step": 201790
    },
    {
      "epoch": 0.42041666666666666,
      "grad_norm": 0.7860268354415894,
      "learning_rate": 0.00018821942213399111,
      "loss": 3.9331,
      "step": 201800
    },
    {
      "epoch": 0.4204375,
      "grad_norm": 0.885250449180603,
      "learning_rate": 0.00018820988888075955,
      "loss": 4.0164,
      "step": 201810
    },
    {
      "epoch": 0.4204583333333333,
      "grad_norm": 0.8602339029312134,
      "learning_rate": 0.00018820035546247642,
      "loss": 4.0353,
      "step": 201820
    },
    {
      "epoch": 0.4204791666666667,
      "grad_norm": 0.8657413125038147,
      "learning_rate": 0.00018819082187918287,
      "loss": 3.8463,
      "step": 201830
    },
    {
      "epoch": 0.4205,
      "grad_norm": 1.0890378952026367,
      "learning_rate": 0.0001881812881309201,
      "loss": 4.1263,
      "step": 201840
    },
    {
      "epoch": 0.42052083333333334,
      "grad_norm": 0.8279128670692444,
      "learning_rate": 0.00018817175421772926,
      "loss": 3.8249,
      "step": 201850
    },
    {
      "epoch": 0.42054166666666665,
      "grad_norm": 0.826072096824646,
      "learning_rate": 0.00018816222013965156,
      "loss": 3.8571,
      "step": 201860
    },
    {
      "epoch": 0.4205625,
      "grad_norm": 0.8240129947662354,
      "learning_rate": 0.00018815268589672814,
      "loss": 3.9447,
      "step": 201870
    },
    {
      "epoch": 0.4205833333333333,
      "grad_norm": 0.7686882019042969,
      "learning_rate": 0.0001881431514890003,
      "loss": 4.0035,
      "step": 201880
    },
    {
      "epoch": 0.42060416666666667,
      "grad_norm": 1.3064727783203125,
      "learning_rate": 0.00018813361691650908,
      "loss": 3.8147,
      "step": 201890
    },
    {
      "epoch": 0.420625,
      "grad_norm": 0.8353341817855835,
      "learning_rate": 0.00018812408217929572,
      "loss": 3.8099,
      "step": 201900
    },
    {
      "epoch": 0.42064583333333333,
      "grad_norm": 0.9054372310638428,
      "learning_rate": 0.00018811454727740145,
      "loss": 3.9061,
      "step": 201910
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 0.8757140636444092,
      "learning_rate": 0.00018810501221086742,
      "loss": 3.9917,
      "step": 201920
    },
    {
      "epoch": 0.4206875,
      "grad_norm": 0.8882573246955872,
      "learning_rate": 0.00018809547697973478,
      "loss": 4.1024,
      "step": 201930
    },
    {
      "epoch": 0.42070833333333335,
      "grad_norm": 0.7734190225601196,
      "learning_rate": 0.0001880859415840448,
      "loss": 3.9817,
      "step": 201940
    },
    {
      "epoch": 0.42072916666666665,
      "grad_norm": 0.8454214334487915,
      "learning_rate": 0.00018807640602383865,
      "loss": 4.0014,
      "step": 201950
    },
    {
      "epoch": 0.42075,
      "grad_norm": 0.8774507641792297,
      "learning_rate": 0.00018806687029915745,
      "loss": 3.9626,
      "step": 201960
    },
    {
      "epoch": 0.4207708333333333,
      "grad_norm": 1.0208244323730469,
      "learning_rate": 0.00018805733441004246,
      "loss": 3.9147,
      "step": 201970
    },
    {
      "epoch": 0.4207916666666667,
      "grad_norm": 0.7936369180679321,
      "learning_rate": 0.00018804779835653485,
      "loss": 3.8951,
      "step": 201980
    },
    {
      "epoch": 0.4208125,
      "grad_norm": 0.7943185567855835,
      "learning_rate": 0.00018803826213867577,
      "loss": 4.0345,
      "step": 201990
    },
    {
      "epoch": 0.42083333333333334,
      "grad_norm": 0.805519700050354,
      "learning_rate": 0.0001880287257565065,
      "loss": 3.8222,
      "step": 202000
    },
    {
      "epoch": 0.42083333333333334,
      "eval_loss": 3.681863784790039,
      "eval_runtime": 6.8236,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.44,
      "step": 202000
    },
    {
      "epoch": 0.42085416666666664,
      "grad_norm": 0.8648291230201721,
      "learning_rate": 0.00018801918921006818,
      "loss": 3.6859,
      "step": 202010
    },
    {
      "epoch": 0.420875,
      "grad_norm": 0.8368368744850159,
      "learning_rate": 0.000188009652499402,
      "loss": 3.8272,
      "step": 202020
    },
    {
      "epoch": 0.42089583333333336,
      "grad_norm": 0.8734549880027771,
      "learning_rate": 0.00018800011562454918,
      "loss": 3.9323,
      "step": 202030
    },
    {
      "epoch": 0.42091666666666666,
      "grad_norm": 0.8093994855880737,
      "learning_rate": 0.00018799057858555086,
      "loss": 3.9236,
      "step": 202040
    },
    {
      "epoch": 0.4209375,
      "grad_norm": 0.8042486906051636,
      "learning_rate": 0.00018798104138244835,
      "loss": 3.9562,
      "step": 202050
    },
    {
      "epoch": 0.4209583333333333,
      "grad_norm": 1.0533367395401,
      "learning_rate": 0.00018797150401528274,
      "loss": 4.267,
      "step": 202060
    },
    {
      "epoch": 0.4209791666666667,
      "grad_norm": 0.7545850872993469,
      "learning_rate": 0.00018796196648409523,
      "loss": 3.8627,
      "step": 202070
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.9137336015701294,
      "learning_rate": 0.0001879524287889271,
      "loss": 4.0055,
      "step": 202080
    },
    {
      "epoch": 0.42102083333333334,
      "grad_norm": 1.004294991493225,
      "learning_rate": 0.0001879428909298195,
      "loss": 3.8465,
      "step": 202090
    },
    {
      "epoch": 0.42104166666666665,
      "grad_norm": 1.1727501153945923,
      "learning_rate": 0.0001879333529068136,
      "loss": 3.9419,
      "step": 202100
    },
    {
      "epoch": 0.4210625,
      "grad_norm": 0.83233243227005,
      "learning_rate": 0.00018792381471995065,
      "loss": 4.03,
      "step": 202110
    },
    {
      "epoch": 0.4210833333333333,
      "grad_norm": 1.0183781385421753,
      "learning_rate": 0.00018791427636927183,
      "loss": 3.9685,
      "step": 202120
    },
    {
      "epoch": 0.42110416666666667,
      "grad_norm": 0.819082498550415,
      "learning_rate": 0.00018790473785481834,
      "loss": 4.0015,
      "step": 202130
    },
    {
      "epoch": 0.421125,
      "grad_norm": 0.8555425405502319,
      "learning_rate": 0.0001878951991766314,
      "loss": 4.1513,
      "step": 202140
    },
    {
      "epoch": 0.42114583333333333,
      "grad_norm": 0.856078565120697,
      "learning_rate": 0.00018788566033475218,
      "loss": 3.8383,
      "step": 202150
    },
    {
      "epoch": 0.4211666666666667,
      "grad_norm": 0.8086835741996765,
      "learning_rate": 0.0001878761213292219,
      "loss": 3.9555,
      "step": 202160
    },
    {
      "epoch": 0.4211875,
      "grad_norm": 1.4384217262268066,
      "learning_rate": 0.0001878665821600818,
      "loss": 4.0402,
      "step": 202170
    },
    {
      "epoch": 0.42120833333333335,
      "grad_norm": 0.804552435874939,
      "learning_rate": 0.000187857042827373,
      "loss": 3.9626,
      "step": 202180
    },
    {
      "epoch": 0.42122916666666665,
      "grad_norm": 0.7598708271980286,
      "learning_rate": 0.0001878475033311368,
      "loss": 4.128,
      "step": 202190
    },
    {
      "epoch": 0.42125,
      "grad_norm": 0.8070959448814392,
      "learning_rate": 0.00018783796367141437,
      "loss": 3.9854,
      "step": 202200
    },
    {
      "epoch": 0.4212708333333333,
      "grad_norm": 0.8491010069847107,
      "learning_rate": 0.00018782842384824686,
      "loss": 4.1108,
      "step": 202210
    },
    {
      "epoch": 0.4212916666666667,
      "grad_norm": 0.7918896675109863,
      "learning_rate": 0.00018781888386167558,
      "loss": 4.1175,
      "step": 202220
    },
    {
      "epoch": 0.4213125,
      "grad_norm": 1.026304006576538,
      "learning_rate": 0.00018780934371174168,
      "loss": 3.9029,
      "step": 202230
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 0.7721855640411377,
      "learning_rate": 0.0001877998033984864,
      "loss": 4.1267,
      "step": 202240
    },
    {
      "epoch": 0.42135416666666664,
      "grad_norm": 0.8358121514320374,
      "learning_rate": 0.00018779026292195096,
      "loss": 4.1025,
      "step": 202250
    },
    {
      "epoch": 0.421375,
      "grad_norm": 0.9128806591033936,
      "learning_rate": 0.0001877807222821765,
      "loss": 4.0035,
      "step": 202260
    },
    {
      "epoch": 0.42139583333333336,
      "grad_norm": 0.8892799615859985,
      "learning_rate": 0.0001877711814792042,
      "loss": 3.9092,
      "step": 202270
    },
    {
      "epoch": 0.42141666666666666,
      "grad_norm": 0.8540882468223572,
      "learning_rate": 0.00018776164051307546,
      "loss": 3.8827,
      "step": 202280
    },
    {
      "epoch": 0.4214375,
      "grad_norm": 0.963962197303772,
      "learning_rate": 0.00018775209938383137,
      "loss": 3.914,
      "step": 202290
    },
    {
      "epoch": 0.4214583333333333,
      "grad_norm": 0.8716402053833008,
      "learning_rate": 0.0001877425580915131,
      "loss": 4.0143,
      "step": 202300
    },
    {
      "epoch": 0.4214791666666667,
      "grad_norm": 0.7998384237289429,
      "learning_rate": 0.00018773301663616197,
      "loss": 3.9644,
      "step": 202310
    },
    {
      "epoch": 0.4215,
      "grad_norm": 0.9051300287246704,
      "learning_rate": 0.00018772347501781912,
      "loss": 3.889,
      "step": 202320
    },
    {
      "epoch": 0.42152083333333334,
      "grad_norm": 0.8326547145843506,
      "learning_rate": 0.00018771393323652576,
      "loss": 3.8291,
      "step": 202330
    },
    {
      "epoch": 0.42154166666666665,
      "grad_norm": 0.8410218358039856,
      "learning_rate": 0.00018770439129232316,
      "loss": 4.0772,
      "step": 202340
    },
    {
      "epoch": 0.4215625,
      "grad_norm": 0.7810630798339844,
      "learning_rate": 0.00018769484918525255,
      "loss": 3.9038,
      "step": 202350
    },
    {
      "epoch": 0.4215833333333333,
      "grad_norm": 0.8181947469711304,
      "learning_rate": 0.00018768530691535507,
      "loss": 3.8809,
      "step": 202360
    },
    {
      "epoch": 0.42160416666666667,
      "grad_norm": 0.7764336466789246,
      "learning_rate": 0.00018767576448267196,
      "loss": 4.0138,
      "step": 202370
    },
    {
      "epoch": 0.421625,
      "grad_norm": 0.8770508766174316,
      "learning_rate": 0.00018766622188724451,
      "loss": 4.261,
      "step": 202380
    },
    {
      "epoch": 0.42164583333333333,
      "grad_norm": 0.9129111170768738,
      "learning_rate": 0.00018765667912911391,
      "loss": 3.7832,
      "step": 202390
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 0.8257340788841248,
      "learning_rate": 0.0001876471362083213,
      "loss": 4.2336,
      "step": 202400
    },
    {
      "epoch": 0.4216875,
      "grad_norm": 0.9867520332336426,
      "learning_rate": 0.00018763759312490796,
      "loss": 3.7502,
      "step": 202410
    },
    {
      "epoch": 0.42170833333333335,
      "grad_norm": 0.8745639324188232,
      "learning_rate": 0.0001876280498789152,
      "loss": 4.0631,
      "step": 202420
    },
    {
      "epoch": 0.42172916666666665,
      "grad_norm": 0.8749874234199524,
      "learning_rate": 0.0001876185064703841,
      "loss": 4.1268,
      "step": 202430
    },
    {
      "epoch": 0.42175,
      "grad_norm": 0.8506646156311035,
      "learning_rate": 0.0001876089628993559,
      "loss": 3.9043,
      "step": 202440
    },
    {
      "epoch": 0.4217708333333333,
      "grad_norm": 0.8937781453132629,
      "learning_rate": 0.00018759941916587195,
      "loss": 3.9261,
      "step": 202450
    },
    {
      "epoch": 0.4217916666666667,
      "grad_norm": 0.8738065958023071,
      "learning_rate": 0.00018758987526997333,
      "loss": 3.9267,
      "step": 202460
    },
    {
      "epoch": 0.4218125,
      "grad_norm": 0.7865692377090454,
      "learning_rate": 0.00018758033121170134,
      "loss": 3.8924,
      "step": 202470
    },
    {
      "epoch": 0.42183333333333334,
      "grad_norm": 0.8797286748886108,
      "learning_rate": 0.00018757078699109723,
      "loss": 4.0232,
      "step": 202480
    },
    {
      "epoch": 0.42185416666666664,
      "grad_norm": 0.7933028936386108,
      "learning_rate": 0.00018756124260820218,
      "loss": 3.9537,
      "step": 202490
    },
    {
      "epoch": 0.421875,
      "grad_norm": 0.7932745814323425,
      "learning_rate": 0.0001875516980630574,
      "loss": 4.0425,
      "step": 202500
    },
    {
      "epoch": 0.42189583333333336,
      "grad_norm": 0.9863976836204529,
      "learning_rate": 0.00018754215335570415,
      "loss": 3.7546,
      "step": 202510
    },
    {
      "epoch": 0.42191666666666666,
      "grad_norm": 0.8137221336364746,
      "learning_rate": 0.0001875326084861837,
      "loss": 4.168,
      "step": 202520
    },
    {
      "epoch": 0.4219375,
      "grad_norm": 0.8252283930778503,
      "learning_rate": 0.00018752306345453718,
      "loss": 3.8971,
      "step": 202530
    },
    {
      "epoch": 0.4219583333333333,
      "grad_norm": 0.7837119102478027,
      "learning_rate": 0.00018751351826080595,
      "loss": 3.8277,
      "step": 202540
    },
    {
      "epoch": 0.4219791666666667,
      "grad_norm": 0.8489115834236145,
      "learning_rate": 0.0001875039729050311,
      "loss": 3.9299,
      "step": 202550
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.9010860919952393,
      "learning_rate": 0.000187494427387254,
      "loss": 3.9573,
      "step": 202560
    },
    {
      "epoch": 0.42202083333333335,
      "grad_norm": 0.8952311873435974,
      "learning_rate": 0.00018748488170751575,
      "loss": 3.9711,
      "step": 202570
    },
    {
      "epoch": 0.42204166666666665,
      "grad_norm": 0.9320692420005798,
      "learning_rate": 0.00018747533586585768,
      "loss": 3.9427,
      "step": 202580
    },
    {
      "epoch": 0.4220625,
      "grad_norm": 0.7912869453430176,
      "learning_rate": 0.000187465789862321,
      "loss": 4.2451,
      "step": 202590
    },
    {
      "epoch": 0.4220833333333333,
      "grad_norm": 1.5069233179092407,
      "learning_rate": 0.00018745624369694692,
      "loss": 3.9733,
      "step": 202600
    },
    {
      "epoch": 0.42210416666666667,
      "grad_norm": 0.862002432346344,
      "learning_rate": 0.0001874466973697767,
      "loss": 3.8178,
      "step": 202610
    },
    {
      "epoch": 0.422125,
      "grad_norm": 0.7524784803390503,
      "learning_rate": 0.00018743715088085158,
      "loss": 3.986,
      "step": 202620
    },
    {
      "epoch": 0.42214583333333333,
      "grad_norm": 1.0083014965057373,
      "learning_rate": 0.00018742760423021276,
      "loss": 3.9155,
      "step": 202630
    },
    {
      "epoch": 0.4221666666666667,
      "grad_norm": 0.9067249894142151,
      "learning_rate": 0.0001874180574179015,
      "loss": 4.1598,
      "step": 202640
    },
    {
      "epoch": 0.4221875,
      "grad_norm": 0.8322057127952576,
      "learning_rate": 0.00018740851044395912,
      "loss": 3.7918,
      "step": 202650
    },
    {
      "epoch": 0.42220833333333335,
      "grad_norm": 0.866970956325531,
      "learning_rate": 0.0001873989633084267,
      "loss": 3.9973,
      "step": 202660
    },
    {
      "epoch": 0.42222916666666666,
      "grad_norm": 0.7820824384689331,
      "learning_rate": 0.0001873894160113456,
      "loss": 4.2886,
      "step": 202670
    },
    {
      "epoch": 0.42225,
      "grad_norm": 0.7872247099876404,
      "learning_rate": 0.000187379868552757,
      "loss": 3.9306,
      "step": 202680
    },
    {
      "epoch": 0.4222708333333333,
      "grad_norm": 0.7968981266021729,
      "learning_rate": 0.00018737032093270217,
      "loss": 3.8311,
      "step": 202690
    },
    {
      "epoch": 0.4222916666666667,
      "grad_norm": 0.9689483642578125,
      "learning_rate": 0.00018736077315122237,
      "loss": 3.7111,
      "step": 202700
    },
    {
      "epoch": 0.4223125,
      "grad_norm": 0.8474080562591553,
      "learning_rate": 0.00018735122520835881,
      "loss": 4.0358,
      "step": 202710
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 0.8235282897949219,
      "learning_rate": 0.00018734167710415272,
      "loss": 3.9624,
      "step": 202720
    },
    {
      "epoch": 0.42235416666666664,
      "grad_norm": 0.9308937788009644,
      "learning_rate": 0.0001873321288386454,
      "loss": 3.8716,
      "step": 202730
    },
    {
      "epoch": 0.422375,
      "grad_norm": 0.8702054023742676,
      "learning_rate": 0.000187322580411878,
      "loss": 4.0319,
      "step": 202740
    },
    {
      "epoch": 0.42239583333333336,
      "grad_norm": 0.7429371476173401,
      "learning_rate": 0.00018731303182389187,
      "loss": 3.9615,
      "step": 202750
    },
    {
      "epoch": 0.42241666666666666,
      "grad_norm": 1.009324550628662,
      "learning_rate": 0.00018730348307472824,
      "loss": 3.9946,
      "step": 202760
    },
    {
      "epoch": 0.4224375,
      "grad_norm": 0.8814553022384644,
      "learning_rate": 0.00018729393416442824,
      "loss": 3.8791,
      "step": 202770
    },
    {
      "epoch": 0.4224583333333333,
      "grad_norm": 0.7619326114654541,
      "learning_rate": 0.00018728438509303327,
      "loss": 4.0318,
      "step": 202780
    },
    {
      "epoch": 0.4224791666666667,
      "grad_norm": 0.8678974509239197,
      "learning_rate": 0.00018727483586058452,
      "loss": 4.1154,
      "step": 202790
    },
    {
      "epoch": 0.4225,
      "grad_norm": 0.97206050157547,
      "learning_rate": 0.00018726528646712323,
      "loss": 3.9037,
      "step": 202800
    },
    {
      "epoch": 0.42252083333333335,
      "grad_norm": 0.8425601124763489,
      "learning_rate": 0.0001872557369126906,
      "loss": 3.8978,
      "step": 202810
    },
    {
      "epoch": 0.42254166666666665,
      "grad_norm": 0.8060911297798157,
      "learning_rate": 0.00018724618719732802,
      "loss": 4.0099,
      "step": 202820
    },
    {
      "epoch": 0.4225625,
      "grad_norm": 0.8279908895492554,
      "learning_rate": 0.0001872366373210766,
      "loss": 3.8566,
      "step": 202830
    },
    {
      "epoch": 0.4225833333333333,
      "grad_norm": 0.7984200119972229,
      "learning_rate": 0.00018722708728397764,
      "loss": 3.9745,
      "step": 202840
    },
    {
      "epoch": 0.42260416666666667,
      "grad_norm": 0.8238587975502014,
      "learning_rate": 0.00018721753708607244,
      "loss": 3.9422,
      "step": 202850
    },
    {
      "epoch": 0.422625,
      "grad_norm": 0.8399577736854553,
      "learning_rate": 0.00018720798672740218,
      "loss": 3.8497,
      "step": 202860
    },
    {
      "epoch": 0.42264583333333333,
      "grad_norm": 0.8051149845123291,
      "learning_rate": 0.00018719843620800816,
      "loss": 3.8739,
      "step": 202870
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 0.8661922812461853,
      "learning_rate": 0.00018718888552793158,
      "loss": 3.9274,
      "step": 202880
    },
    {
      "epoch": 0.4226875,
      "grad_norm": 1.0425018072128296,
      "learning_rate": 0.00018717933468721378,
      "loss": 3.8549,
      "step": 202890
    },
    {
      "epoch": 0.42270833333333335,
      "grad_norm": 0.86618572473526,
      "learning_rate": 0.00018716978368589596,
      "loss": 3.9609,
      "step": 202900
    },
    {
      "epoch": 0.42272916666666666,
      "grad_norm": 0.8073011636734009,
      "learning_rate": 0.00018716023252401937,
      "loss": 3.9646,
      "step": 202910
    },
    {
      "epoch": 0.42275,
      "grad_norm": 0.8346574306488037,
      "learning_rate": 0.0001871506812016253,
      "loss": 3.9216,
      "step": 202920
    },
    {
      "epoch": 0.4227708333333333,
      "grad_norm": 0.8440989851951599,
      "learning_rate": 0.00018714112971875504,
      "loss": 3.9174,
      "step": 202930
    },
    {
      "epoch": 0.4227916666666667,
      "grad_norm": 0.8071246147155762,
      "learning_rate": 0.0001871315780754497,
      "loss": 3.8998,
      "step": 202940
    },
    {
      "epoch": 0.4228125,
      "grad_norm": 0.9619473814964294,
      "learning_rate": 0.0001871220262717507,
      "loss": 3.9058,
      "step": 202950
    },
    {
      "epoch": 0.42283333333333334,
      "grad_norm": 0.8558412194252014,
      "learning_rate": 0.00018711247430769926,
      "loss": 3.96,
      "step": 202960
    },
    {
      "epoch": 0.42285416666666664,
      "grad_norm": 0.8364048600196838,
      "learning_rate": 0.00018710292218333653,
      "loss": 4.1533,
      "step": 202970
    },
    {
      "epoch": 0.422875,
      "grad_norm": 0.8213229179382324,
      "learning_rate": 0.00018709336989870397,
      "loss": 3.9242,
      "step": 202980
    },
    {
      "epoch": 0.42289583333333336,
      "grad_norm": 0.8343702554702759,
      "learning_rate": 0.0001870838174538427,
      "loss": 3.9463,
      "step": 202990
    },
    {
      "epoch": 0.42291666666666666,
      "grad_norm": 0.8612085580825806,
      "learning_rate": 0.000187074264848794,
      "loss": 4.0005,
      "step": 203000
    },
    {
      "epoch": 0.42291666666666666,
      "eval_loss": 3.664684772491455,
      "eval_runtime": 6.9291,
      "eval_samples_per_second": 1.443,
      "eval_steps_per_second": 0.433,
      "step": 203000
    },
    {
      "epoch": 0.4229375,
      "grad_norm": 0.8438289165496826,
      "learning_rate": 0.00018706471208359917,
      "loss": 3.8868,
      "step": 203010
    },
    {
      "epoch": 0.4229583333333333,
      "grad_norm": 0.862369179725647,
      "learning_rate": 0.00018705515915829943,
      "loss": 3.7863,
      "step": 203020
    },
    {
      "epoch": 0.4229791666666667,
      "grad_norm": 0.8530998826026917,
      "learning_rate": 0.0001870456060729361,
      "loss": 3.9089,
      "step": 203030
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.9866769909858704,
      "learning_rate": 0.00018703605282755037,
      "loss": 3.9278,
      "step": 203040
    },
    {
      "epoch": 0.42302083333333335,
      "grad_norm": 0.8235748410224915,
      "learning_rate": 0.0001870264994221836,
      "loss": 3.8675,
      "step": 203050
    },
    {
      "epoch": 0.42304166666666665,
      "grad_norm": 0.8358938097953796,
      "learning_rate": 0.00018701694585687695,
      "loss": 3.8159,
      "step": 203060
    },
    {
      "epoch": 0.4230625,
      "grad_norm": 0.8038859367370605,
      "learning_rate": 0.00018700739213167183,
      "loss": 3.8314,
      "step": 203070
    },
    {
      "epoch": 0.4230833333333333,
      "grad_norm": 1.2718088626861572,
      "learning_rate": 0.00018699783824660938,
      "loss": 3.9021,
      "step": 203080
    },
    {
      "epoch": 0.42310416666666667,
      "grad_norm": 0.8819329738616943,
      "learning_rate": 0.0001869882842017309,
      "loss": 3.9496,
      "step": 203090
    },
    {
      "epoch": 0.423125,
      "grad_norm": 0.7905398011207581,
      "learning_rate": 0.00018697872999707768,
      "loss": 3.819,
      "step": 203100
    },
    {
      "epoch": 0.42314583333333333,
      "grad_norm": 0.9240092635154724,
      "learning_rate": 0.000186969175632691,
      "loss": 3.8228,
      "step": 203110
    },
    {
      "epoch": 0.4231666666666667,
      "grad_norm": 0.9302168488502502,
      "learning_rate": 0.0001869596211086121,
      "loss": 3.8728,
      "step": 203120
    },
    {
      "epoch": 0.4231875,
      "grad_norm": 0.7673572301864624,
      "learning_rate": 0.0001869500664248823,
      "loss": 4.1648,
      "step": 203130
    },
    {
      "epoch": 0.42320833333333335,
      "grad_norm": 0.826640248298645,
      "learning_rate": 0.00018694051158154278,
      "loss": 3.7644,
      "step": 203140
    },
    {
      "epoch": 0.42322916666666666,
      "grad_norm": 0.8093616366386414,
      "learning_rate": 0.00018693095657863496,
      "loss": 4.0297,
      "step": 203150
    },
    {
      "epoch": 0.42325,
      "grad_norm": 0.8599641919136047,
      "learning_rate": 0.00018692140141619994,
      "loss": 3.8655,
      "step": 203160
    },
    {
      "epoch": 0.4232708333333333,
      "grad_norm": 0.7878981232643127,
      "learning_rate": 0.00018691184609427906,
      "loss": 3.9575,
      "step": 203170
    },
    {
      "epoch": 0.4232916666666667,
      "grad_norm": 0.8859357833862305,
      "learning_rate": 0.0001869022906129137,
      "loss": 3.8962,
      "step": 203180
    },
    {
      "epoch": 0.4233125,
      "grad_norm": 0.9985930323600769,
      "learning_rate": 0.00018689273497214502,
      "loss": 3.9693,
      "step": 203190
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 0.8986403346061707,
      "learning_rate": 0.00018688317917201432,
      "loss": 3.7634,
      "step": 203200
    },
    {
      "epoch": 0.42335416666666664,
      "grad_norm": 0.9043640494346619,
      "learning_rate": 0.0001868736232125629,
      "loss": 3.9732,
      "step": 203210
    },
    {
      "epoch": 0.423375,
      "grad_norm": 0.783378541469574,
      "learning_rate": 0.000186864067093832,
      "loss": 4.1721,
      "step": 203220
    },
    {
      "epoch": 0.42339583333333336,
      "grad_norm": 0.9935423731803894,
      "learning_rate": 0.00018685451081586297,
      "loss": 4.1044,
      "step": 203230
    },
    {
      "epoch": 0.42341666666666666,
      "grad_norm": 0.7893667221069336,
      "learning_rate": 0.00018684495437869698,
      "loss": 3.8567,
      "step": 203240
    },
    {
      "epoch": 0.4234375,
      "grad_norm": 0.8947448134422302,
      "learning_rate": 0.0001868353977823754,
      "loss": 3.8595,
      "step": 203250
    },
    {
      "epoch": 0.4234583333333333,
      "grad_norm": 0.749852180480957,
      "learning_rate": 0.00018682584102693953,
      "loss": 3.8751,
      "step": 203260
    },
    {
      "epoch": 0.4234791666666667,
      "grad_norm": 0.9306137561798096,
      "learning_rate": 0.0001868162841124305,
      "loss": 3.9054,
      "step": 203270
    },
    {
      "epoch": 0.4235,
      "grad_norm": 0.8081660270690918,
      "learning_rate": 0.00018680672703888973,
      "loss": 3.9199,
      "step": 203280
    },
    {
      "epoch": 0.42352083333333335,
      "grad_norm": 0.7960799336433411,
      "learning_rate": 0.0001867971698063585,
      "loss": 3.9523,
      "step": 203290
    },
    {
      "epoch": 0.42354166666666665,
      "grad_norm": 0.8709813356399536,
      "learning_rate": 0.00018678761241487809,
      "loss": 4.0321,
      "step": 203300
    },
    {
      "epoch": 0.4235625,
      "grad_norm": 0.8693269491195679,
      "learning_rate": 0.00018677805486448968,
      "loss": 3.9947,
      "step": 203310
    },
    {
      "epoch": 0.4235833333333333,
      "grad_norm": 0.8345163464546204,
      "learning_rate": 0.00018676849715523468,
      "loss": 3.8207,
      "step": 203320
    },
    {
      "epoch": 0.42360416666666667,
      "grad_norm": 0.8931965827941895,
      "learning_rate": 0.0001867589392871543,
      "loss": 3.9208,
      "step": 203330
    },
    {
      "epoch": 0.423625,
      "grad_norm": 0.840247631072998,
      "learning_rate": 0.00018674938126028983,
      "loss": 3.8512,
      "step": 203340
    },
    {
      "epoch": 0.42364583333333333,
      "grad_norm": 0.832002580165863,
      "learning_rate": 0.00018673982307468266,
      "loss": 3.819,
      "step": 203350
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 0.8092409372329712,
      "learning_rate": 0.00018673026473037396,
      "loss": 3.8371,
      "step": 203360
    },
    {
      "epoch": 0.4236875,
      "grad_norm": 0.8479331731796265,
      "learning_rate": 0.00018672070622740504,
      "loss": 3.8837,
      "step": 203370
    },
    {
      "epoch": 0.42370833333333335,
      "grad_norm": 0.8985853791236877,
      "learning_rate": 0.00018671114756581717,
      "loss": 4.0196,
      "step": 203380
    },
    {
      "epoch": 0.42372916666666666,
      "grad_norm": 0.8659858703613281,
      "learning_rate": 0.00018670158874565173,
      "loss": 3.9589,
      "step": 203390
    },
    {
      "epoch": 0.42375,
      "grad_norm": 0.8762458562850952,
      "learning_rate": 0.0001866920297669499,
      "loss": 4.081,
      "step": 203400
    },
    {
      "epoch": 0.4237708333333333,
      "grad_norm": 0.8875547051429749,
      "learning_rate": 0.00018668247062975308,
      "loss": 4.0777,
      "step": 203410
    },
    {
      "epoch": 0.4237916666666667,
      "grad_norm": 0.9300132393836975,
      "learning_rate": 0.0001866729113341025,
      "loss": 3.8789,
      "step": 203420
    },
    {
      "epoch": 0.4238125,
      "grad_norm": 0.8086998462677002,
      "learning_rate": 0.0001866633518800395,
      "loss": 4.0031,
      "step": 203430
    },
    {
      "epoch": 0.42383333333333334,
      "grad_norm": 0.8287268877029419,
      "learning_rate": 0.00018665379226760526,
      "loss": 3.9163,
      "step": 203440
    },
    {
      "epoch": 0.42385416666666664,
      "grad_norm": 1.1369465589523315,
      "learning_rate": 0.00018664423249684114,
      "loss": 3.8193,
      "step": 203450
    },
    {
      "epoch": 0.423875,
      "grad_norm": 0.7999621629714966,
      "learning_rate": 0.0001866346725677885,
      "loss": 3.8101,
      "step": 203460
    },
    {
      "epoch": 0.42389583333333336,
      "grad_norm": 1.0268356800079346,
      "learning_rate": 0.00018662511248048852,
      "loss": 3.9275,
      "step": 203470
    },
    {
      "epoch": 0.42391666666666666,
      "grad_norm": 0.901833176612854,
      "learning_rate": 0.00018661555223498257,
      "loss": 3.8322,
      "step": 203480
    },
    {
      "epoch": 0.4239375,
      "grad_norm": 1.0428071022033691,
      "learning_rate": 0.00018660599183131197,
      "loss": 3.9638,
      "step": 203490
    },
    {
      "epoch": 0.4239583333333333,
      "grad_norm": 0.9355002641677856,
      "learning_rate": 0.00018659643126951793,
      "loss": 3.7822,
      "step": 203500
    },
    {
      "epoch": 0.4239791666666667,
      "grad_norm": 0.7992411851882935,
      "learning_rate": 0.00018658687054964177,
      "loss": 4.0885,
      "step": 203510
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.8590066432952881,
      "learning_rate": 0.00018657730967172487,
      "loss": 3.9854,
      "step": 203520
    },
    {
      "epoch": 0.42402083333333335,
      "grad_norm": 0.8396122455596924,
      "learning_rate": 0.0001865677486358084,
      "loss": 3.8848,
      "step": 203530
    },
    {
      "epoch": 0.42404166666666665,
      "grad_norm": 0.8175121545791626,
      "learning_rate": 0.00018655818744193377,
      "loss": 3.9617,
      "step": 203540
    },
    {
      "epoch": 0.4240625,
      "grad_norm": 0.9022395610809326,
      "learning_rate": 0.00018654862609014227,
      "loss": 4.0217,
      "step": 203550
    },
    {
      "epoch": 0.4240833333333333,
      "grad_norm": 0.7831101417541504,
      "learning_rate": 0.00018653906458047516,
      "loss": 4.0019,
      "step": 203560
    },
    {
      "epoch": 0.42410416666666667,
      "grad_norm": 0.8366393446922302,
      "learning_rate": 0.00018652950291297372,
      "loss": 4.0959,
      "step": 203570
    },
    {
      "epoch": 0.424125,
      "grad_norm": 0.9246814846992493,
      "learning_rate": 0.0001865199410876793,
      "loss": 3.6127,
      "step": 203580
    },
    {
      "epoch": 0.42414583333333333,
      "grad_norm": 0.8786645531654358,
      "learning_rate": 0.0001865103791046332,
      "loss": 3.9824,
      "step": 203590
    },
    {
      "epoch": 0.4241666666666667,
      "grad_norm": 0.8192020654678345,
      "learning_rate": 0.0001865008169638767,
      "loss": 3.8382,
      "step": 203600
    },
    {
      "epoch": 0.4241875,
      "grad_norm": 0.8333449363708496,
      "learning_rate": 0.00018649125466545114,
      "loss": 4.0899,
      "step": 203610
    },
    {
      "epoch": 0.42420833333333335,
      "grad_norm": 0.7771602869033813,
      "learning_rate": 0.0001864816922093978,
      "loss": 3.9297,
      "step": 203620
    },
    {
      "epoch": 0.42422916666666666,
      "grad_norm": 0.8463981747627258,
      "learning_rate": 0.000186472129595758,
      "loss": 4.0564,
      "step": 203630
    },
    {
      "epoch": 0.42425,
      "grad_norm": 0.8981446027755737,
      "learning_rate": 0.000186462566824573,
      "loss": 3.9425,
      "step": 203640
    },
    {
      "epoch": 0.4242708333333333,
      "grad_norm": 0.8241564035415649,
      "learning_rate": 0.00018645300389588416,
      "loss": 3.91,
      "step": 203650
    },
    {
      "epoch": 0.4242916666666667,
      "grad_norm": 0.803455114364624,
      "learning_rate": 0.0001864434408097328,
      "loss": 3.9704,
      "step": 203660
    },
    {
      "epoch": 0.4243125,
      "grad_norm": 0.8026419878005981,
      "learning_rate": 0.00018643387756616013,
      "loss": 3.8868,
      "step": 203670
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 0.8774292469024658,
      "learning_rate": 0.00018642431416520758,
      "loss": 3.8422,
      "step": 203680
    },
    {
      "epoch": 0.42435416666666664,
      "grad_norm": 0.8907583951950073,
      "learning_rate": 0.00018641475060691645,
      "loss": 4.0129,
      "step": 203690
    },
    {
      "epoch": 0.424375,
      "grad_norm": 1.0262446403503418,
      "learning_rate": 0.00018640518689132796,
      "loss": 3.9391,
      "step": 203700
    },
    {
      "epoch": 0.42439583333333336,
      "grad_norm": 1.1254587173461914,
      "learning_rate": 0.00018639562301848346,
      "loss": 3.8913,
      "step": 203710
    },
    {
      "epoch": 0.42441666666666666,
      "grad_norm": 0.969159722328186,
      "learning_rate": 0.00018638605898842433,
      "loss": 4.16,
      "step": 203720
    },
    {
      "epoch": 0.4244375,
      "grad_norm": 0.9490002393722534,
      "learning_rate": 0.0001863764948011918,
      "loss": 3.9957,
      "step": 203730
    },
    {
      "epoch": 0.4244583333333333,
      "grad_norm": 0.8890268206596375,
      "learning_rate": 0.0001863669304568272,
      "loss": 3.9992,
      "step": 203740
    },
    {
      "epoch": 0.4244791666666667,
      "grad_norm": 0.937986433506012,
      "learning_rate": 0.00018635736595537186,
      "loss": 4.1609,
      "step": 203750
    },
    {
      "epoch": 0.4245,
      "grad_norm": 0.7914149165153503,
      "learning_rate": 0.00018634780129686709,
      "loss": 4.105,
      "step": 203760
    },
    {
      "epoch": 0.42452083333333335,
      "grad_norm": 0.8796979784965515,
      "learning_rate": 0.0001863382364813542,
      "loss": 4.1174,
      "step": 203770
    },
    {
      "epoch": 0.42454166666666665,
      "grad_norm": 0.8745275735855103,
      "learning_rate": 0.00018632867150887453,
      "loss": 3.8467,
      "step": 203780
    },
    {
      "epoch": 0.4245625,
      "grad_norm": 0.7897220253944397,
      "learning_rate": 0.00018631910637946936,
      "loss": 3.8577,
      "step": 203790
    },
    {
      "epoch": 0.4245833333333333,
      "grad_norm": 0.9966129660606384,
      "learning_rate": 0.00018630954109318006,
      "loss": 4.0101,
      "step": 203800
    },
    {
      "epoch": 0.42460416666666667,
      "grad_norm": 0.9090403914451599,
      "learning_rate": 0.00018629997565004785,
      "loss": 3.8646,
      "step": 203810
    },
    {
      "epoch": 0.424625,
      "grad_norm": 0.7468327283859253,
      "learning_rate": 0.00018629041005011418,
      "loss": 3.8916,
      "step": 203820
    },
    {
      "epoch": 0.42464583333333333,
      "grad_norm": 0.7447304725646973,
      "learning_rate": 0.0001862808442934203,
      "loss": 3.8254,
      "step": 203830
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 1.0666253566741943,
      "learning_rate": 0.00018627127838000747,
      "loss": 4.0374,
      "step": 203840
    },
    {
      "epoch": 0.4246875,
      "grad_norm": 0.7989322543144226,
      "learning_rate": 0.00018626171230991714,
      "loss": 3.9124,
      "step": 203850
    },
    {
      "epoch": 0.42470833333333335,
      "grad_norm": 0.9706749320030212,
      "learning_rate": 0.00018625214608319055,
      "loss": 3.8832,
      "step": 203860
    },
    {
      "epoch": 0.42472916666666666,
      "grad_norm": 0.7737047672271729,
      "learning_rate": 0.00018624257969986904,
      "loss": 4.0076,
      "step": 203870
    },
    {
      "epoch": 0.42475,
      "grad_norm": 0.8991850018501282,
      "learning_rate": 0.0001862330131599939,
      "loss": 4.031,
      "step": 203880
    },
    {
      "epoch": 0.4247708333333333,
      "grad_norm": 0.8786917328834534,
      "learning_rate": 0.00018622344646360652,
      "loss": 3.9158,
      "step": 203890
    },
    {
      "epoch": 0.4247916666666667,
      "grad_norm": 0.777635395526886,
      "learning_rate": 0.00018621387961074819,
      "loss": 3.8048,
      "step": 203900
    },
    {
      "epoch": 0.4248125,
      "grad_norm": 0.8443961143493652,
      "learning_rate": 0.00018620431260146021,
      "loss": 3.7626,
      "step": 203910
    },
    {
      "epoch": 0.42483333333333334,
      "grad_norm": 0.8523874282836914,
      "learning_rate": 0.00018619474543578391,
      "loss": 3.8424,
      "step": 203920
    },
    {
      "epoch": 0.42485416666666664,
      "grad_norm": 0.7784915566444397,
      "learning_rate": 0.0001861851781137607,
      "loss": 3.8817,
      "step": 203930
    },
    {
      "epoch": 0.424875,
      "grad_norm": 0.8457077741622925,
      "learning_rate": 0.00018617561063543177,
      "loss": 3.9938,
      "step": 203940
    },
    {
      "epoch": 0.4248958333333333,
      "grad_norm": 0.8954999446868896,
      "learning_rate": 0.0001861660430008386,
      "loss": 3.9433,
      "step": 203950
    },
    {
      "epoch": 0.42491666666666666,
      "grad_norm": 0.9133219122886658,
      "learning_rate": 0.0001861564752100224,
      "loss": 3.8882,
      "step": 203960
    },
    {
      "epoch": 0.4249375,
      "grad_norm": 0.8457792401313782,
      "learning_rate": 0.00018614690726302454,
      "loss": 3.8283,
      "step": 203970
    },
    {
      "epoch": 0.4249583333333333,
      "grad_norm": 0.8921895027160645,
      "learning_rate": 0.00018613733915988636,
      "loss": 3.8918,
      "step": 203980
    },
    {
      "epoch": 0.4249791666666667,
      "grad_norm": 0.772468090057373,
      "learning_rate": 0.00018612777090064916,
      "loss": 4.0904,
      "step": 203990
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.8167240023612976,
      "learning_rate": 0.0001861182024853543,
      "loss": 3.7722,
      "step": 204000
    },
    {
      "epoch": 0.425,
      "eval_loss": 3.6623992919921875,
      "eval_runtime": 7.253,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 204000
    },
    {
      "epoch": 0.42502083333333335,
      "grad_norm": 0.7919280529022217,
      "learning_rate": 0.00018610863391404307,
      "loss": 4.0098,
      "step": 204010
    },
    {
      "epoch": 0.42504166666666665,
      "grad_norm": 0.7963206171989441,
      "learning_rate": 0.00018609906518675693,
      "loss": 3.9237,
      "step": 204020
    },
    {
      "epoch": 0.4250625,
      "grad_norm": 0.8407850861549377,
      "learning_rate": 0.00018608949630353705,
      "loss": 4.0108,
      "step": 204030
    },
    {
      "epoch": 0.4250833333333333,
      "grad_norm": 0.8134022355079651,
      "learning_rate": 0.00018607992726442477,
      "loss": 3.9162,
      "step": 204040
    },
    {
      "epoch": 0.42510416666666667,
      "grad_norm": 0.8521671891212463,
      "learning_rate": 0.0001860703580694616,
      "loss": 4.0274,
      "step": 204050
    },
    {
      "epoch": 0.425125,
      "grad_norm": 0.8819464445114136,
      "learning_rate": 0.0001860607887186887,
      "loss": 3.7855,
      "step": 204060
    },
    {
      "epoch": 0.42514583333333333,
      "grad_norm": 0.78696209192276,
      "learning_rate": 0.0001860512192121475,
      "loss": 3.9856,
      "step": 204070
    },
    {
      "epoch": 0.4251666666666667,
      "grad_norm": 0.8208657503128052,
      "learning_rate": 0.00018604164954987926,
      "loss": 3.9603,
      "step": 204080
    },
    {
      "epoch": 0.4251875,
      "grad_norm": 0.8408224582672119,
      "learning_rate": 0.0001860320797319254,
      "loss": 3.8948,
      "step": 204090
    },
    {
      "epoch": 0.42520833333333335,
      "grad_norm": 0.7775059938430786,
      "learning_rate": 0.00018602250975832717,
      "loss": 3.9063,
      "step": 204100
    },
    {
      "epoch": 0.42522916666666666,
      "grad_norm": 0.7719767093658447,
      "learning_rate": 0.000186012939629126,
      "loss": 3.9678,
      "step": 204110
    },
    {
      "epoch": 0.42525,
      "grad_norm": 0.8788565397262573,
      "learning_rate": 0.00018600336934436316,
      "loss": 3.9689,
      "step": 204120
    },
    {
      "epoch": 0.4252708333333333,
      "grad_norm": 0.8971278667449951,
      "learning_rate": 0.00018599379890408004,
      "loss": 3.8781,
      "step": 204130
    },
    {
      "epoch": 0.4252916666666667,
      "grad_norm": 0.9512964487075806,
      "learning_rate": 0.00018598422830831793,
      "loss": 3.9436,
      "step": 204140
    },
    {
      "epoch": 0.4253125,
      "grad_norm": 0.8445484042167664,
      "learning_rate": 0.0001859746575571182,
      "loss": 3.9423,
      "step": 204150
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 0.8065916895866394,
      "learning_rate": 0.00018596508665052225,
      "loss": 3.9922,
      "step": 204160
    },
    {
      "epoch": 0.42535416666666664,
      "grad_norm": 0.9543363451957703,
      "learning_rate": 0.00018595551558857126,
      "loss": 3.9079,
      "step": 204170
    },
    {
      "epoch": 0.425375,
      "grad_norm": 0.8942545056343079,
      "learning_rate": 0.0001859459443713067,
      "loss": 3.8256,
      "step": 204180
    },
    {
      "epoch": 0.4253958333333333,
      "grad_norm": 0.8280892372131348,
      "learning_rate": 0.00018593637299876996,
      "loss": 4.0165,
      "step": 204190
    },
    {
      "epoch": 0.42541666666666667,
      "grad_norm": 0.8340915441513062,
      "learning_rate": 0.00018592680147100227,
      "loss": 3.9547,
      "step": 204200
    },
    {
      "epoch": 0.4254375,
      "grad_norm": 0.8407791256904602,
      "learning_rate": 0.000185917229788045,
      "loss": 3.9452,
      "step": 204210
    },
    {
      "epoch": 0.4254583333333333,
      "grad_norm": 0.7908541560173035,
      "learning_rate": 0.00018590765794993953,
      "loss": 3.8794,
      "step": 204220
    },
    {
      "epoch": 0.4254791666666667,
      "grad_norm": 0.8103688359260559,
      "learning_rate": 0.0001858980859567272,
      "loss": 3.6723,
      "step": 204230
    },
    {
      "epoch": 0.4255,
      "grad_norm": 0.810469925403595,
      "learning_rate": 0.00018588851380844934,
      "loss": 3.9868,
      "step": 204240
    },
    {
      "epoch": 0.42552083333333335,
      "grad_norm": 0.8502338528633118,
      "learning_rate": 0.0001858789415051473,
      "loss": 4.1005,
      "step": 204250
    },
    {
      "epoch": 0.42554166666666665,
      "grad_norm": 0.8155937194824219,
      "learning_rate": 0.00018586936904686242,
      "loss": 3.9378,
      "step": 204260
    },
    {
      "epoch": 0.4255625,
      "grad_norm": 0.7938500642776489,
      "learning_rate": 0.0001858597964336361,
      "loss": 3.942,
      "step": 204270
    },
    {
      "epoch": 0.4255833333333333,
      "grad_norm": 0.8876709938049316,
      "learning_rate": 0.00018585022366550963,
      "loss": 3.9438,
      "step": 204280
    },
    {
      "epoch": 0.4256041666666667,
      "grad_norm": 0.762658417224884,
      "learning_rate": 0.0001858406507425244,
      "loss": 3.7796,
      "step": 204290
    },
    {
      "epoch": 0.425625,
      "grad_norm": 0.7725625038146973,
      "learning_rate": 0.00018583107766472176,
      "loss": 3.9862,
      "step": 204300
    },
    {
      "epoch": 0.42564583333333333,
      "grad_norm": 0.8103634119033813,
      "learning_rate": 0.000185821504432143,
      "loss": 4.0215,
      "step": 204310
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 0.8439486026763916,
      "learning_rate": 0.00018581193104482953,
      "loss": 3.7324,
      "step": 204320
    },
    {
      "epoch": 0.4256875,
      "grad_norm": 0.8802371025085449,
      "learning_rate": 0.00018580235750282272,
      "loss": 3.7461,
      "step": 204330
    },
    {
      "epoch": 0.42570833333333336,
      "grad_norm": 0.7501280307769775,
      "learning_rate": 0.00018579278380616388,
      "loss": 3.9038,
      "step": 204340
    },
    {
      "epoch": 0.42572916666666666,
      "grad_norm": 0.8310887217521667,
      "learning_rate": 0.0001857832099548944,
      "loss": 3.9274,
      "step": 204350
    },
    {
      "epoch": 0.42575,
      "grad_norm": 1.0303431749343872,
      "learning_rate": 0.00018577363594905562,
      "loss": 3.9785,
      "step": 204360
    },
    {
      "epoch": 0.4257708333333333,
      "grad_norm": 0.8367568850517273,
      "learning_rate": 0.00018576406178868888,
      "loss": 3.8921,
      "step": 204370
    },
    {
      "epoch": 0.4257916666666667,
      "grad_norm": 0.8088350296020508,
      "learning_rate": 0.0001857544874738355,
      "loss": 3.8468,
      "step": 204380
    },
    {
      "epoch": 0.4258125,
      "grad_norm": 0.8859388828277588,
      "learning_rate": 0.00018574491300453697,
      "loss": 3.8483,
      "step": 204390
    },
    {
      "epoch": 0.42583333333333334,
      "grad_norm": 0.9948953986167908,
      "learning_rate": 0.00018573533838083452,
      "loss": 3.971,
      "step": 204400
    },
    {
      "epoch": 0.42585416666666664,
      "grad_norm": 0.8140294551849365,
      "learning_rate": 0.00018572576360276953,
      "loss": 4.0708,
      "step": 204410
    },
    {
      "epoch": 0.425875,
      "grad_norm": 0.8311158418655396,
      "learning_rate": 0.00018571618867038343,
      "loss": 3.8846,
      "step": 204420
    },
    {
      "epoch": 0.4258958333333333,
      "grad_norm": 0.8405099511146545,
      "learning_rate": 0.00018570661358371753,
      "loss": 3.775,
      "step": 204430
    },
    {
      "epoch": 0.42591666666666667,
      "grad_norm": 0.858741819858551,
      "learning_rate": 0.00018569703834281319,
      "loss": 3.8046,
      "step": 204440
    },
    {
      "epoch": 0.4259375,
      "grad_norm": 0.8013514280319214,
      "learning_rate": 0.00018568746294771174,
      "loss": 4.032,
      "step": 204450
    },
    {
      "epoch": 0.4259583333333333,
      "grad_norm": 0.8593562245368958,
      "learning_rate": 0.0001856778873984546,
      "loss": 3.9099,
      "step": 204460
    },
    {
      "epoch": 0.4259791666666667,
      "grad_norm": 0.9204146265983582,
      "learning_rate": 0.00018566831169508313,
      "loss": 3.9097,
      "step": 204470
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.8291571140289307,
      "learning_rate": 0.00018565873583763863,
      "loss": 3.9842,
      "step": 204480
    },
    {
      "epoch": 0.42602083333333335,
      "grad_norm": 1.0933361053466797,
      "learning_rate": 0.00018564915982616253,
      "loss": 3.9342,
      "step": 204490
    },
    {
      "epoch": 0.42604166666666665,
      "grad_norm": 0.9720107913017273,
      "learning_rate": 0.0001856395836606962,
      "loss": 3.8977,
      "step": 204500
    },
    {
      "epoch": 0.4260625,
      "grad_norm": 0.8583213090896606,
      "learning_rate": 0.0001856300073412809,
      "loss": 3.8933,
      "step": 204510
    },
    {
      "epoch": 0.4260833333333333,
      "grad_norm": 0.8085777759552002,
      "learning_rate": 0.0001856204308679581,
      "loss": 3.8973,
      "step": 204520
    },
    {
      "epoch": 0.4261041666666667,
      "grad_norm": 0.8205867409706116,
      "learning_rate": 0.0001856108542407692,
      "loss": 4.0541,
      "step": 204530
    },
    {
      "epoch": 0.426125,
      "grad_norm": 0.8299933075904846,
      "learning_rate": 0.0001856012774597554,
      "loss": 3.8916,
      "step": 204540
    },
    {
      "epoch": 0.42614583333333333,
      "grad_norm": 1.02632737159729,
      "learning_rate": 0.00018559170052495825,
      "loss": 3.9264,
      "step": 204550
    },
    {
      "epoch": 0.4261666666666667,
      "grad_norm": 0.7550651431083679,
      "learning_rate": 0.00018558212343641902,
      "loss": 3.7334,
      "step": 204560
    },
    {
      "epoch": 0.4261875,
      "grad_norm": 0.848473310470581,
      "learning_rate": 0.00018557254619417914,
      "loss": 3.8795,
      "step": 204570
    },
    {
      "epoch": 0.42620833333333336,
      "grad_norm": 1.0540292263031006,
      "learning_rate": 0.00018556296879827986,
      "loss": 3.9341,
      "step": 204580
    },
    {
      "epoch": 0.42622916666666666,
      "grad_norm": 0.8081631064414978,
      "learning_rate": 0.0001855533912487627,
      "loss": 3.8878,
      "step": 204590
    },
    {
      "epoch": 0.42625,
      "grad_norm": 0.8255232572555542,
      "learning_rate": 0.0001855438135456689,
      "loss": 4.1227,
      "step": 204600
    },
    {
      "epoch": 0.4262708333333333,
      "grad_norm": 0.8418793678283691,
      "learning_rate": 0.00018553423568903998,
      "loss": 3.8425,
      "step": 204610
    },
    {
      "epoch": 0.4262916666666667,
      "grad_norm": 0.9436439275741577,
      "learning_rate": 0.00018552465767891717,
      "loss": 4.0563,
      "step": 204620
    },
    {
      "epoch": 0.4263125,
      "grad_norm": 0.8134610056877136,
      "learning_rate": 0.0001855150795153419,
      "loss": 3.9405,
      "step": 204630
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 1.116862177848816,
      "learning_rate": 0.00018550550119835556,
      "loss": 3.9951,
      "step": 204640
    },
    {
      "epoch": 0.42635416666666665,
      "grad_norm": 0.7546959519386292,
      "learning_rate": 0.00018549592272799952,
      "loss": 3.7963,
      "step": 204650
    },
    {
      "epoch": 0.426375,
      "grad_norm": 0.7673892378807068,
      "learning_rate": 0.0001854863441043151,
      "loss": 3.9022,
      "step": 204660
    },
    {
      "epoch": 0.4263958333333333,
      "grad_norm": 0.8480234742164612,
      "learning_rate": 0.00018547676532734375,
      "loss": 3.8443,
      "step": 204670
    },
    {
      "epoch": 0.42641666666666667,
      "grad_norm": 0.768011748790741,
      "learning_rate": 0.00018546718639712682,
      "loss": 3.9606,
      "step": 204680
    },
    {
      "epoch": 0.4264375,
      "grad_norm": 0.8441277742385864,
      "learning_rate": 0.00018545760731370568,
      "loss": 3.9324,
      "step": 204690
    },
    {
      "epoch": 0.42645833333333333,
      "grad_norm": 0.8924504518508911,
      "learning_rate": 0.0001854480280771217,
      "loss": 4.0924,
      "step": 204700
    },
    {
      "epoch": 0.4264791666666667,
      "grad_norm": 0.8373656868934631,
      "learning_rate": 0.00018543844868741628,
      "loss": 3.8106,
      "step": 204710
    },
    {
      "epoch": 0.4265,
      "grad_norm": 0.7843690514564514,
      "learning_rate": 0.0001854288691446308,
      "loss": 3.7236,
      "step": 204720
    },
    {
      "epoch": 0.42652083333333335,
      "grad_norm": 0.8071917295455933,
      "learning_rate": 0.00018541928944880662,
      "loss": 3.8184,
      "step": 204730
    },
    {
      "epoch": 0.42654166666666665,
      "grad_norm": 0.9295514225959778,
      "learning_rate": 0.00018540970959998515,
      "loss": 3.8934,
      "step": 204740
    },
    {
      "epoch": 0.4265625,
      "grad_norm": 0.8508479595184326,
      "learning_rate": 0.00018540012959820772,
      "loss": 3.8965,
      "step": 204750
    },
    {
      "epoch": 0.4265833333333333,
      "grad_norm": 0.7806026935577393,
      "learning_rate": 0.00018539054944351574,
      "loss": 3.8439,
      "step": 204760
    },
    {
      "epoch": 0.4266041666666667,
      "grad_norm": 0.7920027375221252,
      "learning_rate": 0.0001853809691359506,
      "loss": 3.9766,
      "step": 204770
    },
    {
      "epoch": 0.426625,
      "grad_norm": 0.790088415145874,
      "learning_rate": 0.0001853713886755537,
      "loss": 4.1207,
      "step": 204780
    },
    {
      "epoch": 0.42664583333333334,
      "grad_norm": 0.8885249495506287,
      "learning_rate": 0.00018536180806236639,
      "loss": 3.9661,
      "step": 204790
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.8408185839653015,
      "learning_rate": 0.00018535222729643003,
      "loss": 3.9334,
      "step": 204800
    },
    {
      "epoch": 0.4266875,
      "grad_norm": 0.9009892344474792,
      "learning_rate": 0.0001853426463777861,
      "loss": 3.8327,
      "step": 204810
    },
    {
      "epoch": 0.42670833333333336,
      "grad_norm": 1.2741376161575317,
      "learning_rate": 0.00018533306530647587,
      "loss": 3.8831,
      "step": 204820
    },
    {
      "epoch": 0.42672916666666666,
      "grad_norm": 0.8794957995414734,
      "learning_rate": 0.00018532348408254083,
      "loss": 4.0167,
      "step": 204830
    },
    {
      "epoch": 0.42675,
      "grad_norm": 0.8009904623031616,
      "learning_rate": 0.0001853139027060223,
      "loss": 4.1336,
      "step": 204840
    },
    {
      "epoch": 0.4267708333333333,
      "grad_norm": 0.7898967862129211,
      "learning_rate": 0.00018530432117696167,
      "loss": 3.8969,
      "step": 204850
    },
    {
      "epoch": 0.4267916666666667,
      "grad_norm": 0.7898070216178894,
      "learning_rate": 0.0001852947394954004,
      "loss": 3.7598,
      "step": 204860
    },
    {
      "epoch": 0.4268125,
      "grad_norm": 0.843884289264679,
      "learning_rate": 0.00018528515766137981,
      "loss": 3.9242,
      "step": 204870
    },
    {
      "epoch": 0.42683333333333334,
      "grad_norm": 0.8207346200942993,
      "learning_rate": 0.00018527557567494125,
      "loss": 3.9735,
      "step": 204880
    },
    {
      "epoch": 0.42685416666666665,
      "grad_norm": 0.8617496490478516,
      "learning_rate": 0.00018526599353612628,
      "loss": 3.7964,
      "step": 204890
    },
    {
      "epoch": 0.426875,
      "grad_norm": 0.8201544284820557,
      "learning_rate": 0.00018525641124497608,
      "loss": 3.7505,
      "step": 204900
    },
    {
      "epoch": 0.4268958333333333,
      "grad_norm": 0.8687009811401367,
      "learning_rate": 0.00018524682880153215,
      "loss": 3.9156,
      "step": 204910
    },
    {
      "epoch": 0.42691666666666667,
      "grad_norm": 0.8146229386329651,
      "learning_rate": 0.0001852372462058359,
      "loss": 3.9245,
      "step": 204920
    },
    {
      "epoch": 0.4269375,
      "grad_norm": 0.9124354720115662,
      "learning_rate": 0.00018522766345792867,
      "loss": 3.9521,
      "step": 204930
    },
    {
      "epoch": 0.42695833333333333,
      "grad_norm": 1.4051388502120972,
      "learning_rate": 0.00018521808055785188,
      "loss": 3.9056,
      "step": 204940
    },
    {
      "epoch": 0.4269791666666667,
      "grad_norm": 0.7563132047653198,
      "learning_rate": 0.00018520849750564694,
      "loss": 3.9302,
      "step": 204950
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.7774428725242615,
      "learning_rate": 0.00018519891430135522,
      "loss": 4.0935,
      "step": 204960
    },
    {
      "epoch": 0.42702083333333335,
      "grad_norm": 0.7968306541442871,
      "learning_rate": 0.00018518933094501813,
      "loss": 3.8536,
      "step": 204970
    },
    {
      "epoch": 0.42704166666666665,
      "grad_norm": 0.9008598327636719,
      "learning_rate": 0.00018517974743667703,
      "loss": 3.9813,
      "step": 204980
    },
    {
      "epoch": 0.4270625,
      "grad_norm": 0.7994422316551208,
      "learning_rate": 0.00018517016377637337,
      "loss": 3.9426,
      "step": 204990
    },
    {
      "epoch": 0.4270833333333333,
      "grad_norm": 0.9806296825408936,
      "learning_rate": 0.0001851605799641485,
      "loss": 3.8445,
      "step": 205000
    },
    {
      "epoch": 0.4270833333333333,
      "eval_loss": 3.66291880607605,
      "eval_runtime": 7.263,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 205000
    },
    {
      "epoch": 0.4271041666666667,
      "grad_norm": 0.8247673511505127,
      "learning_rate": 0.0001851509960000439,
      "loss": 3.8396,
      "step": 205010
    },
    {
      "epoch": 0.427125,
      "grad_norm": 0.8213890194892883,
      "learning_rate": 0.00018514141188410085,
      "loss": 4.0347,
      "step": 205020
    },
    {
      "epoch": 0.42714583333333334,
      "grad_norm": 0.8368142247200012,
      "learning_rate": 0.00018513182761636086,
      "loss": 3.9651,
      "step": 205030
    },
    {
      "epoch": 0.42716666666666664,
      "grad_norm": 0.857112467288971,
      "learning_rate": 0.0001851222431968652,
      "loss": 4.046,
      "step": 205040
    },
    {
      "epoch": 0.4271875,
      "grad_norm": 0.834829568862915,
      "learning_rate": 0.0001851126586256554,
      "loss": 3.9648,
      "step": 205050
    },
    {
      "epoch": 0.42720833333333336,
      "grad_norm": 0.7939285039901733,
      "learning_rate": 0.00018510307390277286,
      "loss": 3.9853,
      "step": 205060
    },
    {
      "epoch": 0.42722916666666666,
      "grad_norm": 0.7938309907913208,
      "learning_rate": 0.00018509348902825888,
      "loss": 3.8547,
      "step": 205070
    },
    {
      "epoch": 0.42725,
      "grad_norm": 0.991813600063324,
      "learning_rate": 0.00018508390400215493,
      "loss": 3.9267,
      "step": 205080
    },
    {
      "epoch": 0.4272708333333333,
      "grad_norm": 0.7676619291305542,
      "learning_rate": 0.0001850743188245024,
      "loss": 3.9216,
      "step": 205090
    },
    {
      "epoch": 0.4272916666666667,
      "grad_norm": 0.8888880610466003,
      "learning_rate": 0.00018506473349534275,
      "loss": 3.7848,
      "step": 205100
    },
    {
      "epoch": 0.4273125,
      "grad_norm": 0.8254680633544922,
      "learning_rate": 0.00018505514801471723,
      "loss": 3.9703,
      "step": 205110
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 0.8849951028823853,
      "learning_rate": 0.00018504556238266743,
      "loss": 3.9878,
      "step": 205120
    },
    {
      "epoch": 0.42735416666666665,
      "grad_norm": 0.8140787482261658,
      "learning_rate": 0.00018503597659923465,
      "loss": 3.9236,
      "step": 205130
    },
    {
      "epoch": 0.427375,
      "grad_norm": 0.9186596870422363,
      "learning_rate": 0.00018502639066446028,
      "loss": 4.1313,
      "step": 205140
    },
    {
      "epoch": 0.4273958333333333,
      "grad_norm": 0.8594188094139099,
      "learning_rate": 0.0001850168045783858,
      "loss": 3.8272,
      "step": 205150
    },
    {
      "epoch": 0.42741666666666667,
      "grad_norm": 0.9536784291267395,
      "learning_rate": 0.00018500721834105257,
      "loss": 3.8582,
      "step": 205160
    },
    {
      "epoch": 0.4274375,
      "grad_norm": 0.7769172787666321,
      "learning_rate": 0.00018499763195250202,
      "loss": 3.9973,
      "step": 205170
    },
    {
      "epoch": 0.42745833333333333,
      "grad_norm": 0.7713870406150818,
      "learning_rate": 0.0001849880454127756,
      "loss": 3.9787,
      "step": 205180
    },
    {
      "epoch": 0.4274791666666667,
      "grad_norm": 0.82215815782547,
      "learning_rate": 0.0001849784587219146,
      "loss": 4.0994,
      "step": 205190
    },
    {
      "epoch": 0.4275,
      "grad_norm": 0.8390240669250488,
      "learning_rate": 0.00018496887187996057,
      "loss": 4.0631,
      "step": 205200
    },
    {
      "epoch": 0.42752083333333335,
      "grad_norm": 1.1661380529403687,
      "learning_rate": 0.0001849592848869548,
      "loss": 3.7711,
      "step": 205210
    },
    {
      "epoch": 0.42754166666666665,
      "grad_norm": 0.9135451912879944,
      "learning_rate": 0.00018494969774293877,
      "loss": 3.9373,
      "step": 205220
    },
    {
      "epoch": 0.4275625,
      "grad_norm": 0.9160036444664001,
      "learning_rate": 0.00018494011044795393,
      "loss": 4.0546,
      "step": 205230
    },
    {
      "epoch": 0.4275833333333333,
      "grad_norm": 0.9574900269508362,
      "learning_rate": 0.00018493052300204158,
      "loss": 3.982,
      "step": 205240
    },
    {
      "epoch": 0.4276041666666667,
      "grad_norm": 0.8459492325782776,
      "learning_rate": 0.00018492093540524316,
      "loss": 3.8699,
      "step": 205250
    },
    {
      "epoch": 0.427625,
      "grad_norm": 0.9139148592948914,
      "learning_rate": 0.00018491134765760022,
      "loss": 4.0205,
      "step": 205260
    },
    {
      "epoch": 0.42764583333333334,
      "grad_norm": 0.7932811379432678,
      "learning_rate": 0.00018490175975915404,
      "loss": 3.7874,
      "step": 205270
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 0.9158332347869873,
      "learning_rate": 0.00018489217170994604,
      "loss": 3.9802,
      "step": 205280
    },
    {
      "epoch": 0.4276875,
      "grad_norm": 0.7705397009849548,
      "learning_rate": 0.0001848825835100177,
      "loss": 4.1582,
      "step": 205290
    },
    {
      "epoch": 0.42770833333333336,
      "grad_norm": 0.9736723899841309,
      "learning_rate": 0.00018487299515941043,
      "loss": 3.8583,
      "step": 205300
    },
    {
      "epoch": 0.42772916666666666,
      "grad_norm": 0.8155578970909119,
      "learning_rate": 0.0001848634066581656,
      "loss": 3.8369,
      "step": 205310
    },
    {
      "epoch": 0.42775,
      "grad_norm": 0.9556137919425964,
      "learning_rate": 0.00018485381800632464,
      "loss": 3.8412,
      "step": 205320
    },
    {
      "epoch": 0.4277708333333333,
      "grad_norm": 0.8658833503723145,
      "learning_rate": 0.000184844229203929,
      "loss": 3.987,
      "step": 205330
    },
    {
      "epoch": 0.4277916666666667,
      "grad_norm": 0.9328575134277344,
      "learning_rate": 0.00018483464025102007,
      "loss": 3.9314,
      "step": 205340
    },
    {
      "epoch": 0.4278125,
      "grad_norm": 0.8925802111625671,
      "learning_rate": 0.0001848250511476393,
      "loss": 3.9497,
      "step": 205350
    },
    {
      "epoch": 0.42783333333333334,
      "grad_norm": 0.8324146866798401,
      "learning_rate": 0.00018481546189382807,
      "loss": 3.8897,
      "step": 205360
    },
    {
      "epoch": 0.42785416666666665,
      "grad_norm": 0.8179909586906433,
      "learning_rate": 0.00018480587248962787,
      "loss": 3.8517,
      "step": 205370
    },
    {
      "epoch": 0.427875,
      "grad_norm": 0.8247501254081726,
      "learning_rate": 0.00018479628293508003,
      "loss": 3.9537,
      "step": 205380
    },
    {
      "epoch": 0.4278958333333333,
      "grad_norm": 0.8841021656990051,
      "learning_rate": 0.000184786693230226,
      "loss": 3.9495,
      "step": 205390
    },
    {
      "epoch": 0.42791666666666667,
      "grad_norm": 0.8780705332756042,
      "learning_rate": 0.0001847771033751073,
      "loss": 3.9395,
      "step": 205400
    },
    {
      "epoch": 0.4279375,
      "grad_norm": 0.8402301073074341,
      "learning_rate": 0.00018476751336976522,
      "loss": 3.9761,
      "step": 205410
    },
    {
      "epoch": 0.42795833333333333,
      "grad_norm": 0.8212936520576477,
      "learning_rate": 0.00018475792321424127,
      "loss": 3.895,
      "step": 205420
    },
    {
      "epoch": 0.4279791666666667,
      "grad_norm": 0.8118810057640076,
      "learning_rate": 0.00018474833290857689,
      "loss": 3.844,
      "step": 205430
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.8297234177589417,
      "learning_rate": 0.00018473874245281341,
      "loss": 3.9029,
      "step": 205440
    },
    {
      "epoch": 0.42802083333333335,
      "grad_norm": 0.9190080165863037,
      "learning_rate": 0.0001847291518469923,
      "loss": 4.0786,
      "step": 205450
    },
    {
      "epoch": 0.42804166666666665,
      "grad_norm": 0.8177173137664795,
      "learning_rate": 0.00018471956109115506,
      "loss": 4.0404,
      "step": 205460
    },
    {
      "epoch": 0.4280625,
      "grad_norm": 0.8437850475311279,
      "learning_rate": 0.000184709970185343,
      "loss": 3.9482,
      "step": 205470
    },
    {
      "epoch": 0.4280833333333333,
      "grad_norm": 0.8050798177719116,
      "learning_rate": 0.00018470037912959763,
      "loss": 3.8557,
      "step": 205480
    },
    {
      "epoch": 0.4281041666666667,
      "grad_norm": 0.8839964270591736,
      "learning_rate": 0.00018469078792396037,
      "loss": 4.0812,
      "step": 205490
    },
    {
      "epoch": 0.428125,
      "grad_norm": 0.965287983417511,
      "learning_rate": 0.00018468119656847264,
      "loss": 3.8403,
      "step": 205500
    },
    {
      "epoch": 0.42814583333333334,
      "grad_norm": 0.9218127131462097,
      "learning_rate": 0.00018467160506317583,
      "loss": 3.7424,
      "step": 205510
    },
    {
      "epoch": 0.42816666666666664,
      "grad_norm": 0.8457843661308289,
      "learning_rate": 0.00018466201340811147,
      "loss": 4.0727,
      "step": 205520
    },
    {
      "epoch": 0.4281875,
      "grad_norm": 0.785358726978302,
      "learning_rate": 0.00018465242160332088,
      "loss": 3.797,
      "step": 205530
    },
    {
      "epoch": 0.42820833333333336,
      "grad_norm": 0.8533305525779724,
      "learning_rate": 0.00018464282964884558,
      "loss": 3.9908,
      "step": 205540
    },
    {
      "epoch": 0.42822916666666666,
      "grad_norm": 0.8363803029060364,
      "learning_rate": 0.00018463323754472694,
      "loss": 3.8235,
      "step": 205550
    },
    {
      "epoch": 0.42825,
      "grad_norm": 0.8723342418670654,
      "learning_rate": 0.00018462364529100642,
      "loss": 4.0603,
      "step": 205560
    },
    {
      "epoch": 0.4282708333333333,
      "grad_norm": 0.8541857600212097,
      "learning_rate": 0.0001846140528877255,
      "loss": 4.0599,
      "step": 205570
    },
    {
      "epoch": 0.4282916666666667,
      "grad_norm": 1.113770604133606,
      "learning_rate": 0.0001846044603349255,
      "loss": 3.8932,
      "step": 205580
    },
    {
      "epoch": 0.4283125,
      "grad_norm": 1.101680874824524,
      "learning_rate": 0.000184594867632648,
      "loss": 3.8295,
      "step": 205590
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 0.9139843583106995,
      "learning_rate": 0.00018458527478093436,
      "loss": 3.9341,
      "step": 205600
    },
    {
      "epoch": 0.42835416666666665,
      "grad_norm": 0.8003409504890442,
      "learning_rate": 0.00018457568177982596,
      "loss": 3.7533,
      "step": 205610
    },
    {
      "epoch": 0.428375,
      "grad_norm": 0.8183501958847046,
      "learning_rate": 0.0001845660886293644,
      "loss": 3.9501,
      "step": 205620
    },
    {
      "epoch": 0.4283958333333333,
      "grad_norm": 1.0134226083755493,
      "learning_rate": 0.00018455649532959096,
      "loss": 3.771,
      "step": 205630
    },
    {
      "epoch": 0.42841666666666667,
      "grad_norm": 0.943183422088623,
      "learning_rate": 0.00018454690188054714,
      "loss": 3.9029,
      "step": 205640
    },
    {
      "epoch": 0.4284375,
      "grad_norm": 0.8278543949127197,
      "learning_rate": 0.00018453730828227435,
      "loss": 3.9467,
      "step": 205650
    },
    {
      "epoch": 0.42845833333333333,
      "grad_norm": 0.9351895451545715,
      "learning_rate": 0.0001845277145348141,
      "loss": 3.9384,
      "step": 205660
    },
    {
      "epoch": 0.4284791666666667,
      "grad_norm": 0.901237428188324,
      "learning_rate": 0.00018451812063820778,
      "loss": 4.1679,
      "step": 205670
    },
    {
      "epoch": 0.4285,
      "grad_norm": 0.7911860346794128,
      "learning_rate": 0.00018450852659249685,
      "loss": 3.705,
      "step": 205680
    },
    {
      "epoch": 0.42852083333333335,
      "grad_norm": 0.8066049814224243,
      "learning_rate": 0.00018449893239772273,
      "loss": 3.8704,
      "step": 205690
    },
    {
      "epoch": 0.42854166666666665,
      "grad_norm": 0.8126490712165833,
      "learning_rate": 0.00018448933805392687,
      "loss": 3.9064,
      "step": 205700
    },
    {
      "epoch": 0.4285625,
      "grad_norm": 0.8558456301689148,
      "learning_rate": 0.00018447974356115073,
      "loss": 3.8928,
      "step": 205710
    },
    {
      "epoch": 0.4285833333333333,
      "grad_norm": 0.8262192010879517,
      "learning_rate": 0.00018447014891943576,
      "loss": 3.9502,
      "step": 205720
    },
    {
      "epoch": 0.4286041666666667,
      "grad_norm": 0.8810956478118896,
      "learning_rate": 0.00018446055412882337,
      "loss": 3.9356,
      "step": 205730
    },
    {
      "epoch": 0.428625,
      "grad_norm": 0.9047451019287109,
      "learning_rate": 0.00018445095918935507,
      "loss": 3.791,
      "step": 205740
    },
    {
      "epoch": 0.42864583333333334,
      "grad_norm": 0.9086557626724243,
      "learning_rate": 0.0001844413641010722,
      "loss": 3.9237,
      "step": 205750
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 0.9934702515602112,
      "learning_rate": 0.00018443176886401633,
      "loss": 3.9559,
      "step": 205760
    },
    {
      "epoch": 0.4286875,
      "grad_norm": 0.8117734789848328,
      "learning_rate": 0.00018442217347822883,
      "loss": 3.7177,
      "step": 205770
    },
    {
      "epoch": 0.42870833333333336,
      "grad_norm": 0.8116540312767029,
      "learning_rate": 0.0001844125779437511,
      "loss": 3.8598,
      "step": 205780
    },
    {
      "epoch": 0.42872916666666666,
      "grad_norm": 0.8890160322189331,
      "learning_rate": 0.00018440298226062474,
      "loss": 3.6514,
      "step": 205790
    },
    {
      "epoch": 0.42875,
      "grad_norm": 0.8937147855758667,
      "learning_rate": 0.0001843933864288911,
      "loss": 3.9631,
      "step": 205800
    },
    {
      "epoch": 0.4287708333333333,
      "grad_norm": 0.831403911113739,
      "learning_rate": 0.0001843837904485916,
      "loss": 4.015,
      "step": 205810
    },
    {
      "epoch": 0.4287916666666667,
      "grad_norm": 0.7826834917068481,
      "learning_rate": 0.00018437419431976778,
      "loss": 3.821,
      "step": 205820
    },
    {
      "epoch": 0.4288125,
      "grad_norm": 0.8638099431991577,
      "learning_rate": 0.000184364598042461,
      "loss": 3.925,
      "step": 205830
    },
    {
      "epoch": 0.42883333333333334,
      "grad_norm": 0.83235102891922,
      "learning_rate": 0.0001843550016167128,
      "loss": 3.953,
      "step": 205840
    },
    {
      "epoch": 0.42885416666666665,
      "grad_norm": 0.8207741379737854,
      "learning_rate": 0.00018434540504256458,
      "loss": 3.9121,
      "step": 205850
    },
    {
      "epoch": 0.428875,
      "grad_norm": 0.8579683303833008,
      "learning_rate": 0.00018433580832005782,
      "loss": 4.0207,
      "step": 205860
    },
    {
      "epoch": 0.4288958333333333,
      "grad_norm": 0.7481317520141602,
      "learning_rate": 0.00018432621144923392,
      "loss": 3.8026,
      "step": 205870
    },
    {
      "epoch": 0.42891666666666667,
      "grad_norm": 0.9392906427383423,
      "learning_rate": 0.00018431661443013442,
      "loss": 3.8818,
      "step": 205880
    },
    {
      "epoch": 0.4289375,
      "grad_norm": 0.7548084855079651,
      "learning_rate": 0.0001843070172628007,
      "loss": 3.7665,
      "step": 205890
    },
    {
      "epoch": 0.42895833333333333,
      "grad_norm": 0.8706634044647217,
      "learning_rate": 0.00018429741994727424,
      "loss": 3.8111,
      "step": 205900
    },
    {
      "epoch": 0.4289791666666667,
      "grad_norm": 0.7660451531410217,
      "learning_rate": 0.00018428782248359652,
      "loss": 3.9873,
      "step": 205910
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.814048707485199,
      "learning_rate": 0.00018427822487180896,
      "loss": 3.9871,
      "step": 205920
    },
    {
      "epoch": 0.42902083333333335,
      "grad_norm": 0.8773010969161987,
      "learning_rate": 0.0001842686271119531,
      "loss": 3.8592,
      "step": 205930
    },
    {
      "epoch": 0.42904166666666665,
      "grad_norm": 0.9090883731842041,
      "learning_rate": 0.00018425902920407027,
      "loss": 3.9874,
      "step": 205940
    },
    {
      "epoch": 0.4290625,
      "grad_norm": 0.8237914443016052,
      "learning_rate": 0.00018424943114820198,
      "loss": 4.0731,
      "step": 205950
    },
    {
      "epoch": 0.4290833333333333,
      "grad_norm": 0.9118862748146057,
      "learning_rate": 0.00018423983294438975,
      "loss": 3.8006,
      "step": 205960
    },
    {
      "epoch": 0.4291041666666667,
      "grad_norm": 0.8410754203796387,
      "learning_rate": 0.000184230234592675,
      "loss": 3.9006,
      "step": 205970
    },
    {
      "epoch": 0.429125,
      "grad_norm": 1.0186772346496582,
      "learning_rate": 0.00018422063609309914,
      "loss": 3.9447,
      "step": 205980
    },
    {
      "epoch": 0.42914583333333334,
      "grad_norm": 0.7711725831031799,
      "learning_rate": 0.00018421103744570373,
      "loss": 4.0221,
      "step": 205990
    },
    {
      "epoch": 0.42916666666666664,
      "grad_norm": 0.8198167085647583,
      "learning_rate": 0.00018420143865053012,
      "loss": 3.7918,
      "step": 206000
    },
    {
      "epoch": 0.42916666666666664,
      "eval_loss": 3.65771746635437,
      "eval_runtime": 6.8464,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 206000
    },
    {
      "epoch": 0.4291875,
      "grad_norm": 1.0249274969100952,
      "learning_rate": 0.0001841918397076199,
      "loss": 4.0255,
      "step": 206010
    },
    {
      "epoch": 0.42920833333333336,
      "grad_norm": 0.8984434604644775,
      "learning_rate": 0.0001841822406170144,
      "loss": 3.967,
      "step": 206020
    },
    {
      "epoch": 0.42922916666666666,
      "grad_norm": 0.7869119644165039,
      "learning_rate": 0.0001841726413787552,
      "loss": 4.0205,
      "step": 206030
    },
    {
      "epoch": 0.42925,
      "grad_norm": 0.8990997672080994,
      "learning_rate": 0.00018416304199288366,
      "loss": 3.895,
      "step": 206040
    },
    {
      "epoch": 0.4292708333333333,
      "grad_norm": 0.7832558751106262,
      "learning_rate": 0.00018415344245944137,
      "loss": 3.8298,
      "step": 206050
    },
    {
      "epoch": 0.4292916666666667,
      "grad_norm": 0.8940792679786682,
      "learning_rate": 0.00018414384277846968,
      "loss": 3.9655,
      "step": 206060
    },
    {
      "epoch": 0.4293125,
      "grad_norm": 0.8061373829841614,
      "learning_rate": 0.00018413424295001015,
      "loss": 3.9819,
      "step": 206070
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 0.9027519226074219,
      "learning_rate": 0.00018412464297410414,
      "loss": 3.7716,
      "step": 206080
    },
    {
      "epoch": 0.42935416666666665,
      "grad_norm": 0.8267913460731506,
      "learning_rate": 0.00018411504285079325,
      "loss": 4.1066,
      "step": 206090
    },
    {
      "epoch": 0.429375,
      "grad_norm": 0.8323832154273987,
      "learning_rate": 0.00018410544258011885,
      "loss": 3.9366,
      "step": 206100
    },
    {
      "epoch": 0.4293958333333333,
      "grad_norm": 0.7998142242431641,
      "learning_rate": 0.0001840958421621224,
      "loss": 3.8699,
      "step": 206110
    },
    {
      "epoch": 0.42941666666666667,
      "grad_norm": 0.80091392993927,
      "learning_rate": 0.00018408624159684542,
      "loss": 3.9635,
      "step": 206120
    },
    {
      "epoch": 0.4294375,
      "grad_norm": 0.8448668718338013,
      "learning_rate": 0.00018407664088432942,
      "loss": 3.8193,
      "step": 206130
    },
    {
      "epoch": 0.42945833333333333,
      "grad_norm": 0.8389317393302917,
      "learning_rate": 0.00018406704002461575,
      "loss": 3.7813,
      "step": 206140
    },
    {
      "epoch": 0.4294791666666667,
      "grad_norm": 0.8308120965957642,
      "learning_rate": 0.00018405743901774596,
      "loss": 3.9592,
      "step": 206150
    },
    {
      "epoch": 0.4295,
      "grad_norm": 0.8682941794395447,
      "learning_rate": 0.0001840478378637616,
      "loss": 3.9444,
      "step": 206160
    },
    {
      "epoch": 0.42952083333333335,
      "grad_norm": 0.7866172790527344,
      "learning_rate": 0.00018403823656270397,
      "loss": 3.9354,
      "step": 206170
    },
    {
      "epoch": 0.42954166666666665,
      "grad_norm": 1.0249308347702026,
      "learning_rate": 0.00018402863511461466,
      "loss": 3.8836,
      "step": 206180
    },
    {
      "epoch": 0.4295625,
      "grad_norm": 1.14774751663208,
      "learning_rate": 0.00018401903351953513,
      "loss": 3.9342,
      "step": 206190
    },
    {
      "epoch": 0.4295833333333333,
      "grad_norm": 0.7973246574401855,
      "learning_rate": 0.00018400943177750685,
      "loss": 3.7485,
      "step": 206200
    },
    {
      "epoch": 0.4296041666666667,
      "grad_norm": 0.9045259356498718,
      "learning_rate": 0.00018399982988857123,
      "loss": 3.883,
      "step": 206210
    },
    {
      "epoch": 0.429625,
      "grad_norm": 0.8307191729545593,
      "learning_rate": 0.00018399022785276986,
      "loss": 3.8228,
      "step": 206220
    },
    {
      "epoch": 0.42964583333333334,
      "grad_norm": 0.827903151512146,
      "learning_rate": 0.00018398062567014412,
      "loss": 3.8962,
      "step": 206230
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 0.7967586517333984,
      "learning_rate": 0.0001839710233407356,
      "loss": 3.9736,
      "step": 206240
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 0.7807059288024902,
      "learning_rate": 0.0001839614208645856,
      "loss": 3.9894,
      "step": 206250
    },
    {
      "epoch": 0.42970833333333336,
      "grad_norm": 0.8260461091995239,
      "learning_rate": 0.00018395181824173575,
      "loss": 4.0988,
      "step": 206260
    },
    {
      "epoch": 0.42972916666666666,
      "grad_norm": 0.8161836266517639,
      "learning_rate": 0.00018394221547222753,
      "loss": 4.0808,
      "step": 206270
    },
    {
      "epoch": 0.42975,
      "grad_norm": 0.7977468967437744,
      "learning_rate": 0.0001839326125561023,
      "loss": 3.9275,
      "step": 206280
    },
    {
      "epoch": 0.4297708333333333,
      "grad_norm": 0.9958480596542358,
      "learning_rate": 0.00018392300949340162,
      "loss": 3.9076,
      "step": 206290
    },
    {
      "epoch": 0.4297916666666667,
      "grad_norm": 0.8680276274681091,
      "learning_rate": 0.00018391340628416705,
      "loss": 3.738,
      "step": 206300
    },
    {
      "epoch": 0.4298125,
      "grad_norm": 0.8970990777015686,
      "learning_rate": 0.00018390380292843993,
      "loss": 3.8761,
      "step": 206310
    },
    {
      "epoch": 0.42983333333333335,
      "grad_norm": 0.9237512946128845,
      "learning_rate": 0.00018389419942626178,
      "loss": 3.9301,
      "step": 206320
    },
    {
      "epoch": 0.42985416666666665,
      "grad_norm": 1.0946764945983887,
      "learning_rate": 0.00018388459577767415,
      "loss": 3.7699,
      "step": 206330
    },
    {
      "epoch": 0.429875,
      "grad_norm": 0.8644571304321289,
      "learning_rate": 0.00018387499198271846,
      "loss": 4.1294,
      "step": 206340
    },
    {
      "epoch": 0.4298958333333333,
      "grad_norm": 0.9579888582229614,
      "learning_rate": 0.0001838653880414362,
      "loss": 3.9116,
      "step": 206350
    },
    {
      "epoch": 0.42991666666666667,
      "grad_norm": 0.8414278030395508,
      "learning_rate": 0.00018385578395386888,
      "loss": 3.7508,
      "step": 206360
    },
    {
      "epoch": 0.4299375,
      "grad_norm": 0.8574953675270081,
      "learning_rate": 0.00018384617972005797,
      "loss": 3.8077,
      "step": 206370
    },
    {
      "epoch": 0.42995833333333333,
      "grad_norm": 0.7973726987838745,
      "learning_rate": 0.00018383657534004497,
      "loss": 3.8489,
      "step": 206380
    },
    {
      "epoch": 0.4299791666666667,
      "grad_norm": 0.8243610858917236,
      "learning_rate": 0.00018382697081387135,
      "loss": 4.0341,
      "step": 206390
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8734017610549927,
      "learning_rate": 0.00018381736614157858,
      "loss": 3.8316,
      "step": 206400
    },
    {
      "epoch": 0.43002083333333335,
      "grad_norm": 1.0762662887573242,
      "learning_rate": 0.00018380776132320822,
      "loss": 3.9722,
      "step": 206410
    },
    {
      "epoch": 0.43004166666666666,
      "grad_norm": 0.865378737449646,
      "learning_rate": 0.00018379815635880168,
      "loss": 3.9426,
      "step": 206420
    },
    {
      "epoch": 0.4300625,
      "grad_norm": 0.8119065761566162,
      "learning_rate": 0.00018378855124840052,
      "loss": 3.9307,
      "step": 206430
    },
    {
      "epoch": 0.4300833333333333,
      "grad_norm": 0.8252270221710205,
      "learning_rate": 0.0001837789459920462,
      "loss": 3.892,
      "step": 206440
    },
    {
      "epoch": 0.4301041666666667,
      "grad_norm": 0.8659439086914062,
      "learning_rate": 0.00018376934058978014,
      "loss": 3.9135,
      "step": 206450
    },
    {
      "epoch": 0.430125,
      "grad_norm": 0.8178659081459045,
      "learning_rate": 0.00018375973504164395,
      "loss": 3.8679,
      "step": 206460
    },
    {
      "epoch": 0.43014583333333334,
      "grad_norm": 0.8740972280502319,
      "learning_rate": 0.00018375012934767907,
      "loss": 4.0002,
      "step": 206470
    },
    {
      "epoch": 0.43016666666666664,
      "grad_norm": 0.8063086867332458,
      "learning_rate": 0.00018374052350792695,
      "loss": 3.9054,
      "step": 206480
    },
    {
      "epoch": 0.4301875,
      "grad_norm": 1.089903473854065,
      "learning_rate": 0.00018373091752242916,
      "loss": 3.9969,
      "step": 206490
    },
    {
      "epoch": 0.43020833333333336,
      "grad_norm": 1.021952748298645,
      "learning_rate": 0.00018372131139122715,
      "loss": 3.732,
      "step": 206500
    },
    {
      "epoch": 0.43022916666666666,
      "grad_norm": 0.8277287483215332,
      "learning_rate": 0.0001837117051143624,
      "loss": 3.8361,
      "step": 206510
    },
    {
      "epoch": 0.43025,
      "grad_norm": 0.9783461689949036,
      "learning_rate": 0.00018370209869187645,
      "loss": 4.0005,
      "step": 206520
    },
    {
      "epoch": 0.4302708333333333,
      "grad_norm": 1.0775952339172363,
      "learning_rate": 0.00018369249212381075,
      "loss": 4.05,
      "step": 206530
    },
    {
      "epoch": 0.4302916666666667,
      "grad_norm": 0.9763368368148804,
      "learning_rate": 0.00018368288541020683,
      "loss": 3.8838,
      "step": 206540
    },
    {
      "epoch": 0.4303125,
      "grad_norm": 0.8748024702072144,
      "learning_rate": 0.0001836732785511062,
      "loss": 3.9636,
      "step": 206550
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 0.8123994469642639,
      "learning_rate": 0.00018366367154655034,
      "loss": 3.973,
      "step": 206560
    },
    {
      "epoch": 0.43035416666666665,
      "grad_norm": 0.8596387505531311,
      "learning_rate": 0.0001836540643965807,
      "loss": 4.0537,
      "step": 206570
    },
    {
      "epoch": 0.430375,
      "grad_norm": 0.7981191873550415,
      "learning_rate": 0.00018364445710123884,
      "loss": 3.9854,
      "step": 206580
    },
    {
      "epoch": 0.4303958333333333,
      "grad_norm": 0.8490739464759827,
      "learning_rate": 0.00018363484966056625,
      "loss": 3.9753,
      "step": 206590
    },
    {
      "epoch": 0.43041666666666667,
      "grad_norm": 0.9823516607284546,
      "learning_rate": 0.0001836252420746044,
      "loss": 4.1729,
      "step": 206600
    },
    {
      "epoch": 0.4304375,
      "grad_norm": 0.9632546305656433,
      "learning_rate": 0.00018361563434339485,
      "loss": 3.9014,
      "step": 206610
    },
    {
      "epoch": 0.43045833333333333,
      "grad_norm": 0.9771396517753601,
      "learning_rate": 0.00018360602646697906,
      "loss": 3.8797,
      "step": 206620
    },
    {
      "epoch": 0.4304791666666667,
      "grad_norm": 0.8800138235092163,
      "learning_rate": 0.0001835964184453985,
      "loss": 4.0166,
      "step": 206630
    },
    {
      "epoch": 0.4305,
      "grad_norm": 0.8623020052909851,
      "learning_rate": 0.0001835868102786948,
      "loss": 3.9207,
      "step": 206640
    },
    {
      "epoch": 0.43052083333333335,
      "grad_norm": 0.793605625629425,
      "learning_rate": 0.00018357720196690927,
      "loss": 3.8046,
      "step": 206650
    },
    {
      "epoch": 0.43054166666666666,
      "grad_norm": 0.8141602277755737,
      "learning_rate": 0.00018356759351008362,
      "loss": 4.0031,
      "step": 206660
    },
    {
      "epoch": 0.4305625,
      "grad_norm": 0.8631595969200134,
      "learning_rate": 0.0001835579849082592,
      "loss": 3.8805,
      "step": 206670
    },
    {
      "epoch": 0.4305833333333333,
      "grad_norm": 0.8862700462341309,
      "learning_rate": 0.0001835483761614775,
      "loss": 3.9542,
      "step": 206680
    },
    {
      "epoch": 0.4306041666666667,
      "grad_norm": 0.8034707903862,
      "learning_rate": 0.00018353876726978017,
      "loss": 3.9683,
      "step": 206690
    },
    {
      "epoch": 0.430625,
      "grad_norm": 0.8245220184326172,
      "learning_rate": 0.00018352915823320864,
      "loss": 3.8306,
      "step": 206700
    },
    {
      "epoch": 0.43064583333333334,
      "grad_norm": 0.7684248685836792,
      "learning_rate": 0.00018351954905180442,
      "loss": 3.8193,
      "step": 206710
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 0.7666029930114746,
      "learning_rate": 0.000183509939725609,
      "loss": 3.8106,
      "step": 206720
    },
    {
      "epoch": 0.4306875,
      "grad_norm": 0.8261591196060181,
      "learning_rate": 0.0001835003302546639,
      "loss": 4.0044,
      "step": 206730
    },
    {
      "epoch": 0.43070833333333336,
      "grad_norm": 0.7868916392326355,
      "learning_rate": 0.00018349072063901062,
      "loss": 3.9663,
      "step": 206740
    },
    {
      "epoch": 0.43072916666666666,
      "grad_norm": 1.0141369104385376,
      "learning_rate": 0.00018348111087869074,
      "loss": 3.8427,
      "step": 206750
    },
    {
      "epoch": 0.43075,
      "grad_norm": 0.8239642381668091,
      "learning_rate": 0.00018347150097374566,
      "loss": 3.9019,
      "step": 206760
    },
    {
      "epoch": 0.4307708333333333,
      "grad_norm": 0.8242688775062561,
      "learning_rate": 0.00018346189092421697,
      "loss": 3.9069,
      "step": 206770
    },
    {
      "epoch": 0.4307916666666667,
      "grad_norm": 0.8412647843360901,
      "learning_rate": 0.00018345228073014615,
      "loss": 3.7686,
      "step": 206780
    },
    {
      "epoch": 0.4308125,
      "grad_norm": 0.9967962503433228,
      "learning_rate": 0.0001834426703915747,
      "loss": 4.0379,
      "step": 206790
    },
    {
      "epoch": 0.43083333333333335,
      "grad_norm": 0.8243135213851929,
      "learning_rate": 0.0001834330599085442,
      "loss": 4.1594,
      "step": 206800
    },
    {
      "epoch": 0.43085416666666665,
      "grad_norm": 1.2297347784042358,
      "learning_rate": 0.0001834234492810961,
      "loss": 3.8635,
      "step": 206810
    },
    {
      "epoch": 0.430875,
      "grad_norm": 0.8618971705436707,
      "learning_rate": 0.00018341383850927186,
      "loss": 3.9485,
      "step": 206820
    },
    {
      "epoch": 0.4308958333333333,
      "grad_norm": 0.8839207887649536,
      "learning_rate": 0.00018340422759311316,
      "loss": 3.8001,
      "step": 206830
    },
    {
      "epoch": 0.43091666666666667,
      "grad_norm": 1.323740005493164,
      "learning_rate": 0.00018339461653266138,
      "loss": 3.8661,
      "step": 206840
    },
    {
      "epoch": 0.4309375,
      "grad_norm": 0.875015377998352,
      "learning_rate": 0.00018338500532795804,
      "loss": 3.8552,
      "step": 206850
    },
    {
      "epoch": 0.43095833333333333,
      "grad_norm": 0.9491190910339355,
      "learning_rate": 0.00018337539397904475,
      "loss": 3.8866,
      "step": 206860
    },
    {
      "epoch": 0.4309791666666667,
      "grad_norm": 0.8466129302978516,
      "learning_rate": 0.00018336578248596296,
      "loss": 4.0028,
      "step": 206870
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.9194245338439941,
      "learning_rate": 0.00018335617084875417,
      "loss": 3.9208,
      "step": 206880
    },
    {
      "epoch": 0.43102083333333335,
      "grad_norm": 0.8817896246910095,
      "learning_rate": 0.00018334655906745995,
      "loss": 3.9642,
      "step": 206890
    },
    {
      "epoch": 0.43104166666666666,
      "grad_norm": 0.8378199338912964,
      "learning_rate": 0.00018333694714212174,
      "loss": 3.924,
      "step": 206900
    },
    {
      "epoch": 0.4310625,
      "grad_norm": 0.937850832939148,
      "learning_rate": 0.00018332733507278118,
      "loss": 3.7393,
      "step": 206910
    },
    {
      "epoch": 0.4310833333333333,
      "grad_norm": 1.0220448970794678,
      "learning_rate": 0.0001833177228594797,
      "loss": 3.8753,
      "step": 206920
    },
    {
      "epoch": 0.4311041666666667,
      "grad_norm": 0.8160399794578552,
      "learning_rate": 0.00018330811050225885,
      "loss": 3.9167,
      "step": 206930
    },
    {
      "epoch": 0.431125,
      "grad_norm": 0.7425834536552429,
      "learning_rate": 0.00018329849800116015,
      "loss": 3.7493,
      "step": 206940
    },
    {
      "epoch": 0.43114583333333334,
      "grad_norm": 0.8200601935386658,
      "learning_rate": 0.00018328888535622506,
      "loss": 3.9978,
      "step": 206950
    },
    {
      "epoch": 0.43116666666666664,
      "grad_norm": 0.9891231656074524,
      "learning_rate": 0.00018327927256749522,
      "loss": 3.8543,
      "step": 206960
    },
    {
      "epoch": 0.4311875,
      "grad_norm": 0.8189262747764587,
      "learning_rate": 0.00018326965963501212,
      "loss": 3.9522,
      "step": 206970
    },
    {
      "epoch": 0.43120833333333336,
      "grad_norm": 0.8278369903564453,
      "learning_rate": 0.0001832600465588172,
      "loss": 3.956,
      "step": 206980
    },
    {
      "epoch": 0.43122916666666666,
      "grad_norm": 0.7436863780021667,
      "learning_rate": 0.00018325043333895205,
      "loss": 3.8473,
      "step": 206990
    },
    {
      "epoch": 0.43125,
      "grad_norm": 0.8273910880088806,
      "learning_rate": 0.00018324081997545826,
      "loss": 3.7915,
      "step": 207000
    },
    {
      "epoch": 0.43125,
      "eval_loss": 3.655947208404541,
      "eval_runtime": 7.2784,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 207000
    },
    {
      "epoch": 0.4312708333333333,
      "grad_norm": 0.877144455909729,
      "learning_rate": 0.00018323120646837723,
      "loss": 4.0003,
      "step": 207010
    },
    {
      "epoch": 0.4312916666666667,
      "grad_norm": 0.8530740737915039,
      "learning_rate": 0.0001832215928177505,
      "loss": 3.8978,
      "step": 207020
    },
    {
      "epoch": 0.4313125,
      "grad_norm": 0.9096097350120544,
      "learning_rate": 0.0001832119790236197,
      "loss": 3.9372,
      "step": 207030
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 0.8806038498878479,
      "learning_rate": 0.00018320236508602628,
      "loss": 3.9775,
      "step": 207040
    },
    {
      "epoch": 0.43135416666666665,
      "grad_norm": 0.9654021263122559,
      "learning_rate": 0.00018319275100501178,
      "loss": 4.1192,
      "step": 207050
    },
    {
      "epoch": 0.431375,
      "grad_norm": 0.8616728186607361,
      "learning_rate": 0.00018318313678061777,
      "loss": 3.9882,
      "step": 207060
    },
    {
      "epoch": 0.4313958333333333,
      "grad_norm": 0.8598992824554443,
      "learning_rate": 0.0001831735224128857,
      "loss": 4.0262,
      "step": 207070
    },
    {
      "epoch": 0.43141666666666667,
      "grad_norm": 0.7091350555419922,
      "learning_rate": 0.00018316390790185718,
      "loss": 3.949,
      "step": 207080
    },
    {
      "epoch": 0.4314375,
      "grad_norm": 0.8125544190406799,
      "learning_rate": 0.00018315429324757367,
      "loss": 3.9825,
      "step": 207090
    },
    {
      "epoch": 0.43145833333333333,
      "grad_norm": 0.9138813018798828,
      "learning_rate": 0.00018314467845007674,
      "loss": 3.9623,
      "step": 207100
    },
    {
      "epoch": 0.4314791666666667,
      "grad_norm": 0.8793444633483887,
      "learning_rate": 0.00018313506350940792,
      "loss": 4.0027,
      "step": 207110
    },
    {
      "epoch": 0.4315,
      "grad_norm": 0.8408082723617554,
      "learning_rate": 0.00018312544842560879,
      "loss": 3.9742,
      "step": 207120
    },
    {
      "epoch": 0.43152083333333335,
      "grad_norm": 0.8563790917396545,
      "learning_rate": 0.0001831158331987208,
      "loss": 3.834,
      "step": 207130
    },
    {
      "epoch": 0.43154166666666666,
      "grad_norm": 0.8312328457832336,
      "learning_rate": 0.00018310621782878552,
      "loss": 3.9866,
      "step": 207140
    },
    {
      "epoch": 0.4315625,
      "grad_norm": 0.824557900428772,
      "learning_rate": 0.00018309660231584444,
      "loss": 4.0373,
      "step": 207150
    },
    {
      "epoch": 0.4315833333333333,
      "grad_norm": 0.898611843585968,
      "learning_rate": 0.0001830869866599392,
      "loss": 3.9423,
      "step": 207160
    },
    {
      "epoch": 0.4316041666666667,
      "grad_norm": 0.9299964904785156,
      "learning_rate": 0.00018307737086111127,
      "loss": 3.8362,
      "step": 207170
    },
    {
      "epoch": 0.431625,
      "grad_norm": 0.8837153315544128,
      "learning_rate": 0.00018306775491940216,
      "loss": 3.9946,
      "step": 207180
    },
    {
      "epoch": 0.43164583333333334,
      "grad_norm": 0.9801238179206848,
      "learning_rate": 0.0001830581388348534,
      "loss": 3.8496,
      "step": 207190
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 0.853331983089447,
      "learning_rate": 0.00018304852260750667,
      "loss": 4.0694,
      "step": 207200
    },
    {
      "epoch": 0.4316875,
      "grad_norm": 0.8793610334396362,
      "learning_rate": 0.00018303890623740335,
      "loss": 3.9377,
      "step": 207210
    },
    {
      "epoch": 0.43170833333333336,
      "grad_norm": 0.832840621471405,
      "learning_rate": 0.000183029289724585,
      "loss": 4.0253,
      "step": 207220
    },
    {
      "epoch": 0.43172916666666666,
      "grad_norm": 0.8770172595977783,
      "learning_rate": 0.00018301967306909322,
      "loss": 3.7217,
      "step": 207230
    },
    {
      "epoch": 0.43175,
      "grad_norm": 0.8376794457435608,
      "learning_rate": 0.00018301005627096957,
      "loss": 3.9907,
      "step": 207240
    },
    {
      "epoch": 0.4317708333333333,
      "grad_norm": 0.8240217566490173,
      "learning_rate": 0.0001830004393302555,
      "loss": 3.8242,
      "step": 207250
    },
    {
      "epoch": 0.4317916666666667,
      "grad_norm": 1.1332136392593384,
      "learning_rate": 0.00018299082224699256,
      "loss": 3.8825,
      "step": 207260
    },
    {
      "epoch": 0.4318125,
      "grad_norm": 1.0358147621154785,
      "learning_rate": 0.00018298120502122236,
      "loss": 3.8664,
      "step": 207270
    },
    {
      "epoch": 0.43183333333333335,
      "grad_norm": 0.9108785390853882,
      "learning_rate": 0.00018297158765298642,
      "loss": 3.8707,
      "step": 207280
    },
    {
      "epoch": 0.43185416666666665,
      "grad_norm": 0.797372043132782,
      "learning_rate": 0.00018296197014232627,
      "loss": 3.9864,
      "step": 207290
    },
    {
      "epoch": 0.431875,
      "grad_norm": 0.806366503238678,
      "learning_rate": 0.00018295235248928343,
      "loss": 3.8912,
      "step": 207300
    },
    {
      "epoch": 0.4318958333333333,
      "grad_norm": 1.0241131782531738,
      "learning_rate": 0.0001829427346938995,
      "loss": 3.9951,
      "step": 207310
    },
    {
      "epoch": 0.43191666666666667,
      "grad_norm": 0.8796974420547485,
      "learning_rate": 0.00018293311675621597,
      "loss": 3.7068,
      "step": 207320
    },
    {
      "epoch": 0.4319375,
      "grad_norm": 0.8886412978172302,
      "learning_rate": 0.00018292349867627444,
      "loss": 3.7968,
      "step": 207330
    },
    {
      "epoch": 0.43195833333333333,
      "grad_norm": 0.8144240975379944,
      "learning_rate": 0.00018291388045411642,
      "loss": 3.7965,
      "step": 207340
    },
    {
      "epoch": 0.4319791666666667,
      "grad_norm": 0.8413456678390503,
      "learning_rate": 0.00018290426208978345,
      "loss": 3.9587,
      "step": 207350
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.502386450767517,
      "learning_rate": 0.00018289464358331708,
      "loss": 3.8567,
      "step": 207360
    },
    {
      "epoch": 0.43202083333333335,
      "grad_norm": 0.8775509595870972,
      "learning_rate": 0.0001828850249347589,
      "loss": 3.8208,
      "step": 207370
    },
    {
      "epoch": 0.43204166666666666,
      "grad_norm": 0.8231261968612671,
      "learning_rate": 0.00018287540614415044,
      "loss": 3.6471,
      "step": 207380
    },
    {
      "epoch": 0.4320625,
      "grad_norm": 0.7969615459442139,
      "learning_rate": 0.00018286578721153323,
      "loss": 4.0751,
      "step": 207390
    },
    {
      "epoch": 0.4320833333333333,
      "grad_norm": 0.8763958811759949,
      "learning_rate": 0.00018285616813694882,
      "loss": 3.8443,
      "step": 207400
    },
    {
      "epoch": 0.4321041666666667,
      "grad_norm": 0.8523629307746887,
      "learning_rate": 0.00018284654892043877,
      "loss": 4.011,
      "step": 207410
    },
    {
      "epoch": 0.432125,
      "grad_norm": 0.8431059718132019,
      "learning_rate": 0.0001828369295620446,
      "loss": 3.8497,
      "step": 207420
    },
    {
      "epoch": 0.43214583333333334,
      "grad_norm": 0.8970162272453308,
      "learning_rate": 0.00018282731006180795,
      "loss": 3.8881,
      "step": 207430
    },
    {
      "epoch": 0.43216666666666664,
      "grad_norm": 0.8487437963485718,
      "learning_rate": 0.00018281769041977026,
      "loss": 3.8739,
      "step": 207440
    },
    {
      "epoch": 0.4321875,
      "grad_norm": 0.8340223431587219,
      "learning_rate": 0.00018280807063597316,
      "loss": 3.921,
      "step": 207450
    },
    {
      "epoch": 0.43220833333333336,
      "grad_norm": 0.9146177172660828,
      "learning_rate": 0.00018279845071045818,
      "loss": 3.8451,
      "step": 207460
    },
    {
      "epoch": 0.43222916666666666,
      "grad_norm": 0.8129166960716248,
      "learning_rate": 0.0001827888306432669,
      "loss": 4.0435,
      "step": 207470
    },
    {
      "epoch": 0.43225,
      "grad_norm": 0.8970792293548584,
      "learning_rate": 0.0001827792104344408,
      "loss": 4.0485,
      "step": 207480
    },
    {
      "epoch": 0.4322708333333333,
      "grad_norm": 0.755598783493042,
      "learning_rate": 0.00018276959008402152,
      "loss": 3.9852,
      "step": 207490
    },
    {
      "epoch": 0.4322916666666667,
      "grad_norm": 0.8645229339599609,
      "learning_rate": 0.00018275996959205059,
      "loss": 4.0237,
      "step": 207500
    },
    {
      "epoch": 0.4323125,
      "grad_norm": 0.8561532497406006,
      "learning_rate": 0.00018275034895856956,
      "loss": 3.9672,
      "step": 207510
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 0.7922200560569763,
      "learning_rate": 0.00018274072818361993,
      "loss": 3.8976,
      "step": 207520
    },
    {
      "epoch": 0.43235416666666665,
      "grad_norm": 0.8492833971977234,
      "learning_rate": 0.0001827311072672434,
      "loss": 4.0384,
      "step": 207530
    },
    {
      "epoch": 0.432375,
      "grad_norm": 0.8363659977912903,
      "learning_rate": 0.0001827214862094814,
      "loss": 4.0383,
      "step": 207540
    },
    {
      "epoch": 0.4323958333333333,
      "grad_norm": 0.7963979244232178,
      "learning_rate": 0.00018271186501037548,
      "loss": 3.7302,
      "step": 207550
    },
    {
      "epoch": 0.43241666666666667,
      "grad_norm": 0.8499615788459778,
      "learning_rate": 0.00018270224366996734,
      "loss": 3.9142,
      "step": 207560
    },
    {
      "epoch": 0.4324375,
      "grad_norm": 1.1934314966201782,
      "learning_rate": 0.00018269262218829842,
      "loss": 3.9387,
      "step": 207570
    },
    {
      "epoch": 0.43245833333333333,
      "grad_norm": 0.778415322303772,
      "learning_rate": 0.0001826830005654103,
      "loss": 4.014,
      "step": 207580
    },
    {
      "epoch": 0.4324791666666667,
      "grad_norm": 0.8106830716133118,
      "learning_rate": 0.00018267337880134457,
      "loss": 4.0821,
      "step": 207590
    },
    {
      "epoch": 0.4325,
      "grad_norm": 0.8422739505767822,
      "learning_rate": 0.00018266375689614272,
      "loss": 3.8021,
      "step": 207600
    },
    {
      "epoch": 0.43252083333333335,
      "grad_norm": 0.9069589376449585,
      "learning_rate": 0.00018265413484984643,
      "loss": 3.8754,
      "step": 207610
    },
    {
      "epoch": 0.43254166666666666,
      "grad_norm": 0.8614734411239624,
      "learning_rate": 0.0001826445126624972,
      "loss": 3.973,
      "step": 207620
    },
    {
      "epoch": 0.4325625,
      "grad_norm": 1.1343295574188232,
      "learning_rate": 0.00018263489033413656,
      "loss": 4.082,
      "step": 207630
    },
    {
      "epoch": 0.4325833333333333,
      "grad_norm": 0.7987335920333862,
      "learning_rate": 0.00018262526786480616,
      "loss": 3.8726,
      "step": 207640
    },
    {
      "epoch": 0.4326041666666667,
      "grad_norm": 0.8202291131019592,
      "learning_rate": 0.00018261564525454748,
      "loss": 4.0159,
      "step": 207650
    },
    {
      "epoch": 0.432625,
      "grad_norm": 0.8573845624923706,
      "learning_rate": 0.00018260602250340214,
      "loss": 3.9706,
      "step": 207660
    },
    {
      "epoch": 0.43264583333333334,
      "grad_norm": 0.8701332211494446,
      "learning_rate": 0.00018259639961141168,
      "loss": 3.7751,
      "step": 207670
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 0.971420407295227,
      "learning_rate": 0.0001825867765786177,
      "loss": 3.9897,
      "step": 207680
    },
    {
      "epoch": 0.4326875,
      "grad_norm": 0.8572157621383667,
      "learning_rate": 0.0001825771534050617,
      "loss": 3.9789,
      "step": 207690
    },
    {
      "epoch": 0.4327083333333333,
      "grad_norm": 0.9358940124511719,
      "learning_rate": 0.00018256753009078533,
      "loss": 3.8552,
      "step": 207700
    },
    {
      "epoch": 0.43272916666666666,
      "grad_norm": 1.0374001264572144,
      "learning_rate": 0.00018255790663583013,
      "loss": 4.0828,
      "step": 207710
    },
    {
      "epoch": 0.43275,
      "grad_norm": 0.8275036215782166,
      "learning_rate": 0.00018254828304023758,
      "loss": 3.8178,
      "step": 207720
    },
    {
      "epoch": 0.4327708333333333,
      "grad_norm": 0.8137862682342529,
      "learning_rate": 0.00018253865930404944,
      "loss": 3.8273,
      "step": 207730
    },
    {
      "epoch": 0.4327916666666667,
      "grad_norm": 0.8893288373947144,
      "learning_rate": 0.00018252903542730712,
      "loss": 3.7332,
      "step": 207740
    },
    {
      "epoch": 0.4328125,
      "grad_norm": 0.8720113635063171,
      "learning_rate": 0.00018251941141005223,
      "loss": 3.8992,
      "step": 207750
    },
    {
      "epoch": 0.43283333333333335,
      "grad_norm": 0.8975170850753784,
      "learning_rate": 0.0001825097872523264,
      "loss": 3.68,
      "step": 207760
    },
    {
      "epoch": 0.43285416666666665,
      "grad_norm": 0.8428245782852173,
      "learning_rate": 0.0001825001629541711,
      "loss": 3.9485,
      "step": 207770
    },
    {
      "epoch": 0.432875,
      "grad_norm": 0.8170066475868225,
      "learning_rate": 0.000182490538515628,
      "loss": 3.8974,
      "step": 207780
    },
    {
      "epoch": 0.4328958333333333,
      "grad_norm": 0.8656996488571167,
      "learning_rate": 0.0001824809139367386,
      "loss": 4.0626,
      "step": 207790
    },
    {
      "epoch": 0.43291666666666667,
      "grad_norm": 0.9517642855644226,
      "learning_rate": 0.00018247128921754452,
      "loss": 4.0164,
      "step": 207800
    },
    {
      "epoch": 0.4329375,
      "grad_norm": 0.7995153069496155,
      "learning_rate": 0.00018246166435808737,
      "loss": 3.8754,
      "step": 207810
    },
    {
      "epoch": 0.43295833333333333,
      "grad_norm": 0.8459742665290833,
      "learning_rate": 0.00018245203935840862,
      "loss": 4.0084,
      "step": 207820
    },
    {
      "epoch": 0.4329791666666667,
      "grad_norm": 0.8544439077377319,
      "learning_rate": 0.00018244241421854992,
      "loss": 3.938,
      "step": 207830
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.8028758764266968,
      "learning_rate": 0.00018243278893855286,
      "loss": 4.0409,
      "step": 207840
    },
    {
      "epoch": 0.43302083333333335,
      "grad_norm": 0.9469379782676697,
      "learning_rate": 0.00018242316351845894,
      "loss": 4.055,
      "step": 207850
    },
    {
      "epoch": 0.43304166666666666,
      "grad_norm": 0.8610532879829407,
      "learning_rate": 0.00018241353795830982,
      "loss": 3.8915,
      "step": 207860
    },
    {
      "epoch": 0.4330625,
      "grad_norm": 0.9563907384872437,
      "learning_rate": 0.00018240391225814704,
      "loss": 3.9008,
      "step": 207870
    },
    {
      "epoch": 0.4330833333333333,
      "grad_norm": 0.776533842086792,
      "learning_rate": 0.00018239428641801222,
      "loss": 3.9364,
      "step": 207880
    },
    {
      "epoch": 0.4331041666666667,
      "grad_norm": 0.7613853812217712,
      "learning_rate": 0.00018238466043794685,
      "loss": 3.9552,
      "step": 207890
    },
    {
      "epoch": 0.433125,
      "grad_norm": 0.791432797908783,
      "learning_rate": 0.0001823750343179926,
      "loss": 3.6478,
      "step": 207900
    },
    {
      "epoch": 0.43314583333333334,
      "grad_norm": 0.9064967632293701,
      "learning_rate": 0.00018236540805819103,
      "loss": 4.0322,
      "step": 207910
    },
    {
      "epoch": 0.43316666666666664,
      "grad_norm": 0.9941149950027466,
      "learning_rate": 0.00018235578165858366,
      "loss": 4.0973,
      "step": 207920
    },
    {
      "epoch": 0.4331875,
      "grad_norm": 0.7876809239387512,
      "learning_rate": 0.00018234615511921213,
      "loss": 4.1707,
      "step": 207930
    },
    {
      "epoch": 0.4332083333333333,
      "grad_norm": 0.8840265870094299,
      "learning_rate": 0.00018233652844011806,
      "loss": 4.0282,
      "step": 207940
    },
    {
      "epoch": 0.43322916666666667,
      "grad_norm": 0.844112753868103,
      "learning_rate": 0.00018232690162134295,
      "loss": 3.9487,
      "step": 207950
    },
    {
      "epoch": 0.43325,
      "grad_norm": 0.9203246235847473,
      "learning_rate": 0.0001823172746629284,
      "loss": 3.8825,
      "step": 207960
    },
    {
      "epoch": 0.4332708333333333,
      "grad_norm": 0.8502276539802551,
      "learning_rate": 0.00018230764756491607,
      "loss": 3.8556,
      "step": 207970
    },
    {
      "epoch": 0.4332916666666667,
      "grad_norm": 0.9067643880844116,
      "learning_rate": 0.00018229802032734745,
      "loss": 4.1956,
      "step": 207980
    },
    {
      "epoch": 0.4333125,
      "grad_norm": 0.7521458268165588,
      "learning_rate": 0.00018228839295026417,
      "loss": 3.8766,
      "step": 207990
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.8384546637535095,
      "learning_rate": 0.00018227876543370784,
      "loss": 3.9268,
      "step": 208000
    },
    {
      "epoch": 0.43333333333333335,
      "eval_loss": 3.6537461280822754,
      "eval_runtime": 7.3075,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.411,
      "step": 208000
    },
    {
      "epoch": 0.43335416666666665,
      "grad_norm": 0.8560699820518494,
      "learning_rate": 0.00018226913777772002,
      "loss": 3.8646,
      "step": 208010
    },
    {
      "epoch": 0.433375,
      "grad_norm": 1.0039347410202026,
      "learning_rate": 0.00018225950998234224,
      "loss": 3.8149,
      "step": 208020
    },
    {
      "epoch": 0.4333958333333333,
      "grad_norm": 0.9120850563049316,
      "learning_rate": 0.0001822498820476162,
      "loss": 3.9614,
      "step": 208030
    },
    {
      "epoch": 0.4334166666666667,
      "grad_norm": 0.819213330745697,
      "learning_rate": 0.00018224025397358342,
      "loss": 4.0678,
      "step": 208040
    },
    {
      "epoch": 0.4334375,
      "grad_norm": 0.9170807003974915,
      "learning_rate": 0.0001822306257602855,
      "loss": 4.0948,
      "step": 208050
    },
    {
      "epoch": 0.43345833333333333,
      "grad_norm": 0.8187239766120911,
      "learning_rate": 0.00018222099740776402,
      "loss": 4.0456,
      "step": 208060
    },
    {
      "epoch": 0.4334791666666667,
      "grad_norm": 0.8232197165489197,
      "learning_rate": 0.00018221136891606064,
      "loss": 3.8914,
      "step": 208070
    },
    {
      "epoch": 0.4335,
      "grad_norm": 0.8214219808578491,
      "learning_rate": 0.00018220174028521686,
      "loss": 3.9686,
      "step": 208080
    },
    {
      "epoch": 0.43352083333333336,
      "grad_norm": 0.8674076795578003,
      "learning_rate": 0.00018219211151527428,
      "loss": 3.7538,
      "step": 208090
    },
    {
      "epoch": 0.43354166666666666,
      "grad_norm": 0.8372135758399963,
      "learning_rate": 0.0001821824826062746,
      "loss": 3.9977,
      "step": 208100
    },
    {
      "epoch": 0.4335625,
      "grad_norm": 0.7814475893974304,
      "learning_rate": 0.00018217285355825926,
      "loss": 3.8488,
      "step": 208110
    },
    {
      "epoch": 0.4335833333333333,
      "grad_norm": 0.806427001953125,
      "learning_rate": 0.00018216322437126996,
      "loss": 4.0143,
      "step": 208120
    },
    {
      "epoch": 0.4336041666666667,
      "grad_norm": 0.8396636843681335,
      "learning_rate": 0.00018215359504534826,
      "loss": 3.8444,
      "step": 208130
    },
    {
      "epoch": 0.433625,
      "grad_norm": 0.8197849988937378,
      "learning_rate": 0.00018214396558053573,
      "loss": 3.9127,
      "step": 208140
    },
    {
      "epoch": 0.43364583333333334,
      "grad_norm": 0.8258670568466187,
      "learning_rate": 0.00018213433597687404,
      "loss": 4.227,
      "step": 208150
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 0.7630977034568787,
      "learning_rate": 0.0001821247062344047,
      "loss": 4.0726,
      "step": 208160
    },
    {
      "epoch": 0.4336875,
      "grad_norm": 0.7871304750442505,
      "learning_rate": 0.00018211507635316934,
      "loss": 4.0639,
      "step": 208170
    },
    {
      "epoch": 0.4337083333333333,
      "grad_norm": 0.8146409392356873,
      "learning_rate": 0.0001821054463332096,
      "loss": 3.8662,
      "step": 208180
    },
    {
      "epoch": 0.43372916666666667,
      "grad_norm": 0.8208662867546082,
      "learning_rate": 0.00018209581617456702,
      "loss": 3.9208,
      "step": 208190
    },
    {
      "epoch": 0.43375,
      "grad_norm": 0.8822250366210938,
      "learning_rate": 0.0001820861858772832,
      "loss": 3.9909,
      "step": 208200
    },
    {
      "epoch": 0.4337708333333333,
      "grad_norm": 1.0096529722213745,
      "learning_rate": 0.0001820765554413998,
      "loss": 4.0143,
      "step": 208210
    },
    {
      "epoch": 0.4337916666666667,
      "grad_norm": 0.8405055999755859,
      "learning_rate": 0.00018206692486695832,
      "loss": 3.9998,
      "step": 208220
    },
    {
      "epoch": 0.4338125,
      "grad_norm": 0.8614476919174194,
      "learning_rate": 0.00018205729415400046,
      "loss": 4.0332,
      "step": 208230
    },
    {
      "epoch": 0.43383333333333335,
      "grad_norm": 0.7850450277328491,
      "learning_rate": 0.00018204766330256778,
      "loss": 4.0284,
      "step": 208240
    },
    {
      "epoch": 0.43385416666666665,
      "grad_norm": 0.7988718748092651,
      "learning_rate": 0.00018203803231270187,
      "loss": 3.8421,
      "step": 208250
    },
    {
      "epoch": 0.433875,
      "grad_norm": 0.8772558569908142,
      "learning_rate": 0.00018202840118444435,
      "loss": 3.9711,
      "step": 208260
    },
    {
      "epoch": 0.4338958333333333,
      "grad_norm": 0.8114198446273804,
      "learning_rate": 0.0001820187699178368,
      "loss": 3.9728,
      "step": 208270
    },
    {
      "epoch": 0.4339166666666667,
      "grad_norm": 0.8288124203681946,
      "learning_rate": 0.00018200913851292082,
      "loss": 3.8253,
      "step": 208280
    },
    {
      "epoch": 0.4339375,
      "grad_norm": 0.8947830200195312,
      "learning_rate": 0.00018199950696973804,
      "loss": 3.8543,
      "step": 208290
    },
    {
      "epoch": 0.43395833333333333,
      "grad_norm": 1.0174510478973389,
      "learning_rate": 0.00018198987528833006,
      "loss": 4.0755,
      "step": 208300
    },
    {
      "epoch": 0.4339791666666667,
      "grad_norm": 0.7830126285552979,
      "learning_rate": 0.00018198024346873849,
      "loss": 3.8468,
      "step": 208310
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.8135837316513062,
      "learning_rate": 0.00018197061151100497,
      "loss": 4.0227,
      "step": 208320
    },
    {
      "epoch": 0.43402083333333336,
      "grad_norm": 0.8065586090087891,
      "learning_rate": 0.00018196097941517098,
      "loss": 3.9259,
      "step": 208330
    },
    {
      "epoch": 0.43404166666666666,
      "grad_norm": 0.9130532741546631,
      "learning_rate": 0.00018195134718127827,
      "loss": 3.7899,
      "step": 208340
    },
    {
      "epoch": 0.4340625,
      "grad_norm": 0.8514129519462585,
      "learning_rate": 0.00018194171480936838,
      "loss": 3.8727,
      "step": 208350
    },
    {
      "epoch": 0.4340833333333333,
      "grad_norm": 0.8091461062431335,
      "learning_rate": 0.0001819320822994829,
      "loss": 4.1109,
      "step": 208360
    },
    {
      "epoch": 0.4341041666666667,
      "grad_norm": 0.8511158227920532,
      "learning_rate": 0.00018192244965166348,
      "loss": 3.9877,
      "step": 208370
    },
    {
      "epoch": 0.434125,
      "grad_norm": 0.9904647469520569,
      "learning_rate": 0.00018191281686595173,
      "loss": 3.8784,
      "step": 208380
    },
    {
      "epoch": 0.43414583333333334,
      "grad_norm": 0.8180825114250183,
      "learning_rate": 0.0001819031839423892,
      "loss": 3.7466,
      "step": 208390
    },
    {
      "epoch": 0.43416666666666665,
      "grad_norm": 0.8710222244262695,
      "learning_rate": 0.00018189355088101756,
      "loss": 3.7787,
      "step": 208400
    },
    {
      "epoch": 0.4341875,
      "grad_norm": 0.856918454170227,
      "learning_rate": 0.00018188391768187844,
      "loss": 4.0048,
      "step": 208410
    },
    {
      "epoch": 0.4342083333333333,
      "grad_norm": 3.2005696296691895,
      "learning_rate": 0.00018187428434501336,
      "loss": 4.0772,
      "step": 208420
    },
    {
      "epoch": 0.43422916666666667,
      "grad_norm": 0.8398001194000244,
      "learning_rate": 0.00018186465087046406,
      "loss": 3.9844,
      "step": 208430
    },
    {
      "epoch": 0.43425,
      "grad_norm": 0.821800708770752,
      "learning_rate": 0.00018185501725827201,
      "loss": 3.7822,
      "step": 208440
    },
    {
      "epoch": 0.43427083333333333,
      "grad_norm": 0.8546531796455383,
      "learning_rate": 0.00018184538350847894,
      "loss": 3.8722,
      "step": 208450
    },
    {
      "epoch": 0.4342916666666667,
      "grad_norm": 1.109712839126587,
      "learning_rate": 0.00018183574962112639,
      "loss": 3.9222,
      "step": 208460
    },
    {
      "epoch": 0.4343125,
      "grad_norm": 0.8688824772834778,
      "learning_rate": 0.00018182611559625601,
      "loss": 3.94,
      "step": 208470
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 0.870614230632782,
      "learning_rate": 0.00018181648143390943,
      "loss": 3.8955,
      "step": 208480
    },
    {
      "epoch": 0.43435416666666665,
      "grad_norm": 0.9520896077156067,
      "learning_rate": 0.00018180684713412819,
      "loss": 3.9727,
      "step": 208490
    },
    {
      "epoch": 0.434375,
      "grad_norm": 0.8850007653236389,
      "learning_rate": 0.000181797212696954,
      "loss": 3.9944,
      "step": 208500
    },
    {
      "epoch": 0.4343958333333333,
      "grad_norm": 0.9535605311393738,
      "learning_rate": 0.00018178757812242847,
      "loss": 3.8218,
      "step": 208510
    },
    {
      "epoch": 0.4344166666666667,
      "grad_norm": 0.7887916564941406,
      "learning_rate": 0.0001817779434105931,
      "loss": 3.8432,
      "step": 208520
    },
    {
      "epoch": 0.4344375,
      "grad_norm": 0.9244125485420227,
      "learning_rate": 0.00018176830856148966,
      "loss": 4.1071,
      "step": 208530
    },
    {
      "epoch": 0.43445833333333334,
      "grad_norm": 0.781661868095398,
      "learning_rate": 0.0001817586735751597,
      "loss": 3.773,
      "step": 208540
    },
    {
      "epoch": 0.4344791666666667,
      "grad_norm": 0.8087146878242493,
      "learning_rate": 0.00018174903845164482,
      "loss": 3.9628,
      "step": 208550
    },
    {
      "epoch": 0.4345,
      "grad_norm": 0.9391099810600281,
      "learning_rate": 0.00018173940319098664,
      "loss": 3.8432,
      "step": 208560
    },
    {
      "epoch": 0.43452083333333336,
      "grad_norm": 0.7794873714447021,
      "learning_rate": 0.00018172976779322689,
      "loss": 3.787,
      "step": 208570
    },
    {
      "epoch": 0.43454166666666666,
      "grad_norm": 0.870736837387085,
      "learning_rate": 0.00018172013225840701,
      "loss": 3.8522,
      "step": 208580
    },
    {
      "epoch": 0.4345625,
      "grad_norm": 0.9369323253631592,
      "learning_rate": 0.00018171049658656873,
      "loss": 3.7391,
      "step": 208590
    },
    {
      "epoch": 0.4345833333333333,
      "grad_norm": 0.9434757232666016,
      "learning_rate": 0.0001817008607777537,
      "loss": 3.705,
      "step": 208600
    },
    {
      "epoch": 0.4346041666666667,
      "grad_norm": 0.804574728012085,
      "learning_rate": 0.00018169122483200346,
      "loss": 3.8292,
      "step": 208610
    },
    {
      "epoch": 0.434625,
      "grad_norm": 0.8554837703704834,
      "learning_rate": 0.00018168158874935967,
      "loss": 3.776,
      "step": 208620
    },
    {
      "epoch": 0.43464583333333334,
      "grad_norm": 0.7964697480201721,
      "learning_rate": 0.000181671952529864,
      "loss": 3.6181,
      "step": 208630
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 0.8191068768501282,
      "learning_rate": 0.00018166231617355798,
      "loss": 3.851,
      "step": 208640
    },
    {
      "epoch": 0.4346875,
      "grad_norm": 0.8895546197891235,
      "learning_rate": 0.0001816526796804833,
      "loss": 4.0019,
      "step": 208650
    },
    {
      "epoch": 0.4347083333333333,
      "grad_norm": 0.8292046189308167,
      "learning_rate": 0.0001816430430506816,
      "loss": 3.8523,
      "step": 208660
    },
    {
      "epoch": 0.43472916666666667,
      "grad_norm": 1.233720064163208,
      "learning_rate": 0.00018163340628419444,
      "loss": 3.9179,
      "step": 208670
    },
    {
      "epoch": 0.43475,
      "grad_norm": 0.9057744145393372,
      "learning_rate": 0.0001816237693810635,
      "loss": 3.8311,
      "step": 208680
    },
    {
      "epoch": 0.43477083333333333,
      "grad_norm": 0.9087413549423218,
      "learning_rate": 0.0001816141323413304,
      "loss": 3.8942,
      "step": 208690
    },
    {
      "epoch": 0.4347916666666667,
      "grad_norm": 0.8112286925315857,
      "learning_rate": 0.00018160449516503677,
      "loss": 3.722,
      "step": 208700
    },
    {
      "epoch": 0.4348125,
      "grad_norm": 1.213712453842163,
      "learning_rate": 0.00018159485785222424,
      "loss": 3.9659,
      "step": 208710
    },
    {
      "epoch": 0.43483333333333335,
      "grad_norm": 0.8753086924552917,
      "learning_rate": 0.0001815852204029344,
      "loss": 3.9415,
      "step": 208720
    },
    {
      "epoch": 0.43485416666666665,
      "grad_norm": 0.8168728351593018,
      "learning_rate": 0.00018157558281720892,
      "loss": 4.1589,
      "step": 208730
    },
    {
      "epoch": 0.434875,
      "grad_norm": 0.8284905552864075,
      "learning_rate": 0.00018156594509508947,
      "loss": 3.8797,
      "step": 208740
    },
    {
      "epoch": 0.4348958333333333,
      "grad_norm": 0.9236037135124207,
      "learning_rate": 0.00018155630723661756,
      "loss": 4.0685,
      "step": 208750
    },
    {
      "epoch": 0.4349166666666667,
      "grad_norm": 0.8311030268669128,
      "learning_rate": 0.0001815466692418349,
      "loss": 3.7421,
      "step": 208760
    },
    {
      "epoch": 0.4349375,
      "grad_norm": 0.8197494149208069,
      "learning_rate": 0.00018153703111078317,
      "loss": 3.9196,
      "step": 208770
    },
    {
      "epoch": 0.43495833333333334,
      "grad_norm": 1.0267390012741089,
      "learning_rate": 0.00018152739284350391,
      "loss": 3.9105,
      "step": 208780
    },
    {
      "epoch": 0.43497916666666664,
      "grad_norm": 0.9875697493553162,
      "learning_rate": 0.00018151775444003875,
      "loss": 3.9874,
      "step": 208790
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.7557346820831299,
      "learning_rate": 0.00018150811590042946,
      "loss": 3.8289,
      "step": 208800
    },
    {
      "epoch": 0.43502083333333336,
      "grad_norm": 0.9141296148300171,
      "learning_rate": 0.00018149847722471755,
      "loss": 4.0759,
      "step": 208810
    },
    {
      "epoch": 0.43504166666666666,
      "grad_norm": 0.8947657942771912,
      "learning_rate": 0.00018148883841294467,
      "loss": 3.9309,
      "step": 208820
    },
    {
      "epoch": 0.4350625,
      "grad_norm": 0.8414442539215088,
      "learning_rate": 0.00018147919946515247,
      "loss": 4.0246,
      "step": 208830
    },
    {
      "epoch": 0.4350833333333333,
      "grad_norm": 0.9449955224990845,
      "learning_rate": 0.00018146956038138257,
      "loss": 4.0354,
      "step": 208840
    },
    {
      "epoch": 0.4351041666666667,
      "grad_norm": 0.812184751033783,
      "learning_rate": 0.00018145992116167664,
      "loss": 3.9337,
      "step": 208850
    },
    {
      "epoch": 0.435125,
      "grad_norm": 0.7950484752655029,
      "learning_rate": 0.00018145028180607632,
      "loss": 3.9825,
      "step": 208860
    },
    {
      "epoch": 0.43514583333333334,
      "grad_norm": 1.2606850862503052,
      "learning_rate": 0.00018144064231462325,
      "loss": 3.832,
      "step": 208870
    },
    {
      "epoch": 0.43516666666666665,
      "grad_norm": 0.858477771282196,
      "learning_rate": 0.00018143100268735903,
      "loss": 3.7954,
      "step": 208880
    },
    {
      "epoch": 0.4351875,
      "grad_norm": 0.8596664071083069,
      "learning_rate": 0.00018142136292432527,
      "loss": 3.8833,
      "step": 208890
    },
    {
      "epoch": 0.4352083333333333,
      "grad_norm": 1.020969271659851,
      "learning_rate": 0.0001814117230255637,
      "loss": 3.9455,
      "step": 208900
    },
    {
      "epoch": 0.43522916666666667,
      "grad_norm": 0.8391293883323669,
      "learning_rate": 0.00018140208299111598,
      "loss": 3.9789,
      "step": 208910
    },
    {
      "epoch": 0.43525,
      "grad_norm": 0.8918320536613464,
      "learning_rate": 0.00018139244282102358,
      "loss": 3.9022,
      "step": 208920
    },
    {
      "epoch": 0.43527083333333333,
      "grad_norm": 0.8471951484680176,
      "learning_rate": 0.00018138280251532829,
      "loss": 3.883,
      "step": 208930
    },
    {
      "epoch": 0.4352916666666667,
      "grad_norm": 1.0493078231811523,
      "learning_rate": 0.00018137316207407177,
      "loss": 3.8354,
      "step": 208940
    },
    {
      "epoch": 0.4353125,
      "grad_norm": 1.0543148517608643,
      "learning_rate": 0.0001813635214972956,
      "loss": 3.8003,
      "step": 208950
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 0.7477009296417236,
      "learning_rate": 0.00018135388078504135,
      "loss": 3.7947,
      "step": 208960
    },
    {
      "epoch": 0.43535416666666665,
      "grad_norm": 0.8561130166053772,
      "learning_rate": 0.0001813442399373508,
      "loss": 3.902,
      "step": 208970
    },
    {
      "epoch": 0.435375,
      "grad_norm": 0.8486734628677368,
      "learning_rate": 0.0001813345989542656,
      "loss": 3.9051,
      "step": 208980
    },
    {
      "epoch": 0.4353958333333333,
      "grad_norm": 0.7910376191139221,
      "learning_rate": 0.00018132495783582721,
      "loss": 3.8931,
      "step": 208990
    },
    {
      "epoch": 0.4354166666666667,
      "grad_norm": 0.8381280899047852,
      "learning_rate": 0.00018131531658207748,
      "loss": 3.8381,
      "step": 209000
    },
    {
      "epoch": 0.4354166666666667,
      "eval_loss": 3.654867172241211,
      "eval_runtime": 6.7794,
      "eval_samples_per_second": 1.475,
      "eval_steps_per_second": 0.443,
      "step": 209000
    },
    {
      "epoch": 0.4354375,
      "grad_norm": 3.468312978744507,
      "learning_rate": 0.00018130567519305797,
      "loss": 4.0027,
      "step": 209010
    },
    {
      "epoch": 0.43545833333333334,
      "grad_norm": 0.8059239387512207,
      "learning_rate": 0.00018129603366881031,
      "loss": 3.8821,
      "step": 209020
    },
    {
      "epoch": 0.43547916666666664,
      "grad_norm": 0.8993771076202393,
      "learning_rate": 0.0001812863920093762,
      "loss": 3.8324,
      "step": 209030
    },
    {
      "epoch": 0.4355,
      "grad_norm": 0.9169285297393799,
      "learning_rate": 0.00018127675021479726,
      "loss": 3.911,
      "step": 209040
    },
    {
      "epoch": 0.43552083333333336,
      "grad_norm": 0.7585631608963013,
      "learning_rate": 0.00018126710828511513,
      "loss": 3.8785,
      "step": 209050
    },
    {
      "epoch": 0.43554166666666666,
      "grad_norm": 0.9080760478973389,
      "learning_rate": 0.00018125746622037146,
      "loss": 3.784,
      "step": 209060
    },
    {
      "epoch": 0.4355625,
      "grad_norm": 0.8556917905807495,
      "learning_rate": 0.0001812478240206079,
      "loss": 3.9441,
      "step": 209070
    },
    {
      "epoch": 0.4355833333333333,
      "grad_norm": 0.8636530637741089,
      "learning_rate": 0.00018123818168586618,
      "loss": 3.9258,
      "step": 209080
    },
    {
      "epoch": 0.4356041666666667,
      "grad_norm": 0.7823106646537781,
      "learning_rate": 0.0001812285392161878,
      "loss": 3.8228,
      "step": 209090
    },
    {
      "epoch": 0.435625,
      "grad_norm": 0.7867034673690796,
      "learning_rate": 0.0001812188966116145,
      "loss": 3.7414,
      "step": 209100
    },
    {
      "epoch": 0.43564583333333334,
      "grad_norm": 0.818272054195404,
      "learning_rate": 0.00018120925387218797,
      "loss": 3.9481,
      "step": 209110
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 0.836122989654541,
      "learning_rate": 0.00018119961099794977,
      "loss": 3.7733,
      "step": 209120
    },
    {
      "epoch": 0.4356875,
      "grad_norm": 0.842214047908783,
      "learning_rate": 0.0001811899679889416,
      "loss": 3.8744,
      "step": 209130
    },
    {
      "epoch": 0.4357083333333333,
      "grad_norm": 0.806003987789154,
      "learning_rate": 0.00018118032484520518,
      "loss": 4.047,
      "step": 209140
    },
    {
      "epoch": 0.43572916666666667,
      "grad_norm": 0.8969936370849609,
      "learning_rate": 0.00018117068156678202,
      "loss": 3.733,
      "step": 209150
    },
    {
      "epoch": 0.43575,
      "grad_norm": 0.8704319000244141,
      "learning_rate": 0.0001811610381537139,
      "loss": 3.8689,
      "step": 209160
    },
    {
      "epoch": 0.43577083333333333,
      "grad_norm": 0.8905739784240723,
      "learning_rate": 0.0001811513946060424,
      "loss": 3.853,
      "step": 209170
    },
    {
      "epoch": 0.4357916666666667,
      "grad_norm": 0.8934887051582336,
      "learning_rate": 0.00018114175092380922,
      "loss": 3.6502,
      "step": 209180
    },
    {
      "epoch": 0.4358125,
      "grad_norm": 0.8333624005317688,
      "learning_rate": 0.00018113210710705603,
      "loss": 4.1444,
      "step": 209190
    },
    {
      "epoch": 0.43583333333333335,
      "grad_norm": 0.8693333864212036,
      "learning_rate": 0.00018112246315582443,
      "loss": 3.9631,
      "step": 209200
    },
    {
      "epoch": 0.43585416666666665,
      "grad_norm": 0.8315433263778687,
      "learning_rate": 0.0001811128190701561,
      "loss": 3.9573,
      "step": 209210
    },
    {
      "epoch": 0.435875,
      "grad_norm": 0.865724503993988,
      "learning_rate": 0.00018110317485009271,
      "loss": 3.7981,
      "step": 209220
    },
    {
      "epoch": 0.4358958333333333,
      "grad_norm": 0.9156312346458435,
      "learning_rate": 0.00018109353049567593,
      "loss": 4.0154,
      "step": 209230
    },
    {
      "epoch": 0.4359166666666667,
      "grad_norm": 1.0285048484802246,
      "learning_rate": 0.00018108388600694738,
      "loss": 3.9135,
      "step": 209240
    },
    {
      "epoch": 0.4359375,
      "grad_norm": 0.87395179271698,
      "learning_rate": 0.0001810742413839488,
      "loss": 3.8577,
      "step": 209250
    },
    {
      "epoch": 0.43595833333333334,
      "grad_norm": 0.8911884427070618,
      "learning_rate": 0.00018106459662672175,
      "loss": 3.9194,
      "step": 209260
    },
    {
      "epoch": 0.43597916666666664,
      "grad_norm": 0.8335122466087341,
      "learning_rate": 0.00018105495173530796,
      "loss": 3.9511,
      "step": 209270
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.8376739621162415,
      "learning_rate": 0.00018104530670974908,
      "loss": 3.8722,
      "step": 209280
    },
    {
      "epoch": 0.43602083333333336,
      "grad_norm": 0.8447539210319519,
      "learning_rate": 0.0001810356615500867,
      "loss": 3.7184,
      "step": 209290
    },
    {
      "epoch": 0.43604166666666666,
      "grad_norm": 0.8349335789680481,
      "learning_rate": 0.00018102601625636267,
      "loss": 3.8845,
      "step": 209300
    },
    {
      "epoch": 0.4360625,
      "grad_norm": 0.802384078502655,
      "learning_rate": 0.00018101637082861843,
      "loss": 4.0802,
      "step": 209310
    },
    {
      "epoch": 0.4360833333333333,
      "grad_norm": 1.3437442779541016,
      "learning_rate": 0.00018100672526689577,
      "loss": 3.8018,
      "step": 209320
    },
    {
      "epoch": 0.4361041666666667,
      "grad_norm": 0.9093250632286072,
      "learning_rate": 0.0001809970795712363,
      "loss": 3.8581,
      "step": 209330
    },
    {
      "epoch": 0.436125,
      "grad_norm": 0.8471227288246155,
      "learning_rate": 0.00018098743374168178,
      "loss": 3.897,
      "step": 209340
    },
    {
      "epoch": 0.43614583333333334,
      "grad_norm": 0.8708492517471313,
      "learning_rate": 0.00018097778777827377,
      "loss": 3.674,
      "step": 209350
    },
    {
      "epoch": 0.43616666666666665,
      "grad_norm": 0.8672879338264465,
      "learning_rate": 0.00018096814168105398,
      "loss": 3.9375,
      "step": 209360
    },
    {
      "epoch": 0.4361875,
      "grad_norm": 0.8582940697669983,
      "learning_rate": 0.00018095849545006406,
      "loss": 4.0205,
      "step": 209370
    },
    {
      "epoch": 0.4362083333333333,
      "grad_norm": 0.8816342949867249,
      "learning_rate": 0.00018094884908534574,
      "loss": 3.8966,
      "step": 209380
    },
    {
      "epoch": 0.43622916666666667,
      "grad_norm": 0.8148751854896545,
      "learning_rate": 0.00018093920258694063,
      "loss": 4.1225,
      "step": 209390
    },
    {
      "epoch": 0.43625,
      "grad_norm": 0.9170862436294556,
      "learning_rate": 0.0001809295559548904,
      "loss": 3.9346,
      "step": 209400
    },
    {
      "epoch": 0.43627083333333333,
      "grad_norm": 0.8664377927780151,
      "learning_rate": 0.00018091990918923674,
      "loss": 3.8068,
      "step": 209410
    },
    {
      "epoch": 0.4362916666666667,
      "grad_norm": 0.8191356658935547,
      "learning_rate": 0.00018091026229002127,
      "loss": 3.8953,
      "step": 209420
    },
    {
      "epoch": 0.4363125,
      "grad_norm": 0.7886205315589905,
      "learning_rate": 0.00018090061525728572,
      "loss": 3.9531,
      "step": 209430
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 0.7471758723258972,
      "learning_rate": 0.0001808909680910718,
      "loss": 3.9069,
      "step": 209440
    },
    {
      "epoch": 0.43635416666666665,
      "grad_norm": 0.8617395162582397,
      "learning_rate": 0.00018088132079142107,
      "loss": 3.9603,
      "step": 209450
    },
    {
      "epoch": 0.436375,
      "grad_norm": 0.7798105478286743,
      "learning_rate": 0.00018087167335837525,
      "loss": 4.1102,
      "step": 209460
    },
    {
      "epoch": 0.4363958333333333,
      "grad_norm": 0.7985655665397644,
      "learning_rate": 0.0001808620257919761,
      "loss": 3.8364,
      "step": 209470
    },
    {
      "epoch": 0.4364166666666667,
      "grad_norm": 0.9695525169372559,
      "learning_rate": 0.00018085237809226513,
      "loss": 3.9883,
      "step": 209480
    },
    {
      "epoch": 0.4364375,
      "grad_norm": 0.832371711730957,
      "learning_rate": 0.0001808427302592841,
      "loss": 3.9835,
      "step": 209490
    },
    {
      "epoch": 0.43645833333333334,
      "grad_norm": 0.797091007232666,
      "learning_rate": 0.00018083308229307476,
      "loss": 3.6542,
      "step": 209500
    },
    {
      "epoch": 0.43647916666666664,
      "grad_norm": 0.8929128050804138,
      "learning_rate": 0.00018082343419367866,
      "loss": 3.9523,
      "step": 209510
    },
    {
      "epoch": 0.4365,
      "grad_norm": 1.0689334869384766,
      "learning_rate": 0.00018081378596113753,
      "loss": 3.9479,
      "step": 209520
    },
    {
      "epoch": 0.43652083333333336,
      "grad_norm": 0.8514123558998108,
      "learning_rate": 0.000180804137595493,
      "loss": 3.6788,
      "step": 209530
    },
    {
      "epoch": 0.43654166666666666,
      "grad_norm": 0.8890405297279358,
      "learning_rate": 0.00018079448909678682,
      "loss": 4.0616,
      "step": 209540
    },
    {
      "epoch": 0.4365625,
      "grad_norm": 0.9044901728630066,
      "learning_rate": 0.00018078484046506063,
      "loss": 3.8217,
      "step": 209550
    },
    {
      "epoch": 0.4365833333333333,
      "grad_norm": 0.8851878046989441,
      "learning_rate": 0.00018077519170035615,
      "loss": 3.8831,
      "step": 209560
    },
    {
      "epoch": 0.4366041666666667,
      "grad_norm": 0.8962411880493164,
      "learning_rate": 0.00018076554280271502,
      "loss": 4.0215,
      "step": 209570
    },
    {
      "epoch": 0.436625,
      "grad_norm": 0.9849154949188232,
      "learning_rate": 0.0001807558937721789,
      "loss": 3.7766,
      "step": 209580
    },
    {
      "epoch": 0.43664583333333334,
      "grad_norm": 0.8710682988166809,
      "learning_rate": 0.00018074624460878946,
      "loss": 4.0235,
      "step": 209590
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 0.7778935432434082,
      "learning_rate": 0.00018073659531258845,
      "loss": 3.9063,
      "step": 209600
    },
    {
      "epoch": 0.4366875,
      "grad_norm": 0.8640122413635254,
      "learning_rate": 0.00018072694588361753,
      "loss": 3.9165,
      "step": 209610
    },
    {
      "epoch": 0.4367083333333333,
      "grad_norm": 0.8583025336265564,
      "learning_rate": 0.0001807172963219183,
      "loss": 3.9403,
      "step": 209620
    },
    {
      "epoch": 0.43672916666666667,
      "grad_norm": 0.8746194839477539,
      "learning_rate": 0.0001807076466275326,
      "loss": 4.1013,
      "step": 209630
    },
    {
      "epoch": 0.43675,
      "grad_norm": 0.8846719861030579,
      "learning_rate": 0.00018069799680050198,
      "loss": 3.8988,
      "step": 209640
    },
    {
      "epoch": 0.43677083333333333,
      "grad_norm": 0.9814002513885498,
      "learning_rate": 0.00018068834684086818,
      "loss": 3.9897,
      "step": 209650
    },
    {
      "epoch": 0.4367916666666667,
      "grad_norm": 0.7123545408248901,
      "learning_rate": 0.00018067869674867282,
      "loss": 3.8835,
      "step": 209660
    },
    {
      "epoch": 0.4368125,
      "grad_norm": 0.7806179523468018,
      "learning_rate": 0.00018066904652395767,
      "loss": 4.107,
      "step": 209670
    },
    {
      "epoch": 0.43683333333333335,
      "grad_norm": 0.8481752276420593,
      "learning_rate": 0.00018065939616676438,
      "loss": 3.915,
      "step": 209680
    },
    {
      "epoch": 0.43685416666666665,
      "grad_norm": 0.9445867538452148,
      "learning_rate": 0.00018064974567713463,
      "loss": 3.8615,
      "step": 209690
    },
    {
      "epoch": 0.436875,
      "grad_norm": 0.9319180846214294,
      "learning_rate": 0.0001806400950551101,
      "loss": 3.8683,
      "step": 209700
    },
    {
      "epoch": 0.4368958333333333,
      "grad_norm": 0.8370080590248108,
      "learning_rate": 0.0001806304443007325,
      "loss": 3.9497,
      "step": 209710
    },
    {
      "epoch": 0.4369166666666667,
      "grad_norm": 0.8894350528717041,
      "learning_rate": 0.00018062079341404355,
      "loss": 3.9215,
      "step": 209720
    },
    {
      "epoch": 0.4369375,
      "grad_norm": 1.0130829811096191,
      "learning_rate": 0.0001806111423950848,
      "loss": 3.6922,
      "step": 209730
    },
    {
      "epoch": 0.43695833333333334,
      "grad_norm": 0.842316210269928,
      "learning_rate": 0.0001806014912438981,
      "loss": 3.8141,
      "step": 209740
    },
    {
      "epoch": 0.43697916666666664,
      "grad_norm": 0.9875099658966064,
      "learning_rate": 0.0001805918399605251,
      "loss": 3.8195,
      "step": 209750
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.9394723176956177,
      "learning_rate": 0.00018058218854500734,
      "loss": 3.881,
      "step": 209760
    },
    {
      "epoch": 0.43702083333333336,
      "grad_norm": 0.8154239058494568,
      "learning_rate": 0.0001805725369973867,
      "loss": 3.8,
      "step": 209770
    },
    {
      "epoch": 0.43704166666666666,
      "grad_norm": 0.7572123408317566,
      "learning_rate": 0.00018056288531770483,
      "loss": 3.8645,
      "step": 209780
    },
    {
      "epoch": 0.4370625,
      "grad_norm": 0.8581140637397766,
      "learning_rate": 0.00018055323350600334,
      "loss": 3.9836,
      "step": 209790
    },
    {
      "epoch": 0.4370833333333333,
      "grad_norm": 0.7825120091438293,
      "learning_rate": 0.000180543581562324,
      "loss": 3.7129,
      "step": 209800
    },
    {
      "epoch": 0.4371041666666667,
      "grad_norm": 0.8497964143753052,
      "learning_rate": 0.0001805339294867085,
      "loss": 3.771,
      "step": 209810
    },
    {
      "epoch": 0.437125,
      "grad_norm": 0.9263019561767578,
      "learning_rate": 0.00018052427727919848,
      "loss": 4.044,
      "step": 209820
    },
    {
      "epoch": 0.43714583333333334,
      "grad_norm": 0.7932801842689514,
      "learning_rate": 0.00018051462493983567,
      "loss": 3.7925,
      "step": 209830
    },
    {
      "epoch": 0.43716666666666665,
      "grad_norm": 0.9841912388801575,
      "learning_rate": 0.00018050497246866178,
      "loss": 4.1595,
      "step": 209840
    },
    {
      "epoch": 0.4371875,
      "grad_norm": 0.8313443660736084,
      "learning_rate": 0.00018049531986571844,
      "loss": 3.81,
      "step": 209850
    },
    {
      "epoch": 0.4372083333333333,
      "grad_norm": 0.8948891758918762,
      "learning_rate": 0.0001804856671310474,
      "loss": 3.9714,
      "step": 209860
    },
    {
      "epoch": 0.43722916666666667,
      "grad_norm": 1.2933542728424072,
      "learning_rate": 0.0001804760142646904,
      "loss": 3.8921,
      "step": 209870
    },
    {
      "epoch": 0.43725,
      "grad_norm": 0.9588109254837036,
      "learning_rate": 0.00018046636126668904,
      "loss": 3.8275,
      "step": 209880
    },
    {
      "epoch": 0.43727083333333333,
      "grad_norm": 0.8617161512374878,
      "learning_rate": 0.00018045670813708503,
      "loss": 3.939,
      "step": 209890
    },
    {
      "epoch": 0.4372916666666667,
      "grad_norm": 0.8487204313278198,
      "learning_rate": 0.00018044705487592016,
      "loss": 4.0211,
      "step": 209900
    },
    {
      "epoch": 0.4373125,
      "grad_norm": 0.8165231347084045,
      "learning_rate": 0.000180437401483236,
      "loss": 3.7444,
      "step": 209910
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 0.8486750721931458,
      "learning_rate": 0.00018042774795907435,
      "loss": 4.095,
      "step": 209920
    },
    {
      "epoch": 0.43735416666666665,
      "grad_norm": 0.7959887385368347,
      "learning_rate": 0.00018041809430347684,
      "loss": 3.9008,
      "step": 209930
    },
    {
      "epoch": 0.437375,
      "grad_norm": 0.8512893319129944,
      "learning_rate": 0.00018040844051648525,
      "loss": 3.8393,
      "step": 209940
    },
    {
      "epoch": 0.4373958333333333,
      "grad_norm": 0.7557916045188904,
      "learning_rate": 0.00018039878659814124,
      "loss": 4.0048,
      "step": 209950
    },
    {
      "epoch": 0.4374166666666667,
      "grad_norm": 0.7924180626869202,
      "learning_rate": 0.00018038913254848644,
      "loss": 3.9392,
      "step": 209960
    },
    {
      "epoch": 0.4374375,
      "grad_norm": 0.8302773833274841,
      "learning_rate": 0.00018037947836756265,
      "loss": 3.8069,
      "step": 209970
    },
    {
      "epoch": 0.43745833333333334,
      "grad_norm": 0.8208014965057373,
      "learning_rate": 0.00018036982405541158,
      "loss": 3.869,
      "step": 209980
    },
    {
      "epoch": 0.43747916666666664,
      "grad_norm": 1.1259900331497192,
      "learning_rate": 0.00018036016961207483,
      "loss": 3.9811,
      "step": 209990
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.8487805128097534,
      "learning_rate": 0.0001803505150375942,
      "loss": 4.0074,
      "step": 210000
    },
    {
      "epoch": 0.4375,
      "eval_loss": 3.6543266773223877,
      "eval_runtime": 7.2399,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 210000
    },
    {
      "epoch": 0.43752083333333336,
      "grad_norm": 0.8426606059074402,
      "learning_rate": 0.00018034086033201133,
      "loss": 3.8641,
      "step": 210010
    },
    {
      "epoch": 0.43754166666666666,
      "grad_norm": 3.0061190128326416,
      "learning_rate": 0.000180331205495368,
      "loss": 3.9443,
      "step": 210020
    },
    {
      "epoch": 0.4375625,
      "grad_norm": 1.0229442119598389,
      "learning_rate": 0.00018032155052770583,
      "loss": 4.0334,
      "step": 210030
    },
    {
      "epoch": 0.4375833333333333,
      "grad_norm": 0.8316497206687927,
      "learning_rate": 0.0001803118954290666,
      "loss": 4.1083,
      "step": 210040
    },
    {
      "epoch": 0.4376041666666667,
      "grad_norm": 2.302950382232666,
      "learning_rate": 0.0001803022401994919,
      "loss": 3.9105,
      "step": 210050
    },
    {
      "epoch": 0.437625,
      "grad_norm": 0.8533127903938293,
      "learning_rate": 0.0001802925848390236,
      "loss": 3.8659,
      "step": 210060
    },
    {
      "epoch": 0.43764583333333335,
      "grad_norm": 0.8411831855773926,
      "learning_rate": 0.0001802829293477033,
      "loss": 4.0696,
      "step": 210070
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 0.9108638167381287,
      "learning_rate": 0.0001802732737255727,
      "loss": 3.9113,
      "step": 210080
    },
    {
      "epoch": 0.4376875,
      "grad_norm": 0.754636824131012,
      "learning_rate": 0.00018026361797267358,
      "loss": 3.9107,
      "step": 210090
    },
    {
      "epoch": 0.4377083333333333,
      "grad_norm": 0.8398259282112122,
      "learning_rate": 0.00018025396208904757,
      "loss": 3.8547,
      "step": 210100
    },
    {
      "epoch": 0.43772916666666667,
      "grad_norm": 0.8129722476005554,
      "learning_rate": 0.00018024430607473647,
      "loss": 3.8178,
      "step": 210110
    },
    {
      "epoch": 0.43775,
      "grad_norm": 0.8551368713378906,
      "learning_rate": 0.0001802346499297819,
      "loss": 3.6717,
      "step": 210120
    },
    {
      "epoch": 0.43777083333333333,
      "grad_norm": 0.789192259311676,
      "learning_rate": 0.00018022499365422562,
      "loss": 3.8293,
      "step": 210130
    },
    {
      "epoch": 0.4377916666666667,
      "grad_norm": 0.7653971910476685,
      "learning_rate": 0.00018021533724810933,
      "loss": 3.8518,
      "step": 210140
    },
    {
      "epoch": 0.4378125,
      "grad_norm": 0.8767567873001099,
      "learning_rate": 0.00018020568071147478,
      "loss": 3.8107,
      "step": 210150
    },
    {
      "epoch": 0.43783333333333335,
      "grad_norm": 0.9069651961326599,
      "learning_rate": 0.0001801960240443636,
      "loss": 3.942,
      "step": 210160
    },
    {
      "epoch": 0.43785416666666666,
      "grad_norm": 0.8029958009719849,
      "learning_rate": 0.00018018636724681758,
      "loss": 3.8357,
      "step": 210170
    },
    {
      "epoch": 0.437875,
      "grad_norm": 0.8661521673202515,
      "learning_rate": 0.0001801767103188784,
      "loss": 4.1887,
      "step": 210180
    },
    {
      "epoch": 0.4378958333333333,
      "grad_norm": 0.9139428734779358,
      "learning_rate": 0.00018016705326058774,
      "loss": 3.76,
      "step": 210190
    },
    {
      "epoch": 0.4379166666666667,
      "grad_norm": 0.8677443265914917,
      "learning_rate": 0.00018015739607198737,
      "loss": 4.0048,
      "step": 210200
    },
    {
      "epoch": 0.4379375,
      "grad_norm": 1.1687440872192383,
      "learning_rate": 0.00018014773875311898,
      "loss": 3.79,
      "step": 210210
    },
    {
      "epoch": 0.43795833333333334,
      "grad_norm": 0.7929904460906982,
      "learning_rate": 0.0001801380813040243,
      "loss": 4.0322,
      "step": 210220
    },
    {
      "epoch": 0.43797916666666664,
      "grad_norm": 0.8014162182807922,
      "learning_rate": 0.00018012842372474504,
      "loss": 3.9578,
      "step": 210230
    },
    {
      "epoch": 0.438,
      "grad_norm": 0.8164429664611816,
      "learning_rate": 0.0001801187660153229,
      "loss": 3.967,
      "step": 210240
    },
    {
      "epoch": 0.43802083333333336,
      "grad_norm": 0.7813214659690857,
      "learning_rate": 0.00018010910817579964,
      "loss": 3.7691,
      "step": 210250
    },
    {
      "epoch": 0.43804166666666666,
      "grad_norm": 0.8646004796028137,
      "learning_rate": 0.00018009945020621692,
      "loss": 3.8205,
      "step": 210260
    },
    {
      "epoch": 0.4380625,
      "grad_norm": 0.918518602848053,
      "learning_rate": 0.0001800897921066165,
      "loss": 4.0882,
      "step": 210270
    },
    {
      "epoch": 0.4380833333333333,
      "grad_norm": 0.8773597478866577,
      "learning_rate": 0.0001800801338770401,
      "loss": 3.787,
      "step": 210280
    },
    {
      "epoch": 0.4381041666666667,
      "grad_norm": 0.8734381794929504,
      "learning_rate": 0.00018007047551752943,
      "loss": 3.7806,
      "step": 210290
    },
    {
      "epoch": 0.438125,
      "grad_norm": 0.8460495471954346,
      "learning_rate": 0.00018006081702812618,
      "loss": 3.7786,
      "step": 210300
    },
    {
      "epoch": 0.43814583333333335,
      "grad_norm": 0.8551391363143921,
      "learning_rate": 0.00018005115840887212,
      "loss": 3.7868,
      "step": 210310
    },
    {
      "epoch": 0.43816666666666665,
      "grad_norm": 0.7986435294151306,
      "learning_rate": 0.00018004149965980898,
      "loss": 3.8172,
      "step": 210320
    },
    {
      "epoch": 0.4381875,
      "grad_norm": 0.9907153248786926,
      "learning_rate": 0.00018003184078097838,
      "loss": 3.7607,
      "step": 210330
    },
    {
      "epoch": 0.4382083333333333,
      "grad_norm": 0.8967069387435913,
      "learning_rate": 0.0001800221817724222,
      "loss": 3.8601,
      "step": 210340
    },
    {
      "epoch": 0.43822916666666667,
      "grad_norm": 0.7794038653373718,
      "learning_rate": 0.00018001252263418206,
      "loss": 3.8668,
      "step": 210350
    },
    {
      "epoch": 0.43825,
      "grad_norm": 1.2690825462341309,
      "learning_rate": 0.0001800028633662996,
      "loss": 3.921,
      "step": 210360
    },
    {
      "epoch": 0.43827083333333333,
      "grad_norm": 0.9118214845657349,
      "learning_rate": 0.0001799932039688168,
      "loss": 3.9118,
      "step": 210370
    },
    {
      "epoch": 0.4382916666666667,
      "grad_norm": 0.7999837398529053,
      "learning_rate": 0.00017998354444177513,
      "loss": 4.0381,
      "step": 210380
    },
    {
      "epoch": 0.4383125,
      "grad_norm": 1.051196575164795,
      "learning_rate": 0.00017997388478521647,
      "loss": 4.0185,
      "step": 210390
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 0.8126081824302673,
      "learning_rate": 0.00017996422499918244,
      "loss": 4.0523,
      "step": 210400
    },
    {
      "epoch": 0.43835416666666666,
      "grad_norm": 0.8407071232795715,
      "learning_rate": 0.00017995456508371484,
      "loss": 3.9119,
      "step": 210410
    },
    {
      "epoch": 0.438375,
      "grad_norm": 0.8711792230606079,
      "learning_rate": 0.00017994490503885538,
      "loss": 3.8877,
      "step": 210420
    },
    {
      "epoch": 0.4383958333333333,
      "grad_norm": 0.824181854724884,
      "learning_rate": 0.00017993524486464578,
      "loss": 4.0035,
      "step": 210430
    },
    {
      "epoch": 0.4384166666666667,
      "grad_norm": 0.9819815158843994,
      "learning_rate": 0.00017992558456112774,
      "loss": 3.9608,
      "step": 210440
    },
    {
      "epoch": 0.4384375,
      "grad_norm": 0.9519885182380676,
      "learning_rate": 0.0001799159241283431,
      "loss": 3.9143,
      "step": 210450
    },
    {
      "epoch": 0.43845833333333334,
      "grad_norm": 0.8865122199058533,
      "learning_rate": 0.00017990626356633344,
      "loss": 3.7621,
      "step": 210460
    },
    {
      "epoch": 0.43847916666666664,
      "grad_norm": 0.867759644985199,
      "learning_rate": 0.0001798966028751406,
      "loss": 3.9011,
      "step": 210470
    },
    {
      "epoch": 0.4385,
      "grad_norm": 0.8299655318260193,
      "learning_rate": 0.00017988694205480627,
      "loss": 3.946,
      "step": 210480
    },
    {
      "epoch": 0.43852083333333336,
      "grad_norm": 0.8565291166305542,
      "learning_rate": 0.0001798772811053721,
      "loss": 4.1491,
      "step": 210490
    },
    {
      "epoch": 0.43854166666666666,
      "grad_norm": 0.8264116048812866,
      "learning_rate": 0.00017986762002687997,
      "loss": 3.9509,
      "step": 210500
    },
    {
      "epoch": 0.4385625,
      "grad_norm": 0.8783998489379883,
      "learning_rate": 0.00017985795881937157,
      "loss": 3.9796,
      "step": 210510
    },
    {
      "epoch": 0.4385833333333333,
      "grad_norm": 0.8043619394302368,
      "learning_rate": 0.0001798482974828886,
      "loss": 3.7925,
      "step": 210520
    },
    {
      "epoch": 0.4386041666666667,
      "grad_norm": 0.8242357969284058,
      "learning_rate": 0.00017983863601747275,
      "loss": 3.9613,
      "step": 210530
    },
    {
      "epoch": 0.438625,
      "grad_norm": 1.02860689163208,
      "learning_rate": 0.00017982897442316584,
      "loss": 3.8927,
      "step": 210540
    },
    {
      "epoch": 0.43864583333333335,
      "grad_norm": 0.9391851425170898,
      "learning_rate": 0.00017981931270000956,
      "loss": 3.9966,
      "step": 210550
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 0.7817726135253906,
      "learning_rate": 0.0001798096508480456,
      "loss": 3.9483,
      "step": 210560
    },
    {
      "epoch": 0.4386875,
      "grad_norm": 0.9550184011459351,
      "learning_rate": 0.00017979998886731582,
      "loss": 3.8771,
      "step": 210570
    },
    {
      "epoch": 0.4387083333333333,
      "grad_norm": 1.197058081626892,
      "learning_rate": 0.00017979032675786188,
      "loss": 4.0254,
      "step": 210580
    },
    {
      "epoch": 0.43872916666666667,
      "grad_norm": 0.7815446257591248,
      "learning_rate": 0.00017978066451972548,
      "loss": 4.016,
      "step": 210590
    },
    {
      "epoch": 0.43875,
      "grad_norm": 1.0067299604415894,
      "learning_rate": 0.00017977100215294843,
      "loss": 3.6846,
      "step": 210600
    },
    {
      "epoch": 0.43877083333333333,
      "grad_norm": 0.7969490885734558,
      "learning_rate": 0.0001797613396575724,
      "loss": 3.7877,
      "step": 210610
    },
    {
      "epoch": 0.4387916666666667,
      "grad_norm": 0.8553353548049927,
      "learning_rate": 0.00017975167703363924,
      "loss": 3.9016,
      "step": 210620
    },
    {
      "epoch": 0.4388125,
      "grad_norm": 0.8699735403060913,
      "learning_rate": 0.0001797420142811905,
      "loss": 3.8161,
      "step": 210630
    },
    {
      "epoch": 0.43883333333333335,
      "grad_norm": 0.8438647985458374,
      "learning_rate": 0.00017973235140026812,
      "loss": 3.7978,
      "step": 210640
    },
    {
      "epoch": 0.43885416666666666,
      "grad_norm": 0.9545650482177734,
      "learning_rate": 0.00017972268839091371,
      "loss": 3.9765,
      "step": 210650
    },
    {
      "epoch": 0.438875,
      "grad_norm": 0.8030115365982056,
      "learning_rate": 0.00017971302525316904,
      "loss": 3.9953,
      "step": 210660
    },
    {
      "epoch": 0.4388958333333333,
      "grad_norm": 0.8766252994537354,
      "learning_rate": 0.0001797033619870759,
      "loss": 3.8951,
      "step": 210670
    },
    {
      "epoch": 0.4389166666666667,
      "grad_norm": 0.8822506070137024,
      "learning_rate": 0.00017969369859267598,
      "loss": 3.8656,
      "step": 210680
    },
    {
      "epoch": 0.4389375,
      "grad_norm": 0.8139407634735107,
      "learning_rate": 0.00017968403507001105,
      "loss": 4.062,
      "step": 210690
    },
    {
      "epoch": 0.43895833333333334,
      "grad_norm": 0.8806102871894836,
      "learning_rate": 0.00017967437141912275,
      "loss": 3.8272,
      "step": 210700
    },
    {
      "epoch": 0.43897916666666664,
      "grad_norm": 0.9918071627616882,
      "learning_rate": 0.00017966470764005303,
      "loss": 3.8097,
      "step": 210710
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.8967655301094055,
      "learning_rate": 0.00017965504373284346,
      "loss": 3.8176,
      "step": 210720
    },
    {
      "epoch": 0.43902083333333336,
      "grad_norm": 0.8178099989891052,
      "learning_rate": 0.00017964537969753584,
      "loss": 3.8498,
      "step": 210730
    },
    {
      "epoch": 0.43904166666666666,
      "grad_norm": 0.8307491540908813,
      "learning_rate": 0.00017963571553417194,
      "loss": 3.9357,
      "step": 210740
    },
    {
      "epoch": 0.4390625,
      "grad_norm": 0.8420073986053467,
      "learning_rate": 0.00017962605124279343,
      "loss": 3.8378,
      "step": 210750
    },
    {
      "epoch": 0.4390833333333333,
      "grad_norm": 0.8483948111534119,
      "learning_rate": 0.00017961638682344213,
      "loss": 4.0346,
      "step": 210760
    },
    {
      "epoch": 0.4391041666666667,
      "grad_norm": 0.874694287776947,
      "learning_rate": 0.00017960672227615977,
      "loss": 3.9985,
      "step": 210770
    },
    {
      "epoch": 0.439125,
      "grad_norm": 0.9380844235420227,
      "learning_rate": 0.0001795970576009881,
      "loss": 3.7945,
      "step": 210780
    },
    {
      "epoch": 0.43914583333333335,
      "grad_norm": 1.05172860622406,
      "learning_rate": 0.00017958739279796883,
      "loss": 3.8523,
      "step": 210790
    },
    {
      "epoch": 0.43916666666666665,
      "grad_norm": 0.8334828019142151,
      "learning_rate": 0.00017957772786714372,
      "loss": 3.9049,
      "step": 210800
    },
    {
      "epoch": 0.4391875,
      "grad_norm": 0.8281490206718445,
      "learning_rate": 0.00017956806280855457,
      "loss": 3.9879,
      "step": 210810
    },
    {
      "epoch": 0.4392083333333333,
      "grad_norm": 0.8197504281997681,
      "learning_rate": 0.00017955839762224312,
      "loss": 3.913,
      "step": 210820
    },
    {
      "epoch": 0.43922916666666667,
      "grad_norm": 0.8667243719100952,
      "learning_rate": 0.000179548732308251,
      "loss": 3.8851,
      "step": 210830
    },
    {
      "epoch": 0.43925,
      "grad_norm": 0.9655570387840271,
      "learning_rate": 0.00017953906686662014,
      "loss": 3.8561,
      "step": 210840
    },
    {
      "epoch": 0.43927083333333333,
      "grad_norm": 0.8261756896972656,
      "learning_rate": 0.00017952940129739218,
      "loss": 3.9734,
      "step": 210850
    },
    {
      "epoch": 0.4392916666666667,
      "grad_norm": 0.834261953830719,
      "learning_rate": 0.00017951973560060885,
      "loss": 3.9235,
      "step": 210860
    },
    {
      "epoch": 0.4393125,
      "grad_norm": 0.8170929551124573,
      "learning_rate": 0.000179510069776312,
      "loss": 3.7687,
      "step": 210870
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 1.1509933471679688,
      "learning_rate": 0.00017950040382454333,
      "loss": 3.9726,
      "step": 210880
    },
    {
      "epoch": 0.43935416666666666,
      "grad_norm": 0.8699726462364197,
      "learning_rate": 0.00017949073774534458,
      "loss": 3.7429,
      "step": 210890
    },
    {
      "epoch": 0.439375,
      "grad_norm": 0.8185123801231384,
      "learning_rate": 0.00017948107153875745,
      "loss": 3.8125,
      "step": 210900
    },
    {
      "epoch": 0.4393958333333333,
      "grad_norm": 0.9468061923980713,
      "learning_rate": 0.00017947140520482388,
      "loss": 3.859,
      "step": 210910
    },
    {
      "epoch": 0.4394166666666667,
      "grad_norm": 0.8097416758537292,
      "learning_rate": 0.00017946173874358544,
      "loss": 3.8775,
      "step": 210920
    },
    {
      "epoch": 0.4394375,
      "grad_norm": 0.8401790857315063,
      "learning_rate": 0.00017945207215508397,
      "loss": 3.9963,
      "step": 210930
    },
    {
      "epoch": 0.43945833333333334,
      "grad_norm": 0.8009918332099915,
      "learning_rate": 0.00017944240543936118,
      "loss": 3.8821,
      "step": 210940
    },
    {
      "epoch": 0.43947916666666664,
      "grad_norm": 0.8231201171875,
      "learning_rate": 0.00017943273859645885,
      "loss": 3.8842,
      "step": 210950
    },
    {
      "epoch": 0.4395,
      "grad_norm": 0.9416401386260986,
      "learning_rate": 0.00017942307162641875,
      "loss": 3.6509,
      "step": 210960
    },
    {
      "epoch": 0.43952083333333336,
      "grad_norm": 0.8485733270645142,
      "learning_rate": 0.00017941340452928264,
      "loss": 3.8422,
      "step": 210970
    },
    {
      "epoch": 0.43954166666666666,
      "grad_norm": 0.8108066320419312,
      "learning_rate": 0.00017940373730509224,
      "loss": 3.9769,
      "step": 210980
    },
    {
      "epoch": 0.4395625,
      "grad_norm": 0.857745349407196,
      "learning_rate": 0.00017939406995388934,
      "loss": 3.9837,
      "step": 210990
    },
    {
      "epoch": 0.4395833333333333,
      "grad_norm": 1.76858651638031,
      "learning_rate": 0.00017938440247571572,
      "loss": 3.8656,
      "step": 211000
    },
    {
      "epoch": 0.4395833333333333,
      "eval_loss": 3.6557631492614746,
      "eval_runtime": 7.2287,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 211000
    },
    {
      "epoch": 0.4396041666666667,
      "grad_norm": 0.9395083785057068,
      "learning_rate": 0.0001793747348706131,
      "loss": 3.9221,
      "step": 211010
    },
    {
      "epoch": 0.439625,
      "grad_norm": 0.826404333114624,
      "learning_rate": 0.00017936506713862326,
      "loss": 3.9491,
      "step": 211020
    },
    {
      "epoch": 0.43964583333333335,
      "grad_norm": 0.8360438942909241,
      "learning_rate": 0.0001793553992797879,
      "loss": 3.9123,
      "step": 211030
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 0.8062991499900818,
      "learning_rate": 0.00017934573129414888,
      "loss": 3.8591,
      "step": 211040
    },
    {
      "epoch": 0.4396875,
      "grad_norm": 0.8143483996391296,
      "learning_rate": 0.00017933606318174797,
      "loss": 3.8847,
      "step": 211050
    },
    {
      "epoch": 0.4397083333333333,
      "grad_norm": 0.8332843780517578,
      "learning_rate": 0.0001793263949426268,
      "loss": 3.7017,
      "step": 211060
    },
    {
      "epoch": 0.43972916666666667,
      "grad_norm": 0.8356033563613892,
      "learning_rate": 0.00017931672657682724,
      "loss": 3.9375,
      "step": 211070
    },
    {
      "epoch": 0.43975,
      "grad_norm": 0.9520873427391052,
      "learning_rate": 0.00017930705808439103,
      "loss": 4.0262,
      "step": 211080
    },
    {
      "epoch": 0.43977083333333333,
      "grad_norm": 0.8839320540428162,
      "learning_rate": 0.0001792973894653599,
      "loss": 3.8125,
      "step": 211090
    },
    {
      "epoch": 0.4397916666666667,
      "grad_norm": 0.9251935482025146,
      "learning_rate": 0.00017928772071977567,
      "loss": 3.8645,
      "step": 211100
    },
    {
      "epoch": 0.4398125,
      "grad_norm": 0.8988168239593506,
      "learning_rate": 0.00017927805184768007,
      "loss": 3.9222,
      "step": 211110
    },
    {
      "epoch": 0.43983333333333335,
      "grad_norm": 0.7522276043891907,
      "learning_rate": 0.00017926838284911488,
      "loss": 3.7285,
      "step": 211120
    },
    {
      "epoch": 0.43985416666666666,
      "grad_norm": 0.9402903914451599,
      "learning_rate": 0.00017925871372412186,
      "loss": 3.8957,
      "step": 211130
    },
    {
      "epoch": 0.439875,
      "grad_norm": 0.8518843650817871,
      "learning_rate": 0.00017924904447274277,
      "loss": 3.8806,
      "step": 211140
    },
    {
      "epoch": 0.4398958333333333,
      "grad_norm": 1.3472096920013428,
      "learning_rate": 0.0001792393750950194,
      "loss": 3.9796,
      "step": 211150
    },
    {
      "epoch": 0.4399166666666667,
      "grad_norm": 0.8782066106796265,
      "learning_rate": 0.0001792297055909935,
      "loss": 3.7414,
      "step": 211160
    },
    {
      "epoch": 0.4399375,
      "grad_norm": 0.8714070320129395,
      "learning_rate": 0.0001792200359607068,
      "loss": 4.0274,
      "step": 211170
    },
    {
      "epoch": 0.43995833333333334,
      "grad_norm": 0.8319185972213745,
      "learning_rate": 0.00017921036620420117,
      "loss": 3.9183,
      "step": 211180
    },
    {
      "epoch": 0.43997916666666664,
      "grad_norm": 0.8336202502250671,
      "learning_rate": 0.00017920069632151834,
      "loss": 3.8136,
      "step": 211190
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.985481321811676,
      "learning_rate": 0.00017919102631269997,
      "loss": 4.0792,
      "step": 211200
    },
    {
      "epoch": 0.44002083333333336,
      "grad_norm": 0.7917447090148926,
      "learning_rate": 0.000179181356177788,
      "loss": 3.7022,
      "step": 211210
    },
    {
      "epoch": 0.44004166666666666,
      "grad_norm": 0.858218789100647,
      "learning_rate": 0.0001791716859168241,
      "loss": 4.0008,
      "step": 211220
    },
    {
      "epoch": 0.4400625,
      "grad_norm": 0.8720256090164185,
      "learning_rate": 0.00017916201552985002,
      "loss": 3.9607,
      "step": 211230
    },
    {
      "epoch": 0.4400833333333333,
      "grad_norm": 0.8784618973731995,
      "learning_rate": 0.00017915234501690762,
      "loss": 3.843,
      "step": 211240
    },
    {
      "epoch": 0.4401041666666667,
      "grad_norm": 0.851615846157074,
      "learning_rate": 0.00017914267437803863,
      "loss": 3.8699,
      "step": 211250
    },
    {
      "epoch": 0.440125,
      "grad_norm": 0.8161957263946533,
      "learning_rate": 0.00017913300361328482,
      "loss": 3.8732,
      "step": 211260
    },
    {
      "epoch": 0.44014583333333335,
      "grad_norm": 1.0988651514053345,
      "learning_rate": 0.00017912333272268797,
      "loss": 3.8499,
      "step": 211270
    },
    {
      "epoch": 0.44016666666666665,
      "grad_norm": 0.8976088762283325,
      "learning_rate": 0.00017911366170628984,
      "loss": 3.951,
      "step": 211280
    },
    {
      "epoch": 0.4401875,
      "grad_norm": 0.9077834486961365,
      "learning_rate": 0.0001791039905641322,
      "loss": 4.0703,
      "step": 211290
    },
    {
      "epoch": 0.4402083333333333,
      "grad_norm": 0.787900984287262,
      "learning_rate": 0.00017909431929625684,
      "loss": 3.9694,
      "step": 211300
    },
    {
      "epoch": 0.44022916666666667,
      "grad_norm": 0.7991788387298584,
      "learning_rate": 0.00017908464790270556,
      "loss": 3.9664,
      "step": 211310
    },
    {
      "epoch": 0.44025,
      "grad_norm": 0.8077743053436279,
      "learning_rate": 0.0001790749763835201,
      "loss": 4.0707,
      "step": 211320
    },
    {
      "epoch": 0.44027083333333333,
      "grad_norm": 0.8491078019142151,
      "learning_rate": 0.00017906530473874225,
      "loss": 3.709,
      "step": 211330
    },
    {
      "epoch": 0.4402916666666667,
      "grad_norm": 0.946209728717804,
      "learning_rate": 0.0001790556329684138,
      "loss": 3.8217,
      "step": 211340
    },
    {
      "epoch": 0.4403125,
      "grad_norm": 0.8203920125961304,
      "learning_rate": 0.00017904596107257655,
      "loss": 3.8826,
      "step": 211350
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 1.070205807685852,
      "learning_rate": 0.0001790362890512722,
      "loss": 3.7894,
      "step": 211360
    },
    {
      "epoch": 0.44035416666666666,
      "grad_norm": 0.8797491192817688,
      "learning_rate": 0.00017902661690454255,
      "loss": 4.0406,
      "step": 211370
    },
    {
      "epoch": 0.440375,
      "grad_norm": 0.7903892993927002,
      "learning_rate": 0.00017901694463242948,
      "loss": 3.8354,
      "step": 211380
    },
    {
      "epoch": 0.4403958333333333,
      "grad_norm": 0.8240759968757629,
      "learning_rate": 0.00017900727223497462,
      "loss": 3.7577,
      "step": 211390
    },
    {
      "epoch": 0.4404166666666667,
      "grad_norm": 0.8105388879776001,
      "learning_rate": 0.00017899759971221985,
      "loss": 3.9567,
      "step": 211400
    },
    {
      "epoch": 0.4404375,
      "grad_norm": 0.7601602673530579,
      "learning_rate": 0.00017898792706420698,
      "loss": 3.9293,
      "step": 211410
    },
    {
      "epoch": 0.44045833333333334,
      "grad_norm": 0.9601182341575623,
      "learning_rate": 0.00017897825429097767,
      "loss": 3.802,
      "step": 211420
    },
    {
      "epoch": 0.44047916666666664,
      "grad_norm": 0.9187116622924805,
      "learning_rate": 0.00017896858139257376,
      "loss": 3.9182,
      "step": 211430
    },
    {
      "epoch": 0.4405,
      "grad_norm": 0.7469267249107361,
      "learning_rate": 0.0001789589083690371,
      "loss": 3.895,
      "step": 211440
    },
    {
      "epoch": 0.4405208333333333,
      "grad_norm": 0.8972381353378296,
      "learning_rate": 0.0001789492352204094,
      "loss": 3.9248,
      "step": 211450
    },
    {
      "epoch": 0.44054166666666666,
      "grad_norm": 0.8181868195533752,
      "learning_rate": 0.00017893956194673248,
      "loss": 3.9393,
      "step": 211460
    },
    {
      "epoch": 0.4405625,
      "grad_norm": 0.7739987969398499,
      "learning_rate": 0.0001789298885480481,
      "loss": 3.8605,
      "step": 211470
    },
    {
      "epoch": 0.4405833333333333,
      "grad_norm": 0.9244542717933655,
      "learning_rate": 0.00017892021502439803,
      "loss": 3.6687,
      "step": 211480
    },
    {
      "epoch": 0.4406041666666667,
      "grad_norm": 0.9643576741218567,
      "learning_rate": 0.00017891054137582406,
      "loss": 3.6643,
      "step": 211490
    },
    {
      "epoch": 0.440625,
      "grad_norm": 0.8625676035881042,
      "learning_rate": 0.00017890086760236805,
      "loss": 3.9001,
      "step": 211500
    },
    {
      "epoch": 0.44064583333333335,
      "grad_norm": 0.8736497163772583,
      "learning_rate": 0.0001788911937040717,
      "loss": 4.0592,
      "step": 211510
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 0.8262369632720947,
      "learning_rate": 0.00017888151968097686,
      "loss": 3.8425,
      "step": 211520
    },
    {
      "epoch": 0.4406875,
      "grad_norm": 0.8425328731536865,
      "learning_rate": 0.00017887184553312522,
      "loss": 3.8096,
      "step": 211530
    },
    {
      "epoch": 0.4407083333333333,
      "grad_norm": 0.8943285942077637,
      "learning_rate": 0.0001788621712605587,
      "loss": 4.0408,
      "step": 211540
    },
    {
      "epoch": 0.44072916666666667,
      "grad_norm": 0.8174134492874146,
      "learning_rate": 0.00017885249686331903,
      "loss": 3.878,
      "step": 211550
    },
    {
      "epoch": 0.44075,
      "grad_norm": 0.7951236963272095,
      "learning_rate": 0.00017884282234144791,
      "loss": 3.9794,
      "step": 211560
    },
    {
      "epoch": 0.44077083333333333,
      "grad_norm": 0.8969355225563049,
      "learning_rate": 0.0001788331476949873,
      "loss": 3.8631,
      "step": 211570
    },
    {
      "epoch": 0.4407916666666667,
      "grad_norm": 0.841962993144989,
      "learning_rate": 0.00017882347292397891,
      "loss": 3.9746,
      "step": 211580
    },
    {
      "epoch": 0.4408125,
      "grad_norm": 0.8234065771102905,
      "learning_rate": 0.00017881379802846446,
      "loss": 3.7746,
      "step": 211590
    },
    {
      "epoch": 0.44083333333333335,
      "grad_norm": 0.9156137704849243,
      "learning_rate": 0.00017880412300848582,
      "loss": 4.0253,
      "step": 211600
    },
    {
      "epoch": 0.44085416666666666,
      "grad_norm": 0.8343308568000793,
      "learning_rate": 0.00017879444786408482,
      "loss": 3.9509,
      "step": 211610
    },
    {
      "epoch": 0.440875,
      "grad_norm": 1.042925238609314,
      "learning_rate": 0.00017878477259530316,
      "loss": 3.8088,
      "step": 211620
    },
    {
      "epoch": 0.4408958333333333,
      "grad_norm": 0.830091655254364,
      "learning_rate": 0.00017877509720218269,
      "loss": 3.7629,
      "step": 211630
    },
    {
      "epoch": 0.4409166666666667,
      "grad_norm": 0.8165491819381714,
      "learning_rate": 0.00017876542168476523,
      "loss": 3.7942,
      "step": 211640
    },
    {
      "epoch": 0.4409375,
      "grad_norm": 0.8321007490158081,
      "learning_rate": 0.0001787557460430925,
      "loss": 3.8582,
      "step": 211650
    },
    {
      "epoch": 0.44095833333333334,
      "grad_norm": 0.8219509720802307,
      "learning_rate": 0.0001787460702772063,
      "loss": 3.8806,
      "step": 211660
    },
    {
      "epoch": 0.44097916666666664,
      "grad_norm": 1.0933873653411865,
      "learning_rate": 0.00017873639438714846,
      "loss": 3.7239,
      "step": 211670
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.961881697177887,
      "learning_rate": 0.00017872671837296082,
      "loss": 3.9023,
      "step": 211680
    },
    {
      "epoch": 0.4410208333333333,
      "grad_norm": 1.07423996925354,
      "learning_rate": 0.00017871704223468513,
      "loss": 3.9482,
      "step": 211690
    },
    {
      "epoch": 0.44104166666666667,
      "grad_norm": 0.8506906032562256,
      "learning_rate": 0.00017870736597236307,
      "loss": 3.9135,
      "step": 211700
    },
    {
      "epoch": 0.4410625,
      "grad_norm": 0.8229278922080994,
      "learning_rate": 0.00017869768958603667,
      "loss": 3.9317,
      "step": 211710
    },
    {
      "epoch": 0.4410833333333333,
      "grad_norm": 0.8341890573501587,
      "learning_rate": 0.0001786880130757476,
      "loss": 3.8788,
      "step": 211720
    },
    {
      "epoch": 0.4411041666666667,
      "grad_norm": 0.9609797596931458,
      "learning_rate": 0.00017867833644153762,
      "loss": 3.6881,
      "step": 211730
    },
    {
      "epoch": 0.441125,
      "grad_norm": 0.8879448175430298,
      "learning_rate": 0.0001786686596834486,
      "loss": 3.7091,
      "step": 211740
    },
    {
      "epoch": 0.44114583333333335,
      "grad_norm": 0.9505035877227783,
      "learning_rate": 0.00017865898280152234,
      "loss": 4.0753,
      "step": 211750
    },
    {
      "epoch": 0.44116666666666665,
      "grad_norm": 0.8423506617546082,
      "learning_rate": 0.0001786493057958006,
      "loss": 3.9393,
      "step": 211760
    },
    {
      "epoch": 0.4411875,
      "grad_norm": 0.9589592814445496,
      "learning_rate": 0.00017863962866632516,
      "loss": 3.7278,
      "step": 211770
    },
    {
      "epoch": 0.4412083333333333,
      "grad_norm": 0.9259673357009888,
      "learning_rate": 0.00017862995141313792,
      "loss": 3.794,
      "step": 211780
    },
    {
      "epoch": 0.4412291666666667,
      "grad_norm": 0.7812085151672363,
      "learning_rate": 0.0001786202740362806,
      "loss": 3.8168,
      "step": 211790
    },
    {
      "epoch": 0.44125,
      "grad_norm": 0.9577339887619019,
      "learning_rate": 0.00017861059653579502,
      "loss": 4.0127,
      "step": 211800
    },
    {
      "epoch": 0.44127083333333333,
      "grad_norm": 0.8374607563018799,
      "learning_rate": 0.000178600918911723,
      "loss": 3.8983,
      "step": 211810
    },
    {
      "epoch": 0.4412916666666667,
      "grad_norm": 0.9541206955909729,
      "learning_rate": 0.00017859124116410632,
      "loss": 4.0284,
      "step": 211820
    },
    {
      "epoch": 0.4413125,
      "grad_norm": 0.9179530739784241,
      "learning_rate": 0.0001785815632929868,
      "loss": 3.7781,
      "step": 211830
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 0.8256577253341675,
      "learning_rate": 0.00017857188529840623,
      "loss": 3.7469,
      "step": 211840
    },
    {
      "epoch": 0.44135416666666666,
      "grad_norm": 0.8359716534614563,
      "learning_rate": 0.00017856220718040646,
      "loss": 3.8551,
      "step": 211850
    },
    {
      "epoch": 0.441375,
      "grad_norm": 0.9644931554794312,
      "learning_rate": 0.0001785525289390292,
      "loss": 3.9127,
      "step": 211860
    },
    {
      "epoch": 0.4413958333333333,
      "grad_norm": 0.8341755270957947,
      "learning_rate": 0.00017854285057431637,
      "loss": 3.8696,
      "step": 211870
    },
    {
      "epoch": 0.4414166666666667,
      "grad_norm": 0.8502673506736755,
      "learning_rate": 0.0001785331720863097,
      "loss": 3.9855,
      "step": 211880
    },
    {
      "epoch": 0.4414375,
      "grad_norm": 0.819329559803009,
      "learning_rate": 0.00017852349347505104,
      "loss": 3.9273,
      "step": 211890
    },
    {
      "epoch": 0.44145833333333334,
      "grad_norm": 0.7665125131607056,
      "learning_rate": 0.00017851381474058212,
      "loss": 3.757,
      "step": 211900
    },
    {
      "epoch": 0.44147916666666664,
      "grad_norm": 0.8249973654747009,
      "learning_rate": 0.00017850413588294485,
      "loss": 3.8731,
      "step": 211910
    },
    {
      "epoch": 0.4415,
      "grad_norm": 0.9320065975189209,
      "learning_rate": 0.00017849445690218106,
      "loss": 3.8859,
      "step": 211920
    },
    {
      "epoch": 0.4415208333333333,
      "grad_norm": 1.0066566467285156,
      "learning_rate": 0.00017848477779833238,
      "loss": 4.0199,
      "step": 211930
    },
    {
      "epoch": 0.44154166666666667,
      "grad_norm": 0.8331984877586365,
      "learning_rate": 0.00017847509857144082,
      "loss": 3.9081,
      "step": 211940
    },
    {
      "epoch": 0.4415625,
      "grad_norm": 0.8242340087890625,
      "learning_rate": 0.0001784654192215481,
      "loss": 4.0116,
      "step": 211950
    },
    {
      "epoch": 0.4415833333333333,
      "grad_norm": 0.7855377793312073,
      "learning_rate": 0.00017845573974869597,
      "loss": 3.9114,
      "step": 211960
    },
    {
      "epoch": 0.4416041666666667,
      "grad_norm": 0.8688464760780334,
      "learning_rate": 0.00017844606015292636,
      "loss": 4.0795,
      "step": 211970
    },
    {
      "epoch": 0.441625,
      "grad_norm": 0.8687071204185486,
      "learning_rate": 0.000178436380434281,
      "loss": 3.6135,
      "step": 211980
    },
    {
      "epoch": 0.44164583333333335,
      "grad_norm": 0.8845746517181396,
      "learning_rate": 0.00017842670059280177,
      "loss": 3.8219,
      "step": 211990
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 0.8357769250869751,
      "learning_rate": 0.00017841702062853043,
      "loss": 4.0065,
      "step": 212000
    },
    {
      "epoch": 0.44166666666666665,
      "eval_loss": 3.642442226409912,
      "eval_runtime": 7.263,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 212000
    },
    {
      "epoch": 0.4416875,
      "grad_norm": 0.9466150403022766,
      "learning_rate": 0.00017840734054150878,
      "loss": 3.9827,
      "step": 212010
    },
    {
      "epoch": 0.4417083333333333,
      "grad_norm": 0.9262698888778687,
      "learning_rate": 0.00017839766033177868,
      "loss": 3.908,
      "step": 212020
    },
    {
      "epoch": 0.4417291666666667,
      "grad_norm": 0.9498472809791565,
      "learning_rate": 0.00017838797999938195,
      "loss": 3.9348,
      "step": 212030
    },
    {
      "epoch": 0.44175,
      "grad_norm": 0.9315763115882874,
      "learning_rate": 0.00017837829954436035,
      "loss": 3.9166,
      "step": 212040
    },
    {
      "epoch": 0.44177083333333333,
      "grad_norm": 1.043447494506836,
      "learning_rate": 0.00017836861896675576,
      "loss": 4.1013,
      "step": 212050
    },
    {
      "epoch": 0.4417916666666667,
      "grad_norm": 1.0316168069839478,
      "learning_rate": 0.00017835893826660996,
      "loss": 4.0623,
      "step": 212060
    },
    {
      "epoch": 0.4418125,
      "grad_norm": 0.8775361180305481,
      "learning_rate": 0.00017834925744396473,
      "loss": 4.0256,
      "step": 212070
    },
    {
      "epoch": 0.44183333333333336,
      "grad_norm": 0.8262870907783508,
      "learning_rate": 0.00017833957649886198,
      "loss": 3.9435,
      "step": 212080
    },
    {
      "epoch": 0.44185416666666666,
      "grad_norm": 0.8968880772590637,
      "learning_rate": 0.00017832989543134349,
      "loss": 4.1036,
      "step": 212090
    },
    {
      "epoch": 0.441875,
      "grad_norm": 0.7817166447639465,
      "learning_rate": 0.000178320214241451,
      "loss": 4.0503,
      "step": 212100
    },
    {
      "epoch": 0.4418958333333333,
      "grad_norm": 0.8695981502532959,
      "learning_rate": 0.00017831053292922648,
      "loss": 3.8992,
      "step": 212110
    },
    {
      "epoch": 0.4419166666666667,
      "grad_norm": 1.0513982772827148,
      "learning_rate": 0.0001783008514947116,
      "loss": 3.9431,
      "step": 212120
    },
    {
      "epoch": 0.4419375,
      "grad_norm": 0.8474193215370178,
      "learning_rate": 0.00017829116993794825,
      "loss": 3.9007,
      "step": 212130
    },
    {
      "epoch": 0.44195833333333334,
      "grad_norm": 0.9128081798553467,
      "learning_rate": 0.00017828148825897825,
      "loss": 3.9818,
      "step": 212140
    },
    {
      "epoch": 0.44197916666666665,
      "grad_norm": 0.8176466822624207,
      "learning_rate": 0.0001782718064578434,
      "loss": 3.9514,
      "step": 212150
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.9696794152259827,
      "learning_rate": 0.0001782621245345856,
      "loss": 3.7342,
      "step": 212160
    },
    {
      "epoch": 0.4420208333333333,
      "grad_norm": 0.7744582295417786,
      "learning_rate": 0.00017825244248924652,
      "loss": 3.7397,
      "step": 212170
    },
    {
      "epoch": 0.44204166666666667,
      "grad_norm": 0.8926459550857544,
      "learning_rate": 0.0001782427603218681,
      "loss": 3.7472,
      "step": 212180
    },
    {
      "epoch": 0.4420625,
      "grad_norm": 0.8404277563095093,
      "learning_rate": 0.00017823307803249217,
      "loss": 3.8021,
      "step": 212190
    },
    {
      "epoch": 0.44208333333333333,
      "grad_norm": 0.8259598016738892,
      "learning_rate": 0.00017822339562116048,
      "loss": 3.8805,
      "step": 212200
    },
    {
      "epoch": 0.4421041666666667,
      "grad_norm": 0.9146861433982849,
      "learning_rate": 0.00017821371308791495,
      "loss": 4.0052,
      "step": 212210
    },
    {
      "epoch": 0.442125,
      "grad_norm": 0.7642014026641846,
      "learning_rate": 0.0001782040304327973,
      "loss": 3.7864,
      "step": 212220
    },
    {
      "epoch": 0.44214583333333335,
      "grad_norm": 0.8487171530723572,
      "learning_rate": 0.0001781943476558494,
      "loss": 3.856,
      "step": 212230
    },
    {
      "epoch": 0.44216666666666665,
      "grad_norm": 0.785835325717926,
      "learning_rate": 0.00017818466475711308,
      "loss": 4.0171,
      "step": 212240
    },
    {
      "epoch": 0.4421875,
      "grad_norm": 0.7673012018203735,
      "learning_rate": 0.0001781749817366302,
      "loss": 3.9027,
      "step": 212250
    },
    {
      "epoch": 0.4422083333333333,
      "grad_norm": 0.9001933336257935,
      "learning_rate": 0.0001781652985944425,
      "loss": 4.0954,
      "step": 212260
    },
    {
      "epoch": 0.4422291666666667,
      "grad_norm": 0.8283175826072693,
      "learning_rate": 0.0001781556153305919,
      "loss": 3.853,
      "step": 212270
    },
    {
      "epoch": 0.44225,
      "grad_norm": 1.0714884996414185,
      "learning_rate": 0.0001781459319451202,
      "loss": 3.8558,
      "step": 212280
    },
    {
      "epoch": 0.44227083333333334,
      "grad_norm": 0.8090202212333679,
      "learning_rate": 0.00017813624843806918,
      "loss": 3.902,
      "step": 212290
    },
    {
      "epoch": 0.4422916666666667,
      "grad_norm": 0.9412643909454346,
      "learning_rate": 0.00017812656480948065,
      "loss": 3.8487,
      "step": 212300
    },
    {
      "epoch": 0.4423125,
      "grad_norm": 0.8788706064224243,
      "learning_rate": 0.0001781168810593966,
      "loss": 4.039,
      "step": 212310
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 1.147615671157837,
      "learning_rate": 0.0001781071971878587,
      "loss": 3.7995,
      "step": 212320
    },
    {
      "epoch": 0.44235416666666666,
      "grad_norm": 0.9190700054168701,
      "learning_rate": 0.00017809751319490882,
      "loss": 3.8478,
      "step": 212330
    },
    {
      "epoch": 0.442375,
      "grad_norm": 0.8866201043128967,
      "learning_rate": 0.00017808782908058885,
      "loss": 3.9465,
      "step": 212340
    },
    {
      "epoch": 0.4423958333333333,
      "grad_norm": 0.8340014815330505,
      "learning_rate": 0.0001780781448449405,
      "loss": 3.7851,
      "step": 212350
    },
    {
      "epoch": 0.4424166666666667,
      "grad_norm": 0.838939905166626,
      "learning_rate": 0.00017806846048800578,
      "loss": 3.9497,
      "step": 212360
    },
    {
      "epoch": 0.4424375,
      "grad_norm": 0.8996695876121521,
      "learning_rate": 0.00017805877600982634,
      "loss": 3.7557,
      "step": 212370
    },
    {
      "epoch": 0.44245833333333334,
      "grad_norm": 0.9183415770530701,
      "learning_rate": 0.00017804909141044413,
      "loss": 3.7392,
      "step": 212380
    },
    {
      "epoch": 0.44247916666666665,
      "grad_norm": 0.8704787492752075,
      "learning_rate": 0.00017803940668990097,
      "loss": 3.9476,
      "step": 212390
    },
    {
      "epoch": 0.4425,
      "grad_norm": 0.7805498838424683,
      "learning_rate": 0.0001780297218482386,
      "loss": 4.0119,
      "step": 212400
    },
    {
      "epoch": 0.4425208333333333,
      "grad_norm": 0.8336392045021057,
      "learning_rate": 0.00017802003688549897,
      "loss": 3.9216,
      "step": 212410
    },
    {
      "epoch": 0.44254166666666667,
      "grad_norm": 0.8192484378814697,
      "learning_rate": 0.0001780103518017239,
      "loss": 3.8455,
      "step": 212420
    },
    {
      "epoch": 0.4425625,
      "grad_norm": 1.8246970176696777,
      "learning_rate": 0.00017800066659695514,
      "loss": 3.8085,
      "step": 212430
    },
    {
      "epoch": 0.44258333333333333,
      "grad_norm": 0.926263153553009,
      "learning_rate": 0.0001779909812712346,
      "loss": 3.8945,
      "step": 212440
    },
    {
      "epoch": 0.4426041666666667,
      "grad_norm": 0.8431193232536316,
      "learning_rate": 0.00017798129582460414,
      "loss": 3.8614,
      "step": 212450
    },
    {
      "epoch": 0.442625,
      "grad_norm": 0.7859699130058289,
      "learning_rate": 0.00017797161025710556,
      "loss": 3.9196,
      "step": 212460
    },
    {
      "epoch": 0.44264583333333335,
      "grad_norm": 0.8704814910888672,
      "learning_rate": 0.0001779619245687806,
      "loss": 3.714,
      "step": 212470
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 0.8280991315841675,
      "learning_rate": 0.00017795223875967132,
      "loss": 3.8972,
      "step": 212480
    },
    {
      "epoch": 0.4426875,
      "grad_norm": 0.8121405243873596,
      "learning_rate": 0.00017794255282981938,
      "loss": 3.9911,
      "step": 212490
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 0.8593297004699707,
      "learning_rate": 0.0001779328667792666,
      "loss": 3.7638,
      "step": 212500
    },
    {
      "epoch": 0.4427291666666667,
      "grad_norm": 0.992916464805603,
      "learning_rate": 0.000177923180608055,
      "loss": 3.9044,
      "step": 212510
    },
    {
      "epoch": 0.44275,
      "grad_norm": 0.8316318988800049,
      "learning_rate": 0.00017791349431622627,
      "loss": 3.6878,
      "step": 212520
    },
    {
      "epoch": 0.44277083333333334,
      "grad_norm": 0.8177123069763184,
      "learning_rate": 0.00017790380790382227,
      "loss": 4.0751,
      "step": 212530
    },
    {
      "epoch": 0.44279166666666664,
      "grad_norm": 0.8920256495475769,
      "learning_rate": 0.00017789412137088491,
      "loss": 3.8191,
      "step": 212540
    },
    {
      "epoch": 0.4428125,
      "grad_norm": 0.8046374917030334,
      "learning_rate": 0.00017788443471745597,
      "loss": 3.8639,
      "step": 212550
    },
    {
      "epoch": 0.44283333333333336,
      "grad_norm": 1.0336534976959229,
      "learning_rate": 0.00017787474794357728,
      "loss": 4.0465,
      "step": 212560
    },
    {
      "epoch": 0.44285416666666666,
      "grad_norm": 0.7934544682502747,
      "learning_rate": 0.00017786506104929074,
      "loss": 3.7008,
      "step": 212570
    },
    {
      "epoch": 0.442875,
      "grad_norm": 1.0008329153060913,
      "learning_rate": 0.00017785537403463818,
      "loss": 3.8263,
      "step": 212580
    },
    {
      "epoch": 0.4428958333333333,
      "grad_norm": 0.8749621510505676,
      "learning_rate": 0.00017784568689966143,
      "loss": 3.8468,
      "step": 212590
    },
    {
      "epoch": 0.4429166666666667,
      "grad_norm": 1.1754326820373535,
      "learning_rate": 0.00017783599964440227,
      "loss": 3.8347,
      "step": 212600
    },
    {
      "epoch": 0.4429375,
      "grad_norm": 0.8298652172088623,
      "learning_rate": 0.00017782631226890267,
      "loss": 4.0635,
      "step": 212610
    },
    {
      "epoch": 0.44295833333333334,
      "grad_norm": 0.8098835349082947,
      "learning_rate": 0.00017781662477320444,
      "loss": 3.7675,
      "step": 212620
    },
    {
      "epoch": 0.44297916666666665,
      "grad_norm": 0.8973553776741028,
      "learning_rate": 0.00017780693715734936,
      "loss": 3.9005,
      "step": 212630
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.8261711001396179,
      "learning_rate": 0.0001777972494213793,
      "loss": 3.716,
      "step": 212640
    },
    {
      "epoch": 0.4430208333333333,
      "grad_norm": 0.7781514525413513,
      "learning_rate": 0.00017778756156533617,
      "loss": 4.2126,
      "step": 212650
    },
    {
      "epoch": 0.44304166666666667,
      "grad_norm": 0.8548663258552551,
      "learning_rate": 0.00017777787358926172,
      "loss": 3.8796,
      "step": 212660
    },
    {
      "epoch": 0.4430625,
      "grad_norm": 0.9794257283210754,
      "learning_rate": 0.0001777681854931979,
      "loss": 3.8345,
      "step": 212670
    },
    {
      "epoch": 0.44308333333333333,
      "grad_norm": 0.9738793969154358,
      "learning_rate": 0.0001777584972771865,
      "loss": 3.7968,
      "step": 212680
    },
    {
      "epoch": 0.4431041666666667,
      "grad_norm": 0.8419782519340515,
      "learning_rate": 0.00017774880894126934,
      "loss": 3.6402,
      "step": 212690
    },
    {
      "epoch": 0.443125,
      "grad_norm": 0.8911097645759583,
      "learning_rate": 0.00017773912048548837,
      "loss": 3.8682,
      "step": 212700
    },
    {
      "epoch": 0.44314583333333335,
      "grad_norm": 0.8639904856681824,
      "learning_rate": 0.00017772943190988536,
      "loss": 3.7572,
      "step": 212710
    },
    {
      "epoch": 0.44316666666666665,
      "grad_norm": 0.8240842819213867,
      "learning_rate": 0.00017771974321450216,
      "loss": 3.9088,
      "step": 212720
    },
    {
      "epoch": 0.4431875,
      "grad_norm": 0.9600944519042969,
      "learning_rate": 0.00017771005439938062,
      "loss": 3.7615,
      "step": 212730
    },
    {
      "epoch": 0.4432083333333333,
      "grad_norm": 0.7876349091529846,
      "learning_rate": 0.00017770036546456268,
      "loss": 3.9451,
      "step": 212740
    },
    {
      "epoch": 0.4432291666666667,
      "grad_norm": 1.1113554239273071,
      "learning_rate": 0.00017769067641009006,
      "loss": 3.8535,
      "step": 212750
    },
    {
      "epoch": 0.44325,
      "grad_norm": 1.0093733072280884,
      "learning_rate": 0.00017768098723600474,
      "loss": 3.8567,
      "step": 212760
    },
    {
      "epoch": 0.44327083333333334,
      "grad_norm": 0.7815457582473755,
      "learning_rate": 0.00017767129794234846,
      "loss": 3.9426,
      "step": 212770
    },
    {
      "epoch": 0.44329166666666664,
      "grad_norm": 0.8833188414573669,
      "learning_rate": 0.00017766160852916314,
      "loss": 3.9082,
      "step": 212780
    },
    {
      "epoch": 0.4433125,
      "grad_norm": 0.8400865197181702,
      "learning_rate": 0.0001776519189964907,
      "loss": 3.9243,
      "step": 212790
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 0.9513823986053467,
      "learning_rate": 0.00017764222934437278,
      "loss": 3.8926,
      "step": 212800
    },
    {
      "epoch": 0.44335416666666666,
      "grad_norm": 0.8593255877494812,
      "learning_rate": 0.00017763253957285143,
      "loss": 3.8584,
      "step": 212810
    },
    {
      "epoch": 0.443375,
      "grad_norm": 0.8461092710494995,
      "learning_rate": 0.00017762284968196848,
      "loss": 4.0298,
      "step": 212820
    },
    {
      "epoch": 0.4433958333333333,
      "grad_norm": 0.8228969573974609,
      "learning_rate": 0.00017761315967176574,
      "loss": 3.813,
      "step": 212830
    },
    {
      "epoch": 0.4434166666666667,
      "grad_norm": 0.8571804165840149,
      "learning_rate": 0.00017760346954228504,
      "loss": 3.8979,
      "step": 212840
    },
    {
      "epoch": 0.4434375,
      "grad_norm": 0.8757422566413879,
      "learning_rate": 0.0001775937792935683,
      "loss": 4.1923,
      "step": 212850
    },
    {
      "epoch": 0.44345833333333334,
      "grad_norm": 0.833779513835907,
      "learning_rate": 0.00017758408892565736,
      "loss": 4.0074,
      "step": 212860
    },
    {
      "epoch": 0.44347916666666665,
      "grad_norm": 2.969768524169922,
      "learning_rate": 0.00017757439843859408,
      "loss": 3.868,
      "step": 212870
    },
    {
      "epoch": 0.4435,
      "grad_norm": 0.9362463355064392,
      "learning_rate": 0.00017756470783242032,
      "loss": 4.011,
      "step": 212880
    },
    {
      "epoch": 0.4435208333333333,
      "grad_norm": 0.8796049356460571,
      "learning_rate": 0.00017755501710717793,
      "loss": 3.8183,
      "step": 212890
    },
    {
      "epoch": 0.44354166666666667,
      "grad_norm": 0.8910903334617615,
      "learning_rate": 0.00017754532626290873,
      "loss": 3.9626,
      "step": 212900
    },
    {
      "epoch": 0.4435625,
      "grad_norm": 0.8577027916908264,
      "learning_rate": 0.00017753563529965467,
      "loss": 3.9714,
      "step": 212910
    },
    {
      "epoch": 0.44358333333333333,
      "grad_norm": 0.8857083320617676,
      "learning_rate": 0.00017752594421745755,
      "loss": 3.8166,
      "step": 212920
    },
    {
      "epoch": 0.4436041666666667,
      "grad_norm": 0.8342216610908508,
      "learning_rate": 0.00017751625301635923,
      "loss": 3.939,
      "step": 212930
    },
    {
      "epoch": 0.443625,
      "grad_norm": 0.9488152265548706,
      "learning_rate": 0.00017750656169640162,
      "loss": 3.8273,
      "step": 212940
    },
    {
      "epoch": 0.44364583333333335,
      "grad_norm": 0.9594966769218445,
      "learning_rate": 0.0001774968702576265,
      "loss": 3.7909,
      "step": 212950
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 1.5073230266571045,
      "learning_rate": 0.00017748717870007586,
      "loss": 3.9516,
      "step": 212960
    },
    {
      "epoch": 0.4436875,
      "grad_norm": 0.8413881063461304,
      "learning_rate": 0.00017747748702379143,
      "loss": 3.8617,
      "step": 212970
    },
    {
      "epoch": 0.4437083333333333,
      "grad_norm": 0.8350012898445129,
      "learning_rate": 0.0001774677952288152,
      "loss": 3.7384,
      "step": 212980
    },
    {
      "epoch": 0.4437291666666667,
      "grad_norm": 0.8339282870292664,
      "learning_rate": 0.00017745810331518892,
      "loss": 3.7891,
      "step": 212990
    },
    {
      "epoch": 0.44375,
      "grad_norm": 0.845903754234314,
      "learning_rate": 0.00017744841128295444,
      "loss": 3.8932,
      "step": 213000
    },
    {
      "epoch": 0.44375,
      "eval_loss": 3.6372973918914795,
      "eval_runtime": 7.2189,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.416,
      "step": 213000
    },
    {
      "epoch": 0.44377083333333334,
      "grad_norm": 0.9256645441055298,
      "learning_rate": 0.00017743871913215381,
      "loss": 3.7573,
      "step": 213010
    },
    {
      "epoch": 0.44379166666666664,
      "grad_norm": 1.037251353263855,
      "learning_rate": 0.00017742902686282872,
      "loss": 3.9159,
      "step": 213020
    },
    {
      "epoch": 0.4438125,
      "grad_norm": 0.8625324368476868,
      "learning_rate": 0.00017741933447502106,
      "loss": 3.9132,
      "step": 213030
    },
    {
      "epoch": 0.44383333333333336,
      "grad_norm": 0.8772291541099548,
      "learning_rate": 0.00017740964196877277,
      "loss": 3.971,
      "step": 213040
    },
    {
      "epoch": 0.44385416666666666,
      "grad_norm": 0.8916688561439514,
      "learning_rate": 0.00017739994934412562,
      "loss": 3.9143,
      "step": 213050
    },
    {
      "epoch": 0.443875,
      "grad_norm": 0.8042784929275513,
      "learning_rate": 0.00017739025660112157,
      "loss": 3.9334,
      "step": 213060
    },
    {
      "epoch": 0.4438958333333333,
      "grad_norm": 0.8645148277282715,
      "learning_rate": 0.00017738056373980246,
      "loss": 3.8716,
      "step": 213070
    },
    {
      "epoch": 0.4439166666666667,
      "grad_norm": 0.9324138164520264,
      "learning_rate": 0.00017737087076021018,
      "loss": 3.8158,
      "step": 213080
    },
    {
      "epoch": 0.4439375,
      "grad_norm": 0.8682936429977417,
      "learning_rate": 0.00017736117766238655,
      "loss": 4.0777,
      "step": 213090
    },
    {
      "epoch": 0.44395833333333334,
      "grad_norm": 0.8590637445449829,
      "learning_rate": 0.00017735148444637341,
      "loss": 3.8204,
      "step": 213100
    },
    {
      "epoch": 0.44397916666666665,
      "grad_norm": 0.8251410126686096,
      "learning_rate": 0.00017734179111221276,
      "loss": 3.7043,
      "step": 213110
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.7951036691665649,
      "learning_rate": 0.0001773320976599464,
      "loss": 3.9332,
      "step": 213120
    },
    {
      "epoch": 0.4440208333333333,
      "grad_norm": 0.9495189785957336,
      "learning_rate": 0.00017732240408961615,
      "loss": 4.0308,
      "step": 213130
    },
    {
      "epoch": 0.44404166666666667,
      "grad_norm": 0.7962288856506348,
      "learning_rate": 0.0001773127104012639,
      "loss": 3.833,
      "step": 213140
    },
    {
      "epoch": 0.4440625,
      "grad_norm": 0.785784125328064,
      "learning_rate": 0.0001773030165949316,
      "loss": 3.873,
      "step": 213150
    },
    {
      "epoch": 0.44408333333333333,
      "grad_norm": 0.8610422015190125,
      "learning_rate": 0.00017729332267066113,
      "loss": 3.8674,
      "step": 213160
    },
    {
      "epoch": 0.4441041666666667,
      "grad_norm": 0.8434550762176514,
      "learning_rate": 0.00017728362862849418,
      "loss": 3.8157,
      "step": 213170
    },
    {
      "epoch": 0.444125,
      "grad_norm": 0.8698112964630127,
      "learning_rate": 0.00017727393446847288,
      "loss": 3.8676,
      "step": 213180
    },
    {
      "epoch": 0.44414583333333335,
      "grad_norm": 0.9486567974090576,
      "learning_rate": 0.0001772642401906389,
      "loss": 3.9566,
      "step": 213190
    },
    {
      "epoch": 0.44416666666666665,
      "grad_norm": 0.8458232283592224,
      "learning_rate": 0.0001772545457950342,
      "loss": 3.9554,
      "step": 213200
    },
    {
      "epoch": 0.4441875,
      "grad_norm": 0.8206096887588501,
      "learning_rate": 0.00017724485128170066,
      "loss": 3.9467,
      "step": 213210
    },
    {
      "epoch": 0.4442083333333333,
      "grad_norm": 0.867630124092102,
      "learning_rate": 0.00017723515665068017,
      "loss": 4.0408,
      "step": 213220
    },
    {
      "epoch": 0.4442291666666667,
      "grad_norm": 1.504743218421936,
      "learning_rate": 0.00017722546190201456,
      "loss": 3.772,
      "step": 213230
    },
    {
      "epoch": 0.44425,
      "grad_norm": 0.9075390100479126,
      "learning_rate": 0.00017721576703574573,
      "loss": 3.9761,
      "step": 213240
    },
    {
      "epoch": 0.44427083333333334,
      "grad_norm": 0.8735506534576416,
      "learning_rate": 0.00017720607205191555,
      "loss": 3.8629,
      "step": 213250
    },
    {
      "epoch": 0.44429166666666664,
      "grad_norm": 1.0127663612365723,
      "learning_rate": 0.000177196376950566,
      "loss": 3.7424,
      "step": 213260
    },
    {
      "epoch": 0.4443125,
      "grad_norm": 0.8206272721290588,
      "learning_rate": 0.0001771866817317387,
      "loss": 4.011,
      "step": 213270
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 0.8610066771507263,
      "learning_rate": 0.00017717698639547582,
      "loss": 3.9889,
      "step": 213280
    },
    {
      "epoch": 0.44435416666666666,
      "grad_norm": 0.7577471733093262,
      "learning_rate": 0.0001771672909418191,
      "loss": 4.013,
      "step": 213290
    },
    {
      "epoch": 0.444375,
      "grad_norm": 0.7731717228889465,
      "learning_rate": 0.0001771575953708104,
      "loss": 3.9821,
      "step": 213300
    },
    {
      "epoch": 0.4443958333333333,
      "grad_norm": 0.9792008996009827,
      "learning_rate": 0.00017714789968249165,
      "loss": 4.0193,
      "step": 213310
    },
    {
      "epoch": 0.4444166666666667,
      "grad_norm": 0.7732285261154175,
      "learning_rate": 0.00017713820387690478,
      "loss": 3.7435,
      "step": 213320
    },
    {
      "epoch": 0.4444375,
      "grad_norm": 0.8812845349311829,
      "learning_rate": 0.00017712850795409152,
      "loss": 3.8137,
      "step": 213330
    },
    {
      "epoch": 0.44445833333333334,
      "grad_norm": 0.8400664925575256,
      "learning_rate": 0.00017711881191409388,
      "loss": 3.9087,
      "step": 213340
    },
    {
      "epoch": 0.44447916666666665,
      "grad_norm": 1.0166287422180176,
      "learning_rate": 0.00017710911575695372,
      "loss": 3.8418,
      "step": 213350
    },
    {
      "epoch": 0.4445,
      "grad_norm": 0.7983569502830505,
      "learning_rate": 0.0001770994194827129,
      "loss": 3.7591,
      "step": 213360
    },
    {
      "epoch": 0.4445208333333333,
      "grad_norm": 0.8650636076927185,
      "learning_rate": 0.00017708972309141328,
      "loss": 3.6691,
      "step": 213370
    },
    {
      "epoch": 0.44454166666666667,
      "grad_norm": 0.7819990515708923,
      "learning_rate": 0.00017708002658309687,
      "loss": 3.7476,
      "step": 213380
    },
    {
      "epoch": 0.4445625,
      "grad_norm": 0.8238974809646606,
      "learning_rate": 0.0001770703299578054,
      "loss": 3.889,
      "step": 213390
    },
    {
      "epoch": 0.44458333333333333,
      "grad_norm": 0.8381069302558899,
      "learning_rate": 0.00017706063321558082,
      "loss": 3.734,
      "step": 213400
    },
    {
      "epoch": 0.4446041666666667,
      "grad_norm": 0.8465492725372314,
      "learning_rate": 0.000177050936356465,
      "loss": 3.8535,
      "step": 213410
    },
    {
      "epoch": 0.444625,
      "grad_norm": 0.8572518229484558,
      "learning_rate": 0.00017704123938049987,
      "loss": 3.8566,
      "step": 213420
    },
    {
      "epoch": 0.44464583333333335,
      "grad_norm": 0.8167303204536438,
      "learning_rate": 0.00017703154228772728,
      "loss": 3.8735,
      "step": 213430
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 0.9229073524475098,
      "learning_rate": 0.00017702184507818915,
      "loss": 3.831,
      "step": 213440
    },
    {
      "epoch": 0.4446875,
      "grad_norm": 0.8399351239204407,
      "learning_rate": 0.0001770121477519273,
      "loss": 3.8944,
      "step": 213450
    },
    {
      "epoch": 0.4447083333333333,
      "grad_norm": 0.8663840293884277,
      "learning_rate": 0.00017700245030898373,
      "loss": 3.7602,
      "step": 213460
    },
    {
      "epoch": 0.4447291666666667,
      "grad_norm": 0.9566397666931152,
      "learning_rate": 0.0001769927527494002,
      "loss": 3.7184,
      "step": 213470
    },
    {
      "epoch": 0.44475,
      "grad_norm": 0.8601694703102112,
      "learning_rate": 0.0001769830550732187,
      "loss": 3.7167,
      "step": 213480
    },
    {
      "epoch": 0.44477083333333334,
      "grad_norm": 0.8452054262161255,
      "learning_rate": 0.00017697335728048105,
      "loss": 3.8653,
      "step": 213490
    },
    {
      "epoch": 0.44479166666666664,
      "grad_norm": 1.0311429500579834,
      "learning_rate": 0.00017696365937122917,
      "loss": 3.9488,
      "step": 213500
    },
    {
      "epoch": 0.4448125,
      "grad_norm": 0.8372547030448914,
      "learning_rate": 0.00017695396134550498,
      "loss": 3.7538,
      "step": 213510
    },
    {
      "epoch": 0.44483333333333336,
      "grad_norm": 0.8735105991363525,
      "learning_rate": 0.0001769442632033504,
      "loss": 3.9772,
      "step": 213520
    },
    {
      "epoch": 0.44485416666666666,
      "grad_norm": 0.7683423757553101,
      "learning_rate": 0.00017693456494480717,
      "loss": 3.7631,
      "step": 213530
    },
    {
      "epoch": 0.444875,
      "grad_norm": 0.8761810064315796,
      "learning_rate": 0.0001769248665699173,
      "loss": 3.8889,
      "step": 213540
    },
    {
      "epoch": 0.4448958333333333,
      "grad_norm": 0.8070008754730225,
      "learning_rate": 0.00017691516807872272,
      "loss": 3.9565,
      "step": 213550
    },
    {
      "epoch": 0.4449166666666667,
      "grad_norm": 0.8606586456298828,
      "learning_rate": 0.00017690546947126524,
      "loss": 3.6646,
      "step": 213560
    },
    {
      "epoch": 0.4449375,
      "grad_norm": 0.8590713739395142,
      "learning_rate": 0.00017689577074758679,
      "loss": 3.9787,
      "step": 213570
    },
    {
      "epoch": 0.44495833333333334,
      "grad_norm": 0.7767701745033264,
      "learning_rate": 0.00017688607190772924,
      "loss": 3.8748,
      "step": 213580
    },
    {
      "epoch": 0.44497916666666665,
      "grad_norm": 1.0155293941497803,
      "learning_rate": 0.00017687637295173448,
      "loss": 4.0012,
      "step": 213590
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.8902876377105713,
      "learning_rate": 0.00017686667387964444,
      "loss": 3.7631,
      "step": 213600
    },
    {
      "epoch": 0.4450208333333333,
      "grad_norm": 0.8740119934082031,
      "learning_rate": 0.00017685697469150104,
      "loss": 3.8127,
      "step": 213610
    },
    {
      "epoch": 0.44504166666666667,
      "grad_norm": 0.8202094435691833,
      "learning_rate": 0.0001768472753873461,
      "loss": 4.0278,
      "step": 213620
    },
    {
      "epoch": 0.4450625,
      "grad_norm": 0.928397536277771,
      "learning_rate": 0.0001768375759672216,
      "loss": 3.9073,
      "step": 213630
    },
    {
      "epoch": 0.44508333333333333,
      "grad_norm": 0.8523874282836914,
      "learning_rate": 0.00017682787643116934,
      "loss": 3.8628,
      "step": 213640
    },
    {
      "epoch": 0.4451041666666667,
      "grad_norm": 0.9942874312400818,
      "learning_rate": 0.0001768181767792313,
      "loss": 3.9569,
      "step": 213650
    },
    {
      "epoch": 0.445125,
      "grad_norm": 0.8481140732765198,
      "learning_rate": 0.00017680847701144936,
      "loss": 4.105,
      "step": 213660
    },
    {
      "epoch": 0.44514583333333335,
      "grad_norm": 1.1247973442077637,
      "learning_rate": 0.00017679877712786538,
      "loss": 3.7667,
      "step": 213670
    },
    {
      "epoch": 0.44516666666666665,
      "grad_norm": 0.832126796245575,
      "learning_rate": 0.00017678907712852132,
      "loss": 3.7328,
      "step": 213680
    },
    {
      "epoch": 0.4451875,
      "grad_norm": 0.9060757756233215,
      "learning_rate": 0.0001767793770134591,
      "loss": 3.9853,
      "step": 213690
    },
    {
      "epoch": 0.4452083333333333,
      "grad_norm": 0.9309297204017639,
      "learning_rate": 0.00017676967678272048,
      "loss": 3.8723,
      "step": 213700
    },
    {
      "epoch": 0.4452291666666667,
      "grad_norm": 1.1353639364242554,
      "learning_rate": 0.00017675997643634746,
      "loss": 3.8929,
      "step": 213710
    },
    {
      "epoch": 0.44525,
      "grad_norm": 0.8382943272590637,
      "learning_rate": 0.00017675027597438198,
      "loss": 4.0069,
      "step": 213720
    },
    {
      "epoch": 0.44527083333333334,
      "grad_norm": 0.8769770860671997,
      "learning_rate": 0.0001767405753968659,
      "loss": 3.9604,
      "step": 213730
    },
    {
      "epoch": 0.44529166666666664,
      "grad_norm": 0.9426904916763306,
      "learning_rate": 0.00017673087470384107,
      "loss": 3.8761,
      "step": 213740
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 0.8671378493309021,
      "learning_rate": 0.00017672117389534947,
      "loss": 3.8304,
      "step": 213750
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 0.9070574641227722,
      "learning_rate": 0.00017671147297143296,
      "loss": 3.9964,
      "step": 213760
    },
    {
      "epoch": 0.44535416666666666,
      "grad_norm": 0.8606659173965454,
      "learning_rate": 0.0001767017719321335,
      "loss": 3.9579,
      "step": 213770
    },
    {
      "epoch": 0.445375,
      "grad_norm": 0.936021089553833,
      "learning_rate": 0.0001766920707774929,
      "loss": 4.0628,
      "step": 213780
    },
    {
      "epoch": 0.4453958333333333,
      "grad_norm": 0.9538018703460693,
      "learning_rate": 0.00017668236950755314,
      "loss": 3.9658,
      "step": 213790
    },
    {
      "epoch": 0.4454166666666667,
      "grad_norm": 0.8313519954681396,
      "learning_rate": 0.00017667266812235614,
      "loss": 3.9513,
      "step": 213800
    },
    {
      "epoch": 0.4454375,
      "grad_norm": 0.9289337396621704,
      "learning_rate": 0.00017666296662194374,
      "loss": 3.898,
      "step": 213810
    },
    {
      "epoch": 0.44545833333333335,
      "grad_norm": 0.8553603291511536,
      "learning_rate": 0.0001766532650063579,
      "loss": 3.9872,
      "step": 213820
    },
    {
      "epoch": 0.44547916666666665,
      "grad_norm": 0.7825472354888916,
      "learning_rate": 0.0001766435632756405,
      "loss": 3.7728,
      "step": 213830
    },
    {
      "epoch": 0.4455,
      "grad_norm": 0.8925842642784119,
      "learning_rate": 0.0001766338614298334,
      "loss": 3.9334,
      "step": 213840
    },
    {
      "epoch": 0.4455208333333333,
      "grad_norm": 0.801289439201355,
      "learning_rate": 0.00017662415946897864,
      "loss": 4.039,
      "step": 213850
    },
    {
      "epoch": 0.44554166666666667,
      "grad_norm": 0.893339216709137,
      "learning_rate": 0.000176614457393118,
      "loss": 3.8784,
      "step": 213860
    },
    {
      "epoch": 0.4455625,
      "grad_norm": 0.8511550426483154,
      "learning_rate": 0.0001766047552022934,
      "loss": 3.8647,
      "step": 213870
    },
    {
      "epoch": 0.44558333333333333,
      "grad_norm": 0.9977039694786072,
      "learning_rate": 0.00017659505289654688,
      "loss": 4.0759,
      "step": 213880
    },
    {
      "epoch": 0.4456041666666667,
      "grad_norm": 0.816133439540863,
      "learning_rate": 0.00017658535047592025,
      "loss": 3.9233,
      "step": 213890
    },
    {
      "epoch": 0.445625,
      "grad_norm": 0.8358352780342102,
      "learning_rate": 0.00017657564794045538,
      "loss": 3.9095,
      "step": 213900
    },
    {
      "epoch": 0.44564583333333335,
      "grad_norm": 0.8626021146774292,
      "learning_rate": 0.00017656594529019424,
      "loss": 3.8361,
      "step": 213910
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 0.831615686416626,
      "learning_rate": 0.00017655624252517873,
      "loss": 3.6079,
      "step": 213920
    },
    {
      "epoch": 0.4456875,
      "grad_norm": 0.9057772159576416,
      "learning_rate": 0.0001765465396454508,
      "loss": 4.0709,
      "step": 213930
    },
    {
      "epoch": 0.4457083333333333,
      "grad_norm": 1.2901430130004883,
      "learning_rate": 0.00017653683665105226,
      "loss": 4.0966,
      "step": 213940
    },
    {
      "epoch": 0.4457291666666667,
      "grad_norm": 0.8825167417526245,
      "learning_rate": 0.00017652713354202515,
      "loss": 3.7205,
      "step": 213950
    },
    {
      "epoch": 0.44575,
      "grad_norm": 0.8791132569313049,
      "learning_rate": 0.0001765174303184113,
      "loss": 3.9643,
      "step": 213960
    },
    {
      "epoch": 0.44577083333333334,
      "grad_norm": 0.8332610726356506,
      "learning_rate": 0.00017650772698025264,
      "loss": 3.863,
      "step": 213970
    },
    {
      "epoch": 0.44579166666666664,
      "grad_norm": 0.846614420413971,
      "learning_rate": 0.00017649802352759112,
      "loss": 3.7926,
      "step": 213980
    },
    {
      "epoch": 0.4458125,
      "grad_norm": 0.7636361718177795,
      "learning_rate": 0.0001764883199604686,
      "loss": 3.8464,
      "step": 213990
    },
    {
      "epoch": 0.44583333333333336,
      "grad_norm": 0.8618592023849487,
      "learning_rate": 0.00017647861627892702,
      "loss": 3.8183,
      "step": 214000
    },
    {
      "epoch": 0.44583333333333336,
      "eval_loss": 3.640772581100464,
      "eval_runtime": 7.3524,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.408,
      "step": 214000
    },
    {
      "epoch": 0.44585416666666666,
      "grad_norm": 1.124108910560608,
      "learning_rate": 0.0001764689124830083,
      "loss": 3.9586,
      "step": 214010
    },
    {
      "epoch": 0.445875,
      "grad_norm": 0.754235565662384,
      "learning_rate": 0.0001764592085727544,
      "loss": 3.8077,
      "step": 214020
    },
    {
      "epoch": 0.4458958333333333,
      "grad_norm": 0.8522454500198364,
      "learning_rate": 0.0001764495045482072,
      "loss": 3.9473,
      "step": 214030
    },
    {
      "epoch": 0.4459166666666667,
      "grad_norm": 0.8998522162437439,
      "learning_rate": 0.00017643980040940848,
      "loss": 3.8304,
      "step": 214040
    },
    {
      "epoch": 0.4459375,
      "grad_norm": 1.0112136602401733,
      "learning_rate": 0.0001764300961564004,
      "loss": 3.7863,
      "step": 214050
    },
    {
      "epoch": 0.44595833333333335,
      "grad_norm": 0.8966758847236633,
      "learning_rate": 0.00017642039178922476,
      "loss": 3.7519,
      "step": 214060
    },
    {
      "epoch": 0.44597916666666665,
      "grad_norm": 0.8495066165924072,
      "learning_rate": 0.00017641068730792344,
      "loss": 4.051,
      "step": 214070
    },
    {
      "epoch": 0.446,
      "grad_norm": 1.0358000993728638,
      "learning_rate": 0.00017640098271253847,
      "loss": 3.7398,
      "step": 214080
    },
    {
      "epoch": 0.4460208333333333,
      "grad_norm": 0.8853864073753357,
      "learning_rate": 0.00017639127800311166,
      "loss": 3.9445,
      "step": 214090
    },
    {
      "epoch": 0.44604166666666667,
      "grad_norm": 0.8953683972358704,
      "learning_rate": 0.00017638157317968495,
      "loss": 3.6454,
      "step": 214100
    },
    {
      "epoch": 0.4460625,
      "grad_norm": 0.8272664546966553,
      "learning_rate": 0.00017637186824230033,
      "loss": 3.7788,
      "step": 214110
    },
    {
      "epoch": 0.44608333333333333,
      "grad_norm": 0.8631678819656372,
      "learning_rate": 0.00017636216319099967,
      "loss": 3.8898,
      "step": 214120
    },
    {
      "epoch": 0.4461041666666667,
      "grad_norm": 1.0306180715560913,
      "learning_rate": 0.0001763524580258249,
      "loss": 3.9043,
      "step": 214130
    },
    {
      "epoch": 0.446125,
      "grad_norm": 0.7918787002563477,
      "learning_rate": 0.00017634275274681794,
      "loss": 3.9125,
      "step": 214140
    },
    {
      "epoch": 0.44614583333333335,
      "grad_norm": 1.0536125898361206,
      "learning_rate": 0.0001763330473540207,
      "loss": 3.9973,
      "step": 214150
    },
    {
      "epoch": 0.44616666666666666,
      "grad_norm": 0.836595892906189,
      "learning_rate": 0.00017632334184747517,
      "loss": 3.9457,
      "step": 214160
    },
    {
      "epoch": 0.4461875,
      "grad_norm": 0.7672790288925171,
      "learning_rate": 0.00017631363622722313,
      "loss": 3.6563,
      "step": 214170
    },
    {
      "epoch": 0.4462083333333333,
      "grad_norm": 0.889972984790802,
      "learning_rate": 0.00017630393049330667,
      "loss": 3.8145,
      "step": 214180
    },
    {
      "epoch": 0.4462291666666667,
      "grad_norm": 0.8108757734298706,
      "learning_rate": 0.00017629422464576766,
      "loss": 4.0765,
      "step": 214190
    },
    {
      "epoch": 0.44625,
      "grad_norm": 0.8854791522026062,
      "learning_rate": 0.000176284518684648,
      "loss": 4.0491,
      "step": 214200
    },
    {
      "epoch": 0.44627083333333334,
      "grad_norm": 0.8852408528327942,
      "learning_rate": 0.00017627481260998955,
      "loss": 3.9575,
      "step": 214210
    },
    {
      "epoch": 0.44629166666666664,
      "grad_norm": 0.8139451146125793,
      "learning_rate": 0.00017626510642183436,
      "loss": 4.0874,
      "step": 214220
    },
    {
      "epoch": 0.4463125,
      "grad_norm": 0.9322256445884705,
      "learning_rate": 0.0001762554001202243,
      "loss": 3.9696,
      "step": 214230
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 0.7949993014335632,
      "learning_rate": 0.00017624569370520128,
      "loss": 3.9402,
      "step": 214240
    },
    {
      "epoch": 0.44635416666666666,
      "grad_norm": 0.8233131170272827,
      "learning_rate": 0.00017623598717680732,
      "loss": 3.8197,
      "step": 214250
    },
    {
      "epoch": 0.446375,
      "grad_norm": 1.0763804912567139,
      "learning_rate": 0.00017622628053508423,
      "loss": 3.8131,
      "step": 214260
    },
    {
      "epoch": 0.4463958333333333,
      "grad_norm": 0.8819139003753662,
      "learning_rate": 0.000176216573780074,
      "loss": 3.8726,
      "step": 214270
    },
    {
      "epoch": 0.4464166666666667,
      "grad_norm": 0.8250538110733032,
      "learning_rate": 0.00017620686691181852,
      "loss": 3.9779,
      "step": 214280
    },
    {
      "epoch": 0.4464375,
      "grad_norm": 0.7402297258377075,
      "learning_rate": 0.0001761971599303598,
      "loss": 3.8688,
      "step": 214290
    },
    {
      "epoch": 0.44645833333333335,
      "grad_norm": 1.0314810276031494,
      "learning_rate": 0.00017618745283573968,
      "loss": 3.8775,
      "step": 214300
    },
    {
      "epoch": 0.44647916666666665,
      "grad_norm": 0.8884909152984619,
      "learning_rate": 0.00017617774562800014,
      "loss": 3.7276,
      "step": 214310
    },
    {
      "epoch": 0.4465,
      "grad_norm": 0.8663093447685242,
      "learning_rate": 0.00017616803830718312,
      "loss": 4.0396,
      "step": 214320
    },
    {
      "epoch": 0.4465208333333333,
      "grad_norm": 0.8113831877708435,
      "learning_rate": 0.00017615833087333057,
      "loss": 3.816,
      "step": 214330
    },
    {
      "epoch": 0.44654166666666667,
      "grad_norm": 1.0069949626922607,
      "learning_rate": 0.00017614862332648425,
      "loss": 3.657,
      "step": 214340
    },
    {
      "epoch": 0.4465625,
      "grad_norm": 0.7715383172035217,
      "learning_rate": 0.00017613891566668633,
      "loss": 3.7668,
      "step": 214350
    },
    {
      "epoch": 0.44658333333333333,
      "grad_norm": 0.8599291443824768,
      "learning_rate": 0.00017612920789397866,
      "loss": 3.9958,
      "step": 214360
    },
    {
      "epoch": 0.4466041666666667,
      "grad_norm": 0.856432318687439,
      "learning_rate": 0.00017611950000840303,
      "loss": 4.0684,
      "step": 214370
    },
    {
      "epoch": 0.446625,
      "grad_norm": 0.8813379406929016,
      "learning_rate": 0.0001761097920100016,
      "loss": 3.8064,
      "step": 214380
    },
    {
      "epoch": 0.44664583333333335,
      "grad_norm": 0.7152360677719116,
      "learning_rate": 0.00017610008389881622,
      "loss": 4.2237,
      "step": 214390
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 0.7983796000480652,
      "learning_rate": 0.00017609037567488877,
      "loss": 3.8764,
      "step": 214400
    },
    {
      "epoch": 0.4466875,
      "grad_norm": 0.8636149168014526,
      "learning_rate": 0.00017608066733826124,
      "loss": 3.7862,
      "step": 214410
    },
    {
      "epoch": 0.4467083333333333,
      "grad_norm": 0.8098508715629578,
      "learning_rate": 0.00017607095888897553,
      "loss": 3.7432,
      "step": 214420
    },
    {
      "epoch": 0.4467291666666667,
      "grad_norm": 0.9040510654449463,
      "learning_rate": 0.0001760612503270736,
      "loss": 3.8484,
      "step": 214430
    },
    {
      "epoch": 0.44675,
      "grad_norm": 0.827120840549469,
      "learning_rate": 0.0001760515416525974,
      "loss": 4.048,
      "step": 214440
    },
    {
      "epoch": 0.44677083333333334,
      "grad_norm": 0.8443025350570679,
      "learning_rate": 0.00017604183286558885,
      "loss": 3.9038,
      "step": 214450
    },
    {
      "epoch": 0.44679166666666664,
      "grad_norm": 0.8628919720649719,
      "learning_rate": 0.0001760321239660899,
      "loss": 4.0875,
      "step": 214460
    },
    {
      "epoch": 0.4468125,
      "grad_norm": 0.7727258801460266,
      "learning_rate": 0.00017602241495414243,
      "loss": 4.0047,
      "step": 214470
    },
    {
      "epoch": 0.44683333333333336,
      "grad_norm": 0.7884827256202698,
      "learning_rate": 0.0001760127058297885,
      "loss": 3.9631,
      "step": 214480
    },
    {
      "epoch": 0.44685416666666666,
      "grad_norm": 0.9517244696617126,
      "learning_rate": 0.0001760029965930699,
      "loss": 3.8428,
      "step": 214490
    },
    {
      "epoch": 0.446875,
      "grad_norm": 0.874746561050415,
      "learning_rate": 0.00017599328724402871,
      "loss": 3.8289,
      "step": 214500
    },
    {
      "epoch": 0.4468958333333333,
      "grad_norm": 0.7541463375091553,
      "learning_rate": 0.00017598357778270674,
      "loss": 3.8673,
      "step": 214510
    },
    {
      "epoch": 0.4469166666666667,
      "grad_norm": 1.0162582397460938,
      "learning_rate": 0.00017597386820914605,
      "loss": 3.8627,
      "step": 214520
    },
    {
      "epoch": 0.4469375,
      "grad_norm": 1.0087120532989502,
      "learning_rate": 0.00017596415852338856,
      "loss": 3.8705,
      "step": 214530
    },
    {
      "epoch": 0.44695833333333335,
      "grad_norm": 0.8623592853546143,
      "learning_rate": 0.00017595444872547613,
      "loss": 3.9416,
      "step": 214540
    },
    {
      "epoch": 0.44697916666666665,
      "grad_norm": 0.9367566704750061,
      "learning_rate": 0.00017594473881545075,
      "loss": 3.7417,
      "step": 214550
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.897848904132843,
      "learning_rate": 0.00017593502879335442,
      "loss": 3.7923,
      "step": 214560
    },
    {
      "epoch": 0.4470208333333333,
      "grad_norm": 0.8812626600265503,
      "learning_rate": 0.00017592531865922898,
      "loss": 3.9887,
      "step": 214570
    },
    {
      "epoch": 0.44704166666666667,
      "grad_norm": 0.8358829021453857,
      "learning_rate": 0.00017591560841311642,
      "loss": 3.8563,
      "step": 214580
    },
    {
      "epoch": 0.4470625,
      "grad_norm": 0.7927394509315491,
      "learning_rate": 0.00017590589805505875,
      "loss": 3.9222,
      "step": 214590
    },
    {
      "epoch": 0.44708333333333333,
      "grad_norm": 0.8257186412811279,
      "learning_rate": 0.00017589618758509783,
      "loss": 3.7876,
      "step": 214600
    },
    {
      "epoch": 0.4471041666666667,
      "grad_norm": 0.859208881855011,
      "learning_rate": 0.00017588647700327563,
      "loss": 3.7846,
      "step": 214610
    },
    {
      "epoch": 0.447125,
      "grad_norm": 0.9714350700378418,
      "learning_rate": 0.00017587676630963404,
      "loss": 3.9571,
      "step": 214620
    },
    {
      "epoch": 0.44714583333333335,
      "grad_norm": 0.8317899703979492,
      "learning_rate": 0.00017586705550421514,
      "loss": 3.9151,
      "step": 214630
    },
    {
      "epoch": 0.44716666666666666,
      "grad_norm": 1.0420796871185303,
      "learning_rate": 0.00017585734458706073,
      "loss": 3.8413,
      "step": 214640
    },
    {
      "epoch": 0.4471875,
      "grad_norm": 0.8592440485954285,
      "learning_rate": 0.00017584763355821286,
      "loss": 4.0062,
      "step": 214650
    },
    {
      "epoch": 0.4472083333333333,
      "grad_norm": 0.9551777839660645,
      "learning_rate": 0.00017583792241771345,
      "loss": 3.7573,
      "step": 214660
    },
    {
      "epoch": 0.4472291666666667,
      "grad_norm": 0.807392418384552,
      "learning_rate": 0.00017582821116560445,
      "loss": 3.9205,
      "step": 214670
    },
    {
      "epoch": 0.44725,
      "grad_norm": 0.8725295662879944,
      "learning_rate": 0.0001758184998019278,
      "loss": 3.8214,
      "step": 214680
    },
    {
      "epoch": 0.44727083333333334,
      "grad_norm": 1.1676936149597168,
      "learning_rate": 0.0001758087883267254,
      "loss": 3.9883,
      "step": 214690
    },
    {
      "epoch": 0.44729166666666664,
      "grad_norm": 0.8832428455352783,
      "learning_rate": 0.00017579907674003935,
      "loss": 3.9712,
      "step": 214700
    },
    {
      "epoch": 0.4473125,
      "grad_norm": 0.797816276550293,
      "learning_rate": 0.0001757893650419114,
      "loss": 3.6448,
      "step": 214710
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 0.8833689093589783,
      "learning_rate": 0.00017577965323238364,
      "loss": 3.8747,
      "step": 214720
    },
    {
      "epoch": 0.44735416666666666,
      "grad_norm": 1.7193500995635986,
      "learning_rate": 0.00017576994131149803,
      "loss": 3.9649,
      "step": 214730
    },
    {
      "epoch": 0.447375,
      "grad_norm": 0.8125450015068054,
      "learning_rate": 0.0001757602292792964,
      "loss": 3.7852,
      "step": 214740
    },
    {
      "epoch": 0.4473958333333333,
      "grad_norm": 0.9062918424606323,
      "learning_rate": 0.00017575051713582084,
      "loss": 3.7405,
      "step": 214750
    },
    {
      "epoch": 0.4474166666666667,
      "grad_norm": 1.2836447954177856,
      "learning_rate": 0.0001757408048811132,
      "loss": 3.8855,
      "step": 214760
    },
    {
      "epoch": 0.4474375,
      "grad_norm": 0.8172160387039185,
      "learning_rate": 0.00017573109251521547,
      "loss": 3.9453,
      "step": 214770
    },
    {
      "epoch": 0.44745833333333335,
      "grad_norm": 0.8831954002380371,
      "learning_rate": 0.00017572138003816963,
      "loss": 4.0689,
      "step": 214780
    },
    {
      "epoch": 0.44747916666666665,
      "grad_norm": 0.8620204329490662,
      "learning_rate": 0.0001757116674500176,
      "loss": 3.9731,
      "step": 214790
    },
    {
      "epoch": 0.4475,
      "grad_norm": 1.0357155799865723,
      "learning_rate": 0.00017570195475080132,
      "loss": 3.9623,
      "step": 214800
    },
    {
      "epoch": 0.4475208333333333,
      "grad_norm": 0.9942643642425537,
      "learning_rate": 0.00017569224194056274,
      "loss": 4.0839,
      "step": 214810
    },
    {
      "epoch": 0.44754166666666667,
      "grad_norm": 0.8465824723243713,
      "learning_rate": 0.0001756825290193439,
      "loss": 3.7921,
      "step": 214820
    },
    {
      "epoch": 0.4475625,
      "grad_norm": 1.0198109149932861,
      "learning_rate": 0.00017567281598718668,
      "loss": 3.6615,
      "step": 214830
    },
    {
      "epoch": 0.44758333333333333,
      "grad_norm": 0.824913501739502,
      "learning_rate": 0.0001756631028441331,
      "loss": 3.9089,
      "step": 214840
    },
    {
      "epoch": 0.4476041666666667,
      "grad_norm": 0.9367471933364868,
      "learning_rate": 0.00017565338959022502,
      "loss": 3.8873,
      "step": 214850
    },
    {
      "epoch": 0.447625,
      "grad_norm": 0.791565477848053,
      "learning_rate": 0.00017564367622550448,
      "loss": 3.897,
      "step": 214860
    },
    {
      "epoch": 0.44764583333333335,
      "grad_norm": 0.791256844997406,
      "learning_rate": 0.00017563396275001338,
      "loss": 4.0136,
      "step": 214870
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 13.014741897583008,
      "learning_rate": 0.00017562424916379372,
      "loss": 3.9445,
      "step": 214880
    },
    {
      "epoch": 0.4476875,
      "grad_norm": 1.0192877054214478,
      "learning_rate": 0.00017561453546688748,
      "loss": 3.8211,
      "step": 214890
    },
    {
      "epoch": 0.4477083333333333,
      "grad_norm": 0.8782035112380981,
      "learning_rate": 0.00017560482165933657,
      "loss": 4.0119,
      "step": 214900
    },
    {
      "epoch": 0.4477291666666667,
      "grad_norm": 0.8236184120178223,
      "learning_rate": 0.00017559510774118293,
      "loss": 3.9292,
      "step": 214910
    },
    {
      "epoch": 0.44775,
      "grad_norm": 0.8918086886405945,
      "learning_rate": 0.00017558539371246863,
      "loss": 4.0132,
      "step": 214920
    },
    {
      "epoch": 0.44777083333333334,
      "grad_norm": 0.8026608824729919,
      "learning_rate": 0.0001755756795732355,
      "loss": 3.7382,
      "step": 214930
    },
    {
      "epoch": 0.44779166666666664,
      "grad_norm": 0.7982138395309448,
      "learning_rate": 0.00017556596532352552,
      "loss": 3.5365,
      "step": 214940
    },
    {
      "epoch": 0.4478125,
      "grad_norm": 0.872986376285553,
      "learning_rate": 0.00017555625096338074,
      "loss": 3.9738,
      "step": 214950
    },
    {
      "epoch": 0.44783333333333336,
      "grad_norm": 0.8241957426071167,
      "learning_rate": 0.0001755465364928431,
      "loss": 3.7186,
      "step": 214960
    },
    {
      "epoch": 0.44785416666666666,
      "grad_norm": 0.8521203398704529,
      "learning_rate": 0.0001755368219119545,
      "loss": 3.9351,
      "step": 214970
    },
    {
      "epoch": 0.447875,
      "grad_norm": 1.0131412744522095,
      "learning_rate": 0.00017552710722075693,
      "loss": 4.022,
      "step": 214980
    },
    {
      "epoch": 0.4478958333333333,
      "grad_norm": 0.8217734098434448,
      "learning_rate": 0.00017551739241929235,
      "loss": 3.8884,
      "step": 214990
    },
    {
      "epoch": 0.4479166666666667,
      "grad_norm": 0.8208772540092468,
      "learning_rate": 0.00017550767750760277,
      "loss": 3.9002,
      "step": 215000
    },
    {
      "epoch": 0.4479166666666667,
      "eval_loss": 3.639176845550537,
      "eval_runtime": 7.2524,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 215000
    },
    {
      "epoch": 0.4479375,
      "grad_norm": 0.9179342985153198,
      "learning_rate": 0.0001754979624857301,
      "loss": 3.8267,
      "step": 215010
    },
    {
      "epoch": 0.44795833333333335,
      "grad_norm": 0.857736349105835,
      "learning_rate": 0.00017548824735371635,
      "loss": 3.8935,
      "step": 215020
    },
    {
      "epoch": 0.44797916666666665,
      "grad_norm": 0.7937875390052795,
      "learning_rate": 0.00017547853211160344,
      "loss": 3.9868,
      "step": 215030
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.8335153460502625,
      "learning_rate": 0.00017546881675943333,
      "loss": 3.8116,
      "step": 215040
    },
    {
      "epoch": 0.4480208333333333,
      "grad_norm": 0.8265320062637329,
      "learning_rate": 0.00017545910129724803,
      "loss": 3.8987,
      "step": 215050
    },
    {
      "epoch": 0.44804166666666667,
      "grad_norm": 0.8922791481018066,
      "learning_rate": 0.00017544938572508953,
      "loss": 3.7585,
      "step": 215060
    },
    {
      "epoch": 0.4480625,
      "grad_norm": 1.0086573362350464,
      "learning_rate": 0.00017543967004299968,
      "loss": 3.735,
      "step": 215070
    },
    {
      "epoch": 0.44808333333333333,
      "grad_norm": 1.0016926527023315,
      "learning_rate": 0.00017542995425102057,
      "loss": 3.7876,
      "step": 215080
    },
    {
      "epoch": 0.4481041666666667,
      "grad_norm": 0.9028097987174988,
      "learning_rate": 0.00017542023834919417,
      "loss": 4.0637,
      "step": 215090
    },
    {
      "epoch": 0.448125,
      "grad_norm": 0.8825686573982239,
      "learning_rate": 0.00017541052233756237,
      "loss": 3.9363,
      "step": 215100
    },
    {
      "epoch": 0.44814583333333335,
      "grad_norm": 0.9034751057624817,
      "learning_rate": 0.0001754008062161671,
      "loss": 3.7735,
      "step": 215110
    },
    {
      "epoch": 0.44816666666666666,
      "grad_norm": 0.8660779595375061,
      "learning_rate": 0.0001753910899850505,
      "loss": 3.931,
      "step": 215120
    },
    {
      "epoch": 0.4481875,
      "grad_norm": 0.8011751174926758,
      "learning_rate": 0.0001753813736442544,
      "loss": 3.9467,
      "step": 215130
    },
    {
      "epoch": 0.4482083333333333,
      "grad_norm": 0.8452557325363159,
      "learning_rate": 0.00017537165719382083,
      "loss": 3.9678,
      "step": 215140
    },
    {
      "epoch": 0.4482291666666667,
      "grad_norm": 0.9757183194160461,
      "learning_rate": 0.0001753619406337917,
      "loss": 3.9109,
      "step": 215150
    },
    {
      "epoch": 0.44825,
      "grad_norm": 0.7999330759048462,
      "learning_rate": 0.0001753522239642091,
      "loss": 3.813,
      "step": 215160
    },
    {
      "epoch": 0.44827083333333334,
      "grad_norm": 0.8507596850395203,
      "learning_rate": 0.00017534250718511483,
      "loss": 3.9285,
      "step": 215170
    },
    {
      "epoch": 0.44829166666666664,
      "grad_norm": 0.8641565442085266,
      "learning_rate": 0.00017533279029655104,
      "loss": 4.0079,
      "step": 215180
    },
    {
      "epoch": 0.4483125,
      "grad_norm": 0.971668541431427,
      "learning_rate": 0.00017532307329855957,
      "loss": 3.9634,
      "step": 215190
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 0.9448871612548828,
      "learning_rate": 0.00017531335619118253,
      "loss": 3.901,
      "step": 215200
    },
    {
      "epoch": 0.44835416666666666,
      "grad_norm": 0.8877851963043213,
      "learning_rate": 0.0001753036389744617,
      "loss": 3.8917,
      "step": 215210
    },
    {
      "epoch": 0.448375,
      "grad_norm": 0.8738371133804321,
      "learning_rate": 0.0001752939216484392,
      "loss": 3.8761,
      "step": 215220
    },
    {
      "epoch": 0.4483958333333333,
      "grad_norm": 0.8196858167648315,
      "learning_rate": 0.00017528420421315704,
      "loss": 3.8512,
      "step": 215230
    },
    {
      "epoch": 0.4484166666666667,
      "grad_norm": 0.8523809909820557,
      "learning_rate": 0.00017527448666865704,
      "loss": 3.9983,
      "step": 215240
    },
    {
      "epoch": 0.4484375,
      "grad_norm": 0.8896731734275818,
      "learning_rate": 0.0001752647690149813,
      "loss": 3.8185,
      "step": 215250
    },
    {
      "epoch": 0.44845833333333335,
      "grad_norm": 0.8067195415496826,
      "learning_rate": 0.00017525505125217178,
      "loss": 4.0002,
      "step": 215260
    },
    {
      "epoch": 0.44847916666666665,
      "grad_norm": 0.8534683585166931,
      "learning_rate": 0.00017524533338027042,
      "loss": 3.8154,
      "step": 215270
    },
    {
      "epoch": 0.4485,
      "grad_norm": 0.9096403121948242,
      "learning_rate": 0.00017523561539931916,
      "loss": 3.912,
      "step": 215280
    },
    {
      "epoch": 0.4485208333333333,
      "grad_norm": 0.9478976130485535,
      "learning_rate": 0.0001752258973093601,
      "loss": 3.8314,
      "step": 215290
    },
    {
      "epoch": 0.44854166666666667,
      "grad_norm": 0.8198739886283875,
      "learning_rate": 0.00017521617911043513,
      "loss": 3.6569,
      "step": 215300
    },
    {
      "epoch": 0.4485625,
      "grad_norm": 0.8152815699577332,
      "learning_rate": 0.0001752064608025862,
      "loss": 4.1208,
      "step": 215310
    },
    {
      "epoch": 0.44858333333333333,
      "grad_norm": 0.8340865969657898,
      "learning_rate": 0.0001751967423858554,
      "loss": 3.9638,
      "step": 215320
    },
    {
      "epoch": 0.4486041666666667,
      "grad_norm": 0.8434967994689941,
      "learning_rate": 0.00017518702386028464,
      "loss": 3.7433,
      "step": 215330
    },
    {
      "epoch": 0.448625,
      "grad_norm": 0.8751921653747559,
      "learning_rate": 0.00017517730522591585,
      "loss": 3.8862,
      "step": 215340
    },
    {
      "epoch": 0.44864583333333335,
      "grad_norm": 0.8730791807174683,
      "learning_rate": 0.00017516758648279112,
      "loss": 3.8849,
      "step": 215350
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 0.8061118125915527,
      "learning_rate": 0.00017515786763095238,
      "loss": 4.1083,
      "step": 215360
    },
    {
      "epoch": 0.4486875,
      "grad_norm": 0.8448430299758911,
      "learning_rate": 0.0001751481486704416,
      "loss": 3.7878,
      "step": 215370
    },
    {
      "epoch": 0.4487083333333333,
      "grad_norm": 0.9392939805984497,
      "learning_rate": 0.00017513842960130077,
      "loss": 3.8231,
      "step": 215380
    },
    {
      "epoch": 0.4487291666666667,
      "grad_norm": 1.055922508239746,
      "learning_rate": 0.00017512871042357187,
      "loss": 4.0094,
      "step": 215390
    },
    {
      "epoch": 0.44875,
      "grad_norm": 0.9122154116630554,
      "learning_rate": 0.0001751189911372969,
      "loss": 3.9502,
      "step": 215400
    },
    {
      "epoch": 0.44877083333333334,
      "grad_norm": 0.7973150014877319,
      "learning_rate": 0.0001751092717425178,
      "loss": 3.8707,
      "step": 215410
    },
    {
      "epoch": 0.44879166666666664,
      "grad_norm": 0.831231951713562,
      "learning_rate": 0.0001750995522392766,
      "loss": 4.1111,
      "step": 215420
    },
    {
      "epoch": 0.4488125,
      "grad_norm": 0.8995335102081299,
      "learning_rate": 0.0001750898326276153,
      "loss": 3.7251,
      "step": 215430
    },
    {
      "epoch": 0.4488333333333333,
      "grad_norm": 0.8574602603912354,
      "learning_rate": 0.0001750801129075758,
      "loss": 3.7646,
      "step": 215440
    },
    {
      "epoch": 0.44885416666666667,
      "grad_norm": 0.8721105456352234,
      "learning_rate": 0.00017507039307920017,
      "loss": 3.9411,
      "step": 215450
    },
    {
      "epoch": 0.448875,
      "grad_norm": 0.8228488564491272,
      "learning_rate": 0.0001750606731425304,
      "loss": 3.9462,
      "step": 215460
    },
    {
      "epoch": 0.4488958333333333,
      "grad_norm": 0.8494035005569458,
      "learning_rate": 0.0001750509530976084,
      "loss": 3.8128,
      "step": 215470
    },
    {
      "epoch": 0.4489166666666667,
      "grad_norm": 0.8393388390541077,
      "learning_rate": 0.0001750412329444762,
      "loss": 3.7355,
      "step": 215480
    },
    {
      "epoch": 0.4489375,
      "grad_norm": 0.8419628739356995,
      "learning_rate": 0.00017503151268317578,
      "loss": 3.8184,
      "step": 215490
    },
    {
      "epoch": 0.44895833333333335,
      "grad_norm": 0.7944713234901428,
      "learning_rate": 0.00017502179231374915,
      "loss": 3.9005,
      "step": 215500
    },
    {
      "epoch": 0.44897916666666665,
      "grad_norm": 0.7742972373962402,
      "learning_rate": 0.00017501207183623826,
      "loss": 3.9617,
      "step": 215510
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.822141170501709,
      "learning_rate": 0.00017500235125068514,
      "loss": 3.8765,
      "step": 215520
    },
    {
      "epoch": 0.4490208333333333,
      "grad_norm": 1.0311604738235474,
      "learning_rate": 0.00017499263055713174,
      "loss": 4.0461,
      "step": 215530
    },
    {
      "epoch": 0.4490416666666667,
      "grad_norm": 0.9398559331893921,
      "learning_rate": 0.0001749829097556201,
      "loss": 3.8169,
      "step": 215540
    },
    {
      "epoch": 0.4490625,
      "grad_norm": 0.8701007962226868,
      "learning_rate": 0.00017497318884619216,
      "loss": 3.8802,
      "step": 215550
    },
    {
      "epoch": 0.44908333333333333,
      "grad_norm": 0.8650866746902466,
      "learning_rate": 0.00017496346782888995,
      "loss": 3.8744,
      "step": 215560
    },
    {
      "epoch": 0.4491041666666667,
      "grad_norm": 0.8432764410972595,
      "learning_rate": 0.00017495374670375546,
      "loss": 3.9566,
      "step": 215570
    },
    {
      "epoch": 0.449125,
      "grad_norm": 0.8163082003593445,
      "learning_rate": 0.00017494402547083056,
      "loss": 3.7174,
      "step": 215580
    },
    {
      "epoch": 0.44914583333333336,
      "grad_norm": 0.8879842162132263,
      "learning_rate": 0.0001749343041301574,
      "loss": 3.8438,
      "step": 215590
    },
    {
      "epoch": 0.44916666666666666,
      "grad_norm": 0.9058722257614136,
      "learning_rate": 0.00017492458268177796,
      "loss": 3.8571,
      "step": 215600
    },
    {
      "epoch": 0.4491875,
      "grad_norm": 0.7960920929908752,
      "learning_rate": 0.00017491486112573411,
      "loss": 3.8726,
      "step": 215610
    },
    {
      "epoch": 0.4492083333333333,
      "grad_norm": 1.0120642185211182,
      "learning_rate": 0.000174905139462068,
      "loss": 3.9583,
      "step": 215620
    },
    {
      "epoch": 0.4492291666666667,
      "grad_norm": 0.8337062001228333,
      "learning_rate": 0.00017489541769082152,
      "loss": 3.8944,
      "step": 215630
    },
    {
      "epoch": 0.44925,
      "grad_norm": 0.9295669198036194,
      "learning_rate": 0.00017488569581203665,
      "loss": 3.9013,
      "step": 215640
    },
    {
      "epoch": 0.44927083333333334,
      "grad_norm": 0.9528722167015076,
      "learning_rate": 0.00017487597382575548,
      "loss": 3.8705,
      "step": 215650
    },
    {
      "epoch": 0.44929166666666664,
      "grad_norm": 0.8598796129226685,
      "learning_rate": 0.00017486625173201992,
      "loss": 3.9429,
      "step": 215660
    },
    {
      "epoch": 0.4493125,
      "grad_norm": 1.0794239044189453,
      "learning_rate": 0.000174856529530872,
      "loss": 3.7376,
      "step": 215670
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 0.8640885949134827,
      "learning_rate": 0.00017484680722235372,
      "loss": 3.7712,
      "step": 215680
    },
    {
      "epoch": 0.44935416666666667,
      "grad_norm": 0.841430127620697,
      "learning_rate": 0.00017483708480650704,
      "loss": 3.7664,
      "step": 215690
    },
    {
      "epoch": 0.449375,
      "grad_norm": 1.0298515558242798,
      "learning_rate": 0.000174827362283374,
      "loss": 4.0054,
      "step": 215700
    },
    {
      "epoch": 0.4493958333333333,
      "grad_norm": 0.9555336236953735,
      "learning_rate": 0.00017481763965299658,
      "loss": 4.0726,
      "step": 215710
    },
    {
      "epoch": 0.4494166666666667,
      "grad_norm": 0.858911395072937,
      "learning_rate": 0.0001748079169154168,
      "loss": 3.8989,
      "step": 215720
    },
    {
      "epoch": 0.4494375,
      "grad_norm": 0.8274887204170227,
      "learning_rate": 0.0001747981940706766,
      "loss": 3.9312,
      "step": 215730
    },
    {
      "epoch": 0.44945833333333335,
      "grad_norm": 0.8118779063224792,
      "learning_rate": 0.00017478847111881802,
      "loss": 3.8479,
      "step": 215740
    },
    {
      "epoch": 0.44947916666666665,
      "grad_norm": 0.822910487651825,
      "learning_rate": 0.00017477874805988308,
      "loss": 3.7851,
      "step": 215750
    },
    {
      "epoch": 0.4495,
      "grad_norm": 0.8290417790412903,
      "learning_rate": 0.00017476902489391377,
      "loss": 3.9379,
      "step": 215760
    },
    {
      "epoch": 0.4495208333333333,
      "grad_norm": 0.8053171634674072,
      "learning_rate": 0.0001747593016209521,
      "loss": 4.1947,
      "step": 215770
    },
    {
      "epoch": 0.4495416666666667,
      "grad_norm": 0.9678952097892761,
      "learning_rate": 0.00017474957824103996,
      "loss": 3.7804,
      "step": 215780
    },
    {
      "epoch": 0.4495625,
      "grad_norm": 0.7939245700836182,
      "learning_rate": 0.00017473985475421953,
      "loss": 3.9504,
      "step": 215790
    },
    {
      "epoch": 0.44958333333333333,
      "grad_norm": 0.7798476219177246,
      "learning_rate": 0.00017473013116053266,
      "loss": 3.7425,
      "step": 215800
    },
    {
      "epoch": 0.4496041666666667,
      "grad_norm": 0.807327389717102,
      "learning_rate": 0.00017472040746002138,
      "loss": 3.7446,
      "step": 215810
    },
    {
      "epoch": 0.449625,
      "grad_norm": 0.9068553447723389,
      "learning_rate": 0.0001747106836527278,
      "loss": 3.9765,
      "step": 215820
    },
    {
      "epoch": 0.44964583333333336,
      "grad_norm": 0.820841908454895,
      "learning_rate": 0.00017470095973869384,
      "loss": 3.9803,
      "step": 215830
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 0.8034040331840515,
      "learning_rate": 0.0001746912357179615,
      "loss": 4.0368,
      "step": 215840
    },
    {
      "epoch": 0.4496875,
      "grad_norm": 0.8338145613670349,
      "learning_rate": 0.00017468151159057276,
      "loss": 3.9387,
      "step": 215850
    },
    {
      "epoch": 0.4497083333333333,
      "grad_norm": 0.8538981676101685,
      "learning_rate": 0.00017467178735656972,
      "loss": 3.9369,
      "step": 215860
    },
    {
      "epoch": 0.4497291666666667,
      "grad_norm": 0.9111658334732056,
      "learning_rate": 0.00017466206301599427,
      "loss": 3.7902,
      "step": 215870
    },
    {
      "epoch": 0.44975,
      "grad_norm": 0.8466002345085144,
      "learning_rate": 0.0001746523385688885,
      "loss": 3.9401,
      "step": 215880
    },
    {
      "epoch": 0.44977083333333334,
      "grad_norm": 0.9747073650360107,
      "learning_rate": 0.00017464261401529436,
      "loss": 3.7791,
      "step": 215890
    },
    {
      "epoch": 0.44979166666666665,
      "grad_norm": 0.8443428874015808,
      "learning_rate": 0.00017463288935525392,
      "loss": 3.9382,
      "step": 215900
    },
    {
      "epoch": 0.4498125,
      "grad_norm": 0.8722130060195923,
      "learning_rate": 0.0001746231645888091,
      "loss": 3.8226,
      "step": 215910
    },
    {
      "epoch": 0.4498333333333333,
      "grad_norm": 0.8764463663101196,
      "learning_rate": 0.000174613439716002,
      "loss": 3.8221,
      "step": 215920
    },
    {
      "epoch": 0.44985416666666667,
      "grad_norm": 0.8620731234550476,
      "learning_rate": 0.00017460371473687457,
      "loss": 3.924,
      "step": 215930
    },
    {
      "epoch": 0.449875,
      "grad_norm": 0.8832302093505859,
      "learning_rate": 0.0001745939896514688,
      "loss": 3.8246,
      "step": 215940
    },
    {
      "epoch": 0.44989583333333333,
      "grad_norm": 0.8934821486473083,
      "learning_rate": 0.00017458426445982677,
      "loss": 3.9112,
      "step": 215950
    },
    {
      "epoch": 0.4499166666666667,
      "grad_norm": 0.8804545402526855,
      "learning_rate": 0.00017457453916199046,
      "loss": 3.8951,
      "step": 215960
    },
    {
      "epoch": 0.4499375,
      "grad_norm": 0.8725966215133667,
      "learning_rate": 0.00017456481375800186,
      "loss": 3.7915,
      "step": 215970
    },
    {
      "epoch": 0.44995833333333335,
      "grad_norm": 0.8754924535751343,
      "learning_rate": 0.00017455508824790292,
      "loss": 4.0262,
      "step": 215980
    },
    {
      "epoch": 0.44997916666666665,
      "grad_norm": 0.8271000981330872,
      "learning_rate": 0.00017454536263173583,
      "loss": 3.7765,
      "step": 215990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.936699390411377,
      "learning_rate": 0.0001745356369095424,
      "loss": 4.0546,
      "step": 216000
    },
    {
      "epoch": 0.45,
      "eval_loss": 3.6455531120300293,
      "eval_runtime": 7.243,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 216000
    },
    {
      "epoch": 0.4500208333333333,
      "grad_norm": 0.8648812174797058,
      "learning_rate": 0.00017452591108136473,
      "loss": 3.8462,
      "step": 216010
    },
    {
      "epoch": 0.4500416666666667,
      "grad_norm": 0.7875882387161255,
      "learning_rate": 0.0001745161851472449,
      "loss": 3.7689,
      "step": 216020
    },
    {
      "epoch": 0.4500625,
      "grad_norm": 0.904248833656311,
      "learning_rate": 0.00017450645910722478,
      "loss": 3.8545,
      "step": 216030
    },
    {
      "epoch": 0.45008333333333334,
      "grad_norm": 0.8089407682418823,
      "learning_rate": 0.00017449673296134651,
      "loss": 4.0258,
      "step": 216040
    },
    {
      "epoch": 0.4501041666666667,
      "grad_norm": 0.8528067469596863,
      "learning_rate": 0.00017448700670965204,
      "loss": 3.7335,
      "step": 216050
    },
    {
      "epoch": 0.450125,
      "grad_norm": 0.8421467542648315,
      "learning_rate": 0.00017447728035218337,
      "loss": 3.8219,
      "step": 216060
    },
    {
      "epoch": 0.45014583333333336,
      "grad_norm": 0.7811534404754639,
      "learning_rate": 0.0001744675538889826,
      "loss": 3.9125,
      "step": 216070
    },
    {
      "epoch": 0.45016666666666666,
      "grad_norm": 0.8630796670913696,
      "learning_rate": 0.0001744578273200916,
      "loss": 3.9558,
      "step": 216080
    },
    {
      "epoch": 0.4501875,
      "grad_norm": 0.8443154692649841,
      "learning_rate": 0.0001744481006455525,
      "loss": 3.8888,
      "step": 216090
    },
    {
      "epoch": 0.4502083333333333,
      "grad_norm": 0.9036303758621216,
      "learning_rate": 0.00017443837386540731,
      "loss": 3.9012,
      "step": 216100
    },
    {
      "epoch": 0.4502291666666667,
      "grad_norm": 0.901906430721283,
      "learning_rate": 0.00017442864697969797,
      "loss": 3.8433,
      "step": 216110
    },
    {
      "epoch": 0.45025,
      "grad_norm": 0.758371889591217,
      "learning_rate": 0.00017441891998846656,
      "loss": 3.9552,
      "step": 216120
    },
    {
      "epoch": 0.45027083333333334,
      "grad_norm": 0.8904924392700195,
      "learning_rate": 0.00017440919289175513,
      "loss": 3.7064,
      "step": 216130
    },
    {
      "epoch": 0.45029166666666665,
      "grad_norm": 0.8598480820655823,
      "learning_rate": 0.0001743994656896056,
      "loss": 3.9589,
      "step": 216140
    },
    {
      "epoch": 0.4503125,
      "grad_norm": 1.0779350996017456,
      "learning_rate": 0.00017438973838206003,
      "loss": 3.8824,
      "step": 216150
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 0.8518097996711731,
      "learning_rate": 0.00017438001096916047,
      "loss": 4.0698,
      "step": 216160
    },
    {
      "epoch": 0.45035416666666667,
      "grad_norm": 0.8709765076637268,
      "learning_rate": 0.0001743702834509489,
      "loss": 3.6699,
      "step": 216170
    },
    {
      "epoch": 0.450375,
      "grad_norm": 0.8828033804893494,
      "learning_rate": 0.0001743605558274673,
      "loss": 3.821,
      "step": 216180
    },
    {
      "epoch": 0.45039583333333333,
      "grad_norm": 0.840285062789917,
      "learning_rate": 0.00017435082809875784,
      "loss": 3.7664,
      "step": 216190
    },
    {
      "epoch": 0.4504166666666667,
      "grad_norm": 0.9212816953659058,
      "learning_rate": 0.0001743411002648624,
      "loss": 3.7875,
      "step": 216200
    },
    {
      "epoch": 0.4504375,
      "grad_norm": 0.8588038682937622,
      "learning_rate": 0.00017433137232582304,
      "loss": 3.7825,
      "step": 216210
    },
    {
      "epoch": 0.45045833333333335,
      "grad_norm": 7.176226615905762,
      "learning_rate": 0.00017432164428168178,
      "loss": 3.8258,
      "step": 216220
    },
    {
      "epoch": 0.45047916666666665,
      "grad_norm": 0.8497437238693237,
      "learning_rate": 0.00017431191613248066,
      "loss": 3.7128,
      "step": 216230
    },
    {
      "epoch": 0.4505,
      "grad_norm": 0.8790929913520813,
      "learning_rate": 0.00017430218787826163,
      "loss": 3.8267,
      "step": 216240
    },
    {
      "epoch": 0.4505208333333333,
      "grad_norm": 0.8089022636413574,
      "learning_rate": 0.00017429245951906683,
      "loss": 3.8729,
      "step": 216250
    },
    {
      "epoch": 0.4505416666666667,
      "grad_norm": 0.8677342534065247,
      "learning_rate": 0.00017428273105493818,
      "loss": 3.8745,
      "step": 216260
    },
    {
      "epoch": 0.4505625,
      "grad_norm": 0.8448423743247986,
      "learning_rate": 0.0001742730024859178,
      "loss": 4.0918,
      "step": 216270
    },
    {
      "epoch": 0.45058333333333334,
      "grad_norm": 0.7955184578895569,
      "learning_rate": 0.0001742632738120476,
      "loss": 3.93,
      "step": 216280
    },
    {
      "epoch": 0.45060416666666664,
      "grad_norm": 0.7796963453292847,
      "learning_rate": 0.00017425354503336967,
      "loss": 4.0869,
      "step": 216290
    },
    {
      "epoch": 0.450625,
      "grad_norm": 0.8428908586502075,
      "learning_rate": 0.00017424381614992608,
      "loss": 3.8552,
      "step": 216300
    },
    {
      "epoch": 0.45064583333333336,
      "grad_norm": 0.8492706418037415,
      "learning_rate": 0.0001742340871617587,
      "loss": 3.8076,
      "step": 216310
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 0.9382298588752747,
      "learning_rate": 0.00017422435806890973,
      "loss": 3.9546,
      "step": 216320
    },
    {
      "epoch": 0.4506875,
      "grad_norm": 0.8716511726379395,
      "learning_rate": 0.00017421462887142112,
      "loss": 3.8511,
      "step": 216330
    },
    {
      "epoch": 0.4507083333333333,
      "grad_norm": 0.773162841796875,
      "learning_rate": 0.0001742048995693349,
      "loss": 3.9522,
      "step": 216340
    },
    {
      "epoch": 0.4507291666666667,
      "grad_norm": 0.8465045094490051,
      "learning_rate": 0.00017419517016269305,
      "loss": 4.0033,
      "step": 216350
    },
    {
      "epoch": 0.45075,
      "grad_norm": 1.0213696956634521,
      "learning_rate": 0.00017418544065153768,
      "loss": 3.8141,
      "step": 216360
    },
    {
      "epoch": 0.45077083333333334,
      "grad_norm": 1.1403154134750366,
      "learning_rate": 0.00017417571103591078,
      "loss": 3.9775,
      "step": 216370
    },
    {
      "epoch": 0.45079166666666665,
      "grad_norm": 0.9525350332260132,
      "learning_rate": 0.00017416598131585436,
      "loss": 3.9408,
      "step": 216380
    },
    {
      "epoch": 0.4508125,
      "grad_norm": 0.9077904224395752,
      "learning_rate": 0.00017415625149141045,
      "loss": 3.7512,
      "step": 216390
    },
    {
      "epoch": 0.4508333333333333,
      "grad_norm": 1.0064975023269653,
      "learning_rate": 0.00017414652156262113,
      "loss": 3.8611,
      "step": 216400
    },
    {
      "epoch": 0.45085416666666667,
      "grad_norm": 1.0360503196716309,
      "learning_rate": 0.0001741367915295284,
      "loss": 3.9546,
      "step": 216410
    },
    {
      "epoch": 0.450875,
      "grad_norm": 0.8681642413139343,
      "learning_rate": 0.00017412706139217424,
      "loss": 3.8668,
      "step": 216420
    },
    {
      "epoch": 0.45089583333333333,
      "grad_norm": 0.8251766562461853,
      "learning_rate": 0.00017411733115060076,
      "loss": 3.7178,
      "step": 216430
    },
    {
      "epoch": 0.4509166666666667,
      "grad_norm": 0.9510172009468079,
      "learning_rate": 0.00017410760080484994,
      "loss": 3.7253,
      "step": 216440
    },
    {
      "epoch": 0.4509375,
      "grad_norm": 0.8463015556335449,
      "learning_rate": 0.00017409787035496384,
      "loss": 3.8635,
      "step": 216450
    },
    {
      "epoch": 0.45095833333333335,
      "grad_norm": 0.7785856127738953,
      "learning_rate": 0.00017408813980098446,
      "loss": 3.7582,
      "step": 216460
    },
    {
      "epoch": 0.45097916666666665,
      "grad_norm": 1.0461984872817993,
      "learning_rate": 0.0001740784091429539,
      "loss": 3.8869,
      "step": 216470
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.8049260973930359,
      "learning_rate": 0.0001740686783809141,
      "loss": 3.9536,
      "step": 216480
    },
    {
      "epoch": 0.4510208333333333,
      "grad_norm": 1.0117990970611572,
      "learning_rate": 0.00017405894751490713,
      "loss": 3.9264,
      "step": 216490
    },
    {
      "epoch": 0.4510416666666667,
      "grad_norm": 0.8381608724594116,
      "learning_rate": 0.00017404921654497508,
      "loss": 3.8735,
      "step": 216500
    },
    {
      "epoch": 0.4510625,
      "grad_norm": 0.9784998893737793,
      "learning_rate": 0.00017403948547115987,
      "loss": 3.8729,
      "step": 216510
    },
    {
      "epoch": 0.45108333333333334,
      "grad_norm": 0.9200683832168579,
      "learning_rate": 0.00017402975429350366,
      "loss": 3.7101,
      "step": 216520
    },
    {
      "epoch": 0.45110416666666664,
      "grad_norm": 0.8886874914169312,
      "learning_rate": 0.00017402002301204837,
      "loss": 3.823,
      "step": 216530
    },
    {
      "epoch": 0.451125,
      "grad_norm": 0.8551507592201233,
      "learning_rate": 0.00017401029162683612,
      "loss": 3.9276,
      "step": 216540
    },
    {
      "epoch": 0.45114583333333336,
      "grad_norm": 0.8677452802658081,
      "learning_rate": 0.0001740005601379089,
      "loss": 3.9609,
      "step": 216550
    },
    {
      "epoch": 0.45116666666666666,
      "grad_norm": 0.8497830629348755,
      "learning_rate": 0.00017399082854530876,
      "loss": 3.8638,
      "step": 216560
    },
    {
      "epoch": 0.4511875,
      "grad_norm": 0.8344511985778809,
      "learning_rate": 0.00017398109684907775,
      "loss": 3.8648,
      "step": 216570
    },
    {
      "epoch": 0.4512083333333333,
      "grad_norm": 0.7602548599243164,
      "learning_rate": 0.00017397136504925786,
      "loss": 4.0613,
      "step": 216580
    },
    {
      "epoch": 0.4512291666666667,
      "grad_norm": 0.8541958928108215,
      "learning_rate": 0.0001739616331458912,
      "loss": 4.022,
      "step": 216590
    },
    {
      "epoch": 0.45125,
      "grad_norm": 0.9573596119880676,
      "learning_rate": 0.00017395190113901976,
      "loss": 3.8238,
      "step": 216600
    },
    {
      "epoch": 0.45127083333333334,
      "grad_norm": 0.8369205594062805,
      "learning_rate": 0.00017394216902868556,
      "loss": 3.8715,
      "step": 216610
    },
    {
      "epoch": 0.45129166666666665,
      "grad_norm": 0.897931694984436,
      "learning_rate": 0.00017393243681493068,
      "loss": 3.9081,
      "step": 216620
    },
    {
      "epoch": 0.4513125,
      "grad_norm": 0.8868613243103027,
      "learning_rate": 0.00017392270449779717,
      "loss": 3.8026,
      "step": 216630
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 1.453261137008667,
      "learning_rate": 0.00017391297207732705,
      "loss": 4.0622,
      "step": 216640
    },
    {
      "epoch": 0.45135416666666667,
      "grad_norm": 0.8115907907485962,
      "learning_rate": 0.00017390323955356228,
      "loss": 4.0034,
      "step": 216650
    },
    {
      "epoch": 0.451375,
      "grad_norm": 0.8134059906005859,
      "learning_rate": 0.0001738935069265451,
      "loss": 3.845,
      "step": 216660
    },
    {
      "epoch": 0.45139583333333333,
      "grad_norm": 0.8527668118476868,
      "learning_rate": 0.00017388377419631735,
      "loss": 3.8849,
      "step": 216670
    },
    {
      "epoch": 0.4514166666666667,
      "grad_norm": 0.8915048837661743,
      "learning_rate": 0.00017387404136292114,
      "loss": 3.9894,
      "step": 216680
    },
    {
      "epoch": 0.4514375,
      "grad_norm": 0.8438149094581604,
      "learning_rate": 0.00017386430842639857,
      "loss": 4.0089,
      "step": 216690
    },
    {
      "epoch": 0.45145833333333335,
      "grad_norm": 0.9438633918762207,
      "learning_rate": 0.0001738545753867916,
      "loss": 3.9965,
      "step": 216700
    },
    {
      "epoch": 0.45147916666666665,
      "grad_norm": 0.9623968601226807,
      "learning_rate": 0.0001738448422441423,
      "loss": 3.8108,
      "step": 216710
    },
    {
      "epoch": 0.4515,
      "grad_norm": 0.8129183650016785,
      "learning_rate": 0.00017383510899849275,
      "loss": 4.0513,
      "step": 216720
    },
    {
      "epoch": 0.4515208333333333,
      "grad_norm": 0.8667846918106079,
      "learning_rate": 0.00017382537564988493,
      "loss": 3.9887,
      "step": 216730
    },
    {
      "epoch": 0.4515416666666667,
      "grad_norm": 0.9182828068733215,
      "learning_rate": 0.00017381564219836094,
      "loss": 3.8701,
      "step": 216740
    },
    {
      "epoch": 0.4515625,
      "grad_norm": 0.8804007768630981,
      "learning_rate": 0.0001738059086439628,
      "loss": 3.9089,
      "step": 216750
    },
    {
      "epoch": 0.45158333333333334,
      "grad_norm": 0.8460075855255127,
      "learning_rate": 0.00017379617498673253,
      "loss": 3.8583,
      "step": 216760
    },
    {
      "epoch": 0.45160416666666664,
      "grad_norm": 1.3124279975891113,
      "learning_rate": 0.00017378644122671222,
      "loss": 3.9076,
      "step": 216770
    },
    {
      "epoch": 0.451625,
      "grad_norm": 0.9126996397972107,
      "learning_rate": 0.00017377670736394392,
      "loss": 3.9163,
      "step": 216780
    },
    {
      "epoch": 0.45164583333333336,
      "grad_norm": 1.0608301162719727,
      "learning_rate": 0.00017376697339846963,
      "loss": 3.9568,
      "step": 216790
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 0.8452772498130798,
      "learning_rate": 0.0001737572393303315,
      "loss": 3.9047,
      "step": 216800
    },
    {
      "epoch": 0.4516875,
      "grad_norm": 1.077972412109375,
      "learning_rate": 0.00017374750515957137,
      "loss": 3.873,
      "step": 216810
    },
    {
      "epoch": 0.4517083333333333,
      "grad_norm": 0.833724856376648,
      "learning_rate": 0.0001737377708862315,
      "loss": 3.8513,
      "step": 216820
    },
    {
      "epoch": 0.4517291666666667,
      "grad_norm": 1.242325782775879,
      "learning_rate": 0.00017372803651035385,
      "loss": 3.7349,
      "step": 216830
    },
    {
      "epoch": 0.45175,
      "grad_norm": 0.8458275198936462,
      "learning_rate": 0.0001737183020319805,
      "loss": 4.0462,
      "step": 216840
    },
    {
      "epoch": 0.45177083333333334,
      "grad_norm": 0.8659800887107849,
      "learning_rate": 0.00017370856745115338,
      "loss": 3.9254,
      "step": 216850
    },
    {
      "epoch": 0.45179166666666665,
      "grad_norm": 0.8143113851547241,
      "learning_rate": 0.00017369883276791473,
      "loss": 3.8413,
      "step": 216860
    },
    {
      "epoch": 0.4518125,
      "grad_norm": 0.8499013185501099,
      "learning_rate": 0.00017368909798230644,
      "loss": 3.9383,
      "step": 216870
    },
    {
      "epoch": 0.4518333333333333,
      "grad_norm": 0.8996235132217407,
      "learning_rate": 0.0001736793630943706,
      "loss": 3.8146,
      "step": 216880
    },
    {
      "epoch": 0.45185416666666667,
      "grad_norm": 0.9501348733901978,
      "learning_rate": 0.0001736696281041494,
      "loss": 3.8684,
      "step": 216890
    },
    {
      "epoch": 0.451875,
      "grad_norm": 0.8752533197402954,
      "learning_rate": 0.0001736598930116847,
      "loss": 3.9729,
      "step": 216900
    },
    {
      "epoch": 0.45189583333333333,
      "grad_norm": 0.8053881525993347,
      "learning_rate": 0.00017365015781701864,
      "loss": 3.8596,
      "step": 216910
    },
    {
      "epoch": 0.4519166666666667,
      "grad_norm": 0.8412933945655823,
      "learning_rate": 0.00017364042252019326,
      "loss": 3.7151,
      "step": 216920
    },
    {
      "epoch": 0.4519375,
      "grad_norm": 0.7934114933013916,
      "learning_rate": 0.00017363068712125058,
      "loss": 4.0265,
      "step": 216930
    },
    {
      "epoch": 0.45195833333333335,
      "grad_norm": 0.803737998008728,
      "learning_rate": 0.0001736209516202327,
      "loss": 3.8571,
      "step": 216940
    },
    {
      "epoch": 0.45197916666666665,
      "grad_norm": 0.9050092101097107,
      "learning_rate": 0.00017361121601718166,
      "loss": 3.8882,
      "step": 216950
    },
    {
      "epoch": 0.452,
      "grad_norm": 1.3910611867904663,
      "learning_rate": 0.00017360148031213952,
      "loss": 3.8446,
      "step": 216960
    },
    {
      "epoch": 0.4520208333333333,
      "grad_norm": 0.8348165154457092,
      "learning_rate": 0.00017359174450514838,
      "loss": 3.6486,
      "step": 216970
    },
    {
      "epoch": 0.4520416666666667,
      "grad_norm": 0.8202382922172546,
      "learning_rate": 0.00017358200859625016,
      "loss": 3.6333,
      "step": 216980
    },
    {
      "epoch": 0.4520625,
      "grad_norm": 0.8489750623703003,
      "learning_rate": 0.00017357227258548702,
      "loss": 3.7821,
      "step": 216990
    },
    {
      "epoch": 0.45208333333333334,
      "grad_norm": 0.8678770065307617,
      "learning_rate": 0.00017356253647290103,
      "loss": 3.7364,
      "step": 217000
    },
    {
      "epoch": 0.45208333333333334,
      "eval_loss": 3.6401500701904297,
      "eval_runtime": 7.267,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 217000
    },
    {
      "epoch": 0.45210416666666664,
      "grad_norm": 0.7991092801094055,
      "learning_rate": 0.00017355280025853413,
      "loss": 3.8057,
      "step": 217010
    },
    {
      "epoch": 0.452125,
      "grad_norm": 0.8275066018104553,
      "learning_rate": 0.00017354306394242852,
      "loss": 3.6876,
      "step": 217020
    },
    {
      "epoch": 0.45214583333333336,
      "grad_norm": 1.210184097290039,
      "learning_rate": 0.00017353332752462623,
      "loss": 3.981,
      "step": 217030
    },
    {
      "epoch": 0.45216666666666666,
      "grad_norm": 0.8721696138381958,
      "learning_rate": 0.00017352359100516923,
      "loss": 3.8663,
      "step": 217040
    },
    {
      "epoch": 0.4521875,
      "grad_norm": 0.7873877286911011,
      "learning_rate": 0.00017351385438409958,
      "loss": 3.7572,
      "step": 217050
    },
    {
      "epoch": 0.4522083333333333,
      "grad_norm": 0.9508575201034546,
      "learning_rate": 0.00017350411766145946,
      "loss": 3.8219,
      "step": 217060
    },
    {
      "epoch": 0.4522291666666667,
      "grad_norm": 0.9147821068763733,
      "learning_rate": 0.00017349438083729082,
      "loss": 3.9143,
      "step": 217070
    },
    {
      "epoch": 0.45225,
      "grad_norm": 0.8434582948684692,
      "learning_rate": 0.00017348464391163577,
      "loss": 3.8576,
      "step": 217080
    },
    {
      "epoch": 0.45227083333333334,
      "grad_norm": 0.9959778785705566,
      "learning_rate": 0.00017347490688453637,
      "loss": 3.9815,
      "step": 217090
    },
    {
      "epoch": 0.45229166666666665,
      "grad_norm": 1.0204594135284424,
      "learning_rate": 0.00017346516975603462,
      "loss": 3.9206,
      "step": 217100
    },
    {
      "epoch": 0.4523125,
      "grad_norm": 0.846894383430481,
      "learning_rate": 0.00017345543252617263,
      "loss": 3.9657,
      "step": 217110
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 0.8305628299713135,
      "learning_rate": 0.00017344569519499246,
      "loss": 4.0357,
      "step": 217120
    },
    {
      "epoch": 0.45235416666666667,
      "grad_norm": 1.0904991626739502,
      "learning_rate": 0.0001734359577625362,
      "loss": 3.804,
      "step": 217130
    },
    {
      "epoch": 0.452375,
      "grad_norm": 0.8554904460906982,
      "learning_rate": 0.0001734262202288459,
      "loss": 3.8859,
      "step": 217140
    },
    {
      "epoch": 0.45239583333333333,
      "grad_norm": 0.8835278153419495,
      "learning_rate": 0.00017341648259396354,
      "loss": 3.8795,
      "step": 217150
    },
    {
      "epoch": 0.4524166666666667,
      "grad_norm": 1.0297160148620605,
      "learning_rate": 0.00017340674485793125,
      "loss": 3.8978,
      "step": 217160
    },
    {
      "epoch": 0.4524375,
      "grad_norm": 0.9077567458152771,
      "learning_rate": 0.00017339700702079114,
      "loss": 3.7797,
      "step": 217170
    },
    {
      "epoch": 0.45245833333333335,
      "grad_norm": 0.9321235418319702,
      "learning_rate": 0.00017338726908258512,
      "loss": 3.9374,
      "step": 217180
    },
    {
      "epoch": 0.45247916666666665,
      "grad_norm": 1.011946678161621,
      "learning_rate": 0.00017337753104335545,
      "loss": 3.921,
      "step": 217190
    },
    {
      "epoch": 0.4525,
      "grad_norm": 0.8683508038520813,
      "learning_rate": 0.0001733677929031441,
      "loss": 3.9919,
      "step": 217200
    },
    {
      "epoch": 0.4525208333333333,
      "grad_norm": 0.7976087927818298,
      "learning_rate": 0.0001733580546619931,
      "loss": 3.7543,
      "step": 217210
    },
    {
      "epoch": 0.4525416666666667,
      "grad_norm": 0.8467258214950562,
      "learning_rate": 0.0001733483163199445,
      "loss": 3.8873,
      "step": 217220
    },
    {
      "epoch": 0.4525625,
      "grad_norm": 0.8883877396583557,
      "learning_rate": 0.00017333857787704048,
      "loss": 3.963,
      "step": 217230
    },
    {
      "epoch": 0.45258333333333334,
      "grad_norm": 0.7997898459434509,
      "learning_rate": 0.00017332883933332305,
      "loss": 3.9418,
      "step": 217240
    },
    {
      "epoch": 0.45260416666666664,
      "grad_norm": 0.8513710498809814,
      "learning_rate": 0.00017331910068883424,
      "loss": 3.8745,
      "step": 217250
    },
    {
      "epoch": 0.452625,
      "grad_norm": 0.8170248866081238,
      "learning_rate": 0.00017330936194361615,
      "loss": 3.9074,
      "step": 217260
    },
    {
      "epoch": 0.45264583333333336,
      "grad_norm": 0.8449642658233643,
      "learning_rate": 0.00017329962309771085,
      "loss": 3.9102,
      "step": 217270
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 0.7452009916305542,
      "learning_rate": 0.0001732898841511604,
      "loss": 3.8628,
      "step": 217280
    },
    {
      "epoch": 0.4526875,
      "grad_norm": 1.1333413124084473,
      "learning_rate": 0.00017328014510400688,
      "loss": 3.9204,
      "step": 217290
    },
    {
      "epoch": 0.4527083333333333,
      "grad_norm": 0.8414568305015564,
      "learning_rate": 0.0001732704059562923,
      "loss": 4.0225,
      "step": 217300
    },
    {
      "epoch": 0.4527291666666667,
      "grad_norm": 0.8438671231269836,
      "learning_rate": 0.00017326066670805883,
      "loss": 3.8176,
      "step": 217310
    },
    {
      "epoch": 0.45275,
      "grad_norm": 0.8869432210922241,
      "learning_rate": 0.00017325092735934848,
      "loss": 3.8691,
      "step": 217320
    },
    {
      "epoch": 0.45277083333333334,
      "grad_norm": 0.881298840045929,
      "learning_rate": 0.0001732411879102033,
      "loss": 3.8747,
      "step": 217330
    },
    {
      "epoch": 0.45279166666666665,
      "grad_norm": 0.8645108938217163,
      "learning_rate": 0.00017323144836066542,
      "loss": 3.9125,
      "step": 217340
    },
    {
      "epoch": 0.4528125,
      "grad_norm": 0.7573235630989075,
      "learning_rate": 0.00017322170871077682,
      "loss": 3.7565,
      "step": 217350
    },
    {
      "epoch": 0.4528333333333333,
      "grad_norm": 0.8292946815490723,
      "learning_rate": 0.00017321196896057968,
      "loss": 3.7711,
      "step": 217360
    },
    {
      "epoch": 0.45285416666666667,
      "grad_norm": 0.8622689247131348,
      "learning_rate": 0.00017320222911011606,
      "loss": 3.779,
      "step": 217370
    },
    {
      "epoch": 0.452875,
      "grad_norm": 0.7832672595977783,
      "learning_rate": 0.00017319248915942788,
      "loss": 3.9659,
      "step": 217380
    },
    {
      "epoch": 0.45289583333333333,
      "grad_norm": 0.8539606332778931,
      "learning_rate": 0.00017318274910855744,
      "loss": 3.8866,
      "step": 217390
    },
    {
      "epoch": 0.4529166666666667,
      "grad_norm": 1.060241937637329,
      "learning_rate": 0.00017317300895754666,
      "loss": 3.8946,
      "step": 217400
    },
    {
      "epoch": 0.4529375,
      "grad_norm": 0.7943888902664185,
      "learning_rate": 0.00017316326870643763,
      "loss": 3.912,
      "step": 217410
    },
    {
      "epoch": 0.45295833333333335,
      "grad_norm": 0.8403836488723755,
      "learning_rate": 0.00017315352835527246,
      "loss": 3.8804,
      "step": 217420
    },
    {
      "epoch": 0.45297916666666665,
      "grad_norm": 0.8439926505088806,
      "learning_rate": 0.0001731437879040932,
      "loss": 3.9392,
      "step": 217430
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.7884804010391235,
      "learning_rate": 0.000173134047352942,
      "loss": 3.9374,
      "step": 217440
    },
    {
      "epoch": 0.4530208333333333,
      "grad_norm": 0.8834191560745239,
      "learning_rate": 0.0001731243067018608,
      "loss": 3.8687,
      "step": 217450
    },
    {
      "epoch": 0.4530416666666667,
      "grad_norm": 0.8801035284996033,
      "learning_rate": 0.0001731145659508918,
      "loss": 3.7755,
      "step": 217460
    },
    {
      "epoch": 0.4530625,
      "grad_norm": 0.9467940330505371,
      "learning_rate": 0.00017310482510007698,
      "loss": 3.858,
      "step": 217470
    },
    {
      "epoch": 0.45308333333333334,
      "grad_norm": 0.9673307538032532,
      "learning_rate": 0.00017309508414945846,
      "loss": 3.9589,
      "step": 217480
    },
    {
      "epoch": 0.45310416666666664,
      "grad_norm": 0.7800499796867371,
      "learning_rate": 0.00017308534309907835,
      "loss": 4.0156,
      "step": 217490
    },
    {
      "epoch": 0.453125,
      "grad_norm": 0.7886713147163391,
      "learning_rate": 0.0001730756019489787,
      "loss": 3.7861,
      "step": 217500
    },
    {
      "epoch": 0.45314583333333336,
      "grad_norm": 0.8662720322608948,
      "learning_rate": 0.00017306586069920155,
      "loss": 3.8893,
      "step": 217510
    },
    {
      "epoch": 0.45316666666666666,
      "grad_norm": 0.8431071043014526,
      "learning_rate": 0.00017305611934978902,
      "loss": 3.7962,
      "step": 217520
    },
    {
      "epoch": 0.4531875,
      "grad_norm": 0.8621823787689209,
      "learning_rate": 0.00017304637790078325,
      "loss": 3.8433,
      "step": 217530
    },
    {
      "epoch": 0.4532083333333333,
      "grad_norm": 0.8316250443458557,
      "learning_rate": 0.0001730366363522262,
      "loss": 3.8949,
      "step": 217540
    },
    {
      "epoch": 0.4532291666666667,
      "grad_norm": 0.9059883952140808,
      "learning_rate": 0.00017302689470415994,
      "loss": 3.813,
      "step": 217550
    },
    {
      "epoch": 0.45325,
      "grad_norm": 0.8560344576835632,
      "learning_rate": 0.0001730171529566267,
      "loss": 3.9209,
      "step": 217560
    },
    {
      "epoch": 0.45327083333333335,
      "grad_norm": 0.8606091141700745,
      "learning_rate": 0.00017300741110966845,
      "loss": 3.9954,
      "step": 217570
    },
    {
      "epoch": 0.45329166666666665,
      "grad_norm": 0.9357225298881531,
      "learning_rate": 0.00017299766916332724,
      "loss": 3.789,
      "step": 217580
    },
    {
      "epoch": 0.4533125,
      "grad_norm": 0.9200758337974548,
      "learning_rate": 0.00017298792711764526,
      "loss": 3.7992,
      "step": 217590
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.8356437087059021,
      "learning_rate": 0.0001729781849726645,
      "loss": 3.8087,
      "step": 217600
    },
    {
      "epoch": 0.45335416666666667,
      "grad_norm": 0.8185446858406067,
      "learning_rate": 0.00017296844272842707,
      "loss": 3.7677,
      "step": 217610
    },
    {
      "epoch": 0.453375,
      "grad_norm": 0.8947104215621948,
      "learning_rate": 0.00017295870038497505,
      "loss": 3.9984,
      "step": 217620
    },
    {
      "epoch": 0.45339583333333333,
      "grad_norm": 0.8878470659255981,
      "learning_rate": 0.00017294895794235058,
      "loss": 3.7104,
      "step": 217630
    },
    {
      "epoch": 0.4534166666666667,
      "grad_norm": 0.9393407702445984,
      "learning_rate": 0.00017293921540059568,
      "loss": 3.8547,
      "step": 217640
    },
    {
      "epoch": 0.4534375,
      "grad_norm": 0.8937015533447266,
      "learning_rate": 0.00017292947275975243,
      "loss": 3.7126,
      "step": 217650
    },
    {
      "epoch": 0.45345833333333335,
      "grad_norm": 0.8222615122795105,
      "learning_rate": 0.00017291973001986295,
      "loss": 3.9123,
      "step": 217660
    },
    {
      "epoch": 0.45347916666666666,
      "grad_norm": 0.8515680432319641,
      "learning_rate": 0.0001729099871809693,
      "loss": 3.9603,
      "step": 217670
    },
    {
      "epoch": 0.4535,
      "grad_norm": 1.0139681100845337,
      "learning_rate": 0.00017290024424311356,
      "loss": 3.991,
      "step": 217680
    },
    {
      "epoch": 0.4535208333333333,
      "grad_norm": 1.3324916362762451,
      "learning_rate": 0.00017289050120633786,
      "loss": 3.9057,
      "step": 217690
    },
    {
      "epoch": 0.4535416666666667,
      "grad_norm": 1.0364893674850464,
      "learning_rate": 0.00017288075807068425,
      "loss": 3.8887,
      "step": 217700
    },
    {
      "epoch": 0.4535625,
      "grad_norm": 1.0485568046569824,
      "learning_rate": 0.0001728710148361948,
      "loss": 3.863,
      "step": 217710
    },
    {
      "epoch": 0.45358333333333334,
      "grad_norm": 0.9458164572715759,
      "learning_rate": 0.00017286127150291164,
      "loss": 3.7493,
      "step": 217720
    },
    {
      "epoch": 0.45360416666666664,
      "grad_norm": 0.9088611602783203,
      "learning_rate": 0.00017285152807087684,
      "loss": 3.7881,
      "step": 217730
    },
    {
      "epoch": 0.453625,
      "grad_norm": 0.7834267020225525,
      "learning_rate": 0.00017284178454013248,
      "loss": 3.8082,
      "step": 217740
    },
    {
      "epoch": 0.45364583333333336,
      "grad_norm": 0.8332002758979797,
      "learning_rate": 0.0001728320409107206,
      "loss": 3.9125,
      "step": 217750
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 0.8375077843666077,
      "learning_rate": 0.0001728222971826834,
      "loss": 4.0501,
      "step": 217760
    },
    {
      "epoch": 0.4536875,
      "grad_norm": 0.8195086121559143,
      "learning_rate": 0.00017281255335606293,
      "loss": 3.742,
      "step": 217770
    },
    {
      "epoch": 0.4537083333333333,
      "grad_norm": 0.8874492645263672,
      "learning_rate": 0.00017280280943090121,
      "loss": 3.7344,
      "step": 217780
    },
    {
      "epoch": 0.4537291666666667,
      "grad_norm": 0.8699212670326233,
      "learning_rate": 0.00017279306540724038,
      "loss": 3.9979,
      "step": 217790
    },
    {
      "epoch": 0.45375,
      "grad_norm": 0.8211844563484192,
      "learning_rate": 0.00017278332128512256,
      "loss": 3.9507,
      "step": 217800
    },
    {
      "epoch": 0.45377083333333335,
      "grad_norm": 0.8488926887512207,
      "learning_rate": 0.00017277357706458978,
      "loss": 3.7812,
      "step": 217810
    },
    {
      "epoch": 0.45379166666666665,
      "grad_norm": 1.2560044527053833,
      "learning_rate": 0.00017276383274568416,
      "loss": 3.8187,
      "step": 217820
    },
    {
      "epoch": 0.4538125,
      "grad_norm": 0.8529314398765564,
      "learning_rate": 0.00017275408832844783,
      "loss": 3.9811,
      "step": 217830
    },
    {
      "epoch": 0.4538333333333333,
      "grad_norm": 0.8263229131698608,
      "learning_rate": 0.00017274434381292283,
      "loss": 3.9288,
      "step": 217840
    },
    {
      "epoch": 0.45385416666666667,
      "grad_norm": 0.8619540333747864,
      "learning_rate": 0.00017273459919915128,
      "loss": 3.8464,
      "step": 217850
    },
    {
      "epoch": 0.453875,
      "grad_norm": 0.8103836178779602,
      "learning_rate": 0.0001727248544871752,
      "loss": 3.9611,
      "step": 217860
    },
    {
      "epoch": 0.45389583333333333,
      "grad_norm": 0.9778853058815002,
      "learning_rate": 0.00017271510967703684,
      "loss": 4.0586,
      "step": 217870
    },
    {
      "epoch": 0.4539166666666667,
      "grad_norm": 0.9129396080970764,
      "learning_rate": 0.0001727053647687781,
      "loss": 3.7864,
      "step": 217880
    },
    {
      "epoch": 0.4539375,
      "grad_norm": 1.0786995887756348,
      "learning_rate": 0.0001726956197624412,
      "loss": 3.8581,
      "step": 217890
    },
    {
      "epoch": 0.45395833333333335,
      "grad_norm": 0.8285416960716248,
      "learning_rate": 0.00017268587465806825,
      "loss": 3.9482,
      "step": 217900
    },
    {
      "epoch": 0.45397916666666666,
      "grad_norm": 0.8638591766357422,
      "learning_rate": 0.00017267612945570128,
      "loss": 3.7685,
      "step": 217910
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.9433847665786743,
      "learning_rate": 0.00017266638415538237,
      "loss": 3.9638,
      "step": 217920
    },
    {
      "epoch": 0.4540208333333333,
      "grad_norm": 0.9923141002655029,
      "learning_rate": 0.0001726566387571537,
      "loss": 3.8578,
      "step": 217930
    },
    {
      "epoch": 0.4540416666666667,
      "grad_norm": 0.8503757119178772,
      "learning_rate": 0.0001726468932610573,
      "loss": 3.9585,
      "step": 217940
    },
    {
      "epoch": 0.4540625,
      "grad_norm": 0.8382352590560913,
      "learning_rate": 0.00017263714766713525,
      "loss": 3.7535,
      "step": 217950
    },
    {
      "epoch": 0.45408333333333334,
      "grad_norm": 0.7819173336029053,
      "learning_rate": 0.00017262740197542973,
      "loss": 3.9543,
      "step": 217960
    },
    {
      "epoch": 0.45410416666666664,
      "grad_norm": 0.8408255577087402,
      "learning_rate": 0.0001726176561859828,
      "loss": 3.8407,
      "step": 217970
    },
    {
      "epoch": 0.454125,
      "grad_norm": 0.9706331491470337,
      "learning_rate": 0.00017260791029883652,
      "loss": 4.0061,
      "step": 217980
    },
    {
      "epoch": 0.45414583333333336,
      "grad_norm": 0.8444727063179016,
      "learning_rate": 0.00017259816431403302,
      "loss": 3.8864,
      "step": 217990
    },
    {
      "epoch": 0.45416666666666666,
      "grad_norm": 1.1672842502593994,
      "learning_rate": 0.0001725884182316144,
      "loss": 3.8016,
      "step": 218000
    },
    {
      "epoch": 0.45416666666666666,
      "eval_loss": 3.6184864044189453,
      "eval_runtime": 6.8937,
      "eval_samples_per_second": 1.451,
      "eval_steps_per_second": 0.435,
      "step": 218000
    },
    {
      "epoch": 0.4541875,
      "grad_norm": 0.8112971186637878,
      "learning_rate": 0.00017257867205162277,
      "loss": 3.9114,
      "step": 218010
    },
    {
      "epoch": 0.4542083333333333,
      "grad_norm": 0.8984946608543396,
      "learning_rate": 0.00017256892577410015,
      "loss": 3.9088,
      "step": 218020
    },
    {
      "epoch": 0.4542291666666667,
      "grad_norm": 0.974822461605072,
      "learning_rate": 0.00017255917939908876,
      "loss": 3.7596,
      "step": 218030
    },
    {
      "epoch": 0.45425,
      "grad_norm": 0.8552398085594177,
      "learning_rate": 0.00017254943292663067,
      "loss": 3.7298,
      "step": 218040
    },
    {
      "epoch": 0.45427083333333335,
      "grad_norm": 0.8845729231834412,
      "learning_rate": 0.00017253968635676787,
      "loss": 3.9591,
      "step": 218050
    },
    {
      "epoch": 0.45429166666666665,
      "grad_norm": 0.8312011957168579,
      "learning_rate": 0.0001725299396895426,
      "loss": 3.9977,
      "step": 218060
    },
    {
      "epoch": 0.4543125,
      "grad_norm": 0.7499880194664001,
      "learning_rate": 0.00017252019292499695,
      "loss": 3.7716,
      "step": 218070
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 0.8331870436668396,
      "learning_rate": 0.00017251044606317293,
      "loss": 3.9683,
      "step": 218080
    },
    {
      "epoch": 0.45435416666666667,
      "grad_norm": 0.8085191249847412,
      "learning_rate": 0.00017250069910411267,
      "loss": 3.7409,
      "step": 218090
    },
    {
      "epoch": 0.454375,
      "grad_norm": 1.0345730781555176,
      "learning_rate": 0.00017249095204785835,
      "loss": 4.0195,
      "step": 218100
    },
    {
      "epoch": 0.45439583333333333,
      "grad_norm": 0.9167992472648621,
      "learning_rate": 0.00017248120489445198,
      "loss": 3.6976,
      "step": 218110
    },
    {
      "epoch": 0.4544166666666667,
      "grad_norm": 0.8814664483070374,
      "learning_rate": 0.00017247145764393574,
      "loss": 4.0353,
      "step": 218120
    },
    {
      "epoch": 0.4544375,
      "grad_norm": 0.8615524172782898,
      "learning_rate": 0.00017246171029635168,
      "loss": 3.9194,
      "step": 218130
    },
    {
      "epoch": 0.45445833333333335,
      "grad_norm": 0.880251407623291,
      "learning_rate": 0.00017245196285174192,
      "loss": 3.8684,
      "step": 218140
    },
    {
      "epoch": 0.45447916666666666,
      "grad_norm": 0.8296903967857361,
      "learning_rate": 0.00017244221531014856,
      "loss": 3.8275,
      "step": 218150
    },
    {
      "epoch": 0.4545,
      "grad_norm": 1.0675265789031982,
      "learning_rate": 0.0001724324676716137,
      "loss": 3.8095,
      "step": 218160
    },
    {
      "epoch": 0.4545208333333333,
      "grad_norm": 0.8936592936515808,
      "learning_rate": 0.0001724227199361795,
      "loss": 3.7221,
      "step": 218170
    },
    {
      "epoch": 0.4545416666666667,
      "grad_norm": 0.901062548160553,
      "learning_rate": 0.000172412972103888,
      "loss": 3.8301,
      "step": 218180
    },
    {
      "epoch": 0.4545625,
      "grad_norm": 0.78769850730896,
      "learning_rate": 0.00017240322417478134,
      "loss": 3.7197,
      "step": 218190
    },
    {
      "epoch": 0.45458333333333334,
      "grad_norm": 0.9892654418945312,
      "learning_rate": 0.0001723934761489016,
      "loss": 3.8085,
      "step": 218200
    },
    {
      "epoch": 0.45460416666666664,
      "grad_norm": 1.0766351222991943,
      "learning_rate": 0.00017238372802629097,
      "loss": 3.8856,
      "step": 218210
    },
    {
      "epoch": 0.454625,
      "grad_norm": 0.8808066844940186,
      "learning_rate": 0.00017237397980699137,
      "loss": 3.8826,
      "step": 218220
    },
    {
      "epoch": 0.45464583333333336,
      "grad_norm": 0.8354772329330444,
      "learning_rate": 0.00017236423149104516,
      "loss": 3.7359,
      "step": 218230
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 0.9067932963371277,
      "learning_rate": 0.00017235448307849428,
      "loss": 3.7636,
      "step": 218240
    },
    {
      "epoch": 0.4546875,
      "grad_norm": 0.8899629712104797,
      "learning_rate": 0.00017234473456938083,
      "loss": 3.9858,
      "step": 218250
    },
    {
      "epoch": 0.4547083333333333,
      "grad_norm": 0.8010545969009399,
      "learning_rate": 0.00017233498596374704,
      "loss": 3.9891,
      "step": 218260
    },
    {
      "epoch": 0.4547291666666667,
      "grad_norm": 0.870820939540863,
      "learning_rate": 0.00017232523726163493,
      "loss": 3.8334,
      "step": 218270
    },
    {
      "epoch": 0.45475,
      "grad_norm": 0.8539445996284485,
      "learning_rate": 0.00017231548846308664,
      "loss": 3.8823,
      "step": 218280
    },
    {
      "epoch": 0.45477083333333335,
      "grad_norm": 0.8646777868270874,
      "learning_rate": 0.00017230573956814426,
      "loss": 3.8224,
      "step": 218290
    },
    {
      "epoch": 0.45479166666666665,
      "grad_norm": 0.8054709434509277,
      "learning_rate": 0.00017229599057684992,
      "loss": 3.9556,
      "step": 218300
    },
    {
      "epoch": 0.4548125,
      "grad_norm": 0.818076491355896,
      "learning_rate": 0.0001722862414892457,
      "loss": 3.8214,
      "step": 218310
    },
    {
      "epoch": 0.4548333333333333,
      "grad_norm": 0.9889513254165649,
      "learning_rate": 0.00017227649230537378,
      "loss": 3.9501,
      "step": 218320
    },
    {
      "epoch": 0.45485416666666667,
      "grad_norm": 0.7650635242462158,
      "learning_rate": 0.0001722667430252762,
      "loss": 4.105,
      "step": 218330
    },
    {
      "epoch": 0.454875,
      "grad_norm": 0.9166139960289001,
      "learning_rate": 0.00017225699364899511,
      "loss": 3.9409,
      "step": 218340
    },
    {
      "epoch": 0.45489583333333333,
      "grad_norm": 0.8607584238052368,
      "learning_rate": 0.00017224724417657264,
      "loss": 4.0399,
      "step": 218350
    },
    {
      "epoch": 0.4549166666666667,
      "grad_norm": 0.8833169341087341,
      "learning_rate": 0.00017223749460805086,
      "loss": 4.0268,
      "step": 218360
    },
    {
      "epoch": 0.4549375,
      "grad_norm": 0.8863364458084106,
      "learning_rate": 0.0001722277449434719,
      "loss": 3.9258,
      "step": 218370
    },
    {
      "epoch": 0.45495833333333335,
      "grad_norm": 0.8720706105232239,
      "learning_rate": 0.0001722179951828779,
      "loss": 3.7046,
      "step": 218380
    },
    {
      "epoch": 0.45497916666666666,
      "grad_norm": 0.8473942279815674,
      "learning_rate": 0.00017220824532631092,
      "loss": 3.8341,
      "step": 218390
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.937750518321991,
      "learning_rate": 0.00017219849537381316,
      "loss": 3.843,
      "step": 218400
    },
    {
      "epoch": 0.4550208333333333,
      "grad_norm": 0.8185073137283325,
      "learning_rate": 0.00017218874532542666,
      "loss": 3.8298,
      "step": 218410
    },
    {
      "epoch": 0.4550416666666667,
      "grad_norm": 0.8527762293815613,
      "learning_rate": 0.00017217899518119355,
      "loss": 4.0821,
      "step": 218420
    },
    {
      "epoch": 0.4550625,
      "grad_norm": 0.9009337425231934,
      "learning_rate": 0.00017216924494115602,
      "loss": 4.0466,
      "step": 218430
    },
    {
      "epoch": 0.45508333333333334,
      "grad_norm": 0.8199394941329956,
      "learning_rate": 0.00017215949460535606,
      "loss": 3.8908,
      "step": 218440
    },
    {
      "epoch": 0.45510416666666664,
      "grad_norm": 0.9699426293373108,
      "learning_rate": 0.00017214974417383586,
      "loss": 3.8536,
      "step": 218450
    },
    {
      "epoch": 0.455125,
      "grad_norm": 1.1407084465026855,
      "learning_rate": 0.00017213999364663757,
      "loss": 3.8568,
      "step": 218460
    },
    {
      "epoch": 0.45514583333333336,
      "grad_norm": 0.8085643649101257,
      "learning_rate": 0.00017213024302380325,
      "loss": 3.9148,
      "step": 218470
    },
    {
      "epoch": 0.45516666666666666,
      "grad_norm": 1.0083138942718506,
      "learning_rate": 0.00017212049230537504,
      "loss": 3.8339,
      "step": 218480
    },
    {
      "epoch": 0.4551875,
      "grad_norm": 1.1297892332077026,
      "learning_rate": 0.00017211074149139506,
      "loss": 3.967,
      "step": 218490
    },
    {
      "epoch": 0.4552083333333333,
      "grad_norm": 0.8701372742652893,
      "learning_rate": 0.0001721009905819054,
      "loss": 3.8327,
      "step": 218500
    },
    {
      "epoch": 0.4552291666666667,
      "grad_norm": 1.1171574592590332,
      "learning_rate": 0.00017209123957694826,
      "loss": 3.9888,
      "step": 218510
    },
    {
      "epoch": 0.45525,
      "grad_norm": 0.8126336336135864,
      "learning_rate": 0.00017208148847656568,
      "loss": 3.8054,
      "step": 218520
    },
    {
      "epoch": 0.45527083333333335,
      "grad_norm": 0.9011403322219849,
      "learning_rate": 0.00017207173728079985,
      "loss": 3.8913,
      "step": 218530
    },
    {
      "epoch": 0.45529166666666665,
      "grad_norm": 0.8537437319755554,
      "learning_rate": 0.0001720619859896928,
      "loss": 3.8752,
      "step": 218540
    },
    {
      "epoch": 0.4553125,
      "grad_norm": 0.9354878067970276,
      "learning_rate": 0.0001720522346032867,
      "loss": 3.9179,
      "step": 218550
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 0.790995180606842,
      "learning_rate": 0.0001720424831216237,
      "loss": 3.8573,
      "step": 218560
    },
    {
      "epoch": 0.45535416666666667,
      "grad_norm": 0.8744316697120667,
      "learning_rate": 0.00017203273154474595,
      "loss": 3.8724,
      "step": 218570
    },
    {
      "epoch": 0.455375,
      "grad_norm": 0.846803605556488,
      "learning_rate": 0.00017202297987269546,
      "loss": 3.8678,
      "step": 218580
    },
    {
      "epoch": 0.45539583333333333,
      "grad_norm": 0.928053081035614,
      "learning_rate": 0.0001720132281055144,
      "loss": 3.8837,
      "step": 218590
    },
    {
      "epoch": 0.4554166666666667,
      "grad_norm": 0.838193416595459,
      "learning_rate": 0.00017200347624324495,
      "loss": 3.906,
      "step": 218600
    },
    {
      "epoch": 0.4554375,
      "grad_norm": 0.8819910883903503,
      "learning_rate": 0.00017199372428592914,
      "loss": 3.642,
      "step": 218610
    },
    {
      "epoch": 0.45545833333333335,
      "grad_norm": 0.8265830278396606,
      "learning_rate": 0.00017198397223360917,
      "loss": 4.0914,
      "step": 218620
    },
    {
      "epoch": 0.45547916666666666,
      "grad_norm": 0.953961193561554,
      "learning_rate": 0.00017197422008632718,
      "loss": 3.849,
      "step": 218630
    },
    {
      "epoch": 0.4555,
      "grad_norm": 0.95418781042099,
      "learning_rate": 0.00017196446784412524,
      "loss": 3.8959,
      "step": 218640
    },
    {
      "epoch": 0.4555208333333333,
      "grad_norm": 1.072800636291504,
      "learning_rate": 0.00017195471550704547,
      "loss": 3.8767,
      "step": 218650
    },
    {
      "epoch": 0.4555416666666667,
      "grad_norm": 0.8828842639923096,
      "learning_rate": 0.00017194496307513,
      "loss": 3.8515,
      "step": 218660
    },
    {
      "epoch": 0.4555625,
      "grad_norm": 0.8745960593223572,
      "learning_rate": 0.00017193521054842102,
      "loss": 3.9028,
      "step": 218670
    },
    {
      "epoch": 0.45558333333333334,
      "grad_norm": 0.9248577356338501,
      "learning_rate": 0.00017192545792696058,
      "loss": 3.8176,
      "step": 218680
    },
    {
      "epoch": 0.45560416666666664,
      "grad_norm": 0.8641289472579956,
      "learning_rate": 0.00017191570521079086,
      "loss": 3.7631,
      "step": 218690
    },
    {
      "epoch": 0.455625,
      "grad_norm": 0.9066711068153381,
      "learning_rate": 0.00017190595239995396,
      "loss": 3.7509,
      "step": 218700
    },
    {
      "epoch": 0.45564583333333336,
      "grad_norm": 0.845568835735321,
      "learning_rate": 0.00017189619949449207,
      "loss": 4.0185,
      "step": 218710
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 0.7455549836158752,
      "learning_rate": 0.00017188644649444718,
      "loss": 3.9678,
      "step": 218720
    },
    {
      "epoch": 0.4556875,
      "grad_norm": 0.8654435873031616,
      "learning_rate": 0.00017187669339986154,
      "loss": 3.8856,
      "step": 218730
    },
    {
      "epoch": 0.4557083333333333,
      "grad_norm": 0.8041414618492126,
      "learning_rate": 0.00017186694021077727,
      "loss": 3.9921,
      "step": 218740
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 0.848878800868988,
      "learning_rate": 0.00017185718692723644,
      "loss": 4.0084,
      "step": 218750
    },
    {
      "epoch": 0.45575,
      "grad_norm": 1.0180914402008057,
      "learning_rate": 0.00017184743354928123,
      "loss": 3.9198,
      "step": 218760
    },
    {
      "epoch": 0.45577083333333335,
      "grad_norm": 0.8354051113128662,
      "learning_rate": 0.00017183768007695378,
      "loss": 3.9369,
      "step": 218770
    },
    {
      "epoch": 0.45579166666666665,
      "grad_norm": 0.8170222640037537,
      "learning_rate": 0.00017182792651029613,
      "loss": 4.0134,
      "step": 218780
    },
    {
      "epoch": 0.4558125,
      "grad_norm": 0.8223938941955566,
      "learning_rate": 0.0001718181728493505,
      "loss": 3.8312,
      "step": 218790
    },
    {
      "epoch": 0.4558333333333333,
      "grad_norm": 1.2696901559829712,
      "learning_rate": 0.00017180841909415905,
      "loss": 3.9933,
      "step": 218800
    },
    {
      "epoch": 0.45585416666666667,
      "grad_norm": 0.8014336228370667,
      "learning_rate": 0.00017179866524476381,
      "loss": 3.9847,
      "step": 218810
    },
    {
      "epoch": 0.455875,
      "grad_norm": 0.8156054019927979,
      "learning_rate": 0.00017178891130120697,
      "loss": 3.8261,
      "step": 218820
    },
    {
      "epoch": 0.45589583333333333,
      "grad_norm": 1.1193909645080566,
      "learning_rate": 0.00017177915726353067,
      "loss": 3.8831,
      "step": 218830
    },
    {
      "epoch": 0.4559166666666667,
      "grad_norm": 0.9806945323944092,
      "learning_rate": 0.00017176940313177704,
      "loss": 3.7835,
      "step": 218840
    },
    {
      "epoch": 0.4559375,
      "grad_norm": 0.8531537652015686,
      "learning_rate": 0.0001717596489059882,
      "loss": 3.6905,
      "step": 218850
    },
    {
      "epoch": 0.45595833333333335,
      "grad_norm": 0.9838538765907288,
      "learning_rate": 0.00017174989458620626,
      "loss": 3.8688,
      "step": 218860
    },
    {
      "epoch": 0.45597916666666666,
      "grad_norm": 0.858795166015625,
      "learning_rate": 0.0001717401401724734,
      "loss": 3.8155,
      "step": 218870
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.9537831544876099,
      "learning_rate": 0.00017173038566483176,
      "loss": 4.0086,
      "step": 218880
    },
    {
      "epoch": 0.4560208333333333,
      "grad_norm": 0.7875015139579773,
      "learning_rate": 0.00017172063106332347,
      "loss": 4.0848,
      "step": 218890
    },
    {
      "epoch": 0.4560416666666667,
      "grad_norm": 0.9257574081420898,
      "learning_rate": 0.0001717108763679906,
      "loss": 3.7664,
      "step": 218900
    },
    {
      "epoch": 0.4560625,
      "grad_norm": 0.8076152801513672,
      "learning_rate": 0.0001717011215788754,
      "loss": 3.8499,
      "step": 218910
    },
    {
      "epoch": 0.45608333333333334,
      "grad_norm": 0.8388654589653015,
      "learning_rate": 0.0001716913666960199,
      "loss": 3.8524,
      "step": 218920
    },
    {
      "epoch": 0.45610416666666664,
      "grad_norm": 1.0046186447143555,
      "learning_rate": 0.00017168161171946626,
      "loss": 3.9982,
      "step": 218930
    },
    {
      "epoch": 0.456125,
      "grad_norm": 0.8348495960235596,
      "learning_rate": 0.0001716718566492567,
      "loss": 3.8753,
      "step": 218940
    },
    {
      "epoch": 0.4561458333333333,
      "grad_norm": 0.8201726078987122,
      "learning_rate": 0.00017166210148543323,
      "loss": 3.8991,
      "step": 218950
    },
    {
      "epoch": 0.45616666666666666,
      "grad_norm": 0.909264326095581,
      "learning_rate": 0.00017165234622803808,
      "loss": 3.9973,
      "step": 218960
    },
    {
      "epoch": 0.4561875,
      "grad_norm": 0.8539498448371887,
      "learning_rate": 0.0001716425908771134,
      "loss": 4.0127,
      "step": 218970
    },
    {
      "epoch": 0.4562083333333333,
      "grad_norm": 0.9248235821723938,
      "learning_rate": 0.0001716328354327013,
      "loss": 3.9104,
      "step": 218980
    },
    {
      "epoch": 0.4562291666666667,
      "grad_norm": 0.832114040851593,
      "learning_rate": 0.00017162307989484384,
      "loss": 3.9198,
      "step": 218990
    },
    {
      "epoch": 0.45625,
      "grad_norm": 0.9636384844779968,
      "learning_rate": 0.0001716133242635833,
      "loss": 3.8533,
      "step": 219000
    },
    {
      "epoch": 0.45625,
      "eval_loss": 3.63716197013855,
      "eval_runtime": 7.282,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 219000
    },
    {
      "epoch": 0.45627083333333335,
      "grad_norm": 1.1564894914627075,
      "learning_rate": 0.00017160356853896172,
      "loss": 3.8949,
      "step": 219010
    },
    {
      "epoch": 0.45629166666666665,
      "grad_norm": 0.9594566822052002,
      "learning_rate": 0.0001715938127210213,
      "loss": 3.9066,
      "step": 219020
    },
    {
      "epoch": 0.4563125,
      "grad_norm": 0.9090582132339478,
      "learning_rate": 0.00017158405680980416,
      "loss": 3.8425,
      "step": 219030
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 0.9310415387153625,
      "learning_rate": 0.00017157430080535244,
      "loss": 3.8694,
      "step": 219040
    },
    {
      "epoch": 0.45635416666666667,
      "grad_norm": 0.848048985004425,
      "learning_rate": 0.00017156454470770825,
      "loss": 3.9549,
      "step": 219050
    },
    {
      "epoch": 0.456375,
      "grad_norm": 0.7740662693977356,
      "learning_rate": 0.00017155478851691377,
      "loss": 3.9844,
      "step": 219060
    },
    {
      "epoch": 0.45639583333333333,
      "grad_norm": 0.9078382253646851,
      "learning_rate": 0.00017154503223301113,
      "loss": 3.8066,
      "step": 219070
    },
    {
      "epoch": 0.4564166666666667,
      "grad_norm": 0.8999048471450806,
      "learning_rate": 0.00017153527585604252,
      "loss": 3.7007,
      "step": 219080
    },
    {
      "epoch": 0.4564375,
      "grad_norm": 0.9898779988288879,
      "learning_rate": 0.00017152551938605,
      "loss": 4.0259,
      "step": 219090
    },
    {
      "epoch": 0.45645833333333335,
      "grad_norm": 0.9265434145927429,
      "learning_rate": 0.00017151576282307574,
      "loss": 3.9255,
      "step": 219100
    },
    {
      "epoch": 0.45647916666666666,
      "grad_norm": 0.8419701457023621,
      "learning_rate": 0.00017150600616716198,
      "loss": 4.0818,
      "step": 219110
    },
    {
      "epoch": 0.4565,
      "grad_norm": 0.8519843816757202,
      "learning_rate": 0.0001714962494183507,
      "loss": 3.915,
      "step": 219120
    },
    {
      "epoch": 0.4565208333333333,
      "grad_norm": 0.9846736788749695,
      "learning_rate": 0.00017148649257668416,
      "loss": 3.7809,
      "step": 219130
    },
    {
      "epoch": 0.4565416666666667,
      "grad_norm": 0.8586456775665283,
      "learning_rate": 0.00017147673564220454,
      "loss": 3.8404,
      "step": 219140
    },
    {
      "epoch": 0.4565625,
      "grad_norm": 1.1820350885391235,
      "learning_rate": 0.00017146697861495386,
      "loss": 3.8379,
      "step": 219150
    },
    {
      "epoch": 0.45658333333333334,
      "grad_norm": 0.8921740055084229,
      "learning_rate": 0.00017145722149497432,
      "loss": 3.7697,
      "step": 219160
    },
    {
      "epoch": 0.45660416666666664,
      "grad_norm": 0.9051297307014465,
      "learning_rate": 0.0001714474642823081,
      "loss": 3.7806,
      "step": 219170
    },
    {
      "epoch": 0.456625,
      "grad_norm": 1.252232313156128,
      "learning_rate": 0.00017143770697699732,
      "loss": 3.9684,
      "step": 219180
    },
    {
      "epoch": 0.4566458333333333,
      "grad_norm": 0.97151118516922,
      "learning_rate": 0.00017142794957908413,
      "loss": 3.9159,
      "step": 219190
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 0.8664816617965698,
      "learning_rate": 0.0001714181920886107,
      "loss": 3.8298,
      "step": 219200
    },
    {
      "epoch": 0.4566875,
      "grad_norm": 0.802482545375824,
      "learning_rate": 0.00017140843450561913,
      "loss": 4.0275,
      "step": 219210
    },
    {
      "epoch": 0.4567083333333333,
      "grad_norm": 0.7853257656097412,
      "learning_rate": 0.0001713986768301516,
      "loss": 3.8392,
      "step": 219220
    },
    {
      "epoch": 0.4567291666666667,
      "grad_norm": 0.8059188723564148,
      "learning_rate": 0.00017138891906225026,
      "loss": 3.9399,
      "step": 219230
    },
    {
      "epoch": 0.45675,
      "grad_norm": 0.8655792474746704,
      "learning_rate": 0.00017137916120195723,
      "loss": 4.1275,
      "step": 219240
    },
    {
      "epoch": 0.45677083333333335,
      "grad_norm": 1.023666501045227,
      "learning_rate": 0.00017136940324931474,
      "loss": 4.1608,
      "step": 219250
    },
    {
      "epoch": 0.45679166666666665,
      "grad_norm": 1.0329355001449585,
      "learning_rate": 0.00017135964520436487,
      "loss": 3.7237,
      "step": 219260
    },
    {
      "epoch": 0.4568125,
      "grad_norm": 0.8570477366447449,
      "learning_rate": 0.00017134988706714977,
      "loss": 4.0236,
      "step": 219270
    },
    {
      "epoch": 0.4568333333333333,
      "grad_norm": 0.8133453130722046,
      "learning_rate": 0.00017134012883771163,
      "loss": 3.9206,
      "step": 219280
    },
    {
      "epoch": 0.4568541666666667,
      "grad_norm": 0.9132544994354248,
      "learning_rate": 0.00017133037051609255,
      "loss": 4.0811,
      "step": 219290
    },
    {
      "epoch": 0.456875,
      "grad_norm": 0.9042940139770508,
      "learning_rate": 0.00017132061210233475,
      "loss": 4.0005,
      "step": 219300
    },
    {
      "epoch": 0.45689583333333333,
      "grad_norm": 0.8231288194656372,
      "learning_rate": 0.0001713108535964803,
      "loss": 3.8843,
      "step": 219310
    },
    {
      "epoch": 0.4569166666666667,
      "grad_norm": 0.9236697554588318,
      "learning_rate": 0.00017130109499857138,
      "loss": 3.8449,
      "step": 219320
    },
    {
      "epoch": 0.4569375,
      "grad_norm": 1.053309440612793,
      "learning_rate": 0.00017129133630865024,
      "loss": 3.8498,
      "step": 219330
    },
    {
      "epoch": 0.45695833333333336,
      "grad_norm": 0.7974849939346313,
      "learning_rate": 0.00017128157752675893,
      "loss": 3.7453,
      "step": 219340
    },
    {
      "epoch": 0.45697916666666666,
      "grad_norm": 0.7818233966827393,
      "learning_rate": 0.00017127181865293962,
      "loss": 4.0981,
      "step": 219350
    },
    {
      "epoch": 0.457,
      "grad_norm": 0.9520592093467712,
      "learning_rate": 0.00017126205968723447,
      "loss": 3.7814,
      "step": 219360
    },
    {
      "epoch": 0.4570208333333333,
      "grad_norm": 0.8453222513198853,
      "learning_rate": 0.00017125230062968563,
      "loss": 3.8483,
      "step": 219370
    },
    {
      "epoch": 0.4570416666666667,
      "grad_norm": 0.9145973324775696,
      "learning_rate": 0.00017124254148033526,
      "loss": 4.0243,
      "step": 219380
    },
    {
      "epoch": 0.4570625,
      "grad_norm": 0.8135524392127991,
      "learning_rate": 0.00017123278223922555,
      "loss": 3.9548,
      "step": 219390
    },
    {
      "epoch": 0.45708333333333334,
      "grad_norm": 0.9985341429710388,
      "learning_rate": 0.00017122302290639862,
      "loss": 4.0081,
      "step": 219400
    },
    {
      "epoch": 0.45710416666666664,
      "grad_norm": 0.8287331461906433,
      "learning_rate": 0.0001712132634818966,
      "loss": 3.9543,
      "step": 219410
    },
    {
      "epoch": 0.457125,
      "grad_norm": 0.9557538032531738,
      "learning_rate": 0.00017120350396576168,
      "loss": 3.8713,
      "step": 219420
    },
    {
      "epoch": 0.4571458333333333,
      "grad_norm": 0.8316146731376648,
      "learning_rate": 0.00017119374435803605,
      "loss": 3.8414,
      "step": 219430
    },
    {
      "epoch": 0.45716666666666667,
      "grad_norm": 0.980743408203125,
      "learning_rate": 0.00017118398465876183,
      "loss": 3.8811,
      "step": 219440
    },
    {
      "epoch": 0.4571875,
      "grad_norm": 0.8618434071540833,
      "learning_rate": 0.00017117422486798115,
      "loss": 3.8553,
      "step": 219450
    },
    {
      "epoch": 0.4572083333333333,
      "grad_norm": 0.7733302116394043,
      "learning_rate": 0.00017116446498573618,
      "loss": 3.7957,
      "step": 219460
    },
    {
      "epoch": 0.4572291666666667,
      "grad_norm": 0.9322847127914429,
      "learning_rate": 0.0001711547050120692,
      "loss": 3.9154,
      "step": 219470
    },
    {
      "epoch": 0.45725,
      "grad_norm": 0.9467352032661438,
      "learning_rate": 0.0001711449449470222,
      "loss": 3.9913,
      "step": 219480
    },
    {
      "epoch": 0.45727083333333335,
      "grad_norm": 0.8835113048553467,
      "learning_rate": 0.00017113518479063738,
      "loss": 3.8917,
      "step": 219490
    },
    {
      "epoch": 0.45729166666666665,
      "grad_norm": 0.8991016745567322,
      "learning_rate": 0.00017112542454295697,
      "loss": 3.8709,
      "step": 219500
    },
    {
      "epoch": 0.4573125,
      "grad_norm": 1.195946216583252,
      "learning_rate": 0.00017111566420402308,
      "loss": 3.8182,
      "step": 219510
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 1.1178808212280273,
      "learning_rate": 0.00017110590377387785,
      "loss": 3.8716,
      "step": 219520
    },
    {
      "epoch": 0.4573541666666667,
      "grad_norm": 0.8718451857566833,
      "learning_rate": 0.00017109614325256351,
      "loss": 4.0597,
      "step": 219530
    },
    {
      "epoch": 0.457375,
      "grad_norm": 0.9788775444030762,
      "learning_rate": 0.00017108638264012218,
      "loss": 3.8664,
      "step": 219540
    },
    {
      "epoch": 0.45739583333333333,
      "grad_norm": 0.8476762771606445,
      "learning_rate": 0.00017107662193659601,
      "loss": 3.8741,
      "step": 219550
    },
    {
      "epoch": 0.4574166666666667,
      "grad_norm": 0.8104455471038818,
      "learning_rate": 0.0001710668611420272,
      "loss": 3.7636,
      "step": 219560
    },
    {
      "epoch": 0.4574375,
      "grad_norm": 1.02589750289917,
      "learning_rate": 0.00017105710025645785,
      "loss": 3.895,
      "step": 219570
    },
    {
      "epoch": 0.45745833333333336,
      "grad_norm": 0.8609762191772461,
      "learning_rate": 0.00017104733927993015,
      "loss": 4.0243,
      "step": 219580
    },
    {
      "epoch": 0.45747916666666666,
      "grad_norm": 0.8348706960678101,
      "learning_rate": 0.00017103757821248635,
      "loss": 3.9275,
      "step": 219590
    },
    {
      "epoch": 0.4575,
      "grad_norm": 0.8003500699996948,
      "learning_rate": 0.00017102781705416846,
      "loss": 3.9024,
      "step": 219600
    },
    {
      "epoch": 0.4575208333333333,
      "grad_norm": 0.8165099024772644,
      "learning_rate": 0.0001710180558050188,
      "loss": 4.0118,
      "step": 219610
    },
    {
      "epoch": 0.4575416666666667,
      "grad_norm": 0.9163718223571777,
      "learning_rate": 0.00017100829446507938,
      "loss": 3.8762,
      "step": 219620
    },
    {
      "epoch": 0.4575625,
      "grad_norm": 0.7739752531051636,
      "learning_rate": 0.00017099853303439248,
      "loss": 3.8417,
      "step": 219630
    },
    {
      "epoch": 0.45758333333333334,
      "grad_norm": 0.8323644399642944,
      "learning_rate": 0.00017098877151300025,
      "loss": 3.9667,
      "step": 219640
    },
    {
      "epoch": 0.45760416666666665,
      "grad_norm": 0.8701509237289429,
      "learning_rate": 0.0001709790099009448,
      "loss": 3.9746,
      "step": 219650
    },
    {
      "epoch": 0.457625,
      "grad_norm": 1.0213942527770996,
      "learning_rate": 0.00017096924819826832,
      "loss": 3.8711,
      "step": 219660
    },
    {
      "epoch": 0.4576458333333333,
      "grad_norm": 0.9352661967277527,
      "learning_rate": 0.00017095948640501304,
      "loss": 3.6989,
      "step": 219670
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 0.8291396498680115,
      "learning_rate": 0.00017094972452122106,
      "loss": 3.8344,
      "step": 219680
    },
    {
      "epoch": 0.4576875,
      "grad_norm": 0.8231934309005737,
      "learning_rate": 0.0001709399625469345,
      "loss": 3.8216,
      "step": 219690
    },
    {
      "epoch": 0.45770833333333333,
      "grad_norm": 0.8214426636695862,
      "learning_rate": 0.00017093020048219567,
      "loss": 3.9221,
      "step": 219700
    },
    {
      "epoch": 0.4577291666666667,
      "grad_norm": 0.8041428923606873,
      "learning_rate": 0.0001709204383270466,
      "loss": 3.9319,
      "step": 219710
    },
    {
      "epoch": 0.45775,
      "grad_norm": 0.8347615003585815,
      "learning_rate": 0.00017091067608152958,
      "loss": 3.7261,
      "step": 219720
    },
    {
      "epoch": 0.45777083333333335,
      "grad_norm": 0.8449177145957947,
      "learning_rate": 0.00017090091374568665,
      "loss": 3.8668,
      "step": 219730
    },
    {
      "epoch": 0.45779166666666665,
      "grad_norm": 0.8349519371986389,
      "learning_rate": 0.0001708911513195601,
      "loss": 3.8421,
      "step": 219740
    },
    {
      "epoch": 0.4578125,
      "grad_norm": 0.927617609500885,
      "learning_rate": 0.00017088138880319199,
      "loss": 3.8585,
      "step": 219750
    },
    {
      "epoch": 0.4578333333333333,
      "grad_norm": 0.9242972731590271,
      "learning_rate": 0.00017087162619662462,
      "loss": 3.8411,
      "step": 219760
    },
    {
      "epoch": 0.4578541666666667,
      "grad_norm": 0.9322188496589661,
      "learning_rate": 0.00017086186349990002,
      "loss": 3.9432,
      "step": 219770
    },
    {
      "epoch": 0.457875,
      "grad_norm": 0.8895155191421509,
      "learning_rate": 0.0001708521007130605,
      "loss": 4.0217,
      "step": 219780
    },
    {
      "epoch": 0.45789583333333334,
      "grad_norm": 0.8302475214004517,
      "learning_rate": 0.00017084233783614807,
      "loss": 3.955,
      "step": 219790
    },
    {
      "epoch": 0.4579166666666667,
      "grad_norm": 1.126354694366455,
      "learning_rate": 0.00017083257486920505,
      "loss": 3.803,
      "step": 219800
    },
    {
      "epoch": 0.4579375,
      "grad_norm": 0.8089721202850342,
      "learning_rate": 0.00017082281181227354,
      "loss": 3.6747,
      "step": 219810
    },
    {
      "epoch": 0.45795833333333336,
      "grad_norm": 0.8141598105430603,
      "learning_rate": 0.00017081304866539568,
      "loss": 4.0536,
      "step": 219820
    },
    {
      "epoch": 0.45797916666666666,
      "grad_norm": 0.8438182473182678,
      "learning_rate": 0.0001708032854286137,
      "loss": 3.9391,
      "step": 219830
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.8800124526023865,
      "learning_rate": 0.00017079352210196987,
      "loss": 3.9106,
      "step": 219840
    },
    {
      "epoch": 0.4580208333333333,
      "grad_norm": 0.8757613897323608,
      "learning_rate": 0.00017078375868550616,
      "loss": 3.8149,
      "step": 219850
    },
    {
      "epoch": 0.4580416666666667,
      "grad_norm": 0.8027430772781372,
      "learning_rate": 0.0001707739951792648,
      "loss": 4.0731,
      "step": 219860
    },
    {
      "epoch": 0.4580625,
      "grad_norm": 1.0092556476593018,
      "learning_rate": 0.0001707642315832881,
      "loss": 3.8409,
      "step": 219870
    },
    {
      "epoch": 0.45808333333333334,
      "grad_norm": 1.1180908679962158,
      "learning_rate": 0.0001707544678976181,
      "loss": 4.0035,
      "step": 219880
    },
    {
      "epoch": 0.45810416666666665,
      "grad_norm": 0.830043613910675,
      "learning_rate": 0.000170744704122297,
      "loss": 3.828,
      "step": 219890
    },
    {
      "epoch": 0.458125,
      "grad_norm": 0.9532729387283325,
      "learning_rate": 0.00017073494025736702,
      "loss": 3.9845,
      "step": 219900
    },
    {
      "epoch": 0.4581458333333333,
      "grad_norm": 1.2138880491256714,
      "learning_rate": 0.00017072517630287027,
      "loss": 3.6852,
      "step": 219910
    },
    {
      "epoch": 0.45816666666666667,
      "grad_norm": 0.854812502861023,
      "learning_rate": 0.000170715412258849,
      "loss": 3.9947,
      "step": 219920
    },
    {
      "epoch": 0.4581875,
      "grad_norm": 0.8078968524932861,
      "learning_rate": 0.0001707056481253453,
      "loss": 3.9911,
      "step": 219930
    },
    {
      "epoch": 0.45820833333333333,
      "grad_norm": 0.8229854702949524,
      "learning_rate": 0.00017069588390240142,
      "loss": 3.9183,
      "step": 219940
    },
    {
      "epoch": 0.4582291666666667,
      "grad_norm": 0.8530083894729614,
      "learning_rate": 0.00017068611959005953,
      "loss": 3.7772,
      "step": 219950
    },
    {
      "epoch": 0.45825,
      "grad_norm": 0.8327871561050415,
      "learning_rate": 0.00017067635518836177,
      "loss": 3.8277,
      "step": 219960
    },
    {
      "epoch": 0.45827083333333335,
      "grad_norm": 0.9016032218933105,
      "learning_rate": 0.00017066659069735034,
      "loss": 3.8927,
      "step": 219970
    },
    {
      "epoch": 0.45829166666666665,
      "grad_norm": 0.835719883441925,
      "learning_rate": 0.00017065682611706748,
      "loss": 3.9545,
      "step": 219980
    },
    {
      "epoch": 0.4583125,
      "grad_norm": 0.8620080947875977,
      "learning_rate": 0.0001706470614475552,
      "loss": 3.8627,
      "step": 219990
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 1.0605063438415527,
      "learning_rate": 0.00017063729668885584,
      "loss": 3.8751,
      "step": 220000
    },
    {
      "epoch": 0.4583333333333333,
      "eval_loss": 3.617424726486206,
      "eval_runtime": 7.2176,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.416,
      "step": 220000
    },
    {
      "epoch": 0.4583541666666667,
      "grad_norm": 2.0151758193969727,
      "learning_rate": 0.00017062753184101154,
      "loss": 4.0869,
      "step": 220010
    },
    {
      "epoch": 0.458375,
      "grad_norm": 1.057873249053955,
      "learning_rate": 0.00017061776690406447,
      "loss": 3.9329,
      "step": 220020
    },
    {
      "epoch": 0.45839583333333334,
      "grad_norm": 0.8461900949478149,
      "learning_rate": 0.00017060800187805678,
      "loss": 4.071,
      "step": 220030
    },
    {
      "epoch": 0.45841666666666664,
      "grad_norm": 0.894443154335022,
      "learning_rate": 0.00017059823676303067,
      "loss": 3.9108,
      "step": 220040
    },
    {
      "epoch": 0.4584375,
      "grad_norm": 0.8787367343902588,
      "learning_rate": 0.0001705884715590284,
      "loss": 3.9512,
      "step": 220050
    },
    {
      "epoch": 0.45845833333333336,
      "grad_norm": 1.0470563173294067,
      "learning_rate": 0.000170578706266092,
      "loss": 3.8725,
      "step": 220060
    },
    {
      "epoch": 0.45847916666666666,
      "grad_norm": 0.8543733954429626,
      "learning_rate": 0.00017056894088426377,
      "loss": 3.851,
      "step": 220070
    },
    {
      "epoch": 0.4585,
      "grad_norm": 0.9411627650260925,
      "learning_rate": 0.00017055917541358587,
      "loss": 4.1507,
      "step": 220080
    },
    {
      "epoch": 0.4585208333333333,
      "grad_norm": 0.8284258842468262,
      "learning_rate": 0.00017054940985410043,
      "loss": 4.0283,
      "step": 220090
    },
    {
      "epoch": 0.4585416666666667,
      "grad_norm": 0.8121176362037659,
      "learning_rate": 0.0001705396442058497,
      "loss": 3.7447,
      "step": 220100
    },
    {
      "epoch": 0.4585625,
      "grad_norm": 1.0994936227798462,
      "learning_rate": 0.00017052987846887587,
      "loss": 3.7948,
      "step": 220110
    },
    {
      "epoch": 0.45858333333333334,
      "grad_norm": 0.7934680581092834,
      "learning_rate": 0.00017052011264322105,
      "loss": 3.806,
      "step": 220120
    },
    {
      "epoch": 0.45860416666666665,
      "grad_norm": 0.8646820187568665,
      "learning_rate": 0.00017051034672892746,
      "loss": 3.9591,
      "step": 220130
    },
    {
      "epoch": 0.458625,
      "grad_norm": 0.8350728750228882,
      "learning_rate": 0.00017050058072603732,
      "loss": 3.8685,
      "step": 220140
    },
    {
      "epoch": 0.4586458333333333,
      "grad_norm": 0.8943337798118591,
      "learning_rate": 0.00017049081463459278,
      "loss": 3.9114,
      "step": 220150
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 0.8424862027168274,
      "learning_rate": 0.000170481048454636,
      "loss": 3.8544,
      "step": 220160
    },
    {
      "epoch": 0.4586875,
      "grad_norm": 0.9710776805877686,
      "learning_rate": 0.0001704712821862092,
      "loss": 4.0664,
      "step": 220170
    },
    {
      "epoch": 0.45870833333333333,
      "grad_norm": 0.7937674522399902,
      "learning_rate": 0.00017046151582935463,
      "loss": 4.1062,
      "step": 220180
    },
    {
      "epoch": 0.4587291666666667,
      "grad_norm": 0.8938295841217041,
      "learning_rate": 0.00017045174938411434,
      "loss": 3.8751,
      "step": 220190
    },
    {
      "epoch": 0.45875,
      "grad_norm": 0.8587178587913513,
      "learning_rate": 0.00017044198285053063,
      "loss": 3.9019,
      "step": 220200
    },
    {
      "epoch": 0.45877083333333335,
      "grad_norm": 0.8922210335731506,
      "learning_rate": 0.00017043221622864562,
      "loss": 3.7851,
      "step": 220210
    },
    {
      "epoch": 0.45879166666666665,
      "grad_norm": 0.8020497560501099,
      "learning_rate": 0.00017042244951850154,
      "loss": 3.925,
      "step": 220220
    },
    {
      "epoch": 0.4588125,
      "grad_norm": 0.9603097438812256,
      "learning_rate": 0.00017041268272014056,
      "loss": 3.8942,
      "step": 220230
    },
    {
      "epoch": 0.4588333333333333,
      "grad_norm": 0.8408841490745544,
      "learning_rate": 0.00017040291583360486,
      "loss": 3.6644,
      "step": 220240
    },
    {
      "epoch": 0.4588541666666667,
      "grad_norm": 0.9570205211639404,
      "learning_rate": 0.00017039314885893664,
      "loss": 3.7909,
      "step": 220250
    },
    {
      "epoch": 0.458875,
      "grad_norm": 0.8294163942337036,
      "learning_rate": 0.00017038338179617809,
      "loss": 3.9544,
      "step": 220260
    },
    {
      "epoch": 0.45889583333333334,
      "grad_norm": 0.8456342816352844,
      "learning_rate": 0.00017037361464537141,
      "loss": 4.0125,
      "step": 220270
    },
    {
      "epoch": 0.45891666666666664,
      "grad_norm": 1.1849321126937866,
      "learning_rate": 0.00017036384740655875,
      "loss": 3.8954,
      "step": 220280
    },
    {
      "epoch": 0.4589375,
      "grad_norm": 0.9283498525619507,
      "learning_rate": 0.00017035408007978238,
      "loss": 3.9216,
      "step": 220290
    },
    {
      "epoch": 0.45895833333333336,
      "grad_norm": 1.0552634000778198,
      "learning_rate": 0.0001703443126650844,
      "loss": 3.6993,
      "step": 220300
    },
    {
      "epoch": 0.45897916666666666,
      "grad_norm": 1.0183274745941162,
      "learning_rate": 0.00017033454516250703,
      "loss": 3.7534,
      "step": 220310
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.7639197707176208,
      "learning_rate": 0.0001703247775720925,
      "loss": 3.9506,
      "step": 220320
    },
    {
      "epoch": 0.4590208333333333,
      "grad_norm": 1.0411581993103027,
      "learning_rate": 0.00017031500989388298,
      "loss": 3.8717,
      "step": 220330
    },
    {
      "epoch": 0.4590416666666667,
      "grad_norm": 0.8642182350158691,
      "learning_rate": 0.0001703052421279207,
      "loss": 3.9347,
      "step": 220340
    },
    {
      "epoch": 0.4590625,
      "grad_norm": 0.8358321785926819,
      "learning_rate": 0.00017029547427424775,
      "loss": 3.7774,
      "step": 220350
    },
    {
      "epoch": 0.45908333333333334,
      "grad_norm": 0.9240996837615967,
      "learning_rate": 0.0001702857063329064,
      "loss": 3.9736,
      "step": 220360
    },
    {
      "epoch": 0.45910416666666665,
      "grad_norm": 0.9168418049812317,
      "learning_rate": 0.00017027593830393884,
      "loss": 3.88,
      "step": 220370
    },
    {
      "epoch": 0.459125,
      "grad_norm": 0.7773339748382568,
      "learning_rate": 0.00017026617018738724,
      "loss": 4.0861,
      "step": 220380
    },
    {
      "epoch": 0.4591458333333333,
      "grad_norm": 0.8452191948890686,
      "learning_rate": 0.00017025640198329374,
      "loss": 3.9038,
      "step": 220390
    },
    {
      "epoch": 0.45916666666666667,
      "grad_norm": 0.8397432565689087,
      "learning_rate": 0.0001702466336917007,
      "loss": 3.9463,
      "step": 220400
    },
    {
      "epoch": 0.4591875,
      "grad_norm": 0.8468371629714966,
      "learning_rate": 0.0001702368653126502,
      "loss": 3.8103,
      "step": 220410
    },
    {
      "epoch": 0.45920833333333333,
      "grad_norm": 0.931256115436554,
      "learning_rate": 0.00017022709684618443,
      "loss": 4.0167,
      "step": 220420
    },
    {
      "epoch": 0.4592291666666667,
      "grad_norm": 1.0293807983398438,
      "learning_rate": 0.0001702173282923456,
      "loss": 3.8323,
      "step": 220430
    },
    {
      "epoch": 0.45925,
      "grad_norm": 0.908776044845581,
      "learning_rate": 0.00017020755965117595,
      "loss": 3.732,
      "step": 220440
    },
    {
      "epoch": 0.45927083333333335,
      "grad_norm": 0.8412476181983948,
      "learning_rate": 0.00017019779092271762,
      "loss": 4.0035,
      "step": 220450
    },
    {
      "epoch": 0.45929166666666665,
      "grad_norm": 0.9729569554328918,
      "learning_rate": 0.00017018802210701283,
      "loss": 3.9852,
      "step": 220460
    },
    {
      "epoch": 0.4593125,
      "grad_norm": 0.8335825204849243,
      "learning_rate": 0.00017017825320410376,
      "loss": 3.8497,
      "step": 220470
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 1.0350202322006226,
      "learning_rate": 0.00017016848421403264,
      "loss": 3.9528,
      "step": 220480
    },
    {
      "epoch": 0.4593541666666667,
      "grad_norm": 0.8789610862731934,
      "learning_rate": 0.00017015871513684162,
      "loss": 3.9096,
      "step": 220490
    },
    {
      "epoch": 0.459375,
      "grad_norm": 0.8264154195785522,
      "learning_rate": 0.00017014894597257296,
      "loss": 3.9318,
      "step": 220500
    },
    {
      "epoch": 0.45939583333333334,
      "grad_norm": 0.8346503973007202,
      "learning_rate": 0.0001701391767212689,
      "loss": 3.9326,
      "step": 220510
    },
    {
      "epoch": 0.45941666666666664,
      "grad_norm": 0.8489131331443787,
      "learning_rate": 0.00017012940738297144,
      "loss": 3.8468,
      "step": 220520
    },
    {
      "epoch": 0.4594375,
      "grad_norm": 0.9688860774040222,
      "learning_rate": 0.00017011963795772293,
      "loss": 3.7894,
      "step": 220530
    },
    {
      "epoch": 0.45945833333333336,
      "grad_norm": 0.9541168212890625,
      "learning_rate": 0.00017010986844556562,
      "loss": 3.7132,
      "step": 220540
    },
    {
      "epoch": 0.45947916666666666,
      "grad_norm": 0.9099850654602051,
      "learning_rate": 0.00017010009884654162,
      "loss": 4.0685,
      "step": 220550
    },
    {
      "epoch": 0.4595,
      "grad_norm": 0.8785584568977356,
      "learning_rate": 0.00017009032916069308,
      "loss": 3.7719,
      "step": 220560
    },
    {
      "epoch": 0.4595208333333333,
      "grad_norm": 0.8902096152305603,
      "learning_rate": 0.00017008055938806237,
      "loss": 3.8231,
      "step": 220570
    },
    {
      "epoch": 0.4595416666666667,
      "grad_norm": 0.7668237686157227,
      "learning_rate": 0.00017007078952869153,
      "loss": 3.9547,
      "step": 220580
    },
    {
      "epoch": 0.4595625,
      "grad_norm": 0.8758962154388428,
      "learning_rate": 0.00017006101958262285,
      "loss": 4.0776,
      "step": 220590
    },
    {
      "epoch": 0.45958333333333334,
      "grad_norm": 0.9694839715957642,
      "learning_rate": 0.00017005124954989846,
      "loss": 3.8222,
      "step": 220600
    },
    {
      "epoch": 0.45960416666666665,
      "grad_norm": 1.037779688835144,
      "learning_rate": 0.00017004147943056063,
      "loss": 4.0321,
      "step": 220610
    },
    {
      "epoch": 0.459625,
      "grad_norm": 0.8853608965873718,
      "learning_rate": 0.00017003170922465157,
      "loss": 3.8644,
      "step": 220620
    },
    {
      "epoch": 0.4596458333333333,
      "grad_norm": 0.7980743050575256,
      "learning_rate": 0.00017002193893221344,
      "loss": 3.8136,
      "step": 220630
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 0.8612512350082397,
      "learning_rate": 0.00017001216855328844,
      "loss": 3.9544,
      "step": 220640
    },
    {
      "epoch": 0.4596875,
      "grad_norm": 0.7979907393455505,
      "learning_rate": 0.00017000239808791885,
      "loss": 3.9349,
      "step": 220650
    },
    {
      "epoch": 0.45970833333333333,
      "grad_norm": 0.8452754616737366,
      "learning_rate": 0.00016999262753614674,
      "loss": 3.9114,
      "step": 220660
    },
    {
      "epoch": 0.4597291666666667,
      "grad_norm": 0.9323638677597046,
      "learning_rate": 0.0001699828568980144,
      "loss": 3.8593,
      "step": 220670
    },
    {
      "epoch": 0.45975,
      "grad_norm": 0.8151514530181885,
      "learning_rate": 0.00016997308617356413,
      "loss": 3.6543,
      "step": 220680
    },
    {
      "epoch": 0.45977083333333335,
      "grad_norm": 0.8883846402168274,
      "learning_rate": 0.00016996331536283792,
      "loss": 3.7529,
      "step": 220690
    },
    {
      "epoch": 0.45979166666666665,
      "grad_norm": 0.8308614492416382,
      "learning_rate": 0.00016995354446587812,
      "loss": 3.8237,
      "step": 220700
    },
    {
      "epoch": 0.4598125,
      "grad_norm": 0.8583954572677612,
      "learning_rate": 0.00016994377348272693,
      "loss": 4.0566,
      "step": 220710
    },
    {
      "epoch": 0.4598333333333333,
      "grad_norm": 0.7667905688285828,
      "learning_rate": 0.00016993400241342653,
      "loss": 3.7572,
      "step": 220720
    },
    {
      "epoch": 0.4598541666666667,
      "grad_norm": 0.9131093621253967,
      "learning_rate": 0.0001699242312580191,
      "loss": 4.0178,
      "step": 220730
    },
    {
      "epoch": 0.459875,
      "grad_norm": 0.9045702815055847,
      "learning_rate": 0.0001699144600165469,
      "loss": 4.0494,
      "step": 220740
    },
    {
      "epoch": 0.45989583333333334,
      "grad_norm": 1.0289586782455444,
      "learning_rate": 0.00016990468868905215,
      "loss": 4.1111,
      "step": 220750
    },
    {
      "epoch": 0.45991666666666664,
      "grad_norm": 0.9284413456916809,
      "learning_rate": 0.00016989491727557692,
      "loss": 3.8012,
      "step": 220760
    },
    {
      "epoch": 0.4599375,
      "grad_norm": 1.2265675067901611,
      "learning_rate": 0.00016988514577616365,
      "loss": 3.996,
      "step": 220770
    },
    {
      "epoch": 0.45995833333333336,
      "grad_norm": 0.9170169234275818,
      "learning_rate": 0.00016987537419085432,
      "loss": 3.9172,
      "step": 220780
    },
    {
      "epoch": 0.45997916666666666,
      "grad_norm": 0.827890157699585,
      "learning_rate": 0.0001698656025196913,
      "loss": 3.942,
      "step": 220790
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8830337524414062,
      "learning_rate": 0.0001698558307627167,
      "loss": 3.8523,
      "step": 220800
    },
    {
      "epoch": 0.4600208333333333,
      "grad_norm": 0.8630743026733398,
      "learning_rate": 0.0001698460589199728,
      "loss": 3.9328,
      "step": 220810
    },
    {
      "epoch": 0.4600416666666667,
      "grad_norm": 1.0817146301269531,
      "learning_rate": 0.00016983628699150178,
      "loss": 3.806,
      "step": 220820
    },
    {
      "epoch": 0.4600625,
      "grad_norm": 0.9639143943786621,
      "learning_rate": 0.00016982651497734585,
      "loss": 3.7161,
      "step": 220830
    },
    {
      "epoch": 0.46008333333333334,
      "grad_norm": 0.8532019257545471,
      "learning_rate": 0.00016981674287754717,
      "loss": 3.9073,
      "step": 220840
    },
    {
      "epoch": 0.46010416666666665,
      "grad_norm": 0.8508153557777405,
      "learning_rate": 0.0001698069706921481,
      "loss": 3.9055,
      "step": 220850
    },
    {
      "epoch": 0.460125,
      "grad_norm": 0.9824305772781372,
      "learning_rate": 0.0001697971984211907,
      "loss": 3.8459,
      "step": 220860
    },
    {
      "epoch": 0.4601458333333333,
      "grad_norm": 0.8290397524833679,
      "learning_rate": 0.00016978742606471722,
      "loss": 3.8337,
      "step": 220870
    },
    {
      "epoch": 0.46016666666666667,
      "grad_norm": 0.843130350112915,
      "learning_rate": 0.00016977765362276995,
      "loss": 3.906,
      "step": 220880
    },
    {
      "epoch": 0.4601875,
      "grad_norm": 0.870324432849884,
      "learning_rate": 0.000169767881095391,
      "loss": 3.7448,
      "step": 220890
    },
    {
      "epoch": 0.46020833333333333,
      "grad_norm": 0.8893743753433228,
      "learning_rate": 0.00016975810848262265,
      "loss": 3.7446,
      "step": 220900
    },
    {
      "epoch": 0.4602291666666667,
      "grad_norm": 0.8342270851135254,
      "learning_rate": 0.0001697483357845071,
      "loss": 3.9016,
      "step": 220910
    },
    {
      "epoch": 0.46025,
      "grad_norm": 0.8566887378692627,
      "learning_rate": 0.00016973856300108654,
      "loss": 3.9549,
      "step": 220920
    },
    {
      "epoch": 0.46027083333333335,
      "grad_norm": 0.8952823281288147,
      "learning_rate": 0.0001697287901324032,
      "loss": 3.9705,
      "step": 220930
    },
    {
      "epoch": 0.46029166666666665,
      "grad_norm": 0.8835272789001465,
      "learning_rate": 0.0001697190171784993,
      "loss": 3.9413,
      "step": 220940
    },
    {
      "epoch": 0.4603125,
      "grad_norm": 1.0356934070587158,
      "learning_rate": 0.00016970924413941705,
      "loss": 3.8596,
      "step": 220950
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 0.8615540266036987,
      "learning_rate": 0.00016969947101519865,
      "loss": 3.7476,
      "step": 220960
    },
    {
      "epoch": 0.4603541666666667,
      "grad_norm": 0.8154228925704956,
      "learning_rate": 0.00016968969780588634,
      "loss": 3.8268,
      "step": 220970
    },
    {
      "epoch": 0.460375,
      "grad_norm": 0.9413468837738037,
      "learning_rate": 0.00016967992451152235,
      "loss": 3.9134,
      "step": 220980
    },
    {
      "epoch": 0.46039583333333334,
      "grad_norm": 0.8675835728645325,
      "learning_rate": 0.0001696701511321489,
      "loss": 3.796,
      "step": 220990
    },
    {
      "epoch": 0.46041666666666664,
      "grad_norm": 0.8093112707138062,
      "learning_rate": 0.0001696603776678081,
      "loss": 4.0225,
      "step": 221000
    },
    {
      "epoch": 0.46041666666666664,
      "eval_loss": 3.6357834339141846,
      "eval_runtime": 6.8455,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 221000
    },
    {
      "epoch": 0.4604375,
      "grad_norm": 2.0177712440490723,
      "learning_rate": 0.0001696506041185423,
      "loss": 3.9812,
      "step": 221010
    },
    {
      "epoch": 0.46045833333333336,
      "grad_norm": 0.8295120000839233,
      "learning_rate": 0.00016964083048439372,
      "loss": 3.7683,
      "step": 221020
    },
    {
      "epoch": 0.46047916666666666,
      "grad_norm": 1.3199067115783691,
      "learning_rate": 0.00016963105676540445,
      "loss": 3.8479,
      "step": 221030
    },
    {
      "epoch": 0.4605,
      "grad_norm": 0.9782899022102356,
      "learning_rate": 0.00016962128296161676,
      "loss": 3.6743,
      "step": 221040
    },
    {
      "epoch": 0.4605208333333333,
      "grad_norm": 0.9084070324897766,
      "learning_rate": 0.000169611509073073,
      "loss": 3.8195,
      "step": 221050
    },
    {
      "epoch": 0.4605416666666667,
      "grad_norm": 0.8441003561019897,
      "learning_rate": 0.00016960173509981518,
      "loss": 3.8935,
      "step": 221060
    },
    {
      "epoch": 0.4605625,
      "grad_norm": 0.8753429651260376,
      "learning_rate": 0.00016959196104188572,
      "loss": 3.8895,
      "step": 221070
    },
    {
      "epoch": 0.46058333333333334,
      "grad_norm": 0.8004565238952637,
      "learning_rate": 0.00016958218689932668,
      "loss": 3.8898,
      "step": 221080
    },
    {
      "epoch": 0.46060416666666665,
      "grad_norm": 0.7496411204338074,
      "learning_rate": 0.00016957241267218036,
      "loss": 3.9756,
      "step": 221090
    },
    {
      "epoch": 0.460625,
      "grad_norm": 0.8794045448303223,
      "learning_rate": 0.00016956263836048895,
      "loss": 3.7036,
      "step": 221100
    },
    {
      "epoch": 0.4606458333333333,
      "grad_norm": 0.8113813400268555,
      "learning_rate": 0.00016955286396429467,
      "loss": 3.9414,
      "step": 221110
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 0.8344934582710266,
      "learning_rate": 0.00016954308948363982,
      "loss": 3.9553,
      "step": 221120
    },
    {
      "epoch": 0.4606875,
      "grad_norm": 0.8696860671043396,
      "learning_rate": 0.00016953331491856652,
      "loss": 3.9853,
      "step": 221130
    },
    {
      "epoch": 0.46070833333333333,
      "grad_norm": 0.8899442553520203,
      "learning_rate": 0.00016952354026911702,
      "loss": 3.9475,
      "step": 221140
    },
    {
      "epoch": 0.4607291666666667,
      "grad_norm": 0.9643768668174744,
      "learning_rate": 0.00016951376553533357,
      "loss": 4.0386,
      "step": 221150
    },
    {
      "epoch": 0.46075,
      "grad_norm": 0.8425867557525635,
      "learning_rate": 0.0001695039907172584,
      "loss": 3.8298,
      "step": 221160
    },
    {
      "epoch": 0.46077083333333335,
      "grad_norm": 1.5841013193130493,
      "learning_rate": 0.00016949421581493365,
      "loss": 3.9283,
      "step": 221170
    },
    {
      "epoch": 0.46079166666666665,
      "grad_norm": 1.0355290174484253,
      "learning_rate": 0.00016948444082840163,
      "loss": 3.8653,
      "step": 221180
    },
    {
      "epoch": 0.4608125,
      "grad_norm": 0.8113834857940674,
      "learning_rate": 0.00016947466575770455,
      "loss": 3.7634,
      "step": 221190
    },
    {
      "epoch": 0.4608333333333333,
      "grad_norm": 0.7920909523963928,
      "learning_rate": 0.00016946489060288463,
      "loss": 3.8475,
      "step": 221200
    },
    {
      "epoch": 0.4608541666666667,
      "grad_norm": 0.855405330657959,
      "learning_rate": 0.0001694551153639841,
      "loss": 4.0946,
      "step": 221210
    },
    {
      "epoch": 0.460875,
      "grad_norm": 0.87706059217453,
      "learning_rate": 0.00016944534004104515,
      "loss": 3.8084,
      "step": 221220
    },
    {
      "epoch": 0.46089583333333334,
      "grad_norm": 0.904661238193512,
      "learning_rate": 0.00016943556463411,
      "loss": 3.9357,
      "step": 221230
    },
    {
      "epoch": 0.46091666666666664,
      "grad_norm": 0.9003174304962158,
      "learning_rate": 0.00016942578914322097,
      "loss": 3.839,
      "step": 221240
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 0.9773093461990356,
      "learning_rate": 0.00016941601356842018,
      "loss": 4.0263,
      "step": 221250
    },
    {
      "epoch": 0.46095833333333336,
      "grad_norm": 0.7858017683029175,
      "learning_rate": 0.00016940623790974985,
      "loss": 3.8654,
      "step": 221260
    },
    {
      "epoch": 0.46097916666666666,
      "grad_norm": 0.8477392196655273,
      "learning_rate": 0.00016939646216725235,
      "loss": 3.9729,
      "step": 221270
    },
    {
      "epoch": 0.461,
      "grad_norm": 1.0946009159088135,
      "learning_rate": 0.00016938668634096976,
      "loss": 3.7081,
      "step": 221280
    },
    {
      "epoch": 0.4610208333333333,
      "grad_norm": 0.821381688117981,
      "learning_rate": 0.00016937691043094436,
      "loss": 3.8698,
      "step": 221290
    },
    {
      "epoch": 0.4610416666666667,
      "grad_norm": 0.8444725275039673,
      "learning_rate": 0.00016936713443721838,
      "loss": 3.9564,
      "step": 221300
    },
    {
      "epoch": 0.4610625,
      "grad_norm": 0.9504140019416809,
      "learning_rate": 0.00016935735835983405,
      "loss": 4.0478,
      "step": 221310
    },
    {
      "epoch": 0.46108333333333335,
      "grad_norm": 1.1876624822616577,
      "learning_rate": 0.00016934758219883358,
      "loss": 3.9295,
      "step": 221320
    },
    {
      "epoch": 0.46110416666666665,
      "grad_norm": 0.8570296168327332,
      "learning_rate": 0.00016933780595425923,
      "loss": 3.9916,
      "step": 221330
    },
    {
      "epoch": 0.461125,
      "grad_norm": 0.8675852417945862,
      "learning_rate": 0.0001693280296261532,
      "loss": 3.7959,
      "step": 221340
    },
    {
      "epoch": 0.4611458333333333,
      "grad_norm": 0.8321706056594849,
      "learning_rate": 0.00016931825321455773,
      "loss": 3.8423,
      "step": 221350
    },
    {
      "epoch": 0.46116666666666667,
      "grad_norm": 0.7854134440422058,
      "learning_rate": 0.00016930847671951509,
      "loss": 3.8409,
      "step": 221360
    },
    {
      "epoch": 0.4611875,
      "grad_norm": 0.8369006514549255,
      "learning_rate": 0.0001692987001410674,
      "loss": 3.9296,
      "step": 221370
    },
    {
      "epoch": 0.46120833333333333,
      "grad_norm": 0.8540485501289368,
      "learning_rate": 0.00016928892347925704,
      "loss": 3.7252,
      "step": 221380
    },
    {
      "epoch": 0.4612291666666667,
      "grad_norm": 0.8697185516357422,
      "learning_rate": 0.00016927914673412611,
      "loss": 3.8726,
      "step": 221390
    },
    {
      "epoch": 0.46125,
      "grad_norm": 0.8353513479232788,
      "learning_rate": 0.00016926936990571692,
      "loss": 3.8908,
      "step": 221400
    },
    {
      "epoch": 0.46127083333333335,
      "grad_norm": 0.8615142107009888,
      "learning_rate": 0.0001692595929940717,
      "loss": 4.0401,
      "step": 221410
    },
    {
      "epoch": 0.46129166666666666,
      "grad_norm": 0.8350757956504822,
      "learning_rate": 0.00016924981599923265,
      "loss": 3.6197,
      "step": 221420
    },
    {
      "epoch": 0.4613125,
      "grad_norm": 0.8468638062477112,
      "learning_rate": 0.00016924003892124196,
      "loss": 3.774,
      "step": 221430
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 0.8952828049659729,
      "learning_rate": 0.00016923026176014202,
      "loss": 3.8941,
      "step": 221440
    },
    {
      "epoch": 0.4613541666666667,
      "grad_norm": 1.4119431972503662,
      "learning_rate": 0.0001692204845159749,
      "loss": 3.7723,
      "step": 221450
    },
    {
      "epoch": 0.461375,
      "grad_norm": 0.8793075680732727,
      "learning_rate": 0.00016921070718878286,
      "loss": 3.7816,
      "step": 221460
    },
    {
      "epoch": 0.46139583333333334,
      "grad_norm": 0.9195662140846252,
      "learning_rate": 0.00016920092977860824,
      "loss": 3.8575,
      "step": 221470
    },
    {
      "epoch": 0.46141666666666664,
      "grad_norm": 0.9517173171043396,
      "learning_rate": 0.00016919115228549315,
      "loss": 4.0805,
      "step": 221480
    },
    {
      "epoch": 0.4614375,
      "grad_norm": 0.9194939732551575,
      "learning_rate": 0.00016918137470947993,
      "loss": 3.7592,
      "step": 221490
    },
    {
      "epoch": 0.46145833333333336,
      "grad_norm": 0.808194100856781,
      "learning_rate": 0.00016917159705061072,
      "loss": 4.0376,
      "step": 221500
    },
    {
      "epoch": 0.46147916666666666,
      "grad_norm": 0.8737865090370178,
      "learning_rate": 0.0001691618193089278,
      "loss": 3.9259,
      "step": 221510
    },
    {
      "epoch": 0.4615,
      "grad_norm": 0.8663808107376099,
      "learning_rate": 0.00016915204148447349,
      "loss": 3.6396,
      "step": 221520
    },
    {
      "epoch": 0.4615208333333333,
      "grad_norm": 0.8502463698387146,
      "learning_rate": 0.00016914226357728982,
      "loss": 3.8829,
      "step": 221530
    },
    {
      "epoch": 0.4615416666666667,
      "grad_norm": 0.8811983466148376,
      "learning_rate": 0.00016913248558741918,
      "loss": 3.8997,
      "step": 221540
    },
    {
      "epoch": 0.4615625,
      "grad_norm": 0.8633598685264587,
      "learning_rate": 0.00016912270751490383,
      "loss": 3.7857,
      "step": 221550
    },
    {
      "epoch": 0.46158333333333335,
      "grad_norm": 0.9845695495605469,
      "learning_rate": 0.0001691129293597859,
      "loss": 3.9134,
      "step": 221560
    },
    {
      "epoch": 0.46160416666666665,
      "grad_norm": 0.853140115737915,
      "learning_rate": 0.0001691031511221077,
      "loss": 3.8399,
      "step": 221570
    },
    {
      "epoch": 0.461625,
      "grad_norm": 0.8396543264389038,
      "learning_rate": 0.00016909337280191148,
      "loss": 3.9177,
      "step": 221580
    },
    {
      "epoch": 0.4616458333333333,
      "grad_norm": 0.9006116390228271,
      "learning_rate": 0.0001690835943992394,
      "loss": 3.9275,
      "step": 221590
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 0.8413054347038269,
      "learning_rate": 0.00016907381591413373,
      "loss": 3.6766,
      "step": 221600
    },
    {
      "epoch": 0.4616875,
      "grad_norm": 0.7309818863868713,
      "learning_rate": 0.0001690640373466368,
      "loss": 3.7505,
      "step": 221610
    },
    {
      "epoch": 0.46170833333333333,
      "grad_norm": 0.8460456728935242,
      "learning_rate": 0.0001690542586967907,
      "loss": 3.8575,
      "step": 221620
    },
    {
      "epoch": 0.4617291666666667,
      "grad_norm": 0.9328640699386597,
      "learning_rate": 0.00016904447996463775,
      "loss": 3.9101,
      "step": 221630
    },
    {
      "epoch": 0.46175,
      "grad_norm": 1.0110446214675903,
      "learning_rate": 0.00016903470115022028,
      "loss": 3.7598,
      "step": 221640
    },
    {
      "epoch": 0.46177083333333335,
      "grad_norm": 0.8295832276344299,
      "learning_rate": 0.00016902492225358032,
      "loss": 3.825,
      "step": 221650
    },
    {
      "epoch": 0.46179166666666666,
      "grad_norm": 0.9848256707191467,
      "learning_rate": 0.00016901514327476028,
      "loss": 3.8451,
      "step": 221660
    },
    {
      "epoch": 0.4618125,
      "grad_norm": 0.9523215889930725,
      "learning_rate": 0.00016900536421380233,
      "loss": 3.8279,
      "step": 221670
    },
    {
      "epoch": 0.4618333333333333,
      "grad_norm": 0.939068078994751,
      "learning_rate": 0.00016899558507074873,
      "loss": 4.0144,
      "step": 221680
    },
    {
      "epoch": 0.4618541666666667,
      "grad_norm": 1.2454229593276978,
      "learning_rate": 0.00016898580584564173,
      "loss": 4.0237,
      "step": 221690
    },
    {
      "epoch": 0.461875,
      "grad_norm": 0.891264796257019,
      "learning_rate": 0.00016897602653852357,
      "loss": 3.9586,
      "step": 221700
    },
    {
      "epoch": 0.46189583333333334,
      "grad_norm": 0.9073362946510315,
      "learning_rate": 0.0001689662471494365,
      "loss": 3.8725,
      "step": 221710
    },
    {
      "epoch": 0.46191666666666664,
      "grad_norm": 0.8179078102111816,
      "learning_rate": 0.00016895646767842276,
      "loss": 3.6944,
      "step": 221720
    },
    {
      "epoch": 0.4619375,
      "grad_norm": 0.9509559869766235,
      "learning_rate": 0.0001689466881255245,
      "loss": 3.702,
      "step": 221730
    },
    {
      "epoch": 0.46195833333333336,
      "grad_norm": 0.8306550979614258,
      "learning_rate": 0.0001689369084907841,
      "loss": 4.0348,
      "step": 221740
    },
    {
      "epoch": 0.46197916666666666,
      "grad_norm": 0.9702943563461304,
      "learning_rate": 0.00016892712877424377,
      "loss": 3.8272,
      "step": 221750
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.8638244867324829,
      "learning_rate": 0.0001689173489759457,
      "loss": 3.7709,
      "step": 221760
    },
    {
      "epoch": 0.4620208333333333,
      "grad_norm": 0.8624293804168701,
      "learning_rate": 0.0001689075690959322,
      "loss": 4.1161,
      "step": 221770
    },
    {
      "epoch": 0.4620416666666667,
      "grad_norm": 1.108768105506897,
      "learning_rate": 0.0001688977891342455,
      "loss": 3.9749,
      "step": 221780
    },
    {
      "epoch": 0.4620625,
      "grad_norm": 0.8827335834503174,
      "learning_rate": 0.0001688880090909278,
      "loss": 3.8059,
      "step": 221790
    },
    {
      "epoch": 0.46208333333333335,
      "grad_norm": 0.9033065438270569,
      "learning_rate": 0.00016887822896602137,
      "loss": 3.7741,
      "step": 221800
    },
    {
      "epoch": 0.46210416666666665,
      "grad_norm": 0.861600399017334,
      "learning_rate": 0.00016886844875956846,
      "loss": 3.764,
      "step": 221810
    },
    {
      "epoch": 0.462125,
      "grad_norm": 0.8013493418693542,
      "learning_rate": 0.00016885866847161135,
      "loss": 3.7527,
      "step": 221820
    },
    {
      "epoch": 0.4621458333333333,
      "grad_norm": 0.8066174983978271,
      "learning_rate": 0.00016884888810219224,
      "loss": 3.6643,
      "step": 221830
    },
    {
      "epoch": 0.46216666666666667,
      "grad_norm": 0.8703888058662415,
      "learning_rate": 0.0001688391076513534,
      "loss": 3.9012,
      "step": 221840
    },
    {
      "epoch": 0.4621875,
      "grad_norm": 1.0059751272201538,
      "learning_rate": 0.00016882932711913707,
      "loss": 3.8439,
      "step": 221850
    },
    {
      "epoch": 0.46220833333333333,
      "grad_norm": 0.8579201698303223,
      "learning_rate": 0.00016881954650558548,
      "loss": 3.9337,
      "step": 221860
    },
    {
      "epoch": 0.4622291666666667,
      "grad_norm": 0.940744936466217,
      "learning_rate": 0.00016880976581074093,
      "loss": 3.8601,
      "step": 221870
    },
    {
      "epoch": 0.46225,
      "grad_norm": 0.8558392524719238,
      "learning_rate": 0.00016879998503464561,
      "loss": 3.7656,
      "step": 221880
    },
    {
      "epoch": 0.46227083333333335,
      "grad_norm": 0.8738428950309753,
      "learning_rate": 0.00016879020417734182,
      "loss": 3.9445,
      "step": 221890
    },
    {
      "epoch": 0.46229166666666666,
      "grad_norm": 0.8680160045623779,
      "learning_rate": 0.00016878042323887176,
      "loss": 3.8862,
      "step": 221900
    },
    {
      "epoch": 0.4623125,
      "grad_norm": 0.8172851800918579,
      "learning_rate": 0.00016877064221927773,
      "loss": 3.6857,
      "step": 221910
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 1.007576823234558,
      "learning_rate": 0.00016876086111860197,
      "loss": 3.7972,
      "step": 221920
    },
    {
      "epoch": 0.4623541666666667,
      "grad_norm": 0.85983806848526,
      "learning_rate": 0.00016875107993688667,
      "loss": 3.8233,
      "step": 221930
    },
    {
      "epoch": 0.462375,
      "grad_norm": 0.8312495350837708,
      "learning_rate": 0.00016874129867417415,
      "loss": 3.8373,
      "step": 221940
    },
    {
      "epoch": 0.46239583333333334,
      "grad_norm": 0.9864541292190552,
      "learning_rate": 0.00016873151733050665,
      "loss": 3.9064,
      "step": 221950
    },
    {
      "epoch": 0.46241666666666664,
      "grad_norm": 0.9017166495323181,
      "learning_rate": 0.00016872173590592638,
      "loss": 3.8721,
      "step": 221960
    },
    {
      "epoch": 0.4624375,
      "grad_norm": 0.7978910803794861,
      "learning_rate": 0.0001687119544004757,
      "loss": 3.9041,
      "step": 221970
    },
    {
      "epoch": 0.46245833333333336,
      "grad_norm": 0.9366563558578491,
      "learning_rate": 0.0001687021728141967,
      "loss": 3.8473,
      "step": 221980
    },
    {
      "epoch": 0.46247916666666666,
      "grad_norm": 1.0147432088851929,
      "learning_rate": 0.0001686923911471317,
      "loss": 3.8387,
      "step": 221990
    },
    {
      "epoch": 0.4625,
      "grad_norm": 0.9348043203353882,
      "learning_rate": 0.00016868260939932305,
      "loss": 3.8398,
      "step": 222000
    },
    {
      "epoch": 0.4625,
      "eval_loss": 3.6328182220458984,
      "eval_runtime": 7.2952,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 222000
    },
    {
      "epoch": 0.4625208333333333,
      "grad_norm": 0.8192168474197388,
      "learning_rate": 0.00016867282757081285,
      "loss": 3.8832,
      "step": 222010
    },
    {
      "epoch": 0.4625416666666667,
      "grad_norm": 1.0010777711868286,
      "learning_rate": 0.0001686630456616435,
      "loss": 3.812,
      "step": 222020
    },
    {
      "epoch": 0.4625625,
      "grad_norm": 0.7994125485420227,
      "learning_rate": 0.0001686532636718571,
      "loss": 3.8799,
      "step": 222030
    },
    {
      "epoch": 0.46258333333333335,
      "grad_norm": 1.1698551177978516,
      "learning_rate": 0.00016864348160149605,
      "loss": 3.8543,
      "step": 222040
    },
    {
      "epoch": 0.46260416666666665,
      "grad_norm": 0.9166601896286011,
      "learning_rate": 0.00016863369945060248,
      "loss": 3.8988,
      "step": 222050
    },
    {
      "epoch": 0.462625,
      "grad_norm": 0.9997801780700684,
      "learning_rate": 0.00016862391721921872,
      "loss": 3.9194,
      "step": 222060
    },
    {
      "epoch": 0.4626458333333333,
      "grad_norm": 0.928161084651947,
      "learning_rate": 0.00016861413490738706,
      "loss": 3.9085,
      "step": 222070
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 1.075968623161316,
      "learning_rate": 0.00016860435251514963,
      "loss": 3.8527,
      "step": 222080
    },
    {
      "epoch": 0.4626875,
      "grad_norm": 0.9188548922538757,
      "learning_rate": 0.00016859457004254886,
      "loss": 3.8434,
      "step": 222090
    },
    {
      "epoch": 0.46270833333333333,
      "grad_norm": 0.8070860505104065,
      "learning_rate": 0.0001685847874896268,
      "loss": 3.849,
      "step": 222100
    },
    {
      "epoch": 0.4627291666666667,
      "grad_norm": 0.8036195039749146,
      "learning_rate": 0.0001685750048564259,
      "loss": 3.7603,
      "step": 222110
    },
    {
      "epoch": 0.46275,
      "grad_norm": 0.9597493410110474,
      "learning_rate": 0.00016856522214298827,
      "loss": 3.9141,
      "step": 222120
    },
    {
      "epoch": 0.46277083333333335,
      "grad_norm": 0.768947422504425,
      "learning_rate": 0.00016855543934935624,
      "loss": 3.8772,
      "step": 222130
    },
    {
      "epoch": 0.46279166666666666,
      "grad_norm": 0.9647091031074524,
      "learning_rate": 0.0001685456564755721,
      "loss": 3.8077,
      "step": 222140
    },
    {
      "epoch": 0.4628125,
      "grad_norm": 0.8088601231575012,
      "learning_rate": 0.00016853587352167804,
      "loss": 3.8839,
      "step": 222150
    },
    {
      "epoch": 0.4628333333333333,
      "grad_norm": 0.9176926016807556,
      "learning_rate": 0.00016852609048771634,
      "loss": 3.7892,
      "step": 222160
    },
    {
      "epoch": 0.4628541666666667,
      "grad_norm": 0.9581847190856934,
      "learning_rate": 0.00016851630737372926,
      "loss": 3.9444,
      "step": 222170
    },
    {
      "epoch": 0.462875,
      "grad_norm": 1.0047680139541626,
      "learning_rate": 0.00016850652417975905,
      "loss": 3.7992,
      "step": 222180
    },
    {
      "epoch": 0.46289583333333334,
      "grad_norm": 0.8344618082046509,
      "learning_rate": 0.000168496740905848,
      "loss": 3.9596,
      "step": 222190
    },
    {
      "epoch": 0.46291666666666664,
      "grad_norm": 0.8054454326629639,
      "learning_rate": 0.0001684869575520383,
      "loss": 4.014,
      "step": 222200
    },
    {
      "epoch": 0.4629375,
      "grad_norm": 1.0189728736877441,
      "learning_rate": 0.00016847717411837233,
      "loss": 3.8784,
      "step": 222210
    },
    {
      "epoch": 0.46295833333333336,
      "grad_norm": 0.8200713992118835,
      "learning_rate": 0.00016846739060489226,
      "loss": 3.9431,
      "step": 222220
    },
    {
      "epoch": 0.46297916666666666,
      "grad_norm": 0.7974033355712891,
      "learning_rate": 0.00016845760701164034,
      "loss": 3.9206,
      "step": 222230
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.9016843438148499,
      "learning_rate": 0.00016844782333865892,
      "loss": 4.1878,
      "step": 222240
    },
    {
      "epoch": 0.4630208333333333,
      "grad_norm": 0.9518418908119202,
      "learning_rate": 0.0001684380395859902,
      "loss": 3.943,
      "step": 222250
    },
    {
      "epoch": 0.4630416666666667,
      "grad_norm": 0.7744624614715576,
      "learning_rate": 0.00016842825575367638,
      "loss": 3.9611,
      "step": 222260
    },
    {
      "epoch": 0.4630625,
      "grad_norm": 1.059475302696228,
      "learning_rate": 0.00016841847184175985,
      "loss": 3.6659,
      "step": 222270
    },
    {
      "epoch": 0.46308333333333335,
      "grad_norm": 0.842253565788269,
      "learning_rate": 0.0001684086878502828,
      "loss": 3.8076,
      "step": 222280
    },
    {
      "epoch": 0.46310416666666665,
      "grad_norm": 0.9237889051437378,
      "learning_rate": 0.00016839890377928752,
      "loss": 3.7638,
      "step": 222290
    },
    {
      "epoch": 0.463125,
      "grad_norm": 0.9719687104225159,
      "learning_rate": 0.0001683891196288162,
      "loss": 3.6905,
      "step": 222300
    },
    {
      "epoch": 0.4631458333333333,
      "grad_norm": 0.8418035507202148,
      "learning_rate": 0.00016837933539891122,
      "loss": 3.9398,
      "step": 222310
    },
    {
      "epoch": 0.46316666666666667,
      "grad_norm": 0.9007076621055603,
      "learning_rate": 0.0001683695510896148,
      "loss": 3.9305,
      "step": 222320
    },
    {
      "epoch": 0.4631875,
      "grad_norm": 0.8366191387176514,
      "learning_rate": 0.0001683597667009691,
      "loss": 3.8374,
      "step": 222330
    },
    {
      "epoch": 0.46320833333333333,
      "grad_norm": 0.8130395412445068,
      "learning_rate": 0.00016834998223301659,
      "loss": 4.1102,
      "step": 222340
    },
    {
      "epoch": 0.4632291666666667,
      "grad_norm": 0.8536398410797119,
      "learning_rate": 0.00016834019768579935,
      "loss": 3.8767,
      "step": 222350
    },
    {
      "epoch": 0.46325,
      "grad_norm": 0.9062070250511169,
      "learning_rate": 0.0001683304130593597,
      "loss": 4.2058,
      "step": 222360
    },
    {
      "epoch": 0.46327083333333335,
      "grad_norm": 0.9316020011901855,
      "learning_rate": 0.00016832062835373999,
      "loss": 3.7069,
      "step": 222370
    },
    {
      "epoch": 0.46329166666666666,
      "grad_norm": 1.2053886651992798,
      "learning_rate": 0.00016831084356898237,
      "loss": 3.7692,
      "step": 222380
    },
    {
      "epoch": 0.4633125,
      "grad_norm": 0.8708600997924805,
      "learning_rate": 0.00016830105870512918,
      "loss": 3.9555,
      "step": 222390
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 0.8489042520523071,
      "learning_rate": 0.0001682912737622226,
      "loss": 3.8258,
      "step": 222400
    },
    {
      "epoch": 0.4633541666666667,
      "grad_norm": 0.7846306562423706,
      "learning_rate": 0.000168281488740305,
      "loss": 3.8474,
      "step": 222410
    },
    {
      "epoch": 0.463375,
      "grad_norm": 0.8268944025039673,
      "learning_rate": 0.00016827170363941865,
      "loss": 3.9994,
      "step": 222420
    },
    {
      "epoch": 0.46339583333333334,
      "grad_norm": 0.859863817691803,
      "learning_rate": 0.00016826191845960569,
      "loss": 3.9655,
      "step": 222430
    },
    {
      "epoch": 0.46341666666666664,
      "grad_norm": 0.8542259335517883,
      "learning_rate": 0.0001682521332009085,
      "loss": 3.8564,
      "step": 222440
    },
    {
      "epoch": 0.4634375,
      "grad_norm": 0.8005529046058655,
      "learning_rate": 0.00016824234786336936,
      "loss": 3.6524,
      "step": 222450
    },
    {
      "epoch": 0.46345833333333336,
      "grad_norm": 0.8335396647453308,
      "learning_rate": 0.00016823256244703045,
      "loss": 3.9547,
      "step": 222460
    },
    {
      "epoch": 0.46347916666666666,
      "grad_norm": 0.8149600028991699,
      "learning_rate": 0.00016822277695193407,
      "loss": 3.8915,
      "step": 222470
    },
    {
      "epoch": 0.4635,
      "grad_norm": 0.7933768630027771,
      "learning_rate": 0.00016821299137812257,
      "loss": 3.7276,
      "step": 222480
    },
    {
      "epoch": 0.4635208333333333,
      "grad_norm": 0.8368361592292786,
      "learning_rate": 0.00016820320572563815,
      "loss": 3.6179,
      "step": 222490
    },
    {
      "epoch": 0.4635416666666667,
      "grad_norm": 0.9786705374717712,
      "learning_rate": 0.000168193419994523,
      "loss": 3.9302,
      "step": 222500
    },
    {
      "epoch": 0.4635625,
      "grad_norm": 0.7886844277381897,
      "learning_rate": 0.0001681836341848196,
      "loss": 3.7001,
      "step": 222510
    },
    {
      "epoch": 0.46358333333333335,
      "grad_norm": 0.9682786464691162,
      "learning_rate": 0.00016817384829657004,
      "loss": 3.8196,
      "step": 222520
    },
    {
      "epoch": 0.46360416666666665,
      "grad_norm": 0.7926108837127686,
      "learning_rate": 0.00016816406232981663,
      "loss": 3.8909,
      "step": 222530
    },
    {
      "epoch": 0.463625,
      "grad_norm": 0.8180093765258789,
      "learning_rate": 0.00016815427628460167,
      "loss": 3.8075,
      "step": 222540
    },
    {
      "epoch": 0.4636458333333333,
      "grad_norm": 0.8740352392196655,
      "learning_rate": 0.00016814449016096743,
      "loss": 3.636,
      "step": 222550
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 0.8248973488807678,
      "learning_rate": 0.00016813470395895616,
      "loss": 3.7678,
      "step": 222560
    },
    {
      "epoch": 0.4636875,
      "grad_norm": 1.139930248260498,
      "learning_rate": 0.00016812491767861018,
      "loss": 3.7815,
      "step": 222570
    },
    {
      "epoch": 0.46370833333333333,
      "grad_norm": 0.8756824135780334,
      "learning_rate": 0.00016811513131997173,
      "loss": 3.7878,
      "step": 222580
    },
    {
      "epoch": 0.4637291666666667,
      "grad_norm": 0.8808687329292297,
      "learning_rate": 0.00016810534488308307,
      "loss": 3.874,
      "step": 222590
    },
    {
      "epoch": 0.46375,
      "grad_norm": 1.0386266708374023,
      "learning_rate": 0.00016809555836798645,
      "loss": 3.924,
      "step": 222600
    },
    {
      "epoch": 0.46377083333333335,
      "grad_norm": 0.9866514801979065,
      "learning_rate": 0.0001680857717747242,
      "loss": 4.0172,
      "step": 222610
    },
    {
      "epoch": 0.46379166666666666,
      "grad_norm": 0.8296880125999451,
      "learning_rate": 0.00016807598510333862,
      "loss": 3.9759,
      "step": 222620
    },
    {
      "epoch": 0.4638125,
      "grad_norm": 0.8690100908279419,
      "learning_rate": 0.0001680661983538719,
      "loss": 3.9259,
      "step": 222630
    },
    {
      "epoch": 0.4638333333333333,
      "grad_norm": 0.8268682956695557,
      "learning_rate": 0.00016805641152636635,
      "loss": 3.846,
      "step": 222640
    },
    {
      "epoch": 0.4638541666666667,
      "grad_norm": 0.9187912344932556,
      "learning_rate": 0.00016804662462086426,
      "loss": 3.9363,
      "step": 222650
    },
    {
      "epoch": 0.463875,
      "grad_norm": 0.8220164179801941,
      "learning_rate": 0.0001680368376374079,
      "loss": 4.0165,
      "step": 222660
    },
    {
      "epoch": 0.46389583333333334,
      "grad_norm": 0.8325904011726379,
      "learning_rate": 0.00016802705057603951,
      "loss": 3.9544,
      "step": 222670
    },
    {
      "epoch": 0.46391666666666664,
      "grad_norm": 0.9158540368080139,
      "learning_rate": 0.00016801726343680144,
      "loss": 3.8906,
      "step": 222680
    },
    {
      "epoch": 0.4639375,
      "grad_norm": 0.8095459938049316,
      "learning_rate": 0.00016800747621973592,
      "loss": 3.8807,
      "step": 222690
    },
    {
      "epoch": 0.4639583333333333,
      "grad_norm": 0.8149872422218323,
      "learning_rate": 0.0001679976889248852,
      "loss": 3.9317,
      "step": 222700
    },
    {
      "epoch": 0.46397916666666666,
      "grad_norm": 0.8499410152435303,
      "learning_rate": 0.0001679879015522916,
      "loss": 3.9221,
      "step": 222710
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.2236229181289673,
      "learning_rate": 0.0001679781141019974,
      "loss": 4.1224,
      "step": 222720
    },
    {
      "epoch": 0.4640208333333333,
      "grad_norm": 0.8858498930931091,
      "learning_rate": 0.00016796832657404485,
      "loss": 3.6708,
      "step": 222730
    },
    {
      "epoch": 0.4640416666666667,
      "grad_norm": 1.2663654088974,
      "learning_rate": 0.00016795853896847625,
      "loss": 3.9901,
      "step": 222740
    },
    {
      "epoch": 0.4640625,
      "grad_norm": 0.867720901966095,
      "learning_rate": 0.00016794875128533387,
      "loss": 3.8294,
      "step": 222750
    },
    {
      "epoch": 0.46408333333333335,
      "grad_norm": 0.8704845309257507,
      "learning_rate": 0.00016793896352465998,
      "loss": 4.0418,
      "step": 222760
    },
    {
      "epoch": 0.46410416666666665,
      "grad_norm": 0.8226162791252136,
      "learning_rate": 0.00016792917568649686,
      "loss": 3.9222,
      "step": 222770
    },
    {
      "epoch": 0.464125,
      "grad_norm": 1.0738991498947144,
      "learning_rate": 0.00016791938777088681,
      "loss": 3.9224,
      "step": 222780
    },
    {
      "epoch": 0.4641458333333333,
      "grad_norm": 0.8430055379867554,
      "learning_rate": 0.00016790959977787214,
      "loss": 3.9925,
      "step": 222790
    },
    {
      "epoch": 0.46416666666666667,
      "grad_norm": 1.3151897192001343,
      "learning_rate": 0.00016789981170749503,
      "loss": 3.796,
      "step": 222800
    },
    {
      "epoch": 0.4641875,
      "grad_norm": 0.8708485960960388,
      "learning_rate": 0.00016789002355979782,
      "loss": 3.9575,
      "step": 222810
    },
    {
      "epoch": 0.46420833333333333,
      "grad_norm": 0.8098698258399963,
      "learning_rate": 0.00016788023533482284,
      "loss": 3.8442,
      "step": 222820
    },
    {
      "epoch": 0.4642291666666667,
      "grad_norm": 0.8654628992080688,
      "learning_rate": 0.00016787044703261224,
      "loss": 3.8962,
      "step": 222830
    },
    {
      "epoch": 0.46425,
      "grad_norm": 0.9756762981414795,
      "learning_rate": 0.00016786065865320845,
      "loss": 3.7441,
      "step": 222840
    },
    {
      "epoch": 0.46427083333333335,
      "grad_norm": 0.8664565682411194,
      "learning_rate": 0.00016785087019665365,
      "loss": 3.7855,
      "step": 222850
    },
    {
      "epoch": 0.46429166666666666,
      "grad_norm": 0.8675898313522339,
      "learning_rate": 0.0001678410816629902,
      "loss": 3.9544,
      "step": 222860
    },
    {
      "epoch": 0.4643125,
      "grad_norm": 0.9127699732780457,
      "learning_rate": 0.0001678312930522603,
      "loss": 3.9033,
      "step": 222870
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 0.8991868495941162,
      "learning_rate": 0.00016782150436450626,
      "loss": 3.8407,
      "step": 222880
    },
    {
      "epoch": 0.4643541666666667,
      "grad_norm": 0.8294355869293213,
      "learning_rate": 0.0001678117155997704,
      "loss": 3.6806,
      "step": 222890
    },
    {
      "epoch": 0.464375,
      "grad_norm": 0.8650808930397034,
      "learning_rate": 0.00016780192675809496,
      "loss": 3.9409,
      "step": 222900
    },
    {
      "epoch": 0.46439583333333334,
      "grad_norm": 0.9967489838600159,
      "learning_rate": 0.00016779213783952226,
      "loss": 3.6684,
      "step": 222910
    },
    {
      "epoch": 0.46441666666666664,
      "grad_norm": 0.8486425280570984,
      "learning_rate": 0.0001677823488440946,
      "loss": 3.7973,
      "step": 222920
    },
    {
      "epoch": 0.4644375,
      "grad_norm": 0.8608486652374268,
      "learning_rate": 0.00016777255977185417,
      "loss": 3.6942,
      "step": 222930
    },
    {
      "epoch": 0.4644583333333333,
      "grad_norm": 0.8340775370597839,
      "learning_rate": 0.00016776277062284335,
      "loss": 3.848,
      "step": 222940
    },
    {
      "epoch": 0.46447916666666667,
      "grad_norm": 0.8023366332054138,
      "learning_rate": 0.00016775298139710436,
      "loss": 4.062,
      "step": 222950
    },
    {
      "epoch": 0.4645,
      "grad_norm": 0.8791996240615845,
      "learning_rate": 0.00016774319209467956,
      "loss": 3.777,
      "step": 222960
    },
    {
      "epoch": 0.4645208333333333,
      "grad_norm": 0.8690548539161682,
      "learning_rate": 0.00016773340271561117,
      "loss": 3.8283,
      "step": 222970
    },
    {
      "epoch": 0.4645416666666667,
      "grad_norm": 0.848924458026886,
      "learning_rate": 0.00016772361325994155,
      "loss": 3.9823,
      "step": 222980
    },
    {
      "epoch": 0.4645625,
      "grad_norm": 0.9180760979652405,
      "learning_rate": 0.00016771382372771286,
      "loss": 3.9833,
      "step": 222990
    },
    {
      "epoch": 0.46458333333333335,
      "grad_norm": 0.9242660999298096,
      "learning_rate": 0.0001677040341189675,
      "loss": 3.7861,
      "step": 223000
    },
    {
      "epoch": 0.46458333333333335,
      "eval_loss": 3.6324799060821533,
      "eval_runtime": 6.8603,
      "eval_samples_per_second": 1.458,
      "eval_steps_per_second": 0.437,
      "step": 223000
    },
    {
      "epoch": 0.46460416666666665,
      "grad_norm": 0.9494410157203674,
      "learning_rate": 0.0001676942444337477,
      "loss": 3.8991,
      "step": 223010
    },
    {
      "epoch": 0.464625,
      "grad_norm": 0.9343711733818054,
      "learning_rate": 0.0001676844546720958,
      "loss": 3.8089,
      "step": 223020
    },
    {
      "epoch": 0.4646458333333333,
      "grad_norm": 0.8412144184112549,
      "learning_rate": 0.00016767466483405403,
      "loss": 4.0574,
      "step": 223030
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 1.085288643836975,
      "learning_rate": 0.00016766487491966473,
      "loss": 3.9685,
      "step": 223040
    },
    {
      "epoch": 0.4646875,
      "grad_norm": 0.8878129124641418,
      "learning_rate": 0.00016765508492897014,
      "loss": 3.8532,
      "step": 223050
    },
    {
      "epoch": 0.46470833333333333,
      "grad_norm": 0.9369003176689148,
      "learning_rate": 0.00016764529486201259,
      "loss": 3.8474,
      "step": 223060
    },
    {
      "epoch": 0.4647291666666667,
      "grad_norm": 0.8364778757095337,
      "learning_rate": 0.0001676355047188343,
      "loss": 3.7781,
      "step": 223070
    },
    {
      "epoch": 0.46475,
      "grad_norm": 0.7865201234817505,
      "learning_rate": 0.00016762571449947767,
      "loss": 3.8964,
      "step": 223080
    },
    {
      "epoch": 0.46477083333333336,
      "grad_norm": 0.8498061895370483,
      "learning_rate": 0.00016761592420398488,
      "loss": 3.8397,
      "step": 223090
    },
    {
      "epoch": 0.46479166666666666,
      "grad_norm": 0.8678909540176392,
      "learning_rate": 0.0001676061338323983,
      "loss": 3.6794,
      "step": 223100
    },
    {
      "epoch": 0.4648125,
      "grad_norm": 0.9604188203811646,
      "learning_rate": 0.0001675963433847602,
      "loss": 3.8457,
      "step": 223110
    },
    {
      "epoch": 0.4648333333333333,
      "grad_norm": 0.9866092801094055,
      "learning_rate": 0.00016758655286111288,
      "loss": 3.7529,
      "step": 223120
    },
    {
      "epoch": 0.4648541666666667,
      "grad_norm": 1.0527342557907104,
      "learning_rate": 0.00016757676226149853,
      "loss": 3.841,
      "step": 223130
    },
    {
      "epoch": 0.464875,
      "grad_norm": 0.8817735314369202,
      "learning_rate": 0.00016756697158595957,
      "loss": 3.8949,
      "step": 223140
    },
    {
      "epoch": 0.46489583333333334,
      "grad_norm": 0.9180917143821716,
      "learning_rate": 0.0001675571808345383,
      "loss": 3.9942,
      "step": 223150
    },
    {
      "epoch": 0.46491666666666664,
      "grad_norm": 0.76388019323349,
      "learning_rate": 0.0001675473900072769,
      "loss": 3.8863,
      "step": 223160
    },
    {
      "epoch": 0.4649375,
      "grad_norm": 0.9494165778160095,
      "learning_rate": 0.00016753759910421772,
      "loss": 4.0524,
      "step": 223170
    },
    {
      "epoch": 0.4649583333333333,
      "grad_norm": 0.8522385358810425,
      "learning_rate": 0.0001675278081254031,
      "loss": 3.8224,
      "step": 223180
    },
    {
      "epoch": 0.46497916666666667,
      "grad_norm": 0.849599301815033,
      "learning_rate": 0.00016751801707087525,
      "loss": 3.8431,
      "step": 223190
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.8418570756912231,
      "learning_rate": 0.00016750822594067648,
      "loss": 3.8358,
      "step": 223200
    },
    {
      "epoch": 0.4650208333333333,
      "grad_norm": 0.943284809589386,
      "learning_rate": 0.00016749843473484917,
      "loss": 3.8109,
      "step": 223210
    },
    {
      "epoch": 0.4650416666666667,
      "grad_norm": 0.9100021719932556,
      "learning_rate": 0.00016748864345343548,
      "loss": 4.0373,
      "step": 223220
    },
    {
      "epoch": 0.4650625,
      "grad_norm": 0.8605649471282959,
      "learning_rate": 0.00016747885209647778,
      "loss": 4.0242,
      "step": 223230
    },
    {
      "epoch": 0.46508333333333335,
      "grad_norm": 0.9521634578704834,
      "learning_rate": 0.00016746906066401838,
      "loss": 3.9982,
      "step": 223240
    },
    {
      "epoch": 0.46510416666666665,
      "grad_norm": 0.8460873961448669,
      "learning_rate": 0.00016745926915609957,
      "loss": 4.0333,
      "step": 223250
    },
    {
      "epoch": 0.465125,
      "grad_norm": 0.8470035195350647,
      "learning_rate": 0.00016744947757276358,
      "loss": 3.8379,
      "step": 223260
    },
    {
      "epoch": 0.4651458333333333,
      "grad_norm": 0.9124053120613098,
      "learning_rate": 0.00016743968591405282,
      "loss": 3.8956,
      "step": 223270
    },
    {
      "epoch": 0.4651666666666667,
      "grad_norm": 0.8004038333892822,
      "learning_rate": 0.00016742989418000947,
      "loss": 3.6881,
      "step": 223280
    },
    {
      "epoch": 0.4651875,
      "grad_norm": 0.907663881778717,
      "learning_rate": 0.0001674201023706759,
      "loss": 3.9313,
      "step": 223290
    },
    {
      "epoch": 0.46520833333333333,
      "grad_norm": 0.9932552576065063,
      "learning_rate": 0.00016741031048609433,
      "loss": 3.7206,
      "step": 223300
    },
    {
      "epoch": 0.4652291666666667,
      "grad_norm": 0.8855125308036804,
      "learning_rate": 0.00016740051852630715,
      "loss": 3.9088,
      "step": 223310
    },
    {
      "epoch": 0.46525,
      "grad_norm": 0.8645473718643188,
      "learning_rate": 0.00016739072649135666,
      "loss": 3.8469,
      "step": 223320
    },
    {
      "epoch": 0.46527083333333336,
      "grad_norm": 0.8814273476600647,
      "learning_rate": 0.00016738093438128506,
      "loss": 3.9942,
      "step": 223330
    },
    {
      "epoch": 0.46529166666666666,
      "grad_norm": 0.9086636304855347,
      "learning_rate": 0.0001673711421961347,
      "loss": 3.8773,
      "step": 223340
    },
    {
      "epoch": 0.4653125,
      "grad_norm": 0.9400818943977356,
      "learning_rate": 0.00016736134993594793,
      "loss": 3.8117,
      "step": 223350
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 0.8400413393974304,
      "learning_rate": 0.00016735155760076698,
      "loss": 3.9491,
      "step": 223360
    },
    {
      "epoch": 0.4653541666666667,
      "grad_norm": 1.0208897590637207,
      "learning_rate": 0.0001673417651906341,
      "loss": 4.0283,
      "step": 223370
    },
    {
      "epoch": 0.465375,
      "grad_norm": 0.8704074025154114,
      "learning_rate": 0.00016733197270559175,
      "loss": 3.9408,
      "step": 223380
    },
    {
      "epoch": 0.46539583333333334,
      "grad_norm": 0.8765071630477905,
      "learning_rate": 0.00016732218014568214,
      "loss": 3.9014,
      "step": 223390
    },
    {
      "epoch": 0.46541666666666665,
      "grad_norm": 0.8110489845275879,
      "learning_rate": 0.00016731238751094748,
      "loss": 4.0051,
      "step": 223400
    },
    {
      "epoch": 0.4654375,
      "grad_norm": 0.8935084939002991,
      "learning_rate": 0.00016730259480143023,
      "loss": 3.8355,
      "step": 223410
    },
    {
      "epoch": 0.4654583333333333,
      "grad_norm": 0.8524780869483948,
      "learning_rate": 0.0001672928020171726,
      "loss": 3.8731,
      "step": 223420
    },
    {
      "epoch": 0.46547916666666667,
      "grad_norm": 0.788034975528717,
      "learning_rate": 0.00016728300915821691,
      "loss": 3.9184,
      "step": 223430
    },
    {
      "epoch": 0.4655,
      "grad_norm": 1.0566504001617432,
      "learning_rate": 0.00016727321622460548,
      "loss": 3.7537,
      "step": 223440
    },
    {
      "epoch": 0.46552083333333333,
      "grad_norm": 0.8695526719093323,
      "learning_rate": 0.00016726342321638057,
      "loss": 3.9428,
      "step": 223450
    },
    {
      "epoch": 0.4655416666666667,
      "grad_norm": 0.9401423931121826,
      "learning_rate": 0.00016725363013358455,
      "loss": 3.9451,
      "step": 223460
    },
    {
      "epoch": 0.4655625,
      "grad_norm": 0.9052218794822693,
      "learning_rate": 0.0001672438369762596,
      "loss": 3.9925,
      "step": 223470
    },
    {
      "epoch": 0.46558333333333335,
      "grad_norm": 0.9561948776245117,
      "learning_rate": 0.00016723404374444813,
      "loss": 3.7946,
      "step": 223480
    },
    {
      "epoch": 0.46560416666666665,
      "grad_norm": 0.909883975982666,
      "learning_rate": 0.00016722425043819245,
      "loss": 4.0983,
      "step": 223490
    },
    {
      "epoch": 0.465625,
      "grad_norm": 0.9106143712997437,
      "learning_rate": 0.00016721445705753478,
      "loss": 3.9481,
      "step": 223500
    },
    {
      "epoch": 0.4656458333333333,
      "grad_norm": 0.7975864410400391,
      "learning_rate": 0.00016720466360251748,
      "loss": 3.663,
      "step": 223510
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 0.8347374796867371,
      "learning_rate": 0.0001671948700731829,
      "loss": 3.8106,
      "step": 223520
    },
    {
      "epoch": 0.4656875,
      "grad_norm": 0.8207173943519592,
      "learning_rate": 0.00016718507646957322,
      "loss": 3.9984,
      "step": 223530
    },
    {
      "epoch": 0.46570833333333334,
      "grad_norm": 0.9190136194229126,
      "learning_rate": 0.0001671752827917308,
      "loss": 3.9524,
      "step": 223540
    },
    {
      "epoch": 0.4657291666666667,
      "grad_norm": 0.9692931771278381,
      "learning_rate": 0.00016716548903969802,
      "loss": 3.9266,
      "step": 223550
    },
    {
      "epoch": 0.46575,
      "grad_norm": 0.8477527499198914,
      "learning_rate": 0.0001671556952135171,
      "loss": 3.8035,
      "step": 223560
    },
    {
      "epoch": 0.46577083333333336,
      "grad_norm": 0.8903430104255676,
      "learning_rate": 0.00016714590131323035,
      "loss": 3.8474,
      "step": 223570
    },
    {
      "epoch": 0.46579166666666666,
      "grad_norm": 0.8807889223098755,
      "learning_rate": 0.0001671361073388801,
      "loss": 3.8219,
      "step": 223580
    },
    {
      "epoch": 0.4658125,
      "grad_norm": 0.864919126033783,
      "learning_rate": 0.00016712631329050863,
      "loss": 4.014,
      "step": 223590
    },
    {
      "epoch": 0.4658333333333333,
      "grad_norm": 0.8670620918273926,
      "learning_rate": 0.0001671165191681583,
      "loss": 3.8248,
      "step": 223600
    },
    {
      "epoch": 0.4658541666666667,
      "grad_norm": 0.819007396697998,
      "learning_rate": 0.00016710672497187134,
      "loss": 3.9021,
      "step": 223610
    },
    {
      "epoch": 0.465875,
      "grad_norm": 0.9817849397659302,
      "learning_rate": 0.00016709693070169013,
      "loss": 3.8711,
      "step": 223620
    },
    {
      "epoch": 0.46589583333333334,
      "grad_norm": 0.9375021457672119,
      "learning_rate": 0.00016708713635765694,
      "loss": 3.8574,
      "step": 223630
    },
    {
      "epoch": 0.46591666666666665,
      "grad_norm": 0.812397837638855,
      "learning_rate": 0.00016707734193981407,
      "loss": 3.8567,
      "step": 223640
    },
    {
      "epoch": 0.4659375,
      "grad_norm": 1.0369399785995483,
      "learning_rate": 0.0001670675474482039,
      "loss": 3.8377,
      "step": 223650
    },
    {
      "epoch": 0.4659583333333333,
      "grad_norm": 0.854046106338501,
      "learning_rate": 0.00016705775288286868,
      "loss": 3.8585,
      "step": 223660
    },
    {
      "epoch": 0.46597916666666667,
      "grad_norm": 0.8365426659584045,
      "learning_rate": 0.00016704795824385062,
      "loss": 3.8156,
      "step": 223670
    },
    {
      "epoch": 0.466,
      "grad_norm": 6.793728351593018,
      "learning_rate": 0.0001670381635311922,
      "loss": 3.9012,
      "step": 223680
    },
    {
      "epoch": 0.46602083333333333,
      "grad_norm": 0.8202518224716187,
      "learning_rate": 0.00016702836874493568,
      "loss": 3.9113,
      "step": 223690
    },
    {
      "epoch": 0.4660416666666667,
      "grad_norm": 0.8785660266876221,
      "learning_rate": 0.00016701857388512324,
      "loss": 4.077,
      "step": 223700
    },
    {
      "epoch": 0.4660625,
      "grad_norm": 1.0237263441085815,
      "learning_rate": 0.00016700877895179742,
      "loss": 4.002,
      "step": 223710
    },
    {
      "epoch": 0.46608333333333335,
      "grad_norm": 0.8383647203445435,
      "learning_rate": 0.00016699898394500036,
      "loss": 3.8527,
      "step": 223720
    },
    {
      "epoch": 0.46610416666666665,
      "grad_norm": 0.8263444304466248,
      "learning_rate": 0.00016698918886477442,
      "loss": 3.918,
      "step": 223730
    },
    {
      "epoch": 0.466125,
      "grad_norm": 0.8461074829101562,
      "learning_rate": 0.0001669793937111619,
      "loss": 3.9307,
      "step": 223740
    },
    {
      "epoch": 0.4661458333333333,
      "grad_norm": 0.8078097105026245,
      "learning_rate": 0.00016696959848420514,
      "loss": 4.0073,
      "step": 223750
    },
    {
      "epoch": 0.4661666666666667,
      "grad_norm": 0.8018189072608948,
      "learning_rate": 0.0001669598031839464,
      "loss": 3.8374,
      "step": 223760
    },
    {
      "epoch": 0.4661875,
      "grad_norm": 0.9039816856384277,
      "learning_rate": 0.00016695000781042805,
      "loss": 3.92,
      "step": 223770
    },
    {
      "epoch": 0.46620833333333334,
      "grad_norm": 0.9418011903762817,
      "learning_rate": 0.00016694021236369236,
      "loss": 3.8082,
      "step": 223780
    },
    {
      "epoch": 0.46622916666666664,
      "grad_norm": 0.8109322786331177,
      "learning_rate": 0.0001669304168437817,
      "loss": 3.9464,
      "step": 223790
    },
    {
      "epoch": 0.46625,
      "grad_norm": 0.8065095543861389,
      "learning_rate": 0.00016692062125073828,
      "loss": 3.9905,
      "step": 223800
    },
    {
      "epoch": 0.46627083333333336,
      "grad_norm": 0.9236686825752258,
      "learning_rate": 0.00016691082558460446,
      "loss": 3.9352,
      "step": 223810
    },
    {
      "epoch": 0.46629166666666666,
      "grad_norm": 0.9084753394126892,
      "learning_rate": 0.00016690102984542264,
      "loss": 3.7949,
      "step": 223820
    },
    {
      "epoch": 0.4663125,
      "grad_norm": 0.8592571020126343,
      "learning_rate": 0.00016689123403323502,
      "loss": 3.8269,
      "step": 223830
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 0.9936631917953491,
      "learning_rate": 0.00016688143814808394,
      "loss": 3.853,
      "step": 223840
    },
    {
      "epoch": 0.4663541666666667,
      "grad_norm": 0.9128908514976501,
      "learning_rate": 0.00016687164219001178,
      "loss": 4.0418,
      "step": 223850
    },
    {
      "epoch": 0.466375,
      "grad_norm": 0.8794374465942383,
      "learning_rate": 0.0001668618461590608,
      "loss": 4.0032,
      "step": 223860
    },
    {
      "epoch": 0.46639583333333334,
      "grad_norm": 0.8608648180961609,
      "learning_rate": 0.00016685205005527323,
      "loss": 3.6969,
      "step": 223870
    },
    {
      "epoch": 0.46641666666666665,
      "grad_norm": 0.8497052192687988,
      "learning_rate": 0.0001668422538786916,
      "loss": 3.9528,
      "step": 223880
    },
    {
      "epoch": 0.4664375,
      "grad_norm": 0.9577264785766602,
      "learning_rate": 0.00016683245762935802,
      "loss": 3.6754,
      "step": 223890
    },
    {
      "epoch": 0.4664583333333333,
      "grad_norm": 0.9164377450942993,
      "learning_rate": 0.00016682266130731488,
      "loss": 3.9235,
      "step": 223900
    },
    {
      "epoch": 0.46647916666666667,
      "grad_norm": 0.8683390021324158,
      "learning_rate": 0.00016681286491260455,
      "loss": 3.9715,
      "step": 223910
    },
    {
      "epoch": 0.4665,
      "grad_norm": 0.8502527475357056,
      "learning_rate": 0.00016680306844526926,
      "loss": 3.9176,
      "step": 223920
    },
    {
      "epoch": 0.46652083333333333,
      "grad_norm": 0.9574052691459656,
      "learning_rate": 0.00016679327190535138,
      "loss": 4.0302,
      "step": 223930
    },
    {
      "epoch": 0.4665416666666667,
      "grad_norm": 0.8076338171958923,
      "learning_rate": 0.00016678347529289322,
      "loss": 3.6454,
      "step": 223940
    },
    {
      "epoch": 0.4665625,
      "grad_norm": 0.9511836767196655,
      "learning_rate": 0.0001667736786079371,
      "loss": 3.922,
      "step": 223950
    },
    {
      "epoch": 0.46658333333333335,
      "grad_norm": 0.8438991904258728,
      "learning_rate": 0.0001667638818505253,
      "loss": 3.8213,
      "step": 223960
    },
    {
      "epoch": 0.46660416666666665,
      "grad_norm": 0.785370945930481,
      "learning_rate": 0.00016675408502070017,
      "loss": 3.9793,
      "step": 223970
    },
    {
      "epoch": 0.466625,
      "grad_norm": 0.847072958946228,
      "learning_rate": 0.00016674428811850402,
      "loss": 3.9092,
      "step": 223980
    },
    {
      "epoch": 0.4666458333333333,
      "grad_norm": 0.873162031173706,
      "learning_rate": 0.0001667344911439792,
      "loss": 3.7095,
      "step": 223990
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.8717764616012573,
      "learning_rate": 0.00016672469409716796,
      "loss": 3.8279,
      "step": 224000
    },
    {
      "epoch": 0.4666666666666667,
      "eval_loss": 3.6419918537139893,
      "eval_runtime": 7.2553,
      "eval_samples_per_second": 1.378,
      "eval_steps_per_second": 0.413,
      "step": 224000
    },
    {
      "epoch": 0.4666875,
      "grad_norm": 1.200639009475708,
      "learning_rate": 0.00016671489697811268,
      "loss": 3.9794,
      "step": 224010
    },
    {
      "epoch": 0.46670833333333334,
      "grad_norm": 0.9999346733093262,
      "learning_rate": 0.0001667050997868557,
      "loss": 3.8791,
      "step": 224020
    },
    {
      "epoch": 0.46672916666666664,
      "grad_norm": 0.8244026899337769,
      "learning_rate": 0.00016669530252343929,
      "loss": 3.8598,
      "step": 224030
    },
    {
      "epoch": 0.46675,
      "grad_norm": 1.0634883642196655,
      "learning_rate": 0.00016668550518790572,
      "loss": 3.9639,
      "step": 224040
    },
    {
      "epoch": 0.46677083333333336,
      "grad_norm": 0.9009114503860474,
      "learning_rate": 0.00016667570778029745,
      "loss": 3.7025,
      "step": 224050
    },
    {
      "epoch": 0.46679166666666666,
      "grad_norm": 0.8571292757987976,
      "learning_rate": 0.0001666659103006567,
      "loss": 3.9153,
      "step": 224060
    },
    {
      "epoch": 0.4668125,
      "grad_norm": 0.8136025071144104,
      "learning_rate": 0.00016665611274902577,
      "loss": 3.9179,
      "step": 224070
    },
    {
      "epoch": 0.4668333333333333,
      "grad_norm": 0.8643168807029724,
      "learning_rate": 0.0001666463151254471,
      "loss": 3.7974,
      "step": 224080
    },
    {
      "epoch": 0.4668541666666667,
      "grad_norm": 0.8176872730255127,
      "learning_rate": 0.00016663651742996287,
      "loss": 3.8328,
      "step": 224090
    },
    {
      "epoch": 0.466875,
      "grad_norm": 0.8598561882972717,
      "learning_rate": 0.00016662671966261548,
      "loss": 3.5926,
      "step": 224100
    },
    {
      "epoch": 0.46689583333333334,
      "grad_norm": 1.0267040729522705,
      "learning_rate": 0.00016661692182344727,
      "loss": 3.8759,
      "step": 224110
    },
    {
      "epoch": 0.46691666666666665,
      "grad_norm": 0.8249022960662842,
      "learning_rate": 0.00016660712391250053,
      "loss": 4.1186,
      "step": 224120
    },
    {
      "epoch": 0.4669375,
      "grad_norm": 0.899619996547699,
      "learning_rate": 0.00016659732592981758,
      "loss": 3.9321,
      "step": 224130
    },
    {
      "epoch": 0.4669583333333333,
      "grad_norm": 0.9231271743774414,
      "learning_rate": 0.00016658752787544076,
      "loss": 3.9501,
      "step": 224140
    },
    {
      "epoch": 0.46697916666666667,
      "grad_norm": 1.004586935043335,
      "learning_rate": 0.00016657772974941237,
      "loss": 3.9224,
      "step": 224150
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.8550213575363159,
      "learning_rate": 0.0001665679315517748,
      "loss": 3.7626,
      "step": 224160
    },
    {
      "epoch": 0.46702083333333333,
      "grad_norm": 0.8054075837135315,
      "learning_rate": 0.00016655813328257023,
      "loss": 3.7586,
      "step": 224170
    },
    {
      "epoch": 0.4670416666666667,
      "grad_norm": 0.8381786346435547,
      "learning_rate": 0.00016654833494184114,
      "loss": 3.9424,
      "step": 224180
    },
    {
      "epoch": 0.4670625,
      "grad_norm": 0.8771880269050598,
      "learning_rate": 0.00016653853652962982,
      "loss": 4.0234,
      "step": 224190
    },
    {
      "epoch": 0.46708333333333335,
      "grad_norm": 1.0268892049789429,
      "learning_rate": 0.0001665287380459785,
      "loss": 3.8476,
      "step": 224200
    },
    {
      "epoch": 0.46710416666666665,
      "grad_norm": 0.7969521284103394,
      "learning_rate": 0.00016651893949092957,
      "loss": 4.1264,
      "step": 224210
    },
    {
      "epoch": 0.467125,
      "grad_norm": 0.8764004707336426,
      "learning_rate": 0.00016650914086452544,
      "loss": 3.7385,
      "step": 224220
    },
    {
      "epoch": 0.4671458333333333,
      "grad_norm": 0.8626914620399475,
      "learning_rate": 0.0001664993421668083,
      "loss": 3.8299,
      "step": 224230
    },
    {
      "epoch": 0.4671666666666667,
      "grad_norm": 0.771873950958252,
      "learning_rate": 0.00016648954339782053,
      "loss": 4.0206,
      "step": 224240
    },
    {
      "epoch": 0.4671875,
      "grad_norm": 0.8871825933456421,
      "learning_rate": 0.0001664797445576045,
      "loss": 3.7411,
      "step": 224250
    },
    {
      "epoch": 0.46720833333333334,
      "grad_norm": 0.8146810531616211,
      "learning_rate": 0.00016646994564620247,
      "loss": 3.7742,
      "step": 224260
    },
    {
      "epoch": 0.46722916666666664,
      "grad_norm": 0.9019331932067871,
      "learning_rate": 0.00016646014666365675,
      "loss": 4.0209,
      "step": 224270
    },
    {
      "epoch": 0.46725,
      "grad_norm": 2.419407606124878,
      "learning_rate": 0.0001664503476100098,
      "loss": 4.0355,
      "step": 224280
    },
    {
      "epoch": 0.46727083333333336,
      "grad_norm": 0.9241008758544922,
      "learning_rate": 0.00016644054848530382,
      "loss": 3.7761,
      "step": 224290
    },
    {
      "epoch": 0.46729166666666666,
      "grad_norm": 0.9702518582344055,
      "learning_rate": 0.00016643074928958116,
      "loss": 3.9938,
      "step": 224300
    },
    {
      "epoch": 0.4673125,
      "grad_norm": 0.8949180245399475,
      "learning_rate": 0.00016642095002288417,
      "loss": 3.8628,
      "step": 224310
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 0.9544848203659058,
      "learning_rate": 0.0001664111506852552,
      "loss": 4.1004,
      "step": 224320
    },
    {
      "epoch": 0.4673541666666667,
      "grad_norm": 0.9977930784225464,
      "learning_rate": 0.00016640135127673656,
      "loss": 3.8712,
      "step": 224330
    },
    {
      "epoch": 0.467375,
      "grad_norm": 0.822776734828949,
      "learning_rate": 0.00016639155179737055,
      "loss": 3.9006,
      "step": 224340
    },
    {
      "epoch": 0.46739583333333334,
      "grad_norm": 0.8026615381240845,
      "learning_rate": 0.00016638175224719951,
      "loss": 3.801,
      "step": 224350
    },
    {
      "epoch": 0.46741666666666665,
      "grad_norm": 0.96767657995224,
      "learning_rate": 0.00016637195262626586,
      "loss": 4.0902,
      "step": 224360
    },
    {
      "epoch": 0.4674375,
      "grad_norm": 0.8332139253616333,
      "learning_rate": 0.00016636215293461173,
      "loss": 3.6453,
      "step": 224370
    },
    {
      "epoch": 0.4674583333333333,
      "grad_norm": 1.2832531929016113,
      "learning_rate": 0.00016635235317227968,
      "loss": 3.8799,
      "step": 224380
    },
    {
      "epoch": 0.46747916666666667,
      "grad_norm": 0.9114700555801392,
      "learning_rate": 0.00016634255333931194,
      "loss": 3.8705,
      "step": 224390
    },
    {
      "epoch": 0.4675,
      "grad_norm": 0.948972225189209,
      "learning_rate": 0.00016633275343575077,
      "loss": 3.6259,
      "step": 224400
    },
    {
      "epoch": 0.46752083333333333,
      "grad_norm": 1.015783667564392,
      "learning_rate": 0.00016632295346163858,
      "loss": 3.7902,
      "step": 224410
    },
    {
      "epoch": 0.4675416666666667,
      "grad_norm": 0.940002977848053,
      "learning_rate": 0.00016631315341701777,
      "loss": 3.9505,
      "step": 224420
    },
    {
      "epoch": 0.4675625,
      "grad_norm": 0.8990634083747864,
      "learning_rate": 0.00016630335330193051,
      "loss": 3.7376,
      "step": 224430
    },
    {
      "epoch": 0.46758333333333335,
      "grad_norm": 0.8506277799606323,
      "learning_rate": 0.0001662935531164192,
      "loss": 3.7369,
      "step": 224440
    },
    {
      "epoch": 0.46760416666666665,
      "grad_norm": 0.9916642308235168,
      "learning_rate": 0.0001662837528605263,
      "loss": 3.7986,
      "step": 224450
    },
    {
      "epoch": 0.467625,
      "grad_norm": 0.809966504573822,
      "learning_rate": 0.00016627395253429397,
      "loss": 3.8039,
      "step": 224460
    },
    {
      "epoch": 0.4676458333333333,
      "grad_norm": 0.7918540239334106,
      "learning_rate": 0.00016626415213776458,
      "loss": 3.9859,
      "step": 224470
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 0.8945915699005127,
      "learning_rate": 0.00016625435167098051,
      "loss": 3.8653,
      "step": 224480
    },
    {
      "epoch": 0.4676875,
      "grad_norm": 1.017055869102478,
      "learning_rate": 0.00016624455113398412,
      "loss": 3.8843,
      "step": 224490
    },
    {
      "epoch": 0.46770833333333334,
      "grad_norm": 0.9444823861122131,
      "learning_rate": 0.0001662347505268176,
      "loss": 3.6644,
      "step": 224500
    },
    {
      "epoch": 0.46772916666666664,
      "grad_norm": 0.8116111159324646,
      "learning_rate": 0.00016622494984952347,
      "loss": 3.8526,
      "step": 224510
    },
    {
      "epoch": 0.46775,
      "grad_norm": 0.8093215227127075,
      "learning_rate": 0.00016621514910214395,
      "loss": 3.9849,
      "step": 224520
    },
    {
      "epoch": 0.46777083333333336,
      "grad_norm": 1.180235505104065,
      "learning_rate": 0.00016620534828472143,
      "loss": 3.838,
      "step": 224530
    },
    {
      "epoch": 0.46779166666666666,
      "grad_norm": 0.8408201932907104,
      "learning_rate": 0.0001661955473972982,
      "loss": 3.854,
      "step": 224540
    },
    {
      "epoch": 0.4678125,
      "grad_norm": 0.8433405160903931,
      "learning_rate": 0.00016618574643991659,
      "loss": 3.8471,
      "step": 224550
    },
    {
      "epoch": 0.4678333333333333,
      "grad_norm": 0.8500496745109558,
      "learning_rate": 0.00016617594541261903,
      "loss": 3.8919,
      "step": 224560
    },
    {
      "epoch": 0.4678541666666667,
      "grad_norm": 0.878538966178894,
      "learning_rate": 0.0001661661443154477,
      "loss": 4.0138,
      "step": 224570
    },
    {
      "epoch": 0.467875,
      "grad_norm": 1.1086654663085938,
      "learning_rate": 0.00016615634314844508,
      "loss": 3.7848,
      "step": 224580
    },
    {
      "epoch": 0.46789583333333334,
      "grad_norm": 0.8156655430793762,
      "learning_rate": 0.00016614654191165345,
      "loss": 3.8918,
      "step": 224590
    },
    {
      "epoch": 0.46791666666666665,
      "grad_norm": 0.81940758228302,
      "learning_rate": 0.00016613674060511515,
      "loss": 3.6633,
      "step": 224600
    },
    {
      "epoch": 0.4679375,
      "grad_norm": 0.8791539669036865,
      "learning_rate": 0.00016612693922887252,
      "loss": 3.9067,
      "step": 224610
    },
    {
      "epoch": 0.4679583333333333,
      "grad_norm": 0.8297626376152039,
      "learning_rate": 0.0001661171377829679,
      "loss": 3.7923,
      "step": 224620
    },
    {
      "epoch": 0.46797916666666667,
      "grad_norm": 0.7916418313980103,
      "learning_rate": 0.00016610733626744358,
      "loss": 3.8793,
      "step": 224630
    },
    {
      "epoch": 0.468,
      "grad_norm": 0.8677859306335449,
      "learning_rate": 0.000166097534682342,
      "loss": 3.6694,
      "step": 224640
    },
    {
      "epoch": 0.46802083333333333,
      "grad_norm": 0.8534766435623169,
      "learning_rate": 0.00016608773302770539,
      "loss": 3.9002,
      "step": 224650
    },
    {
      "epoch": 0.4680416666666667,
      "grad_norm": 0.8739203214645386,
      "learning_rate": 0.00016607793130357618,
      "loss": 3.783,
      "step": 224660
    },
    {
      "epoch": 0.4680625,
      "grad_norm": 0.9374132752418518,
      "learning_rate": 0.00016606812950999665,
      "loss": 3.7078,
      "step": 224670
    },
    {
      "epoch": 0.46808333333333335,
      "grad_norm": 0.8875817656517029,
      "learning_rate": 0.00016605832764700915,
      "loss": 3.9307,
      "step": 224680
    },
    {
      "epoch": 0.46810416666666665,
      "grad_norm": 0.8906506299972534,
      "learning_rate": 0.00016604852571465607,
      "loss": 3.7485,
      "step": 224690
    },
    {
      "epoch": 0.468125,
      "grad_norm": 0.863110363483429,
      "learning_rate": 0.00016603872371297968,
      "loss": 3.8976,
      "step": 224700
    },
    {
      "epoch": 0.4681458333333333,
      "grad_norm": 1.239953637123108,
      "learning_rate": 0.00016602892164202236,
      "loss": 4.1506,
      "step": 224710
    },
    {
      "epoch": 0.4681666666666667,
      "grad_norm": 0.8967527151107788,
      "learning_rate": 0.00016601911950182645,
      "loss": 3.8811,
      "step": 224720
    },
    {
      "epoch": 0.4681875,
      "grad_norm": 0.8574991226196289,
      "learning_rate": 0.0001660093172924343,
      "loss": 3.8485,
      "step": 224730
    },
    {
      "epoch": 0.46820833333333334,
      "grad_norm": 0.856514573097229,
      "learning_rate": 0.00016599951501388818,
      "loss": 3.969,
      "step": 224740
    },
    {
      "epoch": 0.46822916666666664,
      "grad_norm": 0.8686954975128174,
      "learning_rate": 0.00016598971266623057,
      "loss": 3.706,
      "step": 224750
    },
    {
      "epoch": 0.46825,
      "grad_norm": 0.9414054155349731,
      "learning_rate": 0.0001659799102495037,
      "loss": 3.9485,
      "step": 224760
    },
    {
      "epoch": 0.46827083333333336,
      "grad_norm": 0.8108105659484863,
      "learning_rate": 0.0001659701077637499,
      "loss": 3.8577,
      "step": 224770
    },
    {
      "epoch": 0.46829166666666666,
      "grad_norm": 0.9124282002449036,
      "learning_rate": 0.0001659603052090116,
      "loss": 3.9075,
      "step": 224780
    },
    {
      "epoch": 0.4683125,
      "grad_norm": 0.830732524394989,
      "learning_rate": 0.00016595050258533107,
      "loss": 3.8901,
      "step": 224790
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 0.9334460496902466,
      "learning_rate": 0.00016594069989275072,
      "loss": 4.0654,
      "step": 224800
    },
    {
      "epoch": 0.4683541666666667,
      "grad_norm": 0.9053876399993896,
      "learning_rate": 0.0001659308971313128,
      "loss": 3.8246,
      "step": 224810
    },
    {
      "epoch": 0.468375,
      "grad_norm": 0.7530160546302795,
      "learning_rate": 0.00016592109430105977,
      "loss": 3.7669,
      "step": 224820
    },
    {
      "epoch": 0.46839583333333334,
      "grad_norm": 0.8253800868988037,
      "learning_rate": 0.00016591129140203388,
      "loss": 3.6866,
      "step": 224830
    },
    {
      "epoch": 0.46841666666666665,
      "grad_norm": 0.89681077003479,
      "learning_rate": 0.0001659014884342775,
      "loss": 3.8131,
      "step": 224840
    },
    {
      "epoch": 0.4684375,
      "grad_norm": 0.9259983897209167,
      "learning_rate": 0.00016589168539783299,
      "loss": 3.9406,
      "step": 224850
    },
    {
      "epoch": 0.4684583333333333,
      "grad_norm": 1.0220110416412354,
      "learning_rate": 0.0001658818822927427,
      "loss": 3.9093,
      "step": 224860
    },
    {
      "epoch": 0.46847916666666667,
      "grad_norm": 0.8095431923866272,
      "learning_rate": 0.000165872079119049,
      "loss": 3.7057,
      "step": 224870
    },
    {
      "epoch": 0.4685,
      "grad_norm": 0.8422157764434814,
      "learning_rate": 0.00016586227587679417,
      "loss": 3.7727,
      "step": 224880
    },
    {
      "epoch": 0.46852083333333333,
      "grad_norm": 0.9822283983230591,
      "learning_rate": 0.0001658524725660206,
      "loss": 3.9588,
      "step": 224890
    },
    {
      "epoch": 0.4685416666666667,
      "grad_norm": 0.9781309962272644,
      "learning_rate": 0.00016584266918677056,
      "loss": 3.7312,
      "step": 224900
    },
    {
      "epoch": 0.4685625,
      "grad_norm": 0.8459621071815491,
      "learning_rate": 0.00016583286573908652,
      "loss": 3.8728,
      "step": 224910
    },
    {
      "epoch": 0.46858333333333335,
      "grad_norm": 0.8669448494911194,
      "learning_rate": 0.00016582306222301076,
      "loss": 4.0773,
      "step": 224920
    },
    {
      "epoch": 0.46860416666666665,
      "grad_norm": 1.1355304718017578,
      "learning_rate": 0.00016581325863858565,
      "loss": 3.5639,
      "step": 224930
    },
    {
      "epoch": 0.468625,
      "grad_norm": 0.9195725917816162,
      "learning_rate": 0.00016580345498585345,
      "loss": 3.9892,
      "step": 224940
    },
    {
      "epoch": 0.4686458333333333,
      "grad_norm": 0.8536334037780762,
      "learning_rate": 0.00016579365126485668,
      "loss": 3.8787,
      "step": 224950
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 0.8672646284103394,
      "learning_rate": 0.00016578384747563754,
      "loss": 3.8853,
      "step": 224960
    },
    {
      "epoch": 0.4686875,
      "grad_norm": 0.9608319401741028,
      "learning_rate": 0.0001657740436182384,
      "loss": 3.8796,
      "step": 224970
    },
    {
      "epoch": 0.46870833333333334,
      "grad_norm": 0.8447665572166443,
      "learning_rate": 0.00016576423969270166,
      "loss": 3.9841,
      "step": 224980
    },
    {
      "epoch": 0.46872916666666664,
      "grad_norm": 0.8442354202270508,
      "learning_rate": 0.00016575443569906968,
      "loss": 3.965,
      "step": 224990
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.8374453186988831,
      "learning_rate": 0.0001657446316373847,
      "loss": 3.8024,
      "step": 225000
    },
    {
      "epoch": 0.46875,
      "eval_loss": 3.6426215171813965,
      "eval_runtime": 6.8042,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 225000
    },
    {
      "epoch": 0.46877083333333336,
      "grad_norm": 1.0126484632492065,
      "learning_rate": 0.00016573482750768917,
      "loss": 4.1845,
      "step": 225010
    },
    {
      "epoch": 0.46879166666666666,
      "grad_norm": 0.9970398545265198,
      "learning_rate": 0.00016572502331002544,
      "loss": 3.8849,
      "step": 225020
    },
    {
      "epoch": 0.4688125,
      "grad_norm": 0.9136999845504761,
      "learning_rate": 0.0001657152190444358,
      "loss": 3.8225,
      "step": 225030
    },
    {
      "epoch": 0.4688333333333333,
      "grad_norm": 0.8759055137634277,
      "learning_rate": 0.00016570541471096266,
      "loss": 3.8395,
      "step": 225040
    },
    {
      "epoch": 0.4688541666666667,
      "grad_norm": 0.9436238408088684,
      "learning_rate": 0.00016569561030964835,
      "loss": 3.9173,
      "step": 225050
    },
    {
      "epoch": 0.468875,
      "grad_norm": 0.9004494547843933,
      "learning_rate": 0.00016568580584053522,
      "loss": 3.7067,
      "step": 225060
    },
    {
      "epoch": 0.46889583333333335,
      "grad_norm": 0.8594529628753662,
      "learning_rate": 0.00016567600130366558,
      "loss": 3.7956,
      "step": 225070
    },
    {
      "epoch": 0.46891666666666665,
      "grad_norm": 0.8227399587631226,
      "learning_rate": 0.00016566619669908185,
      "loss": 4.0048,
      "step": 225080
    },
    {
      "epoch": 0.4689375,
      "grad_norm": 0.8953885436058044,
      "learning_rate": 0.00016565639202682637,
      "loss": 3.7954,
      "step": 225090
    },
    {
      "epoch": 0.4689583333333333,
      "grad_norm": 0.8646462559700012,
      "learning_rate": 0.00016564658728694144,
      "loss": 3.9212,
      "step": 225100
    },
    {
      "epoch": 0.46897916666666667,
      "grad_norm": 0.888201892375946,
      "learning_rate": 0.00016563678247946941,
      "loss": 4.0743,
      "step": 225110
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.8683003783226013,
      "learning_rate": 0.00016562697760445276,
      "loss": 3.7993,
      "step": 225120
    },
    {
      "epoch": 0.46902083333333333,
      "grad_norm": 0.9371556043624878,
      "learning_rate": 0.0001656171726619337,
      "loss": 3.9889,
      "step": 225130
    },
    {
      "epoch": 0.4690416666666667,
      "grad_norm": 0.9016462564468384,
      "learning_rate": 0.0001656073676519546,
      "loss": 3.895,
      "step": 225140
    },
    {
      "epoch": 0.4690625,
      "grad_norm": 0.8965444564819336,
      "learning_rate": 0.00016559756257455792,
      "loss": 3.9384,
      "step": 225150
    },
    {
      "epoch": 0.46908333333333335,
      "grad_norm": 0.8344847559928894,
      "learning_rate": 0.0001655877574297859,
      "loss": 3.8369,
      "step": 225160
    },
    {
      "epoch": 0.46910416666666666,
      "grad_norm": 1.0613458156585693,
      "learning_rate": 0.00016557795221768096,
      "loss": 3.9565,
      "step": 225170
    },
    {
      "epoch": 0.469125,
      "grad_norm": 0.8519459366798401,
      "learning_rate": 0.00016556814693828543,
      "loss": 3.7782,
      "step": 225180
    },
    {
      "epoch": 0.4691458333333333,
      "grad_norm": 0.8549818396568298,
      "learning_rate": 0.00016555834159164167,
      "loss": 3.892,
      "step": 225190
    },
    {
      "epoch": 0.4691666666666667,
      "grad_norm": 1.0464056730270386,
      "learning_rate": 0.00016554853617779203,
      "loss": 3.7679,
      "step": 225200
    },
    {
      "epoch": 0.4691875,
      "grad_norm": 0.8568816781044006,
      "learning_rate": 0.00016553873069677884,
      "loss": 3.9593,
      "step": 225210
    },
    {
      "epoch": 0.46920833333333334,
      "grad_norm": 0.8515846729278564,
      "learning_rate": 0.00016552892514864453,
      "loss": 3.8068,
      "step": 225220
    },
    {
      "epoch": 0.46922916666666664,
      "grad_norm": 0.7895886301994324,
      "learning_rate": 0.0001655191195334314,
      "loss": 3.7639,
      "step": 225230
    },
    {
      "epoch": 0.46925,
      "grad_norm": 0.9142053723335266,
      "learning_rate": 0.00016550931385118177,
      "loss": 3.9476,
      "step": 225240
    },
    {
      "epoch": 0.46927083333333336,
      "grad_norm": 1.0441031455993652,
      "learning_rate": 0.00016549950810193807,
      "loss": 3.9436,
      "step": 225250
    },
    {
      "epoch": 0.46929166666666666,
      "grad_norm": 0.7805356979370117,
      "learning_rate": 0.00016548970228574266,
      "loss": 3.8412,
      "step": 225260
    },
    {
      "epoch": 0.4693125,
      "grad_norm": 0.846312403678894,
      "learning_rate": 0.00016547989640263783,
      "loss": 3.8353,
      "step": 225270
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 0.8941680788993835,
      "learning_rate": 0.00016547009045266597,
      "loss": 3.7134,
      "step": 225280
    },
    {
      "epoch": 0.4693541666666667,
      "grad_norm": 0.8438199758529663,
      "learning_rate": 0.0001654602844358695,
      "loss": 3.6992,
      "step": 225290
    },
    {
      "epoch": 0.469375,
      "grad_norm": 0.8288779258728027,
      "learning_rate": 0.00016545047835229065,
      "loss": 3.7737,
      "step": 225300
    },
    {
      "epoch": 0.46939583333333335,
      "grad_norm": 0.975242018699646,
      "learning_rate": 0.00016544067220197186,
      "loss": 3.9085,
      "step": 225310
    },
    {
      "epoch": 0.46941666666666665,
      "grad_norm": 1.0169371366500854,
      "learning_rate": 0.00016543086598495553,
      "loss": 3.7751,
      "step": 225320
    },
    {
      "epoch": 0.4694375,
      "grad_norm": 1.020039439201355,
      "learning_rate": 0.00016542105970128394,
      "loss": 4.0558,
      "step": 225330
    },
    {
      "epoch": 0.4694583333333333,
      "grad_norm": 0.9018320441246033,
      "learning_rate": 0.00016541125335099946,
      "loss": 3.9324,
      "step": 225340
    },
    {
      "epoch": 0.46947916666666667,
      "grad_norm": 1.3770630359649658,
      "learning_rate": 0.00016540144693414448,
      "loss": 3.924,
      "step": 225350
    },
    {
      "epoch": 0.4695,
      "grad_norm": 0.8467429876327515,
      "learning_rate": 0.00016539164045076136,
      "loss": 3.9802,
      "step": 225360
    },
    {
      "epoch": 0.46952083333333333,
      "grad_norm": 1.056289792060852,
      "learning_rate": 0.00016538183390089244,
      "loss": 3.8469,
      "step": 225370
    },
    {
      "epoch": 0.4695416666666667,
      "grad_norm": 1.0276720523834229,
      "learning_rate": 0.00016537202728458006,
      "loss": 4.1298,
      "step": 225380
    },
    {
      "epoch": 0.4695625,
      "grad_norm": 0.8188581466674805,
      "learning_rate": 0.00016536222060186661,
      "loss": 3.7803,
      "step": 225390
    },
    {
      "epoch": 0.46958333333333335,
      "grad_norm": 0.9122452735900879,
      "learning_rate": 0.00016535241385279447,
      "loss": 4.022,
      "step": 225400
    },
    {
      "epoch": 0.46960416666666666,
      "grad_norm": 0.9025177955627441,
      "learning_rate": 0.00016534260703740598,
      "loss": 3.8418,
      "step": 225410
    },
    {
      "epoch": 0.469625,
      "grad_norm": 0.870593786239624,
      "learning_rate": 0.00016533280015574347,
      "loss": 3.7131,
      "step": 225420
    },
    {
      "epoch": 0.4696458333333333,
      "grad_norm": 0.8840976357460022,
      "learning_rate": 0.0001653229932078494,
      "loss": 3.7338,
      "step": 225430
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 0.8617573976516724,
      "learning_rate": 0.000165313186193766,
      "loss": 3.9356,
      "step": 225440
    },
    {
      "epoch": 0.4696875,
      "grad_norm": 0.8475296497344971,
      "learning_rate": 0.00016530337911353568,
      "loss": 3.8895,
      "step": 225450
    },
    {
      "epoch": 0.46970833333333334,
      "grad_norm": 0.9039930701255798,
      "learning_rate": 0.0001652935719672009,
      "loss": 4.0818,
      "step": 225460
    },
    {
      "epoch": 0.46972916666666664,
      "grad_norm": 0.773661196231842,
      "learning_rate": 0.00016528376475480387,
      "loss": 4.0813,
      "step": 225470
    },
    {
      "epoch": 0.46975,
      "grad_norm": 0.9245872497558594,
      "learning_rate": 0.00016527395747638706,
      "loss": 3.8465,
      "step": 225480
    },
    {
      "epoch": 0.46977083333333336,
      "grad_norm": 0.8179092407226562,
      "learning_rate": 0.0001652641501319928,
      "loss": 3.8365,
      "step": 225490
    },
    {
      "epoch": 0.46979166666666666,
      "grad_norm": 0.8944483399391174,
      "learning_rate": 0.00016525434272166345,
      "loss": 3.8484,
      "step": 225500
    },
    {
      "epoch": 0.4698125,
      "grad_norm": 0.9818263053894043,
      "learning_rate": 0.00016524453524544136,
      "loss": 3.8979,
      "step": 225510
    },
    {
      "epoch": 0.4698333333333333,
      "grad_norm": 0.8054766654968262,
      "learning_rate": 0.00016523472770336894,
      "loss": 3.717,
      "step": 225520
    },
    {
      "epoch": 0.4698541666666667,
      "grad_norm": 0.9305845499038696,
      "learning_rate": 0.0001652249200954885,
      "loss": 3.858,
      "step": 225530
    },
    {
      "epoch": 0.469875,
      "grad_norm": 0.8432365655899048,
      "learning_rate": 0.00016521511242184245,
      "loss": 3.8358,
      "step": 225540
    },
    {
      "epoch": 0.46989583333333335,
      "grad_norm": 0.7966948747634888,
      "learning_rate": 0.00016520530468247313,
      "loss": 3.7735,
      "step": 225550
    },
    {
      "epoch": 0.46991666666666665,
      "grad_norm": 0.9906471371650696,
      "learning_rate": 0.0001651954968774229,
      "loss": 3.7137,
      "step": 225560
    },
    {
      "epoch": 0.4699375,
      "grad_norm": 0.8502698540687561,
      "learning_rate": 0.00016518568900673414,
      "loss": 3.9865,
      "step": 225570
    },
    {
      "epoch": 0.4699583333333333,
      "grad_norm": 0.8295040130615234,
      "learning_rate": 0.00016517588107044925,
      "loss": 3.9962,
      "step": 225580
    },
    {
      "epoch": 0.46997916666666667,
      "grad_norm": 1.3803898096084595,
      "learning_rate": 0.00016516607306861053,
      "loss": 3.7665,
      "step": 225590
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.847644031047821,
      "learning_rate": 0.0001651562650012604,
      "loss": 3.7963,
      "step": 225600
    },
    {
      "epoch": 0.47002083333333333,
      "grad_norm": 0.8146023154258728,
      "learning_rate": 0.00016514645686844116,
      "loss": 3.8929,
      "step": 225610
    },
    {
      "epoch": 0.4700416666666667,
      "grad_norm": 0.843167781829834,
      "learning_rate": 0.00016513664867019525,
      "loss": 3.8845,
      "step": 225620
    },
    {
      "epoch": 0.4700625,
      "grad_norm": 1.0340576171875,
      "learning_rate": 0.00016512684040656504,
      "loss": 3.9898,
      "step": 225630
    },
    {
      "epoch": 0.47008333333333335,
      "grad_norm": 0.9715321063995361,
      "learning_rate": 0.00016511703207759278,
      "loss": 4.0404,
      "step": 225640
    },
    {
      "epoch": 0.47010416666666666,
      "grad_norm": 0.9484483599662781,
      "learning_rate": 0.00016510722368332103,
      "loss": 3.8231,
      "step": 225650
    },
    {
      "epoch": 0.470125,
      "grad_norm": 0.9849669337272644,
      "learning_rate": 0.000165097415223792,
      "loss": 3.8225,
      "step": 225660
    },
    {
      "epoch": 0.4701458333333333,
      "grad_norm": 0.8545093536376953,
      "learning_rate": 0.0001650876066990481,
      "loss": 3.9268,
      "step": 225670
    },
    {
      "epoch": 0.4701666666666667,
      "grad_norm": 0.9188673496246338,
      "learning_rate": 0.00016507779810913175,
      "loss": 4.0855,
      "step": 225680
    },
    {
      "epoch": 0.4701875,
      "grad_norm": 0.8276554346084595,
      "learning_rate": 0.00016506798945408523,
      "loss": 4.0207,
      "step": 225690
    },
    {
      "epoch": 0.47020833333333334,
      "grad_norm": 0.9017317295074463,
      "learning_rate": 0.00016505818073395102,
      "loss": 3.8938,
      "step": 225700
    },
    {
      "epoch": 0.47022916666666664,
      "grad_norm": 0.8764140605926514,
      "learning_rate": 0.0001650483719487714,
      "loss": 3.917,
      "step": 225710
    },
    {
      "epoch": 0.47025,
      "grad_norm": 0.8657431602478027,
      "learning_rate": 0.00016503856309858873,
      "loss": 3.8116,
      "step": 225720
    },
    {
      "epoch": 0.47027083333333336,
      "grad_norm": 0.8312855362892151,
      "learning_rate": 0.00016502875418344546,
      "loss": 3.6774,
      "step": 225730
    },
    {
      "epoch": 0.47029166666666666,
      "grad_norm": 0.8490955829620361,
      "learning_rate": 0.00016501894520338394,
      "loss": 3.6544,
      "step": 225740
    },
    {
      "epoch": 0.4703125,
      "grad_norm": 0.9049621224403381,
      "learning_rate": 0.00016500913615844647,
      "loss": 3.7886,
      "step": 225750
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 1.1566768884658813,
      "learning_rate": 0.00016499932704867553,
      "loss": 3.8275,
      "step": 225760
    },
    {
      "epoch": 0.4703541666666667,
      "grad_norm": 0.8201530575752258,
      "learning_rate": 0.00016498951787411337,
      "loss": 3.8876,
      "step": 225770
    },
    {
      "epoch": 0.470375,
      "grad_norm": 0.8012214303016663,
      "learning_rate": 0.0001649797086348025,
      "loss": 3.8179,
      "step": 225780
    },
    {
      "epoch": 0.47039583333333335,
      "grad_norm": 0.9042874574661255,
      "learning_rate": 0.00016496989933078522,
      "loss": 3.9245,
      "step": 225790
    },
    {
      "epoch": 0.47041666666666665,
      "grad_norm": 0.8380073308944702,
      "learning_rate": 0.00016496008996210384,
      "loss": 4.0742,
      "step": 225800
    },
    {
      "epoch": 0.4704375,
      "grad_norm": 0.997479259967804,
      "learning_rate": 0.0001649502805288008,
      "loss": 3.9328,
      "step": 225810
    },
    {
      "epoch": 0.4704583333333333,
      "grad_norm": 1.4100596904754639,
      "learning_rate": 0.0001649404710309185,
      "loss": 3.8834,
      "step": 225820
    },
    {
      "epoch": 0.47047916666666667,
      "grad_norm": 0.8790708780288696,
      "learning_rate": 0.00016493066146849926,
      "loss": 3.7254,
      "step": 225830
    },
    {
      "epoch": 0.4705,
      "grad_norm": 0.8307867646217346,
      "learning_rate": 0.00016492085184158546,
      "loss": 3.7751,
      "step": 225840
    },
    {
      "epoch": 0.47052083333333333,
      "grad_norm": 0.8854854106903076,
      "learning_rate": 0.0001649110421502195,
      "loss": 3.7952,
      "step": 225850
    },
    {
      "epoch": 0.4705416666666667,
      "grad_norm": 0.7974928617477417,
      "learning_rate": 0.00016490123239444373,
      "loss": 3.7733,
      "step": 225860
    },
    {
      "epoch": 0.4705625,
      "grad_norm": 0.9868834614753723,
      "learning_rate": 0.00016489142257430055,
      "loss": 3.7739,
      "step": 225870
    },
    {
      "epoch": 0.47058333333333335,
      "grad_norm": 0.9393914341926575,
      "learning_rate": 0.00016488161268983232,
      "loss": 3.8597,
      "step": 225880
    },
    {
      "epoch": 0.47060416666666666,
      "grad_norm": 1.1422746181488037,
      "learning_rate": 0.0001648718027410814,
      "loss": 3.8711,
      "step": 225890
    },
    {
      "epoch": 0.470625,
      "grad_norm": 1.0076709985733032,
      "learning_rate": 0.0001648619927280902,
      "loss": 3.9593,
      "step": 225900
    },
    {
      "epoch": 0.4706458333333333,
      "grad_norm": 1.0331748723983765,
      "learning_rate": 0.00016485218265090102,
      "loss": 3.9418,
      "step": 225910
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 0.9040341973304749,
      "learning_rate": 0.00016484237250955633,
      "loss": 3.7618,
      "step": 225920
    },
    {
      "epoch": 0.4706875,
      "grad_norm": 1.051390290260315,
      "learning_rate": 0.0001648325623040985,
      "loss": 4.1152,
      "step": 225930
    },
    {
      "epoch": 0.47070833333333334,
      "grad_norm": 0.8323203325271606,
      "learning_rate": 0.0001648227520345698,
      "loss": 3.7914,
      "step": 225940
    },
    {
      "epoch": 0.47072916666666664,
      "grad_norm": 0.8422231078147888,
      "learning_rate": 0.0001648129417010127,
      "loss": 4.0715,
      "step": 225950
    },
    {
      "epoch": 0.47075,
      "grad_norm": 0.9071136116981506,
      "learning_rate": 0.0001648031313034696,
      "loss": 3.8525,
      "step": 225960
    },
    {
      "epoch": 0.47077083333333336,
      "grad_norm": 0.8894466757774353,
      "learning_rate": 0.00016479332084198283,
      "loss": 3.8709,
      "step": 225970
    },
    {
      "epoch": 0.47079166666666666,
      "grad_norm": 0.9769315123558044,
      "learning_rate": 0.0001647835103165947,
      "loss": 3.8902,
      "step": 225980
    },
    {
      "epoch": 0.4708125,
      "grad_norm": 0.8657886981964111,
      "learning_rate": 0.00016477369972734774,
      "loss": 3.7617,
      "step": 225990
    },
    {
      "epoch": 0.4708333333333333,
      "grad_norm": 1.1434413194656372,
      "learning_rate": 0.00016476388907428417,
      "loss": 3.9001,
      "step": 226000
    },
    {
      "epoch": 0.4708333333333333,
      "eval_loss": 3.6376953125,
      "eval_runtime": 7.2305,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 226000
    },
    {
      "epoch": 0.4708541666666667,
      "grad_norm": 0.9029281139373779,
      "learning_rate": 0.00016475407835744646,
      "loss": 3.887,
      "step": 226010
    },
    {
      "epoch": 0.470875,
      "grad_norm": 0.808703601360321,
      "learning_rate": 0.000164744267576877,
      "loss": 4.031,
      "step": 226020
    },
    {
      "epoch": 0.47089583333333335,
      "grad_norm": 0.848898708820343,
      "learning_rate": 0.00016473445673261816,
      "loss": 3.9431,
      "step": 226030
    },
    {
      "epoch": 0.47091666666666665,
      "grad_norm": 0.8986697196960449,
      "learning_rate": 0.00016472464582471228,
      "loss": 3.8345,
      "step": 226040
    },
    {
      "epoch": 0.4709375,
      "grad_norm": 0.944141149520874,
      "learning_rate": 0.00016471483485320173,
      "loss": 3.8075,
      "step": 226050
    },
    {
      "epoch": 0.4709583333333333,
      "grad_norm": 0.9046370387077332,
      "learning_rate": 0.00016470502381812894,
      "loss": 3.7422,
      "step": 226060
    },
    {
      "epoch": 0.47097916666666667,
      "grad_norm": 0.8573070764541626,
      "learning_rate": 0.00016469521271953626,
      "loss": 4.0052,
      "step": 226070
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.9276434183120728,
      "learning_rate": 0.00016468540155746604,
      "loss": 3.9951,
      "step": 226080
    },
    {
      "epoch": 0.47102083333333333,
      "grad_norm": 0.8707143664360046,
      "learning_rate": 0.00016467559033196076,
      "loss": 3.8345,
      "step": 226090
    },
    {
      "epoch": 0.4710416666666667,
      "grad_norm": 0.8736234307289124,
      "learning_rate": 0.00016466577904306274,
      "loss": 3.7505,
      "step": 226100
    },
    {
      "epoch": 0.4710625,
      "grad_norm": 0.8414151668548584,
      "learning_rate": 0.00016465596769081432,
      "loss": 3.9614,
      "step": 226110
    },
    {
      "epoch": 0.47108333333333335,
      "grad_norm": 0.8293566107749939,
      "learning_rate": 0.0001646461562752579,
      "loss": 3.8571,
      "step": 226120
    },
    {
      "epoch": 0.47110416666666666,
      "grad_norm": 0.8495314121246338,
      "learning_rate": 0.000164636344796436,
      "loss": 3.7795,
      "step": 226130
    },
    {
      "epoch": 0.471125,
      "grad_norm": 1.0482014417648315,
      "learning_rate": 0.00016462653325439072,
      "loss": 3.8678,
      "step": 226140
    },
    {
      "epoch": 0.4711458333333333,
      "grad_norm": 0.9232284426689148,
      "learning_rate": 0.0001646167216491647,
      "loss": 3.7411,
      "step": 226150
    },
    {
      "epoch": 0.4711666666666667,
      "grad_norm": 0.8475017547607422,
      "learning_rate": 0.00016460690998080027,
      "loss": 3.8875,
      "step": 226160
    },
    {
      "epoch": 0.4711875,
      "grad_norm": 0.7897796630859375,
      "learning_rate": 0.00016459709824933973,
      "loss": 3.6595,
      "step": 226170
    },
    {
      "epoch": 0.47120833333333334,
      "grad_norm": 0.9870964884757996,
      "learning_rate": 0.0001645872864548254,
      "loss": 3.9339,
      "step": 226180
    },
    {
      "epoch": 0.47122916666666664,
      "grad_norm": 0.9925168752670288,
      "learning_rate": 0.00016457747459729992,
      "loss": 4.1009,
      "step": 226190
    },
    {
      "epoch": 0.47125,
      "grad_norm": 0.8023524880409241,
      "learning_rate": 0.00016456766267680545,
      "loss": 3.8581,
      "step": 226200
    },
    {
      "epoch": 0.47127083333333336,
      "grad_norm": 0.904148280620575,
      "learning_rate": 0.00016455785069338446,
      "loss": 4.0216,
      "step": 226210
    },
    {
      "epoch": 0.47129166666666666,
      "grad_norm": 1.0153390169143677,
      "learning_rate": 0.0001645480386470793,
      "loss": 3.7727,
      "step": 226220
    },
    {
      "epoch": 0.4713125,
      "grad_norm": 0.8937299251556396,
      "learning_rate": 0.0001645382265379324,
      "loss": 4.1278,
      "step": 226230
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 0.9004994034767151,
      "learning_rate": 0.0001645284143659861,
      "loss": 3.8807,
      "step": 226240
    },
    {
      "epoch": 0.4713541666666667,
      "grad_norm": 1.2522045373916626,
      "learning_rate": 0.00016451860213128277,
      "loss": 3.998,
      "step": 226250
    },
    {
      "epoch": 0.471375,
      "grad_norm": 0.9552756547927856,
      "learning_rate": 0.00016450878983386485,
      "loss": 3.8606,
      "step": 226260
    },
    {
      "epoch": 0.47139583333333335,
      "grad_norm": 0.8114748001098633,
      "learning_rate": 0.0001644989774737747,
      "loss": 3.7276,
      "step": 226270
    },
    {
      "epoch": 0.47141666666666665,
      "grad_norm": 0.9100937247276306,
      "learning_rate": 0.0001644891650510547,
      "loss": 3.8309,
      "step": 226280
    },
    {
      "epoch": 0.4714375,
      "grad_norm": 0.8874598145484924,
      "learning_rate": 0.00016447935256574728,
      "loss": 3.8276,
      "step": 226290
    },
    {
      "epoch": 0.4714583333333333,
      "grad_norm": 0.8994554281234741,
      "learning_rate": 0.00016446954001789478,
      "loss": 4.0768,
      "step": 226300
    },
    {
      "epoch": 0.47147916666666667,
      "grad_norm": 1.1094380617141724,
      "learning_rate": 0.00016445972740753955,
      "loss": 4.1039,
      "step": 226310
    },
    {
      "epoch": 0.4715,
      "grad_norm": 1.2242852449417114,
      "learning_rate": 0.00016444991473472403,
      "loss": 3.8352,
      "step": 226320
    },
    {
      "epoch": 0.47152083333333333,
      "grad_norm": 0.8733694553375244,
      "learning_rate": 0.00016444010199949066,
      "loss": 3.7817,
      "step": 226330
    },
    {
      "epoch": 0.4715416666666667,
      "grad_norm": 0.8047502040863037,
      "learning_rate": 0.00016443028920188168,
      "loss": 4.1223,
      "step": 226340
    },
    {
      "epoch": 0.4715625,
      "grad_norm": 0.8245449662208557,
      "learning_rate": 0.00016442047634193958,
      "loss": 3.8908,
      "step": 226350
    },
    {
      "epoch": 0.47158333333333335,
      "grad_norm": 0.8433327078819275,
      "learning_rate": 0.0001644106634197068,
      "loss": 3.7749,
      "step": 226360
    },
    {
      "epoch": 0.47160416666666666,
      "grad_norm": 0.7648236751556396,
      "learning_rate": 0.00016440085043522562,
      "loss": 3.6705,
      "step": 226370
    },
    {
      "epoch": 0.471625,
      "grad_norm": 0.8992880582809448,
      "learning_rate": 0.00016439103738853845,
      "loss": 3.8574,
      "step": 226380
    },
    {
      "epoch": 0.4716458333333333,
      "grad_norm": 0.9596510529518127,
      "learning_rate": 0.0001643812242796877,
      "loss": 3.9278,
      "step": 226390
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 0.92325359582901,
      "learning_rate": 0.00016437141110871574,
      "loss": 3.7342,
      "step": 226400
    },
    {
      "epoch": 0.4716875,
      "grad_norm": 1.035609483718872,
      "learning_rate": 0.00016436159787566499,
      "loss": 3.8222,
      "step": 226410
    },
    {
      "epoch": 0.47170833333333334,
      "grad_norm": 1.0434709787368774,
      "learning_rate": 0.0001643517845805778,
      "loss": 3.7101,
      "step": 226420
    },
    {
      "epoch": 0.47172916666666664,
      "grad_norm": 0.8566698431968689,
      "learning_rate": 0.00016434197122349665,
      "loss": 4.0905,
      "step": 226430
    },
    {
      "epoch": 0.47175,
      "grad_norm": 0.8283166885375977,
      "learning_rate": 0.00016433215780446378,
      "loss": 3.8376,
      "step": 226440
    },
    {
      "epoch": 0.4717708333333333,
      "grad_norm": 0.9233151078224182,
      "learning_rate": 0.0001643223443235217,
      "loss": 4.1443,
      "step": 226450
    },
    {
      "epoch": 0.47179166666666666,
      "grad_norm": 0.8207910060882568,
      "learning_rate": 0.00016431253078071274,
      "loss": 3.8341,
      "step": 226460
    },
    {
      "epoch": 0.4718125,
      "grad_norm": 0.8685194253921509,
      "learning_rate": 0.0001643027171760794,
      "loss": 3.8111,
      "step": 226470
    },
    {
      "epoch": 0.4718333333333333,
      "grad_norm": 0.8643224239349365,
      "learning_rate": 0.00016429290350966383,
      "loss": 3.7462,
      "step": 226480
    },
    {
      "epoch": 0.4718541666666667,
      "grad_norm": 0.8358838558197021,
      "learning_rate": 0.00016428308978150866,
      "loss": 3.8337,
      "step": 226490
    },
    {
      "epoch": 0.471875,
      "grad_norm": 0.9766775369644165,
      "learning_rate": 0.00016427327599165622,
      "loss": 4.2154,
      "step": 226500
    },
    {
      "epoch": 0.47189583333333335,
      "grad_norm": 0.8722226619720459,
      "learning_rate": 0.00016426346214014882,
      "loss": 3.9235,
      "step": 226510
    },
    {
      "epoch": 0.47191666666666665,
      "grad_norm": 0.8837419748306274,
      "learning_rate": 0.000164253648227029,
      "loss": 3.6962,
      "step": 226520
    },
    {
      "epoch": 0.4719375,
      "grad_norm": 0.9445990324020386,
      "learning_rate": 0.00016424383425233898,
      "loss": 3.83,
      "step": 226530
    },
    {
      "epoch": 0.4719583333333333,
      "grad_norm": 0.8455653190612793,
      "learning_rate": 0.00016423402021612126,
      "loss": 3.8106,
      "step": 226540
    },
    {
      "epoch": 0.47197916666666667,
      "grad_norm": 0.947510302066803,
      "learning_rate": 0.00016422420611841818,
      "loss": 3.845,
      "step": 226550
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.8338512778282166,
      "learning_rate": 0.00016421439195927218,
      "loss": 3.8782,
      "step": 226560
    },
    {
      "epoch": 0.47202083333333333,
      "grad_norm": 0.8855851292610168,
      "learning_rate": 0.00016420457773872564,
      "loss": 3.755,
      "step": 226570
    },
    {
      "epoch": 0.4720416666666667,
      "grad_norm": 0.9052892923355103,
      "learning_rate": 0.00016419476345682095,
      "loss": 3.877,
      "step": 226580
    },
    {
      "epoch": 0.4720625,
      "grad_norm": 1.3353787660598755,
      "learning_rate": 0.00016418494911360048,
      "loss": 3.9659,
      "step": 226590
    },
    {
      "epoch": 0.47208333333333335,
      "grad_norm": 0.8681371212005615,
      "learning_rate": 0.00016417513470910666,
      "loss": 3.863,
      "step": 226600
    },
    {
      "epoch": 0.47210416666666666,
      "grad_norm": 0.8889272212982178,
      "learning_rate": 0.00016416532024338186,
      "loss": 3.9571,
      "step": 226610
    },
    {
      "epoch": 0.472125,
      "grad_norm": 0.9369878172874451,
      "learning_rate": 0.0001641555057164685,
      "loss": 3.8142,
      "step": 226620
    },
    {
      "epoch": 0.4721458333333333,
      "grad_norm": 0.9045512676239014,
      "learning_rate": 0.00016414569112840893,
      "loss": 3.8253,
      "step": 226630
    },
    {
      "epoch": 0.4721666666666667,
      "grad_norm": 1.0202155113220215,
      "learning_rate": 0.00016413587647924559,
      "loss": 3.8073,
      "step": 226640
    },
    {
      "epoch": 0.4721875,
      "grad_norm": 0.8685314059257507,
      "learning_rate": 0.00016412606176902087,
      "loss": 4.046,
      "step": 226650
    },
    {
      "epoch": 0.47220833333333334,
      "grad_norm": 0.8582800626754761,
      "learning_rate": 0.00016411624699777717,
      "loss": 3.9786,
      "step": 226660
    },
    {
      "epoch": 0.47222916666666664,
      "grad_norm": 1.2408491373062134,
      "learning_rate": 0.00016410643216555686,
      "loss": 3.8065,
      "step": 226670
    },
    {
      "epoch": 0.47225,
      "grad_norm": 0.8298379778862,
      "learning_rate": 0.00016409661727240227,
      "loss": 3.5284,
      "step": 226680
    },
    {
      "epoch": 0.4722708333333333,
      "grad_norm": 0.8530550003051758,
      "learning_rate": 0.00016408680231835596,
      "loss": 3.878,
      "step": 226690
    },
    {
      "epoch": 0.47229166666666667,
      "grad_norm": 0.8031923174858093,
      "learning_rate": 0.00016407698730346024,
      "loss": 3.7383,
      "step": 226700
    },
    {
      "epoch": 0.4723125,
      "grad_norm": 0.9408472776412964,
      "learning_rate": 0.00016406717222775745,
      "loss": 4.0984,
      "step": 226710
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 0.948988676071167,
      "learning_rate": 0.00016405735709129008,
      "loss": 3.8945,
      "step": 226720
    },
    {
      "epoch": 0.4723541666666667,
      "grad_norm": 0.8168874382972717,
      "learning_rate": 0.00016404754189410048,
      "loss": 3.7582,
      "step": 226730
    },
    {
      "epoch": 0.472375,
      "grad_norm": 0.854307234287262,
      "learning_rate": 0.00016403772663623107,
      "loss": 3.9541,
      "step": 226740
    },
    {
      "epoch": 0.47239583333333335,
      "grad_norm": 0.8704226016998291,
      "learning_rate": 0.00016402791131772424,
      "loss": 3.8921,
      "step": 226750
    },
    {
      "epoch": 0.47241666666666665,
      "grad_norm": 0.9376600384712219,
      "learning_rate": 0.00016401809593862238,
      "loss": 3.7611,
      "step": 226760
    },
    {
      "epoch": 0.4724375,
      "grad_norm": 0.968569815158844,
      "learning_rate": 0.00016400828049896788,
      "loss": 3.9808,
      "step": 226770
    },
    {
      "epoch": 0.4724583333333333,
      "grad_norm": 0.8394507765769958,
      "learning_rate": 0.00016399846499880316,
      "loss": 3.7832,
      "step": 226780
    },
    {
      "epoch": 0.4724791666666667,
      "grad_norm": 0.8542876839637756,
      "learning_rate": 0.00016398864943817064,
      "loss": 3.8042,
      "step": 226790
    },
    {
      "epoch": 0.4725,
      "grad_norm": 0.822780191898346,
      "learning_rate": 0.0001639788338171127,
      "loss": 3.9405,
      "step": 226800
    },
    {
      "epoch": 0.47252083333333333,
      "grad_norm": 0.787777841091156,
      "learning_rate": 0.00016396901813567168,
      "loss": 3.7548,
      "step": 226810
    },
    {
      "epoch": 0.4725416666666667,
      "grad_norm": 0.8012979030609131,
      "learning_rate": 0.00016395920239389,
      "loss": 3.7708,
      "step": 226820
    },
    {
      "epoch": 0.4725625,
      "grad_norm": 0.834956169128418,
      "learning_rate": 0.0001639493865918102,
      "loss": 3.9505,
      "step": 226830
    },
    {
      "epoch": 0.47258333333333336,
      "grad_norm": 1.0538794994354248,
      "learning_rate": 0.0001639395707294745,
      "loss": 3.8058,
      "step": 226840
    },
    {
      "epoch": 0.47260416666666666,
      "grad_norm": 0.8561428785324097,
      "learning_rate": 0.00016392975480692537,
      "loss": 3.9117,
      "step": 226850
    },
    {
      "epoch": 0.472625,
      "grad_norm": 0.9624430537223816,
      "learning_rate": 0.00016391993882420525,
      "loss": 4.0919,
      "step": 226860
    },
    {
      "epoch": 0.4726458333333333,
      "grad_norm": 0.8852243423461914,
      "learning_rate": 0.0001639101227813565,
      "loss": 3.9198,
      "step": 226870
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 0.815811276435852,
      "learning_rate": 0.00016390030667842148,
      "loss": 3.8286,
      "step": 226880
    },
    {
      "epoch": 0.4726875,
      "grad_norm": 1.0405657291412354,
      "learning_rate": 0.0001638904905154427,
      "loss": 3.7565,
      "step": 226890
    },
    {
      "epoch": 0.47270833333333334,
      "grad_norm": 0.8674466013908386,
      "learning_rate": 0.00016388067429246245,
      "loss": 3.9299,
      "step": 226900
    },
    {
      "epoch": 0.47272916666666664,
      "grad_norm": 0.9431070685386658,
      "learning_rate": 0.0001638708580095232,
      "loss": 3.9664,
      "step": 226910
    },
    {
      "epoch": 0.47275,
      "grad_norm": 0.8651872873306274,
      "learning_rate": 0.00016386104166666736,
      "loss": 3.9409,
      "step": 226920
    },
    {
      "epoch": 0.4727708333333333,
      "grad_norm": 0.9590475559234619,
      "learning_rate": 0.00016385122526393726,
      "loss": 3.9695,
      "step": 226930
    },
    {
      "epoch": 0.47279166666666667,
      "grad_norm": 1.1745047569274902,
      "learning_rate": 0.00016384140880137534,
      "loss": 3.7589,
      "step": 226940
    },
    {
      "epoch": 0.4728125,
      "grad_norm": 0.8884803056716919,
      "learning_rate": 0.00016383159227902405,
      "loss": 3.8871,
      "step": 226950
    },
    {
      "epoch": 0.4728333333333333,
      "grad_norm": 0.9231777787208557,
      "learning_rate": 0.00016382177569692575,
      "loss": 4.0544,
      "step": 226960
    },
    {
      "epoch": 0.4728541666666667,
      "grad_norm": 0.8202832341194153,
      "learning_rate": 0.0001638119590551229,
      "loss": 3.7613,
      "step": 226970
    },
    {
      "epoch": 0.472875,
      "grad_norm": 0.86246657371521,
      "learning_rate": 0.00016380214235365773,
      "loss": 3.7167,
      "step": 226980
    },
    {
      "epoch": 0.47289583333333335,
      "grad_norm": 0.8790122270584106,
      "learning_rate": 0.00016379232559257285,
      "loss": 3.8735,
      "step": 226990
    },
    {
      "epoch": 0.47291666666666665,
      "grad_norm": 0.8553531169891357,
      "learning_rate": 0.00016378250877191063,
      "loss": 3.6935,
      "step": 227000
    },
    {
      "epoch": 0.47291666666666665,
      "eval_loss": 3.637053966522217,
      "eval_runtime": 7.2518,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 227000
    },
    {
      "epoch": 0.4729375,
      "grad_norm": 0.907295286655426,
      "learning_rate": 0.00016377269189171335,
      "loss": 3.9869,
      "step": 227010
    },
    {
      "epoch": 0.4729583333333333,
      "grad_norm": 0.8489640355110168,
      "learning_rate": 0.00016376287495202348,
      "loss": 3.9628,
      "step": 227020
    },
    {
      "epoch": 0.4729791666666667,
      "grad_norm": 1.090215802192688,
      "learning_rate": 0.0001637530579528835,
      "loss": 4.0734,
      "step": 227030
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.8293832540512085,
      "learning_rate": 0.00016374324089433572,
      "loss": 3.9209,
      "step": 227040
    },
    {
      "epoch": 0.47302083333333333,
      "grad_norm": 0.8195044994354248,
      "learning_rate": 0.00016373342377642254,
      "loss": 3.8497,
      "step": 227050
    },
    {
      "epoch": 0.4730416666666667,
      "grad_norm": 0.8865771293640137,
      "learning_rate": 0.0001637236065991865,
      "loss": 4.0652,
      "step": 227060
    },
    {
      "epoch": 0.4730625,
      "grad_norm": 0.863392174243927,
      "learning_rate": 0.00016371378936266986,
      "loss": 3.8315,
      "step": 227070
    },
    {
      "epoch": 0.47308333333333336,
      "grad_norm": 1.012048363685608,
      "learning_rate": 0.00016370397206691507,
      "loss": 3.9365,
      "step": 227080
    },
    {
      "epoch": 0.47310416666666666,
      "grad_norm": 0.936274528503418,
      "learning_rate": 0.00016369415471196455,
      "loss": 3.8861,
      "step": 227090
    },
    {
      "epoch": 0.473125,
      "grad_norm": 0.9268820881843567,
      "learning_rate": 0.00016368433729786072,
      "loss": 3.842,
      "step": 227100
    },
    {
      "epoch": 0.4731458333333333,
      "grad_norm": 0.7928583025932312,
      "learning_rate": 0.00016367451982464594,
      "loss": 3.9207,
      "step": 227110
    },
    {
      "epoch": 0.4731666666666667,
      "grad_norm": 0.8396965265274048,
      "learning_rate": 0.00016366470229236266,
      "loss": 3.9721,
      "step": 227120
    },
    {
      "epoch": 0.4731875,
      "grad_norm": 0.8657473921775818,
      "learning_rate": 0.00016365488470105328,
      "loss": 3.9902,
      "step": 227130
    },
    {
      "epoch": 0.47320833333333334,
      "grad_norm": 0.8478133082389832,
      "learning_rate": 0.0001636450670507602,
      "loss": 4.0346,
      "step": 227140
    },
    {
      "epoch": 0.47322916666666665,
      "grad_norm": 0.9101689457893372,
      "learning_rate": 0.00016363524934152583,
      "loss": 3.9448,
      "step": 227150
    },
    {
      "epoch": 0.47325,
      "grad_norm": 1.717530369758606,
      "learning_rate": 0.00016362543157339256,
      "loss": 3.8236,
      "step": 227160
    },
    {
      "epoch": 0.4732708333333333,
      "grad_norm": 0.8043042421340942,
      "learning_rate": 0.0001636156137464029,
      "loss": 3.9817,
      "step": 227170
    },
    {
      "epoch": 0.47329166666666667,
      "grad_norm": 0.8385553359985352,
      "learning_rate": 0.00016360579586059907,
      "loss": 3.8433,
      "step": 227180
    },
    {
      "epoch": 0.4733125,
      "grad_norm": 0.8713874220848083,
      "learning_rate": 0.00016359597791602365,
      "loss": 4.0176,
      "step": 227190
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 0.9064510464668274,
      "learning_rate": 0.000163586159912719,
      "loss": 3.8678,
      "step": 227200
    },
    {
      "epoch": 0.4733541666666667,
      "grad_norm": 0.8354027271270752,
      "learning_rate": 0.00016357634185072746,
      "loss": 3.9928,
      "step": 227210
    },
    {
      "epoch": 0.473375,
      "grad_norm": 1.4329521656036377,
      "learning_rate": 0.00016356652373009152,
      "loss": 3.9073,
      "step": 227220
    },
    {
      "epoch": 0.47339583333333335,
      "grad_norm": 0.7804831266403198,
      "learning_rate": 0.0001635567055508536,
      "loss": 3.8133,
      "step": 227230
    },
    {
      "epoch": 0.47341666666666665,
      "grad_norm": 0.9152234792709351,
      "learning_rate": 0.00016354688731305607,
      "loss": 3.9335,
      "step": 227240
    },
    {
      "epoch": 0.4734375,
      "grad_norm": 0.8564620614051819,
      "learning_rate": 0.00016353706901674133,
      "loss": 3.9159,
      "step": 227250
    },
    {
      "epoch": 0.4734583333333333,
      "grad_norm": 0.8184507489204407,
      "learning_rate": 0.00016352725066195182,
      "loss": 3.9214,
      "step": 227260
    },
    {
      "epoch": 0.4734791666666667,
      "grad_norm": 0.8347955346107483,
      "learning_rate": 0.0001635174322487299,
      "loss": 3.8806,
      "step": 227270
    },
    {
      "epoch": 0.4735,
      "grad_norm": 0.905942440032959,
      "learning_rate": 0.00016350761377711807,
      "loss": 4.1047,
      "step": 227280
    },
    {
      "epoch": 0.47352083333333334,
      "grad_norm": 0.8616149425506592,
      "learning_rate": 0.00016349779524715868,
      "loss": 4.0376,
      "step": 227290
    },
    {
      "epoch": 0.4735416666666667,
      "grad_norm": 1.1394429206848145,
      "learning_rate": 0.00016348797665889417,
      "loss": 3.8089,
      "step": 227300
    },
    {
      "epoch": 0.4735625,
      "grad_norm": 0.8736609220504761,
      "learning_rate": 0.0001634781580123669,
      "loss": 3.8313,
      "step": 227310
    },
    {
      "epoch": 0.47358333333333336,
      "grad_norm": 0.8826441764831543,
      "learning_rate": 0.00016346833930761936,
      "loss": 3.8551,
      "step": 227320
    },
    {
      "epoch": 0.47360416666666666,
      "grad_norm": 0.8103765249252319,
      "learning_rate": 0.00016345852054469394,
      "loss": 3.8245,
      "step": 227330
    },
    {
      "epoch": 0.473625,
      "grad_norm": 0.8291318416595459,
      "learning_rate": 0.000163448701723633,
      "loss": 3.8673,
      "step": 227340
    },
    {
      "epoch": 0.4736458333333333,
      "grad_norm": 0.9734324812889099,
      "learning_rate": 0.00016343888284447902,
      "loss": 4.0327,
      "step": 227350
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 1.0543721914291382,
      "learning_rate": 0.00016342906390727437,
      "loss": 4.0083,
      "step": 227360
    },
    {
      "epoch": 0.4736875,
      "grad_norm": 0.7891767621040344,
      "learning_rate": 0.00016341924491206149,
      "loss": 3.9802,
      "step": 227370
    },
    {
      "epoch": 0.47370833333333334,
      "grad_norm": 1.0380799770355225,
      "learning_rate": 0.00016340942585888276,
      "loss": 3.9728,
      "step": 227380
    },
    {
      "epoch": 0.47372916666666665,
      "grad_norm": 0.8834006786346436,
      "learning_rate": 0.00016339960674778065,
      "loss": 3.9265,
      "step": 227390
    },
    {
      "epoch": 0.47375,
      "grad_norm": 0.8132543563842773,
      "learning_rate": 0.00016338978757879754,
      "loss": 3.9649,
      "step": 227400
    },
    {
      "epoch": 0.4737708333333333,
      "grad_norm": 0.8293397426605225,
      "learning_rate": 0.00016337996835197582,
      "loss": 3.8861,
      "step": 227410
    },
    {
      "epoch": 0.47379166666666667,
      "grad_norm": 0.8317469358444214,
      "learning_rate": 0.00016337014906735796,
      "loss": 3.7947,
      "step": 227420
    },
    {
      "epoch": 0.4738125,
      "grad_norm": 0.7982283234596252,
      "learning_rate": 0.00016336032972498634,
      "loss": 3.8358,
      "step": 227430
    },
    {
      "epoch": 0.47383333333333333,
      "grad_norm": 0.8666229248046875,
      "learning_rate": 0.0001633505103249034,
      "loss": 4.1715,
      "step": 227440
    },
    {
      "epoch": 0.4738541666666667,
      "grad_norm": 1.058200478553772,
      "learning_rate": 0.0001633406908671515,
      "loss": 3.8234,
      "step": 227450
    },
    {
      "epoch": 0.473875,
      "grad_norm": 0.8226302862167358,
      "learning_rate": 0.00016333087135177312,
      "loss": 4.028,
      "step": 227460
    },
    {
      "epoch": 0.47389583333333335,
      "grad_norm": 0.8437695503234863,
      "learning_rate": 0.00016332105177881064,
      "loss": 3.811,
      "step": 227470
    },
    {
      "epoch": 0.47391666666666665,
      "grad_norm": 0.8621928095817566,
      "learning_rate": 0.00016331123214830651,
      "loss": 3.9868,
      "step": 227480
    },
    {
      "epoch": 0.4739375,
      "grad_norm": 0.8901985883712769,
      "learning_rate": 0.0001633014124603031,
      "loss": 3.759,
      "step": 227490
    },
    {
      "epoch": 0.4739583333333333,
      "grad_norm": 0.8426516056060791,
      "learning_rate": 0.00016329159271484287,
      "loss": 4.0712,
      "step": 227500
    },
    {
      "epoch": 0.4739791666666667,
      "grad_norm": 0.8560136556625366,
      "learning_rate": 0.0001632817729119682,
      "loss": 3.9295,
      "step": 227510
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.8308060765266418,
      "learning_rate": 0.00016327195305172154,
      "loss": 3.989,
      "step": 227520
    },
    {
      "epoch": 0.47402083333333334,
      "grad_norm": 0.8570060133934021,
      "learning_rate": 0.00016326213313414532,
      "loss": 3.6768,
      "step": 227530
    },
    {
      "epoch": 0.47404166666666664,
      "grad_norm": 0.8705194592475891,
      "learning_rate": 0.00016325231315928194,
      "loss": 3.9537,
      "step": 227540
    },
    {
      "epoch": 0.4740625,
      "grad_norm": 0.8342086672782898,
      "learning_rate": 0.00016324249312717375,
      "loss": 3.7507,
      "step": 227550
    },
    {
      "epoch": 0.47408333333333336,
      "grad_norm": 0.9794013500213623,
      "learning_rate": 0.00016323267303786331,
      "loss": 3.8779,
      "step": 227560
    },
    {
      "epoch": 0.47410416666666666,
      "grad_norm": 0.8179307579994202,
      "learning_rate": 0.00016322285289139293,
      "loss": 3.8302,
      "step": 227570
    },
    {
      "epoch": 0.474125,
      "grad_norm": 0.846789538860321,
      "learning_rate": 0.00016321303268780502,
      "loss": 3.9496,
      "step": 227580
    },
    {
      "epoch": 0.4741458333333333,
      "grad_norm": 0.8660765886306763,
      "learning_rate": 0.0001632032124271421,
      "loss": 3.8628,
      "step": 227590
    },
    {
      "epoch": 0.4741666666666667,
      "grad_norm": 0.8585231900215149,
      "learning_rate": 0.00016319339210944646,
      "loss": 3.8054,
      "step": 227600
    },
    {
      "epoch": 0.4741875,
      "grad_norm": 0.8545721769332886,
      "learning_rate": 0.00016318357173476065,
      "loss": 3.9808,
      "step": 227610
    },
    {
      "epoch": 0.47420833333333334,
      "grad_norm": 0.8578322529792786,
      "learning_rate": 0.000163173751303127,
      "loss": 3.9845,
      "step": 227620
    },
    {
      "epoch": 0.47422916666666665,
      "grad_norm": 1.0719531774520874,
      "learning_rate": 0.00016316393081458797,
      "loss": 3.8722,
      "step": 227630
    },
    {
      "epoch": 0.47425,
      "grad_norm": 0.8377902507781982,
      "learning_rate": 0.00016315411026918594,
      "loss": 3.9367,
      "step": 227640
    },
    {
      "epoch": 0.4742708333333333,
      "grad_norm": 0.9838352799415588,
      "learning_rate": 0.00016314428966696337,
      "loss": 4.0986,
      "step": 227650
    },
    {
      "epoch": 0.47429166666666667,
      "grad_norm": 0.9130997061729431,
      "learning_rate": 0.0001631344690079627,
      "loss": 3.8922,
      "step": 227660
    },
    {
      "epoch": 0.4743125,
      "grad_norm": 0.9088029861450195,
      "learning_rate": 0.0001631246482922263,
      "loss": 3.741,
      "step": 227670
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 0.9518302083015442,
      "learning_rate": 0.00016311482751979662,
      "loss": 3.7956,
      "step": 227680
    },
    {
      "epoch": 0.4743541666666667,
      "grad_norm": 0.8702535033226013,
      "learning_rate": 0.0001631050066907161,
      "loss": 3.9699,
      "step": 227690
    },
    {
      "epoch": 0.474375,
      "grad_norm": 0.7947556972503662,
      "learning_rate": 0.00016309518580502714,
      "loss": 3.7718,
      "step": 227700
    },
    {
      "epoch": 0.47439583333333335,
      "grad_norm": 0.9684107303619385,
      "learning_rate": 0.00016308536486277212,
      "loss": 3.7627,
      "step": 227710
    },
    {
      "epoch": 0.47441666666666665,
      "grad_norm": 0.8227802515029907,
      "learning_rate": 0.00016307554386399352,
      "loss": 3.9364,
      "step": 227720
    },
    {
      "epoch": 0.4744375,
      "grad_norm": 0.8611705899238586,
      "learning_rate": 0.0001630657228087338,
      "loss": 3.9769,
      "step": 227730
    },
    {
      "epoch": 0.4744583333333333,
      "grad_norm": 1.031489372253418,
      "learning_rate": 0.00016305590169703524,
      "loss": 3.8793,
      "step": 227740
    },
    {
      "epoch": 0.4744791666666667,
      "grad_norm": 0.9443430304527283,
      "learning_rate": 0.00016304608052894037,
      "loss": 3.814,
      "step": 227750
    },
    {
      "epoch": 0.4745,
      "grad_norm": 0.9189174771308899,
      "learning_rate": 0.00016303625930449165,
      "loss": 3.8642,
      "step": 227760
    },
    {
      "epoch": 0.47452083333333334,
      "grad_norm": 0.8742753267288208,
      "learning_rate": 0.00016302643802373142,
      "loss": 4.0128,
      "step": 227770
    },
    {
      "epoch": 0.47454166666666664,
      "grad_norm": 0.849740743637085,
      "learning_rate": 0.00016301661668670207,
      "loss": 3.9289,
      "step": 227780
    },
    {
      "epoch": 0.4745625,
      "grad_norm": 1.0503472089767456,
      "learning_rate": 0.0001630067952934462,
      "loss": 3.9643,
      "step": 227790
    },
    {
      "epoch": 0.47458333333333336,
      "grad_norm": 0.8605837821960449,
      "learning_rate": 0.00016299697384400606,
      "loss": 3.9054,
      "step": 227800
    },
    {
      "epoch": 0.47460416666666666,
      "grad_norm": 0.8047797679901123,
      "learning_rate": 0.00016298715233842415,
      "loss": 3.933,
      "step": 227810
    },
    {
      "epoch": 0.474625,
      "grad_norm": 0.9125400185585022,
      "learning_rate": 0.00016297733077674288,
      "loss": 3.9209,
      "step": 227820
    },
    {
      "epoch": 0.4746458333333333,
      "grad_norm": 0.8866027593612671,
      "learning_rate": 0.00016296750915900467,
      "loss": 3.8971,
      "step": 227830
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 0.9748501777648926,
      "learning_rate": 0.00016295768748525197,
      "loss": 4.0256,
      "step": 227840
    },
    {
      "epoch": 0.4746875,
      "grad_norm": 1.136357307434082,
      "learning_rate": 0.00016294786575552717,
      "loss": 3.979,
      "step": 227850
    },
    {
      "epoch": 0.47470833333333334,
      "grad_norm": 0.8018911480903625,
      "learning_rate": 0.00016293804396987272,
      "loss": 4.0464,
      "step": 227860
    },
    {
      "epoch": 0.47472916666666665,
      "grad_norm": 0.8237634897232056,
      "learning_rate": 0.00016292822212833106,
      "loss": 3.9958,
      "step": 227870
    },
    {
      "epoch": 0.47475,
      "grad_norm": 0.8308801054954529,
      "learning_rate": 0.00016291840023094457,
      "loss": 3.9049,
      "step": 227880
    },
    {
      "epoch": 0.4747708333333333,
      "grad_norm": 0.9669816493988037,
      "learning_rate": 0.0001629085782777557,
      "loss": 4.0573,
      "step": 227890
    },
    {
      "epoch": 0.47479166666666667,
      "grad_norm": 0.9334222078323364,
      "learning_rate": 0.00016289875626880694,
      "loss": 3.7316,
      "step": 227900
    },
    {
      "epoch": 0.4748125,
      "grad_norm": 0.8119728565216064,
      "learning_rate": 0.0001628889342041406,
      "loss": 3.9063,
      "step": 227910
    },
    {
      "epoch": 0.47483333333333333,
      "grad_norm": 0.8011432886123657,
      "learning_rate": 0.00016287911208379916,
      "loss": 4.052,
      "step": 227920
    },
    {
      "epoch": 0.4748541666666667,
      "grad_norm": 0.9456222653388977,
      "learning_rate": 0.00016286928990782515,
      "loss": 3.9044,
      "step": 227930
    },
    {
      "epoch": 0.474875,
      "grad_norm": 0.8812499046325684,
      "learning_rate": 0.00016285946767626082,
      "loss": 3.8546,
      "step": 227940
    },
    {
      "epoch": 0.47489583333333335,
      "grad_norm": 0.8178839683532715,
      "learning_rate": 0.00016284964538914866,
      "loss": 3.8127,
      "step": 227950
    },
    {
      "epoch": 0.47491666666666665,
      "grad_norm": 0.868146538734436,
      "learning_rate": 0.00016283982304653115,
      "loss": 3.8856,
      "step": 227960
    },
    {
      "epoch": 0.4749375,
      "grad_norm": 0.8502790331840515,
      "learning_rate": 0.0001628300006484507,
      "loss": 3.9581,
      "step": 227970
    },
    {
      "epoch": 0.4749583333333333,
      "grad_norm": 0.8320879340171814,
      "learning_rate": 0.0001628201781949497,
      "loss": 4.0628,
      "step": 227980
    },
    {
      "epoch": 0.4749791666666667,
      "grad_norm": 0.9328467845916748,
      "learning_rate": 0.00016281035568607062,
      "loss": 3.8879,
      "step": 227990
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.854544997215271,
      "learning_rate": 0.00016280053312185588,
      "loss": 3.9794,
      "step": 228000
    },
    {
      "epoch": 0.475,
      "eval_loss": 3.633057117462158,
      "eval_runtime": 7.3248,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 228000
    },
    {
      "epoch": 0.47502083333333334,
      "grad_norm": 0.9282982349395752,
      "learning_rate": 0.00016279071050234785,
      "loss": 3.848,
      "step": 228010
    },
    {
      "epoch": 0.47504166666666664,
      "grad_norm": 0.9442994594573975,
      "learning_rate": 0.0001627808878275891,
      "loss": 3.7842,
      "step": 228020
    },
    {
      "epoch": 0.4750625,
      "grad_norm": 0.839220404624939,
      "learning_rate": 0.0001627710650976219,
      "loss": 3.8604,
      "step": 228030
    },
    {
      "epoch": 0.47508333333333336,
      "grad_norm": 0.8032863736152649,
      "learning_rate": 0.00016276124231248882,
      "loss": 3.7708,
      "step": 228040
    },
    {
      "epoch": 0.47510416666666666,
      "grad_norm": 0.8541378378868103,
      "learning_rate": 0.00016275141947223216,
      "loss": 3.8282,
      "step": 228050
    },
    {
      "epoch": 0.475125,
      "grad_norm": 0.9407803416252136,
      "learning_rate": 0.00016274159657689443,
      "loss": 3.8277,
      "step": 228060
    },
    {
      "epoch": 0.4751458333333333,
      "grad_norm": 1.082707166671753,
      "learning_rate": 0.0001627317736265181,
      "loss": 3.8489,
      "step": 228070
    },
    {
      "epoch": 0.4751666666666667,
      "grad_norm": 0.8311488032341003,
      "learning_rate": 0.0001627219506211455,
      "loss": 3.9911,
      "step": 228080
    },
    {
      "epoch": 0.4751875,
      "grad_norm": 0.9678996801376343,
      "learning_rate": 0.0001627121275608191,
      "loss": 3.989,
      "step": 228090
    },
    {
      "epoch": 0.47520833333333334,
      "grad_norm": 0.8504229187965393,
      "learning_rate": 0.00016270230444558138,
      "loss": 3.8006,
      "step": 228100
    },
    {
      "epoch": 0.47522916666666665,
      "grad_norm": 0.9261338114738464,
      "learning_rate": 0.00016269248127547475,
      "loss": 3.9673,
      "step": 228110
    },
    {
      "epoch": 0.47525,
      "grad_norm": 0.8508972525596619,
      "learning_rate": 0.00016268265805054153,
      "loss": 3.8526,
      "step": 228120
    },
    {
      "epoch": 0.4752708333333333,
      "grad_norm": 0.8844465017318726,
      "learning_rate": 0.00016267283477082434,
      "loss": 3.9731,
      "step": 228130
    },
    {
      "epoch": 0.47529166666666667,
      "grad_norm": 0.9658297896385193,
      "learning_rate": 0.00016266301143636546,
      "loss": 3.892,
      "step": 228140
    },
    {
      "epoch": 0.4753125,
      "grad_norm": 0.9277174472808838,
      "learning_rate": 0.0001626531880472074,
      "loss": 3.9255,
      "step": 228150
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 0.8311145901679993,
      "learning_rate": 0.00016264336460339258,
      "loss": 3.8826,
      "step": 228160
    },
    {
      "epoch": 0.4753541666666667,
      "grad_norm": 1.1545501947402954,
      "learning_rate": 0.00016263354110496346,
      "loss": 3.8659,
      "step": 228170
    },
    {
      "epoch": 0.475375,
      "grad_norm": 0.8387550711631775,
      "learning_rate": 0.0001626237175519624,
      "loss": 3.8729,
      "step": 228180
    },
    {
      "epoch": 0.47539583333333335,
      "grad_norm": 1.0102695226669312,
      "learning_rate": 0.0001626138939444319,
      "loss": 3.9728,
      "step": 228190
    },
    {
      "epoch": 0.47541666666666665,
      "grad_norm": 0.8729018568992615,
      "learning_rate": 0.00016260407028241433,
      "loss": 3.7145,
      "step": 228200
    },
    {
      "epoch": 0.4754375,
      "grad_norm": 0.8294593691825867,
      "learning_rate": 0.0001625942465659522,
      "loss": 4.1439,
      "step": 228210
    },
    {
      "epoch": 0.4754583333333333,
      "grad_norm": 0.8334360718727112,
      "learning_rate": 0.00016258442279508794,
      "loss": 3.8052,
      "step": 228220
    },
    {
      "epoch": 0.4754791666666667,
      "grad_norm": 0.7879481911659241,
      "learning_rate": 0.0001625745989698639,
      "loss": 3.9022,
      "step": 228230
    },
    {
      "epoch": 0.4755,
      "grad_norm": 0.8599149584770203,
      "learning_rate": 0.00016256477509032262,
      "loss": 4.023,
      "step": 228240
    },
    {
      "epoch": 0.47552083333333334,
      "grad_norm": 0.8242873549461365,
      "learning_rate": 0.00016255495115650645,
      "loss": 3.813,
      "step": 228250
    },
    {
      "epoch": 0.47554166666666664,
      "grad_norm": 1.4559454917907715,
      "learning_rate": 0.00016254512716845786,
      "loss": 3.8561,
      "step": 228260
    },
    {
      "epoch": 0.4755625,
      "grad_norm": 1.4461866617202759,
      "learning_rate": 0.00016253530312621933,
      "loss": 3.8543,
      "step": 228270
    },
    {
      "epoch": 0.47558333333333336,
      "grad_norm": 0.8485953211784363,
      "learning_rate": 0.00016252547902983317,
      "loss": 3.9176,
      "step": 228280
    },
    {
      "epoch": 0.47560416666666666,
      "grad_norm": 0.8132387399673462,
      "learning_rate": 0.00016251565487934198,
      "loss": 3.863,
      "step": 228290
    },
    {
      "epoch": 0.475625,
      "grad_norm": 0.8917506337165833,
      "learning_rate": 0.00016250583067478806,
      "loss": 3.801,
      "step": 228300
    },
    {
      "epoch": 0.4756458333333333,
      "grad_norm": 0.8554455041885376,
      "learning_rate": 0.00016249600641621395,
      "loss": 3.8232,
      "step": 228310
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 0.9496539235115051,
      "learning_rate": 0.000162486182103662,
      "loss": 3.7642,
      "step": 228320
    },
    {
      "epoch": 0.4756875,
      "grad_norm": 1.1114320755004883,
      "learning_rate": 0.0001624763577371747,
      "loss": 3.8848,
      "step": 228330
    },
    {
      "epoch": 0.47570833333333334,
      "grad_norm": 0.8459109663963318,
      "learning_rate": 0.00016246653331679445,
      "loss": 3.6558,
      "step": 228340
    },
    {
      "epoch": 0.47572916666666665,
      "grad_norm": 0.8386671543121338,
      "learning_rate": 0.00016245670884256372,
      "loss": 3.7792,
      "step": 228350
    },
    {
      "epoch": 0.47575,
      "grad_norm": 0.9286858439445496,
      "learning_rate": 0.00016244688431452496,
      "loss": 3.7076,
      "step": 228360
    },
    {
      "epoch": 0.4757708333333333,
      "grad_norm": 0.8337806463241577,
      "learning_rate": 0.0001624370597327206,
      "loss": 3.9108,
      "step": 228370
    },
    {
      "epoch": 0.47579166666666667,
      "grad_norm": 0.8593811988830566,
      "learning_rate": 0.000162427235097193,
      "loss": 3.6864,
      "step": 228380
    },
    {
      "epoch": 0.4758125,
      "grad_norm": 0.8670691847801208,
      "learning_rate": 0.00016241741040798474,
      "loss": 3.8374,
      "step": 228390
    },
    {
      "epoch": 0.47583333333333333,
      "grad_norm": 1.0162595510482788,
      "learning_rate": 0.00016240758566513812,
      "loss": 3.9925,
      "step": 228400
    },
    {
      "epoch": 0.4758541666666667,
      "grad_norm": 0.8997653722763062,
      "learning_rate": 0.0001623977608686957,
      "loss": 3.7647,
      "step": 228410
    },
    {
      "epoch": 0.475875,
      "grad_norm": 0.8033885359764099,
      "learning_rate": 0.0001623879360186998,
      "loss": 3.9415,
      "step": 228420
    },
    {
      "epoch": 0.47589583333333335,
      "grad_norm": 0.991205632686615,
      "learning_rate": 0.000162378111115193,
      "loss": 3.852,
      "step": 228430
    },
    {
      "epoch": 0.47591666666666665,
      "grad_norm": 0.804145097732544,
      "learning_rate": 0.0001623682861582176,
      "loss": 3.8773,
      "step": 228440
    },
    {
      "epoch": 0.4759375,
      "grad_norm": 0.8811249732971191,
      "learning_rate": 0.00016235846114781604,
      "loss": 3.7732,
      "step": 228450
    },
    {
      "epoch": 0.4759583333333333,
      "grad_norm": 0.8104336857795715,
      "learning_rate": 0.00016234863608403092,
      "loss": 3.9845,
      "step": 228460
    },
    {
      "epoch": 0.4759791666666667,
      "grad_norm": 0.8700602650642395,
      "learning_rate": 0.00016233881096690457,
      "loss": 3.893,
      "step": 228470
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.9315475225448608,
      "learning_rate": 0.00016232898579647938,
      "loss": 3.9188,
      "step": 228480
    },
    {
      "epoch": 0.47602083333333334,
      "grad_norm": 0.8147807717323303,
      "learning_rate": 0.0001623191605727979,
      "loss": 3.8339,
      "step": 228490
    },
    {
      "epoch": 0.47604166666666664,
      "grad_norm": 0.9761258363723755,
      "learning_rate": 0.00016230933529590253,
      "loss": 3.8648,
      "step": 228500
    },
    {
      "epoch": 0.4760625,
      "grad_norm": 1.360581636428833,
      "learning_rate": 0.00016229950996583567,
      "loss": 3.9818,
      "step": 228510
    },
    {
      "epoch": 0.47608333333333336,
      "grad_norm": 0.823596715927124,
      "learning_rate": 0.0001622896845826398,
      "loss": 3.9313,
      "step": 228520
    },
    {
      "epoch": 0.47610416666666666,
      "grad_norm": 1.315537929534912,
      "learning_rate": 0.0001622798591463574,
      "loss": 4.0684,
      "step": 228530
    },
    {
      "epoch": 0.476125,
      "grad_norm": 0.9821817874908447,
      "learning_rate": 0.00016227003365703083,
      "loss": 3.7465,
      "step": 228540
    },
    {
      "epoch": 0.4761458333333333,
      "grad_norm": 0.915996253490448,
      "learning_rate": 0.00016226020811470256,
      "loss": 3.9114,
      "step": 228550
    },
    {
      "epoch": 0.4761666666666667,
      "grad_norm": 0.870978832244873,
      "learning_rate": 0.00016225038251941506,
      "loss": 4.0119,
      "step": 228560
    },
    {
      "epoch": 0.4761875,
      "grad_norm": 0.8485970497131348,
      "learning_rate": 0.00016224055687121078,
      "loss": 3.9515,
      "step": 228570
    },
    {
      "epoch": 0.47620833333333334,
      "grad_norm": 0.7823137044906616,
      "learning_rate": 0.00016223073117013211,
      "loss": 3.8604,
      "step": 228580
    },
    {
      "epoch": 0.47622916666666665,
      "grad_norm": 0.8295145630836487,
      "learning_rate": 0.0001622209054162215,
      "loss": 3.7901,
      "step": 228590
    },
    {
      "epoch": 0.47625,
      "grad_norm": 0.8098331689834595,
      "learning_rate": 0.0001622110796095215,
      "loss": 3.8186,
      "step": 228600
    },
    {
      "epoch": 0.4762708333333333,
      "grad_norm": 0.8265938758850098,
      "learning_rate": 0.0001622012537500744,
      "loss": 3.8336,
      "step": 228610
    },
    {
      "epoch": 0.47629166666666667,
      "grad_norm": 1.046642780303955,
      "learning_rate": 0.0001621914278379227,
      "loss": 3.815,
      "step": 228620
    },
    {
      "epoch": 0.4763125,
      "grad_norm": 0.873825192451477,
      "learning_rate": 0.00016218160187310893,
      "loss": 3.7603,
      "step": 228630
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 0.9381517767906189,
      "learning_rate": 0.00016217177585567543,
      "loss": 3.9989,
      "step": 228640
    },
    {
      "epoch": 0.4763541666666667,
      "grad_norm": 0.9092727303504944,
      "learning_rate": 0.0001621619497856646,
      "loss": 3.8394,
      "step": 228650
    },
    {
      "epoch": 0.476375,
      "grad_norm": 0.9792634844779968,
      "learning_rate": 0.00016215212366311907,
      "loss": 3.9245,
      "step": 228660
    },
    {
      "epoch": 0.47639583333333335,
      "grad_norm": 0.875555157661438,
      "learning_rate": 0.00016214229748808112,
      "loss": 3.9094,
      "step": 228670
    },
    {
      "epoch": 0.47641666666666665,
      "grad_norm": 1.7901320457458496,
      "learning_rate": 0.00016213247126059326,
      "loss": 4.0193,
      "step": 228680
    },
    {
      "epoch": 0.4764375,
      "grad_norm": 0.8357151746749878,
      "learning_rate": 0.00016212264498069795,
      "loss": 3.7921,
      "step": 228690
    },
    {
      "epoch": 0.4764583333333333,
      "grad_norm": 0.8764021992683411,
      "learning_rate": 0.00016211281864843757,
      "loss": 3.8227,
      "step": 228700
    },
    {
      "epoch": 0.4764791666666667,
      "grad_norm": 0.8076580762863159,
      "learning_rate": 0.00016210299226385465,
      "loss": 3.7115,
      "step": 228710
    },
    {
      "epoch": 0.4765,
      "grad_norm": 0.8162426352500916,
      "learning_rate": 0.00016209316582699155,
      "loss": 3.7456,
      "step": 228720
    },
    {
      "epoch": 0.47652083333333334,
      "grad_norm": 1.0117392539978027,
      "learning_rate": 0.00016208333933789078,
      "loss": 4.0014,
      "step": 228730
    },
    {
      "epoch": 0.47654166666666664,
      "grad_norm": 0.7821961045265198,
      "learning_rate": 0.00016207351279659484,
      "loss": 3.9731,
      "step": 228740
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 0.8661829233169556,
      "learning_rate": 0.00016206368620314598,
      "loss": 3.8211,
      "step": 228750
    },
    {
      "epoch": 0.47658333333333336,
      "grad_norm": 0.8856215476989746,
      "learning_rate": 0.0001620538595575868,
      "loss": 3.7127,
      "step": 228760
    },
    {
      "epoch": 0.47660416666666666,
      "grad_norm": 0.8885143995285034,
      "learning_rate": 0.0001620440328599598,
      "loss": 3.745,
      "step": 228770
    },
    {
      "epoch": 0.476625,
      "grad_norm": 0.8948166370391846,
      "learning_rate": 0.00016203420611030723,
      "loss": 3.8658,
      "step": 228780
    },
    {
      "epoch": 0.4766458333333333,
      "grad_norm": 1.0227011442184448,
      "learning_rate": 0.00016202437930867172,
      "loss": 4.0069,
      "step": 228790
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 0.8956617116928101,
      "learning_rate": 0.00016201455245509568,
      "loss": 3.8939,
      "step": 228800
    },
    {
      "epoch": 0.4766875,
      "grad_norm": 0.8386214971542358,
      "learning_rate": 0.0001620047255496215,
      "loss": 3.8243,
      "step": 228810
    },
    {
      "epoch": 0.47670833333333335,
      "grad_norm": 0.8099409937858582,
      "learning_rate": 0.0001619948985922916,
      "loss": 3.92,
      "step": 228820
    },
    {
      "epoch": 0.47672916666666665,
      "grad_norm": 1.0014160871505737,
      "learning_rate": 0.00016198507158314858,
      "loss": 3.7305,
      "step": 228830
    },
    {
      "epoch": 0.47675,
      "grad_norm": 0.8635854125022888,
      "learning_rate": 0.00016197524452223476,
      "loss": 3.8137,
      "step": 228840
    },
    {
      "epoch": 0.4767708333333333,
      "grad_norm": 0.8303416967391968,
      "learning_rate": 0.00016196541740959257,
      "loss": 3.8605,
      "step": 228850
    },
    {
      "epoch": 0.47679166666666667,
      "grad_norm": 0.9242686629295349,
      "learning_rate": 0.0001619555902452646,
      "loss": 3.9222,
      "step": 228860
    },
    {
      "epoch": 0.4768125,
      "grad_norm": 0.8263594508171082,
      "learning_rate": 0.00016194576302929316,
      "loss": 3.8767,
      "step": 228870
    },
    {
      "epoch": 0.47683333333333333,
      "grad_norm": 0.9092411994934082,
      "learning_rate": 0.00016193593576172076,
      "loss": 3.699,
      "step": 228880
    },
    {
      "epoch": 0.4768541666666667,
      "grad_norm": 0.8028420209884644,
      "learning_rate": 0.00016192610844258982,
      "loss": 3.5523,
      "step": 228890
    },
    {
      "epoch": 0.476875,
      "grad_norm": 0.9226871728897095,
      "learning_rate": 0.00016191628107194286,
      "loss": 3.8663,
      "step": 228900
    },
    {
      "epoch": 0.47689583333333335,
      "grad_norm": 0.8946082592010498,
      "learning_rate": 0.0001619064536498223,
      "loss": 3.7586,
      "step": 228910
    },
    {
      "epoch": 0.47691666666666666,
      "grad_norm": 1.0320032835006714,
      "learning_rate": 0.00016189662617627047,
      "loss": 3.811,
      "step": 228920
    },
    {
      "epoch": 0.4769375,
      "grad_norm": 0.9426777958869934,
      "learning_rate": 0.00016188679865133,
      "loss": 3.888,
      "step": 228930
    },
    {
      "epoch": 0.4769583333333333,
      "grad_norm": 0.9293001890182495,
      "learning_rate": 0.00016187697107504327,
      "loss": 3.9528,
      "step": 228940
    },
    {
      "epoch": 0.4769791666666667,
      "grad_norm": 0.847821056842804,
      "learning_rate": 0.00016186714344745267,
      "loss": 3.9972,
      "step": 228950
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.9495835900306702,
      "learning_rate": 0.00016185731576860075,
      "loss": 4.0202,
      "step": 228960
    },
    {
      "epoch": 0.47702083333333334,
      "grad_norm": 0.8866140842437744,
      "learning_rate": 0.00016184748803852996,
      "loss": 3.9535,
      "step": 228970
    },
    {
      "epoch": 0.47704166666666664,
      "grad_norm": 0.8439353704452515,
      "learning_rate": 0.00016183766025728265,
      "loss": 3.845,
      "step": 228980
    },
    {
      "epoch": 0.4770625,
      "grad_norm": 0.8285589814186096,
      "learning_rate": 0.0001618278324249013,
      "loss": 3.9302,
      "step": 228990
    },
    {
      "epoch": 0.47708333333333336,
      "grad_norm": 0.8225899934768677,
      "learning_rate": 0.0001618180045414285,
      "loss": 4.0112,
      "step": 229000
    },
    {
      "epoch": 0.47708333333333336,
      "eval_loss": 3.620692014694214,
      "eval_runtime": 6.9693,
      "eval_samples_per_second": 1.435,
      "eval_steps_per_second": 0.43,
      "step": 229000
    },
    {
      "epoch": 0.47710416666666666,
      "grad_norm": 0.9177406430244446,
      "learning_rate": 0.00016180817660690653,
      "loss": 3.8008,
      "step": 229010
    },
    {
      "epoch": 0.477125,
      "grad_norm": 0.878173828125,
      "learning_rate": 0.00016179834862137794,
      "loss": 3.8303,
      "step": 229020
    },
    {
      "epoch": 0.4771458333333333,
      "grad_norm": 0.8298033475875854,
      "learning_rate": 0.0001617885205848851,
      "loss": 3.9331,
      "step": 229030
    },
    {
      "epoch": 0.4771666666666667,
      "grad_norm": 0.8846490979194641,
      "learning_rate": 0.00016177869249747056,
      "loss": 3.9672,
      "step": 229040
    },
    {
      "epoch": 0.4771875,
      "grad_norm": 0.9510641098022461,
      "learning_rate": 0.00016176886435917675,
      "loss": 4.0827,
      "step": 229050
    },
    {
      "epoch": 0.47720833333333335,
      "grad_norm": 0.8903804421424866,
      "learning_rate": 0.00016175903617004608,
      "loss": 3.889,
      "step": 229060
    },
    {
      "epoch": 0.47722916666666665,
      "grad_norm": 0.8625571131706238,
      "learning_rate": 0.000161749207930121,
      "loss": 3.855,
      "step": 229070
    },
    {
      "epoch": 0.47725,
      "grad_norm": 0.9989873170852661,
      "learning_rate": 0.00016173937963944403,
      "loss": 3.8579,
      "step": 229080
    },
    {
      "epoch": 0.4772708333333333,
      "grad_norm": 0.9902505874633789,
      "learning_rate": 0.0001617295512980576,
      "loss": 4.0968,
      "step": 229090
    },
    {
      "epoch": 0.47729166666666667,
      "grad_norm": 0.8172887563705444,
      "learning_rate": 0.0001617197229060041,
      "loss": 3.6769,
      "step": 229100
    },
    {
      "epoch": 0.4773125,
      "grad_norm": 0.9316934943199158,
      "learning_rate": 0.00016170989446332609,
      "loss": 3.9619,
      "step": 229110
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 1.0129528045654297,
      "learning_rate": 0.00016170006597006592,
      "loss": 3.8553,
      "step": 229120
    },
    {
      "epoch": 0.4773541666666667,
      "grad_norm": 0.7913731932640076,
      "learning_rate": 0.0001616902374262661,
      "loss": 3.752,
      "step": 229130
    },
    {
      "epoch": 0.477375,
      "grad_norm": 0.9603757858276367,
      "learning_rate": 0.00016168040883196916,
      "loss": 3.863,
      "step": 229140
    },
    {
      "epoch": 0.47739583333333335,
      "grad_norm": 0.905746340751648,
      "learning_rate": 0.00016167058018721738,
      "loss": 3.8076,
      "step": 229150
    },
    {
      "epoch": 0.47741666666666666,
      "grad_norm": 1.2330266237258911,
      "learning_rate": 0.0001616607514920534,
      "loss": 3.8309,
      "step": 229160
    },
    {
      "epoch": 0.4774375,
      "grad_norm": 0.8585926294326782,
      "learning_rate": 0.00016165092274651952,
      "loss": 3.8386,
      "step": 229170
    },
    {
      "epoch": 0.4774583333333333,
      "grad_norm": 0.8854154348373413,
      "learning_rate": 0.0001616410939506583,
      "loss": 3.8731,
      "step": 229180
    },
    {
      "epoch": 0.4774791666666667,
      "grad_norm": 0.8124407529830933,
      "learning_rate": 0.00016163126510451215,
      "loss": 4.0215,
      "step": 229190
    },
    {
      "epoch": 0.4775,
      "grad_norm": 0.9337664842605591,
      "learning_rate": 0.00016162143620812353,
      "loss": 3.9295,
      "step": 229200
    },
    {
      "epoch": 0.47752083333333334,
      "grad_norm": 0.841771125793457,
      "learning_rate": 0.0001616116072615349,
      "loss": 3.922,
      "step": 229210
    },
    {
      "epoch": 0.47754166666666664,
      "grad_norm": 1.177628517150879,
      "learning_rate": 0.00016160177826478876,
      "loss": 3.7299,
      "step": 229220
    },
    {
      "epoch": 0.4775625,
      "grad_norm": 0.8721390962600708,
      "learning_rate": 0.0001615919492179275,
      "loss": 3.8014,
      "step": 229230
    },
    {
      "epoch": 0.47758333333333336,
      "grad_norm": 0.8972352743148804,
      "learning_rate": 0.0001615821201209936,
      "loss": 3.7431,
      "step": 229240
    },
    {
      "epoch": 0.47760416666666666,
      "grad_norm": 0.8229843378067017,
      "learning_rate": 0.00016157229097402956,
      "loss": 3.7644,
      "step": 229250
    },
    {
      "epoch": 0.477625,
      "grad_norm": 0.9027873277664185,
      "learning_rate": 0.00016156246177707778,
      "loss": 3.8087,
      "step": 229260
    },
    {
      "epoch": 0.4776458333333333,
      "grad_norm": 0.9687317609786987,
      "learning_rate": 0.00016155263253018077,
      "loss": 4.0942,
      "step": 229270
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 0.8319088220596313,
      "learning_rate": 0.0001615428032333809,
      "loss": 3.9356,
      "step": 229280
    },
    {
      "epoch": 0.4776875,
      "grad_norm": 1.7514071464538574,
      "learning_rate": 0.00016153297388672074,
      "loss": 4.0905,
      "step": 229290
    },
    {
      "epoch": 0.47770833333333335,
      "grad_norm": 0.9015382528305054,
      "learning_rate": 0.00016152314449024267,
      "loss": 3.9279,
      "step": 229300
    },
    {
      "epoch": 0.47772916666666665,
      "grad_norm": 1.5679835081100464,
      "learning_rate": 0.00016151331504398922,
      "loss": 3.9614,
      "step": 229310
    },
    {
      "epoch": 0.47775,
      "grad_norm": 0.9978361129760742,
      "learning_rate": 0.00016150348554800275,
      "loss": 3.7751,
      "step": 229320
    },
    {
      "epoch": 0.4777708333333333,
      "grad_norm": 0.8513149619102478,
      "learning_rate": 0.00016149365600232583,
      "loss": 3.7693,
      "step": 229330
    },
    {
      "epoch": 0.47779166666666667,
      "grad_norm": 0.8399412631988525,
      "learning_rate": 0.00016148382640700083,
      "loss": 3.6359,
      "step": 229340
    },
    {
      "epoch": 0.4778125,
      "grad_norm": 1.106333613395691,
      "learning_rate": 0.0001614739967620702,
      "loss": 3.9368,
      "step": 229350
    },
    {
      "epoch": 0.47783333333333333,
      "grad_norm": 0.8771592974662781,
      "learning_rate": 0.00016146416706757657,
      "loss": 3.8677,
      "step": 229360
    },
    {
      "epoch": 0.4778541666666667,
      "grad_norm": 0.777093768119812,
      "learning_rate": 0.0001614543373235622,
      "loss": 3.707,
      "step": 229370
    },
    {
      "epoch": 0.477875,
      "grad_norm": 0.8023726940155029,
      "learning_rate": 0.00016144450753006963,
      "loss": 3.9071,
      "step": 229380
    },
    {
      "epoch": 0.47789583333333335,
      "grad_norm": 1.0801640748977661,
      "learning_rate": 0.00016143467768714133,
      "loss": 4.0786,
      "step": 229390
    },
    {
      "epoch": 0.47791666666666666,
      "grad_norm": 0.8616266846656799,
      "learning_rate": 0.00016142484779481974,
      "loss": 4.0392,
      "step": 229400
    },
    {
      "epoch": 0.4779375,
      "grad_norm": 0.8311787843704224,
      "learning_rate": 0.00016141501785314733,
      "loss": 3.781,
      "step": 229410
    },
    {
      "epoch": 0.4779583333333333,
      "grad_norm": 0.9608465433120728,
      "learning_rate": 0.00016140518786216654,
      "loss": 3.9574,
      "step": 229420
    },
    {
      "epoch": 0.4779791666666667,
      "grad_norm": 0.8305281400680542,
      "learning_rate": 0.0001613953578219199,
      "loss": 3.9489,
      "step": 229430
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.899425208568573,
      "learning_rate": 0.00016138552773244978,
      "loss": 3.8198,
      "step": 229440
    },
    {
      "epoch": 0.47802083333333334,
      "grad_norm": 0.8680647015571594,
      "learning_rate": 0.0001613756975937987,
      "loss": 3.786,
      "step": 229450
    },
    {
      "epoch": 0.47804166666666664,
      "grad_norm": 0.913444459438324,
      "learning_rate": 0.00016136586740600912,
      "loss": 3.924,
      "step": 229460
    },
    {
      "epoch": 0.4780625,
      "grad_norm": 0.879574716091156,
      "learning_rate": 0.00016135603716912352,
      "loss": 3.9785,
      "step": 229470
    },
    {
      "epoch": 0.47808333333333336,
      "grad_norm": 0.8591938614845276,
      "learning_rate": 0.00016134620688318429,
      "loss": 3.853,
      "step": 229480
    },
    {
      "epoch": 0.47810416666666666,
      "grad_norm": 0.8763899207115173,
      "learning_rate": 0.0001613363765482339,
      "loss": 3.7739,
      "step": 229490
    },
    {
      "epoch": 0.478125,
      "grad_norm": 0.8508546948432922,
      "learning_rate": 0.00016132654616431494,
      "loss": 3.8464,
      "step": 229500
    },
    {
      "epoch": 0.4781458333333333,
      "grad_norm": 0.8199260830879211,
      "learning_rate": 0.00016131671573146975,
      "loss": 3.7076,
      "step": 229510
    },
    {
      "epoch": 0.4781666666666667,
      "grad_norm": 0.8722638487815857,
      "learning_rate": 0.00016130688524974078,
      "loss": 3.9779,
      "step": 229520
    },
    {
      "epoch": 0.4781875,
      "grad_norm": 0.8986130952835083,
      "learning_rate": 0.00016129705471917063,
      "loss": 4.005,
      "step": 229530
    },
    {
      "epoch": 0.47820833333333335,
      "grad_norm": 0.940510094165802,
      "learning_rate": 0.0001612872241398016,
      "loss": 3.8112,
      "step": 229540
    },
    {
      "epoch": 0.47822916666666665,
      "grad_norm": 0.9203947186470032,
      "learning_rate": 0.00016127739351167627,
      "loss": 3.9441,
      "step": 229550
    },
    {
      "epoch": 0.47825,
      "grad_norm": 0.8246649503707886,
      "learning_rate": 0.00016126756283483702,
      "loss": 3.547,
      "step": 229560
    },
    {
      "epoch": 0.4782708333333333,
      "grad_norm": 0.8451338410377502,
      "learning_rate": 0.0001612577321093264,
      "loss": 3.8689,
      "step": 229570
    },
    {
      "epoch": 0.47829166666666667,
      "grad_norm": 1.2547274827957153,
      "learning_rate": 0.00016124790133518682,
      "loss": 4.0401,
      "step": 229580
    },
    {
      "epoch": 0.4783125,
      "grad_norm": 0.8605186343193054,
      "learning_rate": 0.00016123807051246077,
      "loss": 3.7493,
      "step": 229590
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 0.939455509185791,
      "learning_rate": 0.0001612282396411907,
      "loss": 3.7165,
      "step": 229600
    },
    {
      "epoch": 0.4783541666666667,
      "grad_norm": 0.804410994052887,
      "learning_rate": 0.00016121840872141907,
      "loss": 3.9182,
      "step": 229610
    },
    {
      "epoch": 0.478375,
      "grad_norm": 1.0628104209899902,
      "learning_rate": 0.00016120857775318834,
      "loss": 3.7501,
      "step": 229620
    },
    {
      "epoch": 0.47839583333333335,
      "grad_norm": 0.9670605659484863,
      "learning_rate": 0.000161198746736541,
      "loss": 3.9018,
      "step": 229630
    },
    {
      "epoch": 0.47841666666666666,
      "grad_norm": 0.8635767102241516,
      "learning_rate": 0.00016118891567151955,
      "loss": 3.7524,
      "step": 229640
    },
    {
      "epoch": 0.4784375,
      "grad_norm": 0.8890352845191956,
      "learning_rate": 0.00016117908455816636,
      "loss": 3.9432,
      "step": 229650
    },
    {
      "epoch": 0.4784583333333333,
      "grad_norm": 0.887459933757782,
      "learning_rate": 0.00016116925339652394,
      "loss": 4.033,
      "step": 229660
    },
    {
      "epoch": 0.4784791666666667,
      "grad_norm": 0.7946110963821411,
      "learning_rate": 0.00016115942218663485,
      "loss": 3.8509,
      "step": 229670
    },
    {
      "epoch": 0.4785,
      "grad_norm": 0.8993096947669983,
      "learning_rate": 0.00016114959092854142,
      "loss": 3.8845,
      "step": 229680
    },
    {
      "epoch": 0.47852083333333334,
      "grad_norm": 1.0209040641784668,
      "learning_rate": 0.00016113975962228614,
      "loss": 3.9643,
      "step": 229690
    },
    {
      "epoch": 0.47854166666666664,
      "grad_norm": 0.8945558667182922,
      "learning_rate": 0.00016112992826791155,
      "loss": 3.9215,
      "step": 229700
    },
    {
      "epoch": 0.4785625,
      "grad_norm": 0.8856788873672485,
      "learning_rate": 0.00016112009686546005,
      "loss": 3.8966,
      "step": 229710
    },
    {
      "epoch": 0.47858333333333336,
      "grad_norm": 0.8419581055641174,
      "learning_rate": 0.00016111026541497413,
      "loss": 3.7259,
      "step": 229720
    },
    {
      "epoch": 0.47860416666666666,
      "grad_norm": 0.9465882182121277,
      "learning_rate": 0.0001611004339164963,
      "loss": 3.8918,
      "step": 229730
    },
    {
      "epoch": 0.478625,
      "grad_norm": 0.8651609420776367,
      "learning_rate": 0.00016109060237006896,
      "loss": 3.9082,
      "step": 229740
    },
    {
      "epoch": 0.4786458333333333,
      "grad_norm": 0.8468202352523804,
      "learning_rate": 0.0001610807707757346,
      "loss": 4.0452,
      "step": 229750
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 0.8638869524002075,
      "learning_rate": 0.00016107093913353575,
      "loss": 3.965,
      "step": 229760
    },
    {
      "epoch": 0.4786875,
      "grad_norm": 1.0817476511001587,
      "learning_rate": 0.00016106110744351475,
      "loss": 3.8929,
      "step": 229770
    },
    {
      "epoch": 0.47870833333333335,
      "grad_norm": 0.844085156917572,
      "learning_rate": 0.00016105127570571417,
      "loss": 4.0367,
      "step": 229780
    },
    {
      "epoch": 0.47872916666666665,
      "grad_norm": 0.8201872706413269,
      "learning_rate": 0.00016104144392017645,
      "loss": 4.0034,
      "step": 229790
    },
    {
      "epoch": 0.47875,
      "grad_norm": 0.7954198718070984,
      "learning_rate": 0.0001610316120869441,
      "loss": 3.7254,
      "step": 229800
    },
    {
      "epoch": 0.4787708333333333,
      "grad_norm": 0.9128724932670593,
      "learning_rate": 0.00016102178020605958,
      "loss": 3.8729,
      "step": 229810
    },
    {
      "epoch": 0.47879166666666667,
      "grad_norm": 0.8306223750114441,
      "learning_rate": 0.00016101194827756522,
      "loss": 3.9795,
      "step": 229820
    },
    {
      "epoch": 0.4788125,
      "grad_norm": 2.754615306854248,
      "learning_rate": 0.00016100211630150365,
      "loss": 3.9035,
      "step": 229830
    },
    {
      "epoch": 0.47883333333333333,
      "grad_norm": 0.9454324841499329,
      "learning_rate": 0.00016099228427791736,
      "loss": 3.9492,
      "step": 229840
    },
    {
      "epoch": 0.4788541666666667,
      "grad_norm": 0.8685547709465027,
      "learning_rate": 0.00016098245220684865,
      "loss": 3.8444,
      "step": 229850
    },
    {
      "epoch": 0.478875,
      "grad_norm": 1.0288496017456055,
      "learning_rate": 0.00016097262008834013,
      "loss": 3.8443,
      "step": 229860
    },
    {
      "epoch": 0.47889583333333335,
      "grad_norm": 1.0318726301193237,
      "learning_rate": 0.00016096278792243428,
      "loss": 3.8604,
      "step": 229870
    },
    {
      "epoch": 0.47891666666666666,
      "grad_norm": 0.9217985272407532,
      "learning_rate": 0.0001609529557091735,
      "loss": 3.9671,
      "step": 229880
    },
    {
      "epoch": 0.4789375,
      "grad_norm": 1.0031492710113525,
      "learning_rate": 0.00016094312344860028,
      "loss": 3.7368,
      "step": 229890
    },
    {
      "epoch": 0.4789583333333333,
      "grad_norm": 0.9978941082954407,
      "learning_rate": 0.0001609332911407571,
      "loss": 3.9593,
      "step": 229900
    },
    {
      "epoch": 0.4789791666666667,
      "grad_norm": 1.083221435546875,
      "learning_rate": 0.0001609234587856864,
      "loss": 4.0512,
      "step": 229910
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.812157928943634,
      "learning_rate": 0.00016091362638343072,
      "loss": 3.5642,
      "step": 229920
    },
    {
      "epoch": 0.47902083333333334,
      "grad_norm": 0.9983397126197815,
      "learning_rate": 0.00016090379393403248,
      "loss": 3.8961,
      "step": 229930
    },
    {
      "epoch": 0.47904166666666664,
      "grad_norm": 0.812274158000946,
      "learning_rate": 0.00016089396143753417,
      "loss": 3.832,
      "step": 229940
    },
    {
      "epoch": 0.4790625,
      "grad_norm": 0.9725761413574219,
      "learning_rate": 0.00016088412889397823,
      "loss": 3.9013,
      "step": 229950
    },
    {
      "epoch": 0.47908333333333336,
      "grad_norm": 0.9501549601554871,
      "learning_rate": 0.00016087429630340722,
      "loss": 3.7364,
      "step": 229960
    },
    {
      "epoch": 0.47910416666666666,
      "grad_norm": 0.995736837387085,
      "learning_rate": 0.00016086446366586353,
      "loss": 3.8228,
      "step": 229970
    },
    {
      "epoch": 0.479125,
      "grad_norm": 0.8157633543014526,
      "learning_rate": 0.00016085463098138966,
      "loss": 3.815,
      "step": 229980
    },
    {
      "epoch": 0.4791458333333333,
      "grad_norm": 0.877353847026825,
      "learning_rate": 0.00016084479825002803,
      "loss": 3.9239,
      "step": 229990
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 0.938804566860199,
      "learning_rate": 0.0001608349654718212,
      "loss": 3.8076,
      "step": 230000
    },
    {
      "epoch": 0.4791666666666667,
      "eval_loss": 3.627967357635498,
      "eval_runtime": 7.3471,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 230000
    },
    {
      "epoch": 0.4791875,
      "grad_norm": 1.0264732837677002,
      "learning_rate": 0.00016082513264681166,
      "loss": 3.9519,
      "step": 230010
    },
    {
      "epoch": 0.47920833333333335,
      "grad_norm": 0.867576539516449,
      "learning_rate": 0.00016081529977504176,
      "loss": 3.9132,
      "step": 230020
    },
    {
      "epoch": 0.47922916666666665,
      "grad_norm": 0.8716412782669067,
      "learning_rate": 0.00016080546685655404,
      "loss": 3.8992,
      "step": 230030
    },
    {
      "epoch": 0.47925,
      "grad_norm": 0.8758689165115356,
      "learning_rate": 0.00016079563389139107,
      "loss": 3.921,
      "step": 230040
    },
    {
      "epoch": 0.4792708333333333,
      "grad_norm": 0.861192524433136,
      "learning_rate": 0.00016078580087959519,
      "loss": 4.0238,
      "step": 230050
    },
    {
      "epoch": 0.47929166666666667,
      "grad_norm": 0.9229017496109009,
      "learning_rate": 0.00016077596782120888,
      "loss": 4.0082,
      "step": 230060
    },
    {
      "epoch": 0.4793125,
      "grad_norm": 0.8643829226493835,
      "learning_rate": 0.0001607661347162747,
      "loss": 3.8966,
      "step": 230070
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 0.8767414689064026,
      "learning_rate": 0.00016075630156483505,
      "loss": 3.8498,
      "step": 230080
    },
    {
      "epoch": 0.4793541666666667,
      "grad_norm": 0.9126838445663452,
      "learning_rate": 0.00016074646836693242,
      "loss": 3.9174,
      "step": 230090
    },
    {
      "epoch": 0.479375,
      "grad_norm": 0.8472733497619629,
      "learning_rate": 0.00016073663512260932,
      "loss": 3.9131,
      "step": 230100
    },
    {
      "epoch": 0.47939583333333335,
      "grad_norm": 0.9370198249816895,
      "learning_rate": 0.00016072680183190822,
      "loss": 3.8074,
      "step": 230110
    },
    {
      "epoch": 0.47941666666666666,
      "grad_norm": 1.0498050451278687,
      "learning_rate": 0.00016071696849487158,
      "loss": 3.8294,
      "step": 230120
    },
    {
      "epoch": 0.4794375,
      "grad_norm": 0.9541673064231873,
      "learning_rate": 0.00016070713511154183,
      "loss": 3.8932,
      "step": 230130
    },
    {
      "epoch": 0.4794583333333333,
      "grad_norm": 1.151391863822937,
      "learning_rate": 0.00016069730168196157,
      "loss": 3.7107,
      "step": 230140
    },
    {
      "epoch": 0.4794791666666667,
      "grad_norm": 1.2857028245925903,
      "learning_rate": 0.00016068746820617315,
      "loss": 3.8066,
      "step": 230150
    },
    {
      "epoch": 0.4795,
      "grad_norm": 0.8809370398521423,
      "learning_rate": 0.0001606776346842191,
      "loss": 3.8893,
      "step": 230160
    },
    {
      "epoch": 0.47952083333333334,
      "grad_norm": 0.8417482376098633,
      "learning_rate": 0.0001606678011161419,
      "loss": 4.0275,
      "step": 230170
    },
    {
      "epoch": 0.47954166666666664,
      "grad_norm": 0.8764615058898926,
      "learning_rate": 0.00016065796750198408,
      "loss": 3.666,
      "step": 230180
    },
    {
      "epoch": 0.4795625,
      "grad_norm": 0.9744501113891602,
      "learning_rate": 0.000160648133841788,
      "loss": 3.8407,
      "step": 230190
    },
    {
      "epoch": 0.4795833333333333,
      "grad_norm": 0.8489869832992554,
      "learning_rate": 0.0001606383001355962,
      "loss": 3.7197,
      "step": 230200
    },
    {
      "epoch": 0.47960416666666666,
      "grad_norm": 1.1117279529571533,
      "learning_rate": 0.00016062846638345118,
      "loss": 3.7185,
      "step": 230210
    },
    {
      "epoch": 0.479625,
      "grad_norm": 0.8247902989387512,
      "learning_rate": 0.00016061863258539535,
      "loss": 3.9325,
      "step": 230220
    },
    {
      "epoch": 0.4796458333333333,
      "grad_norm": 0.9510290026664734,
      "learning_rate": 0.00016060879874147126,
      "loss": 3.845,
      "step": 230230
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 0.8918229937553406,
      "learning_rate": 0.00016059896485172136,
      "loss": 3.9103,
      "step": 230240
    },
    {
      "epoch": 0.4796875,
      "grad_norm": 0.8935355544090271,
      "learning_rate": 0.00016058913091618814,
      "loss": 3.9904,
      "step": 230250
    },
    {
      "epoch": 0.47970833333333335,
      "grad_norm": 0.8167328834533691,
      "learning_rate": 0.00016057929693491404,
      "loss": 3.9257,
      "step": 230260
    },
    {
      "epoch": 0.47972916666666665,
      "grad_norm": 0.8533510565757751,
      "learning_rate": 0.00016056946290794155,
      "loss": 3.9355,
      "step": 230270
    },
    {
      "epoch": 0.47975,
      "grad_norm": 0.8979971408843994,
      "learning_rate": 0.00016055962883531317,
      "loss": 3.9099,
      "step": 230280
    },
    {
      "epoch": 0.4797708333333333,
      "grad_norm": 0.8523839712142944,
      "learning_rate": 0.0001605497947170714,
      "loss": 3.9257,
      "step": 230290
    },
    {
      "epoch": 0.47979166666666667,
      "grad_norm": 0.8771722912788391,
      "learning_rate": 0.0001605399605532587,
      "loss": 3.927,
      "step": 230300
    },
    {
      "epoch": 0.4798125,
      "grad_norm": 0.9215653538703918,
      "learning_rate": 0.0001605301263439175,
      "loss": 3.7338,
      "step": 230310
    },
    {
      "epoch": 0.47983333333333333,
      "grad_norm": 0.8301030993461609,
      "learning_rate": 0.00016052029208909034,
      "loss": 4.025,
      "step": 230320
    },
    {
      "epoch": 0.4798541666666667,
      "grad_norm": 0.8054977059364319,
      "learning_rate": 0.00016051045778881968,
      "loss": 3.8061,
      "step": 230330
    },
    {
      "epoch": 0.479875,
      "grad_norm": 0.9612168073654175,
      "learning_rate": 0.00016050062344314804,
      "loss": 3.9694,
      "step": 230340
    },
    {
      "epoch": 0.47989583333333335,
      "grad_norm": 1.403234839439392,
      "learning_rate": 0.0001604907890521178,
      "loss": 3.9019,
      "step": 230350
    },
    {
      "epoch": 0.47991666666666666,
      "grad_norm": 1.4911550283432007,
      "learning_rate": 0.00016048095461577153,
      "loss": 3.9876,
      "step": 230360
    },
    {
      "epoch": 0.4799375,
      "grad_norm": 0.9112256765365601,
      "learning_rate": 0.00016047112013415173,
      "loss": 3.7761,
      "step": 230370
    },
    {
      "epoch": 0.4799583333333333,
      "grad_norm": 0.8257240653038025,
      "learning_rate": 0.0001604612856073008,
      "loss": 3.8437,
      "step": 230380
    },
    {
      "epoch": 0.4799791666666667,
      "grad_norm": 0.8931306004524231,
      "learning_rate": 0.0001604514510352612,
      "loss": 3.7748,
      "step": 230390
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8222740292549133,
      "learning_rate": 0.00016044161641807556,
      "loss": 3.9699,
      "step": 230400
    },
    {
      "epoch": 0.48002083333333334,
      "grad_norm": 0.8315950036048889,
      "learning_rate": 0.00016043178175578624,
      "loss": 3.9026,
      "step": 230410
    },
    {
      "epoch": 0.48004166666666664,
      "grad_norm": 0.8518407344818115,
      "learning_rate": 0.00016042194704843574,
      "loss": 3.7321,
      "step": 230420
    },
    {
      "epoch": 0.4800625,
      "grad_norm": 1.115339756011963,
      "learning_rate": 0.00016041211229606656,
      "loss": 4.041,
      "step": 230430
    },
    {
      "epoch": 0.4800833333333333,
      "grad_norm": 0.8086615204811096,
      "learning_rate": 0.00016040227749872119,
      "loss": 3.8477,
      "step": 230440
    },
    {
      "epoch": 0.48010416666666667,
      "grad_norm": 1.1052265167236328,
      "learning_rate": 0.00016039244265644208,
      "loss": 3.9902,
      "step": 230450
    },
    {
      "epoch": 0.480125,
      "grad_norm": 0.8102888464927673,
      "learning_rate": 0.00016038260776927174,
      "loss": 3.9101,
      "step": 230460
    },
    {
      "epoch": 0.4801458333333333,
      "grad_norm": 0.9843659996986389,
      "learning_rate": 0.00016037277283725262,
      "loss": 4.1009,
      "step": 230470
    },
    {
      "epoch": 0.4801666666666667,
      "grad_norm": 0.826829195022583,
      "learning_rate": 0.00016036293786042728,
      "loss": 3.9614,
      "step": 230480
    },
    {
      "epoch": 0.4801875,
      "grad_norm": 1.0788899660110474,
      "learning_rate": 0.00016035310283883807,
      "loss": 3.898,
      "step": 230490
    },
    {
      "epoch": 0.48020833333333335,
      "grad_norm": 0.8822526335716248,
      "learning_rate": 0.00016034326777252761,
      "loss": 3.7818,
      "step": 230500
    },
    {
      "epoch": 0.48022916666666665,
      "grad_norm": 3.6671090126037598,
      "learning_rate": 0.00016033343266153838,
      "loss": 3.7598,
      "step": 230510
    },
    {
      "epoch": 0.48025,
      "grad_norm": 0.9891862273216248,
      "learning_rate": 0.00016032359750591267,
      "loss": 3.7321,
      "step": 230520
    },
    {
      "epoch": 0.4802708333333333,
      "grad_norm": 0.8833808898925781,
      "learning_rate": 0.00016031376230569321,
      "loss": 3.9029,
      "step": 230530
    },
    {
      "epoch": 0.4802916666666667,
      "grad_norm": 0.8616774082183838,
      "learning_rate": 0.00016030392706092237,
      "loss": 3.8956,
      "step": 230540
    },
    {
      "epoch": 0.4803125,
      "grad_norm": 0.9046247005462646,
      "learning_rate": 0.00016029409177164262,
      "loss": 3.9297,
      "step": 230550
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 0.9506124258041382,
      "learning_rate": 0.00016028425643789646,
      "loss": 3.7642,
      "step": 230560
    },
    {
      "epoch": 0.4803541666666667,
      "grad_norm": 0.922806441783905,
      "learning_rate": 0.00016027442105972644,
      "loss": 3.7884,
      "step": 230570
    },
    {
      "epoch": 0.480375,
      "grad_norm": 1.0010898113250732,
      "learning_rate": 0.00016026458563717493,
      "loss": 3.7174,
      "step": 230580
    },
    {
      "epoch": 0.48039583333333336,
      "grad_norm": 0.8680317401885986,
      "learning_rate": 0.00016025475017028445,
      "loss": 3.8948,
      "step": 230590
    },
    {
      "epoch": 0.48041666666666666,
      "grad_norm": 0.8342456817626953,
      "learning_rate": 0.00016024491465909757,
      "loss": 3.8347,
      "step": 230600
    },
    {
      "epoch": 0.4804375,
      "grad_norm": 0.9718780517578125,
      "learning_rate": 0.0001602350791036567,
      "loss": 3.9246,
      "step": 230610
    },
    {
      "epoch": 0.4804583333333333,
      "grad_norm": 0.9294533729553223,
      "learning_rate": 0.00016022524350400432,
      "loss": 3.8813,
      "step": 230620
    },
    {
      "epoch": 0.4804791666666667,
      "grad_norm": 0.9778379201889038,
      "learning_rate": 0.00016021540786018295,
      "loss": 4.0083,
      "step": 230630
    },
    {
      "epoch": 0.4805,
      "grad_norm": 0.8432818651199341,
      "learning_rate": 0.00016020557217223506,
      "loss": 3.8653,
      "step": 230640
    },
    {
      "epoch": 0.48052083333333334,
      "grad_norm": 0.934279203414917,
      "learning_rate": 0.00016019573644020314,
      "loss": 3.9537,
      "step": 230650
    },
    {
      "epoch": 0.48054166666666664,
      "grad_norm": 0.8888221383094788,
      "learning_rate": 0.00016018590066412967,
      "loss": 3.6188,
      "step": 230660
    },
    {
      "epoch": 0.4805625,
      "grad_norm": 0.8609465956687927,
      "learning_rate": 0.00016017606484405712,
      "loss": 3.8596,
      "step": 230670
    },
    {
      "epoch": 0.4805833333333333,
      "grad_norm": 0.8484782576560974,
      "learning_rate": 0.00016016622898002808,
      "loss": 3.9419,
      "step": 230680
    },
    {
      "epoch": 0.48060416666666667,
      "grad_norm": 0.9524234533309937,
      "learning_rate": 0.00016015639307208487,
      "loss": 3.8387,
      "step": 230690
    },
    {
      "epoch": 0.480625,
      "grad_norm": 0.8471243381500244,
      "learning_rate": 0.00016014655712027006,
      "loss": 3.9425,
      "step": 230700
    },
    {
      "epoch": 0.4806458333333333,
      "grad_norm": 0.8954434990882874,
      "learning_rate": 0.0001601367211246262,
      "loss": 3.939,
      "step": 230710
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 0.879840075969696,
      "learning_rate": 0.00016012688508519564,
      "loss": 3.7169,
      "step": 230720
    },
    {
      "epoch": 0.4806875,
      "grad_norm": 0.8454822301864624,
      "learning_rate": 0.00016011704900202099,
      "loss": 3.8003,
      "step": 230730
    },
    {
      "epoch": 0.48070833333333335,
      "grad_norm": 0.8069792985916138,
      "learning_rate": 0.00016010721287514472,
      "loss": 3.8455,
      "step": 230740
    },
    {
      "epoch": 0.48072916666666665,
      "grad_norm": 0.8399462103843689,
      "learning_rate": 0.00016009737670460926,
      "loss": 3.989,
      "step": 230750
    },
    {
      "epoch": 0.48075,
      "grad_norm": 0.917107880115509,
      "learning_rate": 0.0001600875404904571,
      "loss": 3.8754,
      "step": 230760
    },
    {
      "epoch": 0.4807708333333333,
      "grad_norm": 0.8516198396682739,
      "learning_rate": 0.0001600777042327308,
      "loss": 3.8532,
      "step": 230770
    },
    {
      "epoch": 0.4807916666666667,
      "grad_norm": 1.0403066873550415,
      "learning_rate": 0.00016006786793147282,
      "loss": 3.7456,
      "step": 230780
    },
    {
      "epoch": 0.4808125,
      "grad_norm": 0.8817444443702698,
      "learning_rate": 0.0001600580315867256,
      "loss": 3.9222,
      "step": 230790
    },
    {
      "epoch": 0.48083333333333333,
      "grad_norm": 1.3248363733291626,
      "learning_rate": 0.0001600481951985317,
      "loss": 3.9583,
      "step": 230800
    },
    {
      "epoch": 0.4808541666666667,
      "grad_norm": 0.8340559601783752,
      "learning_rate": 0.00016003835876693352,
      "loss": 4.1103,
      "step": 230810
    },
    {
      "epoch": 0.480875,
      "grad_norm": 0.8471978902816772,
      "learning_rate": 0.00016002852229197363,
      "loss": 3.868,
      "step": 230820
    },
    {
      "epoch": 0.48089583333333336,
      "grad_norm": 0.849307119846344,
      "learning_rate": 0.00016001868577369453,
      "loss": 3.9208,
      "step": 230830
    },
    {
      "epoch": 0.48091666666666666,
      "grad_norm": 1.0809062719345093,
      "learning_rate": 0.0001600088492121386,
      "loss": 3.9255,
      "step": 230840
    },
    {
      "epoch": 0.4809375,
      "grad_norm": 0.8444542288780212,
      "learning_rate": 0.00015999901260734849,
      "loss": 3.8731,
      "step": 230850
    },
    {
      "epoch": 0.4809583333333333,
      "grad_norm": 0.909683108329773,
      "learning_rate": 0.00015998917595936652,
      "loss": 4.0871,
      "step": 230860
    },
    {
      "epoch": 0.4809791666666667,
      "grad_norm": 0.9439547061920166,
      "learning_rate": 0.0001599793392682353,
      "loss": 4.0299,
      "step": 230870
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.8742823004722595,
      "learning_rate": 0.00015996950253399734,
      "loss": 3.8739,
      "step": 230880
    },
    {
      "epoch": 0.48102083333333334,
      "grad_norm": 0.8812306523323059,
      "learning_rate": 0.000159959665756695,
      "loss": 3.8475,
      "step": 230890
    },
    {
      "epoch": 0.48104166666666665,
      "grad_norm": 0.9021191596984863,
      "learning_rate": 0.00015994982893637082,
      "loss": 3.6977,
      "step": 230900
    },
    {
      "epoch": 0.4810625,
      "grad_norm": 0.875465452671051,
      "learning_rate": 0.00015993999207306741,
      "loss": 3.8593,
      "step": 230910
    },
    {
      "epoch": 0.4810833333333333,
      "grad_norm": 0.8976061940193176,
      "learning_rate": 0.00015993015516682714,
      "loss": 3.7164,
      "step": 230920
    },
    {
      "epoch": 0.48110416666666667,
      "grad_norm": 0.862341046333313,
      "learning_rate": 0.00015992031821769249,
      "loss": 3.7866,
      "step": 230930
    },
    {
      "epoch": 0.481125,
      "grad_norm": 0.9746100902557373,
      "learning_rate": 0.00015991048122570604,
      "loss": 3.7223,
      "step": 230940
    },
    {
      "epoch": 0.48114583333333333,
      "grad_norm": 1.1582837104797363,
      "learning_rate": 0.0001599006441909102,
      "loss": 4.0708,
      "step": 230950
    },
    {
      "epoch": 0.4811666666666667,
      "grad_norm": 1.0939610004425049,
      "learning_rate": 0.00015989080711334747,
      "loss": 4.024,
      "step": 230960
    },
    {
      "epoch": 0.4811875,
      "grad_norm": 0.8747717142105103,
      "learning_rate": 0.00015988096999306045,
      "loss": 3.6619,
      "step": 230970
    },
    {
      "epoch": 0.48120833333333335,
      "grad_norm": 0.8347800970077515,
      "learning_rate": 0.0001598711328300915,
      "loss": 4.0235,
      "step": 230980
    },
    {
      "epoch": 0.48122916666666665,
      "grad_norm": 0.909130334854126,
      "learning_rate": 0.00015986129562448317,
      "loss": 3.8438,
      "step": 230990
    },
    {
      "epoch": 0.48125,
      "grad_norm": 0.8399956822395325,
      "learning_rate": 0.00015985145837627793,
      "loss": 3.9526,
      "step": 231000
    },
    {
      "epoch": 0.48125,
      "eval_loss": 3.6259734630584717,
      "eval_runtime": 7.3036,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 231000
    },
    {
      "epoch": 0.4812708333333333,
      "grad_norm": 1.204703450202942,
      "learning_rate": 0.00015984162108551828,
      "loss": 3.7704,
      "step": 231010
    },
    {
      "epoch": 0.4812916666666667,
      "grad_norm": 0.8318516612052917,
      "learning_rate": 0.00015983178375224679,
      "loss": 3.7172,
      "step": 231020
    },
    {
      "epoch": 0.4813125,
      "grad_norm": 0.8547415137290955,
      "learning_rate": 0.0001598219463765058,
      "loss": 3.9068,
      "step": 231030
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 1.0484154224395752,
      "learning_rate": 0.00015981210895833794,
      "loss": 4.097,
      "step": 231040
    },
    {
      "epoch": 0.4813541666666667,
      "grad_norm": 0.8351813554763794,
      "learning_rate": 0.00015980227149778566,
      "loss": 3.8787,
      "step": 231050
    },
    {
      "epoch": 0.481375,
      "grad_norm": 0.9380523562431335,
      "learning_rate": 0.00015979243399489142,
      "loss": 3.8363,
      "step": 231060
    },
    {
      "epoch": 0.48139583333333336,
      "grad_norm": 0.9295172095298767,
      "learning_rate": 0.0001597825964496978,
      "loss": 3.8695,
      "step": 231070
    },
    {
      "epoch": 0.48141666666666666,
      "grad_norm": 0.9723993539810181,
      "learning_rate": 0.00015977275886224716,
      "loss": 3.5504,
      "step": 231080
    },
    {
      "epoch": 0.4814375,
      "grad_norm": 0.8804453611373901,
      "learning_rate": 0.0001597629212325821,
      "loss": 4.0114,
      "step": 231090
    },
    {
      "epoch": 0.4814583333333333,
      "grad_norm": 0.9016720056533813,
      "learning_rate": 0.00015975308356074507,
      "loss": 3.8536,
      "step": 231100
    },
    {
      "epoch": 0.4814791666666667,
      "grad_norm": 1.0592666864395142,
      "learning_rate": 0.0001597432458467786,
      "loss": 3.7778,
      "step": 231110
    },
    {
      "epoch": 0.4815,
      "grad_norm": 0.8970454335212708,
      "learning_rate": 0.00015973340809072518,
      "loss": 3.7993,
      "step": 231120
    },
    {
      "epoch": 0.48152083333333334,
      "grad_norm": 0.8332522511482239,
      "learning_rate": 0.00015972357029262727,
      "loss": 3.9449,
      "step": 231130
    },
    {
      "epoch": 0.48154166666666665,
      "grad_norm": 0.9156044125556946,
      "learning_rate": 0.00015971373245252736,
      "loss": 3.6589,
      "step": 231140
    },
    {
      "epoch": 0.4815625,
      "grad_norm": 1.0866644382476807,
      "learning_rate": 0.000159703894570468,
      "loss": 4.0295,
      "step": 231150
    },
    {
      "epoch": 0.4815833333333333,
      "grad_norm": 0.7757700085639954,
      "learning_rate": 0.00015969405664649163,
      "loss": 3.8907,
      "step": 231160
    },
    {
      "epoch": 0.48160416666666667,
      "grad_norm": 0.8445581793785095,
      "learning_rate": 0.0001596842186806408,
      "loss": 3.824,
      "step": 231170
    },
    {
      "epoch": 0.481625,
      "grad_norm": 0.8788785934448242,
      "learning_rate": 0.00015967438067295798,
      "loss": 3.9456,
      "step": 231180
    },
    {
      "epoch": 0.48164583333333333,
      "grad_norm": 0.8812052607536316,
      "learning_rate": 0.00015966454262348565,
      "loss": 3.8393,
      "step": 231190
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 1.4419647455215454,
      "learning_rate": 0.00015965470453226633,
      "loss": 3.9873,
      "step": 231200
    },
    {
      "epoch": 0.4816875,
      "grad_norm": 0.8205161690711975,
      "learning_rate": 0.00015964486639934248,
      "loss": 3.8977,
      "step": 231210
    },
    {
      "epoch": 0.48170833333333335,
      "grad_norm": 0.9312492609024048,
      "learning_rate": 0.00015963502822475666,
      "loss": 3.7933,
      "step": 231220
    },
    {
      "epoch": 0.48172916666666665,
      "grad_norm": 0.9685817360877991,
      "learning_rate": 0.0001596251900085513,
      "loss": 3.9451,
      "step": 231230
    },
    {
      "epoch": 0.48175,
      "grad_norm": 0.8089156746864319,
      "learning_rate": 0.000159615351750769,
      "loss": 3.7373,
      "step": 231240
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 0.9467853307723999,
      "learning_rate": 0.00015960551345145215,
      "loss": 3.8915,
      "step": 231250
    },
    {
      "epoch": 0.4817916666666667,
      "grad_norm": 0.9772617816925049,
      "learning_rate": 0.00015959567511064323,
      "loss": 3.8993,
      "step": 231260
    },
    {
      "epoch": 0.4818125,
      "grad_norm": 0.9330880045890808,
      "learning_rate": 0.00015958583672838489,
      "loss": 3.8477,
      "step": 231270
    },
    {
      "epoch": 0.48183333333333334,
      "grad_norm": 0.9588770866394043,
      "learning_rate": 0.00015957599830471945,
      "loss": 3.8901,
      "step": 231280
    },
    {
      "epoch": 0.48185416666666664,
      "grad_norm": 0.8335857391357422,
      "learning_rate": 0.00015956615983968948,
      "loss": 3.8289,
      "step": 231290
    },
    {
      "epoch": 0.481875,
      "grad_norm": 0.8522933721542358,
      "learning_rate": 0.00015955632133333756,
      "loss": 3.6524,
      "step": 231300
    },
    {
      "epoch": 0.48189583333333336,
      "grad_norm": 0.8455544710159302,
      "learning_rate": 0.00015954648278570605,
      "loss": 3.6514,
      "step": 231310
    },
    {
      "epoch": 0.48191666666666666,
      "grad_norm": 0.8452721238136292,
      "learning_rate": 0.00015953664419683756,
      "loss": 4.025,
      "step": 231320
    },
    {
      "epoch": 0.4819375,
      "grad_norm": 1.2267847061157227,
      "learning_rate": 0.0001595268055667745,
      "loss": 3.8273,
      "step": 231330
    },
    {
      "epoch": 0.4819583333333333,
      "grad_norm": 0.7747420072555542,
      "learning_rate": 0.00015951696689555942,
      "loss": 3.9617,
      "step": 231340
    },
    {
      "epoch": 0.4819791666666667,
      "grad_norm": 0.9503318667411804,
      "learning_rate": 0.0001595071281832348,
      "loss": 4.032,
      "step": 231350
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.9967923760414124,
      "learning_rate": 0.0001594972894298432,
      "loss": 3.9711,
      "step": 231360
    },
    {
      "epoch": 0.48202083333333334,
      "grad_norm": 0.8970043659210205,
      "learning_rate": 0.00015948745063542702,
      "loss": 3.8731,
      "step": 231370
    },
    {
      "epoch": 0.48204166666666665,
      "grad_norm": 2.2354323863983154,
      "learning_rate": 0.00015947761180002887,
      "loss": 3.8759,
      "step": 231380
    },
    {
      "epoch": 0.4820625,
      "grad_norm": 0.8079280257225037,
      "learning_rate": 0.0001594677729236911,
      "loss": 3.707,
      "step": 231390
    },
    {
      "epoch": 0.4820833333333333,
      "grad_norm": 0.8944927453994751,
      "learning_rate": 0.00015945793400645633,
      "loss": 3.8283,
      "step": 231400
    },
    {
      "epoch": 0.48210416666666667,
      "grad_norm": 0.847015380859375,
      "learning_rate": 0.00015944809504836707,
      "loss": 3.9841,
      "step": 231410
    },
    {
      "epoch": 0.482125,
      "grad_norm": 0.8472478985786438,
      "learning_rate": 0.00015943825604946576,
      "loss": 3.8301,
      "step": 231420
    },
    {
      "epoch": 0.48214583333333333,
      "grad_norm": 0.856791079044342,
      "learning_rate": 0.00015942841700979487,
      "loss": 3.7985,
      "step": 231430
    },
    {
      "epoch": 0.4821666666666667,
      "grad_norm": 0.961397647857666,
      "learning_rate": 0.000159418577929397,
      "loss": 3.7727,
      "step": 231440
    },
    {
      "epoch": 0.4821875,
      "grad_norm": 0.9586224555969238,
      "learning_rate": 0.0001594087388083146,
      "loss": 3.8051,
      "step": 231450
    },
    {
      "epoch": 0.48220833333333335,
      "grad_norm": 0.9307498931884766,
      "learning_rate": 0.00015939889964659013,
      "loss": 3.7184,
      "step": 231460
    },
    {
      "epoch": 0.48222916666666665,
      "grad_norm": 0.9016366004943848,
      "learning_rate": 0.0001593890604442662,
      "loss": 3.9184,
      "step": 231470
    },
    {
      "epoch": 0.48225,
      "grad_norm": 0.892512857913971,
      "learning_rate": 0.00015937922120138522,
      "loss": 3.8432,
      "step": 231480
    },
    {
      "epoch": 0.4822708333333333,
      "grad_norm": 0.8687575459480286,
      "learning_rate": 0.00015936938191798972,
      "loss": 3.7801,
      "step": 231490
    },
    {
      "epoch": 0.4822916666666667,
      "grad_norm": 0.8515859842300415,
      "learning_rate": 0.00015935954259412217,
      "loss": 3.8246,
      "step": 231500
    },
    {
      "epoch": 0.4823125,
      "grad_norm": 0.8785908818244934,
      "learning_rate": 0.00015934970322982513,
      "loss": 3.8465,
      "step": 231510
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 0.995999813079834,
      "learning_rate": 0.00015933986382514104,
      "loss": 4.0965,
      "step": 231520
    },
    {
      "epoch": 0.48235416666666664,
      "grad_norm": 0.8361508846282959,
      "learning_rate": 0.00015933002438011247,
      "loss": 3.8532,
      "step": 231530
    },
    {
      "epoch": 0.482375,
      "grad_norm": 1.064256191253662,
      "learning_rate": 0.00015932018489478187,
      "loss": 3.7762,
      "step": 231540
    },
    {
      "epoch": 0.48239583333333336,
      "grad_norm": 0.8055806159973145,
      "learning_rate": 0.00015931034536919181,
      "loss": 3.7546,
      "step": 231550
    },
    {
      "epoch": 0.48241666666666666,
      "grad_norm": 0.9563323259353638,
      "learning_rate": 0.00015930050580338463,
      "loss": 3.8789,
      "step": 231560
    },
    {
      "epoch": 0.4824375,
      "grad_norm": 0.9130987524986267,
      "learning_rate": 0.00015929066619740304,
      "loss": 3.9161,
      "step": 231570
    },
    {
      "epoch": 0.4824583333333333,
      "grad_norm": 0.9785085320472717,
      "learning_rate": 0.00015928082655128944,
      "loss": 4.0436,
      "step": 231580
    },
    {
      "epoch": 0.4824791666666667,
      "grad_norm": 1.2515501976013184,
      "learning_rate": 0.00015927098686508632,
      "loss": 3.9221,
      "step": 231590
    },
    {
      "epoch": 0.4825,
      "grad_norm": 0.8358672261238098,
      "learning_rate": 0.0001592611471388362,
      "loss": 3.9211,
      "step": 231600
    },
    {
      "epoch": 0.48252083333333334,
      "grad_norm": 1.436859369277954,
      "learning_rate": 0.00015925130737258163,
      "loss": 3.8931,
      "step": 231610
    },
    {
      "epoch": 0.48254166666666665,
      "grad_norm": 0.9856727123260498,
      "learning_rate": 0.00015924146756636506,
      "loss": 3.6812,
      "step": 231620
    },
    {
      "epoch": 0.4825625,
      "grad_norm": 0.915942370891571,
      "learning_rate": 0.00015923162772022898,
      "loss": 3.7111,
      "step": 231630
    },
    {
      "epoch": 0.4825833333333333,
      "grad_norm": 0.950199544429779,
      "learning_rate": 0.00015922178783421594,
      "loss": 3.8059,
      "step": 231640
    },
    {
      "epoch": 0.48260416666666667,
      "grad_norm": 0.8906309604644775,
      "learning_rate": 0.00015921194790836845,
      "loss": 3.8916,
      "step": 231650
    },
    {
      "epoch": 0.482625,
      "grad_norm": 1.1977713108062744,
      "learning_rate": 0.00015920210794272894,
      "loss": 3.8815,
      "step": 231660
    },
    {
      "epoch": 0.48264583333333333,
      "grad_norm": 0.9448410272598267,
      "learning_rate": 0.00015919226793734,
      "loss": 4.07,
      "step": 231670
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 0.8932837247848511,
      "learning_rate": 0.00015918242789224408,
      "loss": 3.8862,
      "step": 231680
    },
    {
      "epoch": 0.4826875,
      "grad_norm": 0.9313881993293762,
      "learning_rate": 0.00015917258780748374,
      "loss": 3.8556,
      "step": 231690
    },
    {
      "epoch": 0.48270833333333335,
      "grad_norm": 1.3515522480010986,
      "learning_rate": 0.00015916274768310143,
      "loss": 3.912,
      "step": 231700
    },
    {
      "epoch": 0.48272916666666665,
      "grad_norm": 0.8809785842895508,
      "learning_rate": 0.00015915290751913967,
      "loss": 3.9113,
      "step": 231710
    },
    {
      "epoch": 0.48275,
      "grad_norm": 0.8072648644447327,
      "learning_rate": 0.00015914306731564098,
      "loss": 3.7362,
      "step": 231720
    },
    {
      "epoch": 0.4827708333333333,
      "grad_norm": 0.8730881810188293,
      "learning_rate": 0.00015913322707264784,
      "loss": 3.7895,
      "step": 231730
    },
    {
      "epoch": 0.4827916666666667,
      "grad_norm": 0.9233112335205078,
      "learning_rate": 0.0001591233867902028,
      "loss": 3.9091,
      "step": 231740
    },
    {
      "epoch": 0.4828125,
      "grad_norm": 1.0507787466049194,
      "learning_rate": 0.00015911354646834836,
      "loss": 3.8077,
      "step": 231750
    },
    {
      "epoch": 0.48283333333333334,
      "grad_norm": 0.8516453504562378,
      "learning_rate": 0.00015910370610712696,
      "loss": 3.7257,
      "step": 231760
    },
    {
      "epoch": 0.48285416666666664,
      "grad_norm": 0.8828538060188293,
      "learning_rate": 0.00015909386570658117,
      "loss": 3.7191,
      "step": 231770
    },
    {
      "epoch": 0.482875,
      "grad_norm": 0.9882344007492065,
      "learning_rate": 0.00015908402526675354,
      "loss": 3.8339,
      "step": 231780
    },
    {
      "epoch": 0.48289583333333336,
      "grad_norm": 0.9276520609855652,
      "learning_rate": 0.0001590741847876864,
      "loss": 3.9664,
      "step": 231790
    },
    {
      "epoch": 0.48291666666666666,
      "grad_norm": 0.9778892397880554,
      "learning_rate": 0.00015906434426942245,
      "loss": 4.004,
      "step": 231800
    },
    {
      "epoch": 0.4829375,
      "grad_norm": 0.8744460940361023,
      "learning_rate": 0.00015905450371200413,
      "loss": 3.8274,
      "step": 231810
    },
    {
      "epoch": 0.4829583333333333,
      "grad_norm": 0.9660269021987915,
      "learning_rate": 0.0001590446631154739,
      "loss": 3.9668,
      "step": 231820
    },
    {
      "epoch": 0.4829791666666667,
      "grad_norm": 0.813864529132843,
      "learning_rate": 0.00015903482247987434,
      "loss": 4.0551,
      "step": 231830
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.9936908483505249,
      "learning_rate": 0.00015902498180524787,
      "loss": 3.7419,
      "step": 231840
    },
    {
      "epoch": 0.48302083333333334,
      "grad_norm": 0.8962423801422119,
      "learning_rate": 0.0001590151410916371,
      "loss": 3.7977,
      "step": 231850
    },
    {
      "epoch": 0.48304166666666665,
      "grad_norm": 0.9737831950187683,
      "learning_rate": 0.00015900530033908445,
      "loss": 3.9744,
      "step": 231860
    },
    {
      "epoch": 0.4830625,
      "grad_norm": 0.908549964427948,
      "learning_rate": 0.0001589954595476325,
      "loss": 3.9177,
      "step": 231870
    },
    {
      "epoch": 0.4830833333333333,
      "grad_norm": 0.8737711906433105,
      "learning_rate": 0.0001589856187173237,
      "loss": 3.7299,
      "step": 231880
    },
    {
      "epoch": 0.48310416666666667,
      "grad_norm": 1.0437092781066895,
      "learning_rate": 0.00015897577784820062,
      "loss": 3.9729,
      "step": 231890
    },
    {
      "epoch": 0.483125,
      "grad_norm": 1.872215747833252,
      "learning_rate": 0.0001589659369403057,
      "loss": 4.0026,
      "step": 231900
    },
    {
      "epoch": 0.48314583333333333,
      "grad_norm": 0.8677939176559448,
      "learning_rate": 0.00015895609599368148,
      "loss": 3.8077,
      "step": 231910
    },
    {
      "epoch": 0.4831666666666667,
      "grad_norm": 0.8737863302230835,
      "learning_rate": 0.00015894625500837052,
      "loss": 3.9991,
      "step": 231920
    },
    {
      "epoch": 0.4831875,
      "grad_norm": 0.9095672369003296,
      "learning_rate": 0.0001589364139844152,
      "loss": 3.8154,
      "step": 231930
    },
    {
      "epoch": 0.48320833333333335,
      "grad_norm": 0.9199953675270081,
      "learning_rate": 0.00015892657292185816,
      "loss": 3.8249,
      "step": 231940
    },
    {
      "epoch": 0.48322916666666665,
      "grad_norm": 0.9412775039672852,
      "learning_rate": 0.00015891673182074189,
      "loss": 3.8215,
      "step": 231950
    },
    {
      "epoch": 0.48325,
      "grad_norm": 1.071897029876709,
      "learning_rate": 0.00015890689068110878,
      "loss": 3.76,
      "step": 231960
    },
    {
      "epoch": 0.4832708333333333,
      "grad_norm": 0.8654926419258118,
      "learning_rate": 0.00015889704950300152,
      "loss": 3.8556,
      "step": 231970
    },
    {
      "epoch": 0.4832916666666667,
      "grad_norm": 0.853623628616333,
      "learning_rate": 0.00015888720828646246,
      "loss": 3.8785,
      "step": 231980
    },
    {
      "epoch": 0.4833125,
      "grad_norm": 0.9736303091049194,
      "learning_rate": 0.0001588773670315342,
      "loss": 3.755,
      "step": 231990
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 0.8888552188873291,
      "learning_rate": 0.00015886752573825922,
      "loss": 3.9038,
      "step": 232000
    },
    {
      "epoch": 0.48333333333333334,
      "eval_loss": 3.6226394176483154,
      "eval_runtime": 7.2793,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 232000
    },
    {
      "epoch": 0.48335416666666664,
      "grad_norm": 1.0207421779632568,
      "learning_rate": 0.00015885768440668005,
      "loss": 3.7991,
      "step": 232010
    },
    {
      "epoch": 0.483375,
      "grad_norm": 0.9151397347450256,
      "learning_rate": 0.0001588478430368392,
      "loss": 3.8308,
      "step": 232020
    },
    {
      "epoch": 0.48339583333333336,
      "grad_norm": 0.8866042494773865,
      "learning_rate": 0.00015883800162877916,
      "loss": 3.7081,
      "step": 232030
    },
    {
      "epoch": 0.48341666666666666,
      "grad_norm": 0.8520121574401855,
      "learning_rate": 0.00015882816018254243,
      "loss": 3.8909,
      "step": 232040
    },
    {
      "epoch": 0.4834375,
      "grad_norm": 0.8879492282867432,
      "learning_rate": 0.00015881831869817155,
      "loss": 3.9632,
      "step": 232050
    },
    {
      "epoch": 0.4834583333333333,
      "grad_norm": 0.9067222476005554,
      "learning_rate": 0.00015880847717570905,
      "loss": 4.0358,
      "step": 232060
    },
    {
      "epoch": 0.4834791666666667,
      "grad_norm": 1.1103267669677734,
      "learning_rate": 0.00015879863561519742,
      "loss": 3.9089,
      "step": 232070
    },
    {
      "epoch": 0.4835,
      "grad_norm": 0.9026110172271729,
      "learning_rate": 0.0001587887940166791,
      "loss": 3.7996,
      "step": 232080
    },
    {
      "epoch": 0.48352083333333334,
      "grad_norm": 0.8761364817619324,
      "learning_rate": 0.00015877895238019675,
      "loss": 3.9999,
      "step": 232090
    },
    {
      "epoch": 0.48354166666666665,
      "grad_norm": 0.8792151212692261,
      "learning_rate": 0.00015876911070579274,
      "loss": 3.8217,
      "step": 232100
    },
    {
      "epoch": 0.4835625,
      "grad_norm": 0.895297646522522,
      "learning_rate": 0.00015875926899350972,
      "loss": 3.8433,
      "step": 232110
    },
    {
      "epoch": 0.4835833333333333,
      "grad_norm": 0.8841755986213684,
      "learning_rate": 0.00015874942724339005,
      "loss": 3.8727,
      "step": 232120
    },
    {
      "epoch": 0.48360416666666667,
      "grad_norm": 0.8779096603393555,
      "learning_rate": 0.0001587395854554763,
      "loss": 3.8333,
      "step": 232130
    },
    {
      "epoch": 0.483625,
      "grad_norm": 0.8445100784301758,
      "learning_rate": 0.00015872974362981108,
      "loss": 3.8869,
      "step": 232140
    },
    {
      "epoch": 0.48364583333333333,
      "grad_norm": 1.179452657699585,
      "learning_rate": 0.00015871990176643681,
      "loss": 3.9351,
      "step": 232150
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 0.9074102640151978,
      "learning_rate": 0.00015871005986539593,
      "loss": 3.9433,
      "step": 232160
    },
    {
      "epoch": 0.4836875,
      "grad_norm": 0.862275242805481,
      "learning_rate": 0.00015870021792673117,
      "loss": 3.8074,
      "step": 232170
    },
    {
      "epoch": 0.48370833333333335,
      "grad_norm": 1.0091310739517212,
      "learning_rate": 0.00015869037595048481,
      "loss": 3.92,
      "step": 232180
    },
    {
      "epoch": 0.48372916666666665,
      "grad_norm": 0.8337412476539612,
      "learning_rate": 0.0001586805339366995,
      "loss": 3.9231,
      "step": 232190
    },
    {
      "epoch": 0.48375,
      "grad_norm": 0.8519458174705505,
      "learning_rate": 0.00015867069188541772,
      "loss": 3.903,
      "step": 232200
    },
    {
      "epoch": 0.4837708333333333,
      "grad_norm": 0.835633397102356,
      "learning_rate": 0.000158660849796682,
      "loss": 3.8343,
      "step": 232210
    },
    {
      "epoch": 0.4837916666666667,
      "grad_norm": 0.9705973267555237,
      "learning_rate": 0.00015865100767053478,
      "loss": 3.876,
      "step": 232220
    },
    {
      "epoch": 0.4838125,
      "grad_norm": 0.7933291792869568,
      "learning_rate": 0.00015864116550701865,
      "loss": 3.9886,
      "step": 232230
    },
    {
      "epoch": 0.48383333333333334,
      "grad_norm": 0.9400622248649597,
      "learning_rate": 0.00015863132330617614,
      "loss": 3.7591,
      "step": 232240
    },
    {
      "epoch": 0.48385416666666664,
      "grad_norm": 0.8459992408752441,
      "learning_rate": 0.00015862148106804977,
      "loss": 3.7541,
      "step": 232250
    },
    {
      "epoch": 0.483875,
      "grad_norm": 0.7714539170265198,
      "learning_rate": 0.00015861163879268193,
      "loss": 3.8607,
      "step": 232260
    },
    {
      "epoch": 0.48389583333333336,
      "grad_norm": 1.0600121021270752,
      "learning_rate": 0.00015860179648011523,
      "loss": 3.8688,
      "step": 232270
    },
    {
      "epoch": 0.48391666666666666,
      "grad_norm": 0.9350154399871826,
      "learning_rate": 0.0001585919541303922,
      "loss": 3.8619,
      "step": 232280
    },
    {
      "epoch": 0.4839375,
      "grad_norm": 0.8832270503044128,
      "learning_rate": 0.0001585821117435553,
      "loss": 3.9305,
      "step": 232290
    },
    {
      "epoch": 0.4839583333333333,
      "grad_norm": 0.9501726627349854,
      "learning_rate": 0.0001585722693196471,
      "loss": 3.9064,
      "step": 232300
    },
    {
      "epoch": 0.4839791666666667,
      "grad_norm": 0.8905277848243713,
      "learning_rate": 0.0001585624268587101,
      "loss": 3.777,
      "step": 232310
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.9008856415748596,
      "learning_rate": 0.00015855258436078682,
      "loss": 3.9954,
      "step": 232320
    },
    {
      "epoch": 0.48402083333333334,
      "grad_norm": 0.864909827709198,
      "learning_rate": 0.0001585427418259197,
      "loss": 3.7827,
      "step": 232330
    },
    {
      "epoch": 0.48404166666666665,
      "grad_norm": 0.8621309399604797,
      "learning_rate": 0.00015853289925415136,
      "loss": 3.7817,
      "step": 232340
    },
    {
      "epoch": 0.4840625,
      "grad_norm": 1.9355090856552124,
      "learning_rate": 0.00015852305664552428,
      "loss": 3.8287,
      "step": 232350
    },
    {
      "epoch": 0.4840833333333333,
      "grad_norm": 0.8563206791877747,
      "learning_rate": 0.00015851321400008089,
      "loss": 4.0544,
      "step": 232360
    },
    {
      "epoch": 0.48410416666666667,
      "grad_norm": 0.8594872951507568,
      "learning_rate": 0.0001585033713178639,
      "loss": 4.0121,
      "step": 232370
    },
    {
      "epoch": 0.484125,
      "grad_norm": 0.8800112009048462,
      "learning_rate": 0.00015849352859891564,
      "loss": 3.8153,
      "step": 232380
    },
    {
      "epoch": 0.48414583333333333,
      "grad_norm": 1.329163670539856,
      "learning_rate": 0.00015848368584327872,
      "loss": 3.853,
      "step": 232390
    },
    {
      "epoch": 0.4841666666666667,
      "grad_norm": 0.8461945652961731,
      "learning_rate": 0.00015847384305099562,
      "loss": 3.8607,
      "step": 232400
    },
    {
      "epoch": 0.4841875,
      "grad_norm": 0.8844591975212097,
      "learning_rate": 0.00015846400022210888,
      "loss": 3.8496,
      "step": 232410
    },
    {
      "epoch": 0.48420833333333335,
      "grad_norm": 0.9065262675285339,
      "learning_rate": 0.00015845415735666105,
      "loss": 3.8221,
      "step": 232420
    },
    {
      "epoch": 0.48422916666666665,
      "grad_norm": 0.9369455575942993,
      "learning_rate": 0.00015844431445469453,
      "loss": 4.0057,
      "step": 232430
    },
    {
      "epoch": 0.48425,
      "grad_norm": 0.7658005952835083,
      "learning_rate": 0.00015843447151625195,
      "loss": 3.8068,
      "step": 232440
    },
    {
      "epoch": 0.4842708333333333,
      "grad_norm": 0.8684300184249878,
      "learning_rate": 0.00015842462854137582,
      "loss": 3.9064,
      "step": 232450
    },
    {
      "epoch": 0.4842916666666667,
      "grad_norm": 0.8992756009101868,
      "learning_rate": 0.00015841478553010858,
      "loss": 3.8185,
      "step": 232460
    },
    {
      "epoch": 0.4843125,
      "grad_norm": 0.9228517413139343,
      "learning_rate": 0.0001584049424824928,
      "loss": 3.9707,
      "step": 232470
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 0.9176802635192871,
      "learning_rate": 0.00015839509939857106,
      "loss": 3.8094,
      "step": 232480
    },
    {
      "epoch": 0.48435416666666664,
      "grad_norm": 0.873917281627655,
      "learning_rate": 0.00015838525627838578,
      "loss": 3.7502,
      "step": 232490
    },
    {
      "epoch": 0.484375,
      "grad_norm": 1.1508879661560059,
      "learning_rate": 0.00015837541312197946,
      "loss": 4.0211,
      "step": 232500
    },
    {
      "epoch": 0.48439583333333336,
      "grad_norm": 0.8694717288017273,
      "learning_rate": 0.00015836556992939474,
      "loss": 4.0017,
      "step": 232510
    },
    {
      "epoch": 0.48441666666666666,
      "grad_norm": 0.8886507153511047,
      "learning_rate": 0.00015835572670067403,
      "loss": 4.1196,
      "step": 232520
    },
    {
      "epoch": 0.4844375,
      "grad_norm": 0.8749829530715942,
      "learning_rate": 0.00015834588343585987,
      "loss": 3.8752,
      "step": 232530
    },
    {
      "epoch": 0.4844583333333333,
      "grad_norm": 0.888602077960968,
      "learning_rate": 0.00015833604013499488,
      "loss": 4.107,
      "step": 232540
    },
    {
      "epoch": 0.4844791666666667,
      "grad_norm": 0.8107634782791138,
      "learning_rate": 0.00015832619679812142,
      "loss": 4.0067,
      "step": 232550
    },
    {
      "epoch": 0.4845,
      "grad_norm": 0.8801214694976807,
      "learning_rate": 0.00015831635342528213,
      "loss": 3.9217,
      "step": 232560
    },
    {
      "epoch": 0.48452083333333335,
      "grad_norm": 0.8528481125831604,
      "learning_rate": 0.00015830651001651943,
      "loss": 3.9713,
      "step": 232570
    },
    {
      "epoch": 0.48454166666666665,
      "grad_norm": 0.8245086669921875,
      "learning_rate": 0.00015829666657187595,
      "loss": 3.7761,
      "step": 232580
    },
    {
      "epoch": 0.4845625,
      "grad_norm": 0.9534607529640198,
      "learning_rate": 0.0001582868230913941,
      "loss": 3.8173,
      "step": 232590
    },
    {
      "epoch": 0.4845833333333333,
      "grad_norm": 0.92408686876297,
      "learning_rate": 0.0001582769795751165,
      "loss": 3.9858,
      "step": 232600
    },
    {
      "epoch": 0.48460416666666667,
      "grad_norm": 0.8319013714790344,
      "learning_rate": 0.0001582671360230856,
      "loss": 3.9678,
      "step": 232610
    },
    {
      "epoch": 0.484625,
      "grad_norm": 1.012485384941101,
      "learning_rate": 0.000158257292435344,
      "loss": 3.927,
      "step": 232620
    },
    {
      "epoch": 0.48464583333333333,
      "grad_norm": 0.9032602906227112,
      "learning_rate": 0.00015824744881193407,
      "loss": 3.758,
      "step": 232630
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 1.0468230247497559,
      "learning_rate": 0.00015823760515289848,
      "loss": 3.7408,
      "step": 232640
    },
    {
      "epoch": 0.4846875,
      "grad_norm": 0.994333803653717,
      "learning_rate": 0.00015822776145827972,
      "loss": 3.9506,
      "step": 232650
    },
    {
      "epoch": 0.48470833333333335,
      "grad_norm": 0.9497239589691162,
      "learning_rate": 0.00015821791772812022,
      "loss": 3.96,
      "step": 232660
    },
    {
      "epoch": 0.48472916666666666,
      "grad_norm": 0.8501270413398743,
      "learning_rate": 0.00015820807396246263,
      "loss": 3.9455,
      "step": 232670
    },
    {
      "epoch": 0.48475,
      "grad_norm": 0.8322733044624329,
      "learning_rate": 0.00015819823016134942,
      "loss": 3.9398,
      "step": 232680
    },
    {
      "epoch": 0.4847708333333333,
      "grad_norm": 0.7843405604362488,
      "learning_rate": 0.00015818838632482307,
      "loss": 3.8046,
      "step": 232690
    },
    {
      "epoch": 0.4847916666666667,
      "grad_norm": 0.8032110333442688,
      "learning_rate": 0.0001581785424529261,
      "loss": 3.7965,
      "step": 232700
    },
    {
      "epoch": 0.4848125,
      "grad_norm": 0.8428685069084167,
      "learning_rate": 0.00015816869854570114,
      "loss": 3.8915,
      "step": 232710
    },
    {
      "epoch": 0.48483333333333334,
      "grad_norm": 0.9516567587852478,
      "learning_rate": 0.00015815885460319055,
      "loss": 3.9436,
      "step": 232720
    },
    {
      "epoch": 0.48485416666666664,
      "grad_norm": 0.8652760982513428,
      "learning_rate": 0.000158149010625437,
      "loss": 3.7041,
      "step": 232730
    },
    {
      "epoch": 0.484875,
      "grad_norm": 0.8270354866981506,
      "learning_rate": 0.00015813916661248294,
      "loss": 3.8512,
      "step": 232740
    },
    {
      "epoch": 0.48489583333333336,
      "grad_norm": 0.9834616780281067,
      "learning_rate": 0.00015812932256437087,
      "loss": 4.0234,
      "step": 232750
    },
    {
      "epoch": 0.48491666666666666,
      "grad_norm": 0.9104320406913757,
      "learning_rate": 0.00015811947848114335,
      "loss": 3.7397,
      "step": 232760
    },
    {
      "epoch": 0.4849375,
      "grad_norm": 0.897527277469635,
      "learning_rate": 0.00015810963436284294,
      "loss": 3.7538,
      "step": 232770
    },
    {
      "epoch": 0.4849583333333333,
      "grad_norm": 0.9599482417106628,
      "learning_rate": 0.0001580997902095121,
      "loss": 3.9362,
      "step": 232780
    },
    {
      "epoch": 0.4849791666666667,
      "grad_norm": 0.9776143431663513,
      "learning_rate": 0.00015808994602119333,
      "loss": 3.7782,
      "step": 232790
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.8413256406784058,
      "learning_rate": 0.00015808010179792925,
      "loss": 3.9399,
      "step": 232800
    },
    {
      "epoch": 0.48502083333333335,
      "grad_norm": 1.0474594831466675,
      "learning_rate": 0.00015807025753976229,
      "loss": 3.9622,
      "step": 232810
    },
    {
      "epoch": 0.48504166666666665,
      "grad_norm": 0.8751769065856934,
      "learning_rate": 0.00015806041324673505,
      "loss": 3.8023,
      "step": 232820
    },
    {
      "epoch": 0.4850625,
      "grad_norm": 0.8356960415840149,
      "learning_rate": 0.00015805056891888996,
      "loss": 3.9824,
      "step": 232830
    },
    {
      "epoch": 0.4850833333333333,
      "grad_norm": 0.8809157013893127,
      "learning_rate": 0.0001580407245562697,
      "loss": 3.997,
      "step": 232840
    },
    {
      "epoch": 0.48510416666666667,
      "grad_norm": 0.9936294555664062,
      "learning_rate": 0.0001580308801589166,
      "loss": 3.7747,
      "step": 232850
    },
    {
      "epoch": 0.485125,
      "grad_norm": 0.9068282246589661,
      "learning_rate": 0.00015802103572687328,
      "loss": 3.9326,
      "step": 232860
    },
    {
      "epoch": 0.48514583333333333,
      "grad_norm": 0.8961015939712524,
      "learning_rate": 0.0001580111912601823,
      "loss": 3.9433,
      "step": 232870
    },
    {
      "epoch": 0.4851666666666667,
      "grad_norm": 0.9101853966712952,
      "learning_rate": 0.00015800134675888613,
      "loss": 3.9199,
      "step": 232880
    },
    {
      "epoch": 0.4851875,
      "grad_norm": 0.8292540907859802,
      "learning_rate": 0.0001579915022230273,
      "loss": 3.9444,
      "step": 232890
    },
    {
      "epoch": 0.48520833333333335,
      "grad_norm": 1.0145574808120728,
      "learning_rate": 0.00015798165765264834,
      "loss": 3.7923,
      "step": 232900
    },
    {
      "epoch": 0.48522916666666666,
      "grad_norm": 0.8434902429580688,
      "learning_rate": 0.0001579718130477918,
      "loss": 3.8125,
      "step": 232910
    },
    {
      "epoch": 0.48525,
      "grad_norm": 0.8155372142791748,
      "learning_rate": 0.00015796196840850017,
      "loss": 3.7913,
      "step": 232920
    },
    {
      "epoch": 0.4852708333333333,
      "grad_norm": 0.8464714288711548,
      "learning_rate": 0.00015795212373481598,
      "loss": 3.9915,
      "step": 232930
    },
    {
      "epoch": 0.4852916666666667,
      "grad_norm": 0.9302323460578918,
      "learning_rate": 0.00015794227902678177,
      "loss": 3.8396,
      "step": 232940
    },
    {
      "epoch": 0.4853125,
      "grad_norm": 1.014309287071228,
      "learning_rate": 0.00015793243428444007,
      "loss": 3.874,
      "step": 232950
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 0.893065869808197,
      "learning_rate": 0.00015792258950783337,
      "loss": 3.8851,
      "step": 232960
    },
    {
      "epoch": 0.48535416666666664,
      "grad_norm": 0.8282105922698975,
      "learning_rate": 0.00015791274469700425,
      "loss": 3.7289,
      "step": 232970
    },
    {
      "epoch": 0.485375,
      "grad_norm": 0.8578804731369019,
      "learning_rate": 0.0001579028998519952,
      "loss": 3.9123,
      "step": 232980
    },
    {
      "epoch": 0.48539583333333336,
      "grad_norm": 0.8785896897315979,
      "learning_rate": 0.00015789305497284877,
      "loss": 3.8336,
      "step": 232990
    },
    {
      "epoch": 0.48541666666666666,
      "grad_norm": 0.841312050819397,
      "learning_rate": 0.00015788321005960737,
      "loss": 4.0885,
      "step": 233000
    },
    {
      "epoch": 0.48541666666666666,
      "eval_loss": 3.6142075061798096,
      "eval_runtime": 7.328,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.409,
      "step": 233000
    },
    {
      "epoch": 0.4854375,
      "grad_norm": 0.9255786538124084,
      "learning_rate": 0.00015787336511231375,
      "loss": 3.6668,
      "step": 233010
    },
    {
      "epoch": 0.4854583333333333,
      "grad_norm": 0.9007240533828735,
      "learning_rate": 0.00015786352013101023,
      "loss": 3.6027,
      "step": 233020
    },
    {
      "epoch": 0.4854791666666667,
      "grad_norm": 0.9149103164672852,
      "learning_rate": 0.00015785367511573942,
      "loss": 3.8104,
      "step": 233030
    },
    {
      "epoch": 0.4855,
      "grad_norm": 0.8650031089782715,
      "learning_rate": 0.0001578438300665439,
      "loss": 4.0443,
      "step": 233040
    },
    {
      "epoch": 0.48552083333333335,
      "grad_norm": 0.8436608910560608,
      "learning_rate": 0.00015783398498346607,
      "loss": 4.0015,
      "step": 233050
    },
    {
      "epoch": 0.48554166666666665,
      "grad_norm": 0.9173052906990051,
      "learning_rate": 0.00015782413986654856,
      "loss": 3.8951,
      "step": 233060
    },
    {
      "epoch": 0.4855625,
      "grad_norm": 0.8549933433532715,
      "learning_rate": 0.00015781429471583387,
      "loss": 3.9564,
      "step": 233070
    },
    {
      "epoch": 0.4855833333333333,
      "grad_norm": 0.9021806716918945,
      "learning_rate": 0.0001578044495313645,
      "loss": 3.8675,
      "step": 233080
    },
    {
      "epoch": 0.48560416666666667,
      "grad_norm": 1.0684237480163574,
      "learning_rate": 0.000157794604313183,
      "loss": 3.9003,
      "step": 233090
    },
    {
      "epoch": 0.485625,
      "grad_norm": 0.8985047936439514,
      "learning_rate": 0.0001577847590613319,
      "loss": 3.8575,
      "step": 233100
    },
    {
      "epoch": 0.48564583333333333,
      "grad_norm": 0.8287417888641357,
      "learning_rate": 0.00015777491377585371,
      "loss": 3.9394,
      "step": 233110
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 0.9304302334785461,
      "learning_rate": 0.00015776506845679097,
      "loss": 3.7169,
      "step": 233120
    },
    {
      "epoch": 0.4856875,
      "grad_norm": 0.8374279737472534,
      "learning_rate": 0.00015775522310418623,
      "loss": 3.6271,
      "step": 233130
    },
    {
      "epoch": 0.48570833333333335,
      "grad_norm": 0.956405520439148,
      "learning_rate": 0.00015774537771808198,
      "loss": 3.8022,
      "step": 233140
    },
    {
      "epoch": 0.48572916666666666,
      "grad_norm": 0.873537540435791,
      "learning_rate": 0.0001577355322985208,
      "loss": 3.5999,
      "step": 233150
    },
    {
      "epoch": 0.48575,
      "grad_norm": 0.8823062777519226,
      "learning_rate": 0.00015772568684554512,
      "loss": 3.8085,
      "step": 233160
    },
    {
      "epoch": 0.4857708333333333,
      "grad_norm": 0.9588837623596191,
      "learning_rate": 0.00015771584135919754,
      "loss": 4.113,
      "step": 233170
    },
    {
      "epoch": 0.4857916666666667,
      "grad_norm": 0.8342340588569641,
      "learning_rate": 0.0001577059958395206,
      "loss": 3.7916,
      "step": 233180
    },
    {
      "epoch": 0.4858125,
      "grad_norm": 0.8441975116729736,
      "learning_rate": 0.00015769615028655686,
      "loss": 3.9536,
      "step": 233190
    },
    {
      "epoch": 0.48583333333333334,
      "grad_norm": 0.8054643273353577,
      "learning_rate": 0.0001576863047003487,
      "loss": 4.0206,
      "step": 233200
    },
    {
      "epoch": 0.48585416666666664,
      "grad_norm": 0.954178512096405,
      "learning_rate": 0.0001576764590809388,
      "loss": 3.9884,
      "step": 233210
    },
    {
      "epoch": 0.485875,
      "grad_norm": 0.8144724369049072,
      "learning_rate": 0.00015766661342836964,
      "loss": 3.9557,
      "step": 233220
    },
    {
      "epoch": 0.48589583333333336,
      "grad_norm": 0.9524121880531311,
      "learning_rate": 0.0001576567677426837,
      "loss": 4.1123,
      "step": 233230
    },
    {
      "epoch": 0.48591666666666666,
      "grad_norm": 0.8723748922348022,
      "learning_rate": 0.0001576469220239236,
      "loss": 4.015,
      "step": 233240
    },
    {
      "epoch": 0.4859375,
      "grad_norm": 0.8524835109710693,
      "learning_rate": 0.0001576370762721318,
      "loss": 3.8512,
      "step": 233250
    },
    {
      "epoch": 0.4859583333333333,
      "grad_norm": 1.0217262506484985,
      "learning_rate": 0.00015762723048735086,
      "loss": 3.9903,
      "step": 233260
    },
    {
      "epoch": 0.4859791666666667,
      "grad_norm": 0.8174098134040833,
      "learning_rate": 0.0001576173846696233,
      "loss": 3.8282,
      "step": 233270
    },
    {
      "epoch": 0.486,
      "grad_norm": 0.8675919771194458,
      "learning_rate": 0.0001576075388189917,
      "loss": 3.6898,
      "step": 233280
    },
    {
      "epoch": 0.48602083333333335,
      "grad_norm": 0.8952925205230713,
      "learning_rate": 0.00015759769293549847,
      "loss": 3.9394,
      "step": 233290
    },
    {
      "epoch": 0.48604166666666665,
      "grad_norm": 0.9231594204902649,
      "learning_rate": 0.00015758784701918626,
      "loss": 3.8602,
      "step": 233300
    },
    {
      "epoch": 0.4860625,
      "grad_norm": 1.1604417562484741,
      "learning_rate": 0.00015757800107009756,
      "loss": 3.7553,
      "step": 233310
    },
    {
      "epoch": 0.4860833333333333,
      "grad_norm": 0.8876469731330872,
      "learning_rate": 0.0001575681550882749,
      "loss": 3.9081,
      "step": 233320
    },
    {
      "epoch": 0.48610416666666667,
      "grad_norm": 0.893872082233429,
      "learning_rate": 0.00015755830907376072,
      "loss": 3.8131,
      "step": 233330
    },
    {
      "epoch": 0.486125,
      "grad_norm": 1.0536514520645142,
      "learning_rate": 0.0001575484630265977,
      "loss": 3.8671,
      "step": 233340
    },
    {
      "epoch": 0.48614583333333333,
      "grad_norm": 0.8655824065208435,
      "learning_rate": 0.00015753861694682832,
      "loss": 3.6634,
      "step": 233350
    },
    {
      "epoch": 0.4861666666666667,
      "grad_norm": 0.8725034594535828,
      "learning_rate": 0.0001575287708344951,
      "loss": 4.0001,
      "step": 233360
    },
    {
      "epoch": 0.4861875,
      "grad_norm": 0.872383177280426,
      "learning_rate": 0.00015751892468964052,
      "loss": 3.9079,
      "step": 233370
    },
    {
      "epoch": 0.48620833333333335,
      "grad_norm": 0.8148947358131409,
      "learning_rate": 0.00015750907851230724,
      "loss": 3.8657,
      "step": 233380
    },
    {
      "epoch": 0.48622916666666666,
      "grad_norm": 0.830939769744873,
      "learning_rate": 0.00015749923230253766,
      "loss": 3.8935,
      "step": 233390
    },
    {
      "epoch": 0.48625,
      "grad_norm": 1.0323158502578735,
      "learning_rate": 0.00015748938606037437,
      "loss": 3.8157,
      "step": 233400
    },
    {
      "epoch": 0.4862708333333333,
      "grad_norm": 0.8489091992378235,
      "learning_rate": 0.0001574795397858599,
      "loss": 4.0284,
      "step": 233410
    },
    {
      "epoch": 0.4862916666666667,
      "grad_norm": 0.969274640083313,
      "learning_rate": 0.0001574696934790368,
      "loss": 3.8142,
      "step": 233420
    },
    {
      "epoch": 0.4863125,
      "grad_norm": 0.9870644211769104,
      "learning_rate": 0.00015745984713994756,
      "loss": 3.6946,
      "step": 233430
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 0.8731303811073303,
      "learning_rate": 0.00015745000076863473,
      "loss": 3.8313,
      "step": 233440
    },
    {
      "epoch": 0.48635416666666664,
      "grad_norm": 0.848649799823761,
      "learning_rate": 0.00015744015436514082,
      "loss": 3.842,
      "step": 233450
    },
    {
      "epoch": 0.486375,
      "grad_norm": 0.8024663329124451,
      "learning_rate": 0.00015743030792950843,
      "loss": 3.8253,
      "step": 233460
    },
    {
      "epoch": 0.48639583333333336,
      "grad_norm": 0.9503994584083557,
      "learning_rate": 0.00015742046146178005,
      "loss": 3.8938,
      "step": 233470
    },
    {
      "epoch": 0.48641666666666666,
      "grad_norm": 0.8805785775184631,
      "learning_rate": 0.0001574106149619982,
      "loss": 3.8284,
      "step": 233480
    },
    {
      "epoch": 0.4864375,
      "grad_norm": 0.9034122824668884,
      "learning_rate": 0.00015740076843020543,
      "loss": 3.9863,
      "step": 233490
    },
    {
      "epoch": 0.4864583333333333,
      "grad_norm": 0.8304631114006042,
      "learning_rate": 0.00015739092186644425,
      "loss": 3.9239,
      "step": 233500
    },
    {
      "epoch": 0.4864791666666667,
      "grad_norm": 0.8451032042503357,
      "learning_rate": 0.00015738107527075724,
      "loss": 3.9954,
      "step": 233510
    },
    {
      "epoch": 0.4865,
      "grad_norm": 0.873529851436615,
      "learning_rate": 0.00015737122864318694,
      "loss": 3.7245,
      "step": 233520
    },
    {
      "epoch": 0.48652083333333335,
      "grad_norm": 0.9361620545387268,
      "learning_rate": 0.00015736138198377576,
      "loss": 3.8066,
      "step": 233530
    },
    {
      "epoch": 0.48654166666666665,
      "grad_norm": 1.309098243713379,
      "learning_rate": 0.00015735153529256637,
      "loss": 4.0691,
      "step": 233540
    },
    {
      "epoch": 0.4865625,
      "grad_norm": 0.9089220762252808,
      "learning_rate": 0.0001573416885696013,
      "loss": 3.882,
      "step": 233550
    },
    {
      "epoch": 0.4865833333333333,
      "grad_norm": 0.9936286211013794,
      "learning_rate": 0.00015733184181492297,
      "loss": 3.9144,
      "step": 233560
    },
    {
      "epoch": 0.48660416666666667,
      "grad_norm": 0.839897871017456,
      "learning_rate": 0.00015732199502857403,
      "loss": 3.7388,
      "step": 233570
    },
    {
      "epoch": 0.486625,
      "grad_norm": 0.7638158202171326,
      "learning_rate": 0.00015731214821059695,
      "loss": 3.8355,
      "step": 233580
    },
    {
      "epoch": 0.48664583333333333,
      "grad_norm": 1.0709424018859863,
      "learning_rate": 0.00015730230136103428,
      "loss": 3.9159,
      "step": 233590
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 0.9880415201187134,
      "learning_rate": 0.00015729245447992858,
      "loss": 3.9105,
      "step": 233600
    },
    {
      "epoch": 0.4866875,
      "grad_norm": 0.8821624517440796,
      "learning_rate": 0.00015728260756732234,
      "loss": 4.0012,
      "step": 233610
    },
    {
      "epoch": 0.48670833333333335,
      "grad_norm": 0.8938339352607727,
      "learning_rate": 0.00015727276062325814,
      "loss": 3.8924,
      "step": 233620
    },
    {
      "epoch": 0.48672916666666666,
      "grad_norm": 0.8071177005767822,
      "learning_rate": 0.0001572629136477785,
      "loss": 3.8134,
      "step": 233630
    },
    {
      "epoch": 0.48675,
      "grad_norm": 1.1371831893920898,
      "learning_rate": 0.00015725306664092593,
      "loss": 3.725,
      "step": 233640
    },
    {
      "epoch": 0.4867708333333333,
      "grad_norm": 1.0433306694030762,
      "learning_rate": 0.00015724321960274297,
      "loss": 3.8652,
      "step": 233650
    },
    {
      "epoch": 0.4867916666666667,
      "grad_norm": 0.8794312477111816,
      "learning_rate": 0.00015723337253327217,
      "loss": 4.1533,
      "step": 233660
    },
    {
      "epoch": 0.4868125,
      "grad_norm": 0.9792612195014954,
      "learning_rate": 0.00015722352543255606,
      "loss": 3.8369,
      "step": 233670
    },
    {
      "epoch": 0.48683333333333334,
      "grad_norm": 0.9159274697303772,
      "learning_rate": 0.0001572136783006372,
      "loss": 4.0392,
      "step": 233680
    },
    {
      "epoch": 0.48685416666666664,
      "grad_norm": 0.8257869482040405,
      "learning_rate": 0.00015720383113755816,
      "loss": 3.9191,
      "step": 233690
    },
    {
      "epoch": 0.486875,
      "grad_norm": 0.82762610912323,
      "learning_rate": 0.0001571939839433613,
      "loss": 3.9673,
      "step": 233700
    },
    {
      "epoch": 0.48689583333333336,
      "grad_norm": 0.9430934190750122,
      "learning_rate": 0.00015718413671808934,
      "loss": 3.7337,
      "step": 233710
    },
    {
      "epoch": 0.48691666666666666,
      "grad_norm": 0.9330816864967346,
      "learning_rate": 0.0001571742894617848,
      "loss": 3.9314,
      "step": 233720
    },
    {
      "epoch": 0.4869375,
      "grad_norm": 0.9227555990219116,
      "learning_rate": 0.00015716444217449009,
      "loss": 3.8839,
      "step": 233730
    },
    {
      "epoch": 0.4869583333333333,
      "grad_norm": 1.0325462818145752,
      "learning_rate": 0.00015715459485624787,
      "loss": 3.7365,
      "step": 233740
    },
    {
      "epoch": 0.4869791666666667,
      "grad_norm": 0.8056519627571106,
      "learning_rate": 0.0001571447475071006,
      "loss": 3.8943,
      "step": 233750
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.8889614939689636,
      "learning_rate": 0.00015713490012709088,
      "loss": 3.9389,
      "step": 233760
    },
    {
      "epoch": 0.48702083333333335,
      "grad_norm": 0.8864346742630005,
      "learning_rate": 0.00015712505271626122,
      "loss": 3.9354,
      "step": 233770
    },
    {
      "epoch": 0.48704166666666665,
      "grad_norm": 0.8527998924255371,
      "learning_rate": 0.00015711520527465412,
      "loss": 3.7408,
      "step": 233780
    },
    {
      "epoch": 0.4870625,
      "grad_norm": 0.912950336933136,
      "learning_rate": 0.0001571053578023122,
      "loss": 3.9281,
      "step": 233790
    },
    {
      "epoch": 0.4870833333333333,
      "grad_norm": 0.8954927921295166,
      "learning_rate": 0.00015709551029927788,
      "loss": 3.7437,
      "step": 233800
    },
    {
      "epoch": 0.48710416666666667,
      "grad_norm": 0.8826990127563477,
      "learning_rate": 0.00015708566276559382,
      "loss": 3.8993,
      "step": 233810
    },
    {
      "epoch": 0.487125,
      "grad_norm": 0.8664532899856567,
      "learning_rate": 0.00015707581520130244,
      "loss": 4.063,
      "step": 233820
    },
    {
      "epoch": 0.48714583333333333,
      "grad_norm": 0.893471360206604,
      "learning_rate": 0.00015706596760644637,
      "loss": 3.983,
      "step": 233830
    },
    {
      "epoch": 0.4871666666666667,
      "grad_norm": 0.8613791465759277,
      "learning_rate": 0.00015705611998106814,
      "loss": 3.9862,
      "step": 233840
    },
    {
      "epoch": 0.4871875,
      "grad_norm": 0.8850164413452148,
      "learning_rate": 0.00015704627232521022,
      "loss": 3.8938,
      "step": 233850
    },
    {
      "epoch": 0.48720833333333335,
      "grad_norm": 0.9312855005264282,
      "learning_rate": 0.00015703642463891528,
      "loss": 3.7846,
      "step": 233860
    },
    {
      "epoch": 0.48722916666666666,
      "grad_norm": 0.8412927985191345,
      "learning_rate": 0.00015702657692222567,
      "loss": 3.8602,
      "step": 233870
    },
    {
      "epoch": 0.48725,
      "grad_norm": 1.0011675357818604,
      "learning_rate": 0.00015701672917518413,
      "loss": 3.9944,
      "step": 233880
    },
    {
      "epoch": 0.4872708333333333,
      "grad_norm": 0.8301429152488708,
      "learning_rate": 0.000157006881397833,
      "loss": 3.8581,
      "step": 233890
    },
    {
      "epoch": 0.4872916666666667,
      "grad_norm": 0.8707671165466309,
      "learning_rate": 0.00015699703359021495,
      "loss": 3.8708,
      "step": 233900
    },
    {
      "epoch": 0.4873125,
      "grad_norm": 0.9764902591705322,
      "learning_rate": 0.0001569871857523725,
      "loss": 4.0238,
      "step": 233910
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 0.8762933611869812,
      "learning_rate": 0.00015697733788434817,
      "loss": 3.7774,
      "step": 233920
    },
    {
      "epoch": 0.48735416666666664,
      "grad_norm": 0.8464966416358948,
      "learning_rate": 0.00015696748998618448,
      "loss": 4.1096,
      "step": 233930
    },
    {
      "epoch": 0.487375,
      "grad_norm": 1.0188264846801758,
      "learning_rate": 0.00015695764205792402,
      "loss": 3.9662,
      "step": 233940
    },
    {
      "epoch": 0.4873958333333333,
      "grad_norm": 0.8592548370361328,
      "learning_rate": 0.00015694779409960926,
      "loss": 3.8654,
      "step": 233950
    },
    {
      "epoch": 0.48741666666666666,
      "grad_norm": 0.8243623971939087,
      "learning_rate": 0.00015693794611128283,
      "loss": 3.6344,
      "step": 233960
    },
    {
      "epoch": 0.4874375,
      "grad_norm": 1.1209110021591187,
      "learning_rate": 0.00015692809809298718,
      "loss": 3.6079,
      "step": 233970
    },
    {
      "epoch": 0.4874583333333333,
      "grad_norm": 0.8482072353363037,
      "learning_rate": 0.0001569182500447649,
      "loss": 3.8865,
      "step": 233980
    },
    {
      "epoch": 0.4874791666666667,
      "grad_norm": 0.9564410448074341,
      "learning_rate": 0.00015690840196665854,
      "loss": 3.6875,
      "step": 233990
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.8173916339874268,
      "learning_rate": 0.00015689855385871056,
      "loss": 3.7187,
      "step": 234000
    },
    {
      "epoch": 0.4875,
      "eval_loss": 3.6148619651794434,
      "eval_runtime": 7.2138,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.416,
      "step": 234000
    },
    {
      "epoch": 0.48752083333333335,
      "grad_norm": 0.9409644603729248,
      "learning_rate": 0.00015688870572096362,
      "loss": 3.8935,
      "step": 234010
    },
    {
      "epoch": 0.48754166666666665,
      "grad_norm": 1.0499669313430786,
      "learning_rate": 0.00015687885755346018,
      "loss": 3.8936,
      "step": 234020
    },
    {
      "epoch": 0.4875625,
      "grad_norm": 0.9053490161895752,
      "learning_rate": 0.00015686900935624277,
      "loss": 3.6944,
      "step": 234030
    },
    {
      "epoch": 0.4875833333333333,
      "grad_norm": 0.7666155695915222,
      "learning_rate": 0.00015685916112935397,
      "loss": 3.7915,
      "step": 234040
    },
    {
      "epoch": 0.48760416666666667,
      "grad_norm": 0.8700897097587585,
      "learning_rate": 0.00015684931287283636,
      "loss": 3.8942,
      "step": 234050
    },
    {
      "epoch": 0.487625,
      "grad_norm": 0.8959861397743225,
      "learning_rate": 0.0001568394645867324,
      "loss": 3.995,
      "step": 234060
    },
    {
      "epoch": 0.48764583333333333,
      "grad_norm": 0.8466782569885254,
      "learning_rate": 0.00015682961627108463,
      "loss": 3.9857,
      "step": 234070
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 0.8209018111228943,
      "learning_rate": 0.00015681976792593567,
      "loss": 3.8093,
      "step": 234080
    },
    {
      "epoch": 0.4876875,
      "grad_norm": 1.0583325624465942,
      "learning_rate": 0.00015680991955132798,
      "loss": 3.9727,
      "step": 234090
    },
    {
      "epoch": 0.48770833333333335,
      "grad_norm": 0.9694451093673706,
      "learning_rate": 0.00015680007114730408,
      "loss": 3.8607,
      "step": 234100
    },
    {
      "epoch": 0.48772916666666666,
      "grad_norm": 0.9597485661506653,
      "learning_rate": 0.00015679022271390666,
      "loss": 3.8265,
      "step": 234110
    },
    {
      "epoch": 0.48775,
      "grad_norm": 1.061031699180603,
      "learning_rate": 0.00015678037425117812,
      "loss": 3.7916,
      "step": 234120
    },
    {
      "epoch": 0.4877708333333333,
      "grad_norm": 0.9030508995056152,
      "learning_rate": 0.0001567705257591611,
      "loss": 3.8489,
      "step": 234130
    },
    {
      "epoch": 0.4877916666666667,
      "grad_norm": 1.0485570430755615,
      "learning_rate": 0.00015676067723789801,
      "loss": 3.9369,
      "step": 234140
    },
    {
      "epoch": 0.4878125,
      "grad_norm": 1.042293667793274,
      "learning_rate": 0.0001567508286874315,
      "loss": 3.8489,
      "step": 234150
    },
    {
      "epoch": 0.48783333333333334,
      "grad_norm": 0.8491619229316711,
      "learning_rate": 0.0001567409801078041,
      "loss": 3.8881,
      "step": 234160
    },
    {
      "epoch": 0.48785416666666664,
      "grad_norm": 0.8832877278327942,
      "learning_rate": 0.0001567311314990583,
      "loss": 3.6538,
      "step": 234170
    },
    {
      "epoch": 0.487875,
      "grad_norm": 0.9500457644462585,
      "learning_rate": 0.00015672128286123668,
      "loss": 4.084,
      "step": 234180
    },
    {
      "epoch": 0.4878958333333333,
      "grad_norm": 0.9178987741470337,
      "learning_rate": 0.00015671143419438184,
      "loss": 4.0667,
      "step": 234190
    },
    {
      "epoch": 0.48791666666666667,
      "grad_norm": 0.8408729434013367,
      "learning_rate": 0.00015670158549853619,
      "loss": 3.8688,
      "step": 234200
    },
    {
      "epoch": 0.4879375,
      "grad_norm": 0.855042040348053,
      "learning_rate": 0.00015669173677374234,
      "loss": 3.8737,
      "step": 234210
    },
    {
      "epoch": 0.4879583333333333,
      "grad_norm": 0.8966251015663147,
      "learning_rate": 0.00015668188802004293,
      "loss": 3.7297,
      "step": 234220
    },
    {
      "epoch": 0.4879791666666667,
      "grad_norm": 0.7904793620109558,
      "learning_rate": 0.0001566720392374803,
      "loss": 4.0228,
      "step": 234230
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.9079275727272034,
      "learning_rate": 0.00015666219042609713,
      "loss": 3.7569,
      "step": 234240
    },
    {
      "epoch": 0.48802083333333335,
      "grad_norm": 0.8208426833152771,
      "learning_rate": 0.00015665234158593596,
      "loss": 3.9235,
      "step": 234250
    },
    {
      "epoch": 0.48804166666666665,
      "grad_norm": 0.9297351837158203,
      "learning_rate": 0.0001566424927170393,
      "loss": 3.8122,
      "step": 234260
    },
    {
      "epoch": 0.4880625,
      "grad_norm": 0.7927446365356445,
      "learning_rate": 0.00015663264381944968,
      "loss": 3.7912,
      "step": 234270
    },
    {
      "epoch": 0.4880833333333333,
      "grad_norm": 0.8455085158348083,
      "learning_rate": 0.00015662279489320972,
      "loss": 3.9539,
      "step": 234280
    },
    {
      "epoch": 0.4881041666666667,
      "grad_norm": 0.8671447038650513,
      "learning_rate": 0.00015661294593836183,
      "loss": 4.1003,
      "step": 234290
    },
    {
      "epoch": 0.488125,
      "grad_norm": 0.8568673133850098,
      "learning_rate": 0.00015660309695494866,
      "loss": 3.6345,
      "step": 234300
    },
    {
      "epoch": 0.48814583333333333,
      "grad_norm": 0.9231885075569153,
      "learning_rate": 0.00015659324794301276,
      "loss": 3.9487,
      "step": 234310
    },
    {
      "epoch": 0.4881666666666667,
      "grad_norm": 0.8619940280914307,
      "learning_rate": 0.00015658339890259662,
      "loss": 3.7676,
      "step": 234320
    },
    {
      "epoch": 0.4881875,
      "grad_norm": 0.9954074025154114,
      "learning_rate": 0.0001565735498337428,
      "loss": 3.7021,
      "step": 234330
    },
    {
      "epoch": 0.48820833333333336,
      "grad_norm": 0.8014973998069763,
      "learning_rate": 0.00015656370073649384,
      "loss": 3.7506,
      "step": 234340
    },
    {
      "epoch": 0.48822916666666666,
      "grad_norm": 0.9480705857276917,
      "learning_rate": 0.0001565538516108923,
      "loss": 3.8099,
      "step": 234350
    },
    {
      "epoch": 0.48825,
      "grad_norm": 0.8937760591506958,
      "learning_rate": 0.00015654400245698074,
      "loss": 3.7406,
      "step": 234360
    },
    {
      "epoch": 0.4882708333333333,
      "grad_norm": 0.8831299543380737,
      "learning_rate": 0.0001565341532748016,
      "loss": 3.8963,
      "step": 234370
    },
    {
      "epoch": 0.4882916666666667,
      "grad_norm": 1.1438679695129395,
      "learning_rate": 0.00015652430406439756,
      "loss": 3.9612,
      "step": 234380
    },
    {
      "epoch": 0.4883125,
      "grad_norm": 1.024208903312683,
      "learning_rate": 0.00015651445482581114,
      "loss": 4.0167,
      "step": 234390
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 0.8409115672111511,
      "learning_rate": 0.00015650460555908477,
      "loss": 3.9412,
      "step": 234400
    },
    {
      "epoch": 0.48835416666666664,
      "grad_norm": 0.9560731649398804,
      "learning_rate": 0.00015649475626426112,
      "loss": 3.7418,
      "step": 234410
    },
    {
      "epoch": 0.488375,
      "grad_norm": 0.8694611191749573,
      "learning_rate": 0.00015648490694138273,
      "loss": 3.7109,
      "step": 234420
    },
    {
      "epoch": 0.4883958333333333,
      "grad_norm": 0.8291134834289551,
      "learning_rate": 0.00015647505759049208,
      "loss": 3.8001,
      "step": 234430
    },
    {
      "epoch": 0.48841666666666667,
      "grad_norm": 0.9064696431159973,
      "learning_rate": 0.00015646520821163172,
      "loss": 3.7225,
      "step": 234440
    },
    {
      "epoch": 0.4884375,
      "grad_norm": 1.1027250289916992,
      "learning_rate": 0.00015645535880484424,
      "loss": 3.9787,
      "step": 234450
    },
    {
      "epoch": 0.4884583333333333,
      "grad_norm": 0.8913384079933167,
      "learning_rate": 0.0001564455093701722,
      "loss": 3.8817,
      "step": 234460
    },
    {
      "epoch": 0.4884791666666667,
      "grad_norm": 0.889549970626831,
      "learning_rate": 0.00015643565990765808,
      "loss": 3.8929,
      "step": 234470
    },
    {
      "epoch": 0.4885,
      "grad_norm": 0.8256753087043762,
      "learning_rate": 0.00015642581041734442,
      "loss": 4.1838,
      "step": 234480
    },
    {
      "epoch": 0.48852083333333335,
      "grad_norm": 0.9074521064758301,
      "learning_rate": 0.00015641596089927383,
      "loss": 3.8675,
      "step": 234490
    },
    {
      "epoch": 0.48854166666666665,
      "grad_norm": 0.8433671593666077,
      "learning_rate": 0.00015640611135348884,
      "loss": 3.8979,
      "step": 234500
    },
    {
      "epoch": 0.4885625,
      "grad_norm": 0.8140855431556702,
      "learning_rate": 0.00015639626178003198,
      "loss": 4.1678,
      "step": 234510
    },
    {
      "epoch": 0.4885833333333333,
      "grad_norm": 0.9605634212493896,
      "learning_rate": 0.0001563864121789458,
      "loss": 3.838,
      "step": 234520
    },
    {
      "epoch": 0.4886041666666667,
      "grad_norm": 0.8520451188087463,
      "learning_rate": 0.00015637656255027287,
      "loss": 3.7414,
      "step": 234530
    },
    {
      "epoch": 0.488625,
      "grad_norm": 0.8814478516578674,
      "learning_rate": 0.00015636671289405565,
      "loss": 3.8915,
      "step": 234540
    },
    {
      "epoch": 0.48864583333333333,
      "grad_norm": 0.8446400165557861,
      "learning_rate": 0.0001563568632103368,
      "loss": 3.7724,
      "step": 234550
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 0.9040738940238953,
      "learning_rate": 0.00015634701349915883,
      "loss": 3.8917,
      "step": 234560
    },
    {
      "epoch": 0.4886875,
      "grad_norm": 1.1861146688461304,
      "learning_rate": 0.0001563371637605642,
      "loss": 3.8739,
      "step": 234570
    },
    {
      "epoch": 0.48870833333333336,
      "grad_norm": 0.8576089143753052,
      "learning_rate": 0.0001563273139945956,
      "loss": 4.1447,
      "step": 234580
    },
    {
      "epoch": 0.48872916666666666,
      "grad_norm": 0.8630284667015076,
      "learning_rate": 0.00015631746420129554,
      "loss": 3.8157,
      "step": 234590
    },
    {
      "epoch": 0.48875,
      "grad_norm": 1.0117233991622925,
      "learning_rate": 0.00015630761438070644,
      "loss": 3.9797,
      "step": 234600
    },
    {
      "epoch": 0.4887708333333333,
      "grad_norm": 0.8923172950744629,
      "learning_rate": 0.00015629776453287102,
      "loss": 3.9781,
      "step": 234610
    },
    {
      "epoch": 0.4887916666666667,
      "grad_norm": 0.8986154198646545,
      "learning_rate": 0.00015628791465783172,
      "loss": 3.9788,
      "step": 234620
    },
    {
      "epoch": 0.4888125,
      "grad_norm": 0.861842930316925,
      "learning_rate": 0.0001562780647556311,
      "loss": 3.8176,
      "step": 234630
    },
    {
      "epoch": 0.48883333333333334,
      "grad_norm": 1.0463526248931885,
      "learning_rate": 0.00015626821482631176,
      "loss": 3.8075,
      "step": 234640
    },
    {
      "epoch": 0.48885416666666665,
      "grad_norm": 0.8067215085029602,
      "learning_rate": 0.0001562583648699162,
      "loss": 3.9537,
      "step": 234650
    },
    {
      "epoch": 0.488875,
      "grad_norm": 0.8428946137428284,
      "learning_rate": 0.00015624851488648696,
      "loss": 4.1477,
      "step": 234660
    },
    {
      "epoch": 0.4888958333333333,
      "grad_norm": 0.8423420786857605,
      "learning_rate": 0.00015623866487606661,
      "loss": 3.7162,
      "step": 234670
    },
    {
      "epoch": 0.48891666666666667,
      "grad_norm": 1.0420993566513062,
      "learning_rate": 0.00015622881483869775,
      "loss": 3.7509,
      "step": 234680
    },
    {
      "epoch": 0.4889375,
      "grad_norm": 0.9408420920372009,
      "learning_rate": 0.0001562189647744228,
      "loss": 3.8432,
      "step": 234690
    },
    {
      "epoch": 0.48895833333333333,
      "grad_norm": 1.0485907793045044,
      "learning_rate": 0.00015620911468328444,
      "loss": 3.9412,
      "step": 234700
    },
    {
      "epoch": 0.4889791666666667,
      "grad_norm": 0.810476541519165,
      "learning_rate": 0.00015619926456532515,
      "loss": 3.7462,
      "step": 234710
    },
    {
      "epoch": 0.489,
      "grad_norm": 1.0014249086380005,
      "learning_rate": 0.00015618941442058746,
      "loss": 3.8532,
      "step": 234720
    },
    {
      "epoch": 0.48902083333333335,
      "grad_norm": 0.922584593296051,
      "learning_rate": 0.000156179564249114,
      "loss": 3.8592,
      "step": 234730
    },
    {
      "epoch": 0.48904166666666665,
      "grad_norm": 1.101449728012085,
      "learning_rate": 0.00015616971405094722,
      "loss": 3.8946,
      "step": 234740
    },
    {
      "epoch": 0.4890625,
      "grad_norm": 1.1105685234069824,
      "learning_rate": 0.0001561598638261298,
      "loss": 3.9815,
      "step": 234750
    },
    {
      "epoch": 0.4890833333333333,
      "grad_norm": 1.0148860216140747,
      "learning_rate": 0.00015615001357470413,
      "loss": 3.9081,
      "step": 234760
    },
    {
      "epoch": 0.4891041666666667,
      "grad_norm": 0.8559949994087219,
      "learning_rate": 0.00015614016329671283,
      "loss": 3.8805,
      "step": 234770
    },
    {
      "epoch": 0.489125,
      "grad_norm": 0.8924969434738159,
      "learning_rate": 0.0001561303129921985,
      "loss": 3.9776,
      "step": 234780
    },
    {
      "epoch": 0.48914583333333334,
      "grad_norm": 0.8667247891426086,
      "learning_rate": 0.00015612046266120364,
      "loss": 4.129,
      "step": 234790
    },
    {
      "epoch": 0.4891666666666667,
      "grad_norm": 0.9105842709541321,
      "learning_rate": 0.00015611061230377072,
      "loss": 3.9051,
      "step": 234800
    },
    {
      "epoch": 0.4891875,
      "grad_norm": 1.0437818765640259,
      "learning_rate": 0.00015610076191994248,
      "loss": 3.867,
      "step": 234810
    },
    {
      "epoch": 0.48920833333333336,
      "grad_norm": 0.9435086846351624,
      "learning_rate": 0.0001560909115097613,
      "loss": 3.8746,
      "step": 234820
    },
    {
      "epoch": 0.48922916666666666,
      "grad_norm": 0.9965367317199707,
      "learning_rate": 0.00015608106107326984,
      "loss": 3.9648,
      "step": 234830
    },
    {
      "epoch": 0.48925,
      "grad_norm": 1.520875334739685,
      "learning_rate": 0.00015607121061051056,
      "loss": 4.0877,
      "step": 234840
    },
    {
      "epoch": 0.4892708333333333,
      "grad_norm": 0.8837155699729919,
      "learning_rate": 0.0001560613601215261,
      "loss": 3.9097,
      "step": 234850
    },
    {
      "epoch": 0.4892916666666667,
      "grad_norm": 0.889748752117157,
      "learning_rate": 0.00015605150960635892,
      "loss": 4.0555,
      "step": 234860
    },
    {
      "epoch": 0.4893125,
      "grad_norm": 0.8439770936965942,
      "learning_rate": 0.00015604165906505163,
      "loss": 3.7067,
      "step": 234870
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 0.8322045803070068,
      "learning_rate": 0.00015603180849764676,
      "loss": 3.9334,
      "step": 234880
    },
    {
      "epoch": 0.48935416666666665,
      "grad_norm": 0.8986570835113525,
      "learning_rate": 0.00015602195790418685,
      "loss": 3.9543,
      "step": 234890
    },
    {
      "epoch": 0.489375,
      "grad_norm": 0.8281484842300415,
      "learning_rate": 0.00015601210728471453,
      "loss": 3.9386,
      "step": 234900
    },
    {
      "epoch": 0.4893958333333333,
      "grad_norm": 0.9299630522727966,
      "learning_rate": 0.0001560022566392722,
      "loss": 4.1068,
      "step": 234910
    },
    {
      "epoch": 0.48941666666666667,
      "grad_norm": 0.875494122505188,
      "learning_rate": 0.00015599240596790256,
      "loss": 3.9593,
      "step": 234920
    },
    {
      "epoch": 0.4894375,
      "grad_norm": 0.8622699975967407,
      "learning_rate": 0.0001559825552706481,
      "loss": 3.751,
      "step": 234930
    },
    {
      "epoch": 0.48945833333333333,
      "grad_norm": 0.8334088921546936,
      "learning_rate": 0.0001559727045475513,
      "loss": 3.803,
      "step": 234940
    },
    {
      "epoch": 0.4894791666666667,
      "grad_norm": 0.772956907749176,
      "learning_rate": 0.00015596285379865485,
      "loss": 4.0159,
      "step": 234950
    },
    {
      "epoch": 0.4895,
      "grad_norm": 0.9258227944374084,
      "learning_rate": 0.00015595300302400123,
      "loss": 4.1067,
      "step": 234960
    },
    {
      "epoch": 0.48952083333333335,
      "grad_norm": 0.9546812772750854,
      "learning_rate": 0.00015594315222363292,
      "loss": 3.8897,
      "step": 234970
    },
    {
      "epoch": 0.48954166666666665,
      "grad_norm": 0.9377604722976685,
      "learning_rate": 0.00015593330139759265,
      "loss": 3.8898,
      "step": 234980
    },
    {
      "epoch": 0.4895625,
      "grad_norm": 0.8323310613632202,
      "learning_rate": 0.00015592345054592279,
      "loss": 3.9378,
      "step": 234990
    },
    {
      "epoch": 0.4895833333333333,
      "grad_norm": 0.7643405199050903,
      "learning_rate": 0.00015591359966866602,
      "loss": 3.7443,
      "step": 235000
    },
    {
      "epoch": 0.4895833333333333,
      "eval_loss": 3.6261324882507324,
      "eval_runtime": 7.3105,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 235000
    },
    {
      "epoch": 0.4896041666666667,
      "grad_norm": 0.8557397127151489,
      "learning_rate": 0.0001559037487658648,
      "loss": 3.7689,
      "step": 235010
    },
    {
      "epoch": 0.489625,
      "grad_norm": 0.8309573531150818,
      "learning_rate": 0.00015589389783756172,
      "loss": 3.903,
      "step": 235020
    },
    {
      "epoch": 0.48964583333333334,
      "grad_norm": 0.8295865654945374,
      "learning_rate": 0.00015588404688379935,
      "loss": 3.9103,
      "step": 235030
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 0.8957455158233643,
      "learning_rate": 0.00015587419590462024,
      "loss": 3.7542,
      "step": 235040
    },
    {
      "epoch": 0.4896875,
      "grad_norm": 0.9528622031211853,
      "learning_rate": 0.00015586434490006692,
      "loss": 3.9851,
      "step": 235050
    },
    {
      "epoch": 0.48970833333333336,
      "grad_norm": 1.3609974384307861,
      "learning_rate": 0.00015585449387018195,
      "loss": 3.803,
      "step": 235060
    },
    {
      "epoch": 0.48972916666666666,
      "grad_norm": 0.927510142326355,
      "learning_rate": 0.00015584464281500783,
      "loss": 4.0643,
      "step": 235070
    },
    {
      "epoch": 0.48975,
      "grad_norm": 0.8588899970054626,
      "learning_rate": 0.00015583479173458722,
      "loss": 3.7642,
      "step": 235080
    },
    {
      "epoch": 0.4897708333333333,
      "grad_norm": 1.221910834312439,
      "learning_rate": 0.00015582494062896265,
      "loss": 3.9184,
      "step": 235090
    },
    {
      "epoch": 0.4897916666666667,
      "grad_norm": 1.1626068353652954,
      "learning_rate": 0.0001558150894981766,
      "loss": 3.8201,
      "step": 235100
    },
    {
      "epoch": 0.4898125,
      "grad_norm": 0.8490604162216187,
      "learning_rate": 0.00015580523834227164,
      "loss": 3.7553,
      "step": 235110
    },
    {
      "epoch": 0.48983333333333334,
      "grad_norm": 0.854917049407959,
      "learning_rate": 0.0001557953871612904,
      "loss": 3.8563,
      "step": 235120
    },
    {
      "epoch": 0.48985416666666665,
      "grad_norm": 0.9050095081329346,
      "learning_rate": 0.00015578553595527539,
      "loss": 3.7589,
      "step": 235130
    },
    {
      "epoch": 0.489875,
      "grad_norm": 1.193299412727356,
      "learning_rate": 0.00015577568472426907,
      "loss": 3.7484,
      "step": 235140
    },
    {
      "epoch": 0.4898958333333333,
      "grad_norm": 0.885322093963623,
      "learning_rate": 0.00015576583346831418,
      "loss": 3.9909,
      "step": 235150
    },
    {
      "epoch": 0.48991666666666667,
      "grad_norm": 0.8106944561004639,
      "learning_rate": 0.00015575598218745313,
      "loss": 3.9828,
      "step": 235160
    },
    {
      "epoch": 0.4899375,
      "grad_norm": 0.882380485534668,
      "learning_rate": 0.00015574613088172845,
      "loss": 3.8487,
      "step": 235170
    },
    {
      "epoch": 0.48995833333333333,
      "grad_norm": 0.9029472470283508,
      "learning_rate": 0.00015573627955118286,
      "loss": 3.9494,
      "step": 235180
    },
    {
      "epoch": 0.4899791666666667,
      "grad_norm": 1.0198522806167603,
      "learning_rate": 0.00015572642819585875,
      "loss": 4.0001,
      "step": 235190
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.940914511680603,
      "learning_rate": 0.0001557165768157988,
      "loss": 3.7707,
      "step": 235200
    },
    {
      "epoch": 0.49002083333333335,
      "grad_norm": 0.8608324527740479,
      "learning_rate": 0.00015570672541104542,
      "loss": 3.7425,
      "step": 235210
    },
    {
      "epoch": 0.49004166666666665,
      "grad_norm": 0.8430759310722351,
      "learning_rate": 0.0001556968739816413,
      "loss": 3.8022,
      "step": 235220
    },
    {
      "epoch": 0.4900625,
      "grad_norm": 0.9219532608985901,
      "learning_rate": 0.00015568702252762893,
      "loss": 3.8824,
      "step": 235230
    },
    {
      "epoch": 0.4900833333333333,
      "grad_norm": 0.9810689091682434,
      "learning_rate": 0.00015567717104905085,
      "loss": 3.8836,
      "step": 235240
    },
    {
      "epoch": 0.4901041666666667,
      "grad_norm": 0.8193581700325012,
      "learning_rate": 0.00015566731954594966,
      "loss": 3.7931,
      "step": 235250
    },
    {
      "epoch": 0.490125,
      "grad_norm": 0.8667516112327576,
      "learning_rate": 0.00015565746801836795,
      "loss": 4.0517,
      "step": 235260
    },
    {
      "epoch": 0.49014583333333334,
      "grad_norm": 0.8678337931632996,
      "learning_rate": 0.00015564761646634813,
      "loss": 4.0647,
      "step": 235270
    },
    {
      "epoch": 0.49016666666666664,
      "grad_norm": 0.913664698600769,
      "learning_rate": 0.00015563776488993283,
      "loss": 4.0446,
      "step": 235280
    },
    {
      "epoch": 0.4901875,
      "grad_norm": 1.1445972919464111,
      "learning_rate": 0.0001556279132891647,
      "loss": 3.8661,
      "step": 235290
    },
    {
      "epoch": 0.49020833333333336,
      "grad_norm": 1.0063624382019043,
      "learning_rate": 0.00015561806166408614,
      "loss": 3.9063,
      "step": 235300
    },
    {
      "epoch": 0.49022916666666666,
      "grad_norm": 0.8838799595832825,
      "learning_rate": 0.00015560821001473982,
      "loss": 3.9957,
      "step": 235310
    },
    {
      "epoch": 0.49025,
      "grad_norm": 0.8550242185592651,
      "learning_rate": 0.00015559835834116827,
      "loss": 3.7972,
      "step": 235320
    },
    {
      "epoch": 0.4902708333333333,
      "grad_norm": 0.9321786165237427,
      "learning_rate": 0.00015558850664341398,
      "loss": 3.7883,
      "step": 235330
    },
    {
      "epoch": 0.4902916666666667,
      "grad_norm": 0.8637620210647583,
      "learning_rate": 0.00015557865492151957,
      "loss": 3.8844,
      "step": 235340
    },
    {
      "epoch": 0.4903125,
      "grad_norm": 0.8073611855506897,
      "learning_rate": 0.00015556880317552758,
      "loss": 3.9965,
      "step": 235350
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 0.9492893815040588,
      "learning_rate": 0.00015555895140548055,
      "loss": 3.7434,
      "step": 235360
    },
    {
      "epoch": 0.49035416666666665,
      "grad_norm": 0.9699923992156982,
      "learning_rate": 0.00015554909961142108,
      "loss": 3.7112,
      "step": 235370
    },
    {
      "epoch": 0.490375,
      "grad_norm": 0.9807602763175964,
      "learning_rate": 0.00015553924779339168,
      "loss": 3.9831,
      "step": 235380
    },
    {
      "epoch": 0.4903958333333333,
      "grad_norm": 0.8589543700218201,
      "learning_rate": 0.00015552939595143492,
      "loss": 3.918,
      "step": 235390
    },
    {
      "epoch": 0.49041666666666667,
      "grad_norm": 0.8983103036880493,
      "learning_rate": 0.00015551954408559335,
      "loss": 3.9031,
      "step": 235400
    },
    {
      "epoch": 0.4904375,
      "grad_norm": 0.8318325281143188,
      "learning_rate": 0.00015550969219590955,
      "loss": 3.8476,
      "step": 235410
    },
    {
      "epoch": 0.49045833333333333,
      "grad_norm": 0.9040464758872986,
      "learning_rate": 0.00015549984028242605,
      "loss": 3.8718,
      "step": 235420
    },
    {
      "epoch": 0.4904791666666667,
      "grad_norm": 0.8966294527053833,
      "learning_rate": 0.00015548998834518548,
      "loss": 3.9316,
      "step": 235430
    },
    {
      "epoch": 0.4905,
      "grad_norm": 1.027657151222229,
      "learning_rate": 0.0001554801363842302,
      "loss": 3.7587,
      "step": 235440
    },
    {
      "epoch": 0.49052083333333335,
      "grad_norm": 0.9834473133087158,
      "learning_rate": 0.000155470284399603,
      "loss": 3.8774,
      "step": 235450
    },
    {
      "epoch": 0.49054166666666665,
      "grad_norm": 0.8019407391548157,
      "learning_rate": 0.00015546043239134634,
      "loss": 3.859,
      "step": 235460
    },
    {
      "epoch": 0.4905625,
      "grad_norm": 0.918898344039917,
      "learning_rate": 0.0001554505803595027,
      "loss": 3.9488,
      "step": 235470
    },
    {
      "epoch": 0.4905833333333333,
      "grad_norm": 0.9817371368408203,
      "learning_rate": 0.00015544072830411476,
      "loss": 3.7961,
      "step": 235480
    },
    {
      "epoch": 0.4906041666666667,
      "grad_norm": 0.9217554330825806,
      "learning_rate": 0.00015543087622522508,
      "loss": 3.8934,
      "step": 235490
    },
    {
      "epoch": 0.490625,
      "grad_norm": 1.2251298427581787,
      "learning_rate": 0.0001554210241228761,
      "loss": 3.9168,
      "step": 235500
    },
    {
      "epoch": 0.49064583333333334,
      "grad_norm": 0.8936379551887512,
      "learning_rate": 0.00015541117199711045,
      "loss": 3.9011,
      "step": 235510
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 0.9619986414909363,
      "learning_rate": 0.00015540131984797067,
      "loss": 4.0441,
      "step": 235520
    },
    {
      "epoch": 0.4906875,
      "grad_norm": 0.8384877443313599,
      "learning_rate": 0.00015539146767549932,
      "loss": 3.9124,
      "step": 235530
    },
    {
      "epoch": 0.49070833333333336,
      "grad_norm": 0.8950850963592529,
      "learning_rate": 0.00015538161547973901,
      "loss": 3.9349,
      "step": 235540
    },
    {
      "epoch": 0.49072916666666666,
      "grad_norm": 1.060842514038086,
      "learning_rate": 0.00015537176326073222,
      "loss": 3.7722,
      "step": 235550
    },
    {
      "epoch": 0.49075,
      "grad_norm": 0.8677200078964233,
      "learning_rate": 0.00015536191101852152,
      "loss": 3.7291,
      "step": 235560
    },
    {
      "epoch": 0.4907708333333333,
      "grad_norm": 0.9232839941978455,
      "learning_rate": 0.0001553520587531495,
      "loss": 3.874,
      "step": 235570
    },
    {
      "epoch": 0.4907916666666667,
      "grad_norm": 0.8510029315948486,
      "learning_rate": 0.0001553422064646587,
      "loss": 3.8098,
      "step": 235580
    },
    {
      "epoch": 0.4908125,
      "grad_norm": 0.9350221157073975,
      "learning_rate": 0.0001553323541530917,
      "loss": 4.0186,
      "step": 235590
    },
    {
      "epoch": 0.49083333333333334,
      "grad_norm": 0.9565471410751343,
      "learning_rate": 0.00015532250181849103,
      "loss": 3.9609,
      "step": 235600
    },
    {
      "epoch": 0.49085416666666665,
      "grad_norm": 0.8729179501533508,
      "learning_rate": 0.00015531264946089926,
      "loss": 3.7677,
      "step": 235610
    },
    {
      "epoch": 0.490875,
      "grad_norm": 0.9418562054634094,
      "learning_rate": 0.00015530279708035898,
      "loss": 3.7308,
      "step": 235620
    },
    {
      "epoch": 0.4908958333333333,
      "grad_norm": 0.9178778529167175,
      "learning_rate": 0.00015529294467691272,
      "loss": 3.7943,
      "step": 235630
    },
    {
      "epoch": 0.49091666666666667,
      "grad_norm": 0.9723615050315857,
      "learning_rate": 0.00015528309225060295,
      "loss": 3.9446,
      "step": 235640
    },
    {
      "epoch": 0.4909375,
      "grad_norm": 0.9613999128341675,
      "learning_rate": 0.0001552732398014724,
      "loss": 3.911,
      "step": 235650
    },
    {
      "epoch": 0.49095833333333333,
      "grad_norm": 1.039804458618164,
      "learning_rate": 0.0001552633873295635,
      "loss": 3.669,
      "step": 235660
    },
    {
      "epoch": 0.4909791666666667,
      "grad_norm": 0.8434492945671082,
      "learning_rate": 0.0001552535348349188,
      "loss": 3.8301,
      "step": 235670
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.9857563376426697,
      "learning_rate": 0.000155243682317581,
      "loss": 3.6623,
      "step": 235680
    },
    {
      "epoch": 0.49102083333333335,
      "grad_norm": 0.9541528224945068,
      "learning_rate": 0.00015523382977759254,
      "loss": 4.0503,
      "step": 235690
    },
    {
      "epoch": 0.49104166666666665,
      "grad_norm": 0.9120184183120728,
      "learning_rate": 0.00015522397721499598,
      "loss": 3.8638,
      "step": 235700
    },
    {
      "epoch": 0.4910625,
      "grad_norm": 1.0523792505264282,
      "learning_rate": 0.00015521412462983391,
      "loss": 3.9761,
      "step": 235710
    },
    {
      "epoch": 0.4910833333333333,
      "grad_norm": 2.432677745819092,
      "learning_rate": 0.0001552042720221489,
      "loss": 3.9536,
      "step": 235720
    },
    {
      "epoch": 0.4911041666666667,
      "grad_norm": 0.9063268303871155,
      "learning_rate": 0.0001551944193919835,
      "loss": 3.9996,
      "step": 235730
    },
    {
      "epoch": 0.491125,
      "grad_norm": 0.860907793045044,
      "learning_rate": 0.00015518456673938028,
      "loss": 3.8186,
      "step": 235740
    },
    {
      "epoch": 0.49114583333333334,
      "grad_norm": 0.8383749723434448,
      "learning_rate": 0.00015517471406438176,
      "loss": 3.9345,
      "step": 235750
    },
    {
      "epoch": 0.49116666666666664,
      "grad_norm": 0.8676949739456177,
      "learning_rate": 0.00015516486136703053,
      "loss": 3.9247,
      "step": 235760
    },
    {
      "epoch": 0.4911875,
      "grad_norm": 1.039819598197937,
      "learning_rate": 0.00015515500864736914,
      "loss": 3.9553,
      "step": 235770
    },
    {
      "epoch": 0.49120833333333336,
      "grad_norm": 0.870638370513916,
      "learning_rate": 0.00015514515590544015,
      "loss": 4.017,
      "step": 235780
    },
    {
      "epoch": 0.49122916666666666,
      "grad_norm": 0.8934283256530762,
      "learning_rate": 0.00015513530314128617,
      "loss": 4.1103,
      "step": 235790
    },
    {
      "epoch": 0.49125,
      "grad_norm": 0.8638554215431213,
      "learning_rate": 0.0001551254503549496,
      "loss": 3.8529,
      "step": 235800
    },
    {
      "epoch": 0.4912708333333333,
      "grad_norm": 0.9130828976631165,
      "learning_rate": 0.00015511559754647318,
      "loss": 3.8213,
      "step": 235810
    },
    {
      "epoch": 0.4912916666666667,
      "grad_norm": 0.8719021677970886,
      "learning_rate": 0.00015510574471589946,
      "loss": 4.1673,
      "step": 235820
    },
    {
      "epoch": 0.4913125,
      "grad_norm": 0.950130820274353,
      "learning_rate": 0.0001550958918632709,
      "loss": 3.8559,
      "step": 235830
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 0.9197020530700684,
      "learning_rate": 0.00015508603898863006,
      "loss": 3.8565,
      "step": 235840
    },
    {
      "epoch": 0.49135416666666665,
      "grad_norm": 0.844735860824585,
      "learning_rate": 0.0001550761860920196,
      "loss": 3.7447,
      "step": 235850
    },
    {
      "epoch": 0.491375,
      "grad_norm": 0.8114544749259949,
      "learning_rate": 0.000155066333173482,
      "loss": 3.6467,
      "step": 235860
    },
    {
      "epoch": 0.4913958333333333,
      "grad_norm": 1.0785346031188965,
      "learning_rate": 0.00015505648023305985,
      "loss": 3.8727,
      "step": 235870
    },
    {
      "epoch": 0.49141666666666667,
      "grad_norm": 0.9457012414932251,
      "learning_rate": 0.0001550466272707957,
      "loss": 3.7428,
      "step": 235880
    },
    {
      "epoch": 0.4914375,
      "grad_norm": 0.8988015651702881,
      "learning_rate": 0.00015503677428673214,
      "loss": 3.9408,
      "step": 235890
    },
    {
      "epoch": 0.49145833333333333,
      "grad_norm": 0.88078773021698,
      "learning_rate": 0.00015502692128091167,
      "loss": 3.8624,
      "step": 235900
    },
    {
      "epoch": 0.4914791666666667,
      "grad_norm": 0.8300835490226746,
      "learning_rate": 0.00015501706825337693,
      "loss": 3.9207,
      "step": 235910
    },
    {
      "epoch": 0.4915,
      "grad_norm": 0.9001602530479431,
      "learning_rate": 0.0001550072152041704,
      "loss": 3.896,
      "step": 235920
    },
    {
      "epoch": 0.49152083333333335,
      "grad_norm": 0.936002790927887,
      "learning_rate": 0.00015499736213333477,
      "loss": 3.5393,
      "step": 235930
    },
    {
      "epoch": 0.49154166666666665,
      "grad_norm": 0.8921506404876709,
      "learning_rate": 0.0001549875090409124,
      "loss": 4.0561,
      "step": 235940
    },
    {
      "epoch": 0.4915625,
      "grad_norm": 0.8565137386322021,
      "learning_rate": 0.00015497765592694602,
      "loss": 3.8232,
      "step": 235950
    },
    {
      "epoch": 0.4915833333333333,
      "grad_norm": 0.8580747246742249,
      "learning_rate": 0.00015496780279147815,
      "loss": 3.8581,
      "step": 235960
    },
    {
      "epoch": 0.4916041666666667,
      "grad_norm": 0.8484038710594177,
      "learning_rate": 0.00015495794963455128,
      "loss": 3.8695,
      "step": 235970
    },
    {
      "epoch": 0.491625,
      "grad_norm": 0.9211832284927368,
      "learning_rate": 0.0001549480964562081,
      "loss": 3.8955,
      "step": 235980
    },
    {
      "epoch": 0.49164583333333334,
      "grad_norm": 0.8335648775100708,
      "learning_rate": 0.00015493824325649107,
      "loss": 3.8814,
      "step": 235990
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 0.8901081085205078,
      "learning_rate": 0.0001549283900354428,
      "loss": 3.8012,
      "step": 236000
    },
    {
      "epoch": 0.49166666666666664,
      "eval_loss": 3.627912998199463,
      "eval_runtime": 7.2582,
      "eval_samples_per_second": 1.378,
      "eval_steps_per_second": 0.413,
      "step": 236000
    },
    {
      "epoch": 0.4916875,
      "grad_norm": 0.8344410061836243,
      "learning_rate": 0.0001549185367931058,
      "loss": 4.1642,
      "step": 236010
    },
    {
      "epoch": 0.49170833333333336,
      "grad_norm": 0.9123812317848206,
      "learning_rate": 0.0001549086835295227,
      "loss": 3.7982,
      "step": 236020
    },
    {
      "epoch": 0.49172916666666666,
      "grad_norm": 0.8688663244247437,
      "learning_rate": 0.00015489883024473602,
      "loss": 3.7944,
      "step": 236030
    },
    {
      "epoch": 0.49175,
      "grad_norm": 1.0119295120239258,
      "learning_rate": 0.0001548889769387883,
      "loss": 3.99,
      "step": 236040
    },
    {
      "epoch": 0.4917708333333333,
      "grad_norm": 1.013773798942566,
      "learning_rate": 0.0001548791236117222,
      "loss": 3.8159,
      "step": 236050
    },
    {
      "epoch": 0.4917916666666667,
      "grad_norm": 0.8739367723464966,
      "learning_rate": 0.0001548692702635802,
      "loss": 3.9946,
      "step": 236060
    },
    {
      "epoch": 0.4918125,
      "grad_norm": 0.8606488704681396,
      "learning_rate": 0.00015485941689440485,
      "loss": 3.9393,
      "step": 236070
    },
    {
      "epoch": 0.49183333333333334,
      "grad_norm": 0.8148131370544434,
      "learning_rate": 0.00015484956350423875,
      "loss": 3.8628,
      "step": 236080
    },
    {
      "epoch": 0.49185416666666665,
      "grad_norm": 0.854705274105072,
      "learning_rate": 0.00015483971009312448,
      "loss": 3.6724,
      "step": 236090
    },
    {
      "epoch": 0.491875,
      "grad_norm": 1.0366984605789185,
      "learning_rate": 0.00015482985666110457,
      "loss": 3.9991,
      "step": 236100
    },
    {
      "epoch": 0.4918958333333333,
      "grad_norm": 0.9223212003707886,
      "learning_rate": 0.00015482000320822157,
      "loss": 3.9079,
      "step": 236110
    },
    {
      "epoch": 0.49191666666666667,
      "grad_norm": 0.8546349406242371,
      "learning_rate": 0.00015481014973451807,
      "loss": 4.0446,
      "step": 236120
    },
    {
      "epoch": 0.4919375,
      "grad_norm": 0.9221355319023132,
      "learning_rate": 0.00015480029624003665,
      "loss": 3.8677,
      "step": 236130
    },
    {
      "epoch": 0.49195833333333333,
      "grad_norm": 0.8788762092590332,
      "learning_rate": 0.0001547904427248198,
      "loss": 3.8649,
      "step": 236140
    },
    {
      "epoch": 0.4919791666666667,
      "grad_norm": 0.8385354280471802,
      "learning_rate": 0.00015478058918891018,
      "loss": 3.9004,
      "step": 236150
    },
    {
      "epoch": 0.492,
      "grad_norm": 2.111359119415283,
      "learning_rate": 0.00015477073563235032,
      "loss": 4.0304,
      "step": 236160
    },
    {
      "epoch": 0.49202083333333335,
      "grad_norm": 0.9663451313972473,
      "learning_rate": 0.00015476088205518273,
      "loss": 3.7693,
      "step": 236170
    },
    {
      "epoch": 0.49204166666666665,
      "grad_norm": 0.8980278968811035,
      "learning_rate": 0.00015475102845745,
      "loss": 3.8721,
      "step": 236180
    },
    {
      "epoch": 0.4920625,
      "grad_norm": 0.9411393404006958,
      "learning_rate": 0.00015474117483919479,
      "loss": 3.8145,
      "step": 236190
    },
    {
      "epoch": 0.4920833333333333,
      "grad_norm": 0.9879410266876221,
      "learning_rate": 0.0001547313212004595,
      "loss": 3.8859,
      "step": 236200
    },
    {
      "epoch": 0.4921041666666667,
      "grad_norm": 0.957031786441803,
      "learning_rate": 0.0001547214675412868,
      "loss": 4.0214,
      "step": 236210
    },
    {
      "epoch": 0.492125,
      "grad_norm": 0.8861714601516724,
      "learning_rate": 0.00015471161386171922,
      "loss": 3.828,
      "step": 236220
    },
    {
      "epoch": 0.49214583333333334,
      "grad_norm": 0.9856175184249878,
      "learning_rate": 0.00015470176016179937,
      "loss": 3.7366,
      "step": 236230
    },
    {
      "epoch": 0.49216666666666664,
      "grad_norm": 1.0381560325622559,
      "learning_rate": 0.00015469190644156974,
      "loss": 3.8364,
      "step": 236240
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 0.8659996390342712,
      "learning_rate": 0.00015468205270107295,
      "loss": 3.8525,
      "step": 236250
    },
    {
      "epoch": 0.49220833333333336,
      "grad_norm": 0.9084771871566772,
      "learning_rate": 0.00015467219894035154,
      "loss": 3.9401,
      "step": 236260
    },
    {
      "epoch": 0.49222916666666666,
      "grad_norm": 0.8541470170021057,
      "learning_rate": 0.00015466234515944808,
      "loss": 3.9518,
      "step": 236270
    },
    {
      "epoch": 0.49225,
      "grad_norm": 0.8685389757156372,
      "learning_rate": 0.0001546524913584051,
      "loss": 4.0181,
      "step": 236280
    },
    {
      "epoch": 0.4922708333333333,
      "grad_norm": 0.868833065032959,
      "learning_rate": 0.00015464263753726528,
      "loss": 3.9592,
      "step": 236290
    },
    {
      "epoch": 0.4922916666666667,
      "grad_norm": 0.8965771794319153,
      "learning_rate": 0.00015463278369607107,
      "loss": 4.1844,
      "step": 236300
    },
    {
      "epoch": 0.4923125,
      "grad_norm": 0.9891385436058044,
      "learning_rate": 0.00015462292983486504,
      "loss": 3.7952,
      "step": 236310
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 0.8721014261245728,
      "learning_rate": 0.00015461307595368977,
      "loss": 3.7714,
      "step": 236320
    },
    {
      "epoch": 0.49235416666666665,
      "grad_norm": 1.0155044794082642,
      "learning_rate": 0.0001546032220525879,
      "loss": 3.8257,
      "step": 236330
    },
    {
      "epoch": 0.492375,
      "grad_norm": 0.8517971634864807,
      "learning_rate": 0.00015459336813160188,
      "loss": 3.9378,
      "step": 236340
    },
    {
      "epoch": 0.4923958333333333,
      "grad_norm": 0.8825151324272156,
      "learning_rate": 0.00015458351419077432,
      "loss": 3.9047,
      "step": 236350
    },
    {
      "epoch": 0.49241666666666667,
      "grad_norm": 0.942805826663971,
      "learning_rate": 0.00015457366023014787,
      "loss": 3.6473,
      "step": 236360
    },
    {
      "epoch": 0.4924375,
      "grad_norm": 0.9395557045936584,
      "learning_rate": 0.00015456380624976495,
      "loss": 3.9133,
      "step": 236370
    },
    {
      "epoch": 0.49245833333333333,
      "grad_norm": 0.9466243982315063,
      "learning_rate": 0.00015455395224966823,
      "loss": 3.919,
      "step": 236380
    },
    {
      "epoch": 0.4924791666666667,
      "grad_norm": 0.9509579539299011,
      "learning_rate": 0.00015454409822990018,
      "loss": 3.8388,
      "step": 236390
    },
    {
      "epoch": 0.4925,
      "grad_norm": 0.8351894021034241,
      "learning_rate": 0.00015453424419050347,
      "loss": 4.0292,
      "step": 236400
    },
    {
      "epoch": 0.49252083333333335,
      "grad_norm": 0.845639169216156,
      "learning_rate": 0.00015452439013152064,
      "loss": 3.9812,
      "step": 236410
    },
    {
      "epoch": 0.49254166666666666,
      "grad_norm": 0.8760706782341003,
      "learning_rate": 0.00015451453605299417,
      "loss": 3.9855,
      "step": 236420
    },
    {
      "epoch": 0.4925625,
      "grad_norm": 0.7950958013534546,
      "learning_rate": 0.00015450468195496675,
      "loss": 3.8938,
      "step": 236430
    },
    {
      "epoch": 0.4925833333333333,
      "grad_norm": 0.9010915756225586,
      "learning_rate": 0.00015449482783748086,
      "loss": 3.8195,
      "step": 236440
    },
    {
      "epoch": 0.4926041666666667,
      "grad_norm": 0.929701030254364,
      "learning_rate": 0.00015448497370057913,
      "loss": 3.9325,
      "step": 236450
    },
    {
      "epoch": 0.492625,
      "grad_norm": 0.9391468167304993,
      "learning_rate": 0.000154475119544304,
      "loss": 3.8648,
      "step": 236460
    },
    {
      "epoch": 0.49264583333333334,
      "grad_norm": 0.8514968156814575,
      "learning_rate": 0.0001544652653686982,
      "loss": 4.0463,
      "step": 236470
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 0.8846484422683716,
      "learning_rate": 0.0001544554111738042,
      "loss": 3.8887,
      "step": 236480
    },
    {
      "epoch": 0.4926875,
      "grad_norm": 0.8555033206939697,
      "learning_rate": 0.00015444555695966463,
      "loss": 3.6582,
      "step": 236490
    },
    {
      "epoch": 0.49270833333333336,
      "grad_norm": 0.9110787510871887,
      "learning_rate": 0.000154435702726322,
      "loss": 3.7661,
      "step": 236500
    },
    {
      "epoch": 0.49272916666666666,
      "grad_norm": 0.9038282036781311,
      "learning_rate": 0.0001544258484738188,
      "loss": 3.7754,
      "step": 236510
    },
    {
      "epoch": 0.49275,
      "grad_norm": 1.0567747354507446,
      "learning_rate": 0.00015441599420219781,
      "loss": 3.7682,
      "step": 236520
    },
    {
      "epoch": 0.4927708333333333,
      "grad_norm": 0.9924034476280212,
      "learning_rate": 0.00015440613991150138,
      "loss": 3.9877,
      "step": 236530
    },
    {
      "epoch": 0.4927916666666667,
      "grad_norm": 0.9420830011367798,
      "learning_rate": 0.00015439628560177222,
      "loss": 3.8112,
      "step": 236540
    },
    {
      "epoch": 0.4928125,
      "grad_norm": 1.1075799465179443,
      "learning_rate": 0.00015438643127305284,
      "loss": 3.6959,
      "step": 236550
    },
    {
      "epoch": 0.49283333333333335,
      "grad_norm": 0.8432935476303101,
      "learning_rate": 0.00015437657692538582,
      "loss": 3.9021,
      "step": 236560
    },
    {
      "epoch": 0.49285416666666665,
      "grad_norm": 0.8709767460823059,
      "learning_rate": 0.0001543667225588137,
      "loss": 3.9649,
      "step": 236570
    },
    {
      "epoch": 0.492875,
      "grad_norm": 3.2972686290740967,
      "learning_rate": 0.00015435686817337908,
      "loss": 3.9828,
      "step": 236580
    },
    {
      "epoch": 0.4928958333333333,
      "grad_norm": 1.0420608520507812,
      "learning_rate": 0.00015434701376912445,
      "loss": 3.7063,
      "step": 236590
    },
    {
      "epoch": 0.49291666666666667,
      "grad_norm": 0.9341806769371033,
      "learning_rate": 0.0001543371593460925,
      "loss": 3.8191,
      "step": 236600
    },
    {
      "epoch": 0.4929375,
      "grad_norm": 0.8548449873924255,
      "learning_rate": 0.00015432730490432575,
      "loss": 4.0098,
      "step": 236610
    },
    {
      "epoch": 0.49295833333333333,
      "grad_norm": 1.0093897581100464,
      "learning_rate": 0.00015431745044386673,
      "loss": 4.066,
      "step": 236620
    },
    {
      "epoch": 0.4929791666666667,
      "grad_norm": 0.8819364309310913,
      "learning_rate": 0.00015430759596475808,
      "loss": 3.7664,
      "step": 236630
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.8714063167572021,
      "learning_rate": 0.00015429774146704227,
      "loss": 3.7407,
      "step": 236640
    },
    {
      "epoch": 0.49302083333333335,
      "grad_norm": 1.0416967868804932,
      "learning_rate": 0.00015428788695076194,
      "loss": 3.7114,
      "step": 236650
    },
    {
      "epoch": 0.49304166666666666,
      "grad_norm": 0.8465144634246826,
      "learning_rate": 0.00015427803241595966,
      "loss": 3.6817,
      "step": 236660
    },
    {
      "epoch": 0.4930625,
      "grad_norm": 1.0205073356628418,
      "learning_rate": 0.0001542681778626779,
      "loss": 3.9082,
      "step": 236670
    },
    {
      "epoch": 0.4930833333333333,
      "grad_norm": 0.8301447629928589,
      "learning_rate": 0.00015425832329095935,
      "loss": 4.0138,
      "step": 236680
    },
    {
      "epoch": 0.4931041666666667,
      "grad_norm": 0.84393310546875,
      "learning_rate": 0.00015424846870084653,
      "loss": 3.9283,
      "step": 236690
    },
    {
      "epoch": 0.493125,
      "grad_norm": 0.9822965264320374,
      "learning_rate": 0.000154238614092382,
      "loss": 3.9239,
      "step": 236700
    },
    {
      "epoch": 0.49314583333333334,
      "grad_norm": 0.8438161015510559,
      "learning_rate": 0.0001542287594656083,
      "loss": 3.8504,
      "step": 236710
    },
    {
      "epoch": 0.49316666666666664,
      "grad_norm": 0.8346493244171143,
      "learning_rate": 0.0001542189048205681,
      "loss": 3.9239,
      "step": 236720
    },
    {
      "epoch": 0.4931875,
      "grad_norm": 0.8443401455879211,
      "learning_rate": 0.00015420905015730386,
      "loss": 3.7932,
      "step": 236730
    },
    {
      "epoch": 0.49320833333333336,
      "grad_norm": 0.8849102258682251,
      "learning_rate": 0.00015419919547585815,
      "loss": 3.9578,
      "step": 236740
    },
    {
      "epoch": 0.49322916666666666,
      "grad_norm": 0.8682563900947571,
      "learning_rate": 0.00015418934077627368,
      "loss": 3.8973,
      "step": 236750
    },
    {
      "epoch": 0.49325,
      "grad_norm": 1.004725694656372,
      "learning_rate": 0.00015417948605859287,
      "loss": 3.8563,
      "step": 236760
    },
    {
      "epoch": 0.4932708333333333,
      "grad_norm": 0.8673213124275208,
      "learning_rate": 0.0001541696313228583,
      "loss": 3.9172,
      "step": 236770
    },
    {
      "epoch": 0.4932916666666667,
      "grad_norm": 0.8901605010032654,
      "learning_rate": 0.0001541597765691126,
      "loss": 4.1537,
      "step": 236780
    },
    {
      "epoch": 0.4933125,
      "grad_norm": 0.8394860625267029,
      "learning_rate": 0.0001541499217973983,
      "loss": 3.7306,
      "step": 236790
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 1.04704749584198,
      "learning_rate": 0.000154140067007758,
      "loss": 3.9953,
      "step": 236800
    },
    {
      "epoch": 0.49335416666666665,
      "grad_norm": 0.8587770462036133,
      "learning_rate": 0.00015413021220023426,
      "loss": 4.1926,
      "step": 236810
    },
    {
      "epoch": 0.493375,
      "grad_norm": 0.8969473242759705,
      "learning_rate": 0.0001541203573748696,
      "loss": 4.0207,
      "step": 236820
    },
    {
      "epoch": 0.4933958333333333,
      "grad_norm": 0.8493050336837769,
      "learning_rate": 0.00015411050253170668,
      "loss": 3.999,
      "step": 236830
    },
    {
      "epoch": 0.49341666666666667,
      "grad_norm": 0.8124945759773254,
      "learning_rate": 0.00015410064767078794,
      "loss": 3.8685,
      "step": 236840
    },
    {
      "epoch": 0.4934375,
      "grad_norm": 0.8838496804237366,
      "learning_rate": 0.00015409079279215607,
      "loss": 3.9052,
      "step": 236850
    },
    {
      "epoch": 0.49345833333333333,
      "grad_norm": 0.8825736045837402,
      "learning_rate": 0.0001540809378958536,
      "loss": 3.8686,
      "step": 236860
    },
    {
      "epoch": 0.4934791666666667,
      "grad_norm": 0.9367557168006897,
      "learning_rate": 0.0001540710829819231,
      "loss": 3.9159,
      "step": 236870
    },
    {
      "epoch": 0.4935,
      "grad_norm": 0.8121581673622131,
      "learning_rate": 0.00015406122805040708,
      "loss": 3.8875,
      "step": 236880
    },
    {
      "epoch": 0.49352083333333335,
      "grad_norm": 0.9695727825164795,
      "learning_rate": 0.00015405137310134823,
      "loss": 3.9629,
      "step": 236890
    },
    {
      "epoch": 0.49354166666666666,
      "grad_norm": 0.7794772982597351,
      "learning_rate": 0.00015404151813478903,
      "loss": 3.7927,
      "step": 236900
    },
    {
      "epoch": 0.4935625,
      "grad_norm": 1.0492033958435059,
      "learning_rate": 0.000154031663150772,
      "loss": 3.9739,
      "step": 236910
    },
    {
      "epoch": 0.4935833333333333,
      "grad_norm": 0.9118766784667969,
      "learning_rate": 0.0001540218081493399,
      "loss": 3.9298,
      "step": 236920
    },
    {
      "epoch": 0.4936041666666667,
      "grad_norm": 1.2268283367156982,
      "learning_rate": 0.00015401195313053512,
      "loss": 3.8769,
      "step": 236930
    },
    {
      "epoch": 0.493625,
      "grad_norm": 0.8689376711845398,
      "learning_rate": 0.00015400209809440029,
      "loss": 3.8111,
      "step": 236940
    },
    {
      "epoch": 0.49364583333333334,
      "grad_norm": 0.9726264476776123,
      "learning_rate": 0.00015399224304097798,
      "loss": 3.7265,
      "step": 236950
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 0.9290654063224792,
      "learning_rate": 0.00015398238797031076,
      "loss": 3.9102,
      "step": 236960
    },
    {
      "epoch": 0.4936875,
      "grad_norm": 0.9047762155532837,
      "learning_rate": 0.0001539725328824412,
      "loss": 3.8105,
      "step": 236970
    },
    {
      "epoch": 0.49370833333333336,
      "grad_norm": 0.9319313764572144,
      "learning_rate": 0.0001539626777774119,
      "loss": 3.8933,
      "step": 236980
    },
    {
      "epoch": 0.49372916666666666,
      "grad_norm": 0.8356322646141052,
      "learning_rate": 0.00015395282265526537,
      "loss": 3.8071,
      "step": 236990
    },
    {
      "epoch": 0.49375,
      "grad_norm": 0.8703721761703491,
      "learning_rate": 0.00015394296751604423,
      "loss": 3.8198,
      "step": 237000
    },
    {
      "epoch": 0.49375,
      "eval_loss": 3.630176544189453,
      "eval_runtime": 7.2822,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 237000
    },
    {
      "epoch": 0.4937708333333333,
      "grad_norm": 0.9593709707260132,
      "learning_rate": 0.00015393311235979102,
      "loss": 4.0111,
      "step": 237010
    },
    {
      "epoch": 0.4937916666666667,
      "grad_norm": 0.913611888885498,
      "learning_rate": 0.0001539232571865483,
      "loss": 3.8068,
      "step": 237020
    },
    {
      "epoch": 0.4938125,
      "grad_norm": 1.0855343341827393,
      "learning_rate": 0.00015391340199635872,
      "loss": 3.9439,
      "step": 237030
    },
    {
      "epoch": 0.49383333333333335,
      "grad_norm": 0.9464148283004761,
      "learning_rate": 0.0001539035467892647,
      "loss": 3.9559,
      "step": 237040
    },
    {
      "epoch": 0.49385416666666665,
      "grad_norm": 0.9095651507377625,
      "learning_rate": 0.00015389369156530895,
      "loss": 3.8806,
      "step": 237050
    },
    {
      "epoch": 0.493875,
      "grad_norm": 0.8873037099838257,
      "learning_rate": 0.00015388383632453404,
      "loss": 3.8654,
      "step": 237060
    },
    {
      "epoch": 0.4938958333333333,
      "grad_norm": 0.9703225493431091,
      "learning_rate": 0.00015387398106698246,
      "loss": 3.8699,
      "step": 237070
    },
    {
      "epoch": 0.49391666666666667,
      "grad_norm": 0.9225171804428101,
      "learning_rate": 0.0001538641257926968,
      "loss": 3.8401,
      "step": 237080
    },
    {
      "epoch": 0.4939375,
      "grad_norm": 0.8316484689712524,
      "learning_rate": 0.0001538542705017197,
      "loss": 3.8306,
      "step": 237090
    },
    {
      "epoch": 0.49395833333333333,
      "grad_norm": 0.833528459072113,
      "learning_rate": 0.00015384441519409358,
      "loss": 3.7604,
      "step": 237100
    },
    {
      "epoch": 0.4939791666666667,
      "grad_norm": 0.9213027358055115,
      "learning_rate": 0.00015383455986986118,
      "loss": 3.7755,
      "step": 237110
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.9610370993614197,
      "learning_rate": 0.00015382470452906497,
      "loss": 3.7172,
      "step": 237120
    },
    {
      "epoch": 0.49402083333333335,
      "grad_norm": 0.8759013414382935,
      "learning_rate": 0.00015381484917174757,
      "loss": 3.9449,
      "step": 237130
    },
    {
      "epoch": 0.49404166666666666,
      "grad_norm": 1.0102823972702026,
      "learning_rate": 0.00015380499379795152,
      "loss": 3.8867,
      "step": 237140
    },
    {
      "epoch": 0.4940625,
      "grad_norm": 0.825218915939331,
      "learning_rate": 0.00015379513840771942,
      "loss": 4.0554,
      "step": 237150
    },
    {
      "epoch": 0.4940833333333333,
      "grad_norm": 0.8909335732460022,
      "learning_rate": 0.00015378528300109378,
      "loss": 3.8394,
      "step": 237160
    },
    {
      "epoch": 0.4941041666666667,
      "grad_norm": 0.8181962966918945,
      "learning_rate": 0.00015377542757811724,
      "loss": 4.0774,
      "step": 237170
    },
    {
      "epoch": 0.494125,
      "grad_norm": 0.9661341905593872,
      "learning_rate": 0.0001537655721388324,
      "loss": 3.5576,
      "step": 237180
    },
    {
      "epoch": 0.49414583333333334,
      "grad_norm": 0.8572436571121216,
      "learning_rate": 0.0001537557166832817,
      "loss": 4.0147,
      "step": 237190
    },
    {
      "epoch": 0.49416666666666664,
      "grad_norm": 0.9341261982917786,
      "learning_rate": 0.00015374586121150784,
      "loss": 3.885,
      "step": 237200
    },
    {
      "epoch": 0.4941875,
      "grad_norm": 0.8439896106719971,
      "learning_rate": 0.00015373600572355332,
      "loss": 3.914,
      "step": 237210
    },
    {
      "epoch": 0.49420833333333336,
      "grad_norm": 0.8487520813941956,
      "learning_rate": 0.00015372615021946073,
      "loss": 3.8846,
      "step": 237220
    },
    {
      "epoch": 0.49422916666666666,
      "grad_norm": 0.8899827599525452,
      "learning_rate": 0.0001537162946992727,
      "loss": 4.0661,
      "step": 237230
    },
    {
      "epoch": 0.49425,
      "grad_norm": 0.9764404296875,
      "learning_rate": 0.00015370643916303166,
      "loss": 4.0614,
      "step": 237240
    },
    {
      "epoch": 0.4942708333333333,
      "grad_norm": 0.881837010383606,
      "learning_rate": 0.00015369658361078035,
      "loss": 3.9657,
      "step": 237250
    },
    {
      "epoch": 0.4942916666666667,
      "grad_norm": 0.8495787978172302,
      "learning_rate": 0.00015368672804256123,
      "loss": 3.9553,
      "step": 237260
    },
    {
      "epoch": 0.4943125,
      "grad_norm": 0.9103016257286072,
      "learning_rate": 0.00015367687245841687,
      "loss": 3.8223,
      "step": 237270
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 0.9514723420143127,
      "learning_rate": 0.00015366701685838992,
      "loss": 3.8781,
      "step": 237280
    },
    {
      "epoch": 0.49435416666666665,
      "grad_norm": 0.8655747771263123,
      "learning_rate": 0.0001536571612425229,
      "loss": 3.8433,
      "step": 237290
    },
    {
      "epoch": 0.494375,
      "grad_norm": 1.2239128351211548,
      "learning_rate": 0.00015364730561085837,
      "loss": 3.8243,
      "step": 237300
    },
    {
      "epoch": 0.4943958333333333,
      "grad_norm": 0.8963696956634521,
      "learning_rate": 0.00015363744996343894,
      "loss": 3.9108,
      "step": 237310
    },
    {
      "epoch": 0.49441666666666667,
      "grad_norm": 0.8325899243354797,
      "learning_rate": 0.00015362759430030717,
      "loss": 3.8954,
      "step": 237320
    },
    {
      "epoch": 0.4944375,
      "grad_norm": 0.9540948867797852,
      "learning_rate": 0.00015361773862150564,
      "loss": 3.7988,
      "step": 237330
    },
    {
      "epoch": 0.49445833333333333,
      "grad_norm": 0.8278703093528748,
      "learning_rate": 0.00015360788292707688,
      "loss": 3.6472,
      "step": 237340
    },
    {
      "epoch": 0.4944791666666667,
      "grad_norm": 0.8662319779396057,
      "learning_rate": 0.00015359802721706353,
      "loss": 3.886,
      "step": 237350
    },
    {
      "epoch": 0.4945,
      "grad_norm": 0.8647733330726624,
      "learning_rate": 0.00015358817149150808,
      "loss": 3.8749,
      "step": 237360
    },
    {
      "epoch": 0.49452083333333335,
      "grad_norm": 0.9136451482772827,
      "learning_rate": 0.0001535783157504532,
      "loss": 4.0376,
      "step": 237370
    },
    {
      "epoch": 0.49454166666666666,
      "grad_norm": 0.8506736755371094,
      "learning_rate": 0.00015356845999394135,
      "loss": 3.9168,
      "step": 237380
    },
    {
      "epoch": 0.4945625,
      "grad_norm": 0.8938138484954834,
      "learning_rate": 0.0001535586042220152,
      "loss": 3.8276,
      "step": 237390
    },
    {
      "epoch": 0.4945833333333333,
      "grad_norm": 0.9580493569374084,
      "learning_rate": 0.00015354874843471732,
      "loss": 3.9011,
      "step": 237400
    },
    {
      "epoch": 0.4946041666666667,
      "grad_norm": 0.9653752446174622,
      "learning_rate": 0.0001535388926320902,
      "loss": 3.714,
      "step": 237410
    },
    {
      "epoch": 0.494625,
      "grad_norm": 0.8996343612670898,
      "learning_rate": 0.0001535290368141765,
      "loss": 3.8704,
      "step": 237420
    },
    {
      "epoch": 0.49464583333333334,
      "grad_norm": 0.9612217545509338,
      "learning_rate": 0.00015351918098101876,
      "loss": 4.0588,
      "step": 237430
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 0.9210160374641418,
      "learning_rate": 0.00015350932513265953,
      "loss": 4.0425,
      "step": 237440
    },
    {
      "epoch": 0.4946875,
      "grad_norm": 0.9725587964057922,
      "learning_rate": 0.0001534994692691414,
      "loss": 3.7968,
      "step": 237450
    },
    {
      "epoch": 0.49470833333333336,
      "grad_norm": 1.0561076402664185,
      "learning_rate": 0.00015348961339050696,
      "loss": 4.1469,
      "step": 237460
    },
    {
      "epoch": 0.49472916666666666,
      "grad_norm": 0.8179845213890076,
      "learning_rate": 0.00015347975749679878,
      "loss": 3.647,
      "step": 237470
    },
    {
      "epoch": 0.49475,
      "grad_norm": 0.9107604026794434,
      "learning_rate": 0.0001534699015880594,
      "loss": 3.8076,
      "step": 237480
    },
    {
      "epoch": 0.4947708333333333,
      "grad_norm": 0.8700365424156189,
      "learning_rate": 0.00015346004566433143,
      "loss": 3.8324,
      "step": 237490
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 0.8177156448364258,
      "learning_rate": 0.00015345018972565743,
      "loss": 3.9882,
      "step": 237500
    },
    {
      "epoch": 0.4948125,
      "grad_norm": 0.9423006772994995,
      "learning_rate": 0.00015344033377207998,
      "loss": 3.8689,
      "step": 237510
    },
    {
      "epoch": 0.49483333333333335,
      "grad_norm": 0.9688202142715454,
      "learning_rate": 0.00015343047780364165,
      "loss": 3.8964,
      "step": 237520
    },
    {
      "epoch": 0.49485416666666665,
      "grad_norm": 0.9359751343727112,
      "learning_rate": 0.00015342062182038504,
      "loss": 3.8196,
      "step": 237530
    },
    {
      "epoch": 0.494875,
      "grad_norm": 0.8446761965751648,
      "learning_rate": 0.00015341076582235265,
      "loss": 4.1004,
      "step": 237540
    },
    {
      "epoch": 0.4948958333333333,
      "grad_norm": 1.1139867305755615,
      "learning_rate": 0.0001534009098095871,
      "loss": 3.8839,
      "step": 237550
    },
    {
      "epoch": 0.49491666666666667,
      "grad_norm": 0.889653742313385,
      "learning_rate": 0.00015339105378213105,
      "loss": 3.8344,
      "step": 237560
    },
    {
      "epoch": 0.4949375,
      "grad_norm": 0.7999017834663391,
      "learning_rate": 0.00015338119774002695,
      "loss": 3.7492,
      "step": 237570
    },
    {
      "epoch": 0.49495833333333333,
      "grad_norm": 0.9560328125953674,
      "learning_rate": 0.00015337134168331732,
      "loss": 3.9996,
      "step": 237580
    },
    {
      "epoch": 0.4949791666666667,
      "grad_norm": 0.7617479562759399,
      "learning_rate": 0.00015336148561204496,
      "loss": 3.8694,
      "step": 237590
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.9490554928779602,
      "learning_rate": 0.00015335162952625226,
      "loss": 3.6799,
      "step": 237600
    },
    {
      "epoch": 0.49502083333333335,
      "grad_norm": 0.8453057408332825,
      "learning_rate": 0.0001533417734259818,
      "loss": 3.8569,
      "step": 237610
    },
    {
      "epoch": 0.49504166666666666,
      "grad_norm": 0.9499636292457581,
      "learning_rate": 0.00015333191731127627,
      "loss": 4.0792,
      "step": 237620
    },
    {
      "epoch": 0.4950625,
      "grad_norm": 0.8446236252784729,
      "learning_rate": 0.00015332206118217815,
      "loss": 3.9006,
      "step": 237630
    },
    {
      "epoch": 0.4950833333333333,
      "grad_norm": 0.9338130950927734,
      "learning_rate": 0.00015331220503873004,
      "loss": 4.0479,
      "step": 237640
    },
    {
      "epoch": 0.4951041666666667,
      "grad_norm": 0.8096640110015869,
      "learning_rate": 0.0001533023488809745,
      "loss": 3.87,
      "step": 237650
    },
    {
      "epoch": 0.495125,
      "grad_norm": 0.8065592646598816,
      "learning_rate": 0.00015329249270895414,
      "loss": 3.7978,
      "step": 237660
    },
    {
      "epoch": 0.49514583333333334,
      "grad_norm": 0.8483978509902954,
      "learning_rate": 0.00015328263652271152,
      "loss": 4.0033,
      "step": 237670
    },
    {
      "epoch": 0.49516666666666664,
      "grad_norm": 0.9250773191452026,
      "learning_rate": 0.00015327278032228918,
      "loss": 3.9698,
      "step": 237680
    },
    {
      "epoch": 0.4951875,
      "grad_norm": 0.8591605424880981,
      "learning_rate": 0.00015326292410772975,
      "loss": 3.8731,
      "step": 237690
    },
    {
      "epoch": 0.4952083333333333,
      "grad_norm": 1.0629395246505737,
      "learning_rate": 0.00015325306787907582,
      "loss": 4.0858,
      "step": 237700
    },
    {
      "epoch": 0.49522916666666666,
      "grad_norm": 0.843257486820221,
      "learning_rate": 0.00015324321163636984,
      "loss": 3.9906,
      "step": 237710
    },
    {
      "epoch": 0.49525,
      "grad_norm": 1.018147349357605,
      "learning_rate": 0.0001532333553796545,
      "loss": 3.9967,
      "step": 237720
    },
    {
      "epoch": 0.4952708333333333,
      "grad_norm": 1.017928957939148,
      "learning_rate": 0.0001532234991089724,
      "loss": 3.8311,
      "step": 237730
    },
    {
      "epoch": 0.4952916666666667,
      "grad_norm": 0.8810643553733826,
      "learning_rate": 0.00015321364282436595,
      "loss": 3.7346,
      "step": 237740
    },
    {
      "epoch": 0.4953125,
      "grad_norm": 0.9625523090362549,
      "learning_rate": 0.0001532037865258779,
      "loss": 3.8382,
      "step": 237750
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 0.9833908677101135,
      "learning_rate": 0.0001531939302135508,
      "loss": 3.8661,
      "step": 237760
    },
    {
      "epoch": 0.49535416666666665,
      "grad_norm": 1.0296355485916138,
      "learning_rate": 0.00015318407388742713,
      "loss": 3.9278,
      "step": 237770
    },
    {
      "epoch": 0.495375,
      "grad_norm": 0.8866729140281677,
      "learning_rate": 0.0001531742175475495,
      "loss": 3.9278,
      "step": 237780
    },
    {
      "epoch": 0.4953958333333333,
      "grad_norm": 0.9171130657196045,
      "learning_rate": 0.0001531643611939606,
      "loss": 3.8556,
      "step": 237790
    },
    {
      "epoch": 0.49541666666666667,
      "grad_norm": 1.0775455236434937,
      "learning_rate": 0.00015315450482670284,
      "loss": 4.0477,
      "step": 237800
    },
    {
      "epoch": 0.4954375,
      "grad_norm": 0.7971987724304199,
      "learning_rate": 0.00015314464844581887,
      "loss": 3.8041,
      "step": 237810
    },
    {
      "epoch": 0.49545833333333333,
      "grad_norm": 0.878309965133667,
      "learning_rate": 0.00015313479205135127,
      "loss": 4.0563,
      "step": 237820
    },
    {
      "epoch": 0.4954791666666667,
      "grad_norm": 0.9968946576118469,
      "learning_rate": 0.00015312493564334265,
      "loss": 3.7002,
      "step": 237830
    },
    {
      "epoch": 0.4955,
      "grad_norm": 0.8981518745422363,
      "learning_rate": 0.0001531150792218355,
      "loss": 3.6809,
      "step": 237840
    },
    {
      "epoch": 0.49552083333333335,
      "grad_norm": 0.8360593318939209,
      "learning_rate": 0.00015310522278687242,
      "loss": 4.0063,
      "step": 237850
    },
    {
      "epoch": 0.49554166666666666,
      "grad_norm": 1.0794918537139893,
      "learning_rate": 0.00015309536633849606,
      "loss": 3.89,
      "step": 237860
    },
    {
      "epoch": 0.4955625,
      "grad_norm": 0.9123081564903259,
      "learning_rate": 0.00015308550987674894,
      "loss": 3.903,
      "step": 237870
    },
    {
      "epoch": 0.4955833333333333,
      "grad_norm": 0.7922405004501343,
      "learning_rate": 0.00015307565340167358,
      "loss": 3.8766,
      "step": 237880
    },
    {
      "epoch": 0.4956041666666667,
      "grad_norm": 0.8266581296920776,
      "learning_rate": 0.00015306579691331266,
      "loss": 3.9098,
      "step": 237890
    },
    {
      "epoch": 0.495625,
      "grad_norm": 0.9025593400001526,
      "learning_rate": 0.00015305594041170871,
      "loss": 3.9075,
      "step": 237900
    },
    {
      "epoch": 0.49564583333333334,
      "grad_norm": 0.8670014142990112,
      "learning_rate": 0.0001530460838969043,
      "loss": 3.7704,
      "step": 237910
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 1.0077526569366455,
      "learning_rate": 0.000153036227368942,
      "loss": 3.822,
      "step": 237920
    },
    {
      "epoch": 0.4956875,
      "grad_norm": 0.9231728911399841,
      "learning_rate": 0.00015302637082786444,
      "loss": 4.1556,
      "step": 237930
    },
    {
      "epoch": 0.4957083333333333,
      "grad_norm": 0.8470752835273743,
      "learning_rate": 0.00015301651427371415,
      "loss": 3.8388,
      "step": 237940
    },
    {
      "epoch": 0.49572916666666667,
      "grad_norm": 0.9224920272827148,
      "learning_rate": 0.00015300665770653362,
      "loss": 3.8585,
      "step": 237950
    },
    {
      "epoch": 0.49575,
      "grad_norm": 0.9100670218467712,
      "learning_rate": 0.00015299680112636566,
      "loss": 3.9959,
      "step": 237960
    },
    {
      "epoch": 0.4957708333333333,
      "grad_norm": 0.9099392890930176,
      "learning_rate": 0.0001529869445332526,
      "loss": 4.0183,
      "step": 237970
    },
    {
      "epoch": 0.4957916666666667,
      "grad_norm": 1.0952751636505127,
      "learning_rate": 0.00015297708792723713,
      "loss": 3.9011,
      "step": 237980
    },
    {
      "epoch": 0.4958125,
      "grad_norm": 0.9764159917831421,
      "learning_rate": 0.0001529672313083619,
      "loss": 4.0225,
      "step": 237990
    },
    {
      "epoch": 0.49583333333333335,
      "grad_norm": 0.8736714720726013,
      "learning_rate": 0.00015295737467666934,
      "loss": 3.8801,
      "step": 238000
    },
    {
      "epoch": 0.49583333333333335,
      "eval_loss": 3.614997386932373,
      "eval_runtime": 7.2708,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.413,
      "step": 238000
    },
    {
      "epoch": 0.49585416666666665,
      "grad_norm": 1.204762578010559,
      "learning_rate": 0.0001529475180322021,
      "loss": 3.7315,
      "step": 238010
    },
    {
      "epoch": 0.495875,
      "grad_norm": 0.9346526265144348,
      "learning_rate": 0.00015293766137500274,
      "loss": 3.7818,
      "step": 238020
    },
    {
      "epoch": 0.4958958333333333,
      "grad_norm": 0.788360059261322,
      "learning_rate": 0.0001529278047051139,
      "loss": 3.8541,
      "step": 238030
    },
    {
      "epoch": 0.4959166666666667,
      "grad_norm": 0.8844788074493408,
      "learning_rate": 0.00015291794802257803,
      "loss": 3.6408,
      "step": 238040
    },
    {
      "epoch": 0.4959375,
      "grad_norm": 1.7111079692840576,
      "learning_rate": 0.0001529080913274378,
      "loss": 3.9612,
      "step": 238050
    },
    {
      "epoch": 0.49595833333333333,
      "grad_norm": 0.8493097424507141,
      "learning_rate": 0.0001528982346197358,
      "loss": 3.9673,
      "step": 238060
    },
    {
      "epoch": 0.4959791666666667,
      "grad_norm": 1.0136561393737793,
      "learning_rate": 0.00015288837789951458,
      "loss": 4.0059,
      "step": 238070
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.8832458853721619,
      "learning_rate": 0.00015287852116681663,
      "loss": 3.7484,
      "step": 238080
    },
    {
      "epoch": 0.49602083333333336,
      "grad_norm": 0.779447078704834,
      "learning_rate": 0.00015286866442168465,
      "loss": 4.1202,
      "step": 238090
    },
    {
      "epoch": 0.49604166666666666,
      "grad_norm": 0.8696714639663696,
      "learning_rate": 0.00015285880766416124,
      "loss": 3.8604,
      "step": 238100
    },
    {
      "epoch": 0.4960625,
      "grad_norm": 1.0563207864761353,
      "learning_rate": 0.0001528489508942888,
      "loss": 4.0399,
      "step": 238110
    },
    {
      "epoch": 0.4960833333333333,
      "grad_norm": 0.8937692642211914,
      "learning_rate": 0.0001528390941121101,
      "loss": 3.8771,
      "step": 238120
    },
    {
      "epoch": 0.4961041666666667,
      "grad_norm": 0.9806239604949951,
      "learning_rate": 0.00015282923731766763,
      "loss": 3.9144,
      "step": 238130
    },
    {
      "epoch": 0.496125,
      "grad_norm": 0.9614024758338928,
      "learning_rate": 0.00015281938051100397,
      "loss": 3.91,
      "step": 238140
    },
    {
      "epoch": 0.49614583333333334,
      "grad_norm": 0.8269816040992737,
      "learning_rate": 0.00015280952369216166,
      "loss": 3.7663,
      "step": 238150
    },
    {
      "epoch": 0.49616666666666664,
      "grad_norm": 0.790448784828186,
      "learning_rate": 0.0001527996668611834,
      "loss": 3.8007,
      "step": 238160
    },
    {
      "epoch": 0.4961875,
      "grad_norm": 0.8656001687049866,
      "learning_rate": 0.0001527898100181116,
      "loss": 3.9818,
      "step": 238170
    },
    {
      "epoch": 0.4962083333333333,
      "grad_norm": 0.9237627983093262,
      "learning_rate": 0.000152779953162989,
      "loss": 3.7908,
      "step": 238180
    },
    {
      "epoch": 0.49622916666666667,
      "grad_norm": 0.889358401298523,
      "learning_rate": 0.00015277009629585802,
      "loss": 4.0892,
      "step": 238190
    },
    {
      "epoch": 0.49625,
      "grad_norm": 0.8516179919242859,
      "learning_rate": 0.00015276023941676137,
      "loss": 3.7938,
      "step": 238200
    },
    {
      "epoch": 0.4962708333333333,
      "grad_norm": 0.9227351546287537,
      "learning_rate": 0.00015275038252574158,
      "loss": 3.9295,
      "step": 238210
    },
    {
      "epoch": 0.4962916666666667,
      "grad_norm": 0.8877422213554382,
      "learning_rate": 0.00015274052562284124,
      "loss": 3.7724,
      "step": 238220
    },
    {
      "epoch": 0.4963125,
      "grad_norm": 1.2998167276382446,
      "learning_rate": 0.00015273066870810287,
      "loss": 3.8556,
      "step": 238230
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 1.1676218509674072,
      "learning_rate": 0.00015272081178156912,
      "loss": 3.8608,
      "step": 238240
    },
    {
      "epoch": 0.49635416666666665,
      "grad_norm": 0.8998613953590393,
      "learning_rate": 0.00015271095484328253,
      "loss": 3.9879,
      "step": 238250
    },
    {
      "epoch": 0.496375,
      "grad_norm": 0.9681559205055237,
      "learning_rate": 0.0001527010978932857,
      "loss": 3.6266,
      "step": 238260
    },
    {
      "epoch": 0.4963958333333333,
      "grad_norm": 0.8212194442749023,
      "learning_rate": 0.00015269124093162122,
      "loss": 3.7886,
      "step": 238270
    },
    {
      "epoch": 0.4964166666666667,
      "grad_norm": 0.827890157699585,
      "learning_rate": 0.0001526813839583316,
      "loss": 3.8077,
      "step": 238280
    },
    {
      "epoch": 0.4964375,
      "grad_norm": 0.9086623191833496,
      "learning_rate": 0.0001526715269734595,
      "loss": 3.776,
      "step": 238290
    },
    {
      "epoch": 0.49645833333333333,
      "grad_norm": 0.9824003577232361,
      "learning_rate": 0.00015266166997704745,
      "loss": 3.7734,
      "step": 238300
    },
    {
      "epoch": 0.4964791666666667,
      "grad_norm": 0.9103139042854309,
      "learning_rate": 0.000152651812969138,
      "loss": 3.8152,
      "step": 238310
    },
    {
      "epoch": 0.4965,
      "grad_norm": 0.8302974700927734,
      "learning_rate": 0.0001526419559497738,
      "loss": 3.7343,
      "step": 238320
    },
    {
      "epoch": 0.49652083333333336,
      "grad_norm": 1.0672856569290161,
      "learning_rate": 0.0001526320989189974,
      "loss": 4.008,
      "step": 238330
    },
    {
      "epoch": 0.49654166666666666,
      "grad_norm": 0.9418931603431702,
      "learning_rate": 0.00015262224187685136,
      "loss": 3.8613,
      "step": 238340
    },
    {
      "epoch": 0.4965625,
      "grad_norm": 0.7843880653381348,
      "learning_rate": 0.00015261238482337826,
      "loss": 3.9533,
      "step": 238350
    },
    {
      "epoch": 0.4965833333333333,
      "grad_norm": 0.9203107953071594,
      "learning_rate": 0.00015260252775862071,
      "loss": 3.947,
      "step": 238360
    },
    {
      "epoch": 0.4966041666666667,
      "grad_norm": 0.9658282995223999,
      "learning_rate": 0.0001525926706826213,
      "loss": 3.8069,
      "step": 238370
    },
    {
      "epoch": 0.496625,
      "grad_norm": 0.8645025491714478,
      "learning_rate": 0.00015258281359542254,
      "loss": 3.7075,
      "step": 238380
    },
    {
      "epoch": 0.49664583333333334,
      "grad_norm": 0.8500957489013672,
      "learning_rate": 0.00015257295649706706,
      "loss": 3.7185,
      "step": 238390
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 0.8103348016738892,
      "learning_rate": 0.00015256309938759742,
      "loss": 3.9251,
      "step": 238400
    },
    {
      "epoch": 0.4966875,
      "grad_norm": 0.8996425867080688,
      "learning_rate": 0.0001525532422670562,
      "loss": 3.9802,
      "step": 238410
    },
    {
      "epoch": 0.4967083333333333,
      "grad_norm": 0.9515091180801392,
      "learning_rate": 0.000152543385135486,
      "loss": 3.7746,
      "step": 238420
    },
    {
      "epoch": 0.49672916666666667,
      "grad_norm": 0.9194888472557068,
      "learning_rate": 0.0001525335279929294,
      "loss": 3.8493,
      "step": 238430
    },
    {
      "epoch": 0.49675,
      "grad_norm": 0.9325838088989258,
      "learning_rate": 0.00015252367083942893,
      "loss": 3.9627,
      "step": 238440
    },
    {
      "epoch": 0.49677083333333333,
      "grad_norm": 0.8220115303993225,
      "learning_rate": 0.00015251381367502719,
      "loss": 3.98,
      "step": 238450
    },
    {
      "epoch": 0.4967916666666667,
      "grad_norm": 0.8826857805252075,
      "learning_rate": 0.00015250395649976683,
      "loss": 3.929,
      "step": 238460
    },
    {
      "epoch": 0.4968125,
      "grad_norm": 0.931581974029541,
      "learning_rate": 0.0001524940993136903,
      "loss": 3.8371,
      "step": 238470
    },
    {
      "epoch": 0.49683333333333335,
      "grad_norm": 0.9520819783210754,
      "learning_rate": 0.00015248424211684026,
      "loss": 3.8855,
      "step": 238480
    },
    {
      "epoch": 0.49685416666666665,
      "grad_norm": 0.8855522274971008,
      "learning_rate": 0.00015247438490925935,
      "loss": 3.9362,
      "step": 238490
    },
    {
      "epoch": 0.496875,
      "grad_norm": 0.9737260341644287,
      "learning_rate": 0.00015246452769098997,
      "loss": 3.8748,
      "step": 238500
    },
    {
      "epoch": 0.4968958333333333,
      "grad_norm": 0.860599935054779,
      "learning_rate": 0.00015245467046207486,
      "loss": 3.8502,
      "step": 238510
    },
    {
      "epoch": 0.4969166666666667,
      "grad_norm": 0.8870986700057983,
      "learning_rate": 0.00015244481322255658,
      "loss": 3.9888,
      "step": 238520
    },
    {
      "epoch": 0.4969375,
      "grad_norm": 0.8521056175231934,
      "learning_rate": 0.00015243495597247762,
      "loss": 3.8684,
      "step": 238530
    },
    {
      "epoch": 0.49695833333333334,
      "grad_norm": 0.9139729142189026,
      "learning_rate": 0.00015242509871188063,
      "loss": 3.8667,
      "step": 238540
    },
    {
      "epoch": 0.4969791666666667,
      "grad_norm": 1.0199097394943237,
      "learning_rate": 0.00015241524144080817,
      "loss": 3.8376,
      "step": 238550
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.903235137462616,
      "learning_rate": 0.00015240538415930283,
      "loss": 3.9594,
      "step": 238560
    },
    {
      "epoch": 0.49702083333333336,
      "grad_norm": 0.9078986644744873,
      "learning_rate": 0.00015239552686740714,
      "loss": 4.0393,
      "step": 238570
    },
    {
      "epoch": 0.49704166666666666,
      "grad_norm": 1.0350902080535889,
      "learning_rate": 0.0001523856695651638,
      "loss": 3.7772,
      "step": 238580
    },
    {
      "epoch": 0.4970625,
      "grad_norm": 0.8494460582733154,
      "learning_rate": 0.00015237581225261527,
      "loss": 3.8696,
      "step": 238590
    },
    {
      "epoch": 0.4970833333333333,
      "grad_norm": 0.9153867959976196,
      "learning_rate": 0.00015236595492980419,
      "loss": 3.855,
      "step": 238600
    },
    {
      "epoch": 0.4971041666666667,
      "grad_norm": 0.8853793740272522,
      "learning_rate": 0.0001523560975967731,
      "loss": 3.7648,
      "step": 238610
    },
    {
      "epoch": 0.497125,
      "grad_norm": 0.9512858986854553,
      "learning_rate": 0.00015234624025356458,
      "loss": 3.8747,
      "step": 238620
    },
    {
      "epoch": 0.49714583333333334,
      "grad_norm": 0.964282751083374,
      "learning_rate": 0.0001523363829002213,
      "loss": 3.8949,
      "step": 238630
    },
    {
      "epoch": 0.49716666666666665,
      "grad_norm": 0.8918883204460144,
      "learning_rate": 0.00015232652553678574,
      "loss": 3.7494,
      "step": 238640
    },
    {
      "epoch": 0.4971875,
      "grad_norm": 0.8763371706008911,
      "learning_rate": 0.00015231666816330045,
      "loss": 3.9568,
      "step": 238650
    },
    {
      "epoch": 0.4972083333333333,
      "grad_norm": 0.8929423093795776,
      "learning_rate": 0.00015230681077980817,
      "loss": 3.7784,
      "step": 238660
    },
    {
      "epoch": 0.49722916666666667,
      "grad_norm": 0.8889697790145874,
      "learning_rate": 0.00015229695338635132,
      "loss": 3.8023,
      "step": 238670
    },
    {
      "epoch": 0.49725,
      "grad_norm": 0.844555675983429,
      "learning_rate": 0.00015228709598297252,
      "loss": 3.9658,
      "step": 238680
    },
    {
      "epoch": 0.49727083333333333,
      "grad_norm": 0.8659151792526245,
      "learning_rate": 0.00015227723856971445,
      "loss": 3.9587,
      "step": 238690
    },
    {
      "epoch": 0.4972916666666667,
      "grad_norm": 0.868516206741333,
      "learning_rate": 0.00015226738114661954,
      "loss": 3.9448,
      "step": 238700
    },
    {
      "epoch": 0.4973125,
      "grad_norm": 0.8363949060440063,
      "learning_rate": 0.00015225752371373047,
      "loss": 3.8953,
      "step": 238710
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 0.9329067468643188,
      "learning_rate": 0.00015224766627108975,
      "loss": 3.827,
      "step": 238720
    },
    {
      "epoch": 0.49735416666666665,
      "grad_norm": 0.91304612159729,
      "learning_rate": 0.00015223780881874004,
      "loss": 3.6553,
      "step": 238730
    },
    {
      "epoch": 0.497375,
      "grad_norm": 1.0322790145874023,
      "learning_rate": 0.0001522279513567239,
      "loss": 3.9719,
      "step": 238740
    },
    {
      "epoch": 0.4973958333333333,
      "grad_norm": 0.9900612235069275,
      "learning_rate": 0.00015221809388508387,
      "loss": 3.9679,
      "step": 238750
    },
    {
      "epoch": 0.4974166666666667,
      "grad_norm": 0.8721773624420166,
      "learning_rate": 0.00015220823640386255,
      "loss": 3.8202,
      "step": 238760
    },
    {
      "epoch": 0.4974375,
      "grad_norm": 0.9614256024360657,
      "learning_rate": 0.00015219837891310256,
      "loss": 3.8404,
      "step": 238770
    },
    {
      "epoch": 0.49745833333333334,
      "grad_norm": 0.9219016432762146,
      "learning_rate": 0.00015218852141284637,
      "loss": 3.8537,
      "step": 238780
    },
    {
      "epoch": 0.49747916666666664,
      "grad_norm": 0.8734267354011536,
      "learning_rate": 0.00015217866390313667,
      "loss": 3.9223,
      "step": 238790
    },
    {
      "epoch": 0.4975,
      "grad_norm": 0.8337185978889465,
      "learning_rate": 0.00015216880638401604,
      "loss": 3.9205,
      "step": 238800
    },
    {
      "epoch": 0.49752083333333336,
      "grad_norm": 1.021623969078064,
      "learning_rate": 0.00015215894885552698,
      "loss": 3.8906,
      "step": 238810
    },
    {
      "epoch": 0.49754166666666666,
      "grad_norm": 0.9314753413200378,
      "learning_rate": 0.0001521490913177121,
      "loss": 3.829,
      "step": 238820
    },
    {
      "epoch": 0.4975625,
      "grad_norm": 0.862254798412323,
      "learning_rate": 0.00015213923377061403,
      "loss": 3.7638,
      "step": 238830
    },
    {
      "epoch": 0.4975833333333333,
      "grad_norm": 0.9274258613586426,
      "learning_rate": 0.00015212937621427532,
      "loss": 3.7904,
      "step": 238840
    },
    {
      "epoch": 0.4976041666666667,
      "grad_norm": 1.0555429458618164,
      "learning_rate": 0.0001521195186487385,
      "loss": 3.639,
      "step": 238850
    },
    {
      "epoch": 0.497625,
      "grad_norm": 1.0055073499679565,
      "learning_rate": 0.0001521096610740463,
      "loss": 3.694,
      "step": 238860
    },
    {
      "epoch": 0.49764583333333334,
      "grad_norm": 1.4513720273971558,
      "learning_rate": 0.00015209980349024108,
      "loss": 3.7551,
      "step": 238870
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 0.8751950263977051,
      "learning_rate": 0.00015208994589736562,
      "loss": 3.7549,
      "step": 238880
    },
    {
      "epoch": 0.4976875,
      "grad_norm": 0.8992534279823303,
      "learning_rate": 0.0001520800882954624,
      "loss": 3.8897,
      "step": 238890
    },
    {
      "epoch": 0.4977083333333333,
      "grad_norm": 0.9589288234710693,
      "learning_rate": 0.000152070230684574,
      "loss": 3.7157,
      "step": 238900
    },
    {
      "epoch": 0.49772916666666667,
      "grad_norm": 0.8517953753471375,
      "learning_rate": 0.00015206037306474306,
      "loss": 3.8444,
      "step": 238910
    },
    {
      "epoch": 0.49775,
      "grad_norm": 0.8476048707962036,
      "learning_rate": 0.0001520505154360121,
      "loss": 3.789,
      "step": 238920
    },
    {
      "epoch": 0.49777083333333333,
      "grad_norm": 0.8778789639472961,
      "learning_rate": 0.00015204065779842374,
      "loss": 3.941,
      "step": 238930
    },
    {
      "epoch": 0.4977916666666667,
      "grad_norm": 1.0925207138061523,
      "learning_rate": 0.00015203080015202053,
      "loss": 3.9627,
      "step": 238940
    },
    {
      "epoch": 0.4978125,
      "grad_norm": 0.8226902484893799,
      "learning_rate": 0.00015202094249684508,
      "loss": 4.0302,
      "step": 238950
    },
    {
      "epoch": 0.49783333333333335,
      "grad_norm": 0.8420858383178711,
      "learning_rate": 0.0001520110848329399,
      "loss": 3.6891,
      "step": 238960
    },
    {
      "epoch": 0.49785416666666665,
      "grad_norm": 0.845278263092041,
      "learning_rate": 0.00015200122716034774,
      "loss": 3.9423,
      "step": 238970
    },
    {
      "epoch": 0.497875,
      "grad_norm": 0.9507915377616882,
      "learning_rate": 0.000151991369479111,
      "loss": 3.7835,
      "step": 238980
    },
    {
      "epoch": 0.4978958333333333,
      "grad_norm": 0.8142388463020325,
      "learning_rate": 0.0001519815117892723,
      "loss": 3.855,
      "step": 238990
    },
    {
      "epoch": 0.4979166666666667,
      "grad_norm": 1.0739208459854126,
      "learning_rate": 0.00015197165409087433,
      "loss": 3.9145,
      "step": 239000
    },
    {
      "epoch": 0.4979166666666667,
      "eval_loss": 3.6179683208465576,
      "eval_runtime": 7.2964,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 239000
    },
    {
      "epoch": 0.4979375,
      "grad_norm": 0.8586543202400208,
      "learning_rate": 0.00015196179638395958,
      "loss": 3.8556,
      "step": 239010
    },
    {
      "epoch": 0.49795833333333334,
      "grad_norm": 0.8245786428451538,
      "learning_rate": 0.00015195193866857063,
      "loss": 3.8223,
      "step": 239020
    },
    {
      "epoch": 0.49797916666666664,
      "grad_norm": 1.0534307956695557,
      "learning_rate": 0.00015194208094475005,
      "loss": 3.7599,
      "step": 239030
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.9352259635925293,
      "learning_rate": 0.00015193222321254051,
      "loss": 3.7483,
      "step": 239040
    },
    {
      "epoch": 0.49802083333333336,
      "grad_norm": 0.8910165429115295,
      "learning_rate": 0.00015192236547198446,
      "loss": 3.8075,
      "step": 239050
    },
    {
      "epoch": 0.49804166666666666,
      "grad_norm": 0.8211156725883484,
      "learning_rate": 0.0001519125077231246,
      "loss": 3.9007,
      "step": 239060
    },
    {
      "epoch": 0.4980625,
      "grad_norm": 0.8716562986373901,
      "learning_rate": 0.00015190264996600345,
      "loss": 3.8082,
      "step": 239070
    },
    {
      "epoch": 0.4980833333333333,
      "grad_norm": 0.8664536476135254,
      "learning_rate": 0.0001518927922006636,
      "loss": 3.7706,
      "step": 239080
    },
    {
      "epoch": 0.4981041666666667,
      "grad_norm": 0.9097883701324463,
      "learning_rate": 0.00015188293442714766,
      "loss": 3.8488,
      "step": 239090
    },
    {
      "epoch": 0.498125,
      "grad_norm": 0.854425311088562,
      "learning_rate": 0.00015187307664549815,
      "loss": 4.072,
      "step": 239100
    },
    {
      "epoch": 0.49814583333333334,
      "grad_norm": 0.9477611780166626,
      "learning_rate": 0.00015186321885575773,
      "loss": 3.9013,
      "step": 239110
    },
    {
      "epoch": 0.49816666666666665,
      "grad_norm": 0.9439812898635864,
      "learning_rate": 0.00015185336105796892,
      "loss": 3.7759,
      "step": 239120
    },
    {
      "epoch": 0.4981875,
      "grad_norm": 0.8676643371582031,
      "learning_rate": 0.0001518435032521743,
      "loss": 3.8739,
      "step": 239130
    },
    {
      "epoch": 0.4982083333333333,
      "grad_norm": 0.8263561129570007,
      "learning_rate": 0.00015183364543841656,
      "loss": 3.8526,
      "step": 239140
    },
    {
      "epoch": 0.49822916666666667,
      "grad_norm": 0.927702784538269,
      "learning_rate": 0.0001518237876167381,
      "loss": 3.8548,
      "step": 239150
    },
    {
      "epoch": 0.49825,
      "grad_norm": 0.8832218647003174,
      "learning_rate": 0.00015181392978718165,
      "loss": 3.7168,
      "step": 239160
    },
    {
      "epoch": 0.49827083333333333,
      "grad_norm": 0.8304384350776672,
      "learning_rate": 0.00015180407194978975,
      "loss": 3.8761,
      "step": 239170
    },
    {
      "epoch": 0.4982916666666667,
      "grad_norm": 1.1283297538757324,
      "learning_rate": 0.00015179421410460494,
      "loss": 3.9678,
      "step": 239180
    },
    {
      "epoch": 0.4983125,
      "grad_norm": 0.908626139163971,
      "learning_rate": 0.00015178435625166984,
      "loss": 3.8337,
      "step": 239190
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 0.8469136357307434,
      "learning_rate": 0.00015177449839102707,
      "loss": 3.9248,
      "step": 239200
    },
    {
      "epoch": 0.49835416666666665,
      "grad_norm": 0.855828046798706,
      "learning_rate": 0.00015176464052271913,
      "loss": 4.0018,
      "step": 239210
    },
    {
      "epoch": 0.498375,
      "grad_norm": 0.7990622520446777,
      "learning_rate": 0.00015175478264678864,
      "loss": 3.9598,
      "step": 239220
    },
    {
      "epoch": 0.4983958333333333,
      "grad_norm": 1.098894715309143,
      "learning_rate": 0.0001517449247632782,
      "loss": 4.0741,
      "step": 239230
    },
    {
      "epoch": 0.4984166666666667,
      "grad_norm": 0.9573112726211548,
      "learning_rate": 0.00015173506687223034,
      "loss": 3.8017,
      "step": 239240
    },
    {
      "epoch": 0.4984375,
      "grad_norm": 0.9724251627922058,
      "learning_rate": 0.0001517252089736877,
      "loss": 3.815,
      "step": 239250
    },
    {
      "epoch": 0.49845833333333334,
      "grad_norm": 0.9303335547447205,
      "learning_rate": 0.00015171535106769287,
      "loss": 3.8231,
      "step": 239260
    },
    {
      "epoch": 0.49847916666666664,
      "grad_norm": 0.870278537273407,
      "learning_rate": 0.00015170549315428837,
      "loss": 3.7996,
      "step": 239270
    },
    {
      "epoch": 0.4985,
      "grad_norm": 0.9579296112060547,
      "learning_rate": 0.00015169563523351683,
      "loss": 3.6281,
      "step": 239280
    },
    {
      "epoch": 0.49852083333333336,
      "grad_norm": 0.9984758496284485,
      "learning_rate": 0.0001516857773054208,
      "loss": 3.8303,
      "step": 239290
    },
    {
      "epoch": 0.49854166666666666,
      "grad_norm": 0.9203473925590515,
      "learning_rate": 0.0001516759193700429,
      "loss": 3.878,
      "step": 239300
    },
    {
      "epoch": 0.4985625,
      "grad_norm": 0.8662444353103638,
      "learning_rate": 0.00015166606142742568,
      "loss": 3.7607,
      "step": 239310
    },
    {
      "epoch": 0.4985833333333333,
      "grad_norm": 0.9137593507766724,
      "learning_rate": 0.00015165620347761173,
      "loss": 3.7565,
      "step": 239320
    },
    {
      "epoch": 0.4986041666666667,
      "grad_norm": 0.8568850159645081,
      "learning_rate": 0.00015164634552064366,
      "loss": 3.8077,
      "step": 239330
    },
    {
      "epoch": 0.498625,
      "grad_norm": 0.8417813181877136,
      "learning_rate": 0.000151636487556564,
      "loss": 3.911,
      "step": 239340
    },
    {
      "epoch": 0.49864583333333334,
      "grad_norm": 1.058328628540039,
      "learning_rate": 0.00015162662958541535,
      "loss": 3.8126,
      "step": 239350
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 0.8797466158866882,
      "learning_rate": 0.00015161677160724035,
      "loss": 3.9815,
      "step": 239360
    },
    {
      "epoch": 0.4986875,
      "grad_norm": 1.049214482307434,
      "learning_rate": 0.00015160691362208154,
      "loss": 4.0316,
      "step": 239370
    },
    {
      "epoch": 0.4987083333333333,
      "grad_norm": 0.8257550001144409,
      "learning_rate": 0.00015159705562998145,
      "loss": 3.8692,
      "step": 239380
    },
    {
      "epoch": 0.49872916666666667,
      "grad_norm": 0.9373477697372437,
      "learning_rate": 0.00015158719763098274,
      "loss": 3.798,
      "step": 239390
    },
    {
      "epoch": 0.49875,
      "grad_norm": 1.0043737888336182,
      "learning_rate": 0.00015157733962512795,
      "loss": 3.973,
      "step": 239400
    },
    {
      "epoch": 0.49877083333333333,
      "grad_norm": 0.8424551486968994,
      "learning_rate": 0.00015156748161245968,
      "loss": 3.86,
      "step": 239410
    },
    {
      "epoch": 0.4987916666666667,
      "grad_norm": 0.8754477500915527,
      "learning_rate": 0.0001515576235930205,
      "loss": 3.9515,
      "step": 239420
    },
    {
      "epoch": 0.4988125,
      "grad_norm": 0.8631606101989746,
      "learning_rate": 0.00015154776556685305,
      "loss": 3.8524,
      "step": 239430
    },
    {
      "epoch": 0.49883333333333335,
      "grad_norm": 0.8449574112892151,
      "learning_rate": 0.0001515379075339998,
      "loss": 3.9506,
      "step": 239440
    },
    {
      "epoch": 0.49885416666666665,
      "grad_norm": 0.908846378326416,
      "learning_rate": 0.00015152804949450344,
      "loss": 3.9666,
      "step": 239450
    },
    {
      "epoch": 0.498875,
      "grad_norm": 0.817747175693512,
      "learning_rate": 0.0001515181914484065,
      "loss": 3.7555,
      "step": 239460
    },
    {
      "epoch": 0.4988958333333333,
      "grad_norm": 0.8408406376838684,
      "learning_rate": 0.0001515083333957516,
      "loss": 3.928,
      "step": 239470
    },
    {
      "epoch": 0.4989166666666667,
      "grad_norm": 0.9029837250709534,
      "learning_rate": 0.00015149847533658126,
      "loss": 4.0601,
      "step": 239480
    },
    {
      "epoch": 0.4989375,
      "grad_norm": 0.8668901324272156,
      "learning_rate": 0.0001514886172709381,
      "loss": 3.9148,
      "step": 239490
    },
    {
      "epoch": 0.49895833333333334,
      "grad_norm": 0.9180099368095398,
      "learning_rate": 0.00015147875919886475,
      "loss": 3.8147,
      "step": 239500
    },
    {
      "epoch": 0.49897916666666664,
      "grad_norm": 0.9515832662582397,
      "learning_rate": 0.0001514689011204037,
      "loss": 4.0508,
      "step": 239510
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.9363307952880859,
      "learning_rate": 0.00015145904303559757,
      "loss": 4.0121,
      "step": 239520
    },
    {
      "epoch": 0.49902083333333336,
      "grad_norm": 0.8402661681175232,
      "learning_rate": 0.000151449184944489,
      "loss": 3.743,
      "step": 239530
    },
    {
      "epoch": 0.49904166666666666,
      "grad_norm": 0.9341670870780945,
      "learning_rate": 0.00015143932684712048,
      "loss": 3.8412,
      "step": 239540
    },
    {
      "epoch": 0.4990625,
      "grad_norm": 0.8404788374900818,
      "learning_rate": 0.00015142946874353465,
      "loss": 3.7842,
      "step": 239550
    },
    {
      "epoch": 0.4990833333333333,
      "grad_norm": 1.1188677549362183,
      "learning_rate": 0.0001514196106337741,
      "loss": 3.8608,
      "step": 239560
    },
    {
      "epoch": 0.4991041666666667,
      "grad_norm": 0.8448460698127747,
      "learning_rate": 0.00015140975251788137,
      "loss": 3.8863,
      "step": 239570
    },
    {
      "epoch": 0.499125,
      "grad_norm": 0.9489941596984863,
      "learning_rate": 0.00015139989439589906,
      "loss": 3.8494,
      "step": 239580
    },
    {
      "epoch": 0.49914583333333334,
      "grad_norm": 0.8463589549064636,
      "learning_rate": 0.0001513900362678698,
      "loss": 3.9653,
      "step": 239590
    },
    {
      "epoch": 0.49916666666666665,
      "grad_norm": 0.9020058512687683,
      "learning_rate": 0.0001513801781338361,
      "loss": 3.8634,
      "step": 239600
    },
    {
      "epoch": 0.4991875,
      "grad_norm": 0.8300380706787109,
      "learning_rate": 0.0001513703199938406,
      "loss": 3.9512,
      "step": 239610
    },
    {
      "epoch": 0.4992083333333333,
      "grad_norm": 0.892381489276886,
      "learning_rate": 0.00015136046184792583,
      "loss": 3.8676,
      "step": 239620
    },
    {
      "epoch": 0.49922916666666667,
      "grad_norm": 0.9783600568771362,
      "learning_rate": 0.00015135060369613442,
      "loss": 3.5813,
      "step": 239630
    },
    {
      "epoch": 0.49925,
      "grad_norm": 0.8899648785591125,
      "learning_rate": 0.00015134074553850896,
      "loss": 3.7055,
      "step": 239640
    },
    {
      "epoch": 0.49927083333333333,
      "grad_norm": 0.7898613810539246,
      "learning_rate": 0.00015133088737509198,
      "loss": 3.8025,
      "step": 239650
    },
    {
      "epoch": 0.4992916666666667,
      "grad_norm": 1.1524149179458618,
      "learning_rate": 0.00015132102920592609,
      "loss": 3.8612,
      "step": 239660
    },
    {
      "epoch": 0.4993125,
      "grad_norm": 1.0840264558792114,
      "learning_rate": 0.0001513111710310539,
      "loss": 3.9273,
      "step": 239670
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 0.8845402002334595,
      "learning_rate": 0.00015130131285051793,
      "loss": 4.0171,
      "step": 239680
    },
    {
      "epoch": 0.49935416666666665,
      "grad_norm": 1.0525424480438232,
      "learning_rate": 0.00015129145466436083,
      "loss": 3.8741,
      "step": 239690
    },
    {
      "epoch": 0.499375,
      "grad_norm": 0.982731282711029,
      "learning_rate": 0.0001512815964726252,
      "loss": 3.8499,
      "step": 239700
    },
    {
      "epoch": 0.4993958333333333,
      "grad_norm": 0.9321070313453674,
      "learning_rate": 0.00015127173827535353,
      "loss": 3.8134,
      "step": 239710
    },
    {
      "epoch": 0.4994166666666667,
      "grad_norm": 1.0256439447402954,
      "learning_rate": 0.00015126188007258843,
      "loss": 4.0161,
      "step": 239720
    },
    {
      "epoch": 0.4994375,
      "grad_norm": 1.0969202518463135,
      "learning_rate": 0.00015125202186437258,
      "loss": 3.9236,
      "step": 239730
    },
    {
      "epoch": 0.49945833333333334,
      "grad_norm": 1.0241224765777588,
      "learning_rate": 0.00015124216365074844,
      "loss": 3.9636,
      "step": 239740
    },
    {
      "epoch": 0.49947916666666664,
      "grad_norm": 0.9464333057403564,
      "learning_rate": 0.00015123230543175864,
      "loss": 3.9741,
      "step": 239750
    },
    {
      "epoch": 0.4995,
      "grad_norm": 0.8855031728744507,
      "learning_rate": 0.00015122244720744578,
      "loss": 4.0397,
      "step": 239760
    },
    {
      "epoch": 0.49952083333333336,
      "grad_norm": 0.9332131743431091,
      "learning_rate": 0.00015121258897785245,
      "loss": 3.9435,
      "step": 239770
    },
    {
      "epoch": 0.49954166666666666,
      "grad_norm": 0.892136812210083,
      "learning_rate": 0.00015120273074302118,
      "loss": 3.771,
      "step": 239780
    },
    {
      "epoch": 0.4995625,
      "grad_norm": 0.9639118909835815,
      "learning_rate": 0.00015119287250299463,
      "loss": 3.8443,
      "step": 239790
    },
    {
      "epoch": 0.4995833333333333,
      "grad_norm": 0.8908466696739197,
      "learning_rate": 0.0001511830142578153,
      "loss": 3.7395,
      "step": 239800
    },
    {
      "epoch": 0.4996041666666667,
      "grad_norm": 0.8292472958564758,
      "learning_rate": 0.00015117315600752588,
      "loss": 3.9504,
      "step": 239810
    },
    {
      "epoch": 0.499625,
      "grad_norm": 0.8442602157592773,
      "learning_rate": 0.00015116329775216884,
      "loss": 3.9458,
      "step": 239820
    },
    {
      "epoch": 0.49964583333333334,
      "grad_norm": 0.8941044807434082,
      "learning_rate": 0.0001511534394917868,
      "loss": 3.8789,
      "step": 239830
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 0.9452387690544128,
      "learning_rate": 0.00015114358122642242,
      "loss": 3.9551,
      "step": 239840
    },
    {
      "epoch": 0.4996875,
      "grad_norm": 1.1028474569320679,
      "learning_rate": 0.00015113372295611817,
      "loss": 3.9145,
      "step": 239850
    },
    {
      "epoch": 0.4997083333333333,
      "grad_norm": 0.8900543451309204,
      "learning_rate": 0.00015112386468091668,
      "loss": 3.8449,
      "step": 239860
    },
    {
      "epoch": 0.49972916666666667,
      "grad_norm": 1.205174446105957,
      "learning_rate": 0.0001511140064008606,
      "loss": 3.8403,
      "step": 239870
    },
    {
      "epoch": 0.49975,
      "grad_norm": 0.8457307815551758,
      "learning_rate": 0.0001511041481159924,
      "loss": 4.0966,
      "step": 239880
    },
    {
      "epoch": 0.49977083333333333,
      "grad_norm": 0.9262314438819885,
      "learning_rate": 0.00015109428982635468,
      "loss": 3.9204,
      "step": 239890
    },
    {
      "epoch": 0.4997916666666667,
      "grad_norm": 0.9127224683761597,
      "learning_rate": 0.00015108443153199016,
      "loss": 3.9748,
      "step": 239900
    },
    {
      "epoch": 0.4998125,
      "grad_norm": 0.8945088982582092,
      "learning_rate": 0.00015107457323294127,
      "loss": 4.0261,
      "step": 239910
    },
    {
      "epoch": 0.49983333333333335,
      "grad_norm": 0.9605895280838013,
      "learning_rate": 0.00015106471492925066,
      "loss": 3.872,
      "step": 239920
    },
    {
      "epoch": 0.49985416666666665,
      "grad_norm": 1.1991677284240723,
      "learning_rate": 0.0001510548566209609,
      "loss": 4.0142,
      "step": 239930
    },
    {
      "epoch": 0.499875,
      "grad_norm": 0.9316108226776123,
      "learning_rate": 0.0001510449983081146,
      "loss": 4.0936,
      "step": 239940
    },
    {
      "epoch": 0.4998958333333333,
      "grad_norm": 0.8583377003669739,
      "learning_rate": 0.00015103513999075425,
      "loss": 3.9021,
      "step": 239950
    },
    {
      "epoch": 0.4999166666666667,
      "grad_norm": 0.8800783753395081,
      "learning_rate": 0.00015102528166892256,
      "loss": 3.9414,
      "step": 239960
    },
    {
      "epoch": 0.4999375,
      "grad_norm": 0.9519537091255188,
      "learning_rate": 0.00015101542334266204,
      "loss": 3.8714,
      "step": 239970
    },
    {
      "epoch": 0.49995833333333334,
      "grad_norm": 0.9468796253204346,
      "learning_rate": 0.00015100556501201532,
      "loss": 3.8004,
      "step": 239980
    },
    {
      "epoch": 0.49997916666666664,
      "grad_norm": 0.8648145794868469,
      "learning_rate": 0.0001509957066770249,
      "loss": 3.8209,
      "step": 239990
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0518337488174438,
      "learning_rate": 0.00015098584833773347,
      "loss": 4.0335,
      "step": 240000
    },
    {
      "epoch": 0.5,
      "eval_loss": 3.6113860607147217,
      "eval_runtime": 7.3128,
      "eval_samples_per_second": 1.367,
      "eval_steps_per_second": 0.41,
      "step": 240000
    },
    {
      "epoch": 0.5000208333333334,
      "grad_norm": 1.0003442764282227,
      "learning_rate": 0.0001509759899941836,
      "loss": 3.7993,
      "step": 240010
    },
    {
      "epoch": 0.5000416666666667,
      "grad_norm": 0.8210108280181885,
      "learning_rate": 0.00015096613164641774,
      "loss": 3.7758,
      "step": 240020
    },
    {
      "epoch": 0.5000625,
      "grad_norm": 0.9291573762893677,
      "learning_rate": 0.00015095627329447862,
      "loss": 3.8057,
      "step": 240030
    },
    {
      "epoch": 0.5000833333333333,
      "grad_norm": 0.9086475968360901,
      "learning_rate": 0.00015094641493840886,
      "loss": 3.7706,
      "step": 240040
    },
    {
      "epoch": 0.5001041666666667,
      "grad_norm": 0.8937695622444153,
      "learning_rate": 0.00015093655657825083,
      "loss": 4.0331,
      "step": 240050
    },
    {
      "epoch": 0.500125,
      "grad_norm": 0.9002636075019836,
      "learning_rate": 0.00015092669821404733,
      "loss": 3.95,
      "step": 240060
    },
    {
      "epoch": 0.5001458333333333,
      "grad_norm": 0.951901376247406,
      "learning_rate": 0.00015091683984584087,
      "loss": 3.7601,
      "step": 240070
    },
    {
      "epoch": 0.5001666666666666,
      "grad_norm": 0.8398027420043945,
      "learning_rate": 0.000150906981473674,
      "loss": 3.9213,
      "step": 240080
    },
    {
      "epoch": 0.5001875,
      "grad_norm": 0.8946452140808105,
      "learning_rate": 0.0001508971230975893,
      "loss": 3.9234,
      "step": 240090
    },
    {
      "epoch": 0.5002083333333334,
      "grad_norm": 0.818034291267395,
      "learning_rate": 0.00015088726471762938,
      "loss": 3.8453,
      "step": 240100
    },
    {
      "epoch": 0.5002291666666666,
      "grad_norm": 0.9207400679588318,
      "learning_rate": 0.00015087740633383688,
      "loss": 3.8982,
      "step": 240110
    },
    {
      "epoch": 0.50025,
      "grad_norm": 0.883725643157959,
      "learning_rate": 0.00015086754794625432,
      "loss": 3.8604,
      "step": 240120
    },
    {
      "epoch": 0.5002708333333333,
      "grad_norm": 1.0314754247665405,
      "learning_rate": 0.00015085768955492426,
      "loss": 3.9194,
      "step": 240130
    },
    {
      "epoch": 0.5002916666666667,
      "grad_norm": 0.8059129118919373,
      "learning_rate": 0.00015084783115988933,
      "loss": 3.8421,
      "step": 240140
    },
    {
      "epoch": 0.5003125,
      "grad_norm": 0.8876276612281799,
      "learning_rate": 0.0001508379727611921,
      "loss": 3.7195,
      "step": 240150
    },
    {
      "epoch": 0.5003333333333333,
      "grad_norm": 0.8339865803718567,
      "learning_rate": 0.0001508281143588752,
      "loss": 3.8027,
      "step": 240160
    },
    {
      "epoch": 0.5003541666666667,
      "grad_norm": 0.9054099321365356,
      "learning_rate": 0.00015081825595298113,
      "loss": 3.7793,
      "step": 240170
    },
    {
      "epoch": 0.500375,
      "grad_norm": 0.9007298350334167,
      "learning_rate": 0.00015080839754355252,
      "loss": 4.0522,
      "step": 240180
    },
    {
      "epoch": 0.5003958333333334,
      "grad_norm": 0.8714650273323059,
      "learning_rate": 0.00015079853913063199,
      "loss": 3.7997,
      "step": 240190
    },
    {
      "epoch": 0.5004166666666666,
      "grad_norm": 0.8675757050514221,
      "learning_rate": 0.00015078868071426206,
      "loss": 4.1069,
      "step": 240200
    },
    {
      "epoch": 0.5004375,
      "grad_norm": 1.117289662361145,
      "learning_rate": 0.0001507788222944854,
      "loss": 3.8691,
      "step": 240210
    },
    {
      "epoch": 0.5004583333333333,
      "grad_norm": 1.0198832750320435,
      "learning_rate": 0.00015076896387134444,
      "loss": 3.9393,
      "step": 240220
    },
    {
      "epoch": 0.5004791666666667,
      "grad_norm": 0.838719367980957,
      "learning_rate": 0.00015075910544488192,
      "loss": 3.8219,
      "step": 240230
    },
    {
      "epoch": 0.5005,
      "grad_norm": 0.7913614511489868,
      "learning_rate": 0.00015074924701514035,
      "loss": 3.8377,
      "step": 240240
    },
    {
      "epoch": 0.5005208333333333,
      "grad_norm": 0.7962340116500854,
      "learning_rate": 0.0001507393885821623,
      "loss": 3.6848,
      "step": 240250
    },
    {
      "epoch": 0.5005416666666667,
      "grad_norm": 0.8690236806869507,
      "learning_rate": 0.00015072953014599045,
      "loss": 3.992,
      "step": 240260
    },
    {
      "epoch": 0.5005625,
      "grad_norm": 0.9274328351020813,
      "learning_rate": 0.00015071967170666726,
      "loss": 3.9238,
      "step": 240270
    },
    {
      "epoch": 0.5005833333333334,
      "grad_norm": 1.1651397943496704,
      "learning_rate": 0.0001507098132642354,
      "loss": 3.9067,
      "step": 240280
    },
    {
      "epoch": 0.5006041666666666,
      "grad_norm": 0.8464044332504272,
      "learning_rate": 0.0001506999548187374,
      "loss": 3.7468,
      "step": 240290
    },
    {
      "epoch": 0.500625,
      "grad_norm": 0.8926682472229004,
      "learning_rate": 0.0001506900963702159,
      "loss": 3.8076,
      "step": 240300
    },
    {
      "epoch": 0.5006458333333333,
      "grad_norm": 0.8700881600379944,
      "learning_rate": 0.00015068023791871347,
      "loss": 4.0464,
      "step": 240310
    },
    {
      "epoch": 0.5006666666666667,
      "grad_norm": 0.8544773459434509,
      "learning_rate": 0.00015067037946427266,
      "loss": 3.9252,
      "step": 240320
    },
    {
      "epoch": 0.5006875,
      "grad_norm": 1.180335521697998,
      "learning_rate": 0.00015066052100693608,
      "loss": 3.8014,
      "step": 240330
    },
    {
      "epoch": 0.5007083333333333,
      "grad_norm": 0.8957861065864563,
      "learning_rate": 0.00015065066254674634,
      "loss": 3.7983,
      "step": 240340
    },
    {
      "epoch": 0.5007291666666667,
      "grad_norm": 0.8865046501159668,
      "learning_rate": 0.00015064080408374594,
      "loss": 3.8607,
      "step": 240350
    },
    {
      "epoch": 0.50075,
      "grad_norm": 0.8960428833961487,
      "learning_rate": 0.00015063094561797754,
      "loss": 4.0411,
      "step": 240360
    },
    {
      "epoch": 0.5007708333333334,
      "grad_norm": 0.8728324174880981,
      "learning_rate": 0.0001506210871494837,
      "loss": 3.9224,
      "step": 240370
    },
    {
      "epoch": 0.5007916666666666,
      "grad_norm": 0.8166525363922119,
      "learning_rate": 0.00015061122867830704,
      "loss": 4.0986,
      "step": 240380
    },
    {
      "epoch": 0.5008125,
      "grad_norm": 0.9734793901443481,
      "learning_rate": 0.00015060137020449005,
      "loss": 3.8625,
      "step": 240390
    },
    {
      "epoch": 0.5008333333333334,
      "grad_norm": 0.9053124189376831,
      "learning_rate": 0.00015059151172807546,
      "loss": 3.6619,
      "step": 240400
    },
    {
      "epoch": 0.5008541666666667,
      "grad_norm": 0.8596423268318176,
      "learning_rate": 0.00015058165324910574,
      "loss": 3.6633,
      "step": 240410
    },
    {
      "epoch": 0.500875,
      "grad_norm": 0.961681067943573,
      "learning_rate": 0.00015057179476762346,
      "loss": 3.8564,
      "step": 240420
    },
    {
      "epoch": 0.5008958333333333,
      "grad_norm": 0.8794329762458801,
      "learning_rate": 0.00015056193628367132,
      "loss": 4.0546,
      "step": 240430
    },
    {
      "epoch": 0.5009166666666667,
      "grad_norm": 0.964828372001648,
      "learning_rate": 0.0001505520777972918,
      "loss": 3.6643,
      "step": 240440
    },
    {
      "epoch": 0.5009375,
      "grad_norm": 0.9526093602180481,
      "learning_rate": 0.00015054221930852754,
      "loss": 3.7318,
      "step": 240450
    },
    {
      "epoch": 0.5009583333333333,
      "grad_norm": 0.8892757296562195,
      "learning_rate": 0.00015053236081742112,
      "loss": 3.8851,
      "step": 240460
    },
    {
      "epoch": 0.5009791666666666,
      "grad_norm": 0.8928616642951965,
      "learning_rate": 0.00015052250232401509,
      "loss": 3.8556,
      "step": 240470
    },
    {
      "epoch": 0.501,
      "grad_norm": 0.9648463129997253,
      "learning_rate": 0.00015051264382835207,
      "loss": 3.9888,
      "step": 240480
    },
    {
      "epoch": 0.5010208333333334,
      "grad_norm": 0.8463057279586792,
      "learning_rate": 0.00015050278533047462,
      "loss": 3.7937,
      "step": 240490
    },
    {
      "epoch": 0.5010416666666667,
      "grad_norm": 0.803631067276001,
      "learning_rate": 0.00015049292683042535,
      "loss": 3.7902,
      "step": 240500
    },
    {
      "epoch": 0.5010625,
      "grad_norm": 0.900101900100708,
      "learning_rate": 0.00015048306832824684,
      "loss": 3.7346,
      "step": 240510
    },
    {
      "epoch": 0.5010833333333333,
      "grad_norm": 0.9000957012176514,
      "learning_rate": 0.0001504732098239816,
      "loss": 3.7917,
      "step": 240520
    },
    {
      "epoch": 0.5011041666666667,
      "grad_norm": 0.9167935252189636,
      "learning_rate": 0.00015046335131767234,
      "loss": 3.8014,
      "step": 240530
    },
    {
      "epoch": 0.501125,
      "grad_norm": 0.9427536129951477,
      "learning_rate": 0.00015045349280936161,
      "loss": 3.8266,
      "step": 240540
    },
    {
      "epoch": 0.5011458333333333,
      "grad_norm": 0.9068713188171387,
      "learning_rate": 0.0001504436342990919,
      "loss": 3.7994,
      "step": 240550
    },
    {
      "epoch": 0.5011666666666666,
      "grad_norm": 0.8483899235725403,
      "learning_rate": 0.0001504337757869059,
      "loss": 3.9405,
      "step": 240560
    },
    {
      "epoch": 0.5011875,
      "grad_norm": 0.980919599533081,
      "learning_rate": 0.00015042391727284617,
      "loss": 3.9176,
      "step": 240570
    },
    {
      "epoch": 0.5012083333333334,
      "grad_norm": 0.8762331604957581,
      "learning_rate": 0.0001504140587569553,
      "loss": 3.996,
      "step": 240580
    },
    {
      "epoch": 0.5012291666666666,
      "grad_norm": 0.9122554659843445,
      "learning_rate": 0.0001504042002392758,
      "loss": 3.76,
      "step": 240590
    },
    {
      "epoch": 0.50125,
      "grad_norm": 0.9009571671485901,
      "learning_rate": 0.0001503943417198504,
      "loss": 3.7601,
      "step": 240600
    },
    {
      "epoch": 0.5012708333333333,
      "grad_norm": 1.0036336183547974,
      "learning_rate": 0.0001503844831987215,
      "loss": 3.8012,
      "step": 240610
    },
    {
      "epoch": 0.5012916666666667,
      "grad_norm": 0.871101438999176,
      "learning_rate": 0.00015037462467593183,
      "loss": 3.7753,
      "step": 240620
    },
    {
      "epoch": 0.5013125,
      "grad_norm": 0.8748307228088379,
      "learning_rate": 0.00015036476615152398,
      "loss": 3.9231,
      "step": 240630
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 0.9073345065116882,
      "learning_rate": 0.0001503549076255404,
      "loss": 4.0652,
      "step": 240640
    },
    {
      "epoch": 0.5013541666666667,
      "grad_norm": 0.9032347202301025,
      "learning_rate": 0.0001503450490980238,
      "loss": 3.9633,
      "step": 240650
    },
    {
      "epoch": 0.501375,
      "grad_norm": 1.0073121786117554,
      "learning_rate": 0.0001503351905690167,
      "loss": 3.8261,
      "step": 240660
    },
    {
      "epoch": 0.5013958333333334,
      "grad_norm": 0.8694244027137756,
      "learning_rate": 0.00015032533203856177,
      "loss": 3.7855,
      "step": 240670
    },
    {
      "epoch": 0.5014166666666666,
      "grad_norm": 0.8538393974304199,
      "learning_rate": 0.0001503154735067015,
      "loss": 3.8809,
      "step": 240680
    },
    {
      "epoch": 0.5014375,
      "grad_norm": 0.9013497829437256,
      "learning_rate": 0.0001503056149734785,
      "loss": 3.8315,
      "step": 240690
    },
    {
      "epoch": 0.5014583333333333,
      "grad_norm": 0.856393039226532,
      "learning_rate": 0.00015029575643893539,
      "loss": 4.0791,
      "step": 240700
    },
    {
      "epoch": 0.5014791666666667,
      "grad_norm": 0.8037189245223999,
      "learning_rate": 0.0001502858979031147,
      "loss": 3.8359,
      "step": 240710
    },
    {
      "epoch": 0.5015,
      "grad_norm": 0.8533027768135071,
      "learning_rate": 0.00015027603936605905,
      "loss": 3.76,
      "step": 240720
    },
    {
      "epoch": 0.5015208333333333,
      "grad_norm": 0.8583910465240479,
      "learning_rate": 0.00015026618082781103,
      "loss": 3.7589,
      "step": 240730
    },
    {
      "epoch": 0.5015416666666667,
      "grad_norm": 0.9882491230964661,
      "learning_rate": 0.00015025632228841322,
      "loss": 3.9645,
      "step": 240740
    },
    {
      "epoch": 0.5015625,
      "grad_norm": 0.8594832420349121,
      "learning_rate": 0.00015024646374790814,
      "loss": 3.9644,
      "step": 240750
    },
    {
      "epoch": 0.5015833333333334,
      "grad_norm": 0.8621526956558228,
      "learning_rate": 0.00015023660520633848,
      "loss": 3.699,
      "step": 240760
    },
    {
      "epoch": 0.5016041666666666,
      "grad_norm": 0.8252798318862915,
      "learning_rate": 0.00015022674666374683,
      "loss": 3.8906,
      "step": 240770
    },
    {
      "epoch": 0.501625,
      "grad_norm": 0.918489396572113,
      "learning_rate": 0.00015021688812017568,
      "loss": 3.9498,
      "step": 240780
    },
    {
      "epoch": 0.5016458333333333,
      "grad_norm": 0.8815695643424988,
      "learning_rate": 0.00015020702957566762,
      "loss": 3.8925,
      "step": 240790
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 0.8333140015602112,
      "learning_rate": 0.00015019717103026533,
      "loss": 3.7286,
      "step": 240800
    },
    {
      "epoch": 0.5016875,
      "grad_norm": 0.8728705644607544,
      "learning_rate": 0.0001501873124840113,
      "loss": 3.9263,
      "step": 240810
    },
    {
      "epoch": 0.5017083333333333,
      "grad_norm": 0.9845247268676758,
      "learning_rate": 0.00015017745393694818,
      "loss": 4.0196,
      "step": 240820
    },
    {
      "epoch": 0.5017291666666667,
      "grad_norm": 1.2804441452026367,
      "learning_rate": 0.00015016759538911853,
      "loss": 3.7938,
      "step": 240830
    },
    {
      "epoch": 0.50175,
      "grad_norm": 0.8566537499427795,
      "learning_rate": 0.0001501577368405649,
      "loss": 3.7766,
      "step": 240840
    },
    {
      "epoch": 0.5017708333333334,
      "grad_norm": 1.0073684453964233,
      "learning_rate": 0.00015014787829132996,
      "loss": 3.6132,
      "step": 240850
    },
    {
      "epoch": 0.5017916666666666,
      "grad_norm": 0.8672218918800354,
      "learning_rate": 0.00015013801974145618,
      "loss": 3.6034,
      "step": 240860
    },
    {
      "epoch": 0.5018125,
      "grad_norm": 0.8578982353210449,
      "learning_rate": 0.00015012816119098626,
      "loss": 3.8306,
      "step": 240870
    },
    {
      "epoch": 0.5018333333333334,
      "grad_norm": 0.8528780341148376,
      "learning_rate": 0.00015011830263996276,
      "loss": 3.9551,
      "step": 240880
    },
    {
      "epoch": 0.5018541666666667,
      "grad_norm": 0.8325484395027161,
      "learning_rate": 0.00015010844408842815,
      "loss": 3.8282,
      "step": 240890
    },
    {
      "epoch": 0.501875,
      "grad_norm": 0.9165484309196472,
      "learning_rate": 0.00015009858553642518,
      "loss": 3.9031,
      "step": 240900
    },
    {
      "epoch": 0.5018958333333333,
      "grad_norm": 0.8460545539855957,
      "learning_rate": 0.00015008872698399638,
      "loss": 3.8489,
      "step": 240910
    },
    {
      "epoch": 0.5019166666666667,
      "grad_norm": 0.8491241931915283,
      "learning_rate": 0.0001500788684311842,
      "loss": 3.8084,
      "step": 240920
    },
    {
      "epoch": 0.5019375,
      "grad_norm": 1.3868474960327148,
      "learning_rate": 0.00015006900987803143,
      "loss": 4.0528,
      "step": 240930
    },
    {
      "epoch": 0.5019583333333333,
      "grad_norm": 0.9536003470420837,
      "learning_rate": 0.00015005915132458057,
      "loss": 3.842,
      "step": 240940
    },
    {
      "epoch": 0.5019791666666666,
      "grad_norm": 0.8544806241989136,
      "learning_rate": 0.00015004929277087414,
      "loss": 4.1342,
      "step": 240950
    },
    {
      "epoch": 0.502,
      "grad_norm": 0.9551974534988403,
      "learning_rate": 0.00015003943421695482,
      "loss": 3.6701,
      "step": 240960
    },
    {
      "epoch": 0.5020208333333334,
      "grad_norm": 0.9955378770828247,
      "learning_rate": 0.00015002957566286518,
      "loss": 4.0654,
      "step": 240970
    },
    {
      "epoch": 0.5020416666666667,
      "grad_norm": 0.957612156867981,
      "learning_rate": 0.0001500197171086478,
      "loss": 3.8647,
      "step": 240980
    },
    {
      "epoch": 0.5020625,
      "grad_norm": 0.8995630741119385,
      "learning_rate": 0.00015000985855434515,
      "loss": 3.9326,
      "step": 240990
    },
    {
      "epoch": 0.5020833333333333,
      "grad_norm": 1.0056818723678589,
      "learning_rate": 0.00015,
      "loss": 3.7209,
      "step": 241000
    },
    {
      "epoch": 0.5020833333333333,
      "eval_loss": 3.6127560138702393,
      "eval_runtime": 7.308,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.411,
      "step": 241000
    },
    {
      "epoch": 0.5021041666666667,
      "grad_norm": 0.8467680811882019,
      "learning_rate": 0.00014999014144565485,
      "loss": 4.0056,
      "step": 241010
    },
    {
      "epoch": 0.502125,
      "grad_norm": 0.8924643993377686,
      "learning_rate": 0.00014998028289135224,
      "loss": 3.842,
      "step": 241020
    },
    {
      "epoch": 0.5021458333333333,
      "grad_norm": 0.8492577075958252,
      "learning_rate": 0.00014997042433713482,
      "loss": 3.938,
      "step": 241030
    },
    {
      "epoch": 0.5021666666666667,
      "grad_norm": 1.2177762985229492,
      "learning_rate": 0.00014996056578304518,
      "loss": 3.9829,
      "step": 241040
    },
    {
      "epoch": 0.5021875,
      "grad_norm": 1.0166157484054565,
      "learning_rate": 0.00014995070722912583,
      "loss": 3.8936,
      "step": 241050
    },
    {
      "epoch": 0.5022083333333334,
      "grad_norm": 0.8914336562156677,
      "learning_rate": 0.00014994084867541943,
      "loss": 3.9637,
      "step": 241060
    },
    {
      "epoch": 0.5022291666666666,
      "grad_norm": 0.9324952960014343,
      "learning_rate": 0.00014993099012196857,
      "loss": 3.775,
      "step": 241070
    },
    {
      "epoch": 0.50225,
      "grad_norm": 0.8849633932113647,
      "learning_rate": 0.00014992113156881575,
      "loss": 3.8479,
      "step": 241080
    },
    {
      "epoch": 0.5022708333333333,
      "grad_norm": 0.9936339259147644,
      "learning_rate": 0.00014991127301600365,
      "loss": 3.8554,
      "step": 241090
    },
    {
      "epoch": 0.5022916666666667,
      "grad_norm": 0.7816659808158875,
      "learning_rate": 0.00014990141446357484,
      "loss": 3.9007,
      "step": 241100
    },
    {
      "epoch": 0.5023125,
      "grad_norm": 0.9970495104789734,
      "learning_rate": 0.0001498915559115718,
      "loss": 3.9152,
      "step": 241110
    },
    {
      "epoch": 0.5023333333333333,
      "grad_norm": 0.8488624095916748,
      "learning_rate": 0.00014988169736003724,
      "loss": 3.8835,
      "step": 241120
    },
    {
      "epoch": 0.5023541666666667,
      "grad_norm": 0.9114990830421448,
      "learning_rate": 0.00014987183880901375,
      "loss": 3.9741,
      "step": 241130
    },
    {
      "epoch": 0.502375,
      "grad_norm": 1.4696170091629028,
      "learning_rate": 0.00014986198025854376,
      "loss": 3.7134,
      "step": 241140
    },
    {
      "epoch": 0.5023958333333334,
      "grad_norm": 0.8319947719573975,
      "learning_rate": 0.00014985212170867007,
      "loss": 3.7484,
      "step": 241150
    },
    {
      "epoch": 0.5024166666666666,
      "grad_norm": 0.9460369944572449,
      "learning_rate": 0.00014984226315943507,
      "loss": 3.8381,
      "step": 241160
    },
    {
      "epoch": 0.5024375,
      "grad_norm": 0.9012752175331116,
      "learning_rate": 0.00014983240461088153,
      "loss": 3.9193,
      "step": 241170
    },
    {
      "epoch": 0.5024583333333333,
      "grad_norm": 0.8759920597076416,
      "learning_rate": 0.00014982254606305182,
      "loss": 3.9366,
      "step": 241180
    },
    {
      "epoch": 0.5024791666666667,
      "grad_norm": 0.9072719216346741,
      "learning_rate": 0.0001498126875159887,
      "loss": 3.8609,
      "step": 241190
    },
    {
      "epoch": 0.5025,
      "grad_norm": 0.9358037114143372,
      "learning_rate": 0.00014980282896973472,
      "loss": 3.8901,
      "step": 241200
    },
    {
      "epoch": 0.5025208333333333,
      "grad_norm": 0.8954765796661377,
      "learning_rate": 0.00014979297042433235,
      "loss": 4.0248,
      "step": 241210
    },
    {
      "epoch": 0.5025416666666667,
      "grad_norm": 0.8392236232757568,
      "learning_rate": 0.00014978311187982435,
      "loss": 3.8811,
      "step": 241220
    },
    {
      "epoch": 0.5025625,
      "grad_norm": 0.8550064563751221,
      "learning_rate": 0.0001497732533362532,
      "loss": 3.6969,
      "step": 241230
    },
    {
      "epoch": 0.5025833333333334,
      "grad_norm": 0.9792676568031311,
      "learning_rate": 0.0001497633947936615,
      "loss": 3.8191,
      "step": 241240
    },
    {
      "epoch": 0.5026041666666666,
      "grad_norm": 1.2425025701522827,
      "learning_rate": 0.00014975353625209186,
      "loss": 4.0111,
      "step": 241250
    },
    {
      "epoch": 0.502625,
      "grad_norm": 0.8652493357658386,
      "learning_rate": 0.0001497436777115868,
      "loss": 3.7822,
      "step": 241260
    },
    {
      "epoch": 0.5026458333333333,
      "grad_norm": 0.9074041843414307,
      "learning_rate": 0.00014973381917218894,
      "loss": 3.9224,
      "step": 241270
    },
    {
      "epoch": 0.5026666666666667,
      "grad_norm": 0.9820511937141418,
      "learning_rate": 0.00014972396063394095,
      "loss": 4.1096,
      "step": 241280
    },
    {
      "epoch": 0.5026875,
      "grad_norm": 1.01774263381958,
      "learning_rate": 0.00014971410209688532,
      "loss": 3.9164,
      "step": 241290
    },
    {
      "epoch": 0.5027083333333333,
      "grad_norm": 0.8014479875564575,
      "learning_rate": 0.0001497042435610646,
      "loss": 3.6966,
      "step": 241300
    },
    {
      "epoch": 0.5027291666666667,
      "grad_norm": 1.0379223823547363,
      "learning_rate": 0.00014969438502652148,
      "loss": 3.9011,
      "step": 241310
    },
    {
      "epoch": 0.50275,
      "grad_norm": 0.9656950235366821,
      "learning_rate": 0.0001496845264932985,
      "loss": 3.5898,
      "step": 241320
    },
    {
      "epoch": 0.5027708333333333,
      "grad_norm": 0.9308617115020752,
      "learning_rate": 0.0001496746679614382,
      "loss": 3.7389,
      "step": 241330
    },
    {
      "epoch": 0.5027916666666666,
      "grad_norm": 1.2716091871261597,
      "learning_rate": 0.00014966480943098327,
      "loss": 3.872,
      "step": 241340
    },
    {
      "epoch": 0.5028125,
      "grad_norm": 1.1598117351531982,
      "learning_rate": 0.00014965495090197618,
      "loss": 3.7249,
      "step": 241350
    },
    {
      "epoch": 0.5028333333333334,
      "grad_norm": 0.9085768461227417,
      "learning_rate": 0.00014964509237445954,
      "loss": 3.9679,
      "step": 241360
    },
    {
      "epoch": 0.5028541666666667,
      "grad_norm": 0.8450786471366882,
      "learning_rate": 0.00014963523384847605,
      "loss": 3.8145,
      "step": 241370
    },
    {
      "epoch": 0.502875,
      "grad_norm": 0.8783350586891174,
      "learning_rate": 0.00014962537532406818,
      "loss": 3.7363,
      "step": 241380
    },
    {
      "epoch": 0.5028958333333333,
      "grad_norm": 1.074088454246521,
      "learning_rate": 0.00014961551680127847,
      "loss": 3.991,
      "step": 241390
    },
    {
      "epoch": 0.5029166666666667,
      "grad_norm": 0.8178130984306335,
      "learning_rate": 0.00014960565828014963,
      "loss": 3.7917,
      "step": 241400
    },
    {
      "epoch": 0.5029375,
      "grad_norm": 0.7801949977874756,
      "learning_rate": 0.0001495957997607242,
      "loss": 3.6279,
      "step": 241410
    },
    {
      "epoch": 0.5029583333333333,
      "grad_norm": 0.9751603603363037,
      "learning_rate": 0.0001495859412430447,
      "loss": 4.0132,
      "step": 241420
    },
    {
      "epoch": 0.5029791666666666,
      "grad_norm": 0.8667702674865723,
      "learning_rate": 0.0001495760827271538,
      "loss": 3.9818,
      "step": 241430
    },
    {
      "epoch": 0.503,
      "grad_norm": 0.8699584007263184,
      "learning_rate": 0.0001495662242130941,
      "loss": 3.7561,
      "step": 241440
    },
    {
      "epoch": 0.5030208333333334,
      "grad_norm": 0.9711358547210693,
      "learning_rate": 0.0001495563657009081,
      "loss": 3.8334,
      "step": 241450
    },
    {
      "epoch": 0.5030416666666667,
      "grad_norm": 0.9183059930801392,
      "learning_rate": 0.00014954650719063839,
      "loss": 3.8405,
      "step": 241460
    },
    {
      "epoch": 0.5030625,
      "grad_norm": 0.8955113887786865,
      "learning_rate": 0.00014953664868232766,
      "loss": 3.9446,
      "step": 241470
    },
    {
      "epoch": 0.5030833333333333,
      "grad_norm": 0.840499222278595,
      "learning_rate": 0.00014952679017601837,
      "loss": 3.8936,
      "step": 241480
    },
    {
      "epoch": 0.5031041666666667,
      "grad_norm": 1.0084120035171509,
      "learning_rate": 0.00014951693167175316,
      "loss": 3.8847,
      "step": 241490
    },
    {
      "epoch": 0.503125,
      "grad_norm": 0.8496471643447876,
      "learning_rate": 0.00014950707316957465,
      "loss": 3.8574,
      "step": 241500
    },
    {
      "epoch": 0.5031458333333333,
      "grad_norm": 0.8734408617019653,
      "learning_rate": 0.0001494972146695254,
      "loss": 3.7512,
      "step": 241510
    },
    {
      "epoch": 0.5031666666666667,
      "grad_norm": 0.868618369102478,
      "learning_rate": 0.00014948735617164793,
      "loss": 3.8563,
      "step": 241520
    },
    {
      "epoch": 0.5031875,
      "grad_norm": 0.9888930916786194,
      "learning_rate": 0.0001494774976759849,
      "loss": 3.8532,
      "step": 241530
    },
    {
      "epoch": 0.5032083333333334,
      "grad_norm": 0.8976196050643921,
      "learning_rate": 0.0001494676391825789,
      "loss": 3.9059,
      "step": 241540
    },
    {
      "epoch": 0.5032291666666666,
      "grad_norm": 0.9866194725036621,
      "learning_rate": 0.00014945778069147244,
      "loss": 3.9663,
      "step": 241550
    },
    {
      "epoch": 0.50325,
      "grad_norm": 0.9439435005187988,
      "learning_rate": 0.00014944792220270817,
      "loss": 3.9413,
      "step": 241560
    },
    {
      "epoch": 0.5032708333333333,
      "grad_norm": 1.0531753301620483,
      "learning_rate": 0.0001494380637163287,
      "loss": 3.914,
      "step": 241570
    },
    {
      "epoch": 0.5032916666666667,
      "grad_norm": 0.8748051524162292,
      "learning_rate": 0.0001494282052323765,
      "loss": 3.8332,
      "step": 241580
    },
    {
      "epoch": 0.5033125,
      "grad_norm": 0.9364986419677734,
      "learning_rate": 0.00014941834675089426,
      "loss": 3.8123,
      "step": 241590
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 0.9022115468978882,
      "learning_rate": 0.00014940848827192456,
      "loss": 3.8403,
      "step": 241600
    },
    {
      "epoch": 0.5033541666666667,
      "grad_norm": 0.9479325413703918,
      "learning_rate": 0.0001493986297955099,
      "loss": 3.9716,
      "step": 241610
    },
    {
      "epoch": 0.503375,
      "grad_norm": 0.8819119334220886,
      "learning_rate": 0.00014938877132169296,
      "loss": 3.5403,
      "step": 241620
    },
    {
      "epoch": 0.5033958333333334,
      "grad_norm": 0.9094054102897644,
      "learning_rate": 0.0001493789128505163,
      "loss": 3.8365,
      "step": 241630
    },
    {
      "epoch": 0.5034166666666666,
      "grad_norm": 0.8970901966094971,
      "learning_rate": 0.00014936905438202243,
      "loss": 3.8723,
      "step": 241640
    },
    {
      "epoch": 0.5034375,
      "grad_norm": 0.868911623954773,
      "learning_rate": 0.00014935919591625406,
      "loss": 3.8874,
      "step": 241650
    },
    {
      "epoch": 0.5034583333333333,
      "grad_norm": 1.1119272708892822,
      "learning_rate": 0.0001493493374532537,
      "loss": 3.9108,
      "step": 241660
    },
    {
      "epoch": 0.5034791666666667,
      "grad_norm": 0.9388136267662048,
      "learning_rate": 0.00014933947899306387,
      "loss": 3.7431,
      "step": 241670
    },
    {
      "epoch": 0.5035,
      "grad_norm": 0.9845413565635681,
      "learning_rate": 0.00014932962053572734,
      "loss": 3.8562,
      "step": 241680
    },
    {
      "epoch": 0.5035208333333333,
      "grad_norm": 1.0921597480773926,
      "learning_rate": 0.00014931976208128653,
      "loss": 3.6854,
      "step": 241690
    },
    {
      "epoch": 0.5035416666666667,
      "grad_norm": 0.9491283893585205,
      "learning_rate": 0.00014930990362978404,
      "loss": 4.1056,
      "step": 241700
    },
    {
      "epoch": 0.5035625,
      "grad_norm": 0.8304920792579651,
      "learning_rate": 0.00014930004518126256,
      "loss": 3.8413,
      "step": 241710
    },
    {
      "epoch": 0.5035833333333334,
      "grad_norm": 0.849544107913971,
      "learning_rate": 0.00014929018673576458,
      "loss": 3.9688,
      "step": 241720
    },
    {
      "epoch": 0.5036041666666666,
      "grad_norm": 0.9605156779289246,
      "learning_rate": 0.00014928032829333268,
      "loss": 3.9067,
      "step": 241730
    },
    {
      "epoch": 0.503625,
      "grad_norm": 1.0212607383728027,
      "learning_rate": 0.00014927046985400955,
      "loss": 3.7241,
      "step": 241740
    },
    {
      "epoch": 0.5036458333333333,
      "grad_norm": 0.9378691911697388,
      "learning_rate": 0.00014926061141783768,
      "loss": 3.8052,
      "step": 241750
    },
    {
      "epoch": 0.5036666666666667,
      "grad_norm": 0.8785404562950134,
      "learning_rate": 0.00014925075298485965,
      "loss": 3.8816,
      "step": 241760
    },
    {
      "epoch": 0.5036875,
      "grad_norm": 0.8995434641838074,
      "learning_rate": 0.00014924089455511808,
      "loss": 3.9493,
      "step": 241770
    },
    {
      "epoch": 0.5037083333333333,
      "grad_norm": 0.9175555109977722,
      "learning_rate": 0.00014923103612865556,
      "loss": 3.9638,
      "step": 241780
    },
    {
      "epoch": 0.5037291666666667,
      "grad_norm": 0.7813034653663635,
      "learning_rate": 0.00014922117770551464,
      "loss": 3.9503,
      "step": 241790
    },
    {
      "epoch": 0.50375,
      "grad_norm": 1.1187975406646729,
      "learning_rate": 0.0001492113192857379,
      "loss": 3.6824,
      "step": 241800
    },
    {
      "epoch": 0.5037708333333333,
      "grad_norm": 0.9404045343399048,
      "learning_rate": 0.000149201460869368,
      "loss": 3.9382,
      "step": 241810
    },
    {
      "epoch": 0.5037916666666666,
      "grad_norm": 0.9799689650535583,
      "learning_rate": 0.00014919160245644746,
      "loss": 3.8229,
      "step": 241820
    },
    {
      "epoch": 0.5038125,
      "grad_norm": 0.8703347444534302,
      "learning_rate": 0.00014918174404701884,
      "loss": 3.9736,
      "step": 241830
    },
    {
      "epoch": 0.5038333333333334,
      "grad_norm": 0.9599430561065674,
      "learning_rate": 0.0001491718856411248,
      "loss": 3.7103,
      "step": 241840
    },
    {
      "epoch": 0.5038541666666667,
      "grad_norm": 0.8809079527854919,
      "learning_rate": 0.00014916202723880788,
      "loss": 3.847,
      "step": 241850
    },
    {
      "epoch": 0.503875,
      "grad_norm": 0.9222766160964966,
      "learning_rate": 0.00014915216884011065,
      "loss": 3.8435,
      "step": 241860
    },
    {
      "epoch": 0.5038958333333333,
      "grad_norm": 0.9099399447441101,
      "learning_rate": 0.00014914231044507574,
      "loss": 3.9913,
      "step": 241870
    },
    {
      "epoch": 0.5039166666666667,
      "grad_norm": 0.9424041509628296,
      "learning_rate": 0.00014913245205374574,
      "loss": 3.8948,
      "step": 241880
    },
    {
      "epoch": 0.5039375,
      "grad_norm": 0.8636264204978943,
      "learning_rate": 0.00014912259366616312,
      "loss": 3.8164,
      "step": 241890
    },
    {
      "epoch": 0.5039583333333333,
      "grad_norm": 0.9899728894233704,
      "learning_rate": 0.0001491127352823706,
      "loss": 3.7854,
      "step": 241900
    },
    {
      "epoch": 0.5039791666666666,
      "grad_norm": 0.9114317893981934,
      "learning_rate": 0.00014910287690241073,
      "loss": 3.951,
      "step": 241910
    },
    {
      "epoch": 0.504,
      "grad_norm": 0.8390372395515442,
      "learning_rate": 0.00014909301852632603,
      "loss": 3.5927,
      "step": 241920
    },
    {
      "epoch": 0.5040208333333334,
      "grad_norm": 0.8613981604576111,
      "learning_rate": 0.00014908316015415914,
      "loss": 3.9281,
      "step": 241930
    },
    {
      "epoch": 0.5040416666666667,
      "grad_norm": 0.8017783164978027,
      "learning_rate": 0.00014907330178595267,
      "loss": 4.0054,
      "step": 241940
    },
    {
      "epoch": 0.5040625,
      "grad_norm": 0.9093623757362366,
      "learning_rate": 0.0001490634434217491,
      "loss": 3.962,
      "step": 241950
    },
    {
      "epoch": 0.5040833333333333,
      "grad_norm": 0.8511279225349426,
      "learning_rate": 0.00014905358506159114,
      "loss": 3.9864,
      "step": 241960
    },
    {
      "epoch": 0.5041041666666667,
      "grad_norm": 0.8701027631759644,
      "learning_rate": 0.00014904372670552135,
      "loss": 3.9632,
      "step": 241970
    },
    {
      "epoch": 0.504125,
      "grad_norm": 0.9288253784179688,
      "learning_rate": 0.0001490338683535822,
      "loss": 3.8746,
      "step": 241980
    },
    {
      "epoch": 0.5041458333333333,
      "grad_norm": 0.9973242282867432,
      "learning_rate": 0.0001490240100058164,
      "loss": 3.9514,
      "step": 241990
    },
    {
      "epoch": 0.5041666666666667,
      "grad_norm": 0.8706850409507751,
      "learning_rate": 0.0001490141516622665,
      "loss": 3.8876,
      "step": 242000
    },
    {
      "epoch": 0.5041666666666667,
      "eval_loss": 3.6219265460968018,
      "eval_runtime": 6.8371,
      "eval_samples_per_second": 1.463,
      "eval_steps_per_second": 0.439,
      "step": 242000
    },
    {
      "epoch": 0.5041875,
      "grad_norm": 0.8911142945289612,
      "learning_rate": 0.00014900429332297504,
      "loss": 3.7819,
      "step": 242010
    },
    {
      "epoch": 0.5042083333333334,
      "grad_norm": 0.8056191802024841,
      "learning_rate": 0.00014899443498798468,
      "loss": 4.0271,
      "step": 242020
    },
    {
      "epoch": 0.5042291666666666,
      "grad_norm": 0.8113033771514893,
      "learning_rate": 0.00014898457665733796,
      "loss": 3.6751,
      "step": 242030
    },
    {
      "epoch": 0.50425,
      "grad_norm": 0.9766744375228882,
      "learning_rate": 0.00014897471833107747,
      "loss": 3.7772,
      "step": 242040
    },
    {
      "epoch": 0.5042708333333333,
      "grad_norm": 0.8820945620536804,
      "learning_rate": 0.00014896486000924572,
      "loss": 3.773,
      "step": 242050
    },
    {
      "epoch": 0.5042916666666667,
      "grad_norm": 1.1420037746429443,
      "learning_rate": 0.00014895500169188544,
      "loss": 3.8262,
      "step": 242060
    },
    {
      "epoch": 0.5043125,
      "grad_norm": 0.8924025297164917,
      "learning_rate": 0.00014894514337903916,
      "loss": 3.9958,
      "step": 242070
    },
    {
      "epoch": 0.5043333333333333,
      "grad_norm": 0.9393697381019592,
      "learning_rate": 0.00014893528507074934,
      "loss": 3.8271,
      "step": 242080
    },
    {
      "epoch": 0.5043541666666667,
      "grad_norm": 0.8760461211204529,
      "learning_rate": 0.00014892542676705873,
      "loss": 3.7677,
      "step": 242090
    },
    {
      "epoch": 0.504375,
      "grad_norm": 0.8349840044975281,
      "learning_rate": 0.00014891556846800987,
      "loss": 3.9828,
      "step": 242100
    },
    {
      "epoch": 0.5043958333333334,
      "grad_norm": 0.8239060640335083,
      "learning_rate": 0.00014890571017364527,
      "loss": 3.9153,
      "step": 242110
    },
    {
      "epoch": 0.5044166666666666,
      "grad_norm": 0.9313180446624756,
      "learning_rate": 0.0001488958518840076,
      "loss": 3.8678,
      "step": 242120
    },
    {
      "epoch": 0.5044375,
      "grad_norm": 1.0741225481033325,
      "learning_rate": 0.00014888599359913943,
      "loss": 3.8384,
      "step": 242130
    },
    {
      "epoch": 0.5044583333333333,
      "grad_norm": 0.8564743399620056,
      "learning_rate": 0.0001488761353190833,
      "loss": 3.8521,
      "step": 242140
    },
    {
      "epoch": 0.5044791666666667,
      "grad_norm": 0.9031218886375427,
      "learning_rate": 0.00014886627704388186,
      "loss": 3.9647,
      "step": 242150
    },
    {
      "epoch": 0.5045,
      "grad_norm": 0.8912355899810791,
      "learning_rate": 0.0001488564187735776,
      "loss": 3.8896,
      "step": 242160
    },
    {
      "epoch": 0.5045208333333333,
      "grad_norm": 0.9104514718055725,
      "learning_rate": 0.00014884656050821317,
      "loss": 3.9294,
      "step": 242170
    },
    {
      "epoch": 0.5045416666666667,
      "grad_norm": 0.840573251247406,
      "learning_rate": 0.00014883670224783118,
      "loss": 3.754,
      "step": 242180
    },
    {
      "epoch": 0.5045625,
      "grad_norm": 0.9015724062919617,
      "learning_rate": 0.00014882684399247415,
      "loss": 3.818,
      "step": 242190
    },
    {
      "epoch": 0.5045833333333334,
      "grad_norm": 0.9001622200012207,
      "learning_rate": 0.00014881698574218465,
      "loss": 3.8807,
      "step": 242200
    },
    {
      "epoch": 0.5046041666666666,
      "grad_norm": 0.9810529947280884,
      "learning_rate": 0.00014880712749700537,
      "loss": 3.8949,
      "step": 242210
    },
    {
      "epoch": 0.504625,
      "grad_norm": 0.8924506902694702,
      "learning_rate": 0.0001487972692569788,
      "loss": 3.8065,
      "step": 242220
    },
    {
      "epoch": 0.5046458333333333,
      "grad_norm": 0.86651611328125,
      "learning_rate": 0.00014878741102214752,
      "loss": 3.8485,
      "step": 242230
    },
    {
      "epoch": 0.5046666666666667,
      "grad_norm": 0.9438307881355286,
      "learning_rate": 0.0001487775527925542,
      "loss": 4.0182,
      "step": 242240
    },
    {
      "epoch": 0.5046875,
      "grad_norm": 0.8089107275009155,
      "learning_rate": 0.00014876769456824136,
      "loss": 3.767,
      "step": 242250
    },
    {
      "epoch": 0.5047083333333333,
      "grad_norm": 0.8676757216453552,
      "learning_rate": 0.00014875783634925153,
      "loss": 3.7725,
      "step": 242260
    },
    {
      "epoch": 0.5047291666666667,
      "grad_norm": 0.9428348541259766,
      "learning_rate": 0.00014874797813562744,
      "loss": 3.8653,
      "step": 242270
    },
    {
      "epoch": 0.50475,
      "grad_norm": 0.8487641215324402,
      "learning_rate": 0.00014873811992741157,
      "loss": 3.9055,
      "step": 242280
    },
    {
      "epoch": 0.5047708333333333,
      "grad_norm": 0.8714691400527954,
      "learning_rate": 0.00014872826172464648,
      "loss": 3.8518,
      "step": 242290
    },
    {
      "epoch": 0.5047916666666666,
      "grad_norm": 0.8770940899848938,
      "learning_rate": 0.00014871840352737479,
      "loss": 3.808,
      "step": 242300
    },
    {
      "epoch": 0.5048125,
      "grad_norm": 1.0025118589401245,
      "learning_rate": 0.00014870854533563917,
      "loss": 4.0203,
      "step": 242310
    },
    {
      "epoch": 0.5048333333333334,
      "grad_norm": 1.045750379562378,
      "learning_rate": 0.00014869868714948204,
      "loss": 4.091,
      "step": 242320
    },
    {
      "epoch": 0.5048541666666667,
      "grad_norm": 0.8918604850769043,
      "learning_rate": 0.0001486888289689461,
      "loss": 3.9017,
      "step": 242330
    },
    {
      "epoch": 0.504875,
      "grad_norm": 0.9321357011795044,
      "learning_rate": 0.00014867897079407392,
      "loss": 3.8725,
      "step": 242340
    },
    {
      "epoch": 0.5048958333333333,
      "grad_norm": 0.8478075861930847,
      "learning_rate": 0.00014866911262490803,
      "loss": 3.7701,
      "step": 242350
    },
    {
      "epoch": 0.5049166666666667,
      "grad_norm": 1.0734776258468628,
      "learning_rate": 0.00014865925446149104,
      "loss": 3.9122,
      "step": 242360
    },
    {
      "epoch": 0.5049375,
      "grad_norm": 1.0282057523727417,
      "learning_rate": 0.00014864939630386556,
      "loss": 3.8745,
      "step": 242370
    },
    {
      "epoch": 0.5049583333333333,
      "grad_norm": 0.9545512795448303,
      "learning_rate": 0.00014863953815207417,
      "loss": 3.9429,
      "step": 242380
    },
    {
      "epoch": 0.5049791666666666,
      "grad_norm": 1.0498237609863281,
      "learning_rate": 0.0001486296800061594,
      "loss": 3.8798,
      "step": 242390
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.9865562915802002,
      "learning_rate": 0.0001486198218661639,
      "loss": 3.8377,
      "step": 242400
    },
    {
      "epoch": 0.5050208333333334,
      "grad_norm": 0.9275421500205994,
      "learning_rate": 0.00014860996373213025,
      "loss": 3.8495,
      "step": 242410
    },
    {
      "epoch": 0.5050416666666667,
      "grad_norm": 0.9547694325447083,
      "learning_rate": 0.0001486001056041009,
      "loss": 3.887,
      "step": 242420
    },
    {
      "epoch": 0.5050625,
      "grad_norm": 0.9281110167503357,
      "learning_rate": 0.0001485902474821186,
      "loss": 3.9447,
      "step": 242430
    },
    {
      "epoch": 0.5050833333333333,
      "grad_norm": 0.8735876679420471,
      "learning_rate": 0.0001485803893662259,
      "loss": 3.9884,
      "step": 242440
    },
    {
      "epoch": 0.5051041666666667,
      "grad_norm": 0.9820119738578796,
      "learning_rate": 0.00014857053125646533,
      "loss": 3.8718,
      "step": 242450
    },
    {
      "epoch": 0.505125,
      "grad_norm": 0.8836981654167175,
      "learning_rate": 0.0001485606731528795,
      "loss": 3.8635,
      "step": 242460
    },
    {
      "epoch": 0.5051458333333333,
      "grad_norm": 0.8318063616752625,
      "learning_rate": 0.00014855081505551102,
      "loss": 3.8484,
      "step": 242470
    },
    {
      "epoch": 0.5051666666666667,
      "grad_norm": 0.9121662378311157,
      "learning_rate": 0.0001485409569644024,
      "loss": 3.8747,
      "step": 242480
    },
    {
      "epoch": 0.5051875,
      "grad_norm": 0.940436601638794,
      "learning_rate": 0.00014853109887959627,
      "loss": 3.8686,
      "step": 242490
    },
    {
      "epoch": 0.5052083333333334,
      "grad_norm": 0.9380000233650208,
      "learning_rate": 0.00014852124080113528,
      "loss": 4.0195,
      "step": 242500
    },
    {
      "epoch": 0.5052291666666666,
      "grad_norm": 0.8914737701416016,
      "learning_rate": 0.00014851138272906186,
      "loss": 4.0239,
      "step": 242510
    },
    {
      "epoch": 0.50525,
      "grad_norm": 0.8801217079162598,
      "learning_rate": 0.00014850152466341874,
      "loss": 3.907,
      "step": 242520
    },
    {
      "epoch": 0.5052708333333333,
      "grad_norm": 1.0649067163467407,
      "learning_rate": 0.00014849166660424842,
      "loss": 3.8861,
      "step": 242530
    },
    {
      "epoch": 0.5052916666666667,
      "grad_norm": 0.9259937405586243,
      "learning_rate": 0.00014848180855159347,
      "loss": 3.9128,
      "step": 242540
    },
    {
      "epoch": 0.5053125,
      "grad_norm": 0.8405206203460693,
      "learning_rate": 0.00014847195050549653,
      "loss": 4.064,
      "step": 242550
    },
    {
      "epoch": 0.5053333333333333,
      "grad_norm": 0.9457898139953613,
      "learning_rate": 0.00014846209246600016,
      "loss": 3.7913,
      "step": 242560
    },
    {
      "epoch": 0.5053541666666667,
      "grad_norm": 1.0299185514450073,
      "learning_rate": 0.00014845223443314692,
      "loss": 4.022,
      "step": 242570
    },
    {
      "epoch": 0.505375,
      "grad_norm": 0.9072026014328003,
      "learning_rate": 0.00014844237640697946,
      "loss": 3.7735,
      "step": 242580
    },
    {
      "epoch": 0.5053958333333334,
      "grad_norm": 1.1221143007278442,
      "learning_rate": 0.0001484325183875403,
      "loss": 3.9752,
      "step": 242590
    },
    {
      "epoch": 0.5054166666666666,
      "grad_norm": 1.0240589380264282,
      "learning_rate": 0.000148422660374872,
      "loss": 3.9303,
      "step": 242600
    },
    {
      "epoch": 0.5054375,
      "grad_norm": 0.945694625377655,
      "learning_rate": 0.00014841280236901726,
      "loss": 3.8815,
      "step": 242610
    },
    {
      "epoch": 0.5054583333333333,
      "grad_norm": 0.8391692638397217,
      "learning_rate": 0.00014840294437001855,
      "loss": 3.815,
      "step": 242620
    },
    {
      "epoch": 0.5054791666666667,
      "grad_norm": 0.8190421462059021,
      "learning_rate": 0.0001483930863779185,
      "loss": 3.8777,
      "step": 242630
    },
    {
      "epoch": 0.5055,
      "grad_norm": 0.8633368611335754,
      "learning_rate": 0.00014838322839275963,
      "loss": 3.8175,
      "step": 242640
    },
    {
      "epoch": 0.5055208333333333,
      "grad_norm": 0.9161521792411804,
      "learning_rate": 0.00014837337041458465,
      "loss": 3.8209,
      "step": 242650
    },
    {
      "epoch": 0.5055416666666667,
      "grad_norm": 0.8356123566627502,
      "learning_rate": 0.000148363512443436,
      "loss": 3.8811,
      "step": 242660
    },
    {
      "epoch": 0.5055625,
      "grad_norm": 0.9350016713142395,
      "learning_rate": 0.00014835365447935634,
      "loss": 3.9616,
      "step": 242670
    },
    {
      "epoch": 0.5055833333333334,
      "grad_norm": 1.0430601835250854,
      "learning_rate": 0.00014834379652238827,
      "loss": 3.9622,
      "step": 242680
    },
    {
      "epoch": 0.5056041666666666,
      "grad_norm": 0.9103965759277344,
      "learning_rate": 0.00014833393857257432,
      "loss": 3.7809,
      "step": 242690
    },
    {
      "epoch": 0.505625,
      "grad_norm": 1.0124738216400146,
      "learning_rate": 0.00014832408062995705,
      "loss": 3.8597,
      "step": 242700
    },
    {
      "epoch": 0.5056458333333333,
      "grad_norm": 0.945635974407196,
      "learning_rate": 0.0001483142226945792,
      "loss": 3.7742,
      "step": 242710
    },
    {
      "epoch": 0.5056666666666667,
      "grad_norm": 0.9002206921577454,
      "learning_rate": 0.00014830436476648317,
      "loss": 4.0411,
      "step": 242720
    },
    {
      "epoch": 0.5056875,
      "grad_norm": 0.8824685215950012,
      "learning_rate": 0.00014829450684571157,
      "loss": 3.7487,
      "step": 242730
    },
    {
      "epoch": 0.5057083333333333,
      "grad_norm": 0.883847713470459,
      "learning_rate": 0.00014828464893230713,
      "loss": 3.8974,
      "step": 242740
    },
    {
      "epoch": 0.5057291666666667,
      "grad_norm": 0.869446873664856,
      "learning_rate": 0.0001482747910263123,
      "loss": 3.8542,
      "step": 242750
    },
    {
      "epoch": 0.50575,
      "grad_norm": 0.8926684856414795,
      "learning_rate": 0.00014826493312776964,
      "loss": 3.7741,
      "step": 242760
    },
    {
      "epoch": 0.5057708333333333,
      "grad_norm": 0.9781100153923035,
      "learning_rate": 0.0001482550752367218,
      "loss": 3.8392,
      "step": 242770
    },
    {
      "epoch": 0.5057916666666666,
      "grad_norm": 0.9146806597709656,
      "learning_rate": 0.00014824521735321139,
      "loss": 3.651,
      "step": 242780
    },
    {
      "epoch": 0.5058125,
      "grad_norm": 0.99507737159729,
      "learning_rate": 0.00014823535947728088,
      "loss": 3.9631,
      "step": 242790
    },
    {
      "epoch": 0.5058333333333334,
      "grad_norm": 0.92820143699646,
      "learning_rate": 0.00014822550160897293,
      "loss": 3.9264,
      "step": 242800
    },
    {
      "epoch": 0.5058541666666667,
      "grad_norm": 0.8837555050849915,
      "learning_rate": 0.00014821564374833016,
      "loss": 4.0286,
      "step": 242810
    },
    {
      "epoch": 0.505875,
      "grad_norm": 0.881486713886261,
      "learning_rate": 0.00014820578589539503,
      "loss": 3.7875,
      "step": 242820
    },
    {
      "epoch": 0.5058958333333333,
      "grad_norm": 0.8239268064498901,
      "learning_rate": 0.00014819592805021022,
      "loss": 3.9054,
      "step": 242830
    },
    {
      "epoch": 0.5059166666666667,
      "grad_norm": 0.8305662870407104,
      "learning_rate": 0.00014818607021281835,
      "loss": 3.8476,
      "step": 242840
    },
    {
      "epoch": 0.5059375,
      "grad_norm": 0.9194263219833374,
      "learning_rate": 0.00014817621238326186,
      "loss": 3.7628,
      "step": 242850
    },
    {
      "epoch": 0.5059583333333333,
      "grad_norm": 1.0627942085266113,
      "learning_rate": 0.00014816635456158344,
      "loss": 3.8102,
      "step": 242860
    },
    {
      "epoch": 0.5059791666666666,
      "grad_norm": 0.9678263068199158,
      "learning_rate": 0.00014815649674782566,
      "loss": 3.9373,
      "step": 242870
    },
    {
      "epoch": 0.506,
      "grad_norm": 0.8760527968406677,
      "learning_rate": 0.00014814663894203105,
      "loss": 3.9928,
      "step": 242880
    },
    {
      "epoch": 0.5060208333333334,
      "grad_norm": 0.8957750797271729,
      "learning_rate": 0.00014813678114424227,
      "loss": 3.9668,
      "step": 242890
    },
    {
      "epoch": 0.5060416666666666,
      "grad_norm": 0.8889032006263733,
      "learning_rate": 0.00014812692335450185,
      "loss": 4.0766,
      "step": 242900
    },
    {
      "epoch": 0.5060625,
      "grad_norm": 0.874373733997345,
      "learning_rate": 0.00014811706557285232,
      "loss": 3.9341,
      "step": 242910
    },
    {
      "epoch": 0.5060833333333333,
      "grad_norm": 1.2393718957901,
      "learning_rate": 0.00014810720779933638,
      "loss": 3.7606,
      "step": 242920
    },
    {
      "epoch": 0.5061041666666667,
      "grad_norm": 1.2059118747711182,
      "learning_rate": 0.00014809735003399655,
      "loss": 3.9881,
      "step": 242930
    },
    {
      "epoch": 0.506125,
      "grad_norm": 0.8635743856430054,
      "learning_rate": 0.0001480874922768754,
      "loss": 3.9714,
      "step": 242940
    },
    {
      "epoch": 0.5061458333333333,
      "grad_norm": 0.9250113368034363,
      "learning_rate": 0.0001480776345280155,
      "loss": 3.7972,
      "step": 242950
    },
    {
      "epoch": 0.5061666666666667,
      "grad_norm": 0.9820019006729126,
      "learning_rate": 0.00014806777678745951,
      "loss": 3.7902,
      "step": 242960
    },
    {
      "epoch": 0.5061875,
      "grad_norm": 0.9013624787330627,
      "learning_rate": 0.00014805791905524995,
      "loss": 4.0314,
      "step": 242970
    },
    {
      "epoch": 0.5062083333333334,
      "grad_norm": 0.9186910390853882,
      "learning_rate": 0.00014804806133142937,
      "loss": 3.8113,
      "step": 242980
    },
    {
      "epoch": 0.5062291666666666,
      "grad_norm": 0.9172907471656799,
      "learning_rate": 0.00014803820361604042,
      "loss": 3.8047,
      "step": 242990
    },
    {
      "epoch": 0.50625,
      "grad_norm": 0.909347414970398,
      "learning_rate": 0.0001480283459091257,
      "loss": 4.0172,
      "step": 243000
    },
    {
      "epoch": 0.50625,
      "eval_loss": 3.616471767425537,
      "eval_runtime": 6.8269,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.439,
      "step": 243000
    },
    {
      "epoch": 0.5062708333333333,
      "grad_norm": 0.9438446164131165,
      "learning_rate": 0.00014801848821072763,
      "loss": 3.8316,
      "step": 243010
    },
    {
      "epoch": 0.5062916666666667,
      "grad_norm": 0.7981083393096924,
      "learning_rate": 0.000148008630520889,
      "loss": 3.8203,
      "step": 243020
    },
    {
      "epoch": 0.5063125,
      "grad_norm": 1.0571682453155518,
      "learning_rate": 0.0001479987728396523,
      "loss": 3.9195,
      "step": 243030
    },
    {
      "epoch": 0.5063333333333333,
      "grad_norm": 1.08880615234375,
      "learning_rate": 0.00014798891516706002,
      "loss": 3.8713,
      "step": 243040
    },
    {
      "epoch": 0.5063541666666667,
      "grad_norm": 0.8556406497955322,
      "learning_rate": 0.00014797905750315495,
      "loss": 3.7708,
      "step": 243050
    },
    {
      "epoch": 0.506375,
      "grad_norm": 0.8534311652183533,
      "learning_rate": 0.0001479691998479795,
      "loss": 3.9426,
      "step": 243060
    },
    {
      "epoch": 0.5063958333333334,
      "grad_norm": 0.890379786491394,
      "learning_rate": 0.00014795934220157624,
      "loss": 3.9056,
      "step": 243070
    },
    {
      "epoch": 0.5064166666666666,
      "grad_norm": 0.8151156902313232,
      "learning_rate": 0.0001479494845639879,
      "loss": 3.7872,
      "step": 243080
    },
    {
      "epoch": 0.5064375,
      "grad_norm": 0.9133335947990417,
      "learning_rate": 0.00014793962693525694,
      "loss": 3.996,
      "step": 243090
    },
    {
      "epoch": 0.5064583333333333,
      "grad_norm": 0.9234941601753235,
      "learning_rate": 0.00014792976931542597,
      "loss": 3.956,
      "step": 243100
    },
    {
      "epoch": 0.5064791666666667,
      "grad_norm": 0.8503088355064392,
      "learning_rate": 0.00014791991170453762,
      "loss": 3.788,
      "step": 243110
    },
    {
      "epoch": 0.5065,
      "grad_norm": 0.9114817976951599,
      "learning_rate": 0.00014791005410263439,
      "loss": 3.8256,
      "step": 243120
    },
    {
      "epoch": 0.5065208333333333,
      "grad_norm": 0.8578850030899048,
      "learning_rate": 0.00014790019650975884,
      "loss": 3.9272,
      "step": 243130
    },
    {
      "epoch": 0.5065416666666667,
      "grad_norm": 0.8739509582519531,
      "learning_rate": 0.00014789033892595373,
      "loss": 3.9797,
      "step": 243140
    },
    {
      "epoch": 0.5065625,
      "grad_norm": 0.9121519923210144,
      "learning_rate": 0.00014788048135126148,
      "loss": 3.9155,
      "step": 243150
    },
    {
      "epoch": 0.5065833333333334,
      "grad_norm": 0.9782732129096985,
      "learning_rate": 0.00014787062378572469,
      "loss": 3.7725,
      "step": 243160
    },
    {
      "epoch": 0.5066041666666666,
      "grad_norm": 0.9869722723960876,
      "learning_rate": 0.00014786076622938594,
      "loss": 3.8595,
      "step": 243170
    },
    {
      "epoch": 0.506625,
      "grad_norm": 0.8518297076225281,
      "learning_rate": 0.0001478509086822879,
      "loss": 3.8681,
      "step": 243180
    },
    {
      "epoch": 0.5066458333333334,
      "grad_norm": 0.9047200083732605,
      "learning_rate": 0.00014784105114447303,
      "loss": 4.0116,
      "step": 243190
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.8139685988426208,
      "learning_rate": 0.00014783119361598396,
      "loss": 3.727,
      "step": 243200
    },
    {
      "epoch": 0.5066875,
      "grad_norm": 0.9158440828323364,
      "learning_rate": 0.00014782133609686333,
      "loss": 3.7188,
      "step": 243210
    },
    {
      "epoch": 0.5067083333333333,
      "grad_norm": 0.8509379029273987,
      "learning_rate": 0.00014781147858715363,
      "loss": 3.9312,
      "step": 243220
    },
    {
      "epoch": 0.5067291666666667,
      "grad_norm": 1.1070728302001953,
      "learning_rate": 0.00014780162108689744,
      "loss": 3.8675,
      "step": 243230
    },
    {
      "epoch": 0.50675,
      "grad_norm": 1.2243295907974243,
      "learning_rate": 0.00014779176359613745,
      "loss": 3.816,
      "step": 243240
    },
    {
      "epoch": 0.5067708333333333,
      "grad_norm": 0.8911594152450562,
      "learning_rate": 0.00014778190611491616,
      "loss": 3.9192,
      "step": 243250
    },
    {
      "epoch": 0.5067916666666666,
      "grad_norm": 1.0153590440750122,
      "learning_rate": 0.0001477720486432761,
      "loss": 3.9611,
      "step": 243260
    },
    {
      "epoch": 0.5068125,
      "grad_norm": 0.8533103466033936,
      "learning_rate": 0.00014776219118125994,
      "loss": 3.8601,
      "step": 243270
    },
    {
      "epoch": 0.5068333333333334,
      "grad_norm": 0.9215826392173767,
      "learning_rate": 0.00014775233372891025,
      "loss": 3.9197,
      "step": 243280
    },
    {
      "epoch": 0.5068541666666667,
      "grad_norm": 0.871755838394165,
      "learning_rate": 0.00014774247628626953,
      "loss": 3.832,
      "step": 243290
    },
    {
      "epoch": 0.506875,
      "grad_norm": 1.0238056182861328,
      "learning_rate": 0.00014773261885338046,
      "loss": 3.7701,
      "step": 243300
    },
    {
      "epoch": 0.5068958333333333,
      "grad_norm": 0.8632376790046692,
      "learning_rate": 0.0001477227614302856,
      "loss": 3.6347,
      "step": 243310
    },
    {
      "epoch": 0.5069166666666667,
      "grad_norm": 1.0147539377212524,
      "learning_rate": 0.00014771290401702745,
      "loss": 3.8309,
      "step": 243320
    },
    {
      "epoch": 0.5069375,
      "grad_norm": 0.9234398603439331,
      "learning_rate": 0.00014770304661364868,
      "loss": 3.9793,
      "step": 243330
    },
    {
      "epoch": 0.5069583333333333,
      "grad_norm": 0.8513647317886353,
      "learning_rate": 0.00014769318922019188,
      "loss": 3.8722,
      "step": 243340
    },
    {
      "epoch": 0.5069791666666666,
      "grad_norm": 0.9018769860267639,
      "learning_rate": 0.00014768333183669952,
      "loss": 3.6833,
      "step": 243350
    },
    {
      "epoch": 0.507,
      "grad_norm": 0.8977097868919373,
      "learning_rate": 0.00014767347446321426,
      "loss": 3.6295,
      "step": 243360
    },
    {
      "epoch": 0.5070208333333334,
      "grad_norm": 0.9022138714790344,
      "learning_rate": 0.00014766361709977872,
      "loss": 4.0171,
      "step": 243370
    },
    {
      "epoch": 0.5070416666666666,
      "grad_norm": 1.0681136846542358,
      "learning_rate": 0.00014765375974643536,
      "loss": 3.777,
      "step": 243380
    },
    {
      "epoch": 0.5070625,
      "grad_norm": 0.8056963682174683,
      "learning_rate": 0.00014764390240322691,
      "loss": 3.9128,
      "step": 243390
    },
    {
      "epoch": 0.5070833333333333,
      "grad_norm": 0.9681715369224548,
      "learning_rate": 0.00014763404507019582,
      "loss": 3.7938,
      "step": 243400
    },
    {
      "epoch": 0.5071041666666667,
      "grad_norm": 0.845747709274292,
      "learning_rate": 0.0001476241877473847,
      "loss": 3.8293,
      "step": 243410
    },
    {
      "epoch": 0.507125,
      "grad_norm": 0.8854875564575195,
      "learning_rate": 0.0001476143304348362,
      "loss": 3.8907,
      "step": 243420
    },
    {
      "epoch": 0.5071458333333333,
      "grad_norm": 0.9055131077766418,
      "learning_rate": 0.00014760447313259283,
      "loss": 3.8729,
      "step": 243430
    },
    {
      "epoch": 0.5071666666666667,
      "grad_norm": 0.958148181438446,
      "learning_rate": 0.00014759461584069715,
      "loss": 3.819,
      "step": 243440
    },
    {
      "epoch": 0.5071875,
      "grad_norm": 1.2062690258026123,
      "learning_rate": 0.00014758475855919183,
      "loss": 3.7211,
      "step": 243450
    },
    {
      "epoch": 0.5072083333333334,
      "grad_norm": 0.8206731081008911,
      "learning_rate": 0.00014757490128811937,
      "loss": 3.8004,
      "step": 243460
    },
    {
      "epoch": 0.5072291666666666,
      "grad_norm": 0.9386867880821228,
      "learning_rate": 0.00014756504402752235,
      "loss": 3.992,
      "step": 243470
    },
    {
      "epoch": 0.50725,
      "grad_norm": 0.8753527402877808,
      "learning_rate": 0.00014755518677744343,
      "loss": 3.7698,
      "step": 243480
    },
    {
      "epoch": 0.5072708333333333,
      "grad_norm": 0.8317254185676575,
      "learning_rate": 0.00014754532953792512,
      "loss": 3.9743,
      "step": 243490
    },
    {
      "epoch": 0.5072916666666667,
      "grad_norm": 1.141103744506836,
      "learning_rate": 0.00014753547230900995,
      "loss": 3.8485,
      "step": 243500
    },
    {
      "epoch": 0.5073125,
      "grad_norm": 0.8626049160957336,
      "learning_rate": 0.00014752561509074068,
      "loss": 3.9579,
      "step": 243510
    },
    {
      "epoch": 0.5073333333333333,
      "grad_norm": 0.9746524095535278,
      "learning_rate": 0.0001475157578831597,
      "loss": 3.7438,
      "step": 243520
    },
    {
      "epoch": 0.5073541666666667,
      "grad_norm": 1.0037941932678223,
      "learning_rate": 0.00014750590068630972,
      "loss": 4.1353,
      "step": 243530
    },
    {
      "epoch": 0.507375,
      "grad_norm": 0.9019885659217834,
      "learning_rate": 0.00014749604350023317,
      "loss": 3.7861,
      "step": 243540
    },
    {
      "epoch": 0.5073958333333334,
      "grad_norm": 0.8977311849594116,
      "learning_rate": 0.00014748618632497282,
      "loss": 3.7104,
      "step": 243550
    },
    {
      "epoch": 0.5074166666666666,
      "grad_norm": 1.0341917276382446,
      "learning_rate": 0.0001474763291605711,
      "loss": 3.9785,
      "step": 243560
    },
    {
      "epoch": 0.5074375,
      "grad_norm": 0.8765456080436707,
      "learning_rate": 0.0001474664720070706,
      "loss": 4.046,
      "step": 243570
    },
    {
      "epoch": 0.5074583333333333,
      "grad_norm": 0.8652202486991882,
      "learning_rate": 0.000147456614864514,
      "loss": 3.8061,
      "step": 243580
    },
    {
      "epoch": 0.5074791666666667,
      "grad_norm": 0.8997121453285217,
      "learning_rate": 0.00014744675773294377,
      "loss": 3.7281,
      "step": 243590
    },
    {
      "epoch": 0.5075,
      "grad_norm": 0.9356564283370972,
      "learning_rate": 0.00014743690061240256,
      "loss": 3.6753,
      "step": 243600
    },
    {
      "epoch": 0.5075208333333333,
      "grad_norm": 0.885616660118103,
      "learning_rate": 0.00014742704350293294,
      "loss": 4.0689,
      "step": 243610
    },
    {
      "epoch": 0.5075416666666667,
      "grad_norm": 0.8908658027648926,
      "learning_rate": 0.00014741718640457746,
      "loss": 3.9026,
      "step": 243620
    },
    {
      "epoch": 0.5075625,
      "grad_norm": 0.938706636428833,
      "learning_rate": 0.00014740732931737866,
      "loss": 3.7147,
      "step": 243630
    },
    {
      "epoch": 0.5075833333333334,
      "grad_norm": 0.9312300682067871,
      "learning_rate": 0.00014739747224137926,
      "loss": 3.7715,
      "step": 243640
    },
    {
      "epoch": 0.5076041666666666,
      "grad_norm": 0.8545328378677368,
      "learning_rate": 0.00014738761517662174,
      "loss": 3.7496,
      "step": 243650
    },
    {
      "epoch": 0.507625,
      "grad_norm": 1.0877265930175781,
      "learning_rate": 0.00014737775812314862,
      "loss": 3.6941,
      "step": 243660
    },
    {
      "epoch": 0.5076458333333334,
      "grad_norm": 0.8498443365097046,
      "learning_rate": 0.0001473679010810026,
      "loss": 4.1829,
      "step": 243670
    },
    {
      "epoch": 0.5076666666666667,
      "grad_norm": 0.9266617894172668,
      "learning_rate": 0.00014735804405022622,
      "loss": 3.8955,
      "step": 243680
    },
    {
      "epoch": 0.5076875,
      "grad_norm": 1.0725091695785522,
      "learning_rate": 0.000147348187030862,
      "loss": 3.8416,
      "step": 243690
    },
    {
      "epoch": 0.5077083333333333,
      "grad_norm": 0.8372454047203064,
      "learning_rate": 0.00014733833002295257,
      "loss": 3.8952,
      "step": 243700
    },
    {
      "epoch": 0.5077291666666667,
      "grad_norm": 0.9423536658287048,
      "learning_rate": 0.00014732847302654053,
      "loss": 3.7194,
      "step": 243710
    },
    {
      "epoch": 0.50775,
      "grad_norm": 1.0075438022613525,
      "learning_rate": 0.00014731861604166838,
      "loss": 3.9079,
      "step": 243720
    },
    {
      "epoch": 0.5077708333333333,
      "grad_norm": 0.9092770218849182,
      "learning_rate": 0.00014730875906837878,
      "loss": 3.9423,
      "step": 243730
    },
    {
      "epoch": 0.5077916666666666,
      "grad_norm": 0.855411946773529,
      "learning_rate": 0.0001472989021067143,
      "loss": 3.7815,
      "step": 243740
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 0.8940683603286743,
      "learning_rate": 0.00014728904515671741,
      "loss": 3.879,
      "step": 243750
    },
    {
      "epoch": 0.5078333333333334,
      "grad_norm": 0.8952201008796692,
      "learning_rate": 0.00014727918821843088,
      "loss": 3.9406,
      "step": 243760
    },
    {
      "epoch": 0.5078541666666667,
      "grad_norm": 0.7947404980659485,
      "learning_rate": 0.0001472693312918971,
      "loss": 3.8033,
      "step": 243770
    },
    {
      "epoch": 0.507875,
      "grad_norm": 1.282200813293457,
      "learning_rate": 0.00014725947437715874,
      "loss": 3.8539,
      "step": 243780
    },
    {
      "epoch": 0.5078958333333333,
      "grad_norm": 0.8666824102401733,
      "learning_rate": 0.0001472496174742584,
      "loss": 4.0311,
      "step": 243790
    },
    {
      "epoch": 0.5079166666666667,
      "grad_norm": 2.178487539291382,
      "learning_rate": 0.0001472397605832386,
      "loss": 4.0304,
      "step": 243800
    },
    {
      "epoch": 0.5079375,
      "grad_norm": 0.8494953513145447,
      "learning_rate": 0.00014722990370414198,
      "loss": 3.9228,
      "step": 243810
    },
    {
      "epoch": 0.5079583333333333,
      "grad_norm": 0.8449632525444031,
      "learning_rate": 0.00014722004683701104,
      "loss": 3.7843,
      "step": 243820
    },
    {
      "epoch": 0.5079791666666666,
      "grad_norm": 0.9287030696868896,
      "learning_rate": 0.00014721018998188837,
      "loss": 3.8648,
      "step": 243830
    },
    {
      "epoch": 0.508,
      "grad_norm": 0.9493691325187683,
      "learning_rate": 0.00014720033313881666,
      "loss": 3.7709,
      "step": 243840
    },
    {
      "epoch": 0.5080208333333334,
      "grad_norm": 0.7827115058898926,
      "learning_rate": 0.0001471904763078383,
      "loss": 3.7608,
      "step": 243850
    },
    {
      "epoch": 0.5080416666666666,
      "grad_norm": 0.9567493796348572,
      "learning_rate": 0.00014718061948899603,
      "loss": 3.7562,
      "step": 243860
    },
    {
      "epoch": 0.5080625,
      "grad_norm": 0.8580583930015564,
      "learning_rate": 0.0001471707626823324,
      "loss": 3.9168,
      "step": 243870
    },
    {
      "epoch": 0.5080833333333333,
      "grad_norm": 1.265305519104004,
      "learning_rate": 0.00014716090588788987,
      "loss": 3.8,
      "step": 243880
    },
    {
      "epoch": 0.5081041666666667,
      "grad_norm": 0.8551555275917053,
      "learning_rate": 0.00014715104910571118,
      "loss": 3.8962,
      "step": 243890
    },
    {
      "epoch": 0.508125,
      "grad_norm": 0.9849451184272766,
      "learning_rate": 0.0001471411923358388,
      "loss": 3.7098,
      "step": 243900
    },
    {
      "epoch": 0.5081458333333333,
      "grad_norm": 0.9507768750190735,
      "learning_rate": 0.0001471313355783153,
      "loss": 3.8261,
      "step": 243910
    },
    {
      "epoch": 0.5081666666666667,
      "grad_norm": 0.9395742416381836,
      "learning_rate": 0.00014712147883318334,
      "loss": 3.9399,
      "step": 243920
    },
    {
      "epoch": 0.5081875,
      "grad_norm": 0.8964614868164062,
      "learning_rate": 0.00014711162210048545,
      "loss": 3.9287,
      "step": 243930
    },
    {
      "epoch": 0.5082083333333334,
      "grad_norm": 1.2945278882980347,
      "learning_rate": 0.00014710176538026417,
      "loss": 3.7028,
      "step": 243940
    },
    {
      "epoch": 0.5082291666666666,
      "grad_norm": 1.011256217956543,
      "learning_rate": 0.00014709190867256218,
      "loss": 3.9636,
      "step": 243950
    },
    {
      "epoch": 0.50825,
      "grad_norm": 0.8948789834976196,
      "learning_rate": 0.00014708205197742194,
      "loss": 3.901,
      "step": 243960
    },
    {
      "epoch": 0.5082708333333333,
      "grad_norm": 0.8798367977142334,
      "learning_rate": 0.00014707219529488607,
      "loss": 3.961,
      "step": 243970
    },
    {
      "epoch": 0.5082916666666667,
      "grad_norm": 0.8553593754768372,
      "learning_rate": 0.00014706233862499723,
      "loss": 4.0488,
      "step": 243980
    },
    {
      "epoch": 0.5083125,
      "grad_norm": 0.877265989780426,
      "learning_rate": 0.0001470524819677979,
      "loss": 3.7856,
      "step": 243990
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 0.9555444121360779,
      "learning_rate": 0.0001470426253233306,
      "loss": 3.8156,
      "step": 244000
    },
    {
      "epoch": 0.5083333333333333,
      "eval_loss": 3.619450807571411,
      "eval_runtime": 7.2397,
      "eval_samples_per_second": 1.381,
      "eval_steps_per_second": 0.414,
      "step": 244000
    },
    {
      "epoch": 0.5083541666666667,
      "grad_norm": 0.989827573299408,
      "learning_rate": 0.0001470327686916381,
      "loss": 3.6691,
      "step": 244010
    },
    {
      "epoch": 0.508375,
      "grad_norm": 0.7878978252410889,
      "learning_rate": 0.00014702291207276284,
      "loss": 3.8579,
      "step": 244020
    },
    {
      "epoch": 0.5083958333333334,
      "grad_norm": 1.3515851497650146,
      "learning_rate": 0.00014701305546674736,
      "loss": 4.0374,
      "step": 244030
    },
    {
      "epoch": 0.5084166666666666,
      "grad_norm": 1.106317400932312,
      "learning_rate": 0.00014700319887363435,
      "loss": 3.9441,
      "step": 244040
    },
    {
      "epoch": 0.5084375,
      "grad_norm": 0.9458587169647217,
      "learning_rate": 0.00014699334229346635,
      "loss": 3.8266,
      "step": 244050
    },
    {
      "epoch": 0.5084583333333333,
      "grad_norm": 0.9657606482505798,
      "learning_rate": 0.00014698348572628585,
      "loss": 3.7297,
      "step": 244060
    },
    {
      "epoch": 0.5084791666666667,
      "grad_norm": 0.971612274646759,
      "learning_rate": 0.00014697362917213554,
      "loss": 3.7006,
      "step": 244070
    },
    {
      "epoch": 0.5085,
      "grad_norm": 0.8622448444366455,
      "learning_rate": 0.000146963772631058,
      "loss": 3.8938,
      "step": 244080
    },
    {
      "epoch": 0.5085208333333333,
      "grad_norm": 0.9215530157089233,
      "learning_rate": 0.00014695391610309566,
      "loss": 3.6858,
      "step": 244090
    },
    {
      "epoch": 0.5085416666666667,
      "grad_norm": 0.8523803353309631,
      "learning_rate": 0.00014694405958829126,
      "loss": 3.6916,
      "step": 244100
    },
    {
      "epoch": 0.5085625,
      "grad_norm": 0.899211049079895,
      "learning_rate": 0.00014693420308668735,
      "loss": 3.9975,
      "step": 244110
    },
    {
      "epoch": 0.5085833333333334,
      "grad_norm": 0.835016667842865,
      "learning_rate": 0.00014692434659832642,
      "loss": 3.9346,
      "step": 244120
    },
    {
      "epoch": 0.5086041666666666,
      "grad_norm": 1.0370999574661255,
      "learning_rate": 0.00014691449012325104,
      "loss": 3.7327,
      "step": 244130
    },
    {
      "epoch": 0.508625,
      "grad_norm": 0.9247322678565979,
      "learning_rate": 0.00014690463366150394,
      "loss": 3.7828,
      "step": 244140
    },
    {
      "epoch": 0.5086458333333334,
      "grad_norm": 0.9302759170532227,
      "learning_rate": 0.00014689477721312758,
      "loss": 3.9039,
      "step": 244150
    },
    {
      "epoch": 0.5086666666666667,
      "grad_norm": 0.8930476307868958,
      "learning_rate": 0.0001468849207781645,
      "loss": 3.9189,
      "step": 244160
    },
    {
      "epoch": 0.5086875,
      "grad_norm": 0.9263502359390259,
      "learning_rate": 0.00014687506435665738,
      "loss": 3.9297,
      "step": 244170
    },
    {
      "epoch": 0.5087083333333333,
      "grad_norm": 0.8720650672912598,
      "learning_rate": 0.00014686520794864874,
      "loss": 3.8477,
      "step": 244180
    },
    {
      "epoch": 0.5087291666666667,
      "grad_norm": 1.0820908546447754,
      "learning_rate": 0.0001468553515541811,
      "loss": 4.0926,
      "step": 244190
    },
    {
      "epoch": 0.50875,
      "grad_norm": 0.8010010123252869,
      "learning_rate": 0.00014684549517329716,
      "loss": 3.7859,
      "step": 244200
    },
    {
      "epoch": 0.5087708333333333,
      "grad_norm": 0.8988568782806396,
      "learning_rate": 0.00014683563880603942,
      "loss": 3.9663,
      "step": 244210
    },
    {
      "epoch": 0.5087916666666666,
      "grad_norm": 0.8677541017532349,
      "learning_rate": 0.00014682578245245044,
      "loss": 3.8494,
      "step": 244220
    },
    {
      "epoch": 0.5088125,
      "grad_norm": 1.1072099208831787,
      "learning_rate": 0.00014681592611257284,
      "loss": 3.8574,
      "step": 244230
    },
    {
      "epoch": 0.5088333333333334,
      "grad_norm": 0.9560672044754028,
      "learning_rate": 0.00014680606978644922,
      "loss": 4.1844,
      "step": 244240
    },
    {
      "epoch": 0.5088541666666667,
      "grad_norm": 0.9190129041671753,
      "learning_rate": 0.00014679621347412204,
      "loss": 3.8609,
      "step": 244250
    },
    {
      "epoch": 0.508875,
      "grad_norm": 0.9471867680549622,
      "learning_rate": 0.00014678635717563403,
      "loss": 4.0044,
      "step": 244260
    },
    {
      "epoch": 0.5088958333333333,
      "grad_norm": 0.8715474605560303,
      "learning_rate": 0.00014677650089102765,
      "loss": 3.7089,
      "step": 244270
    },
    {
      "epoch": 0.5089166666666667,
      "grad_norm": 0.8370893001556396,
      "learning_rate": 0.00014676664462034546,
      "loss": 3.971,
      "step": 244280
    },
    {
      "epoch": 0.5089375,
      "grad_norm": 0.8613111972808838,
      "learning_rate": 0.00014675678836363016,
      "loss": 3.9281,
      "step": 244290
    },
    {
      "epoch": 0.5089583333333333,
      "grad_norm": 1.590141773223877,
      "learning_rate": 0.0001467469321209242,
      "loss": 3.9511,
      "step": 244300
    },
    {
      "epoch": 0.5089791666666666,
      "grad_norm": 0.9504104852676392,
      "learning_rate": 0.0001467370758922702,
      "loss": 3.898,
      "step": 244310
    },
    {
      "epoch": 0.509,
      "grad_norm": 0.9104690551757812,
      "learning_rate": 0.0001467272196777108,
      "loss": 3.9448,
      "step": 244320
    },
    {
      "epoch": 0.5090208333333334,
      "grad_norm": 0.8902443647384644,
      "learning_rate": 0.00014671736347728848,
      "loss": 3.9375,
      "step": 244330
    },
    {
      "epoch": 0.5090416666666666,
      "grad_norm": 0.9250638484954834,
      "learning_rate": 0.00014670750729104583,
      "loss": 3.7338,
      "step": 244340
    },
    {
      "epoch": 0.5090625,
      "grad_norm": 0.896828830242157,
      "learning_rate": 0.00014669765111902547,
      "loss": 3.9243,
      "step": 244350
    },
    {
      "epoch": 0.5090833333333333,
      "grad_norm": 1.2651649713516235,
      "learning_rate": 0.00014668779496126996,
      "loss": 4.005,
      "step": 244360
    },
    {
      "epoch": 0.5091041666666667,
      "grad_norm": 0.8496948480606079,
      "learning_rate": 0.00014667793881782183,
      "loss": 3.7714,
      "step": 244370
    },
    {
      "epoch": 0.509125,
      "grad_norm": 0.8913906812667847,
      "learning_rate": 0.00014666808268872373,
      "loss": 3.6366,
      "step": 244380
    },
    {
      "epoch": 0.5091458333333333,
      "grad_norm": 0.932712733745575,
      "learning_rate": 0.0001466582265740182,
      "loss": 3.8347,
      "step": 244390
    },
    {
      "epoch": 0.5091666666666667,
      "grad_norm": 1.1136116981506348,
      "learning_rate": 0.00014664837047374777,
      "loss": 3.9896,
      "step": 244400
    },
    {
      "epoch": 0.5091875,
      "grad_norm": 0.8289694786071777,
      "learning_rate": 0.00014663851438795504,
      "loss": 3.8731,
      "step": 244410
    },
    {
      "epoch": 0.5092083333333334,
      "grad_norm": 0.8858184218406677,
      "learning_rate": 0.00014662865831668265,
      "loss": 3.8039,
      "step": 244420
    },
    {
      "epoch": 0.5092291666666666,
      "grad_norm": 0.8426511287689209,
      "learning_rate": 0.0001466188022599731,
      "loss": 3.9978,
      "step": 244430
    },
    {
      "epoch": 0.50925,
      "grad_norm": 0.9629741907119751,
      "learning_rate": 0.00014660894621786893,
      "loss": 3.8767,
      "step": 244440
    },
    {
      "epoch": 0.5092708333333333,
      "grad_norm": 0.9106796979904175,
      "learning_rate": 0.00014659909019041286,
      "loss": 3.7967,
      "step": 244450
    },
    {
      "epoch": 0.5092916666666667,
      "grad_norm": 1.0246782302856445,
      "learning_rate": 0.00014658923417764735,
      "loss": 3.9746,
      "step": 244460
    },
    {
      "epoch": 0.5093125,
      "grad_norm": 0.8983913064002991,
      "learning_rate": 0.00014657937817961494,
      "loss": 3.8742,
      "step": 244470
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 0.9089560508728027,
      "learning_rate": 0.00014656952219635832,
      "loss": 3.8338,
      "step": 244480
    },
    {
      "epoch": 0.5093541666666667,
      "grad_norm": 1.1209295988082886,
      "learning_rate": 0.00014655966622792002,
      "loss": 3.774,
      "step": 244490
    },
    {
      "epoch": 0.509375,
      "grad_norm": 0.8465762138366699,
      "learning_rate": 0.00014654981027434252,
      "loss": 3.7846,
      "step": 244500
    },
    {
      "epoch": 0.5093958333333334,
      "grad_norm": 1.1435582637786865,
      "learning_rate": 0.00014653995433566854,
      "loss": 3.9971,
      "step": 244510
    },
    {
      "epoch": 0.5094166666666666,
      "grad_norm": 1.0994000434875488,
      "learning_rate": 0.00014653009841194062,
      "loss": 3.8961,
      "step": 244520
    },
    {
      "epoch": 0.5094375,
      "grad_norm": 0.948997437953949,
      "learning_rate": 0.00014652024250320122,
      "loss": 3.9989,
      "step": 244530
    },
    {
      "epoch": 0.5094583333333333,
      "grad_norm": 0.8402398824691772,
      "learning_rate": 0.00014651038660949301,
      "loss": 3.9518,
      "step": 244540
    },
    {
      "epoch": 0.5094791666666667,
      "grad_norm": 0.8738869428634644,
      "learning_rate": 0.0001465005307308586,
      "loss": 3.8793,
      "step": 244550
    },
    {
      "epoch": 0.5095,
      "grad_norm": 0.8945493102073669,
      "learning_rate": 0.00014649067486734047,
      "loss": 3.9284,
      "step": 244560
    },
    {
      "epoch": 0.5095208333333333,
      "grad_norm": 0.972435712814331,
      "learning_rate": 0.00014648081901898124,
      "loss": 3.7694,
      "step": 244570
    },
    {
      "epoch": 0.5095416666666667,
      "grad_norm": 0.9150420427322388,
      "learning_rate": 0.0001464709631858235,
      "loss": 3.855,
      "step": 244580
    },
    {
      "epoch": 0.5095625,
      "grad_norm": 0.8728957176208496,
      "learning_rate": 0.00014646110736790978,
      "loss": 3.9877,
      "step": 244590
    },
    {
      "epoch": 0.5095833333333334,
      "grad_norm": 0.9479288458824158,
      "learning_rate": 0.00014645125156528268,
      "loss": 3.9065,
      "step": 244600
    },
    {
      "epoch": 0.5096041666666666,
      "grad_norm": 0.8880471587181091,
      "learning_rate": 0.0001464413957779848,
      "loss": 4.0123,
      "step": 244610
    },
    {
      "epoch": 0.509625,
      "grad_norm": 0.8893498778343201,
      "learning_rate": 0.0001464315400060586,
      "loss": 3.752,
      "step": 244620
    },
    {
      "epoch": 0.5096458333333334,
      "grad_norm": 0.8051363825798035,
      "learning_rate": 0.0001464216842495468,
      "loss": 3.6846,
      "step": 244630
    },
    {
      "epoch": 0.5096666666666667,
      "grad_norm": 0.9185599684715271,
      "learning_rate": 0.00014641182850849192,
      "loss": 3.9865,
      "step": 244640
    },
    {
      "epoch": 0.5096875,
      "grad_norm": 1.0456379652023315,
      "learning_rate": 0.00014640197278293645,
      "loss": 3.6715,
      "step": 244650
    },
    {
      "epoch": 0.5097083333333333,
      "grad_norm": 0.8967880010604858,
      "learning_rate": 0.00014639211707292312,
      "loss": 3.8599,
      "step": 244660
    },
    {
      "epoch": 0.5097291666666667,
      "grad_norm": 0.939058244228363,
      "learning_rate": 0.0001463822613784944,
      "loss": 4.083,
      "step": 244670
    },
    {
      "epoch": 0.50975,
      "grad_norm": 0.8442923426628113,
      "learning_rate": 0.00014637240569969286,
      "loss": 3.9617,
      "step": 244680
    },
    {
      "epoch": 0.5097708333333333,
      "grad_norm": 0.9539876580238342,
      "learning_rate": 0.00014636255003656106,
      "loss": 3.9292,
      "step": 244690
    },
    {
      "epoch": 0.5097916666666666,
      "grad_norm": 0.8807793259620667,
      "learning_rate": 0.00014635269438914163,
      "loss": 3.7858,
      "step": 244700
    },
    {
      "epoch": 0.5098125,
      "grad_norm": 0.8613045811653137,
      "learning_rate": 0.00014634283875747714,
      "loss": 3.8306,
      "step": 244710
    },
    {
      "epoch": 0.5098333333333334,
      "grad_norm": 0.9371641874313354,
      "learning_rate": 0.00014633298314161008,
      "loss": 3.6531,
      "step": 244720
    },
    {
      "epoch": 0.5098541666666667,
      "grad_norm": 0.9146010279655457,
      "learning_rate": 0.0001463231275415831,
      "loss": 3.9763,
      "step": 244730
    },
    {
      "epoch": 0.509875,
      "grad_norm": 1.094886302947998,
      "learning_rate": 0.00014631327195743882,
      "loss": 4.0154,
      "step": 244740
    },
    {
      "epoch": 0.5098958333333333,
      "grad_norm": 0.8694943785667419,
      "learning_rate": 0.00014630341638921965,
      "loss": 3.7511,
      "step": 244750
    },
    {
      "epoch": 0.5099166666666667,
      "grad_norm": 0.881907045841217,
      "learning_rate": 0.00014629356083696834,
      "loss": 3.8869,
      "step": 244760
    },
    {
      "epoch": 0.5099375,
      "grad_norm": 0.9025354981422424,
      "learning_rate": 0.00014628370530072734,
      "loss": 3.8363,
      "step": 244770
    },
    {
      "epoch": 0.5099583333333333,
      "grad_norm": 0.880408763885498,
      "learning_rate": 0.00014627384978053922,
      "loss": 3.8364,
      "step": 244780
    },
    {
      "epoch": 0.5099791666666667,
      "grad_norm": 0.9077863097190857,
      "learning_rate": 0.00014626399427644668,
      "loss": 3.7778,
      "step": 244790
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8011289834976196,
      "learning_rate": 0.00014625413878849216,
      "loss": 3.8767,
      "step": 244800
    },
    {
      "epoch": 0.5100208333333334,
      "grad_norm": 0.8555934429168701,
      "learning_rate": 0.00014624428331671825,
      "loss": 3.988,
      "step": 244810
    },
    {
      "epoch": 0.5100416666666666,
      "grad_norm": 0.9656221866607666,
      "learning_rate": 0.0001462344278611676,
      "loss": 3.7914,
      "step": 244820
    },
    {
      "epoch": 0.5100625,
      "grad_norm": 1.0110998153686523,
      "learning_rate": 0.00014622457242188274,
      "loss": 3.5522,
      "step": 244830
    },
    {
      "epoch": 0.5100833333333333,
      "grad_norm": 0.8899216055870056,
      "learning_rate": 0.00014621471699890616,
      "loss": 3.8496,
      "step": 244840
    },
    {
      "epoch": 0.5101041666666667,
      "grad_norm": 1.0543755292892456,
      "learning_rate": 0.00014620486159228058,
      "loss": 3.74,
      "step": 244850
    },
    {
      "epoch": 0.510125,
      "grad_norm": 0.9166313409805298,
      "learning_rate": 0.00014619500620204846,
      "loss": 3.8727,
      "step": 244860
    },
    {
      "epoch": 0.5101458333333333,
      "grad_norm": 0.9814966917037964,
      "learning_rate": 0.00014618515082825238,
      "loss": 3.7112,
      "step": 244870
    },
    {
      "epoch": 0.5101666666666667,
      "grad_norm": 0.8524106740951538,
      "learning_rate": 0.000146175295470935,
      "loss": 3.938,
      "step": 244880
    },
    {
      "epoch": 0.5101875,
      "grad_norm": 0.8799653053283691,
      "learning_rate": 0.00014616544013013884,
      "loss": 3.8246,
      "step": 244890
    },
    {
      "epoch": 0.5102083333333334,
      "grad_norm": 0.9208062291145325,
      "learning_rate": 0.0001461555848059064,
      "loss": 3.7515,
      "step": 244900
    },
    {
      "epoch": 0.5102291666666666,
      "grad_norm": 1.081895351409912,
      "learning_rate": 0.00014614572949828034,
      "loss": 3.81,
      "step": 244910
    },
    {
      "epoch": 0.51025,
      "grad_norm": 0.841742753982544,
      "learning_rate": 0.0001461358742073032,
      "loss": 3.819,
      "step": 244920
    },
    {
      "epoch": 0.5102708333333333,
      "grad_norm": 0.9525778293609619,
      "learning_rate": 0.00014612601893301754,
      "loss": 3.9207,
      "step": 244930
    },
    {
      "epoch": 0.5102916666666667,
      "grad_norm": 0.8483593463897705,
      "learning_rate": 0.00014611616367546593,
      "loss": 4.0596,
      "step": 244940
    },
    {
      "epoch": 0.5103125,
      "grad_norm": 1.0131486654281616,
      "learning_rate": 0.00014610630843469102,
      "loss": 3.9344,
      "step": 244950
    },
    {
      "epoch": 0.5103333333333333,
      "grad_norm": 0.8932982087135315,
      "learning_rate": 0.00014609645321073524,
      "loss": 3.7849,
      "step": 244960
    },
    {
      "epoch": 0.5103541666666667,
      "grad_norm": 1.0510941743850708,
      "learning_rate": 0.00014608659800364129,
      "loss": 3.8504,
      "step": 244970
    },
    {
      "epoch": 0.510375,
      "grad_norm": 0.9348899722099304,
      "learning_rate": 0.0001460767428134517,
      "loss": 3.9626,
      "step": 244980
    },
    {
      "epoch": 0.5103958333333334,
      "grad_norm": 0.8798971772193909,
      "learning_rate": 0.000146066887640209,
      "loss": 4.0954,
      "step": 244990
    },
    {
      "epoch": 0.5104166666666666,
      "grad_norm": 0.9021307229995728,
      "learning_rate": 0.00014605703248395574,
      "loss": 3.8998,
      "step": 245000
    },
    {
      "epoch": 0.5104166666666666,
      "eval_loss": 3.617422580718994,
      "eval_runtime": 6.9867,
      "eval_samples_per_second": 1.431,
      "eval_steps_per_second": 0.429,
      "step": 245000
    },
    {
      "epoch": 0.5104375,
      "grad_norm": 0.9465130567550659,
      "learning_rate": 0.00014604717734473463,
      "loss": 3.8259,
      "step": 245010
    },
    {
      "epoch": 0.5104583333333333,
      "grad_norm": 0.9113242626190186,
      "learning_rate": 0.00014603732222258814,
      "loss": 3.932,
      "step": 245020
    },
    {
      "epoch": 0.5104791666666667,
      "grad_norm": 0.8724280595779419,
      "learning_rate": 0.00014602746711755876,
      "loss": 3.6677,
      "step": 245030
    },
    {
      "epoch": 0.5105,
      "grad_norm": 0.8686275482177734,
      "learning_rate": 0.0001460176120296892,
      "loss": 3.9212,
      "step": 245040
    },
    {
      "epoch": 0.5105208333333333,
      "grad_norm": 0.8270429372787476,
      "learning_rate": 0.00014600775695902205,
      "loss": 3.8566,
      "step": 245050
    },
    {
      "epoch": 0.5105416666666667,
      "grad_norm": 0.8358250260353088,
      "learning_rate": 0.0001459979019055997,
      "loss": 3.7392,
      "step": 245060
    },
    {
      "epoch": 0.5105625,
      "grad_norm": 0.8495562076568604,
      "learning_rate": 0.00014598804686946488,
      "loss": 3.7815,
      "step": 245070
    },
    {
      "epoch": 0.5105833333333333,
      "grad_norm": 0.8590114116668701,
      "learning_rate": 0.00014597819185066012,
      "loss": 3.8108,
      "step": 245080
    },
    {
      "epoch": 0.5106041666666666,
      "grad_norm": 0.9725476503372192,
      "learning_rate": 0.00014596833684922794,
      "loss": 3.9727,
      "step": 245090
    },
    {
      "epoch": 0.510625,
      "grad_norm": 0.8256933689117432,
      "learning_rate": 0.00014595848186521097,
      "loss": 3.8388,
      "step": 245100
    },
    {
      "epoch": 0.5106458333333334,
      "grad_norm": 0.8796766996383667,
      "learning_rate": 0.0001459486268986518,
      "loss": 3.8381,
      "step": 245110
    },
    {
      "epoch": 0.5106666666666667,
      "grad_norm": 0.906292736530304,
      "learning_rate": 0.0001459387719495929,
      "loss": 3.7555,
      "step": 245120
    },
    {
      "epoch": 0.5106875,
      "grad_norm": 0.8767910599708557,
      "learning_rate": 0.0001459289170180769,
      "loss": 3.8495,
      "step": 245130
    },
    {
      "epoch": 0.5107083333333333,
      "grad_norm": 0.9683901071548462,
      "learning_rate": 0.0001459190621041464,
      "loss": 3.7955,
      "step": 245140
    },
    {
      "epoch": 0.5107291666666667,
      "grad_norm": 0.9597761631011963,
      "learning_rate": 0.0001459092072078439,
      "loss": 3.856,
      "step": 245150
    },
    {
      "epoch": 0.51075,
      "grad_norm": 0.9227377772331238,
      "learning_rate": 0.00014589935232921206,
      "loss": 3.9275,
      "step": 245160
    },
    {
      "epoch": 0.5107708333333333,
      "grad_norm": 0.8165345788002014,
      "learning_rate": 0.00014588949746829335,
      "loss": 3.8797,
      "step": 245170
    },
    {
      "epoch": 0.5107916666666666,
      "grad_norm": 0.8503811955451965,
      "learning_rate": 0.00014587964262513037,
      "loss": 3.7152,
      "step": 245180
    },
    {
      "epoch": 0.5108125,
      "grad_norm": 0.9633950591087341,
      "learning_rate": 0.00014586978779976577,
      "loss": 3.8413,
      "step": 245190
    },
    {
      "epoch": 0.5108333333333334,
      "grad_norm": 0.894321084022522,
      "learning_rate": 0.000145859932992242,
      "loss": 3.84,
      "step": 245200
    },
    {
      "epoch": 0.5108541666666667,
      "grad_norm": 0.8593774437904358,
      "learning_rate": 0.00014585007820260164,
      "loss": 3.8169,
      "step": 245210
    },
    {
      "epoch": 0.510875,
      "grad_norm": 1.074005126953125,
      "learning_rate": 0.0001458402234308874,
      "loss": 3.9204,
      "step": 245220
    },
    {
      "epoch": 0.5108958333333333,
      "grad_norm": 0.9365692138671875,
      "learning_rate": 0.0001458303686771417,
      "loss": 3.8036,
      "step": 245230
    },
    {
      "epoch": 0.5109166666666667,
      "grad_norm": 1.0601266622543335,
      "learning_rate": 0.0001458205139414071,
      "loss": 3.9094,
      "step": 245240
    },
    {
      "epoch": 0.5109375,
      "grad_norm": 1.0885486602783203,
      "learning_rate": 0.00014581065922372632,
      "loss": 3.9379,
      "step": 245250
    },
    {
      "epoch": 0.5109583333333333,
      "grad_norm": 0.8818358778953552,
      "learning_rate": 0.00014580080452414183,
      "loss": 3.9388,
      "step": 245260
    },
    {
      "epoch": 0.5109791666666667,
      "grad_norm": 0.9764742851257324,
      "learning_rate": 0.00014579094984269617,
      "loss": 3.7588,
      "step": 245270
    },
    {
      "epoch": 0.511,
      "grad_norm": 1.041025161743164,
      "learning_rate": 0.0001457810951794319,
      "loss": 3.815,
      "step": 245280
    },
    {
      "epoch": 0.5110208333333334,
      "grad_norm": 0.9685857892036438,
      "learning_rate": 0.0001457712405343917,
      "loss": 3.8417,
      "step": 245290
    },
    {
      "epoch": 0.5110416666666666,
      "grad_norm": 0.9292618632316589,
      "learning_rate": 0.000145761385907618,
      "loss": 3.5777,
      "step": 245300
    },
    {
      "epoch": 0.5110625,
      "grad_norm": 1.0425124168395996,
      "learning_rate": 0.00014575153129915344,
      "loss": 3.8542,
      "step": 245310
    },
    {
      "epoch": 0.5110833333333333,
      "grad_norm": 0.8880242705345154,
      "learning_rate": 0.00014574167670904068,
      "loss": 3.8845,
      "step": 245320
    },
    {
      "epoch": 0.5111041666666667,
      "grad_norm": 0.8196996450424194,
      "learning_rate": 0.0001457318221373221,
      "loss": 4.1002,
      "step": 245330
    },
    {
      "epoch": 0.511125,
      "grad_norm": 0.856626570224762,
      "learning_rate": 0.00014572196758404037,
      "loss": 3.8968,
      "step": 245340
    },
    {
      "epoch": 0.5111458333333333,
      "grad_norm": 0.9360457062721252,
      "learning_rate": 0.00014571211304923807,
      "loss": 3.9565,
      "step": 245350
    },
    {
      "epoch": 0.5111666666666667,
      "grad_norm": 0.9276116490364075,
      "learning_rate": 0.00014570225853295773,
      "loss": 3.8497,
      "step": 245360
    },
    {
      "epoch": 0.5111875,
      "grad_norm": 1.0111905336380005,
      "learning_rate": 0.0001456924040352419,
      "loss": 3.9728,
      "step": 245370
    },
    {
      "epoch": 0.5112083333333334,
      "grad_norm": 0.8378464579582214,
      "learning_rate": 0.00014568254955613324,
      "loss": 3.9232,
      "step": 245380
    },
    {
      "epoch": 0.5112291666666666,
      "grad_norm": 0.8761565089225769,
      "learning_rate": 0.00014567269509567425,
      "loss": 3.6701,
      "step": 245390
    },
    {
      "epoch": 0.51125,
      "grad_norm": 0.8635514974594116,
      "learning_rate": 0.00014566284065390748,
      "loss": 3.8779,
      "step": 245400
    },
    {
      "epoch": 0.5112708333333333,
      "grad_norm": 0.8989644646644592,
      "learning_rate": 0.00014565298623087552,
      "loss": 3.9935,
      "step": 245410
    },
    {
      "epoch": 0.5112916666666667,
      "grad_norm": 0.8303077816963196,
      "learning_rate": 0.00014564313182662098,
      "loss": 3.708,
      "step": 245420
    },
    {
      "epoch": 0.5113125,
      "grad_norm": 1.0989229679107666,
      "learning_rate": 0.0001456332774411863,
      "loss": 3.8345,
      "step": 245430
    },
    {
      "epoch": 0.5113333333333333,
      "grad_norm": 0.9104160070419312,
      "learning_rate": 0.00014562342307461419,
      "loss": 4.0164,
      "step": 245440
    },
    {
      "epoch": 0.5113541666666667,
      "grad_norm": 1.1407666206359863,
      "learning_rate": 0.00014561356872694719,
      "loss": 3.9369,
      "step": 245450
    },
    {
      "epoch": 0.511375,
      "grad_norm": 1.095916509628296,
      "learning_rate": 0.00014560371439822776,
      "loss": 3.6107,
      "step": 245460
    },
    {
      "epoch": 0.5113958333333334,
      "grad_norm": 1.2005940675735474,
      "learning_rate": 0.0001455938600884986,
      "loss": 3.8495,
      "step": 245470
    },
    {
      "epoch": 0.5114166666666666,
      "grad_norm": 0.8607015609741211,
      "learning_rate": 0.00014558400579780221,
      "loss": 3.9748,
      "step": 245480
    },
    {
      "epoch": 0.5114375,
      "grad_norm": 1.0400753021240234,
      "learning_rate": 0.00014557415152618113,
      "loss": 3.9629,
      "step": 245490
    },
    {
      "epoch": 0.5114583333333333,
      "grad_norm": 0.8742582201957703,
      "learning_rate": 0.00014556429727367802,
      "loss": 3.944,
      "step": 245500
    },
    {
      "epoch": 0.5114791666666667,
      "grad_norm": 0.8154638409614563,
      "learning_rate": 0.0001455544430403354,
      "loss": 3.839,
      "step": 245510
    },
    {
      "epoch": 0.5115,
      "grad_norm": 0.9423580169677734,
      "learning_rate": 0.00014554458882619573,
      "loss": 3.7609,
      "step": 245520
    },
    {
      "epoch": 0.5115208333333333,
      "grad_norm": 0.9689263701438904,
      "learning_rate": 0.0001455347346313018,
      "loss": 3.8176,
      "step": 245530
    },
    {
      "epoch": 0.5115416666666667,
      "grad_norm": 0.8654310703277588,
      "learning_rate": 0.00014552488045569597,
      "loss": 3.9,
      "step": 245540
    },
    {
      "epoch": 0.5115625,
      "grad_norm": 1.1324878931045532,
      "learning_rate": 0.00014551502629942084,
      "loss": 3.8983,
      "step": 245550
    },
    {
      "epoch": 0.5115833333333333,
      "grad_norm": 0.976220428943634,
      "learning_rate": 0.00014550517216251911,
      "loss": 3.9832,
      "step": 245560
    },
    {
      "epoch": 0.5116041666666666,
      "grad_norm": 0.8638579845428467,
      "learning_rate": 0.00014549531804503325,
      "loss": 3.8937,
      "step": 245570
    },
    {
      "epoch": 0.511625,
      "grad_norm": 0.8907438516616821,
      "learning_rate": 0.00014548546394700583,
      "loss": 3.9175,
      "step": 245580
    },
    {
      "epoch": 0.5116458333333334,
      "grad_norm": 0.983112096786499,
      "learning_rate": 0.00014547560986847937,
      "loss": 3.939,
      "step": 245590
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 0.8328222632408142,
      "learning_rate": 0.0001454657558094965,
      "loss": 3.8482,
      "step": 245600
    },
    {
      "epoch": 0.5116875,
      "grad_norm": 0.8973466753959656,
      "learning_rate": 0.00014545590177009982,
      "loss": 3.7929,
      "step": 245610
    },
    {
      "epoch": 0.5117083333333333,
      "grad_norm": 1.005645513534546,
      "learning_rate": 0.0001454460477503318,
      "loss": 3.9148,
      "step": 245620
    },
    {
      "epoch": 0.5117291666666667,
      "grad_norm": 0.9494785666465759,
      "learning_rate": 0.00014543619375023505,
      "loss": 3.8948,
      "step": 245630
    },
    {
      "epoch": 0.51175,
      "grad_norm": 0.8790169358253479,
      "learning_rate": 0.00014542633976985216,
      "loss": 4.0838,
      "step": 245640
    },
    {
      "epoch": 0.5117708333333333,
      "grad_norm": 0.8953442573547363,
      "learning_rate": 0.00014541648580922563,
      "loss": 4.0591,
      "step": 245650
    },
    {
      "epoch": 0.5117916666666666,
      "grad_norm": 0.8958806395530701,
      "learning_rate": 0.00014540663186839815,
      "loss": 3.8297,
      "step": 245660
    },
    {
      "epoch": 0.5118125,
      "grad_norm": 0.952528178691864,
      "learning_rate": 0.0001453967779474121,
      "loss": 3.8175,
      "step": 245670
    },
    {
      "epoch": 0.5118333333333334,
      "grad_norm": 0.9547899961471558,
      "learning_rate": 0.00014538692404631018,
      "loss": 3.7843,
      "step": 245680
    },
    {
      "epoch": 0.5118541666666667,
      "grad_norm": 0.9347987174987793,
      "learning_rate": 0.000145377070165135,
      "loss": 3.7142,
      "step": 245690
    },
    {
      "epoch": 0.511875,
      "grad_norm": 2.0239460468292236,
      "learning_rate": 0.00014536721630392896,
      "loss": 3.8857,
      "step": 245700
    },
    {
      "epoch": 0.5118958333333333,
      "grad_norm": 0.8873473405838013,
      "learning_rate": 0.0001453573624627347,
      "loss": 3.9315,
      "step": 245710
    },
    {
      "epoch": 0.5119166666666667,
      "grad_norm": 0.8545706868171692,
      "learning_rate": 0.00014534750864159487,
      "loss": 3.9323,
      "step": 245720
    },
    {
      "epoch": 0.5119375,
      "grad_norm": 1.1524701118469238,
      "learning_rate": 0.00014533765484055192,
      "loss": 4.0407,
      "step": 245730
    },
    {
      "epoch": 0.5119583333333333,
      "grad_norm": 0.8388590812683105,
      "learning_rate": 0.0001453278010596484,
      "loss": 3.6948,
      "step": 245740
    },
    {
      "epoch": 0.5119791666666667,
      "grad_norm": 0.9418332576751709,
      "learning_rate": 0.00014531794729892702,
      "loss": 3.89,
      "step": 245750
    },
    {
      "epoch": 0.512,
      "grad_norm": 1.0013844966888428,
      "learning_rate": 0.0001453080935584303,
      "loss": 3.7522,
      "step": 245760
    },
    {
      "epoch": 0.5120208333333334,
      "grad_norm": 0.862245500087738,
      "learning_rate": 0.00014529823983820063,
      "loss": 3.9697,
      "step": 245770
    },
    {
      "epoch": 0.5120416666666666,
      "grad_norm": 0.9306795001029968,
      "learning_rate": 0.00014528838613828076,
      "loss": 3.773,
      "step": 245780
    },
    {
      "epoch": 0.5120625,
      "grad_norm": 1.214637279510498,
      "learning_rate": 0.0001452785324587132,
      "loss": 3.8652,
      "step": 245790
    },
    {
      "epoch": 0.5120833333333333,
      "grad_norm": 0.9311816692352295,
      "learning_rate": 0.00014526867879954047,
      "loss": 3.7542,
      "step": 245800
    },
    {
      "epoch": 0.5121041666666667,
      "grad_norm": 0.9658284187316895,
      "learning_rate": 0.00014525882516080521,
      "loss": 3.7987,
      "step": 245810
    },
    {
      "epoch": 0.512125,
      "grad_norm": 0.9168900847434998,
      "learning_rate": 0.00014524897154254997,
      "loss": 3.8617,
      "step": 245820
    },
    {
      "epoch": 0.5121458333333333,
      "grad_norm": 0.902282178401947,
      "learning_rate": 0.00014523911794481724,
      "loss": 3.9702,
      "step": 245830
    },
    {
      "epoch": 0.5121666666666667,
      "grad_norm": 0.8078466653823853,
      "learning_rate": 0.00014522926436764965,
      "loss": 3.6682,
      "step": 245840
    },
    {
      "epoch": 0.5121875,
      "grad_norm": 1.3148186206817627,
      "learning_rate": 0.00014521941081108982,
      "loss": 3.956,
      "step": 245850
    },
    {
      "epoch": 0.5122083333333334,
      "grad_norm": 1.0909665822982788,
      "learning_rate": 0.00014520955727518017,
      "loss": 3.8335,
      "step": 245860
    },
    {
      "epoch": 0.5122291666666666,
      "grad_norm": 1.064517617225647,
      "learning_rate": 0.00014519970375996333,
      "loss": 3.8929,
      "step": 245870
    },
    {
      "epoch": 0.51225,
      "grad_norm": 0.8625571131706238,
      "learning_rate": 0.0001451898502654819,
      "loss": 3.7119,
      "step": 245880
    },
    {
      "epoch": 0.5122708333333333,
      "grad_norm": 0.8396034836769104,
      "learning_rate": 0.00014517999679177846,
      "loss": 3.7529,
      "step": 245890
    },
    {
      "epoch": 0.5122916666666667,
      "grad_norm": 0.8584551811218262,
      "learning_rate": 0.00014517014333889543,
      "loss": 3.9434,
      "step": 245900
    },
    {
      "epoch": 0.5123125,
      "grad_norm": 1.1078133583068848,
      "learning_rate": 0.00014516028990687552,
      "loss": 3.9937,
      "step": 245910
    },
    {
      "epoch": 0.5123333333333333,
      "grad_norm": 1.1732912063598633,
      "learning_rate": 0.00014515043649576125,
      "loss": 3.8962,
      "step": 245920
    },
    {
      "epoch": 0.5123541666666667,
      "grad_norm": 0.9084262251853943,
      "learning_rate": 0.00014514058310559512,
      "loss": 3.8247,
      "step": 245930
    },
    {
      "epoch": 0.512375,
      "grad_norm": 0.9978845715522766,
      "learning_rate": 0.0001451307297364198,
      "loss": 3.9359,
      "step": 245940
    },
    {
      "epoch": 0.5123958333333334,
      "grad_norm": 1.0163938999176025,
      "learning_rate": 0.0001451208763882778,
      "loss": 3.9333,
      "step": 245950
    },
    {
      "epoch": 0.5124166666666666,
      "grad_norm": 0.8740658760070801,
      "learning_rate": 0.00014511102306121165,
      "loss": 3.8239,
      "step": 245960
    },
    {
      "epoch": 0.5124375,
      "grad_norm": 0.9905025362968445,
      "learning_rate": 0.00014510116975526396,
      "loss": 3.8683,
      "step": 245970
    },
    {
      "epoch": 0.5124583333333333,
      "grad_norm": 1.0270084142684937,
      "learning_rate": 0.00014509131647047732,
      "loss": 3.9606,
      "step": 245980
    },
    {
      "epoch": 0.5124791666666667,
      "grad_norm": 0.8129180669784546,
      "learning_rate": 0.00014508146320689415,
      "loss": 3.8592,
      "step": 245990
    },
    {
      "epoch": 0.5125,
      "grad_norm": 2.859248638153076,
      "learning_rate": 0.0001450716099645572,
      "loss": 4.1189,
      "step": 246000
    },
    {
      "epoch": 0.5125,
      "eval_loss": 3.60888934135437,
      "eval_runtime": 7.3122,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 246000
    },
    {
      "epoch": 0.5125208333333333,
      "grad_norm": 0.9867717623710632,
      "learning_rate": 0.00014506175674350893,
      "loss": 3.7787,
      "step": 246010
    },
    {
      "epoch": 0.5125416666666667,
      "grad_norm": 0.9029245972633362,
      "learning_rate": 0.0001450519035437919,
      "loss": 3.9284,
      "step": 246020
    },
    {
      "epoch": 0.5125625,
      "grad_norm": 1.0016634464263916,
      "learning_rate": 0.0001450420503654487,
      "loss": 3.8743,
      "step": 246030
    },
    {
      "epoch": 0.5125833333333333,
      "grad_norm": 0.9288320541381836,
      "learning_rate": 0.00014503219720852185,
      "loss": 3.8929,
      "step": 246040
    },
    {
      "epoch": 0.5126041666666666,
      "grad_norm": 0.8678475618362427,
      "learning_rate": 0.00014502234407305395,
      "loss": 4.0163,
      "step": 246050
    },
    {
      "epoch": 0.512625,
      "grad_norm": 0.8690677881240845,
      "learning_rate": 0.0001450124909590876,
      "loss": 3.9265,
      "step": 246060
    },
    {
      "epoch": 0.5126458333333334,
      "grad_norm": 0.9923750758171082,
      "learning_rate": 0.00014500263786666528,
      "loss": 3.9787,
      "step": 246070
    },
    {
      "epoch": 0.5126666666666667,
      "grad_norm": 1.0899845361709595,
      "learning_rate": 0.00014499278479582954,
      "loss": 3.937,
      "step": 246080
    },
    {
      "epoch": 0.5126875,
      "grad_norm": 0.8491392135620117,
      "learning_rate": 0.00014498293174662307,
      "loss": 3.7673,
      "step": 246090
    },
    {
      "epoch": 0.5127083333333333,
      "grad_norm": 0.88837730884552,
      "learning_rate": 0.0001449730787190883,
      "loss": 3.8629,
      "step": 246100
    },
    {
      "epoch": 0.5127291666666667,
      "grad_norm": 0.8252690434455872,
      "learning_rate": 0.00014496322571326783,
      "loss": 3.7742,
      "step": 246110
    },
    {
      "epoch": 0.51275,
      "grad_norm": 0.8954599499702454,
      "learning_rate": 0.0001449533727292043,
      "loss": 3.8481,
      "step": 246120
    },
    {
      "epoch": 0.5127708333333333,
      "grad_norm": 0.8958612680435181,
      "learning_rate": 0.00014494351976694015,
      "loss": 3.9052,
      "step": 246130
    },
    {
      "epoch": 0.5127916666666666,
      "grad_norm": 1.0183155536651611,
      "learning_rate": 0.00014493366682651797,
      "loss": 3.708,
      "step": 246140
    },
    {
      "epoch": 0.5128125,
      "grad_norm": 1.037463903427124,
      "learning_rate": 0.0001449238139079804,
      "loss": 3.9235,
      "step": 246150
    },
    {
      "epoch": 0.5128333333333334,
      "grad_norm": 0.8789672255516052,
      "learning_rate": 0.00014491396101136994,
      "loss": 3.897,
      "step": 246160
    },
    {
      "epoch": 0.5128541666666667,
      "grad_norm": 0.9450425505638123,
      "learning_rate": 0.00014490410813672915,
      "loss": 3.8553,
      "step": 246170
    },
    {
      "epoch": 0.512875,
      "grad_norm": 1.0303292274475098,
      "learning_rate": 0.00014489425528410054,
      "loss": 3.7241,
      "step": 246180
    },
    {
      "epoch": 0.5128958333333333,
      "grad_norm": 1.0160337686538696,
      "learning_rate": 0.0001448844024535268,
      "loss": 3.9011,
      "step": 246190
    },
    {
      "epoch": 0.5129166666666667,
      "grad_norm": 1.0394986867904663,
      "learning_rate": 0.00014487454964505036,
      "loss": 4.0393,
      "step": 246200
    },
    {
      "epoch": 0.5129375,
      "grad_norm": 0.8566871285438538,
      "learning_rate": 0.00014486469685871385,
      "loss": 3.935,
      "step": 246210
    },
    {
      "epoch": 0.5129583333333333,
      "grad_norm": 0.8385611176490784,
      "learning_rate": 0.00014485484409455985,
      "loss": 3.7283,
      "step": 246220
    },
    {
      "epoch": 0.5129791666666667,
      "grad_norm": 0.9661760926246643,
      "learning_rate": 0.00014484499135263086,
      "loss": 3.8014,
      "step": 246230
    },
    {
      "epoch": 0.513,
      "grad_norm": 1.0002267360687256,
      "learning_rate": 0.00014483513863296942,
      "loss": 3.7691,
      "step": 246240
    },
    {
      "epoch": 0.5130208333333334,
      "grad_norm": 1.0144799947738647,
      "learning_rate": 0.00014482528593561824,
      "loss": 3.865,
      "step": 246250
    },
    {
      "epoch": 0.5130416666666666,
      "grad_norm": 0.8371724486351013,
      "learning_rate": 0.00014481543326061975,
      "loss": 3.787,
      "step": 246260
    },
    {
      "epoch": 0.5130625,
      "grad_norm": 0.8592806458473206,
      "learning_rate": 0.00014480558060801647,
      "loss": 4.0494,
      "step": 246270
    },
    {
      "epoch": 0.5130833333333333,
      "grad_norm": 1.1499111652374268,
      "learning_rate": 0.00014479572797785107,
      "loss": 3.753,
      "step": 246280
    },
    {
      "epoch": 0.5131041666666667,
      "grad_norm": 0.864578902721405,
      "learning_rate": 0.0001447858753701661,
      "loss": 3.8697,
      "step": 246290
    },
    {
      "epoch": 0.513125,
      "grad_norm": 0.9287382364273071,
      "learning_rate": 0.000144776022785004,
      "loss": 3.7685,
      "step": 246300
    },
    {
      "epoch": 0.5131458333333333,
      "grad_norm": 1.0324530601501465,
      "learning_rate": 0.00014476617022240746,
      "loss": 3.8176,
      "step": 246310
    },
    {
      "epoch": 0.5131666666666667,
      "grad_norm": 0.9571819305419922,
      "learning_rate": 0.00014475631768241903,
      "loss": 3.6959,
      "step": 246320
    },
    {
      "epoch": 0.5131875,
      "grad_norm": 0.9455724954605103,
      "learning_rate": 0.00014474646516508114,
      "loss": 3.6542,
      "step": 246330
    },
    {
      "epoch": 0.5132083333333334,
      "grad_norm": 1.1217695474624634,
      "learning_rate": 0.0001447366126704365,
      "loss": 3.8875,
      "step": 246340
    },
    {
      "epoch": 0.5132291666666666,
      "grad_norm": 0.8528106212615967,
      "learning_rate": 0.00014472676019852763,
      "loss": 3.8062,
      "step": 246350
    },
    {
      "epoch": 0.51325,
      "grad_norm": 0.9835128784179688,
      "learning_rate": 0.000144716907749397,
      "loss": 3.7525,
      "step": 246360
    },
    {
      "epoch": 0.5132708333333333,
      "grad_norm": 0.8506987690925598,
      "learning_rate": 0.0001447070553230873,
      "loss": 3.8395,
      "step": 246370
    },
    {
      "epoch": 0.5132916666666667,
      "grad_norm": 1.058790683746338,
      "learning_rate": 0.00014469720291964102,
      "loss": 3.8163,
      "step": 246380
    },
    {
      "epoch": 0.5133125,
      "grad_norm": 1.0403181314468384,
      "learning_rate": 0.00014468735053910068,
      "loss": 3.7551,
      "step": 246390
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 0.9002380967140198,
      "learning_rate": 0.00014467749818150894,
      "loss": 4.0953,
      "step": 246400
    },
    {
      "epoch": 0.5133541666666667,
      "grad_norm": 0.868720531463623,
      "learning_rate": 0.0001446676458469083,
      "loss": 3.8892,
      "step": 246410
    },
    {
      "epoch": 0.513375,
      "grad_norm": 0.9305245876312256,
      "learning_rate": 0.00014465779353534125,
      "loss": 3.876,
      "step": 246420
    },
    {
      "epoch": 0.5133958333333334,
      "grad_norm": 0.8594037890434265,
      "learning_rate": 0.00014464794124685048,
      "loss": 3.8606,
      "step": 246430
    },
    {
      "epoch": 0.5134166666666666,
      "grad_norm": 0.9353336095809937,
      "learning_rate": 0.00014463808898147846,
      "loss": 3.831,
      "step": 246440
    },
    {
      "epoch": 0.5134375,
      "grad_norm": 1.0316978693008423,
      "learning_rate": 0.0001446282367392678,
      "loss": 3.9764,
      "step": 246450
    },
    {
      "epoch": 0.5134583333333333,
      "grad_norm": 1.0951915979385376,
      "learning_rate": 0.00014461838452026099,
      "loss": 3.8789,
      "step": 246460
    },
    {
      "epoch": 0.5134791666666667,
      "grad_norm": 0.8795744776725769,
      "learning_rate": 0.00014460853232450065,
      "loss": 4.0509,
      "step": 246470
    },
    {
      "epoch": 0.5135,
      "grad_norm": 0.9241392016410828,
      "learning_rate": 0.00014459868015202936,
      "loss": 3.6765,
      "step": 246480
    },
    {
      "epoch": 0.5135208333333333,
      "grad_norm": 1.0550271272659302,
      "learning_rate": 0.00014458882800288955,
      "loss": 4.1202,
      "step": 246490
    },
    {
      "epoch": 0.5135416666666667,
      "grad_norm": 1.6786054372787476,
      "learning_rate": 0.0001445789758771239,
      "loss": 3.6449,
      "step": 246500
    },
    {
      "epoch": 0.5135625,
      "grad_norm": 1.0912014245986938,
      "learning_rate": 0.00014456912377477495,
      "loss": 3.7814,
      "step": 246510
    },
    {
      "epoch": 0.5135833333333333,
      "grad_norm": 0.8865299820899963,
      "learning_rate": 0.0001445592716958852,
      "loss": 3.839,
      "step": 246520
    },
    {
      "epoch": 0.5136041666666666,
      "grad_norm": 0.8432335257530212,
      "learning_rate": 0.0001445494196404973,
      "loss": 3.8539,
      "step": 246530
    },
    {
      "epoch": 0.513625,
      "grad_norm": 0.950136661529541,
      "learning_rate": 0.0001445395676086537,
      "loss": 3.9431,
      "step": 246540
    },
    {
      "epoch": 0.5136458333333334,
      "grad_norm": 0.8820808529853821,
      "learning_rate": 0.00014452971560039696,
      "loss": 3.7351,
      "step": 246550
    },
    {
      "epoch": 0.5136666666666667,
      "grad_norm": 0.9395349621772766,
      "learning_rate": 0.00014451986361576976,
      "loss": 3.8889,
      "step": 246560
    },
    {
      "epoch": 0.5136875,
      "grad_norm": 0.9054231643676758,
      "learning_rate": 0.00014451001165481455,
      "loss": 3.9878,
      "step": 246570
    },
    {
      "epoch": 0.5137083333333333,
      "grad_norm": 1.0487468242645264,
      "learning_rate": 0.0001445001597175739,
      "loss": 3.8198,
      "step": 246580
    },
    {
      "epoch": 0.5137291666666667,
      "grad_norm": 0.9715580344200134,
      "learning_rate": 0.00014449030780409045,
      "loss": 3.7845,
      "step": 246590
    },
    {
      "epoch": 0.51375,
      "grad_norm": 0.8680531978607178,
      "learning_rate": 0.00014448045591440665,
      "loss": 3.825,
      "step": 246600
    },
    {
      "epoch": 0.5137708333333333,
      "grad_norm": 0.9975951313972473,
      "learning_rate": 0.00014447060404856505,
      "loss": 3.7993,
      "step": 246610
    },
    {
      "epoch": 0.5137916666666666,
      "grad_norm": 1.0443449020385742,
      "learning_rate": 0.00014446075220660832,
      "loss": 3.7544,
      "step": 246620
    },
    {
      "epoch": 0.5138125,
      "grad_norm": 0.9579396843910217,
      "learning_rate": 0.00014445090038857892,
      "loss": 3.6912,
      "step": 246630
    },
    {
      "epoch": 0.5138333333333334,
      "grad_norm": 0.9203189015388489,
      "learning_rate": 0.0001444410485945194,
      "loss": 4.1201,
      "step": 246640
    },
    {
      "epoch": 0.5138541666666666,
      "grad_norm": 0.8291494250297546,
      "learning_rate": 0.00014443119682447242,
      "loss": 3.5966,
      "step": 246650
    },
    {
      "epoch": 0.513875,
      "grad_norm": 0.9417535662651062,
      "learning_rate": 0.00014442134507848046,
      "loss": 3.8654,
      "step": 246660
    },
    {
      "epoch": 0.5138958333333333,
      "grad_norm": 0.9941830039024353,
      "learning_rate": 0.00014441149335658602,
      "loss": 3.7941,
      "step": 246670
    },
    {
      "epoch": 0.5139166666666667,
      "grad_norm": 1.2692829370498657,
      "learning_rate": 0.00014440164165883173,
      "loss": 3.6908,
      "step": 246680
    },
    {
      "epoch": 0.5139375,
      "grad_norm": 0.941736102104187,
      "learning_rate": 0.00014439178998526018,
      "loss": 3.7614,
      "step": 246690
    },
    {
      "epoch": 0.5139583333333333,
      "grad_norm": 0.9221826195716858,
      "learning_rate": 0.0001443819383359138,
      "loss": 3.9412,
      "step": 246700
    },
    {
      "epoch": 0.5139791666666667,
      "grad_norm": 1.387876272201538,
      "learning_rate": 0.0001443720867108353,
      "loss": 3.7835,
      "step": 246710
    },
    {
      "epoch": 0.514,
      "grad_norm": 0.8799717426300049,
      "learning_rate": 0.00014436223511006714,
      "loss": 3.7835,
      "step": 246720
    },
    {
      "epoch": 0.5140208333333334,
      "grad_norm": 0.9241710305213928,
      "learning_rate": 0.00014435238353365185,
      "loss": 3.9543,
      "step": 246730
    },
    {
      "epoch": 0.5140416666666666,
      "grad_norm": 0.9571747779846191,
      "learning_rate": 0.00014434253198163205,
      "loss": 3.8048,
      "step": 246740
    },
    {
      "epoch": 0.5140625,
      "grad_norm": 0.9015384316444397,
      "learning_rate": 0.0001443326804540503,
      "loss": 3.6899,
      "step": 246750
    },
    {
      "epoch": 0.5140833333333333,
      "grad_norm": 0.7792909741401672,
      "learning_rate": 0.00014432282895094915,
      "loss": 3.7927,
      "step": 246760
    },
    {
      "epoch": 0.5141041666666667,
      "grad_norm": 0.9699897170066833,
      "learning_rate": 0.00014431297747237107,
      "loss": 3.9552,
      "step": 246770
    },
    {
      "epoch": 0.514125,
      "grad_norm": 1.0633655786514282,
      "learning_rate": 0.00014430312601835868,
      "loss": 3.9376,
      "step": 246780
    },
    {
      "epoch": 0.5141458333333333,
      "grad_norm": 0.9852238297462463,
      "learning_rate": 0.00014429327458895458,
      "loss": 3.733,
      "step": 246790
    },
    {
      "epoch": 0.5141666666666667,
      "grad_norm": 0.9672437906265259,
      "learning_rate": 0.0001442834231842012,
      "loss": 3.9598,
      "step": 246800
    },
    {
      "epoch": 0.5141875,
      "grad_norm": 0.8797321915626526,
      "learning_rate": 0.00014427357180414122,
      "loss": 3.8185,
      "step": 246810
    },
    {
      "epoch": 0.5142083333333334,
      "grad_norm": 0.9649829864501953,
      "learning_rate": 0.00014426372044881717,
      "loss": 3.7738,
      "step": 246820
    },
    {
      "epoch": 0.5142291666666666,
      "grad_norm": 0.882908821105957,
      "learning_rate": 0.0001442538691182715,
      "loss": 3.8226,
      "step": 246830
    },
    {
      "epoch": 0.51425,
      "grad_norm": 0.9472479820251465,
      "learning_rate": 0.0001442440178125469,
      "loss": 3.8664,
      "step": 246840
    },
    {
      "epoch": 0.5142708333333333,
      "grad_norm": 0.9003615379333496,
      "learning_rate": 0.00014423416653168585,
      "loss": 3.874,
      "step": 246850
    },
    {
      "epoch": 0.5142916666666667,
      "grad_norm": 0.8257671594619751,
      "learning_rate": 0.00014422431527573088,
      "loss": 3.7353,
      "step": 246860
    },
    {
      "epoch": 0.5143125,
      "grad_norm": 0.9329718351364136,
      "learning_rate": 0.00014421446404472461,
      "loss": 3.7409,
      "step": 246870
    },
    {
      "epoch": 0.5143333333333333,
      "grad_norm": 0.8794786930084229,
      "learning_rate": 0.00014420461283870962,
      "loss": 3.6835,
      "step": 246880
    },
    {
      "epoch": 0.5143541666666667,
      "grad_norm": 1.0649455785751343,
      "learning_rate": 0.00014419476165772834,
      "loss": 3.8768,
      "step": 246890
    },
    {
      "epoch": 0.514375,
      "grad_norm": 0.847324788570404,
      "learning_rate": 0.00014418491050182343,
      "loss": 3.8398,
      "step": 246900
    },
    {
      "epoch": 0.5143958333333334,
      "grad_norm": 0.8262501358985901,
      "learning_rate": 0.00014417505937103738,
      "loss": 3.9863,
      "step": 246910
    },
    {
      "epoch": 0.5144166666666666,
      "grad_norm": 0.9643384218215942,
      "learning_rate": 0.00014416520826541273,
      "loss": 3.7824,
      "step": 246920
    },
    {
      "epoch": 0.5144375,
      "grad_norm": 0.9515485763549805,
      "learning_rate": 0.00014415535718499215,
      "loss": 3.7376,
      "step": 246930
    },
    {
      "epoch": 0.5144583333333334,
      "grad_norm": 0.9857803583145142,
      "learning_rate": 0.00014414550612981808,
      "loss": 3.821,
      "step": 246940
    },
    {
      "epoch": 0.5144791666666667,
      "grad_norm": 0.9376367330551147,
      "learning_rate": 0.00014413565509993306,
      "loss": 3.626,
      "step": 246950
    },
    {
      "epoch": 0.5145,
      "grad_norm": 0.9166341423988342,
      "learning_rate": 0.00014412580409537976,
      "loss": 3.8823,
      "step": 246960
    },
    {
      "epoch": 0.5145208333333333,
      "grad_norm": 0.9755491018295288,
      "learning_rate": 0.00014411595311620065,
      "loss": 3.7688,
      "step": 246970
    },
    {
      "epoch": 0.5145416666666667,
      "grad_norm": 0.8368867039680481,
      "learning_rate": 0.00014410610216243822,
      "loss": 4.0365,
      "step": 246980
    },
    {
      "epoch": 0.5145625,
      "grad_norm": 0.9288902282714844,
      "learning_rate": 0.00014409625123413522,
      "loss": 3.8719,
      "step": 246990
    },
    {
      "epoch": 0.5145833333333333,
      "grad_norm": 0.9010328650474548,
      "learning_rate": 0.000144086400331334,
      "loss": 3.8895,
      "step": 247000
    },
    {
      "epoch": 0.5145833333333333,
      "eval_loss": 3.6222281455993652,
      "eval_runtime": 7.3074,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.411,
      "step": 247000
    },
    {
      "epoch": 0.5146041666666666,
      "grad_norm": 0.885891854763031,
      "learning_rate": 0.00014407654945407716,
      "loss": 3.8119,
      "step": 247010
    },
    {
      "epoch": 0.514625,
      "grad_norm": 0.8715777397155762,
      "learning_rate": 0.00014406669860240735,
      "loss": 3.9038,
      "step": 247020
    },
    {
      "epoch": 0.5146458333333334,
      "grad_norm": 0.938755989074707,
      "learning_rate": 0.00014405684777636706,
      "loss": 3.882,
      "step": 247030
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 0.8723354935646057,
      "learning_rate": 0.0001440469969759988,
      "loss": 3.8254,
      "step": 247040
    },
    {
      "epoch": 0.5146875,
      "grad_norm": 0.9183226823806763,
      "learning_rate": 0.00014403714620134513,
      "loss": 3.876,
      "step": 247050
    },
    {
      "epoch": 0.5147083333333333,
      "grad_norm": 1.0396206378936768,
      "learning_rate": 0.0001440272954524487,
      "loss": 3.7576,
      "step": 247060
    },
    {
      "epoch": 0.5147291666666667,
      "grad_norm": 0.8979840874671936,
      "learning_rate": 0.00014401744472935192,
      "loss": 3.6878,
      "step": 247070
    },
    {
      "epoch": 0.51475,
      "grad_norm": 0.9357559084892273,
      "learning_rate": 0.00014400759403209742,
      "loss": 3.6848,
      "step": 247080
    },
    {
      "epoch": 0.5147708333333333,
      "grad_norm": 1.2609280347824097,
      "learning_rate": 0.00014399774336072777,
      "loss": 3.9151,
      "step": 247090
    },
    {
      "epoch": 0.5147916666666666,
      "grad_norm": 0.9464313387870789,
      "learning_rate": 0.0001439878927152855,
      "loss": 3.8471,
      "step": 247100
    },
    {
      "epoch": 0.5148125,
      "grad_norm": 0.8967800140380859,
      "learning_rate": 0.0001439780420958131,
      "loss": 3.862,
      "step": 247110
    },
    {
      "epoch": 0.5148333333333334,
      "grad_norm": 1.3977664709091187,
      "learning_rate": 0.00014396819150235324,
      "loss": 3.859,
      "step": 247120
    },
    {
      "epoch": 0.5148541666666666,
      "grad_norm": 0.9132242798805237,
      "learning_rate": 0.00014395834093494837,
      "loss": 3.9409,
      "step": 247130
    },
    {
      "epoch": 0.514875,
      "grad_norm": 0.8953067660331726,
      "learning_rate": 0.00014394849039364103,
      "loss": 3.5685,
      "step": 247140
    },
    {
      "epoch": 0.5148958333333333,
      "grad_norm": 0.9032843708992004,
      "learning_rate": 0.00014393863987847391,
      "loss": 3.9743,
      "step": 247150
    },
    {
      "epoch": 0.5149166666666667,
      "grad_norm": 0.9228029847145081,
      "learning_rate": 0.00014392878938948944,
      "loss": 3.8349,
      "step": 247160
    },
    {
      "epoch": 0.5149375,
      "grad_norm": 0.833879292011261,
      "learning_rate": 0.00014391893892673016,
      "loss": 3.9405,
      "step": 247170
    },
    {
      "epoch": 0.5149583333333333,
      "grad_norm": 0.8703771829605103,
      "learning_rate": 0.00014390908849023866,
      "loss": 3.7553,
      "step": 247180
    },
    {
      "epoch": 0.5149791666666667,
      "grad_norm": 0.8126965165138245,
      "learning_rate": 0.00014389923808005755,
      "loss": 3.744,
      "step": 247190
    },
    {
      "epoch": 0.515,
      "grad_norm": 1.0641815662384033,
      "learning_rate": 0.00014388938769622922,
      "loss": 3.9674,
      "step": 247200
    },
    {
      "epoch": 0.5150208333333334,
      "grad_norm": 0.9120221734046936,
      "learning_rate": 0.0001438795373387964,
      "loss": 3.9691,
      "step": 247210
    },
    {
      "epoch": 0.5150416666666666,
      "grad_norm": 0.9459730386734009,
      "learning_rate": 0.00014386968700780153,
      "loss": 3.8871,
      "step": 247220
    },
    {
      "epoch": 0.5150625,
      "grad_norm": 0.9018388986587524,
      "learning_rate": 0.00014385983670328715,
      "loss": 3.8081,
      "step": 247230
    },
    {
      "epoch": 0.5150833333333333,
      "grad_norm": 0.9780693650245667,
      "learning_rate": 0.00014384998642529587,
      "loss": 3.7244,
      "step": 247240
    },
    {
      "epoch": 0.5151041666666667,
      "grad_norm": 1.0090014934539795,
      "learning_rate": 0.00014384013617387025,
      "loss": 3.8894,
      "step": 247250
    },
    {
      "epoch": 0.515125,
      "grad_norm": 0.8399152159690857,
      "learning_rate": 0.00014383028594905275,
      "loss": 3.7942,
      "step": 247260
    },
    {
      "epoch": 0.5151458333333333,
      "grad_norm": 0.9955546855926514,
      "learning_rate": 0.00014382043575088602,
      "loss": 3.946,
      "step": 247270
    },
    {
      "epoch": 0.5151666666666667,
      "grad_norm": 0.9733845591545105,
      "learning_rate": 0.0001438105855794125,
      "loss": 3.9269,
      "step": 247280
    },
    {
      "epoch": 0.5151875,
      "grad_norm": 0.9032783508300781,
      "learning_rate": 0.0001438007354346748,
      "loss": 3.848,
      "step": 247290
    },
    {
      "epoch": 0.5152083333333334,
      "grad_norm": 0.9652825593948364,
      "learning_rate": 0.00014379088531671556,
      "loss": 3.839,
      "step": 247300
    },
    {
      "epoch": 0.5152291666666666,
      "grad_norm": 0.9216580390930176,
      "learning_rate": 0.00014378103522557717,
      "loss": 3.8912,
      "step": 247310
    },
    {
      "epoch": 0.51525,
      "grad_norm": 0.86806321144104,
      "learning_rate": 0.00014377118516130223,
      "loss": 3.8962,
      "step": 247320
    },
    {
      "epoch": 0.5152708333333333,
      "grad_norm": 0.9295962452888489,
      "learning_rate": 0.00014376133512393336,
      "loss": 3.6254,
      "step": 247330
    },
    {
      "epoch": 0.5152916666666667,
      "grad_norm": 1.0029418468475342,
      "learning_rate": 0.000143751485113513,
      "loss": 3.9462,
      "step": 247340
    },
    {
      "epoch": 0.5153125,
      "grad_norm": 1.0261515378952026,
      "learning_rate": 0.00014374163513008383,
      "loss": 3.7551,
      "step": 247350
    },
    {
      "epoch": 0.5153333333333333,
      "grad_norm": 0.8543201684951782,
      "learning_rate": 0.00014373178517368824,
      "loss": 3.9616,
      "step": 247360
    },
    {
      "epoch": 0.5153541666666667,
      "grad_norm": 0.8821834921836853,
      "learning_rate": 0.00014372193524436888,
      "loss": 3.9046,
      "step": 247370
    },
    {
      "epoch": 0.515375,
      "grad_norm": 0.9846850633621216,
      "learning_rate": 0.0001437120853421683,
      "loss": 3.9151,
      "step": 247380
    },
    {
      "epoch": 0.5153958333333334,
      "grad_norm": 0.9010029435157776,
      "learning_rate": 0.00014370223546712898,
      "loss": 3.8145,
      "step": 247390
    },
    {
      "epoch": 0.5154166666666666,
      "grad_norm": 1.0191155672073364,
      "learning_rate": 0.00014369238561929356,
      "loss": 3.8666,
      "step": 247400
    },
    {
      "epoch": 0.5154375,
      "grad_norm": 0.8380929827690125,
      "learning_rate": 0.00014368253579870451,
      "loss": 3.7475,
      "step": 247410
    },
    {
      "epoch": 0.5154583333333334,
      "grad_norm": 0.8924593925476074,
      "learning_rate": 0.00014367268600540435,
      "loss": 4.0709,
      "step": 247420
    },
    {
      "epoch": 0.5154791666666667,
      "grad_norm": 1.4121222496032715,
      "learning_rate": 0.00014366283623943576,
      "loss": 3.7858,
      "step": 247430
    },
    {
      "epoch": 0.5155,
      "grad_norm": 0.9885252714157104,
      "learning_rate": 0.0001436529865008412,
      "loss": 3.8705,
      "step": 247440
    },
    {
      "epoch": 0.5155208333333333,
      "grad_norm": 0.867197573184967,
      "learning_rate": 0.00014364313678966317,
      "loss": 3.7374,
      "step": 247450
    },
    {
      "epoch": 0.5155416666666667,
      "grad_norm": 1.058565378189087,
      "learning_rate": 0.00014363328710594432,
      "loss": 3.9005,
      "step": 247460
    },
    {
      "epoch": 0.5155625,
      "grad_norm": 1.1176623106002808,
      "learning_rate": 0.00014362343744972716,
      "loss": 3.7374,
      "step": 247470
    },
    {
      "epoch": 0.5155833333333333,
      "grad_norm": 0.8997852802276611,
      "learning_rate": 0.00014361358782105416,
      "loss": 3.9442,
      "step": 247480
    },
    {
      "epoch": 0.5156041666666666,
      "grad_norm": 0.8859400749206543,
      "learning_rate": 0.00014360373821996803,
      "loss": 3.7686,
      "step": 247490
    },
    {
      "epoch": 0.515625,
      "grad_norm": 0.8243609666824341,
      "learning_rate": 0.00014359388864651116,
      "loss": 3.7911,
      "step": 247500
    },
    {
      "epoch": 0.5156458333333334,
      "grad_norm": 0.7998986840248108,
      "learning_rate": 0.00014358403910072612,
      "loss": 3.9961,
      "step": 247510
    },
    {
      "epoch": 0.5156666666666667,
      "grad_norm": 0.9540526866912842,
      "learning_rate": 0.00014357418958265555,
      "loss": 3.8954,
      "step": 247520
    },
    {
      "epoch": 0.5156875,
      "grad_norm": 0.8828452825546265,
      "learning_rate": 0.00014356434009234198,
      "loss": 3.8582,
      "step": 247530
    },
    {
      "epoch": 0.5157083333333333,
      "grad_norm": 1.0156457424163818,
      "learning_rate": 0.00014355449062982784,
      "loss": 3.8854,
      "step": 247540
    },
    {
      "epoch": 0.5157291666666667,
      "grad_norm": 0.9146654605865479,
      "learning_rate": 0.00014354464119515573,
      "loss": 3.9373,
      "step": 247550
    },
    {
      "epoch": 0.51575,
      "grad_norm": 0.9618844389915466,
      "learning_rate": 0.0001435347917883683,
      "loss": 3.8103,
      "step": 247560
    },
    {
      "epoch": 0.5157708333333333,
      "grad_norm": 0.9043707847595215,
      "learning_rate": 0.00014352494240950792,
      "loss": 3.7837,
      "step": 247570
    },
    {
      "epoch": 0.5157916666666666,
      "grad_norm": 1.1403433084487915,
      "learning_rate": 0.00014351509305861727,
      "loss": 3.9212,
      "step": 247580
    },
    {
      "epoch": 0.5158125,
      "grad_norm": 1.0363975763320923,
      "learning_rate": 0.00014350524373573888,
      "loss": 3.982,
      "step": 247590
    },
    {
      "epoch": 0.5158333333333334,
      "grad_norm": 0.8825969696044922,
      "learning_rate": 0.0001434953944409152,
      "loss": 3.6828,
      "step": 247600
    },
    {
      "epoch": 0.5158541666666666,
      "grad_norm": 0.9186385869979858,
      "learning_rate": 0.00014348554517418886,
      "loss": 3.8185,
      "step": 247610
    },
    {
      "epoch": 0.515875,
      "grad_norm": 0.9713848829269409,
      "learning_rate": 0.00014347569593560244,
      "loss": 3.6875,
      "step": 247620
    },
    {
      "epoch": 0.5158958333333333,
      "grad_norm": 0.931949257850647,
      "learning_rate": 0.0001434658467251984,
      "loss": 3.8572,
      "step": 247630
    },
    {
      "epoch": 0.5159166666666667,
      "grad_norm": 1.0631132125854492,
      "learning_rate": 0.00014345599754301926,
      "loss": 3.8954,
      "step": 247640
    },
    {
      "epoch": 0.5159375,
      "grad_norm": 0.875852108001709,
      "learning_rate": 0.0001434461483891077,
      "loss": 3.6729,
      "step": 247650
    },
    {
      "epoch": 0.5159583333333333,
      "grad_norm": 0.912996768951416,
      "learning_rate": 0.0001434362992635062,
      "loss": 3.85,
      "step": 247660
    },
    {
      "epoch": 0.5159791666666667,
      "grad_norm": 0.9235836863517761,
      "learning_rate": 0.00014342645016625718,
      "loss": 3.8832,
      "step": 247670
    },
    {
      "epoch": 0.516,
      "grad_norm": 0.9414525032043457,
      "learning_rate": 0.00014341660109740338,
      "loss": 3.8839,
      "step": 247680
    },
    {
      "epoch": 0.5160208333333334,
      "grad_norm": 0.9443615078926086,
      "learning_rate": 0.00014340675205698724,
      "loss": 3.8891,
      "step": 247690
    },
    {
      "epoch": 0.5160416666666666,
      "grad_norm": 1.0382839441299438,
      "learning_rate": 0.0001433969030450513,
      "loss": 3.8831,
      "step": 247700
    },
    {
      "epoch": 0.5160625,
      "grad_norm": 0.9671795964241028,
      "learning_rate": 0.00014338705406163814,
      "loss": 3.984,
      "step": 247710
    },
    {
      "epoch": 0.5160833333333333,
      "grad_norm": 1.0965161323547363,
      "learning_rate": 0.0001433772051067903,
      "loss": 3.9525,
      "step": 247720
    },
    {
      "epoch": 0.5161041666666667,
      "grad_norm": 0.9535773396492004,
      "learning_rate": 0.0001433673561805503,
      "loss": 3.816,
      "step": 247730
    },
    {
      "epoch": 0.516125,
      "grad_norm": 0.9497812986373901,
      "learning_rate": 0.00014335750728296066,
      "loss": 3.9704,
      "step": 247740
    },
    {
      "epoch": 0.5161458333333333,
      "grad_norm": 0.8703756332397461,
      "learning_rate": 0.00014334765841406404,
      "loss": 3.7859,
      "step": 247750
    },
    {
      "epoch": 0.5161666666666667,
      "grad_norm": 0.9265052080154419,
      "learning_rate": 0.00014333780957390284,
      "loss": 3.8606,
      "step": 247760
    },
    {
      "epoch": 0.5161875,
      "grad_norm": 0.9390813708305359,
      "learning_rate": 0.0001433279607625197,
      "loss": 3.7168,
      "step": 247770
    },
    {
      "epoch": 0.5162083333333334,
      "grad_norm": 0.9570348262786865,
      "learning_rate": 0.00014331811197995713,
      "loss": 3.7731,
      "step": 247780
    },
    {
      "epoch": 0.5162291666666666,
      "grad_norm": 0.8967843055725098,
      "learning_rate": 0.0001433082632262576,
      "loss": 3.7109,
      "step": 247790
    },
    {
      "epoch": 0.51625,
      "grad_norm": 1.0651788711547852,
      "learning_rate": 0.00014329841450146381,
      "loss": 3.8923,
      "step": 247800
    },
    {
      "epoch": 0.5162708333333333,
      "grad_norm": 0.9095273613929749,
      "learning_rate": 0.0001432885658056182,
      "loss": 3.7481,
      "step": 247810
    },
    {
      "epoch": 0.5162916666666667,
      "grad_norm": 0.8537068963050842,
      "learning_rate": 0.00014327871713876327,
      "loss": 3.7937,
      "step": 247820
    },
    {
      "epoch": 0.5163125,
      "grad_norm": 0.8887457251548767,
      "learning_rate": 0.0001432688685009417,
      "loss": 3.8145,
      "step": 247830
    },
    {
      "epoch": 0.5163333333333333,
      "grad_norm": 0.9029426574707031,
      "learning_rate": 0.0001432590198921959,
      "loss": 3.7516,
      "step": 247840
    },
    {
      "epoch": 0.5163541666666667,
      "grad_norm": 1.1381415128707886,
      "learning_rate": 0.00014324917131256846,
      "loss": 3.9268,
      "step": 247850
    },
    {
      "epoch": 0.516375,
      "grad_norm": 0.7619253993034363,
      "learning_rate": 0.00014323932276210199,
      "loss": 3.8201,
      "step": 247860
    },
    {
      "epoch": 0.5163958333333334,
      "grad_norm": 0.9710823893547058,
      "learning_rate": 0.00014322947424083893,
      "loss": 3.6801,
      "step": 247870
    },
    {
      "epoch": 0.5164166666666666,
      "grad_norm": 1.1293158531188965,
      "learning_rate": 0.00014321962574882183,
      "loss": 3.8352,
      "step": 247880
    },
    {
      "epoch": 0.5164375,
      "grad_norm": 0.959722101688385,
      "learning_rate": 0.0001432097772860933,
      "loss": 4.0682,
      "step": 247890
    },
    {
      "epoch": 0.5164583333333334,
      "grad_norm": 0.9550783634185791,
      "learning_rate": 0.0001431999288526959,
      "loss": 3.891,
      "step": 247900
    },
    {
      "epoch": 0.5164791666666667,
      "grad_norm": 0.9871882200241089,
      "learning_rate": 0.00014319008044867202,
      "loss": 3.8835,
      "step": 247910
    },
    {
      "epoch": 0.5165,
      "grad_norm": 0.9793059229850769,
      "learning_rate": 0.00014318023207406433,
      "loss": 3.8228,
      "step": 247920
    },
    {
      "epoch": 0.5165208333333333,
      "grad_norm": 0.981199324131012,
      "learning_rate": 0.00014317038372891537,
      "loss": 3.8826,
      "step": 247930
    },
    {
      "epoch": 0.5165416666666667,
      "grad_norm": 0.8212167620658875,
      "learning_rate": 0.00014316053541326763,
      "loss": 3.9275,
      "step": 247940
    },
    {
      "epoch": 0.5165625,
      "grad_norm": 0.8198069334030151,
      "learning_rate": 0.0001431506871271636,
      "loss": 3.7763,
      "step": 247950
    },
    {
      "epoch": 0.5165833333333333,
      "grad_norm": 1.0981745719909668,
      "learning_rate": 0.000143140838870646,
      "loss": 3.8289,
      "step": 247960
    },
    {
      "epoch": 0.5166041666666666,
      "grad_norm": 0.952714741230011,
      "learning_rate": 0.0001431309906437572,
      "loss": 3.881,
      "step": 247970
    },
    {
      "epoch": 0.516625,
      "grad_norm": 0.8534637689590454,
      "learning_rate": 0.0001431211424465398,
      "loss": 3.9374,
      "step": 247980
    },
    {
      "epoch": 0.5166458333333334,
      "grad_norm": 1.0544458627700806,
      "learning_rate": 0.00014311129427903638,
      "loss": 3.7358,
      "step": 247990
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 1.0156980752944946,
      "learning_rate": 0.0001431014461412894,
      "loss": 3.8921,
      "step": 248000
    },
    {
      "epoch": 0.5166666666666667,
      "eval_loss": 3.6206977367401123,
      "eval_runtime": 7.3335,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 248000
    },
    {
      "epoch": 0.5166875,
      "grad_norm": 0.9147132635116577,
      "learning_rate": 0.00014309159803334144,
      "loss": 3.7368,
      "step": 248010
    },
    {
      "epoch": 0.5167083333333333,
      "grad_norm": 0.8531437516212463,
      "learning_rate": 0.00014308174995523507,
      "loss": 3.6242,
      "step": 248020
    },
    {
      "epoch": 0.5167291666666667,
      "grad_norm": 0.8926057815551758,
      "learning_rate": 0.00014307190190701285,
      "loss": 3.9937,
      "step": 248030
    },
    {
      "epoch": 0.51675,
      "grad_norm": 0.8998228311538696,
      "learning_rate": 0.00014306205388871717,
      "loss": 4.03,
      "step": 248040
    },
    {
      "epoch": 0.5167708333333333,
      "grad_norm": 1.173241138458252,
      "learning_rate": 0.00014305220590039072,
      "loss": 3.846,
      "step": 248050
    },
    {
      "epoch": 0.5167916666666666,
      "grad_norm": 0.9551326036453247,
      "learning_rate": 0.000143042357942076,
      "loss": 3.9057,
      "step": 248060
    },
    {
      "epoch": 0.5168125,
      "grad_norm": 0.9273667335510254,
      "learning_rate": 0.0001430325100138155,
      "loss": 3.7883,
      "step": 248070
    },
    {
      "epoch": 0.5168333333333334,
      "grad_norm": 1.1913671493530273,
      "learning_rate": 0.00014302266211565183,
      "loss": 3.6503,
      "step": 248080
    },
    {
      "epoch": 0.5168541666666666,
      "grad_norm": 1.010372281074524,
      "learning_rate": 0.00014301281424762753,
      "loss": 3.9284,
      "step": 248090
    },
    {
      "epoch": 0.516875,
      "grad_norm": 0.8848162293434143,
      "learning_rate": 0.00014300296640978503,
      "loss": 3.8834,
      "step": 248100
    },
    {
      "epoch": 0.5168958333333333,
      "grad_norm": 0.8990943431854248,
      "learning_rate": 0.000142993118602167,
      "loss": 3.7038,
      "step": 248110
    },
    {
      "epoch": 0.5169166666666667,
      "grad_norm": 0.8409153819084167,
      "learning_rate": 0.00014298327082481593,
      "loss": 3.8283,
      "step": 248120
    },
    {
      "epoch": 0.5169375,
      "grad_norm": 0.9052712917327881,
      "learning_rate": 0.00014297342307777427,
      "loss": 3.8955,
      "step": 248130
    },
    {
      "epoch": 0.5169583333333333,
      "grad_norm": 0.9267522096633911,
      "learning_rate": 0.0001429635753610847,
      "loss": 3.7143,
      "step": 248140
    },
    {
      "epoch": 0.5169791666666667,
      "grad_norm": 0.8680911660194397,
      "learning_rate": 0.00014295372767478975,
      "loss": 3.8581,
      "step": 248150
    },
    {
      "epoch": 0.517,
      "grad_norm": 0.9467752575874329,
      "learning_rate": 0.0001429438800189318,
      "loss": 3.9648,
      "step": 248160
    },
    {
      "epoch": 0.5170208333333334,
      "grad_norm": 0.9705514311790466,
      "learning_rate": 0.0001429340323935536,
      "loss": 3.8968,
      "step": 248170
    },
    {
      "epoch": 0.5170416666666666,
      "grad_norm": 0.822391927242279,
      "learning_rate": 0.00014292418479869753,
      "loss": 4.009,
      "step": 248180
    },
    {
      "epoch": 0.5170625,
      "grad_norm": 1.0286954641342163,
      "learning_rate": 0.00014291433723440615,
      "loss": 3.7761,
      "step": 248190
    },
    {
      "epoch": 0.5170833333333333,
      "grad_norm": 0.9597263932228088,
      "learning_rate": 0.0001429044897007221,
      "loss": 3.8025,
      "step": 248200
    },
    {
      "epoch": 0.5171041666666667,
      "grad_norm": 0.9022918343544006,
      "learning_rate": 0.00014289464219768781,
      "loss": 3.9625,
      "step": 248210
    },
    {
      "epoch": 0.517125,
      "grad_norm": 1.0218926668167114,
      "learning_rate": 0.00014288479472534588,
      "loss": 3.7422,
      "step": 248220
    },
    {
      "epoch": 0.5171458333333333,
      "grad_norm": 0.8990100622177124,
      "learning_rate": 0.00014287494728373878,
      "loss": 3.6736,
      "step": 248230
    },
    {
      "epoch": 0.5171666666666667,
      "grad_norm": 1.55885910987854,
      "learning_rate": 0.0001428650998729091,
      "loss": 3.8381,
      "step": 248240
    },
    {
      "epoch": 0.5171875,
      "grad_norm": 0.9252811670303345,
      "learning_rate": 0.0001428552524928994,
      "loss": 4.0277,
      "step": 248250
    },
    {
      "epoch": 0.5172083333333334,
      "grad_norm": 1.1905418634414673,
      "learning_rate": 0.0001428454051437521,
      "loss": 3.9095,
      "step": 248260
    },
    {
      "epoch": 0.5172291666666666,
      "grad_norm": 1.211104154586792,
      "learning_rate": 0.00014283555782550992,
      "loss": 3.7545,
      "step": 248270
    },
    {
      "epoch": 0.51725,
      "grad_norm": 0.9886796474456787,
      "learning_rate": 0.00014282571053821522,
      "loss": 3.8801,
      "step": 248280
    },
    {
      "epoch": 0.5172708333333333,
      "grad_norm": 0.9759075045585632,
      "learning_rate": 0.0001428158632819106,
      "loss": 3.9118,
      "step": 248290
    },
    {
      "epoch": 0.5172916666666667,
      "grad_norm": 0.9475905299186707,
      "learning_rate": 0.00014280601605663867,
      "loss": 3.8435,
      "step": 248300
    },
    {
      "epoch": 0.5173125,
      "grad_norm": 0.9322344660758972,
      "learning_rate": 0.00014279616886244187,
      "loss": 3.7627,
      "step": 248310
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 0.8835708498954773,
      "learning_rate": 0.00014278632169936273,
      "loss": 3.7908,
      "step": 248320
    },
    {
      "epoch": 0.5173541666666667,
      "grad_norm": 1.0747560262680054,
      "learning_rate": 0.0001427764745674439,
      "loss": 4.0525,
      "step": 248330
    },
    {
      "epoch": 0.517375,
      "grad_norm": 0.8783420324325562,
      "learning_rate": 0.0001427666274667278,
      "loss": 3.9056,
      "step": 248340
    },
    {
      "epoch": 0.5173958333333334,
      "grad_norm": 0.8685622215270996,
      "learning_rate": 0.000142756780397257,
      "loss": 3.7574,
      "step": 248350
    },
    {
      "epoch": 0.5174166666666666,
      "grad_norm": 1.1391862630844116,
      "learning_rate": 0.00014274693335907408,
      "loss": 3.8056,
      "step": 248360
    },
    {
      "epoch": 0.5174375,
      "grad_norm": 0.8828774094581604,
      "learning_rate": 0.0001427370863522215,
      "loss": 3.7177,
      "step": 248370
    },
    {
      "epoch": 0.5174583333333334,
      "grad_norm": 0.861680269241333,
      "learning_rate": 0.0001427272393767418,
      "loss": 3.7752,
      "step": 248380
    },
    {
      "epoch": 0.5174791666666667,
      "grad_norm": 1.0365068912506104,
      "learning_rate": 0.00014271739243267763,
      "loss": 3.7394,
      "step": 248390
    },
    {
      "epoch": 0.5175,
      "grad_norm": 0.9996284246444702,
      "learning_rate": 0.00014270754552007144,
      "loss": 3.7538,
      "step": 248400
    },
    {
      "epoch": 0.5175208333333333,
      "grad_norm": 0.8715360164642334,
      "learning_rate": 0.0001426976986389657,
      "loss": 3.9718,
      "step": 248410
    },
    {
      "epoch": 0.5175416666666667,
      "grad_norm": 0.857672393321991,
      "learning_rate": 0.00014268785178940305,
      "loss": 3.8136,
      "step": 248420
    },
    {
      "epoch": 0.5175625,
      "grad_norm": 0.8507682681083679,
      "learning_rate": 0.00014267800497142597,
      "loss": 3.8434,
      "step": 248430
    },
    {
      "epoch": 0.5175833333333333,
      "grad_norm": 0.9596306085586548,
      "learning_rate": 0.000142668158185077,
      "loss": 4.0547,
      "step": 248440
    },
    {
      "epoch": 0.5176041666666666,
      "grad_norm": 1.1216907501220703,
      "learning_rate": 0.0001426583114303987,
      "loss": 3.7847,
      "step": 248450
    },
    {
      "epoch": 0.517625,
      "grad_norm": 0.9309074282646179,
      "learning_rate": 0.0001426484647074336,
      "loss": 3.7657,
      "step": 248460
    },
    {
      "epoch": 0.5176458333333334,
      "grad_norm": 1.0411114692687988,
      "learning_rate": 0.0001426386180162242,
      "loss": 3.901,
      "step": 248470
    },
    {
      "epoch": 0.5176666666666667,
      "grad_norm": 0.9082456231117249,
      "learning_rate": 0.00014262877135681306,
      "loss": 3.8293,
      "step": 248480
    },
    {
      "epoch": 0.5176875,
      "grad_norm": 0.9381804466247559,
      "learning_rate": 0.00014261892472924276,
      "loss": 3.5639,
      "step": 248490
    },
    {
      "epoch": 0.5177083333333333,
      "grad_norm": 0.912314772605896,
      "learning_rate": 0.0001426090781335557,
      "loss": 3.9147,
      "step": 248500
    },
    {
      "epoch": 0.5177291666666667,
      "grad_norm": 0.9198379516601562,
      "learning_rate": 0.00014259923156979454,
      "loss": 3.7909,
      "step": 248510
    },
    {
      "epoch": 0.51775,
      "grad_norm": 0.817409336566925,
      "learning_rate": 0.0001425893850380018,
      "loss": 3.7396,
      "step": 248520
    },
    {
      "epoch": 0.5177708333333333,
      "grad_norm": 0.8677191734313965,
      "learning_rate": 0.00014257953853821998,
      "loss": 3.8376,
      "step": 248530
    },
    {
      "epoch": 0.5177916666666667,
      "grad_norm": 0.9872984886169434,
      "learning_rate": 0.00014256969207049157,
      "loss": 3.8928,
      "step": 248540
    },
    {
      "epoch": 0.5178125,
      "grad_norm": 0.8875302076339722,
      "learning_rate": 0.00014255984563485915,
      "loss": 3.7841,
      "step": 248550
    },
    {
      "epoch": 0.5178333333333334,
      "grad_norm": 0.8758985996246338,
      "learning_rate": 0.0001425499992313653,
      "loss": 3.9701,
      "step": 248560
    },
    {
      "epoch": 0.5178541666666666,
      "grad_norm": 1.0043714046478271,
      "learning_rate": 0.00014254015286005244,
      "loss": 3.9824,
      "step": 248570
    },
    {
      "epoch": 0.517875,
      "grad_norm": 1.0115156173706055,
      "learning_rate": 0.0001425303065209632,
      "loss": 4.0085,
      "step": 248580
    },
    {
      "epoch": 0.5178958333333333,
      "grad_norm": 0.9091438055038452,
      "learning_rate": 0.0001425204602141401,
      "loss": 4.0178,
      "step": 248590
    },
    {
      "epoch": 0.5179166666666667,
      "grad_norm": 0.9973564147949219,
      "learning_rate": 0.0001425106139396256,
      "loss": 3.9446,
      "step": 248600
    },
    {
      "epoch": 0.5179375,
      "grad_norm": 0.9838245511054993,
      "learning_rate": 0.00014250076769746234,
      "loss": 3.9002,
      "step": 248610
    },
    {
      "epoch": 0.5179583333333333,
      "grad_norm": 0.9537680149078369,
      "learning_rate": 0.0001424909214876928,
      "loss": 3.7329,
      "step": 248620
    },
    {
      "epoch": 0.5179791666666667,
      "grad_norm": 0.8657111525535583,
      "learning_rate": 0.00014248107531035942,
      "loss": 3.9157,
      "step": 248630
    },
    {
      "epoch": 0.518,
      "grad_norm": 0.9015556573867798,
      "learning_rate": 0.00014247122916550488,
      "loss": 3.6341,
      "step": 248640
    },
    {
      "epoch": 0.5180208333333334,
      "grad_norm": 1.0701693296432495,
      "learning_rate": 0.00014246138305317168,
      "loss": 3.7745,
      "step": 248650
    },
    {
      "epoch": 0.5180416666666666,
      "grad_norm": 1.106215476989746,
      "learning_rate": 0.00014245153697340225,
      "loss": 3.9464,
      "step": 248660
    },
    {
      "epoch": 0.5180625,
      "grad_norm": 0.9956161379814148,
      "learning_rate": 0.00014244169092623928,
      "loss": 3.8932,
      "step": 248670
    },
    {
      "epoch": 0.5180833333333333,
      "grad_norm": 1.3441847562789917,
      "learning_rate": 0.00014243184491172516,
      "loss": 3.9573,
      "step": 248680
    },
    {
      "epoch": 0.5181041666666667,
      "grad_norm": 0.9990230798721313,
      "learning_rate": 0.00014242199892990242,
      "loss": 3.8004,
      "step": 248690
    },
    {
      "epoch": 0.518125,
      "grad_norm": 1.0656404495239258,
      "learning_rate": 0.00014241215298081374,
      "loss": 3.7666,
      "step": 248700
    },
    {
      "epoch": 0.5181458333333333,
      "grad_norm": 0.9585140943527222,
      "learning_rate": 0.0001424023070645015,
      "loss": 3.7827,
      "step": 248710
    },
    {
      "epoch": 0.5181666666666667,
      "grad_norm": 1.0072505474090576,
      "learning_rate": 0.00014239246118100826,
      "loss": 3.9026,
      "step": 248720
    },
    {
      "epoch": 0.5181875,
      "grad_norm": 0.9241626858711243,
      "learning_rate": 0.00014238261533037667,
      "loss": 4.0167,
      "step": 248730
    },
    {
      "epoch": 0.5182083333333334,
      "grad_norm": 0.9000899791717529,
      "learning_rate": 0.00014237276951264912,
      "loss": 3.9085,
      "step": 248740
    },
    {
      "epoch": 0.5182291666666666,
      "grad_norm": 0.825293242931366,
      "learning_rate": 0.00014236292372786814,
      "loss": 3.8636,
      "step": 248750
    },
    {
      "epoch": 0.51825,
      "grad_norm": 0.8558489084243774,
      "learning_rate": 0.00014235307797607637,
      "loss": 3.8817,
      "step": 248760
    },
    {
      "epoch": 0.5182708333333333,
      "grad_norm": 1.1960549354553223,
      "learning_rate": 0.0001423432322573163,
      "loss": 3.8147,
      "step": 248770
    },
    {
      "epoch": 0.5182916666666667,
      "grad_norm": 0.9007481336593628,
      "learning_rate": 0.00014233338657163036,
      "loss": 4.0172,
      "step": 248780
    },
    {
      "epoch": 0.5183125,
      "grad_norm": 0.975669264793396,
      "learning_rate": 0.00014232354091906117,
      "loss": 3.7318,
      "step": 248790
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 0.9725657105445862,
      "learning_rate": 0.0001423136952996513,
      "loss": 3.979,
      "step": 248800
    },
    {
      "epoch": 0.5183541666666667,
      "grad_norm": 0.8987860679626465,
      "learning_rate": 0.00014230384971344317,
      "loss": 3.9555,
      "step": 248810
    },
    {
      "epoch": 0.518375,
      "grad_norm": 0.8826277256011963,
      "learning_rate": 0.00014229400416047936,
      "loss": 4.1031,
      "step": 248820
    },
    {
      "epoch": 0.5183958333333333,
      "grad_norm": 0.9517799019813538,
      "learning_rate": 0.00014228415864080246,
      "loss": 3.7901,
      "step": 248830
    },
    {
      "epoch": 0.5184166666666666,
      "grad_norm": 0.8509551286697388,
      "learning_rate": 0.0001422743131544549,
      "loss": 3.8462,
      "step": 248840
    },
    {
      "epoch": 0.5184375,
      "grad_norm": 0.8581533432006836,
      "learning_rate": 0.0001422644677014792,
      "loss": 3.7862,
      "step": 248850
    },
    {
      "epoch": 0.5184583333333334,
      "grad_norm": 0.9379781484603882,
      "learning_rate": 0.00014225462228191802,
      "loss": 3.9606,
      "step": 248860
    },
    {
      "epoch": 0.5184791666666667,
      "grad_norm": 0.9243443012237549,
      "learning_rate": 0.0001422447768958138,
      "loss": 3.8966,
      "step": 248870
    },
    {
      "epoch": 0.5185,
      "grad_norm": 0.948561429977417,
      "learning_rate": 0.00014223493154320898,
      "loss": 3.7855,
      "step": 248880
    },
    {
      "epoch": 0.5185208333333333,
      "grad_norm": 0.8546867370605469,
      "learning_rate": 0.0001422250862241463,
      "loss": 3.7278,
      "step": 248890
    },
    {
      "epoch": 0.5185416666666667,
      "grad_norm": 0.8618509769439697,
      "learning_rate": 0.00014221524093866814,
      "loss": 3.7401,
      "step": 248900
    },
    {
      "epoch": 0.5185625,
      "grad_norm": 0.9261782169342041,
      "learning_rate": 0.000142205395686817,
      "loss": 3.5845,
      "step": 248910
    },
    {
      "epoch": 0.5185833333333333,
      "grad_norm": 0.894822359085083,
      "learning_rate": 0.0001421955504686355,
      "loss": 3.8121,
      "step": 248920
    },
    {
      "epoch": 0.5186041666666666,
      "grad_norm": 1.0865033864974976,
      "learning_rate": 0.00014218570528416616,
      "loss": 3.8576,
      "step": 248930
    },
    {
      "epoch": 0.518625,
      "grad_norm": 0.8677423596382141,
      "learning_rate": 0.00014217586013345144,
      "loss": 3.8918,
      "step": 248940
    },
    {
      "epoch": 0.5186458333333334,
      "grad_norm": 0.9504415988922119,
      "learning_rate": 0.0001421660150165339,
      "loss": 3.9754,
      "step": 248950
    },
    {
      "epoch": 0.5186666666666667,
      "grad_norm": 0.9368905425071716,
      "learning_rate": 0.00014215616993345614,
      "loss": 3.7659,
      "step": 248960
    },
    {
      "epoch": 0.5186875,
      "grad_norm": 0.8442273736000061,
      "learning_rate": 0.00014214632488426053,
      "loss": 3.9011,
      "step": 248970
    },
    {
      "epoch": 0.5187083333333333,
      "grad_norm": 0.9647568464279175,
      "learning_rate": 0.00014213647986898974,
      "loss": 3.8962,
      "step": 248980
    },
    {
      "epoch": 0.5187291666666667,
      "grad_norm": 0.8702344298362732,
      "learning_rate": 0.00014212663488768628,
      "loss": 3.7302,
      "step": 248990
    },
    {
      "epoch": 0.51875,
      "grad_norm": 1.1617032289505005,
      "learning_rate": 0.00014211678994039255,
      "loss": 3.5137,
      "step": 249000
    },
    {
      "epoch": 0.51875,
      "eval_loss": 3.6146035194396973,
      "eval_runtime": 7.381,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.406,
      "step": 249000
    },
    {
      "epoch": 0.5187708333333333,
      "grad_norm": 0.9560636878013611,
      "learning_rate": 0.00014210694502715123,
      "loss": 4.0437,
      "step": 249010
    },
    {
      "epoch": 0.5187916666666667,
      "grad_norm": 0.8754454851150513,
      "learning_rate": 0.0001420971001480048,
      "loss": 3.8918,
      "step": 249020
    },
    {
      "epoch": 0.5188125,
      "grad_norm": 0.8799391984939575,
      "learning_rate": 0.0001420872553029957,
      "loss": 3.7475,
      "step": 249030
    },
    {
      "epoch": 0.5188333333333334,
      "grad_norm": 0.9207010865211487,
      "learning_rate": 0.0001420774104921666,
      "loss": 3.971,
      "step": 249040
    },
    {
      "epoch": 0.5188541666666666,
      "grad_norm": 0.942069411277771,
      "learning_rate": 0.00014206756571555993,
      "loss": 3.7701,
      "step": 249050
    },
    {
      "epoch": 0.518875,
      "grad_norm": 0.9984946250915527,
      "learning_rate": 0.00014205772097321818,
      "loss": 3.8637,
      "step": 249060
    },
    {
      "epoch": 0.5188958333333333,
      "grad_norm": 1.0659222602844238,
      "learning_rate": 0.000142047876265184,
      "loss": 3.8816,
      "step": 249070
    },
    {
      "epoch": 0.5189166666666667,
      "grad_norm": 0.9050251841545105,
      "learning_rate": 0.00014203803159149983,
      "loss": 3.7729,
      "step": 249080
    },
    {
      "epoch": 0.5189375,
      "grad_norm": 0.8654975295066833,
      "learning_rate": 0.00014202818695220815,
      "loss": 3.6101,
      "step": 249090
    },
    {
      "epoch": 0.5189583333333333,
      "grad_norm": 1.0167515277862549,
      "learning_rate": 0.00014201834234735163,
      "loss": 3.8871,
      "step": 249100
    },
    {
      "epoch": 0.5189791666666667,
      "grad_norm": 0.9703563451766968,
      "learning_rate": 0.0001420084977769727,
      "loss": 3.8102,
      "step": 249110
    },
    {
      "epoch": 0.519,
      "grad_norm": 0.9374605417251587,
      "learning_rate": 0.0001419986532411139,
      "loss": 3.7241,
      "step": 249120
    },
    {
      "epoch": 0.5190208333333334,
      "grad_norm": 0.834312379360199,
      "learning_rate": 0.0001419888087398177,
      "loss": 3.9811,
      "step": 249130
    },
    {
      "epoch": 0.5190416666666666,
      "grad_norm": 0.8508595824241638,
      "learning_rate": 0.00014197896427312672,
      "loss": 3.8508,
      "step": 249140
    },
    {
      "epoch": 0.5190625,
      "grad_norm": 0.8806385397911072,
      "learning_rate": 0.00014196911984108344,
      "loss": 3.9197,
      "step": 249150
    },
    {
      "epoch": 0.5190833333333333,
      "grad_norm": 0.9610618352890015,
      "learning_rate": 0.0001419592754437303,
      "loss": 3.8146,
      "step": 249160
    },
    {
      "epoch": 0.5191041666666667,
      "grad_norm": 0.8891098499298096,
      "learning_rate": 0.00014194943108111004,
      "loss": 3.8732,
      "step": 249170
    },
    {
      "epoch": 0.519125,
      "grad_norm": 1.3142234086990356,
      "learning_rate": 0.00014193958675326495,
      "loss": 3.938,
      "step": 249180
    },
    {
      "epoch": 0.5191458333333333,
      "grad_norm": 0.9333323836326599,
      "learning_rate": 0.00014192974246023766,
      "loss": 3.892,
      "step": 249190
    },
    {
      "epoch": 0.5191666666666667,
      "grad_norm": 0.8976877331733704,
      "learning_rate": 0.00014191989820207075,
      "loss": 3.7108,
      "step": 249200
    },
    {
      "epoch": 0.5191875,
      "grad_norm": 0.793106734752655,
      "learning_rate": 0.00014191005397880664,
      "loss": 3.7965,
      "step": 249210
    },
    {
      "epoch": 0.5192083333333334,
      "grad_norm": 0.9074183106422424,
      "learning_rate": 0.00014190020979048789,
      "loss": 3.7768,
      "step": 249220
    },
    {
      "epoch": 0.5192291666666666,
      "grad_norm": 1.0438040494918823,
      "learning_rate": 0.00014189036563715707,
      "loss": 4.0024,
      "step": 249230
    },
    {
      "epoch": 0.51925,
      "grad_norm": 1.0004432201385498,
      "learning_rate": 0.00014188052151885663,
      "loss": 3.8012,
      "step": 249240
    },
    {
      "epoch": 0.5192708333333333,
      "grad_norm": 0.9281949996948242,
      "learning_rate": 0.0001418706774356291,
      "loss": 3.65,
      "step": 249250
    },
    {
      "epoch": 0.5192916666666667,
      "grad_norm": 1.0745782852172852,
      "learning_rate": 0.00014186083338751706,
      "loss": 3.8651,
      "step": 249260
    },
    {
      "epoch": 0.5193125,
      "grad_norm": 0.928946852684021,
      "learning_rate": 0.00014185098937456302,
      "loss": 3.7431,
      "step": 249270
    },
    {
      "epoch": 0.5193333333333333,
      "grad_norm": 0.8972670435905457,
      "learning_rate": 0.00014184114539680942,
      "loss": 3.7556,
      "step": 249280
    },
    {
      "epoch": 0.5193541666666667,
      "grad_norm": 1.024717926979065,
      "learning_rate": 0.00014183130145429887,
      "loss": 3.961,
      "step": 249290
    },
    {
      "epoch": 0.519375,
      "grad_norm": 0.8374395370483398,
      "learning_rate": 0.0001418214575470739,
      "loss": 3.8134,
      "step": 249300
    },
    {
      "epoch": 0.5193958333333333,
      "grad_norm": 0.9962108135223389,
      "learning_rate": 0.00014181161367517693,
      "loss": 4.0781,
      "step": 249310
    },
    {
      "epoch": 0.5194166666666666,
      "grad_norm": 1.2758241891860962,
      "learning_rate": 0.00014180176983865058,
      "loss": 3.7251,
      "step": 249320
    },
    {
      "epoch": 0.5194375,
      "grad_norm": 0.9506165385246277,
      "learning_rate": 0.00014179192603753737,
      "loss": 4.1987,
      "step": 249330
    },
    {
      "epoch": 0.5194583333333334,
      "grad_norm": 0.8730851411819458,
      "learning_rate": 0.0001417820822718797,
      "loss": 3.6518,
      "step": 249340
    },
    {
      "epoch": 0.5194791666666667,
      "grad_norm": 0.941818356513977,
      "learning_rate": 0.00014177223854172026,
      "loss": 3.94,
      "step": 249350
    },
    {
      "epoch": 0.5195,
      "grad_norm": 0.8726685047149658,
      "learning_rate": 0.0001417623948471015,
      "loss": 3.769,
      "step": 249360
    },
    {
      "epoch": 0.5195208333333333,
      "grad_norm": 1.0900154113769531,
      "learning_rate": 0.00014175255118806587,
      "loss": 3.7867,
      "step": 249370
    },
    {
      "epoch": 0.5195416666666667,
      "grad_norm": 0.9048253297805786,
      "learning_rate": 0.000141742707564656,
      "loss": 3.9428,
      "step": 249380
    },
    {
      "epoch": 0.5195625,
      "grad_norm": 0.8912262320518494,
      "learning_rate": 0.0001417328639769144,
      "loss": 3.7535,
      "step": 249390
    },
    {
      "epoch": 0.5195833333333333,
      "grad_norm": 0.8544586300849915,
      "learning_rate": 0.00014172302042488353,
      "loss": 3.9687,
      "step": 249400
    },
    {
      "epoch": 0.5196041666666666,
      "grad_norm": 0.8700079321861267,
      "learning_rate": 0.0001417131769086059,
      "loss": 3.772,
      "step": 249410
    },
    {
      "epoch": 0.519625,
      "grad_norm": 0.9919087886810303,
      "learning_rate": 0.00014170333342812405,
      "loss": 3.6466,
      "step": 249420
    },
    {
      "epoch": 0.5196458333333334,
      "grad_norm": 1.0597282648086548,
      "learning_rate": 0.00014169348998348057,
      "loss": 3.8891,
      "step": 249430
    },
    {
      "epoch": 0.5196666666666667,
      "grad_norm": 0.8882313966751099,
      "learning_rate": 0.0001416836465747179,
      "loss": 3.9625,
      "step": 249440
    },
    {
      "epoch": 0.5196875,
      "grad_norm": 1.0959714651107788,
      "learning_rate": 0.00014167380320187855,
      "loss": 4.0299,
      "step": 249450
    },
    {
      "epoch": 0.5197083333333333,
      "grad_norm": 0.9070910215377808,
      "learning_rate": 0.00014166395986500518,
      "loss": 3.6783,
      "step": 249460
    },
    {
      "epoch": 0.5197291666666667,
      "grad_norm": 0.952070951461792,
      "learning_rate": 0.0001416541165641401,
      "loss": 3.7137,
      "step": 249470
    },
    {
      "epoch": 0.51975,
      "grad_norm": 0.8503777384757996,
      "learning_rate": 0.00014164427329932595,
      "loss": 3.8375,
      "step": 249480
    },
    {
      "epoch": 0.5197708333333333,
      "grad_norm": 0.9481008052825928,
      "learning_rate": 0.0001416344300706053,
      "loss": 3.8744,
      "step": 249490
    },
    {
      "epoch": 0.5197916666666667,
      "grad_norm": 0.8629390001296997,
      "learning_rate": 0.0001416245868780205,
      "loss": 3.8929,
      "step": 249500
    },
    {
      "epoch": 0.5198125,
      "grad_norm": 0.8865255117416382,
      "learning_rate": 0.00014161474372161424,
      "loss": 3.697,
      "step": 249510
    },
    {
      "epoch": 0.5198333333333334,
      "grad_norm": 0.8492003679275513,
      "learning_rate": 0.00014160490060142897,
      "loss": 3.9861,
      "step": 249520
    },
    {
      "epoch": 0.5198541666666666,
      "grad_norm": 0.8837260007858276,
      "learning_rate": 0.00014159505751750714,
      "loss": 3.7628,
      "step": 249530
    },
    {
      "epoch": 0.519875,
      "grad_norm": 0.842807948589325,
      "learning_rate": 0.00014158521446989143,
      "loss": 4.0176,
      "step": 249540
    },
    {
      "epoch": 0.5198958333333333,
      "grad_norm": 0.9508106708526611,
      "learning_rate": 0.0001415753714586242,
      "loss": 3.7146,
      "step": 249550
    },
    {
      "epoch": 0.5199166666666667,
      "grad_norm": 0.8867647647857666,
      "learning_rate": 0.00014156552848374802,
      "loss": 3.8552,
      "step": 249560
    },
    {
      "epoch": 0.5199375,
      "grad_norm": 0.9090746641159058,
      "learning_rate": 0.00014155568554530547,
      "loss": 3.9396,
      "step": 249570
    },
    {
      "epoch": 0.5199583333333333,
      "grad_norm": 0.944666862487793,
      "learning_rate": 0.000141545842643339,
      "loss": 3.9026,
      "step": 249580
    },
    {
      "epoch": 0.5199791666666667,
      "grad_norm": 0.9719788432121277,
      "learning_rate": 0.00014153599977789107,
      "loss": 4.1052,
      "step": 249590
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0833592414855957,
      "learning_rate": 0.00014152615694900438,
      "loss": 3.9479,
      "step": 249600
    },
    {
      "epoch": 0.5200208333333334,
      "grad_norm": 0.965264618396759,
      "learning_rate": 0.00014151631415672129,
      "loss": 3.8797,
      "step": 249610
    },
    {
      "epoch": 0.5200416666666666,
      "grad_norm": 0.8905885815620422,
      "learning_rate": 0.00014150647140108433,
      "loss": 3.8317,
      "step": 249620
    },
    {
      "epoch": 0.5200625,
      "grad_norm": 0.9246070981025696,
      "learning_rate": 0.00014149662868213612,
      "loss": 3.9014,
      "step": 249630
    },
    {
      "epoch": 0.5200833333333333,
      "grad_norm": 0.939243495464325,
      "learning_rate": 0.0001414867859999191,
      "loss": 3.8843,
      "step": 249640
    },
    {
      "epoch": 0.5201041666666667,
      "grad_norm": 0.8997741937637329,
      "learning_rate": 0.0001414769433544757,
      "loss": 3.7538,
      "step": 249650
    },
    {
      "epoch": 0.520125,
      "grad_norm": 0.8633460998535156,
      "learning_rate": 0.00014146710074584864,
      "loss": 3.8424,
      "step": 249660
    },
    {
      "epoch": 0.5201458333333333,
      "grad_norm": 0.9575261473655701,
      "learning_rate": 0.0001414572581740803,
      "loss": 3.7114,
      "step": 249670
    },
    {
      "epoch": 0.5201666666666667,
      "grad_norm": 0.920961856842041,
      "learning_rate": 0.00014144741563921318,
      "loss": 3.8025,
      "step": 249680
    },
    {
      "epoch": 0.5201875,
      "grad_norm": 0.9220943450927734,
      "learning_rate": 0.00014143757314128986,
      "loss": 3.8822,
      "step": 249690
    },
    {
      "epoch": 0.5202083333333334,
      "grad_norm": 0.8685449361801147,
      "learning_rate": 0.00014142773068035288,
      "loss": 3.8333,
      "step": 249700
    },
    {
      "epoch": 0.5202291666666666,
      "grad_norm": 0.8776084184646606,
      "learning_rate": 0.00014141788825644468,
      "loss": 3.8638,
      "step": 249710
    },
    {
      "epoch": 0.52025,
      "grad_norm": 1.0730347633361816,
      "learning_rate": 0.00014140804586960777,
      "loss": 3.7873,
      "step": 249720
    },
    {
      "epoch": 0.5202708333333333,
      "grad_norm": 0.9201774001121521,
      "learning_rate": 0.00014139820351988477,
      "loss": 3.6974,
      "step": 249730
    },
    {
      "epoch": 0.5202916666666667,
      "grad_norm": 0.914288341999054,
      "learning_rate": 0.00014138836120731807,
      "loss": 3.8933,
      "step": 249740
    },
    {
      "epoch": 0.5203125,
      "grad_norm": 1.007796287536621,
      "learning_rate": 0.00014137851893195023,
      "loss": 4.1735,
      "step": 249750
    },
    {
      "epoch": 0.5203333333333333,
      "grad_norm": 1.063703179359436,
      "learning_rate": 0.00014136867669382384,
      "loss": 3.8623,
      "step": 249760
    },
    {
      "epoch": 0.5203541666666667,
      "grad_norm": 0.8471988439559937,
      "learning_rate": 0.00014135883449298135,
      "loss": 3.7831,
      "step": 249770
    },
    {
      "epoch": 0.520375,
      "grad_norm": 0.9466498494148254,
      "learning_rate": 0.0001413489923294652,
      "loss": 3.9332,
      "step": 249780
    },
    {
      "epoch": 0.5203958333333333,
      "grad_norm": 0.9585907459259033,
      "learning_rate": 0.00014133915020331803,
      "loss": 3.8182,
      "step": 249790
    },
    {
      "epoch": 0.5204166666666666,
      "grad_norm": 0.8871749639511108,
      "learning_rate": 0.0001413293081145823,
      "loss": 4.0048,
      "step": 249800
    },
    {
      "epoch": 0.5204375,
      "grad_norm": 0.9032525420188904,
      "learning_rate": 0.0001413194660633005,
      "loss": 3.9364,
      "step": 249810
    },
    {
      "epoch": 0.5204583333333334,
      "grad_norm": 0.8892355561256409,
      "learning_rate": 0.00014130962404951516,
      "loss": 3.973,
      "step": 249820
    },
    {
      "epoch": 0.5204791666666667,
      "grad_norm": 0.8681234121322632,
      "learning_rate": 0.0001412997820732689,
      "loss": 4.0035,
      "step": 249830
    },
    {
      "epoch": 0.5205,
      "grad_norm": 0.8860980272293091,
      "learning_rate": 0.00014128994013460402,
      "loss": 3.8424,
      "step": 249840
    },
    {
      "epoch": 0.5205208333333333,
      "grad_norm": 0.9953882098197937,
      "learning_rate": 0.00014128009823356319,
      "loss": 3.8987,
      "step": 249850
    },
    {
      "epoch": 0.5205416666666667,
      "grad_norm": 0.8776649236679077,
      "learning_rate": 0.00014127025637018892,
      "loss": 3.8082,
      "step": 249860
    },
    {
      "epoch": 0.5205625,
      "grad_norm": 0.8388019800186157,
      "learning_rate": 0.00014126041454452364,
      "loss": 3.8587,
      "step": 249870
    },
    {
      "epoch": 0.5205833333333333,
      "grad_norm": 1.1354515552520752,
      "learning_rate": 0.00014125057275660993,
      "loss": 3.8333,
      "step": 249880
    },
    {
      "epoch": 0.5206041666666666,
      "grad_norm": 0.9006475210189819,
      "learning_rate": 0.0001412407310064903,
      "loss": 4.0645,
      "step": 249890
    },
    {
      "epoch": 0.520625,
      "grad_norm": 1.2160143852233887,
      "learning_rate": 0.0001412308892942072,
      "loss": 3.9698,
      "step": 249900
    },
    {
      "epoch": 0.5206458333333334,
      "grad_norm": 1.0335582494735718,
      "learning_rate": 0.00014122104761980325,
      "loss": 3.8338,
      "step": 249910
    },
    {
      "epoch": 0.5206666666666667,
      "grad_norm": 0.9103224873542786,
      "learning_rate": 0.00014121120598332087,
      "loss": 3.8587,
      "step": 249920
    },
    {
      "epoch": 0.5206875,
      "grad_norm": 0.8692116737365723,
      "learning_rate": 0.00014120136438480256,
      "loss": 3.9751,
      "step": 249930
    },
    {
      "epoch": 0.5207083333333333,
      "grad_norm": 0.9562791585922241,
      "learning_rate": 0.00014119152282429095,
      "loss": 3.8552,
      "step": 249940
    },
    {
      "epoch": 0.5207291666666667,
      "grad_norm": 1.1322094202041626,
      "learning_rate": 0.00014118168130182842,
      "loss": 3.8712,
      "step": 249950
    },
    {
      "epoch": 0.52075,
      "grad_norm": 0.9228631854057312,
      "learning_rate": 0.00014117183981745751,
      "loss": 3.9123,
      "step": 249960
    },
    {
      "epoch": 0.5207708333333333,
      "grad_norm": 0.9208238124847412,
      "learning_rate": 0.00014116199837122084,
      "loss": 3.7907,
      "step": 249970
    },
    {
      "epoch": 0.5207916666666667,
      "grad_norm": 0.9490188360214233,
      "learning_rate": 0.0001411521569631608,
      "loss": 3.9696,
      "step": 249980
    },
    {
      "epoch": 0.5208125,
      "grad_norm": 1.5429027080535889,
      "learning_rate": 0.00014114231559331998,
      "loss": 3.9137,
      "step": 249990
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 1.002684235572815,
      "learning_rate": 0.00014113247426174075,
      "loss": 3.7088,
      "step": 250000
    },
    {
      "epoch": 0.5208333333333334,
      "eval_loss": 3.6075801849365234,
      "eval_runtime": 6.7956,
      "eval_samples_per_second": 1.472,
      "eval_steps_per_second": 0.441,
      "step": 250000
    },
    {
      "epoch": 0.5208541666666666,
      "grad_norm": 0.9113048315048218,
      "learning_rate": 0.0001411226329684658,
      "loss": 3.8435,
      "step": 250010
    },
    {
      "epoch": 0.520875,
      "grad_norm": 1.3181825876235962,
      "learning_rate": 0.00014111279171353757,
      "loss": 4.0252,
      "step": 250020
    },
    {
      "epoch": 0.5208958333333333,
      "grad_norm": 0.888823390007019,
      "learning_rate": 0.00014110295049699848,
      "loss": 3.8238,
      "step": 250030
    },
    {
      "epoch": 0.5209166666666667,
      "grad_norm": 0.9255073070526123,
      "learning_rate": 0.00014109310931889122,
      "loss": 3.835,
      "step": 250040
    },
    {
      "epoch": 0.5209375,
      "grad_norm": 1.010114073753357,
      "learning_rate": 0.00014108326817925817,
      "loss": 3.876,
      "step": 250050
    },
    {
      "epoch": 0.5209583333333333,
      "grad_norm": 0.9771674275398254,
      "learning_rate": 0.0001410734270781418,
      "loss": 4.1022,
      "step": 250060
    },
    {
      "epoch": 0.5209791666666667,
      "grad_norm": 0.8410206437110901,
      "learning_rate": 0.00014106358601558477,
      "loss": 3.8304,
      "step": 250070
    },
    {
      "epoch": 0.521,
      "grad_norm": 0.9239532351493835,
      "learning_rate": 0.0001410537449916295,
      "loss": 3.8241,
      "step": 250080
    },
    {
      "epoch": 0.5210208333333334,
      "grad_norm": 1.1094988584518433,
      "learning_rate": 0.00014104390400631846,
      "loss": 4.053,
      "step": 250090
    },
    {
      "epoch": 0.5210416666666666,
      "grad_norm": 0.8897839784622192,
      "learning_rate": 0.0001410340630596943,
      "loss": 3.8303,
      "step": 250100
    },
    {
      "epoch": 0.5210625,
      "grad_norm": 0.8962783813476562,
      "learning_rate": 0.00014102422215179938,
      "loss": 3.8353,
      "step": 250110
    },
    {
      "epoch": 0.5210833333333333,
      "grad_norm": 0.9446367025375366,
      "learning_rate": 0.00014101438128267626,
      "loss": 3.6068,
      "step": 250120
    },
    {
      "epoch": 0.5211041666666667,
      "grad_norm": 0.8897064328193665,
      "learning_rate": 0.0001410045404523675,
      "loss": 3.78,
      "step": 250130
    },
    {
      "epoch": 0.521125,
      "grad_norm": 0.9676281809806824,
      "learning_rate": 0.00014099469966091557,
      "loss": 3.8469,
      "step": 250140
    },
    {
      "epoch": 0.5211458333333333,
      "grad_norm": 0.9985363483428955,
      "learning_rate": 0.00014098485890836287,
      "loss": 3.8787,
      "step": 250150
    },
    {
      "epoch": 0.5211666666666667,
      "grad_norm": 0.9314629435539246,
      "learning_rate": 0.0001409750181947521,
      "loss": 3.946,
      "step": 250160
    },
    {
      "epoch": 0.5211875,
      "grad_norm": 0.9398358464241028,
      "learning_rate": 0.0001409651775201257,
      "loss": 4.007,
      "step": 250170
    },
    {
      "epoch": 0.5212083333333334,
      "grad_norm": 0.8942590355873108,
      "learning_rate": 0.0001409553368845261,
      "loss": 3.968,
      "step": 250180
    },
    {
      "epoch": 0.5212291666666666,
      "grad_norm": 0.8276671767234802,
      "learning_rate": 0.00014094549628799587,
      "loss": 3.8998,
      "step": 250190
    },
    {
      "epoch": 0.52125,
      "grad_norm": 0.9085692763328552,
      "learning_rate": 0.00014093565573057755,
      "loss": 3.9421,
      "step": 250200
    },
    {
      "epoch": 0.5212708333333333,
      "grad_norm": 0.9311110377311707,
      "learning_rate": 0.00014092581521231356,
      "loss": 3.7537,
      "step": 250210
    },
    {
      "epoch": 0.5212916666666667,
      "grad_norm": 0.8422955870628357,
      "learning_rate": 0.00014091597473324648,
      "loss": 3.7525,
      "step": 250220
    },
    {
      "epoch": 0.5213125,
      "grad_norm": 0.924456775188446,
      "learning_rate": 0.0001409061342934188,
      "loss": 3.9384,
      "step": 250230
    },
    {
      "epoch": 0.5213333333333333,
      "grad_norm": 0.7902976274490356,
      "learning_rate": 0.000140896293892873,
      "loss": 3.8979,
      "step": 250240
    },
    {
      "epoch": 0.5213541666666667,
      "grad_norm": 1.075264573097229,
      "learning_rate": 0.0001408864535316516,
      "loss": 3.8642,
      "step": 250250
    },
    {
      "epoch": 0.521375,
      "grad_norm": 0.8740599751472473,
      "learning_rate": 0.0001408766132097972,
      "loss": 3.8784,
      "step": 250260
    },
    {
      "epoch": 0.5213958333333333,
      "grad_norm": 1.165497899055481,
      "learning_rate": 0.0001408667729273521,
      "loss": 3.9828,
      "step": 250270
    },
    {
      "epoch": 0.5214166666666666,
      "grad_norm": 0.8621828556060791,
      "learning_rate": 0.00014085693268435902,
      "loss": 3.8705,
      "step": 250280
    },
    {
      "epoch": 0.5214375,
      "grad_norm": 0.9164199233055115,
      "learning_rate": 0.00014084709248086033,
      "loss": 3.9451,
      "step": 250290
    },
    {
      "epoch": 0.5214583333333334,
      "grad_norm": 0.9798592329025269,
      "learning_rate": 0.0001408372523168986,
      "loss": 3.7583,
      "step": 250300
    },
    {
      "epoch": 0.5214791666666667,
      "grad_norm": 0.927523672580719,
      "learning_rate": 0.00014082741219251626,
      "loss": 3.738,
      "step": 250310
    },
    {
      "epoch": 0.5215,
      "grad_norm": 0.8885108828544617,
      "learning_rate": 0.0001408175721077559,
      "loss": 3.8659,
      "step": 250320
    },
    {
      "epoch": 0.5215208333333333,
      "grad_norm": 0.982573390007019,
      "learning_rate": 0.00014080773206266,
      "loss": 3.7549,
      "step": 250330
    },
    {
      "epoch": 0.5215416666666667,
      "grad_norm": 0.905521810054779,
      "learning_rate": 0.00014079789205727106,
      "loss": 3.852,
      "step": 250340
    },
    {
      "epoch": 0.5215625,
      "grad_norm": 0.7937619686126709,
      "learning_rate": 0.00014078805209163155,
      "loss": 3.8647,
      "step": 250350
    },
    {
      "epoch": 0.5215833333333333,
      "grad_norm": 0.8647404313087463,
      "learning_rate": 0.0001407782121657841,
      "loss": 3.9161,
      "step": 250360
    },
    {
      "epoch": 0.5216041666666666,
      "grad_norm": 0.8968384265899658,
      "learning_rate": 0.000140768372279771,
      "loss": 4.0036,
      "step": 250370
    },
    {
      "epoch": 0.521625,
      "grad_norm": 0.9703426361083984,
      "learning_rate": 0.00014075853243363494,
      "loss": 3.842,
      "step": 250380
    },
    {
      "epoch": 0.5216458333333334,
      "grad_norm": 0.8601119518280029,
      "learning_rate": 0.0001407486926274184,
      "loss": 3.9199,
      "step": 250390
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 0.9772791862487793,
      "learning_rate": 0.00014073885286116375,
      "loss": 3.7098,
      "step": 250400
    },
    {
      "epoch": 0.5216875,
      "grad_norm": 1.7636606693267822,
      "learning_rate": 0.0001407290131349137,
      "loss": 3.9599,
      "step": 250410
    },
    {
      "epoch": 0.5217083333333333,
      "grad_norm": 0.9142995476722717,
      "learning_rate": 0.00014071917344871056,
      "loss": 3.8981,
      "step": 250420
    },
    {
      "epoch": 0.5217291666666667,
      "grad_norm": 0.8753505945205688,
      "learning_rate": 0.00014070933380259693,
      "loss": 4.0621,
      "step": 250430
    },
    {
      "epoch": 0.52175,
      "grad_norm": 0.866324245929718,
      "learning_rate": 0.00014069949419661534,
      "loss": 3.8835,
      "step": 250440
    },
    {
      "epoch": 0.5217708333333333,
      "grad_norm": 0.8528021574020386,
      "learning_rate": 0.00014068965463080824,
      "loss": 3.7819,
      "step": 250450
    },
    {
      "epoch": 0.5217916666666667,
      "grad_norm": 0.9441418051719666,
      "learning_rate": 0.0001406798151052181,
      "loss": 3.7726,
      "step": 250460
    },
    {
      "epoch": 0.5218125,
      "grad_norm": 1.0077307224273682,
      "learning_rate": 0.0001406699756198875,
      "loss": 3.9461,
      "step": 250470
    },
    {
      "epoch": 0.5218333333333334,
      "grad_norm": 0.9982510805130005,
      "learning_rate": 0.00014066013617485893,
      "loss": 4.0802,
      "step": 250480
    },
    {
      "epoch": 0.5218541666666666,
      "grad_norm": 0.9526708722114563,
      "learning_rate": 0.00014065029677017484,
      "loss": 3.9793,
      "step": 250490
    },
    {
      "epoch": 0.521875,
      "grad_norm": 0.9774730801582336,
      "learning_rate": 0.00014064045740587783,
      "loss": 3.943,
      "step": 250500
    },
    {
      "epoch": 0.5218958333333333,
      "grad_norm": 1.005672812461853,
      "learning_rate": 0.00014063061808201028,
      "loss": 3.7016,
      "step": 250510
    },
    {
      "epoch": 0.5219166666666667,
      "grad_norm": 0.8607723116874695,
      "learning_rate": 0.00014062077879861476,
      "loss": 3.944,
      "step": 250520
    },
    {
      "epoch": 0.5219375,
      "grad_norm": 0.9216634631156921,
      "learning_rate": 0.00014061093955573378,
      "loss": 3.7294,
      "step": 250530
    },
    {
      "epoch": 0.5219583333333333,
      "grad_norm": 0.9273012280464172,
      "learning_rate": 0.00014060110035340987,
      "loss": 3.8587,
      "step": 250540
    },
    {
      "epoch": 0.5219791666666667,
      "grad_norm": 0.9426054954528809,
      "learning_rate": 0.00014059126119168538,
      "loss": 3.7465,
      "step": 250550
    },
    {
      "epoch": 0.522,
      "grad_norm": 0.9113960862159729,
      "learning_rate": 0.000140581422070603,
      "loss": 3.8446,
      "step": 250560
    },
    {
      "epoch": 0.5220208333333334,
      "grad_norm": 1.013178825378418,
      "learning_rate": 0.00014057158299020514,
      "loss": 3.8164,
      "step": 250570
    },
    {
      "epoch": 0.5220416666666666,
      "grad_norm": 0.8738120794296265,
      "learning_rate": 0.00014056174395053427,
      "loss": 3.7124,
      "step": 250580
    },
    {
      "epoch": 0.5220625,
      "grad_norm": 0.9794408082962036,
      "learning_rate": 0.0001405519049516329,
      "loss": 3.8676,
      "step": 250590
    },
    {
      "epoch": 0.5220833333333333,
      "grad_norm": 0.8311569690704346,
      "learning_rate": 0.00014054206599354365,
      "loss": 3.802,
      "step": 250600
    },
    {
      "epoch": 0.5221041666666667,
      "grad_norm": 0.9778870344161987,
      "learning_rate": 0.0001405322270763089,
      "loss": 3.7994,
      "step": 250610
    },
    {
      "epoch": 0.522125,
      "grad_norm": 0.9381029009819031,
      "learning_rate": 0.00014052238819997116,
      "loss": 3.9395,
      "step": 250620
    },
    {
      "epoch": 0.5221458333333333,
      "grad_norm": 0.9900548458099365,
      "learning_rate": 0.00014051254936457298,
      "loss": 3.9129,
      "step": 250630
    },
    {
      "epoch": 0.5221666666666667,
      "grad_norm": 0.9291135668754578,
      "learning_rate": 0.00014050271057015684,
      "loss": 3.9116,
      "step": 250640
    },
    {
      "epoch": 0.5221875,
      "grad_norm": 0.8798955082893372,
      "learning_rate": 0.0001404928718167652,
      "loss": 3.7768,
      "step": 250650
    },
    {
      "epoch": 0.5222083333333334,
      "grad_norm": 0.8953613638877869,
      "learning_rate": 0.00014048303310444058,
      "loss": 3.7927,
      "step": 250660
    },
    {
      "epoch": 0.5222291666666666,
      "grad_norm": 0.8807040452957153,
      "learning_rate": 0.00014047319443322552,
      "loss": 4.1591,
      "step": 250670
    },
    {
      "epoch": 0.52225,
      "grad_norm": 0.9873682856559753,
      "learning_rate": 0.00014046335580316245,
      "loss": 3.8649,
      "step": 250680
    },
    {
      "epoch": 0.5222708333333334,
      "grad_norm": 0.8609984517097473,
      "learning_rate": 0.00014045351721429393,
      "loss": 3.7402,
      "step": 250690
    },
    {
      "epoch": 0.5222916666666667,
      "grad_norm": 0.9150279760360718,
      "learning_rate": 0.00014044367866666247,
      "loss": 3.7046,
      "step": 250700
    },
    {
      "epoch": 0.5223125,
      "grad_norm": 0.9143796563148499,
      "learning_rate": 0.0001404338401603105,
      "loss": 3.8309,
      "step": 250710
    },
    {
      "epoch": 0.5223333333333333,
      "grad_norm": 0.8804208636283875,
      "learning_rate": 0.00014042400169528055,
      "loss": 3.7729,
      "step": 250720
    },
    {
      "epoch": 0.5223541666666667,
      "grad_norm": 0.9038482904434204,
      "learning_rate": 0.00014041416327161514,
      "loss": 3.9082,
      "step": 250730
    },
    {
      "epoch": 0.522375,
      "grad_norm": 0.9526436924934387,
      "learning_rate": 0.00014040432488935672,
      "loss": 3.8597,
      "step": 250740
    },
    {
      "epoch": 0.5223958333333333,
      "grad_norm": 0.8946455717086792,
      "learning_rate": 0.00014039448654854783,
      "loss": 3.856,
      "step": 250750
    },
    {
      "epoch": 0.5224166666666666,
      "grad_norm": 1.2408884763717651,
      "learning_rate": 0.00014038464824923103,
      "loss": 3.8064,
      "step": 250760
    },
    {
      "epoch": 0.5224375,
      "grad_norm": 0.8930988311767578,
      "learning_rate": 0.0001403748099914486,
      "loss": 3.9688,
      "step": 250770
    },
    {
      "epoch": 0.5224583333333334,
      "grad_norm": 1.0261298418045044,
      "learning_rate": 0.0001403649717752433,
      "loss": 3.7117,
      "step": 250780
    },
    {
      "epoch": 0.5224791666666667,
      "grad_norm": 0.998227059841156,
      "learning_rate": 0.0001403551336006575,
      "loss": 3.7471,
      "step": 250790
    },
    {
      "epoch": 0.5225,
      "grad_norm": 0.8573087453842163,
      "learning_rate": 0.00014034529546773364,
      "loss": 3.9651,
      "step": 250800
    },
    {
      "epoch": 0.5225208333333333,
      "grad_norm": 0.8894340991973877,
      "learning_rate": 0.00014033545737651435,
      "loss": 3.9695,
      "step": 250810
    },
    {
      "epoch": 0.5225416666666667,
      "grad_norm": 0.8758367300033569,
      "learning_rate": 0.00014032561932704203,
      "loss": 3.8216,
      "step": 250820
    },
    {
      "epoch": 0.5225625,
      "grad_norm": 1.5338855981826782,
      "learning_rate": 0.00014031578131935916,
      "loss": 3.6348,
      "step": 250830
    },
    {
      "epoch": 0.5225833333333333,
      "grad_norm": 0.9508553743362427,
      "learning_rate": 0.00014030594335350834,
      "loss": 3.743,
      "step": 250840
    },
    {
      "epoch": 0.5226041666666666,
      "grad_norm": 0.8373010754585266,
      "learning_rate": 0.000140296105429532,
      "loss": 3.726,
      "step": 250850
    },
    {
      "epoch": 0.522625,
      "grad_norm": 1.0335392951965332,
      "learning_rate": 0.00014028626754747258,
      "loss": 3.9767,
      "step": 250860
    },
    {
      "epoch": 0.5226458333333334,
      "grad_norm": 0.9932183623313904,
      "learning_rate": 0.00014027642970737274,
      "loss": 3.9131,
      "step": 250870
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 0.9779950380325317,
      "learning_rate": 0.00014026659190927482,
      "loss": 3.9397,
      "step": 250880
    },
    {
      "epoch": 0.5226875,
      "grad_norm": 0.9197732210159302,
      "learning_rate": 0.0001402567541532214,
      "loss": 3.884,
      "step": 250890
    },
    {
      "epoch": 0.5227083333333333,
      "grad_norm": 0.8707529306411743,
      "learning_rate": 0.0001402469164392549,
      "loss": 3.9411,
      "step": 250900
    },
    {
      "epoch": 0.5227291666666667,
      "grad_norm": 0.891593873500824,
      "learning_rate": 0.00014023707876741791,
      "loss": 3.8512,
      "step": 250910
    },
    {
      "epoch": 0.52275,
      "grad_norm": 0.8610655665397644,
      "learning_rate": 0.00014022724113775287,
      "loss": 3.8365,
      "step": 250920
    },
    {
      "epoch": 0.5227708333333333,
      "grad_norm": 0.8920066952705383,
      "learning_rate": 0.0001402174035503022,
      "loss": 3.8859,
      "step": 250930
    },
    {
      "epoch": 0.5227916666666667,
      "grad_norm": 0.8618283271789551,
      "learning_rate": 0.00014020756600510858,
      "loss": 3.6833,
      "step": 250940
    },
    {
      "epoch": 0.5228125,
      "grad_norm": 0.8602482080459595,
      "learning_rate": 0.00014019772850221436,
      "loss": 3.8836,
      "step": 250950
    },
    {
      "epoch": 0.5228333333333334,
      "grad_norm": 0.905836284160614,
      "learning_rate": 0.000140187891041662,
      "loss": 3.8389,
      "step": 250960
    },
    {
      "epoch": 0.5228541666666666,
      "grad_norm": 0.8747289180755615,
      "learning_rate": 0.00014017805362349418,
      "loss": 3.7851,
      "step": 250970
    },
    {
      "epoch": 0.522875,
      "grad_norm": 0.9874305129051208,
      "learning_rate": 0.00014016821624775324,
      "loss": 3.8233,
      "step": 250980
    },
    {
      "epoch": 0.5228958333333333,
      "grad_norm": 1.2002040147781372,
      "learning_rate": 0.00014015837891448167,
      "loss": 3.8098,
      "step": 250990
    },
    {
      "epoch": 0.5229166666666667,
      "grad_norm": 0.963156521320343,
      "learning_rate": 0.00014014854162372207,
      "loss": 4.0513,
      "step": 251000
    },
    {
      "epoch": 0.5229166666666667,
      "eval_loss": 3.607844591140747,
      "eval_runtime": 7.3729,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 251000
    },
    {
      "epoch": 0.5229375,
      "grad_norm": 1.022120714187622,
      "learning_rate": 0.00014013870437551684,
      "loss": 3.7886,
      "step": 251010
    },
    {
      "epoch": 0.5229583333333333,
      "grad_norm": 0.8815427422523499,
      "learning_rate": 0.00014012886716990847,
      "loss": 3.9564,
      "step": 251020
    },
    {
      "epoch": 0.5229791666666667,
      "grad_norm": 1.0200351476669312,
      "learning_rate": 0.00014011903000693955,
      "loss": 3.7544,
      "step": 251030
    },
    {
      "epoch": 0.523,
      "grad_norm": 1.1193758249282837,
      "learning_rate": 0.00014010919288665253,
      "loss": 3.865,
      "step": 251040
    },
    {
      "epoch": 0.5230208333333334,
      "grad_norm": 0.8966617584228516,
      "learning_rate": 0.0001400993558090898,
      "loss": 3.9003,
      "step": 251050
    },
    {
      "epoch": 0.5230416666666666,
      "grad_norm": 0.9256041049957275,
      "learning_rate": 0.00014008951877429396,
      "loss": 4.0194,
      "step": 251060
    },
    {
      "epoch": 0.5230625,
      "grad_norm": 0.9373309016227722,
      "learning_rate": 0.00014007968178230752,
      "loss": 3.834,
      "step": 251070
    },
    {
      "epoch": 0.5230833333333333,
      "grad_norm": 0.8720298409461975,
      "learning_rate": 0.00014006984483317286,
      "loss": 3.9491,
      "step": 251080
    },
    {
      "epoch": 0.5231041666666667,
      "grad_norm": 1.0163031816482544,
      "learning_rate": 0.00014006000792693259,
      "loss": 3.8384,
      "step": 251090
    },
    {
      "epoch": 0.523125,
      "grad_norm": 0.9663549661636353,
      "learning_rate": 0.00014005017106362915,
      "loss": 3.7785,
      "step": 251100
    },
    {
      "epoch": 0.5231458333333333,
      "grad_norm": 1.1920007467269897,
      "learning_rate": 0.00014004033424330498,
      "loss": 3.9151,
      "step": 251110
    },
    {
      "epoch": 0.5231666666666667,
      "grad_norm": 0.8911594748497009,
      "learning_rate": 0.00014003049746600266,
      "loss": 3.76,
      "step": 251120
    },
    {
      "epoch": 0.5231875,
      "grad_norm": 0.9764070510864258,
      "learning_rate": 0.00014002066073176466,
      "loss": 3.8988,
      "step": 251130
    },
    {
      "epoch": 0.5232083333333334,
      "grad_norm": 0.888358473777771,
      "learning_rate": 0.00014001082404063343,
      "loss": 3.6471,
      "step": 251140
    },
    {
      "epoch": 0.5232291666666666,
      "grad_norm": 1.0127227306365967,
      "learning_rate": 0.00014000098739265154,
      "loss": 3.6626,
      "step": 251150
    },
    {
      "epoch": 0.52325,
      "grad_norm": 1.065710425376892,
      "learning_rate": 0.00013999115078786137,
      "loss": 3.7411,
      "step": 251160
    },
    {
      "epoch": 0.5232708333333334,
      "grad_norm": 1.000994324684143,
      "learning_rate": 0.0001399813142263055,
      "loss": 3.923,
      "step": 251170
    },
    {
      "epoch": 0.5232916666666667,
      "grad_norm": 0.9371830224990845,
      "learning_rate": 0.00013997147770802634,
      "loss": 3.9502,
      "step": 251180
    },
    {
      "epoch": 0.5233125,
      "grad_norm": 0.8725179433822632,
      "learning_rate": 0.00013996164123306645,
      "loss": 3.9363,
      "step": 251190
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 1.0685083866119385,
      "learning_rate": 0.00013995180480146834,
      "loss": 3.7451,
      "step": 251200
    },
    {
      "epoch": 0.5233541666666667,
      "grad_norm": 0.8620701432228088,
      "learning_rate": 0.00013994196841327438,
      "loss": 3.7598,
      "step": 251210
    },
    {
      "epoch": 0.523375,
      "grad_norm": 0.9869107604026794,
      "learning_rate": 0.00013993213206852718,
      "loss": 3.8556,
      "step": 251220
    },
    {
      "epoch": 0.5233958333333333,
      "grad_norm": 0.8892172574996948,
      "learning_rate": 0.0001399222957672692,
      "loss": 3.7124,
      "step": 251230
    },
    {
      "epoch": 0.5234166666666666,
      "grad_norm": 0.945805013179779,
      "learning_rate": 0.00013991245950954284,
      "loss": 3.7042,
      "step": 251240
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 0.9473121762275696,
      "learning_rate": 0.0001399026232953907,
      "loss": 4.066,
      "step": 251250
    },
    {
      "epoch": 0.5234583333333334,
      "grad_norm": 0.9451452493667603,
      "learning_rate": 0.00013989278712485528,
      "loss": 3.7818,
      "step": 251260
    },
    {
      "epoch": 0.5234791666666667,
      "grad_norm": 0.9255416989326477,
      "learning_rate": 0.00013988295099797896,
      "loss": 3.9206,
      "step": 251270
    },
    {
      "epoch": 0.5235,
      "grad_norm": 0.9358282089233398,
      "learning_rate": 0.00013987311491480434,
      "loss": 3.929,
      "step": 251280
    },
    {
      "epoch": 0.5235208333333333,
      "grad_norm": 0.8887162804603577,
      "learning_rate": 0.00013986327887537383,
      "loss": 3.8404,
      "step": 251290
    },
    {
      "epoch": 0.5235416666666667,
      "grad_norm": 1.023504376411438,
      "learning_rate": 0.0001398534428797299,
      "loss": 3.8466,
      "step": 251300
    },
    {
      "epoch": 0.5235625,
      "grad_norm": 1.0116910934448242,
      "learning_rate": 0.00013984360692791513,
      "loss": 3.7846,
      "step": 251310
    },
    {
      "epoch": 0.5235833333333333,
      "grad_norm": 0.975620448589325,
      "learning_rate": 0.00013983377101997198,
      "loss": 3.8358,
      "step": 251320
    },
    {
      "epoch": 0.5236041666666666,
      "grad_norm": 0.8903225660324097,
      "learning_rate": 0.0001398239351559428,
      "loss": 3.9622,
      "step": 251330
    },
    {
      "epoch": 0.523625,
      "grad_norm": 0.9509279131889343,
      "learning_rate": 0.00013981409933587033,
      "loss": 4.2132,
      "step": 251340
    },
    {
      "epoch": 0.5236458333333334,
      "grad_norm": 0.8532475829124451,
      "learning_rate": 0.00013980426355979686,
      "loss": 3.8367,
      "step": 251350
    },
    {
      "epoch": 0.5236666666666666,
      "grad_norm": 1.0015660524368286,
      "learning_rate": 0.00013979442782776488,
      "loss": 3.832,
      "step": 251360
    },
    {
      "epoch": 0.5236875,
      "grad_norm": 0.9323729872703552,
      "learning_rate": 0.00013978459213981703,
      "loss": 3.8574,
      "step": 251370
    },
    {
      "epoch": 0.5237083333333333,
      "grad_norm": 0.9138694405555725,
      "learning_rate": 0.00013977475649599565,
      "loss": 3.8553,
      "step": 251380
    },
    {
      "epoch": 0.5237291666666667,
      "grad_norm": 0.8585577607154846,
      "learning_rate": 0.00013976492089634327,
      "loss": 3.7959,
      "step": 251390
    },
    {
      "epoch": 0.52375,
      "grad_norm": 1.532776951789856,
      "learning_rate": 0.0001397550853409024,
      "loss": 3.9532,
      "step": 251400
    },
    {
      "epoch": 0.5237708333333333,
      "grad_norm": 1.0007048845291138,
      "learning_rate": 0.00013974524982971552,
      "loss": 3.9458,
      "step": 251410
    },
    {
      "epoch": 0.5237916666666667,
      "grad_norm": 0.9254063963890076,
      "learning_rate": 0.00013973541436282507,
      "loss": 3.9238,
      "step": 251420
    },
    {
      "epoch": 0.5238125,
      "grad_norm": 0.9248833060264587,
      "learning_rate": 0.00013972557894027356,
      "loss": 3.8597,
      "step": 251430
    },
    {
      "epoch": 0.5238333333333334,
      "grad_norm": 0.9039199352264404,
      "learning_rate": 0.00013971574356210354,
      "loss": 3.7472,
      "step": 251440
    },
    {
      "epoch": 0.5238541666666666,
      "grad_norm": 1.2038564682006836,
      "learning_rate": 0.00013970590822835738,
      "loss": 3.7716,
      "step": 251450
    },
    {
      "epoch": 0.523875,
      "grad_norm": 0.9589066505432129,
      "learning_rate": 0.0001396960729390776,
      "loss": 3.922,
      "step": 251460
    },
    {
      "epoch": 0.5238958333333333,
      "grad_norm": 0.96031254529953,
      "learning_rate": 0.0001396862376943068,
      "loss": 3.8179,
      "step": 251470
    },
    {
      "epoch": 0.5239166666666667,
      "grad_norm": 1.1310176849365234,
      "learning_rate": 0.0001396764024940873,
      "loss": 3.9196,
      "step": 251480
    },
    {
      "epoch": 0.5239375,
      "grad_norm": 1.0612123012542725,
      "learning_rate": 0.00013966656733846165,
      "loss": 3.9484,
      "step": 251490
    },
    {
      "epoch": 0.5239583333333333,
      "grad_norm": 0.8448140621185303,
      "learning_rate": 0.00013965673222747236,
      "loss": 3.8222,
      "step": 251500
    },
    {
      "epoch": 0.5239791666666667,
      "grad_norm": 1.1118919849395752,
      "learning_rate": 0.0001396468971611619,
      "loss": 3.8098,
      "step": 251510
    },
    {
      "epoch": 0.524,
      "grad_norm": 0.947563111782074,
      "learning_rate": 0.00013963706213957272,
      "loss": 3.9876,
      "step": 251520
    },
    {
      "epoch": 0.5240208333333334,
      "grad_norm": 0.8627144694328308,
      "learning_rate": 0.00013962722716274738,
      "loss": 3.867,
      "step": 251530
    },
    {
      "epoch": 0.5240416666666666,
      "grad_norm": 0.9679366946220398,
      "learning_rate": 0.00013961739223072829,
      "loss": 3.7026,
      "step": 251540
    },
    {
      "epoch": 0.5240625,
      "grad_norm": 1.0090028047561646,
      "learning_rate": 0.00013960755734355792,
      "loss": 3.9654,
      "step": 251550
    },
    {
      "epoch": 0.5240833333333333,
      "grad_norm": 0.9574354290962219,
      "learning_rate": 0.00013959772250127881,
      "loss": 3.9455,
      "step": 251560
    },
    {
      "epoch": 0.5241041666666667,
      "grad_norm": 0.9793477654457092,
      "learning_rate": 0.00013958788770393346,
      "loss": 3.8995,
      "step": 251570
    },
    {
      "epoch": 0.524125,
      "grad_norm": 0.8822274804115295,
      "learning_rate": 0.00013957805295156423,
      "loss": 3.9014,
      "step": 251580
    },
    {
      "epoch": 0.5241458333333333,
      "grad_norm": 0.9456565380096436,
      "learning_rate": 0.00013956821824421373,
      "loss": 3.8933,
      "step": 251590
    },
    {
      "epoch": 0.5241666666666667,
      "grad_norm": 0.930273711681366,
      "learning_rate": 0.00013955838358192444,
      "loss": 3.8802,
      "step": 251600
    },
    {
      "epoch": 0.5241875,
      "grad_norm": 1.0100611448287964,
      "learning_rate": 0.00013954854896473874,
      "loss": 3.8868,
      "step": 251610
    },
    {
      "epoch": 0.5242083333333334,
      "grad_norm": 0.9175249338150024,
      "learning_rate": 0.0001395387143926992,
      "loss": 3.8001,
      "step": 251620
    },
    {
      "epoch": 0.5242291666666666,
      "grad_norm": 0.9767882227897644,
      "learning_rate": 0.0001395288798658483,
      "loss": 3.8557,
      "step": 251630
    },
    {
      "epoch": 0.52425,
      "grad_norm": 0.9372072815895081,
      "learning_rate": 0.00013951904538422842,
      "loss": 4.1917,
      "step": 251640
    },
    {
      "epoch": 0.5242708333333334,
      "grad_norm": 0.9333638548851013,
      "learning_rate": 0.0001395092109478822,
      "loss": 3.8618,
      "step": 251650
    },
    {
      "epoch": 0.5242916666666667,
      "grad_norm": 0.8576163053512573,
      "learning_rate": 0.00013949937655685198,
      "loss": 3.8274,
      "step": 251660
    },
    {
      "epoch": 0.5243125,
      "grad_norm": 0.8847267031669617,
      "learning_rate": 0.00013948954221118027,
      "loss": 3.7917,
      "step": 251670
    },
    {
      "epoch": 0.5243333333333333,
      "grad_norm": 0.9821838140487671,
      "learning_rate": 0.00013947970791090966,
      "loss": 4.0151,
      "step": 251680
    },
    {
      "epoch": 0.5243541666666667,
      "grad_norm": 0.9125548005104065,
      "learning_rate": 0.00013946987365608249,
      "loss": 3.9257,
      "step": 251690
    },
    {
      "epoch": 0.524375,
      "grad_norm": 0.8207113742828369,
      "learning_rate": 0.00013946003944674128,
      "loss": 3.6878,
      "step": 251700
    },
    {
      "epoch": 0.5243958333333333,
      "grad_norm": 0.8997396230697632,
      "learning_rate": 0.0001394502052829286,
      "loss": 3.9227,
      "step": 251710
    },
    {
      "epoch": 0.5244166666666666,
      "grad_norm": 0.879229724407196,
      "learning_rate": 0.0001394403711646868,
      "loss": 3.9087,
      "step": 251720
    },
    {
      "epoch": 0.5244375,
      "grad_norm": 0.9110760688781738,
      "learning_rate": 0.00013943053709205842,
      "loss": 3.9821,
      "step": 251730
    },
    {
      "epoch": 0.5244583333333334,
      "grad_norm": 0.9281943440437317,
      "learning_rate": 0.00013942070306508596,
      "loss": 3.7427,
      "step": 251740
    },
    {
      "epoch": 0.5244791666666667,
      "grad_norm": 0.8877629637718201,
      "learning_rate": 0.00013941086908381188,
      "loss": 3.9469,
      "step": 251750
    },
    {
      "epoch": 0.5245,
      "grad_norm": 0.8462457060813904,
      "learning_rate": 0.00013940103514827867,
      "loss": 3.9029,
      "step": 251760
    },
    {
      "epoch": 0.5245208333333333,
      "grad_norm": 0.8565301895141602,
      "learning_rate": 0.00013939120125852872,
      "loss": 3.8746,
      "step": 251770
    },
    {
      "epoch": 0.5245416666666667,
      "grad_norm": 0.9234253168106079,
      "learning_rate": 0.00013938136741460465,
      "loss": 3.731,
      "step": 251780
    },
    {
      "epoch": 0.5245625,
      "grad_norm": 1.150004506111145,
      "learning_rate": 0.00013937153361654885,
      "loss": 3.9799,
      "step": 251790
    },
    {
      "epoch": 0.5245833333333333,
      "grad_norm": 0.9643054604530334,
      "learning_rate": 0.00013936169986440377,
      "loss": 3.7189,
      "step": 251800
    },
    {
      "epoch": 0.5246041666666666,
      "grad_norm": 0.9568532109260559,
      "learning_rate": 0.000139351866158212,
      "loss": 3.7203,
      "step": 251810
    },
    {
      "epoch": 0.524625,
      "grad_norm": 0.9132363796234131,
      "learning_rate": 0.00013934203249801592,
      "loss": 3.9103,
      "step": 251820
    },
    {
      "epoch": 0.5246458333333334,
      "grad_norm": 0.9218131899833679,
      "learning_rate": 0.00013933219888385802,
      "loss": 3.6593,
      "step": 251830
    },
    {
      "epoch": 0.5246666666666666,
      "grad_norm": 0.9963993430137634,
      "learning_rate": 0.00013932236531578087,
      "loss": 3.7747,
      "step": 251840
    },
    {
      "epoch": 0.5246875,
      "grad_norm": 0.9808673858642578,
      "learning_rate": 0.00013931253179382683,
      "loss": 3.8341,
      "step": 251850
    },
    {
      "epoch": 0.5247083333333333,
      "grad_norm": 0.9570068120956421,
      "learning_rate": 0.0001393026983180384,
      "loss": 3.9591,
      "step": 251860
    },
    {
      "epoch": 0.5247291666666667,
      "grad_norm": 0.91093909740448,
      "learning_rate": 0.00013929286488845814,
      "loss": 3.809,
      "step": 251870
    },
    {
      "epoch": 0.52475,
      "grad_norm": 0.9589503407478333,
      "learning_rate": 0.00013928303150512842,
      "loss": 3.7984,
      "step": 251880
    },
    {
      "epoch": 0.5247708333333333,
      "grad_norm": 0.8369603753089905,
      "learning_rate": 0.00013927319816809175,
      "loss": 3.8652,
      "step": 251890
    },
    {
      "epoch": 0.5247916666666667,
      "grad_norm": 0.9973309636116028,
      "learning_rate": 0.00013926336487739066,
      "loss": 3.9911,
      "step": 251900
    },
    {
      "epoch": 0.5248125,
      "grad_norm": 1.071150779724121,
      "learning_rate": 0.00013925353163306758,
      "loss": 3.746,
      "step": 251910
    },
    {
      "epoch": 0.5248333333333334,
      "grad_norm": 0.8737059831619263,
      "learning_rate": 0.00013924369843516498,
      "loss": 4.058,
      "step": 251920
    },
    {
      "epoch": 0.5248541666666666,
      "grad_norm": 0.8662330508232117,
      "learning_rate": 0.0001392338652837253,
      "loss": 3.9202,
      "step": 251930
    },
    {
      "epoch": 0.524875,
      "grad_norm": 0.983931303024292,
      "learning_rate": 0.00013922403217879115,
      "loss": 3.8826,
      "step": 251940
    },
    {
      "epoch": 0.5248958333333333,
      "grad_norm": 0.9062070846557617,
      "learning_rate": 0.00013921419912040484,
      "loss": 4.0988,
      "step": 251950
    },
    {
      "epoch": 0.5249166666666667,
      "grad_norm": 1.0517847537994385,
      "learning_rate": 0.00013920436610860893,
      "loss": 4.0092,
      "step": 251960
    },
    {
      "epoch": 0.5249375,
      "grad_norm": 0.8691229224205017,
      "learning_rate": 0.00013919453314344593,
      "loss": 3.8256,
      "step": 251970
    },
    {
      "epoch": 0.5249583333333333,
      "grad_norm": 0.8247645497322083,
      "learning_rate": 0.00013918470022495822,
      "loss": 3.8542,
      "step": 251980
    },
    {
      "epoch": 0.5249791666666667,
      "grad_norm": 1.1490073204040527,
      "learning_rate": 0.00013917486735318834,
      "loss": 3.7409,
      "step": 251990
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.9549030065536499,
      "learning_rate": 0.00013916503452817878,
      "loss": 3.6733,
      "step": 252000
    },
    {
      "epoch": 0.525,
      "eval_loss": 3.6109871864318848,
      "eval_runtime": 7.3457,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 252000
    },
    {
      "epoch": 0.5250208333333334,
      "grad_norm": 0.9021220803260803,
      "learning_rate": 0.00013915520174997192,
      "loss": 3.7425,
      "step": 252010
    },
    {
      "epoch": 0.5250416666666666,
      "grad_norm": 1.0595515966415405,
      "learning_rate": 0.00013914536901861034,
      "loss": 3.8282,
      "step": 252020
    },
    {
      "epoch": 0.5250625,
      "grad_norm": 1.048935890197754,
      "learning_rate": 0.0001391355363341365,
      "loss": 3.8067,
      "step": 252030
    },
    {
      "epoch": 0.5250833333333333,
      "grad_norm": 1.034120798110962,
      "learning_rate": 0.0001391257036965928,
      "loss": 3.8208,
      "step": 252040
    },
    {
      "epoch": 0.5251041666666667,
      "grad_norm": 1.021308422088623,
      "learning_rate": 0.00013911587110602175,
      "loss": 3.6269,
      "step": 252050
    },
    {
      "epoch": 0.525125,
      "grad_norm": 0.9699188470840454,
      "learning_rate": 0.00013910603856246584,
      "loss": 3.8208,
      "step": 252060
    },
    {
      "epoch": 0.5251458333333333,
      "grad_norm": 0.9252635836601257,
      "learning_rate": 0.00013909620606596755,
      "loss": 3.8402,
      "step": 252070
    },
    {
      "epoch": 0.5251666666666667,
      "grad_norm": 0.9140282869338989,
      "learning_rate": 0.00013908637361656929,
      "loss": 3.7524,
      "step": 252080
    },
    {
      "epoch": 0.5251875,
      "grad_norm": 0.9159516096115112,
      "learning_rate": 0.00013907654121431357,
      "loss": 3.6737,
      "step": 252090
    },
    {
      "epoch": 0.5252083333333334,
      "grad_norm": 0.8821198344230652,
      "learning_rate": 0.00013906670885924292,
      "loss": 3.7246,
      "step": 252100
    },
    {
      "epoch": 0.5252291666666666,
      "grad_norm": 1.01670241355896,
      "learning_rate": 0.00013905687655139972,
      "loss": 4.0222,
      "step": 252110
    },
    {
      "epoch": 0.52525,
      "grad_norm": 0.9752435088157654,
      "learning_rate": 0.00013904704429082648,
      "loss": 3.9109,
      "step": 252120
    },
    {
      "epoch": 0.5252708333333334,
      "grad_norm": 0.9988143444061279,
      "learning_rate": 0.00013903721207756574,
      "loss": 3.9338,
      "step": 252130
    },
    {
      "epoch": 0.5252916666666667,
      "grad_norm": 0.8846147656440735,
      "learning_rate": 0.0001390273799116598,
      "loss": 3.8234,
      "step": 252140
    },
    {
      "epoch": 0.5253125,
      "grad_norm": 1.2288357019424438,
      "learning_rate": 0.00013901754779315132,
      "loss": 4.1244,
      "step": 252150
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 0.9188463687896729,
      "learning_rate": 0.00013900771572208267,
      "loss": 3.8461,
      "step": 252160
    },
    {
      "epoch": 0.5253541666666667,
      "grad_norm": 0.8900628685951233,
      "learning_rate": 0.0001389978836984963,
      "loss": 3.6775,
      "step": 252170
    },
    {
      "epoch": 0.525375,
      "grad_norm": 0.9248060584068298,
      "learning_rate": 0.00013898805172243478,
      "loss": 3.842,
      "step": 252180
    },
    {
      "epoch": 0.5253958333333333,
      "grad_norm": 1.037848949432373,
      "learning_rate": 0.00013897821979394048,
      "loss": 3.869,
      "step": 252190
    },
    {
      "epoch": 0.5254166666666666,
      "grad_norm": 0.9285950064659119,
      "learning_rate": 0.00013896838791305587,
      "loss": 3.8905,
      "step": 252200
    },
    {
      "epoch": 0.5254375,
      "grad_norm": 0.951023519039154,
      "learning_rate": 0.00013895855607982353,
      "loss": 3.7988,
      "step": 252210
    },
    {
      "epoch": 0.5254583333333334,
      "grad_norm": 0.9420729875564575,
      "learning_rate": 0.0001389487242942858,
      "loss": 3.8037,
      "step": 252220
    },
    {
      "epoch": 0.5254791666666667,
      "grad_norm": 0.972416877746582,
      "learning_rate": 0.0001389388925564852,
      "loss": 3.8196,
      "step": 252230
    },
    {
      "epoch": 0.5255,
      "grad_norm": 0.8816134333610535,
      "learning_rate": 0.00013892906086646428,
      "loss": 3.8108,
      "step": 252240
    },
    {
      "epoch": 0.5255208333333333,
      "grad_norm": 1.104596734046936,
      "learning_rate": 0.00013891922922426537,
      "loss": 3.8175,
      "step": 252250
    },
    {
      "epoch": 0.5255416666666667,
      "grad_norm": 0.8936589360237122,
      "learning_rate": 0.000138909397629931,
      "loss": 3.8988,
      "step": 252260
    },
    {
      "epoch": 0.5255625,
      "grad_norm": 0.9525079131126404,
      "learning_rate": 0.0001388995660835037,
      "loss": 3.8958,
      "step": 252270
    },
    {
      "epoch": 0.5255833333333333,
      "grad_norm": 0.9946010112762451,
      "learning_rate": 0.00013888973458502587,
      "loss": 3.9647,
      "step": 252280
    },
    {
      "epoch": 0.5256041666666667,
      "grad_norm": 0.9040194749832153,
      "learning_rate": 0.00013887990313453993,
      "loss": 3.9873,
      "step": 252290
    },
    {
      "epoch": 0.525625,
      "grad_norm": 0.8979431390762329,
      "learning_rate": 0.00013887007173208845,
      "loss": 3.804,
      "step": 252300
    },
    {
      "epoch": 0.5256458333333334,
      "grad_norm": 0.9451878070831299,
      "learning_rate": 0.00013886024037771386,
      "loss": 3.8685,
      "step": 252310
    },
    {
      "epoch": 0.5256666666666666,
      "grad_norm": 0.9665902853012085,
      "learning_rate": 0.00013885040907145858,
      "loss": 3.7215,
      "step": 252320
    },
    {
      "epoch": 0.5256875,
      "grad_norm": 1.0320360660552979,
      "learning_rate": 0.00013884057781336515,
      "loss": 3.772,
      "step": 252330
    },
    {
      "epoch": 0.5257083333333333,
      "grad_norm": 0.9314722418785095,
      "learning_rate": 0.00013883074660347603,
      "loss": 4.022,
      "step": 252340
    },
    {
      "epoch": 0.5257291666666667,
      "grad_norm": 0.8755595088005066,
      "learning_rate": 0.00013882091544183364,
      "loss": 3.7801,
      "step": 252350
    },
    {
      "epoch": 0.52575,
      "grad_norm": 0.9723011255264282,
      "learning_rate": 0.00013881108432848045,
      "loss": 3.9812,
      "step": 252360
    },
    {
      "epoch": 0.5257708333333333,
      "grad_norm": 0.9013673067092896,
      "learning_rate": 0.00013880125326345898,
      "loss": 3.7025,
      "step": 252370
    },
    {
      "epoch": 0.5257916666666667,
      "grad_norm": 0.8603524565696716,
      "learning_rate": 0.00013879142224681163,
      "loss": 3.8094,
      "step": 252380
    },
    {
      "epoch": 0.5258125,
      "grad_norm": 0.8870000243186951,
      "learning_rate": 0.0001387815912785809,
      "loss": 3.6873,
      "step": 252390
    },
    {
      "epoch": 0.5258333333333334,
      "grad_norm": 0.9013310670852661,
      "learning_rate": 0.00013877176035880933,
      "loss": 3.8721,
      "step": 252400
    },
    {
      "epoch": 0.5258541666666666,
      "grad_norm": 0.8852942585945129,
      "learning_rate": 0.00013876192948753926,
      "loss": 4.0157,
      "step": 252410
    },
    {
      "epoch": 0.525875,
      "grad_norm": 0.899908721446991,
      "learning_rate": 0.00013875209866481315,
      "loss": 3.7575,
      "step": 252420
    },
    {
      "epoch": 0.5258958333333333,
      "grad_norm": 0.920770525932312,
      "learning_rate": 0.0001387422678906736,
      "loss": 3.7965,
      "step": 252430
    },
    {
      "epoch": 0.5259166666666667,
      "grad_norm": 0.9784731268882751,
      "learning_rate": 0.00013873243716516298,
      "loss": 3.8426,
      "step": 252440
    },
    {
      "epoch": 0.5259375,
      "grad_norm": 0.9522596001625061,
      "learning_rate": 0.00013872260648832373,
      "loss": 3.8476,
      "step": 252450
    },
    {
      "epoch": 0.5259583333333333,
      "grad_norm": 0.9416757225990295,
      "learning_rate": 0.0001387127758601984,
      "loss": 3.8068,
      "step": 252460
    },
    {
      "epoch": 0.5259791666666667,
      "grad_norm": 0.8983661532402039,
      "learning_rate": 0.00013870294528082943,
      "loss": 3.9598,
      "step": 252470
    },
    {
      "epoch": 0.526,
      "grad_norm": 0.9734581112861633,
      "learning_rate": 0.0001386931147502592,
      "loss": 3.7836,
      "step": 252480
    },
    {
      "epoch": 0.5260208333333334,
      "grad_norm": 0.9786110520362854,
      "learning_rate": 0.00013868328426853025,
      "loss": 3.8383,
      "step": 252490
    },
    {
      "epoch": 0.5260416666666666,
      "grad_norm": 0.9187403917312622,
      "learning_rate": 0.0001386734538356851,
      "loss": 3.7742,
      "step": 252500
    },
    {
      "epoch": 0.5260625,
      "grad_norm": 0.9225931167602539,
      "learning_rate": 0.00013866362345176607,
      "loss": 3.9971,
      "step": 252510
    },
    {
      "epoch": 0.5260833333333333,
      "grad_norm": 0.9675800800323486,
      "learning_rate": 0.0001386537931168157,
      "loss": 3.901,
      "step": 252520
    },
    {
      "epoch": 0.5261041666666667,
      "grad_norm": 0.9122381806373596,
      "learning_rate": 0.00013864396283087653,
      "loss": 3.8028,
      "step": 252530
    },
    {
      "epoch": 0.526125,
      "grad_norm": 0.9873435497283936,
      "learning_rate": 0.00013863413259399086,
      "loss": 3.7146,
      "step": 252540
    },
    {
      "epoch": 0.5261458333333333,
      "grad_norm": 0.8382673263549805,
      "learning_rate": 0.0001386243024062013,
      "loss": 3.785,
      "step": 252550
    },
    {
      "epoch": 0.5261666666666667,
      "grad_norm": 0.9148085713386536,
      "learning_rate": 0.00013861447226755022,
      "loss": 3.7878,
      "step": 252560
    },
    {
      "epoch": 0.5261875,
      "grad_norm": 0.8627949953079224,
      "learning_rate": 0.00013860464217808007,
      "loss": 3.6577,
      "step": 252570
    },
    {
      "epoch": 0.5262083333333333,
      "grad_norm": 1.0717331171035767,
      "learning_rate": 0.00013859481213783343,
      "loss": 3.9651,
      "step": 252580
    },
    {
      "epoch": 0.5262291666666666,
      "grad_norm": 0.9479444622993469,
      "learning_rate": 0.00013858498214685267,
      "loss": 3.7098,
      "step": 252590
    },
    {
      "epoch": 0.52625,
      "grad_norm": 0.8724851012229919,
      "learning_rate": 0.00013857515220518023,
      "loss": 3.7025,
      "step": 252600
    },
    {
      "epoch": 0.5262708333333334,
      "grad_norm": 0.9591732025146484,
      "learning_rate": 0.00013856532231285867,
      "loss": 3.7561,
      "step": 252610
    },
    {
      "epoch": 0.5262916666666667,
      "grad_norm": 0.9548802971839905,
      "learning_rate": 0.00013855549246993035,
      "loss": 3.7248,
      "step": 252620
    },
    {
      "epoch": 0.5263125,
      "grad_norm": 0.9124729633331299,
      "learning_rate": 0.00013854566267643782,
      "loss": 3.9038,
      "step": 252630
    },
    {
      "epoch": 0.5263333333333333,
      "grad_norm": 0.9805605411529541,
      "learning_rate": 0.0001385358329324234,
      "loss": 3.8124,
      "step": 252640
    },
    {
      "epoch": 0.5263541666666667,
      "grad_norm": 0.9477802515029907,
      "learning_rate": 0.00013852600323792976,
      "loss": 3.757,
      "step": 252650
    },
    {
      "epoch": 0.526375,
      "grad_norm": 0.9414743185043335,
      "learning_rate": 0.00013851617359299917,
      "loss": 3.8982,
      "step": 252660
    },
    {
      "epoch": 0.5263958333333333,
      "grad_norm": 1.9375536441802979,
      "learning_rate": 0.00013850634399767417,
      "loss": 3.8667,
      "step": 252670
    },
    {
      "epoch": 0.5264166666666666,
      "grad_norm": 0.9069000482559204,
      "learning_rate": 0.00013849651445199722,
      "loss": 4.0373,
      "step": 252680
    },
    {
      "epoch": 0.5264375,
      "grad_norm": 1.0044419765472412,
      "learning_rate": 0.0001384866849560108,
      "loss": 3.575,
      "step": 252690
    },
    {
      "epoch": 0.5264583333333334,
      "grad_norm": 0.9241682887077332,
      "learning_rate": 0.00013847685550975728,
      "loss": 3.8835,
      "step": 252700
    },
    {
      "epoch": 0.5264791666666667,
      "grad_norm": 1.3777778148651123,
      "learning_rate": 0.00013846702611327926,
      "loss": 4.006,
      "step": 252710
    },
    {
      "epoch": 0.5265,
      "grad_norm": 0.9483740925788879,
      "learning_rate": 0.00013845719676661906,
      "loss": 3.7181,
      "step": 252720
    },
    {
      "epoch": 0.5265208333333333,
      "grad_norm": 0.8790398836135864,
      "learning_rate": 0.0001384473674698192,
      "loss": 4.0636,
      "step": 252730
    },
    {
      "epoch": 0.5265416666666667,
      "grad_norm": 0.9019102454185486,
      "learning_rate": 0.0001384375382229222,
      "loss": 3.9156,
      "step": 252740
    },
    {
      "epoch": 0.5265625,
      "grad_norm": 0.8909758925437927,
      "learning_rate": 0.00013842770902597042,
      "loss": 3.9073,
      "step": 252750
    },
    {
      "epoch": 0.5265833333333333,
      "grad_norm": 0.9591414332389832,
      "learning_rate": 0.00013841787987900632,
      "loss": 3.7435,
      "step": 252760
    },
    {
      "epoch": 0.5266041666666667,
      "grad_norm": 0.9660605788230896,
      "learning_rate": 0.00013840805078207247,
      "loss": 3.7647,
      "step": 252770
    },
    {
      "epoch": 0.526625,
      "grad_norm": 0.893684446811676,
      "learning_rate": 0.00013839822173521127,
      "loss": 4.0012,
      "step": 252780
    },
    {
      "epoch": 0.5266458333333334,
      "grad_norm": 0.9510923624038696,
      "learning_rate": 0.00013838839273846507,
      "loss": 3.9937,
      "step": 252790
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 0.9488233923912048,
      "learning_rate": 0.00013837856379187645,
      "loss": 3.8255,
      "step": 252800
    },
    {
      "epoch": 0.5266875,
      "grad_norm": 0.7635399103164673,
      "learning_rate": 0.00013836873489548788,
      "loss": 3.8408,
      "step": 252810
    },
    {
      "epoch": 0.5267083333333333,
      "grad_norm": 0.9370964169502258,
      "learning_rate": 0.0001383589060493417,
      "loss": 3.7765,
      "step": 252820
    },
    {
      "epoch": 0.5267291666666667,
      "grad_norm": 0.8613670468330383,
      "learning_rate": 0.00013834907725348045,
      "loss": 3.7675,
      "step": 252830
    },
    {
      "epoch": 0.52675,
      "grad_norm": 1.0231232643127441,
      "learning_rate": 0.00013833924850794663,
      "loss": 3.7381,
      "step": 252840
    },
    {
      "epoch": 0.5267708333333333,
      "grad_norm": 0.9083442091941833,
      "learning_rate": 0.00013832941981278257,
      "loss": 3.9055,
      "step": 252850
    },
    {
      "epoch": 0.5267916666666667,
      "grad_norm": 0.8856660723686218,
      "learning_rate": 0.00013831959116803082,
      "loss": 3.8765,
      "step": 252860
    },
    {
      "epoch": 0.5268125,
      "grad_norm": 0.8495585918426514,
      "learning_rate": 0.00013830976257373388,
      "loss": 3.8256,
      "step": 252870
    },
    {
      "epoch": 0.5268333333333334,
      "grad_norm": 0.987250804901123,
      "learning_rate": 0.00013829993402993403,
      "loss": 4.0243,
      "step": 252880
    },
    {
      "epoch": 0.5268541666666666,
      "grad_norm": 1.2608426809310913,
      "learning_rate": 0.0001382901055366739,
      "loss": 3.8703,
      "step": 252890
    },
    {
      "epoch": 0.526875,
      "grad_norm": 0.9651238322257996,
      "learning_rate": 0.0001382802770939959,
      "loss": 3.7259,
      "step": 252900
    },
    {
      "epoch": 0.5268958333333333,
      "grad_norm": 1.049880027770996,
      "learning_rate": 0.00013827044870194237,
      "loss": 3.7609,
      "step": 252910
    },
    {
      "epoch": 0.5269166666666667,
      "grad_norm": 1.2244160175323486,
      "learning_rate": 0.00013826062036055597,
      "loss": 3.9124,
      "step": 252920
    },
    {
      "epoch": 0.5269375,
      "grad_norm": 1.0357321500778198,
      "learning_rate": 0.00013825079206987898,
      "loss": 3.9067,
      "step": 252930
    },
    {
      "epoch": 0.5269583333333333,
      "grad_norm": 0.8793335556983948,
      "learning_rate": 0.00013824096382995398,
      "loss": 3.9458,
      "step": 252940
    },
    {
      "epoch": 0.5269791666666667,
      "grad_norm": 0.9807255268096924,
      "learning_rate": 0.00013823113564082325,
      "loss": 3.8804,
      "step": 252950
    },
    {
      "epoch": 0.527,
      "grad_norm": 1.0867366790771484,
      "learning_rate": 0.0001382213075025294,
      "loss": 3.9402,
      "step": 252960
    },
    {
      "epoch": 0.5270208333333334,
      "grad_norm": 0.9150102734565735,
      "learning_rate": 0.0001382114794151149,
      "loss": 3.7196,
      "step": 252970
    },
    {
      "epoch": 0.5270416666666666,
      "grad_norm": 0.923629105091095,
      "learning_rate": 0.00013820165137862206,
      "loss": 3.7373,
      "step": 252980
    },
    {
      "epoch": 0.5270625,
      "grad_norm": 1.5117915868759155,
      "learning_rate": 0.00013819182339309347,
      "loss": 3.879,
      "step": 252990
    },
    {
      "epoch": 0.5270833333333333,
      "grad_norm": 1.1723566055297852,
      "learning_rate": 0.00013818199545857153,
      "loss": 3.8471,
      "step": 253000
    },
    {
      "epoch": 0.5270833333333333,
      "eval_loss": 3.6098217964172363,
      "eval_runtime": 7.2821,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 253000
    },
    {
      "epoch": 0.5271041666666667,
      "grad_norm": 0.9849408864974976,
      "learning_rate": 0.00013817216757509865,
      "loss": 4.0386,
      "step": 253010
    },
    {
      "epoch": 0.527125,
      "grad_norm": 0.8652330040931702,
      "learning_rate": 0.00013816233974271735,
      "loss": 3.8755,
      "step": 253020
    },
    {
      "epoch": 0.5271458333333333,
      "grad_norm": 1.119498372077942,
      "learning_rate": 0.00013815251196147007,
      "loss": 3.8116,
      "step": 253030
    },
    {
      "epoch": 0.5271666666666667,
      "grad_norm": 0.9795417189598083,
      "learning_rate": 0.00013814268423139922,
      "loss": 3.8745,
      "step": 253040
    },
    {
      "epoch": 0.5271875,
      "grad_norm": 0.8534266352653503,
      "learning_rate": 0.00013813285655254733,
      "loss": 3.7251,
      "step": 253050
    },
    {
      "epoch": 0.5272083333333333,
      "grad_norm": 0.9133061170578003,
      "learning_rate": 0.00013812302892495675,
      "loss": 3.9881,
      "step": 253060
    },
    {
      "epoch": 0.5272291666666666,
      "grad_norm": 1.328293800354004,
      "learning_rate": 0.00013811320134866998,
      "loss": 3.7723,
      "step": 253070
    },
    {
      "epoch": 0.52725,
      "grad_norm": 1.0295751094818115,
      "learning_rate": 0.0001381033738237295,
      "loss": 3.9785,
      "step": 253080
    },
    {
      "epoch": 0.5272708333333334,
      "grad_norm": 0.8761577010154724,
      "learning_rate": 0.00013809354635017774,
      "loss": 3.8663,
      "step": 253090
    },
    {
      "epoch": 0.5272916666666667,
      "grad_norm": 0.9588640928268433,
      "learning_rate": 0.00013808371892805711,
      "loss": 3.8185,
      "step": 253100
    },
    {
      "epoch": 0.5273125,
      "grad_norm": 0.8113111257553101,
      "learning_rate": 0.00013807389155741015,
      "loss": 3.8089,
      "step": 253110
    },
    {
      "epoch": 0.5273333333333333,
      "grad_norm": 0.905425488948822,
      "learning_rate": 0.00013806406423827924,
      "loss": 3.7958,
      "step": 253120
    },
    {
      "epoch": 0.5273541666666667,
      "grad_norm": 0.8783460855484009,
      "learning_rate": 0.00013805423697070681,
      "loss": 3.9942,
      "step": 253130
    },
    {
      "epoch": 0.527375,
      "grad_norm": 0.9417771100997925,
      "learning_rate": 0.0001380444097547354,
      "loss": 3.8448,
      "step": 253140
    },
    {
      "epoch": 0.5273958333333333,
      "grad_norm": 1.0763757228851318,
      "learning_rate": 0.00013803458259040744,
      "loss": 3.8348,
      "step": 253150
    },
    {
      "epoch": 0.5274166666666666,
      "grad_norm": 1.0434883832931519,
      "learning_rate": 0.00013802475547776524,
      "loss": 3.9645,
      "step": 253160
    },
    {
      "epoch": 0.5274375,
      "grad_norm": 0.9892145395278931,
      "learning_rate": 0.00013801492841685142,
      "loss": 3.9951,
      "step": 253170
    },
    {
      "epoch": 0.5274583333333334,
      "grad_norm": 0.8988956212997437,
      "learning_rate": 0.00013800510140770837,
      "loss": 3.9538,
      "step": 253180
    },
    {
      "epoch": 0.5274791666666667,
      "grad_norm": 0.9014875292778015,
      "learning_rate": 0.0001379952744503785,
      "loss": 3.7238,
      "step": 253190
    },
    {
      "epoch": 0.5275,
      "grad_norm": 0.8787693977355957,
      "learning_rate": 0.00013798544754490432,
      "loss": 3.9087,
      "step": 253200
    },
    {
      "epoch": 0.5275208333333333,
      "grad_norm": 0.9338961839675903,
      "learning_rate": 0.00013797562069132826,
      "loss": 3.9607,
      "step": 253210
    },
    {
      "epoch": 0.5275416666666667,
      "grad_norm": 0.9252068996429443,
      "learning_rate": 0.00013796579388969274,
      "loss": 3.8932,
      "step": 253220
    },
    {
      "epoch": 0.5275625,
      "grad_norm": 0.9609009027481079,
      "learning_rate": 0.0001379559671400402,
      "loss": 3.8748,
      "step": 253230
    },
    {
      "epoch": 0.5275833333333333,
      "grad_norm": 0.8967715501785278,
      "learning_rate": 0.00013794614044241316,
      "loss": 3.7501,
      "step": 253240
    },
    {
      "epoch": 0.5276041666666667,
      "grad_norm": 0.9216131567955017,
      "learning_rate": 0.00013793631379685402,
      "loss": 3.8199,
      "step": 253250
    },
    {
      "epoch": 0.527625,
      "grad_norm": 1.0240882635116577,
      "learning_rate": 0.0001379264872034052,
      "loss": 3.8755,
      "step": 253260
    },
    {
      "epoch": 0.5276458333333334,
      "grad_norm": 0.9633641839027405,
      "learning_rate": 0.0001379166606621092,
      "loss": 3.7055,
      "step": 253270
    },
    {
      "epoch": 0.5276666666666666,
      "grad_norm": 1.020655870437622,
      "learning_rate": 0.00013790683417300845,
      "loss": 3.8712,
      "step": 253280
    },
    {
      "epoch": 0.5276875,
      "grad_norm": 0.9798033237457275,
      "learning_rate": 0.00013789700773614535,
      "loss": 3.9386,
      "step": 253290
    },
    {
      "epoch": 0.5277083333333333,
      "grad_norm": 0.9874400496482849,
      "learning_rate": 0.00013788718135156243,
      "loss": 3.769,
      "step": 253300
    },
    {
      "epoch": 0.5277291666666667,
      "grad_norm": 0.8335745334625244,
      "learning_rate": 0.0001378773550193021,
      "loss": 3.7624,
      "step": 253310
    },
    {
      "epoch": 0.52775,
      "grad_norm": 0.9496967196464539,
      "learning_rate": 0.00013786752873940674,
      "loss": 3.9578,
      "step": 253320
    },
    {
      "epoch": 0.5277708333333333,
      "grad_norm": 0.8832692503929138,
      "learning_rate": 0.00013785770251191885,
      "loss": 3.8922,
      "step": 253330
    },
    {
      "epoch": 0.5277916666666667,
      "grad_norm": 0.9728481769561768,
      "learning_rate": 0.00013784787633688096,
      "loss": 3.8759,
      "step": 253340
    },
    {
      "epoch": 0.5278125,
      "grad_norm": 0.9023040533065796,
      "learning_rate": 0.00013783805021433537,
      "loss": 3.9159,
      "step": 253350
    },
    {
      "epoch": 0.5278333333333334,
      "grad_norm": 1.0214433670043945,
      "learning_rate": 0.0001378282241443246,
      "loss": 3.8968,
      "step": 253360
    },
    {
      "epoch": 0.5278541666666666,
      "grad_norm": 0.942803680896759,
      "learning_rate": 0.0001378183981268911,
      "loss": 3.8643,
      "step": 253370
    },
    {
      "epoch": 0.527875,
      "grad_norm": 0.8667125701904297,
      "learning_rate": 0.00013780857216207724,
      "loss": 3.7949,
      "step": 253380
    },
    {
      "epoch": 0.5278958333333333,
      "grad_norm": 0.9449817538261414,
      "learning_rate": 0.00013779874624992558,
      "loss": 3.9376,
      "step": 253390
    },
    {
      "epoch": 0.5279166666666667,
      "grad_norm": 0.8706597089767456,
      "learning_rate": 0.00013778892039047853,
      "loss": 3.9492,
      "step": 253400
    },
    {
      "epoch": 0.5279375,
      "grad_norm": 0.8920831084251404,
      "learning_rate": 0.00013777909458377843,
      "loss": 3.8587,
      "step": 253410
    },
    {
      "epoch": 0.5279583333333333,
      "grad_norm": 1.1319345235824585,
      "learning_rate": 0.0001377692688298679,
      "loss": 3.8256,
      "step": 253420
    },
    {
      "epoch": 0.5279791666666667,
      "grad_norm": 0.9325754046440125,
      "learning_rate": 0.00013775944312878922,
      "loss": 3.6944,
      "step": 253430
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.9946377277374268,
      "learning_rate": 0.0001377496174805849,
      "loss": 3.8606,
      "step": 253440
    },
    {
      "epoch": 0.5280208333333334,
      "grad_norm": 1.107582449913025,
      "learning_rate": 0.00013773979188529744,
      "loss": 3.8501,
      "step": 253450
    },
    {
      "epoch": 0.5280416666666666,
      "grad_norm": 0.9406809210777283,
      "learning_rate": 0.00013772996634296917,
      "loss": 3.8183,
      "step": 253460
    },
    {
      "epoch": 0.5280625,
      "grad_norm": 1.0685378313064575,
      "learning_rate": 0.00013772014085364258,
      "loss": 3.5245,
      "step": 253470
    },
    {
      "epoch": 0.5280833333333333,
      "grad_norm": 0.8653979301452637,
      "learning_rate": 0.00013771031541736018,
      "loss": 3.9136,
      "step": 253480
    },
    {
      "epoch": 0.5281041666666667,
      "grad_norm": 1.0203839540481567,
      "learning_rate": 0.00013770049003416433,
      "loss": 3.8936,
      "step": 253490
    },
    {
      "epoch": 0.528125,
      "grad_norm": 0.9014548659324646,
      "learning_rate": 0.00013769066470409745,
      "loss": 4.0218,
      "step": 253500
    },
    {
      "epoch": 0.5281458333333333,
      "grad_norm": 1.1693145036697388,
      "learning_rate": 0.0001376808394272021,
      "loss": 3.8822,
      "step": 253510
    },
    {
      "epoch": 0.5281666666666667,
      "grad_norm": 0.9780111312866211,
      "learning_rate": 0.0001376710142035206,
      "loss": 3.6991,
      "step": 253520
    },
    {
      "epoch": 0.5281875,
      "grad_norm": 0.9190436005592346,
      "learning_rate": 0.00013766118903309546,
      "loss": 3.9137,
      "step": 253530
    },
    {
      "epoch": 0.5282083333333333,
      "grad_norm": 1.0139976739883423,
      "learning_rate": 0.00013765136391596906,
      "loss": 3.7544,
      "step": 253540
    },
    {
      "epoch": 0.5282291666666666,
      "grad_norm": 0.8480420112609863,
      "learning_rate": 0.00013764153885218393,
      "loss": 3.884,
      "step": 253550
    },
    {
      "epoch": 0.52825,
      "grad_norm": 0.8417258858680725,
      "learning_rate": 0.00013763171384178244,
      "loss": 3.9875,
      "step": 253560
    },
    {
      "epoch": 0.5282708333333334,
      "grad_norm": 0.8343071937561035,
      "learning_rate": 0.00013762188888480703,
      "loss": 3.9141,
      "step": 253570
    },
    {
      "epoch": 0.5282916666666667,
      "grad_norm": 1.070918083190918,
      "learning_rate": 0.0001376120639813002,
      "loss": 3.533,
      "step": 253580
    },
    {
      "epoch": 0.5283125,
      "grad_norm": 1.0281367301940918,
      "learning_rate": 0.00013760223913130432,
      "loss": 4.0567,
      "step": 253590
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 0.9393645524978638,
      "learning_rate": 0.00013759241433486182,
      "loss": 3.8654,
      "step": 253600
    },
    {
      "epoch": 0.5283541666666667,
      "grad_norm": 0.9098685383796692,
      "learning_rate": 0.00013758258959201526,
      "loss": 4.0744,
      "step": 253610
    },
    {
      "epoch": 0.528375,
      "grad_norm": 0.9773642420768738,
      "learning_rate": 0.00013757276490280698,
      "loss": 3.9751,
      "step": 253620
    },
    {
      "epoch": 0.5283958333333333,
      "grad_norm": 0.925722599029541,
      "learning_rate": 0.00013756294026727938,
      "loss": 3.9369,
      "step": 253630
    },
    {
      "epoch": 0.5284166666666666,
      "grad_norm": 0.8607822060585022,
      "learning_rate": 0.00013755311568547504,
      "loss": 3.7538,
      "step": 253640
    },
    {
      "epoch": 0.5284375,
      "grad_norm": 0.8888421058654785,
      "learning_rate": 0.00013754329115743628,
      "loss": 3.883,
      "step": 253650
    },
    {
      "epoch": 0.5284583333333334,
      "grad_norm": 0.9079458713531494,
      "learning_rate": 0.00013753346668320552,
      "loss": 3.9472,
      "step": 253660
    },
    {
      "epoch": 0.5284791666666667,
      "grad_norm": 0.879432737827301,
      "learning_rate": 0.0001375236422628253,
      "loss": 3.7742,
      "step": 253670
    },
    {
      "epoch": 0.5285,
      "grad_norm": 0.9120791554450989,
      "learning_rate": 0.00013751381789633803,
      "loss": 3.8149,
      "step": 253680
    },
    {
      "epoch": 0.5285208333333333,
      "grad_norm": 0.9902797341346741,
      "learning_rate": 0.00013750399358378605,
      "loss": 3.8005,
      "step": 253690
    },
    {
      "epoch": 0.5285416666666667,
      "grad_norm": 0.9467428922653198,
      "learning_rate": 0.00013749416932521191,
      "loss": 4.0588,
      "step": 253700
    },
    {
      "epoch": 0.5285625,
      "grad_norm": 0.8525593876838684,
      "learning_rate": 0.00013748434512065804,
      "loss": 3.816,
      "step": 253710
    },
    {
      "epoch": 0.5285833333333333,
      "grad_norm": 0.9363608956336975,
      "learning_rate": 0.00013747452097016678,
      "loss": 3.8638,
      "step": 253720
    },
    {
      "epoch": 0.5286041666666667,
      "grad_norm": 0.9252533316612244,
      "learning_rate": 0.00013746469687378067,
      "loss": 3.6285,
      "step": 253730
    },
    {
      "epoch": 0.528625,
      "grad_norm": 0.9202583432197571,
      "learning_rate": 0.00013745487283154214,
      "loss": 3.7036,
      "step": 253740
    },
    {
      "epoch": 0.5286458333333334,
      "grad_norm": 1.0085504055023193,
      "learning_rate": 0.00013744504884349352,
      "loss": 4.01,
      "step": 253750
    },
    {
      "epoch": 0.5286666666666666,
      "grad_norm": 0.9165491461753845,
      "learning_rate": 0.00013743522490967735,
      "loss": 4.0593,
      "step": 253760
    },
    {
      "epoch": 0.5286875,
      "grad_norm": 0.9190361499786377,
      "learning_rate": 0.0001374254010301361,
      "loss": 3.9418,
      "step": 253770
    },
    {
      "epoch": 0.5287083333333333,
      "grad_norm": 0.9059886932373047,
      "learning_rate": 0.00013741557720491204,
      "loss": 3.8372,
      "step": 253780
    },
    {
      "epoch": 0.5287291666666667,
      "grad_norm": 0.989185631275177,
      "learning_rate": 0.00013740575343404777,
      "loss": 3.7228,
      "step": 253790
    },
    {
      "epoch": 0.52875,
      "grad_norm": 0.8911676406860352,
      "learning_rate": 0.00013739592971758564,
      "loss": 3.9324,
      "step": 253800
    },
    {
      "epoch": 0.5287708333333333,
      "grad_norm": 0.8581265211105347,
      "learning_rate": 0.00013738610605556814,
      "loss": 3.7339,
      "step": 253810
    },
    {
      "epoch": 0.5287916666666667,
      "grad_norm": 0.8869142532348633,
      "learning_rate": 0.0001373762824480376,
      "loss": 3.6965,
      "step": 253820
    },
    {
      "epoch": 0.5288125,
      "grad_norm": 0.9082305431365967,
      "learning_rate": 0.00013736645889503654,
      "loss": 3.838,
      "step": 253830
    },
    {
      "epoch": 0.5288333333333334,
      "grad_norm": 0.9061347842216492,
      "learning_rate": 0.00013735663539660744,
      "loss": 3.9827,
      "step": 253840
    },
    {
      "epoch": 0.5288541666666666,
      "grad_norm": 0.8658018708229065,
      "learning_rate": 0.00013734681195279257,
      "loss": 3.8559,
      "step": 253850
    },
    {
      "epoch": 0.528875,
      "grad_norm": 0.9477055668830872,
      "learning_rate": 0.00013733698856363452,
      "loss": 3.8022,
      "step": 253860
    },
    {
      "epoch": 0.5288958333333333,
      "grad_norm": 0.885450005531311,
      "learning_rate": 0.00013732716522917571,
      "loss": 3.7733,
      "step": 253870
    },
    {
      "epoch": 0.5289166666666667,
      "grad_norm": 0.945432186126709,
      "learning_rate": 0.00013731734194945844,
      "loss": 3.9331,
      "step": 253880
    },
    {
      "epoch": 0.5289375,
      "grad_norm": 0.8947122693061829,
      "learning_rate": 0.00013730751872452528,
      "loss": 3.6437,
      "step": 253890
    },
    {
      "epoch": 0.5289583333333333,
      "grad_norm": 0.9330576658248901,
      "learning_rate": 0.00013729769555441862,
      "loss": 3.9555,
      "step": 253900
    },
    {
      "epoch": 0.5289791666666667,
      "grad_norm": 1.015019178390503,
      "learning_rate": 0.00013728787243918086,
      "loss": 3.8632,
      "step": 253910
    },
    {
      "epoch": 0.529,
      "grad_norm": 0.9290506839752197,
      "learning_rate": 0.0001372780493788545,
      "loss": 3.7463,
      "step": 253920
    },
    {
      "epoch": 0.5290208333333334,
      "grad_norm": 0.9885445237159729,
      "learning_rate": 0.0001372682263734819,
      "loss": 3.8026,
      "step": 253930
    },
    {
      "epoch": 0.5290416666666666,
      "grad_norm": 0.9362150430679321,
      "learning_rate": 0.0001372584034231055,
      "loss": 3.6465,
      "step": 253940
    },
    {
      "epoch": 0.5290625,
      "grad_norm": 1.0646109580993652,
      "learning_rate": 0.0001372485805277678,
      "loss": 3.7704,
      "step": 253950
    },
    {
      "epoch": 0.5290833333333333,
      "grad_norm": 0.9120326042175293,
      "learning_rate": 0.0001372387576875112,
      "loss": 3.8634,
      "step": 253960
    },
    {
      "epoch": 0.5291041666666667,
      "grad_norm": 0.9646576642990112,
      "learning_rate": 0.00013722893490237804,
      "loss": 3.7191,
      "step": 253970
    },
    {
      "epoch": 0.529125,
      "grad_norm": 1.0036717653274536,
      "learning_rate": 0.0001372191121724109,
      "loss": 3.892,
      "step": 253980
    },
    {
      "epoch": 0.5291458333333333,
      "grad_norm": 0.8677120208740234,
      "learning_rate": 0.00013720928949765212,
      "loss": 3.8264,
      "step": 253990
    },
    {
      "epoch": 0.5291666666666667,
      "grad_norm": 0.87666916847229,
      "learning_rate": 0.0001371994668781441,
      "loss": 3.9953,
      "step": 254000
    },
    {
      "epoch": 0.5291666666666667,
      "eval_loss": 3.603532075881958,
      "eval_runtime": 7.2756,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 254000
    },
    {
      "epoch": 0.5291875,
      "grad_norm": 0.9324997663497925,
      "learning_rate": 0.00013718964431392938,
      "loss": 3.82,
      "step": 254010
    },
    {
      "epoch": 0.5292083333333333,
      "grad_norm": 1.0246024131774902,
      "learning_rate": 0.00013717982180505028,
      "loss": 3.8649,
      "step": 254020
    },
    {
      "epoch": 0.5292291666666666,
      "grad_norm": 1.0304137468338013,
      "learning_rate": 0.00013716999935154927,
      "loss": 4.115,
      "step": 254030
    },
    {
      "epoch": 0.52925,
      "grad_norm": 0.85049968957901,
      "learning_rate": 0.00013716017695346883,
      "loss": 3.9279,
      "step": 254040
    },
    {
      "epoch": 0.5292708333333334,
      "grad_norm": 0.892846405506134,
      "learning_rate": 0.00013715035461085134,
      "loss": 3.8761,
      "step": 254050
    },
    {
      "epoch": 0.5292916666666667,
      "grad_norm": 0.8672962188720703,
      "learning_rate": 0.00013714053232373918,
      "loss": 3.9585,
      "step": 254060
    },
    {
      "epoch": 0.5293125,
      "grad_norm": 0.8721051812171936,
      "learning_rate": 0.00013713071009217488,
      "loss": 3.9291,
      "step": 254070
    },
    {
      "epoch": 0.5293333333333333,
      "grad_norm": 0.8416233658790588,
      "learning_rate": 0.0001371208879162008,
      "loss": 3.845,
      "step": 254080
    },
    {
      "epoch": 0.5293541666666667,
      "grad_norm": 0.8852816820144653,
      "learning_rate": 0.00013711106579585938,
      "loss": 3.9396,
      "step": 254090
    },
    {
      "epoch": 0.529375,
      "grad_norm": 0.9374154806137085,
      "learning_rate": 0.00013710124373119304,
      "loss": 3.876,
      "step": 254100
    },
    {
      "epoch": 0.5293958333333333,
      "grad_norm": 0.9472330808639526,
      "learning_rate": 0.00013709142172224428,
      "loss": 4.0018,
      "step": 254110
    },
    {
      "epoch": 0.5294166666666666,
      "grad_norm": 0.9175329804420471,
      "learning_rate": 0.00013708159976905544,
      "loss": 4.0207,
      "step": 254120
    },
    {
      "epoch": 0.5294375,
      "grad_norm": 0.8887166976928711,
      "learning_rate": 0.0001370717778716689,
      "loss": 3.9687,
      "step": 254130
    },
    {
      "epoch": 0.5294583333333334,
      "grad_norm": 0.9788176417350769,
      "learning_rate": 0.00013706195603012728,
      "loss": 3.803,
      "step": 254140
    },
    {
      "epoch": 0.5294791666666666,
      "grad_norm": 0.86925208568573,
      "learning_rate": 0.00013705213424447285,
      "loss": 3.737,
      "step": 254150
    },
    {
      "epoch": 0.5295,
      "grad_norm": 0.8882676362991333,
      "learning_rate": 0.00013704231251474805,
      "loss": 3.5688,
      "step": 254160
    },
    {
      "epoch": 0.5295208333333333,
      "grad_norm": 1.008679747581482,
      "learning_rate": 0.00013703249084099533,
      "loss": 3.6914,
      "step": 254170
    },
    {
      "epoch": 0.5295416666666667,
      "grad_norm": 0.9794576168060303,
      "learning_rate": 0.00013702266922325715,
      "loss": 3.9171,
      "step": 254180
    },
    {
      "epoch": 0.5295625,
      "grad_norm": 0.9281644225120544,
      "learning_rate": 0.00013701284766157585,
      "loss": 3.7596,
      "step": 254190
    },
    {
      "epoch": 0.5295833333333333,
      "grad_norm": 1.0183746814727783,
      "learning_rate": 0.00013700302615599395,
      "loss": 3.8932,
      "step": 254200
    },
    {
      "epoch": 0.5296041666666667,
      "grad_norm": 0.9526669383049011,
      "learning_rate": 0.00013699320470655384,
      "loss": 3.8561,
      "step": 254210
    },
    {
      "epoch": 0.529625,
      "grad_norm": 0.9126420617103577,
      "learning_rate": 0.0001369833833132979,
      "loss": 3.7937,
      "step": 254220
    },
    {
      "epoch": 0.5296458333333334,
      "grad_norm": 0.886349618434906,
      "learning_rate": 0.00013697356197626859,
      "loss": 3.8424,
      "step": 254230
    },
    {
      "epoch": 0.5296666666666666,
      "grad_norm": 0.9014072418212891,
      "learning_rate": 0.00013696374069550838,
      "loss": 3.9072,
      "step": 254240
    },
    {
      "epoch": 0.5296875,
      "grad_norm": 1.0054460763931274,
      "learning_rate": 0.0001369539194710596,
      "loss": 3.9071,
      "step": 254250
    },
    {
      "epoch": 0.5297083333333333,
      "grad_norm": 0.8587568402290344,
      "learning_rate": 0.00013694409830296476,
      "loss": 3.8333,
      "step": 254260
    },
    {
      "epoch": 0.5297291666666667,
      "grad_norm": 0.9122565984725952,
      "learning_rate": 0.00013693427719126627,
      "loss": 3.938,
      "step": 254270
    },
    {
      "epoch": 0.52975,
      "grad_norm": 0.9165661931037903,
      "learning_rate": 0.00013692445613600645,
      "loss": 3.9114,
      "step": 254280
    },
    {
      "epoch": 0.5297708333333333,
      "grad_norm": 0.8169061541557312,
      "learning_rate": 0.00013691463513722788,
      "loss": 4.1462,
      "step": 254290
    },
    {
      "epoch": 0.5297916666666667,
      "grad_norm": 0.8835729956626892,
      "learning_rate": 0.0001369048141949729,
      "loss": 3.9463,
      "step": 254300
    },
    {
      "epoch": 0.5298125,
      "grad_norm": 0.8926349878311157,
      "learning_rate": 0.00013689499330928387,
      "loss": 3.7821,
      "step": 254310
    },
    {
      "epoch": 0.5298333333333334,
      "grad_norm": 0.8022169470787048,
      "learning_rate": 0.00013688517248020335,
      "loss": 3.801,
      "step": 254320
    },
    {
      "epoch": 0.5298541666666666,
      "grad_norm": 0.925149142742157,
      "learning_rate": 0.00013687535170777367,
      "loss": 3.7801,
      "step": 254330
    },
    {
      "epoch": 0.529875,
      "grad_norm": 0.976168155670166,
      "learning_rate": 0.00013686553099203727,
      "loss": 3.8093,
      "step": 254340
    },
    {
      "epoch": 0.5298958333333333,
      "grad_norm": 0.9153004288673401,
      "learning_rate": 0.0001368557103330366,
      "loss": 3.7411,
      "step": 254350
    },
    {
      "epoch": 0.5299166666666667,
      "grad_norm": 0.8834069967269897,
      "learning_rate": 0.00013684588973081406,
      "loss": 3.8853,
      "step": 254360
    },
    {
      "epoch": 0.5299375,
      "grad_norm": 1.0777819156646729,
      "learning_rate": 0.000136836069185412,
      "loss": 3.9347,
      "step": 254370
    },
    {
      "epoch": 0.5299583333333333,
      "grad_norm": 1.0468721389770508,
      "learning_rate": 0.00013682624869687299,
      "loss": 3.9269,
      "step": 254380
    },
    {
      "epoch": 0.5299791666666667,
      "grad_norm": 1.5995919704437256,
      "learning_rate": 0.00013681642826523935,
      "loss": 3.975,
      "step": 254390
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0486912727355957,
      "learning_rate": 0.00013680660789055355,
      "loss": 3.7371,
      "step": 254400
    },
    {
      "epoch": 0.5300208333333334,
      "grad_norm": 0.9270661473274231,
      "learning_rate": 0.0001367967875728579,
      "loss": 3.7557,
      "step": 254410
    },
    {
      "epoch": 0.5300416666666666,
      "grad_norm": 0.9813749194145203,
      "learning_rate": 0.00013678696731219499,
      "loss": 3.8278,
      "step": 254420
    },
    {
      "epoch": 0.5300625,
      "grad_norm": 0.8592456579208374,
      "learning_rate": 0.00013677714710860712,
      "loss": 3.704,
      "step": 254430
    },
    {
      "epoch": 0.5300833333333334,
      "grad_norm": 0.9935144186019897,
      "learning_rate": 0.0001367673269621367,
      "loss": 3.8498,
      "step": 254440
    },
    {
      "epoch": 0.5301041666666667,
      "grad_norm": 1.143987774848938,
      "learning_rate": 0.00013675750687282623,
      "loss": 3.9742,
      "step": 254450
    },
    {
      "epoch": 0.530125,
      "grad_norm": 0.8528958559036255,
      "learning_rate": 0.0001367476868407181,
      "loss": 3.7766,
      "step": 254460
    },
    {
      "epoch": 0.5301458333333333,
      "grad_norm": 0.9434610605239868,
      "learning_rate": 0.00013673786686585465,
      "loss": 3.9611,
      "step": 254470
    },
    {
      "epoch": 0.5301666666666667,
      "grad_norm": 0.9286479949951172,
      "learning_rate": 0.00013672804694827846,
      "loss": 3.8575,
      "step": 254480
    },
    {
      "epoch": 0.5301875,
      "grad_norm": 0.939515233039856,
      "learning_rate": 0.00013671822708803178,
      "loss": 3.8682,
      "step": 254490
    },
    {
      "epoch": 0.5302083333333333,
      "grad_norm": 0.887705385684967,
      "learning_rate": 0.0001367084072851571,
      "loss": 3.6892,
      "step": 254500
    },
    {
      "epoch": 0.5302291666666666,
      "grad_norm": 0.8696260452270508,
      "learning_rate": 0.0001366985875396969,
      "loss": 3.7029,
      "step": 254510
    },
    {
      "epoch": 0.53025,
      "grad_norm": 0.9584187269210815,
      "learning_rate": 0.0001366887678516935,
      "loss": 4.0389,
      "step": 254520
    },
    {
      "epoch": 0.5302708333333334,
      "grad_norm": 0.8739572763442993,
      "learning_rate": 0.00013667894822118933,
      "loss": 3.8555,
      "step": 254530
    },
    {
      "epoch": 0.5302916666666667,
      "grad_norm": 1.0479111671447754,
      "learning_rate": 0.00013666912864822688,
      "loss": 3.839,
      "step": 254540
    },
    {
      "epoch": 0.5303125,
      "grad_norm": 1.0518606901168823,
      "learning_rate": 0.00013665930913284854,
      "loss": 3.932,
      "step": 254550
    },
    {
      "epoch": 0.5303333333333333,
      "grad_norm": 0.8354811668395996,
      "learning_rate": 0.0001366494896750966,
      "loss": 3.79,
      "step": 254560
    },
    {
      "epoch": 0.5303541666666667,
      "grad_norm": 0.8439832925796509,
      "learning_rate": 0.00013663967027501366,
      "loss": 4.1031,
      "step": 254570
    },
    {
      "epoch": 0.530375,
      "grad_norm": 1.1328436136245728,
      "learning_rate": 0.00013662985093264207,
      "loss": 4.0471,
      "step": 254580
    },
    {
      "epoch": 0.5303958333333333,
      "grad_norm": 1.3039112091064453,
      "learning_rate": 0.00013662003164802416,
      "loss": 3.9398,
      "step": 254590
    },
    {
      "epoch": 0.5304166666666666,
      "grad_norm": 0.8466129302978516,
      "learning_rate": 0.00013661021242120246,
      "loss": 3.8983,
      "step": 254600
    },
    {
      "epoch": 0.5304375,
      "grad_norm": 0.8722553849220276,
      "learning_rate": 0.00013660039325221938,
      "loss": 3.7868,
      "step": 254610
    },
    {
      "epoch": 0.5304583333333334,
      "grad_norm": 0.893498420715332,
      "learning_rate": 0.0001365905741411172,
      "loss": 3.8998,
      "step": 254620
    },
    {
      "epoch": 0.5304791666666666,
      "grad_norm": 0.9114503860473633,
      "learning_rate": 0.0001365807550879385,
      "loss": 3.7874,
      "step": 254630
    },
    {
      "epoch": 0.5305,
      "grad_norm": 0.8738489747047424,
      "learning_rate": 0.00013657093609272563,
      "loss": 3.8558,
      "step": 254640
    },
    {
      "epoch": 0.5305208333333333,
      "grad_norm": 1.2512280941009521,
      "learning_rate": 0.00013656111715552096,
      "loss": 3.9618,
      "step": 254650
    },
    {
      "epoch": 0.5305416666666667,
      "grad_norm": 0.7675721049308777,
      "learning_rate": 0.000136551298276367,
      "loss": 3.7709,
      "step": 254660
    },
    {
      "epoch": 0.5305625,
      "grad_norm": 0.8933408260345459,
      "learning_rate": 0.00013654147945530606,
      "loss": 3.9844,
      "step": 254670
    },
    {
      "epoch": 0.5305833333333333,
      "grad_norm": 0.8416816592216492,
      "learning_rate": 0.0001365316606923806,
      "loss": 3.6631,
      "step": 254680
    },
    {
      "epoch": 0.5306041666666667,
      "grad_norm": 0.8747245073318481,
      "learning_rate": 0.0001365218419876331,
      "loss": 3.7377,
      "step": 254690
    },
    {
      "epoch": 0.530625,
      "grad_norm": 0.8638603091239929,
      "learning_rate": 0.00013651202334110583,
      "loss": 4.129,
      "step": 254700
    },
    {
      "epoch": 0.5306458333333334,
      "grad_norm": 0.9848140478134155,
      "learning_rate": 0.00013650220475284132,
      "loss": 3.6532,
      "step": 254710
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 0.9134749174118042,
      "learning_rate": 0.0001364923862228819,
      "loss": 3.6875,
      "step": 254720
    },
    {
      "epoch": 0.5306875,
      "grad_norm": 0.9008755087852478,
      "learning_rate": 0.00013648256775127007,
      "loss": 3.9608,
      "step": 254730
    },
    {
      "epoch": 0.5307083333333333,
      "grad_norm": 0.9513290524482727,
      "learning_rate": 0.0001364727493380482,
      "loss": 3.8741,
      "step": 254740
    },
    {
      "epoch": 0.5307291666666667,
      "grad_norm": 0.9038469791412354,
      "learning_rate": 0.00013646293098325867,
      "loss": 3.8389,
      "step": 254750
    },
    {
      "epoch": 0.53075,
      "grad_norm": 0.8858988285064697,
      "learning_rate": 0.00013645311268694393,
      "loss": 3.8818,
      "step": 254760
    },
    {
      "epoch": 0.5307708333333333,
      "grad_norm": 1.0287495851516724,
      "learning_rate": 0.00013644329444914642,
      "loss": 3.8075,
      "step": 254770
    },
    {
      "epoch": 0.5307916666666667,
      "grad_norm": 0.9499276876449585,
      "learning_rate": 0.00013643347626990843,
      "loss": 3.8836,
      "step": 254780
    },
    {
      "epoch": 0.5308125,
      "grad_norm": 0.8815260529518127,
      "learning_rate": 0.00013642365814927254,
      "loss": 3.8575,
      "step": 254790
    },
    {
      "epoch": 0.5308333333333334,
      "grad_norm": 0.9541625380516052,
      "learning_rate": 0.00013641384008728104,
      "loss": 3.9662,
      "step": 254800
    },
    {
      "epoch": 0.5308541666666666,
      "grad_norm": 0.9677178859710693,
      "learning_rate": 0.00013640402208397632,
      "loss": 3.7112,
      "step": 254810
    },
    {
      "epoch": 0.530875,
      "grad_norm": 1.163019061088562,
      "learning_rate": 0.0001363942041394009,
      "loss": 3.8938,
      "step": 254820
    },
    {
      "epoch": 0.5308958333333333,
      "grad_norm": 1.1237072944641113,
      "learning_rate": 0.00013638438625359711,
      "loss": 4.0387,
      "step": 254830
    },
    {
      "epoch": 0.5309166666666667,
      "grad_norm": 1.3608217239379883,
      "learning_rate": 0.00013637456842660738,
      "loss": 3.9768,
      "step": 254840
    },
    {
      "epoch": 0.5309375,
      "grad_norm": 0.9393973350524902,
      "learning_rate": 0.00013636475065847417,
      "loss": 3.7493,
      "step": 254850
    },
    {
      "epoch": 0.5309583333333333,
      "grad_norm": 0.871550977230072,
      "learning_rate": 0.0001363549329492398,
      "loss": 3.9431,
      "step": 254860
    },
    {
      "epoch": 0.5309791666666667,
      "grad_norm": 0.9706840515136719,
      "learning_rate": 0.0001363451152989467,
      "loss": 3.9127,
      "step": 254870
    },
    {
      "epoch": 0.531,
      "grad_norm": 0.9150060415267944,
      "learning_rate": 0.0001363352977076373,
      "loss": 3.8104,
      "step": 254880
    },
    {
      "epoch": 0.5310208333333334,
      "grad_norm": 1.001038908958435,
      "learning_rate": 0.00013632548017535403,
      "loss": 4.0263,
      "step": 254890
    },
    {
      "epoch": 0.5310416666666666,
      "grad_norm": 1.0157805681228638,
      "learning_rate": 0.00013631566270213926,
      "loss": 3.8127,
      "step": 254900
    },
    {
      "epoch": 0.5310625,
      "grad_norm": 0.8490685820579529,
      "learning_rate": 0.00013630584528803543,
      "loss": 3.8757,
      "step": 254910
    },
    {
      "epoch": 0.5310833333333334,
      "grad_norm": 0.8623796701431274,
      "learning_rate": 0.00013629602793308496,
      "loss": 3.6404,
      "step": 254920
    },
    {
      "epoch": 0.5311041666666667,
      "grad_norm": 0.936397135257721,
      "learning_rate": 0.00013628621063733014,
      "loss": 3.9675,
      "step": 254930
    },
    {
      "epoch": 0.531125,
      "grad_norm": 0.8877748847007751,
      "learning_rate": 0.0001362763934008135,
      "loss": 3.9065,
      "step": 254940
    },
    {
      "epoch": 0.5311458333333333,
      "grad_norm": 1.0072970390319824,
      "learning_rate": 0.00013626657622357744,
      "loss": 3.8722,
      "step": 254950
    },
    {
      "epoch": 0.5311666666666667,
      "grad_norm": 0.9010894894599915,
      "learning_rate": 0.00013625675910566428,
      "loss": 3.7201,
      "step": 254960
    },
    {
      "epoch": 0.5311875,
      "grad_norm": 0.8426964282989502,
      "learning_rate": 0.0001362469420471165,
      "loss": 3.8314,
      "step": 254970
    },
    {
      "epoch": 0.5312083333333333,
      "grad_norm": 0.8349754214286804,
      "learning_rate": 0.00013623712504797652,
      "loss": 4.0601,
      "step": 254980
    },
    {
      "epoch": 0.5312291666666666,
      "grad_norm": 0.9333083033561707,
      "learning_rate": 0.00013622730810828668,
      "loss": 3.9766,
      "step": 254990
    },
    {
      "epoch": 0.53125,
      "grad_norm": 1.1340408325195312,
      "learning_rate": 0.00013621749122808937,
      "loss": 3.8516,
      "step": 255000
    },
    {
      "epoch": 0.53125,
      "eval_loss": 3.60444712638855,
      "eval_runtime": 7.2563,
      "eval_samples_per_second": 1.378,
      "eval_steps_per_second": 0.413,
      "step": 255000
    },
    {
      "epoch": 0.5312708333333334,
      "grad_norm": 0.9222517013549805,
      "learning_rate": 0.00013620767440742713,
      "loss": 3.9587,
      "step": 255010
    },
    {
      "epoch": 0.5312916666666667,
      "grad_norm": 0.8659075498580933,
      "learning_rate": 0.00013619785764634225,
      "loss": 4.005,
      "step": 255020
    },
    {
      "epoch": 0.5313125,
      "grad_norm": 0.9247956275939941,
      "learning_rate": 0.0001361880409448771,
      "loss": 3.8125,
      "step": 255030
    },
    {
      "epoch": 0.5313333333333333,
      "grad_norm": 0.9154089689254761,
      "learning_rate": 0.00013617822430307423,
      "loss": 3.8792,
      "step": 255040
    },
    {
      "epoch": 0.5313541666666667,
      "grad_norm": 0.8563547134399414,
      "learning_rate": 0.00013616840772097597,
      "loss": 3.9887,
      "step": 255050
    },
    {
      "epoch": 0.531375,
      "grad_norm": 0.8827633261680603,
      "learning_rate": 0.00013615859119862464,
      "loss": 3.9751,
      "step": 255060
    },
    {
      "epoch": 0.5313958333333333,
      "grad_norm": 1.022233009338379,
      "learning_rate": 0.00013614877473606274,
      "loss": 3.8515,
      "step": 255070
    },
    {
      "epoch": 0.5314166666666666,
      "grad_norm": 0.9763766527175903,
      "learning_rate": 0.0001361389583333327,
      "loss": 3.9795,
      "step": 255080
    },
    {
      "epoch": 0.5314375,
      "grad_norm": 0.9828794002532959,
      "learning_rate": 0.00013612914199047677,
      "loss": 3.8087,
      "step": 255090
    },
    {
      "epoch": 0.5314583333333334,
      "grad_norm": 0.8394326567649841,
      "learning_rate": 0.00013611932570753755,
      "loss": 3.7177,
      "step": 255100
    },
    {
      "epoch": 0.5314791666666666,
      "grad_norm": 0.9376587271690369,
      "learning_rate": 0.00013610950948455733,
      "loss": 4.0878,
      "step": 255110
    },
    {
      "epoch": 0.5315,
      "grad_norm": 1.1814583539962769,
      "learning_rate": 0.00013609969332157847,
      "loss": 3.9017,
      "step": 255120
    },
    {
      "epoch": 0.5315208333333333,
      "grad_norm": 0.940546989440918,
      "learning_rate": 0.0001360898772186435,
      "loss": 3.9413,
      "step": 255130
    },
    {
      "epoch": 0.5315416666666667,
      "grad_norm": 1.0353453159332275,
      "learning_rate": 0.00013608006117579475,
      "loss": 4.0817,
      "step": 255140
    },
    {
      "epoch": 0.5315625,
      "grad_norm": 0.9428151845932007,
      "learning_rate": 0.00013607024519307457,
      "loss": 4.007,
      "step": 255150
    },
    {
      "epoch": 0.5315833333333333,
      "grad_norm": 0.8522497415542603,
      "learning_rate": 0.0001360604292705255,
      "loss": 3.9747,
      "step": 255160
    },
    {
      "epoch": 0.5316041666666667,
      "grad_norm": 0.9000834226608276,
      "learning_rate": 0.00013605061340818983,
      "loss": 3.8778,
      "step": 255170
    },
    {
      "epoch": 0.531625,
      "grad_norm": 0.931447446346283,
      "learning_rate": 0.0001360407976061099,
      "loss": 3.7278,
      "step": 255180
    },
    {
      "epoch": 0.5316458333333334,
      "grad_norm": 0.9316667318344116,
      "learning_rate": 0.00013603098186432832,
      "loss": 3.7481,
      "step": 255190
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 0.8698282837867737,
      "learning_rate": 0.00013602116618288733,
      "loss": 3.7411,
      "step": 255200
    },
    {
      "epoch": 0.5316875,
      "grad_norm": 0.9365943074226379,
      "learning_rate": 0.00013601135056182933,
      "loss": 3.902,
      "step": 255210
    },
    {
      "epoch": 0.5317083333333333,
      "grad_norm": 0.9071729779243469,
      "learning_rate": 0.00013600153500119681,
      "loss": 3.7663,
      "step": 255220
    },
    {
      "epoch": 0.5317291666666667,
      "grad_norm": 0.9033142924308777,
      "learning_rate": 0.0001359917195010321,
      "loss": 3.8448,
      "step": 255230
    },
    {
      "epoch": 0.53175,
      "grad_norm": 0.880050778388977,
      "learning_rate": 0.00013598190406137757,
      "loss": 3.92,
      "step": 255240
    },
    {
      "epoch": 0.5317708333333333,
      "grad_norm": 0.9102191925048828,
      "learning_rate": 0.00013597208868227576,
      "loss": 3.7276,
      "step": 255250
    },
    {
      "epoch": 0.5317916666666667,
      "grad_norm": 1.1583245992660522,
      "learning_rate": 0.00013596227336376893,
      "loss": 3.9056,
      "step": 255260
    },
    {
      "epoch": 0.5318125,
      "grad_norm": 1.004835844039917,
      "learning_rate": 0.00013595245810589946,
      "loss": 3.6447,
      "step": 255270
    },
    {
      "epoch": 0.5318333333333334,
      "grad_norm": 0.9141085147857666,
      "learning_rate": 0.0001359426429087099,
      "loss": 3.9519,
      "step": 255280
    },
    {
      "epoch": 0.5318541666666666,
      "grad_norm": 0.9054902195930481,
      "learning_rate": 0.00013593282777224258,
      "loss": 3.962,
      "step": 255290
    },
    {
      "epoch": 0.531875,
      "grad_norm": 0.9202297329902649,
      "learning_rate": 0.00013592301269653982,
      "loss": 3.9488,
      "step": 255300
    },
    {
      "epoch": 0.5318958333333333,
      "grad_norm": 0.9036062955856323,
      "learning_rate": 0.00013591319768164404,
      "loss": 3.6867,
      "step": 255310
    },
    {
      "epoch": 0.5319166666666667,
      "grad_norm": 0.9550119042396545,
      "learning_rate": 0.00013590338272759773,
      "loss": 3.9573,
      "step": 255320
    },
    {
      "epoch": 0.5319375,
      "grad_norm": 0.8439940810203552,
      "learning_rate": 0.0001358935678344432,
      "loss": 3.851,
      "step": 255330
    },
    {
      "epoch": 0.5319583333333333,
      "grad_norm": 0.9714778661727905,
      "learning_rate": 0.00013588375300222283,
      "loss": 3.7348,
      "step": 255340
    },
    {
      "epoch": 0.5319791666666667,
      "grad_norm": 0.9151722192764282,
      "learning_rate": 0.00013587393823097913,
      "loss": 3.8653,
      "step": 255350
    },
    {
      "epoch": 0.532,
      "grad_norm": 0.8592261672019958,
      "learning_rate": 0.0001358641235207544,
      "loss": 3.8505,
      "step": 255360
    },
    {
      "epoch": 0.5320208333333334,
      "grad_norm": 0.9723550081253052,
      "learning_rate": 0.00013585430887159104,
      "loss": 3.884,
      "step": 255370
    },
    {
      "epoch": 0.5320416666666666,
      "grad_norm": 0.9831547737121582,
      "learning_rate": 0.0001358444942835315,
      "loss": 4.019,
      "step": 255380
    },
    {
      "epoch": 0.5320625,
      "grad_norm": 0.956781268119812,
      "learning_rate": 0.00013583467975661814,
      "loss": 3.9036,
      "step": 255390
    },
    {
      "epoch": 0.5320833333333334,
      "grad_norm": 0.8906257152557373,
      "learning_rate": 0.0001358248652908933,
      "loss": 3.6494,
      "step": 255400
    },
    {
      "epoch": 0.5321041666666667,
      "grad_norm": 1.018783688545227,
      "learning_rate": 0.00013581505088639952,
      "loss": 3.8874,
      "step": 255410
    },
    {
      "epoch": 0.532125,
      "grad_norm": 0.8779036998748779,
      "learning_rate": 0.00013580523654317908,
      "loss": 3.8694,
      "step": 255420
    },
    {
      "epoch": 0.5321458333333333,
      "grad_norm": 0.9254637360572815,
      "learning_rate": 0.00013579542226127434,
      "loss": 3.7755,
      "step": 255430
    },
    {
      "epoch": 0.5321666666666667,
      "grad_norm": 0.9587932229042053,
      "learning_rate": 0.0001357856080407278,
      "loss": 3.7884,
      "step": 255440
    },
    {
      "epoch": 0.5321875,
      "grad_norm": 1.0654356479644775,
      "learning_rate": 0.00013577579388158182,
      "loss": 3.9566,
      "step": 255450
    },
    {
      "epoch": 0.5322083333333333,
      "grad_norm": 0.8879315257072449,
      "learning_rate": 0.00013576597978387874,
      "loss": 4.1128,
      "step": 255460
    },
    {
      "epoch": 0.5322291666666666,
      "grad_norm": 1.0118917226791382,
      "learning_rate": 0.00013575616574766102,
      "loss": 3.9088,
      "step": 255470
    },
    {
      "epoch": 0.53225,
      "grad_norm": 0.9836174845695496,
      "learning_rate": 0.00013574635177297106,
      "loss": 3.7897,
      "step": 255480
    },
    {
      "epoch": 0.5322708333333334,
      "grad_norm": 0.9511087536811829,
      "learning_rate": 0.00013573653785985113,
      "loss": 3.8136,
      "step": 255490
    },
    {
      "epoch": 0.5322916666666667,
      "grad_norm": 0.9996986389160156,
      "learning_rate": 0.00013572672400834375,
      "loss": 3.9388,
      "step": 255500
    },
    {
      "epoch": 0.5323125,
      "grad_norm": 0.9158141613006592,
      "learning_rate": 0.00013571691021849132,
      "loss": 3.7978,
      "step": 255510
    },
    {
      "epoch": 0.5323333333333333,
      "grad_norm": 1.5034654140472412,
      "learning_rate": 0.00013570709649033611,
      "loss": 3.8036,
      "step": 255520
    },
    {
      "epoch": 0.5323541666666667,
      "grad_norm": 0.9996752738952637,
      "learning_rate": 0.00013569728282392064,
      "loss": 4.0291,
      "step": 255530
    },
    {
      "epoch": 0.532375,
      "grad_norm": 0.9283825755119324,
      "learning_rate": 0.00013568746921928723,
      "loss": 3.9078,
      "step": 255540
    },
    {
      "epoch": 0.5323958333333333,
      "grad_norm": 0.9611038565635681,
      "learning_rate": 0.00013567765567647826,
      "loss": 3.8964,
      "step": 255550
    },
    {
      "epoch": 0.5324166666666666,
      "grad_norm": 1.6828476190567017,
      "learning_rate": 0.0001356678421955362,
      "loss": 3.7286,
      "step": 255560
    },
    {
      "epoch": 0.5324375,
      "grad_norm": 0.8489314913749695,
      "learning_rate": 0.00013565802877650338,
      "loss": 3.9161,
      "step": 255570
    },
    {
      "epoch": 0.5324583333333334,
      "grad_norm": 0.9807905554771423,
      "learning_rate": 0.0001356482154194222,
      "loss": 3.6478,
      "step": 255580
    },
    {
      "epoch": 0.5324791666666666,
      "grad_norm": 1.009191632270813,
      "learning_rate": 0.000135638402124335,
      "loss": 3.7356,
      "step": 255590
    },
    {
      "epoch": 0.5325,
      "grad_norm": 0.9267531037330627,
      "learning_rate": 0.00013562858889128426,
      "loss": 3.572,
      "step": 255600
    },
    {
      "epoch": 0.5325208333333333,
      "grad_norm": 0.887227475643158,
      "learning_rate": 0.00013561877572031234,
      "loss": 3.994,
      "step": 255610
    },
    {
      "epoch": 0.5325416666666667,
      "grad_norm": 0.85539710521698,
      "learning_rate": 0.00013560896261146152,
      "loss": 3.9249,
      "step": 255620
    },
    {
      "epoch": 0.5325625,
      "grad_norm": 0.9284363389015198,
      "learning_rate": 0.00013559914956477438,
      "loss": 3.7375,
      "step": 255630
    },
    {
      "epoch": 0.5325833333333333,
      "grad_norm": 1.0248743295669556,
      "learning_rate": 0.0001355893365802932,
      "loss": 3.9635,
      "step": 255640
    },
    {
      "epoch": 0.5326041666666667,
      "grad_norm": 0.9414701461791992,
      "learning_rate": 0.00013557952365806034,
      "loss": 3.864,
      "step": 255650
    },
    {
      "epoch": 0.532625,
      "grad_norm": 1.053109884262085,
      "learning_rate": 0.00013556971079811832,
      "loss": 3.667,
      "step": 255660
    },
    {
      "epoch": 0.5326458333333334,
      "grad_norm": 0.9080381989479065,
      "learning_rate": 0.00013555989800050937,
      "loss": 3.5588,
      "step": 255670
    },
    {
      "epoch": 0.5326666666666666,
      "grad_norm": 0.9124091863632202,
      "learning_rate": 0.00013555008526527592,
      "loss": 3.7,
      "step": 255680
    },
    {
      "epoch": 0.5326875,
      "grad_norm": 0.968008816242218,
      "learning_rate": 0.00013554027259246045,
      "loss": 3.9201,
      "step": 255690
    },
    {
      "epoch": 0.5327083333333333,
      "grad_norm": 0.8336498141288757,
      "learning_rate": 0.00013553045998210525,
      "loss": 3.6915,
      "step": 255700
    },
    {
      "epoch": 0.5327291666666667,
      "grad_norm": 0.9803795218467712,
      "learning_rate": 0.0001355206474342527,
      "loss": 3.8084,
      "step": 255710
    },
    {
      "epoch": 0.53275,
      "grad_norm": 0.9497128129005432,
      "learning_rate": 0.00013551083494894528,
      "loss": 3.9216,
      "step": 255720
    },
    {
      "epoch": 0.5327708333333333,
      "grad_norm": 1.0544264316558838,
      "learning_rate": 0.00013550102252622527,
      "loss": 3.8422,
      "step": 255730
    },
    {
      "epoch": 0.5327916666666667,
      "grad_norm": 1.0047295093536377,
      "learning_rate": 0.0001354912101661351,
      "loss": 4.0544,
      "step": 255740
    },
    {
      "epoch": 0.5328125,
      "grad_norm": 0.897596001625061,
      "learning_rate": 0.0001354813978687172,
      "loss": 3.8245,
      "step": 255750
    },
    {
      "epoch": 0.5328333333333334,
      "grad_norm": 1.026347279548645,
      "learning_rate": 0.0001354715856340139,
      "loss": 3.7228,
      "step": 255760
    },
    {
      "epoch": 0.5328541666666666,
      "grad_norm": 0.8293889164924622,
      "learning_rate": 0.00013546177346206758,
      "loss": 3.6038,
      "step": 255770
    },
    {
      "epoch": 0.532875,
      "grad_norm": 0.8854491710662842,
      "learning_rate": 0.0001354519613529207,
      "loss": 3.922,
      "step": 255780
    },
    {
      "epoch": 0.5328958333333333,
      "grad_norm": 1.0379945039749146,
      "learning_rate": 0.00013544214930661557,
      "loss": 3.9043,
      "step": 255790
    },
    {
      "epoch": 0.5329166666666667,
      "grad_norm": 0.9965122938156128,
      "learning_rate": 0.00013543233732319452,
      "loss": 3.7647,
      "step": 255800
    },
    {
      "epoch": 0.5329375,
      "grad_norm": 1.161093831062317,
      "learning_rate": 0.00013542252540270008,
      "loss": 3.8851,
      "step": 255810
    },
    {
      "epoch": 0.5329583333333333,
      "grad_norm": 0.9640359878540039,
      "learning_rate": 0.00013541271354517456,
      "loss": 3.8212,
      "step": 255820
    },
    {
      "epoch": 0.5329791666666667,
      "grad_norm": 1.0206469297409058,
      "learning_rate": 0.0001354029017506603,
      "loss": 3.8217,
      "step": 255830
    },
    {
      "epoch": 0.533,
      "grad_norm": 0.949291467666626,
      "learning_rate": 0.00013539309001919973,
      "loss": 3.6858,
      "step": 255840
    },
    {
      "epoch": 0.5330208333333334,
      "grad_norm": 0.9403793811798096,
      "learning_rate": 0.0001353832783508353,
      "loss": 3.7964,
      "step": 255850
    },
    {
      "epoch": 0.5330416666666666,
      "grad_norm": 0.9018815755844116,
      "learning_rate": 0.00013537346674560922,
      "loss": 3.7491,
      "step": 255860
    },
    {
      "epoch": 0.5330625,
      "grad_norm": 0.8806132674217224,
      "learning_rate": 0.00013536365520356404,
      "loss": 3.921,
      "step": 255870
    },
    {
      "epoch": 0.5330833333333334,
      "grad_norm": 0.9213113784790039,
      "learning_rate": 0.00013535384372474207,
      "loss": 3.9034,
      "step": 255880
    },
    {
      "epoch": 0.5331041666666667,
      "grad_norm": 0.8315520286560059,
      "learning_rate": 0.00013534403230918568,
      "loss": 3.8364,
      "step": 255890
    },
    {
      "epoch": 0.533125,
      "grad_norm": 0.8606881499290466,
      "learning_rate": 0.00013533422095693724,
      "loss": 3.803,
      "step": 255900
    },
    {
      "epoch": 0.5331458333333333,
      "grad_norm": 0.9776449203491211,
      "learning_rate": 0.00013532440966803925,
      "loss": 3.9664,
      "step": 255910
    },
    {
      "epoch": 0.5331666666666667,
      "grad_norm": 0.9299488067626953,
      "learning_rate": 0.00013531459844253396,
      "loss": 3.977,
      "step": 255920
    },
    {
      "epoch": 0.5331875,
      "grad_norm": 0.9117326736450195,
      "learning_rate": 0.00013530478728046377,
      "loss": 3.6724,
      "step": 255930
    },
    {
      "epoch": 0.5332083333333333,
      "grad_norm": 0.9822997450828552,
      "learning_rate": 0.00013529497618187106,
      "loss": 3.917,
      "step": 255940
    },
    {
      "epoch": 0.5332291666666666,
      "grad_norm": 1.055915117263794,
      "learning_rate": 0.00013528516514679833,
      "loss": 3.922,
      "step": 255950
    },
    {
      "epoch": 0.53325,
      "grad_norm": 1.0932393074035645,
      "learning_rate": 0.00013527535417528775,
      "loss": 3.6817,
      "step": 255960
    },
    {
      "epoch": 0.5332708333333334,
      "grad_norm": 1.020828366279602,
      "learning_rate": 0.00013526554326738185,
      "loss": 3.7891,
      "step": 255970
    },
    {
      "epoch": 0.5332916666666667,
      "grad_norm": 0.9012844562530518,
      "learning_rate": 0.000135255732423123,
      "loss": 3.8003,
      "step": 255980
    },
    {
      "epoch": 0.5333125,
      "grad_norm": 0.9968885779380798,
      "learning_rate": 0.0001352459216425535,
      "loss": 3.9629,
      "step": 255990
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 1.0034985542297363,
      "learning_rate": 0.0001352361109257158,
      "loss": 3.8573,
      "step": 256000
    },
    {
      "epoch": 0.5333333333333333,
      "eval_loss": 3.609450101852417,
      "eval_runtime": 7.299,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 256000
    },
    {
      "epoch": 0.5333541666666667,
      "grad_norm": 0.9534093141555786,
      "learning_rate": 0.0001352263002726523,
      "loss": 3.9178,
      "step": 256010
    },
    {
      "epoch": 0.533375,
      "grad_norm": 0.9344084858894348,
      "learning_rate": 0.00013521648968340528,
      "loss": 3.8736,
      "step": 256020
    },
    {
      "epoch": 0.5333958333333333,
      "grad_norm": 0.8818180561065674,
      "learning_rate": 0.00013520667915801717,
      "loss": 3.7767,
      "step": 256030
    },
    {
      "epoch": 0.5334166666666667,
      "grad_norm": 0.8527091145515442,
      "learning_rate": 0.0001351968686965304,
      "loss": 3.9282,
      "step": 256040
    },
    {
      "epoch": 0.5334375,
      "grad_norm": 1.088952898979187,
      "learning_rate": 0.00013518705829898724,
      "loss": 3.8973,
      "step": 256050
    },
    {
      "epoch": 0.5334583333333334,
      "grad_norm": 0.9295517206192017,
      "learning_rate": 0.0001351772479654302,
      "loss": 3.8778,
      "step": 256060
    },
    {
      "epoch": 0.5334791666666666,
      "grad_norm": 0.928480863571167,
      "learning_rate": 0.00013516743769590152,
      "loss": 3.9788,
      "step": 256070
    },
    {
      "epoch": 0.5335,
      "grad_norm": 1.0837984085083008,
      "learning_rate": 0.00013515762749044362,
      "loss": 4.0476,
      "step": 256080
    },
    {
      "epoch": 0.5335208333333333,
      "grad_norm": 0.8635239601135254,
      "learning_rate": 0.00013514781734909895,
      "loss": 3.799,
      "step": 256090
    },
    {
      "epoch": 0.5335416666666667,
      "grad_norm": 0.9689274430274963,
      "learning_rate": 0.00013513800727190983,
      "loss": 3.7721,
      "step": 256100
    },
    {
      "epoch": 0.5335625,
      "grad_norm": 1.2213695049285889,
      "learning_rate": 0.00013512819725891857,
      "loss": 3.8973,
      "step": 256110
    },
    {
      "epoch": 0.5335833333333333,
      "grad_norm": 0.8495466113090515,
      "learning_rate": 0.00013511838731016768,
      "loss": 3.8519,
      "step": 256120
    },
    {
      "epoch": 0.5336041666666667,
      "grad_norm": 0.8940811157226562,
      "learning_rate": 0.00013510857742569943,
      "loss": 3.6181,
      "step": 256130
    },
    {
      "epoch": 0.533625,
      "grad_norm": 1.017850637435913,
      "learning_rate": 0.0001350987676055562,
      "loss": 3.8804,
      "step": 256140
    },
    {
      "epoch": 0.5336458333333334,
      "grad_norm": 1.124232292175293,
      "learning_rate": 0.00013508895784978048,
      "loss": 3.7954,
      "step": 256150
    },
    {
      "epoch": 0.5336666666666666,
      "grad_norm": 0.9043330550193787,
      "learning_rate": 0.00013507914815841457,
      "loss": 3.8383,
      "step": 256160
    },
    {
      "epoch": 0.5336875,
      "grad_norm": 0.9575566649436951,
      "learning_rate": 0.00013506933853150077,
      "loss": 4.0347,
      "step": 256170
    },
    {
      "epoch": 0.5337083333333333,
      "grad_norm": 0.8827505707740784,
      "learning_rate": 0.0001350595289690815,
      "loss": 3.7814,
      "step": 256180
    },
    {
      "epoch": 0.5337291666666667,
      "grad_norm": 0.9355318546295166,
      "learning_rate": 0.0001350497194711992,
      "loss": 3.7437,
      "step": 256190
    },
    {
      "epoch": 0.53375,
      "grad_norm": 1.066953182220459,
      "learning_rate": 0.0001350399100378962,
      "loss": 3.8365,
      "step": 256200
    },
    {
      "epoch": 0.5337708333333333,
      "grad_norm": 0.9787619113922119,
      "learning_rate": 0.00013503010066921479,
      "loss": 4.0287,
      "step": 256210
    },
    {
      "epoch": 0.5337916666666667,
      "grad_norm": 0.8797011971473694,
      "learning_rate": 0.0001350202913651975,
      "loss": 3.74,
      "step": 256220
    },
    {
      "epoch": 0.5338125,
      "grad_norm": 0.9851085543632507,
      "learning_rate": 0.0001350104821258866,
      "loss": 3.7656,
      "step": 256230
    },
    {
      "epoch": 0.5338333333333334,
      "grad_norm": 1.1898006200790405,
      "learning_rate": 0.00013500067295132444,
      "loss": 3.8672,
      "step": 256240
    },
    {
      "epoch": 0.5338541666666666,
      "grad_norm": 0.944614052772522,
      "learning_rate": 0.0001349908638415535,
      "loss": 3.7621,
      "step": 256250
    },
    {
      "epoch": 0.533875,
      "grad_norm": 0.9585326313972473,
      "learning_rate": 0.00013498105479661606,
      "loss": 3.7675,
      "step": 256260
    },
    {
      "epoch": 0.5338958333333333,
      "grad_norm": 0.9427158832550049,
      "learning_rate": 0.00013497124581655448,
      "loss": 3.9593,
      "step": 256270
    },
    {
      "epoch": 0.5339166666666667,
      "grad_norm": 1.1147202253341675,
      "learning_rate": 0.00013496143690141125,
      "loss": 3.8527,
      "step": 256280
    },
    {
      "epoch": 0.5339375,
      "grad_norm": 1.725514531135559,
      "learning_rate": 0.00013495162805122863,
      "loss": 3.7921,
      "step": 256290
    },
    {
      "epoch": 0.5339583333333333,
      "grad_norm": 0.992328941822052,
      "learning_rate": 0.00013494181926604898,
      "loss": 3.7483,
      "step": 256300
    },
    {
      "epoch": 0.5339791666666667,
      "grad_norm": 0.9082444310188293,
      "learning_rate": 0.00013493201054591474,
      "loss": 3.9121,
      "step": 256310
    },
    {
      "epoch": 0.534,
      "grad_norm": 0.9132208824157715,
      "learning_rate": 0.00013492220189086827,
      "loss": 3.7987,
      "step": 256320
    },
    {
      "epoch": 0.5340208333333333,
      "grad_norm": 0.9495052695274353,
      "learning_rate": 0.00013491239330095186,
      "loss": 3.8213,
      "step": 256330
    },
    {
      "epoch": 0.5340416666666666,
      "grad_norm": 0.9410731792449951,
      "learning_rate": 0.00013490258477620798,
      "loss": 3.8613,
      "step": 256340
    },
    {
      "epoch": 0.5340625,
      "grad_norm": 0.8683664798736572,
      "learning_rate": 0.000134892776316679,
      "loss": 4.055,
      "step": 256350
    },
    {
      "epoch": 0.5340833333333334,
      "grad_norm": 0.9850749969482422,
      "learning_rate": 0.00013488296792240717,
      "loss": 3.9695,
      "step": 256360
    },
    {
      "epoch": 0.5341041666666667,
      "grad_norm": 0.9619535803794861,
      "learning_rate": 0.00013487315959343497,
      "loss": 3.808,
      "step": 256370
    },
    {
      "epoch": 0.534125,
      "grad_norm": 0.9173670411109924,
      "learning_rate": 0.00013486335132980475,
      "loss": 3.8907,
      "step": 256380
    },
    {
      "epoch": 0.5341458333333333,
      "grad_norm": 1.796784520149231,
      "learning_rate": 0.00013485354313155882,
      "loss": 3.8201,
      "step": 256390
    },
    {
      "epoch": 0.5341666666666667,
      "grad_norm": 1.1654528379440308,
      "learning_rate": 0.00013484373499873957,
      "loss": 3.9102,
      "step": 256400
    },
    {
      "epoch": 0.5341875,
      "grad_norm": 0.9840487837791443,
      "learning_rate": 0.00013483392693138947,
      "loss": 3.9989,
      "step": 256410
    },
    {
      "epoch": 0.5342083333333333,
      "grad_norm": 0.9043827652931213,
      "learning_rate": 0.00013482411892955072,
      "loss": 3.6293,
      "step": 256420
    },
    {
      "epoch": 0.5342291666666666,
      "grad_norm": 0.8988913893699646,
      "learning_rate": 0.00013481431099326584,
      "loss": 3.9565,
      "step": 256430
    },
    {
      "epoch": 0.53425,
      "grad_norm": 0.9385773539543152,
      "learning_rate": 0.00013480450312257708,
      "loss": 3.9158,
      "step": 256440
    },
    {
      "epoch": 0.5342708333333334,
      "grad_norm": 1.029311180114746,
      "learning_rate": 0.00013479469531752685,
      "loss": 3.9573,
      "step": 256450
    },
    {
      "epoch": 0.5342916666666667,
      "grad_norm": 0.9639715552330017,
      "learning_rate": 0.00013478488757815755,
      "loss": 3.9351,
      "step": 256460
    },
    {
      "epoch": 0.5343125,
      "grad_norm": 1.0067819356918335,
      "learning_rate": 0.00013477507990451148,
      "loss": 3.9741,
      "step": 256470
    },
    {
      "epoch": 0.5343333333333333,
      "grad_norm": 0.9647928476333618,
      "learning_rate": 0.00013476527229663109,
      "loss": 4.1004,
      "step": 256480
    },
    {
      "epoch": 0.5343541666666667,
      "grad_norm": 0.9314613342285156,
      "learning_rate": 0.00013475546475455862,
      "loss": 4.0482,
      "step": 256490
    },
    {
      "epoch": 0.534375,
      "grad_norm": 1.045297384262085,
      "learning_rate": 0.00013474565727833655,
      "loss": 3.691,
      "step": 256500
    },
    {
      "epoch": 0.5343958333333333,
      "grad_norm": 0.942916214466095,
      "learning_rate": 0.00013473584986800722,
      "loss": 3.8128,
      "step": 256510
    },
    {
      "epoch": 0.5344166666666667,
      "grad_norm": 1.0527043342590332,
      "learning_rate": 0.00013472604252361294,
      "loss": 3.9732,
      "step": 256520
    },
    {
      "epoch": 0.5344375,
      "grad_norm": 0.9133153557777405,
      "learning_rate": 0.0001347162352451961,
      "loss": 4.0004,
      "step": 256530
    },
    {
      "epoch": 0.5344583333333334,
      "grad_norm": 0.9127921462059021,
      "learning_rate": 0.00013470642803279913,
      "loss": 3.7867,
      "step": 256540
    },
    {
      "epoch": 0.5344791666666666,
      "grad_norm": 1.798330545425415,
      "learning_rate": 0.00013469662088646427,
      "loss": 3.8769,
      "step": 256550
    },
    {
      "epoch": 0.5345,
      "grad_norm": 0.9450384974479675,
      "learning_rate": 0.000134686813806234,
      "loss": 3.7924,
      "step": 256560
    },
    {
      "epoch": 0.5345208333333333,
      "grad_norm": 1.0001765489578247,
      "learning_rate": 0.00013467700679215062,
      "loss": 3.9107,
      "step": 256570
    },
    {
      "epoch": 0.5345416666666667,
      "grad_norm": 0.8715275526046753,
      "learning_rate": 0.00013466719984425648,
      "loss": 3.8885,
      "step": 256580
    },
    {
      "epoch": 0.5345625,
      "grad_norm": 0.9681980013847351,
      "learning_rate": 0.00013465739296259402,
      "loss": 3.8142,
      "step": 256590
    },
    {
      "epoch": 0.5345833333333333,
      "grad_norm": 0.9662743806838989,
      "learning_rate": 0.0001346475861472055,
      "loss": 3.8382,
      "step": 256600
    },
    {
      "epoch": 0.5346041666666667,
      "grad_norm": 1.1745244264602661,
      "learning_rate": 0.00013463777939813333,
      "loss": 4.0099,
      "step": 256610
    },
    {
      "epoch": 0.534625,
      "grad_norm": 1.173040747642517,
      "learning_rate": 0.0001346279727154199,
      "loss": 3.8611,
      "step": 256620
    },
    {
      "epoch": 0.5346458333333334,
      "grad_norm": 1.0384114980697632,
      "learning_rate": 0.00013461816609910756,
      "loss": 3.854,
      "step": 256630
    },
    {
      "epoch": 0.5346666666666666,
      "grad_norm": 0.9192840456962585,
      "learning_rate": 0.0001346083595492386,
      "loss": 3.8402,
      "step": 256640
    },
    {
      "epoch": 0.5346875,
      "grad_norm": 0.835904061794281,
      "learning_rate": 0.0001345985530658555,
      "loss": 3.9564,
      "step": 256650
    },
    {
      "epoch": 0.5347083333333333,
      "grad_norm": 0.9283321499824524,
      "learning_rate": 0.00013458874664900054,
      "loss": 4.1026,
      "step": 256660
    },
    {
      "epoch": 0.5347291666666667,
      "grad_norm": 0.8793754577636719,
      "learning_rate": 0.00013457894029871606,
      "loss": 3.7958,
      "step": 256670
    },
    {
      "epoch": 0.53475,
      "grad_norm": 0.9754443168640137,
      "learning_rate": 0.00013456913401504444,
      "loss": 3.9151,
      "step": 256680
    },
    {
      "epoch": 0.5347708333333333,
      "grad_norm": 0.8403199911117554,
      "learning_rate": 0.0001345593277980281,
      "loss": 3.9196,
      "step": 256690
    },
    {
      "epoch": 0.5347916666666667,
      "grad_norm": 0.8763456344604492,
      "learning_rate": 0.00013454952164770932,
      "loss": 3.8542,
      "step": 256700
    },
    {
      "epoch": 0.5348125,
      "grad_norm": 0.9707031846046448,
      "learning_rate": 0.0001345397155641305,
      "loss": 3.9471,
      "step": 256710
    },
    {
      "epoch": 0.5348333333333334,
      "grad_norm": 0.8603130578994751,
      "learning_rate": 0.00013452990954733403,
      "loss": 3.9857,
      "step": 256720
    },
    {
      "epoch": 0.5348541666666666,
      "grad_norm": 0.9403669238090515,
      "learning_rate": 0.00013452010359736214,
      "loss": 3.7064,
      "step": 256730
    },
    {
      "epoch": 0.534875,
      "grad_norm": 0.9157772660255432,
      "learning_rate": 0.00013451029771425734,
      "loss": 3.9188,
      "step": 256740
    },
    {
      "epoch": 0.5348958333333333,
      "grad_norm": 0.9036005139350891,
      "learning_rate": 0.00013450049189806193,
      "loss": 3.8716,
      "step": 256750
    },
    {
      "epoch": 0.5349166666666667,
      "grad_norm": 1.0004255771636963,
      "learning_rate": 0.00013449068614881823,
      "loss": 3.8365,
      "step": 256760
    },
    {
      "epoch": 0.5349375,
      "grad_norm": 0.9119175672531128,
      "learning_rate": 0.0001344808804665686,
      "loss": 3.8096,
      "step": 256770
    },
    {
      "epoch": 0.5349583333333333,
      "grad_norm": 0.9213380813598633,
      "learning_rate": 0.0001344710748513555,
      "loss": 3.6961,
      "step": 256780
    },
    {
      "epoch": 0.5349791666666667,
      "grad_norm": 0.967290997505188,
      "learning_rate": 0.0001344612693032212,
      "loss": 3.7095,
      "step": 256790
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.8946132659912109,
      "learning_rate": 0.000134451463822208,
      "loss": 3.8818,
      "step": 256800
    },
    {
      "epoch": 0.5350208333333333,
      "grad_norm": 0.9062232375144958,
      "learning_rate": 0.00013444165840835833,
      "loss": 3.7389,
      "step": 256810
    },
    {
      "epoch": 0.5350416666666666,
      "grad_norm": 0.922905445098877,
      "learning_rate": 0.0001344318530617146,
      "loss": 3.9365,
      "step": 256820
    },
    {
      "epoch": 0.5350625,
      "grad_norm": 1.0045164823532104,
      "learning_rate": 0.00013442204778231902,
      "loss": 3.9119,
      "step": 256830
    },
    {
      "epoch": 0.5350833333333334,
      "grad_norm": 0.970012366771698,
      "learning_rate": 0.00013441224257021406,
      "loss": 3.7443,
      "step": 256840
    },
    {
      "epoch": 0.5351041666666667,
      "grad_norm": 0.8691420555114746,
      "learning_rate": 0.0001344024374254421,
      "loss": 3.9578,
      "step": 256850
    },
    {
      "epoch": 0.535125,
      "grad_norm": 1.0486409664154053,
      "learning_rate": 0.00013439263234804534,
      "loss": 3.6387,
      "step": 256860
    },
    {
      "epoch": 0.5351458333333333,
      "grad_norm": 1.138513207435608,
      "learning_rate": 0.0001343828273380663,
      "loss": 3.9614,
      "step": 256870
    },
    {
      "epoch": 0.5351666666666667,
      "grad_norm": 1.0044533014297485,
      "learning_rate": 0.00013437302239554727,
      "loss": 4.0312,
      "step": 256880
    },
    {
      "epoch": 0.5351875,
      "grad_norm": 1.0666215419769287,
      "learning_rate": 0.00013436321752053053,
      "loss": 3.673,
      "step": 256890
    },
    {
      "epoch": 0.5352083333333333,
      "grad_norm": 0.8872687220573425,
      "learning_rate": 0.00013435341271305853,
      "loss": 3.9189,
      "step": 256900
    },
    {
      "epoch": 0.5352291666666666,
      "grad_norm": 1.034122347831726,
      "learning_rate": 0.00013434360797317366,
      "loss": 3.7737,
      "step": 256910
    },
    {
      "epoch": 0.53525,
      "grad_norm": 0.9718239903450012,
      "learning_rate": 0.00013433380330091812,
      "loss": 3.7563,
      "step": 256920
    },
    {
      "epoch": 0.5352708333333334,
      "grad_norm": 0.9465115666389465,
      "learning_rate": 0.00013432399869633442,
      "loss": 3.6892,
      "step": 256930
    },
    {
      "epoch": 0.5352916666666667,
      "grad_norm": 0.9924498796463013,
      "learning_rate": 0.00013431419415946478,
      "loss": 4.0738,
      "step": 256940
    },
    {
      "epoch": 0.5353125,
      "grad_norm": 0.9157360196113586,
      "learning_rate": 0.00013430438969035162,
      "loss": 3.9838,
      "step": 256950
    },
    {
      "epoch": 0.5353333333333333,
      "grad_norm": 0.9344377517700195,
      "learning_rate": 0.00013429458528903731,
      "loss": 3.7482,
      "step": 256960
    },
    {
      "epoch": 0.5353541666666667,
      "grad_norm": 0.9038568735122681,
      "learning_rate": 0.00013428478095556416,
      "loss": 3.8558,
      "step": 256970
    },
    {
      "epoch": 0.535375,
      "grad_norm": 1.0101715326309204,
      "learning_rate": 0.0001342749766899745,
      "loss": 3.8948,
      "step": 256980
    },
    {
      "epoch": 0.5353958333333333,
      "grad_norm": 0.9695590734481812,
      "learning_rate": 0.0001342651724923108,
      "loss": 3.7787,
      "step": 256990
    },
    {
      "epoch": 0.5354166666666667,
      "grad_norm": 0.9468725919723511,
      "learning_rate": 0.0001342553683626153,
      "loss": 3.8657,
      "step": 257000
    },
    {
      "epoch": 0.5354166666666667,
      "eval_loss": 3.6038753986358643,
      "eval_runtime": 7.2213,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.415,
      "step": 257000
    },
    {
      "epoch": 0.5354375,
      "grad_norm": 1.1532981395721436,
      "learning_rate": 0.0001342455643009303,
      "loss": 3.9036,
      "step": 257010
    },
    {
      "epoch": 0.5354583333333334,
      "grad_norm": 0.9800608158111572,
      "learning_rate": 0.00013423576030729834,
      "loss": 3.7199,
      "step": 257020
    },
    {
      "epoch": 0.5354791666666666,
      "grad_norm": 1.198864221572876,
      "learning_rate": 0.00013422595638176157,
      "loss": 3.7918,
      "step": 257030
    },
    {
      "epoch": 0.5355,
      "grad_norm": 1.147574543952942,
      "learning_rate": 0.00013421615252436243,
      "loss": 3.8996,
      "step": 257040
    },
    {
      "epoch": 0.5355208333333333,
      "grad_norm": 0.9972326159477234,
      "learning_rate": 0.00013420634873514332,
      "loss": 3.8902,
      "step": 257050
    },
    {
      "epoch": 0.5355416666666667,
      "grad_norm": 1.0639185905456543,
      "learning_rate": 0.00013419654501414653,
      "loss": 3.9304,
      "step": 257060
    },
    {
      "epoch": 0.5355625,
      "grad_norm": 0.9715379476547241,
      "learning_rate": 0.00013418674136141438,
      "loss": 3.7581,
      "step": 257070
    },
    {
      "epoch": 0.5355833333333333,
      "grad_norm": 1.0226877927780151,
      "learning_rate": 0.0001341769377769892,
      "loss": 3.9986,
      "step": 257080
    },
    {
      "epoch": 0.5356041666666667,
      "grad_norm": 1.017776608467102,
      "learning_rate": 0.00013416713426091348,
      "loss": 3.8869,
      "step": 257090
    },
    {
      "epoch": 0.535625,
      "grad_norm": 0.9420563578605652,
      "learning_rate": 0.0001341573308132294,
      "loss": 3.9097,
      "step": 257100
    },
    {
      "epoch": 0.5356458333333334,
      "grad_norm": 0.8621887564659119,
      "learning_rate": 0.0001341475274339794,
      "loss": 3.8268,
      "step": 257110
    },
    {
      "epoch": 0.5356666666666666,
      "grad_norm": 0.8911246657371521,
      "learning_rate": 0.00013413772412320584,
      "loss": 3.6008,
      "step": 257120
    },
    {
      "epoch": 0.5356875,
      "grad_norm": 0.9238279461860657,
      "learning_rate": 0.000134127920880951,
      "loss": 3.6837,
      "step": 257130
    },
    {
      "epoch": 0.5357083333333333,
      "grad_norm": 1.0160093307495117,
      "learning_rate": 0.00013411811770725724,
      "loss": 4.0434,
      "step": 257140
    },
    {
      "epoch": 0.5357291666666667,
      "grad_norm": 0.9879447221755981,
      "learning_rate": 0.000134108314602167,
      "loss": 3.7805,
      "step": 257150
    },
    {
      "epoch": 0.53575,
      "grad_norm": 0.8812116980552673,
      "learning_rate": 0.0001340985115657225,
      "loss": 3.9223,
      "step": 257160
    },
    {
      "epoch": 0.5357708333333333,
      "grad_norm": 0.8870238661766052,
      "learning_rate": 0.00013408870859796612,
      "loss": 3.7792,
      "step": 257170
    },
    {
      "epoch": 0.5357916666666667,
      "grad_norm": 0.944365918636322,
      "learning_rate": 0.00013407890569894023,
      "loss": 3.9056,
      "step": 257180
    },
    {
      "epoch": 0.5358125,
      "grad_norm": 0.9216127395629883,
      "learning_rate": 0.0001340691028686872,
      "loss": 3.8243,
      "step": 257190
    },
    {
      "epoch": 0.5358333333333334,
      "grad_norm": 0.9523179531097412,
      "learning_rate": 0.00013405930010724928,
      "loss": 3.912,
      "step": 257200
    },
    {
      "epoch": 0.5358541666666666,
      "grad_norm": 0.8267309665679932,
      "learning_rate": 0.0001340494974146689,
      "loss": 3.7532,
      "step": 257210
    },
    {
      "epoch": 0.535875,
      "grad_norm": 0.8797765374183655,
      "learning_rate": 0.00013403969479098844,
      "loss": 3.6508,
      "step": 257220
    },
    {
      "epoch": 0.5358958333333333,
      "grad_norm": 0.9127385020256042,
      "learning_rate": 0.00013402989223625008,
      "loss": 3.7922,
      "step": 257230
    },
    {
      "epoch": 0.5359166666666667,
      "grad_norm": 0.987192690372467,
      "learning_rate": 0.0001340200897504963,
      "loss": 3.9638,
      "step": 257240
    },
    {
      "epoch": 0.5359375,
      "grad_norm": 0.954778254032135,
      "learning_rate": 0.00013401028733376946,
      "loss": 3.6525,
      "step": 257250
    },
    {
      "epoch": 0.5359583333333333,
      "grad_norm": 1.1237351894378662,
      "learning_rate": 0.00013400048498611177,
      "loss": 3.9166,
      "step": 257260
    },
    {
      "epoch": 0.5359791666666667,
      "grad_norm": 0.9129208922386169,
      "learning_rate": 0.00013399068270756567,
      "loss": 3.8368,
      "step": 257270
    },
    {
      "epoch": 0.536,
      "grad_norm": 0.9127063155174255,
      "learning_rate": 0.00013398088049817355,
      "loss": 3.9092,
      "step": 257280
    },
    {
      "epoch": 0.5360208333333333,
      "grad_norm": 0.9098970890045166,
      "learning_rate": 0.0001339710783579776,
      "loss": 3.73,
      "step": 257290
    },
    {
      "epoch": 0.5360416666666666,
      "grad_norm": 0.9355001449584961,
      "learning_rate": 0.00013396127628702032,
      "loss": 3.8148,
      "step": 257300
    },
    {
      "epoch": 0.5360625,
      "grad_norm": 0.9107893109321594,
      "learning_rate": 0.00013395147428534393,
      "loss": 3.9539,
      "step": 257310
    },
    {
      "epoch": 0.5360833333333334,
      "grad_norm": 0.8817430734634399,
      "learning_rate": 0.0001339416723529908,
      "loss": 3.8155,
      "step": 257320
    },
    {
      "epoch": 0.5361041666666667,
      "grad_norm": 0.918995201587677,
      "learning_rate": 0.00013393187049000335,
      "loss": 3.8404,
      "step": 257330
    },
    {
      "epoch": 0.536125,
      "grad_norm": 0.9241342544555664,
      "learning_rate": 0.00013392206869642382,
      "loss": 3.801,
      "step": 257340
    },
    {
      "epoch": 0.5361458333333333,
      "grad_norm": 1.0437060594558716,
      "learning_rate": 0.00013391226697229464,
      "loss": 3.6721,
      "step": 257350
    },
    {
      "epoch": 0.5361666666666667,
      "grad_norm": 0.9107438921928406,
      "learning_rate": 0.000133902465317658,
      "loss": 3.7972,
      "step": 257360
    },
    {
      "epoch": 0.5361875,
      "grad_norm": 0.882375955581665,
      "learning_rate": 0.00013389266373255642,
      "loss": 3.8263,
      "step": 257370
    },
    {
      "epoch": 0.5362083333333333,
      "grad_norm": 0.9180196523666382,
      "learning_rate": 0.00013388286221703214,
      "loss": 3.7559,
      "step": 257380
    },
    {
      "epoch": 0.5362291666666666,
      "grad_norm": 0.96256422996521,
      "learning_rate": 0.00013387306077112748,
      "loss": 3.7456,
      "step": 257390
    },
    {
      "epoch": 0.53625,
      "grad_norm": 0.9347330331802368,
      "learning_rate": 0.00013386325939488485,
      "loss": 3.8253,
      "step": 257400
    },
    {
      "epoch": 0.5362708333333334,
      "grad_norm": 1.0046513080596924,
      "learning_rate": 0.00013385345808834657,
      "loss": 3.8304,
      "step": 257410
    },
    {
      "epoch": 0.5362916666666667,
      "grad_norm": 0.8992294669151306,
      "learning_rate": 0.0001338436568515549,
      "loss": 3.729,
      "step": 257420
    },
    {
      "epoch": 0.5363125,
      "grad_norm": 1.1702919006347656,
      "learning_rate": 0.0001338338556845523,
      "loss": 3.7601,
      "step": 257430
    },
    {
      "epoch": 0.5363333333333333,
      "grad_norm": 0.887078583240509,
      "learning_rate": 0.000133824054587381,
      "loss": 3.6951,
      "step": 257440
    },
    {
      "epoch": 0.5363541666666667,
      "grad_norm": 0.9355038404464722,
      "learning_rate": 0.00013381425356008336,
      "loss": 3.6652,
      "step": 257450
    },
    {
      "epoch": 0.536375,
      "grad_norm": 0.8352986574172974,
      "learning_rate": 0.00013380445260270183,
      "loss": 3.9893,
      "step": 257460
    },
    {
      "epoch": 0.5363958333333333,
      "grad_norm": 0.9559283256530762,
      "learning_rate": 0.00013379465171527857,
      "loss": 3.695,
      "step": 257470
    },
    {
      "epoch": 0.5364166666666667,
      "grad_norm": 0.8694096803665161,
      "learning_rate": 0.00013378485089785602,
      "loss": 3.9114,
      "step": 257480
    },
    {
      "epoch": 0.5364375,
      "grad_norm": 0.9378979206085205,
      "learning_rate": 0.0001337750501504765,
      "loss": 3.5538,
      "step": 257490
    },
    {
      "epoch": 0.5364583333333334,
      "grad_norm": 0.9021739959716797,
      "learning_rate": 0.00013376524947318236,
      "loss": 3.9864,
      "step": 257500
    },
    {
      "epoch": 0.5364791666666666,
      "grad_norm": 0.8817346096038818,
      "learning_rate": 0.00013375544886601586,
      "loss": 3.7658,
      "step": 257510
    },
    {
      "epoch": 0.5365,
      "grad_norm": 0.8703851699829102,
      "learning_rate": 0.00013374564832901946,
      "loss": 3.8924,
      "step": 257520
    },
    {
      "epoch": 0.5365208333333333,
      "grad_norm": 1.0972542762756348,
      "learning_rate": 0.00013373584786223542,
      "loss": 3.9516,
      "step": 257530
    },
    {
      "epoch": 0.5365416666666667,
      "grad_norm": 1.069000482559204,
      "learning_rate": 0.000133726047465706,
      "loss": 3.9435,
      "step": 257540
    },
    {
      "epoch": 0.5365625,
      "grad_norm": 0.9993582963943481,
      "learning_rate": 0.0001337162471394737,
      "loss": 3.7793,
      "step": 257550
    },
    {
      "epoch": 0.5365833333333333,
      "grad_norm": 0.9582648873329163,
      "learning_rate": 0.00013370644688358077,
      "loss": 3.7584,
      "step": 257560
    },
    {
      "epoch": 0.5366041666666667,
      "grad_norm": 0.8780122995376587,
      "learning_rate": 0.00013369664669806946,
      "loss": 3.747,
      "step": 257570
    },
    {
      "epoch": 0.536625,
      "grad_norm": 0.9208810925483704,
      "learning_rate": 0.00013368684658298223,
      "loss": 3.9554,
      "step": 257580
    },
    {
      "epoch": 0.5366458333333334,
      "grad_norm": 0.8551467657089233,
      "learning_rate": 0.00013367704653836142,
      "loss": 3.8742,
      "step": 257590
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 1.2818806171417236,
      "learning_rate": 0.0001336672465642492,
      "loss": 3.8147,
      "step": 257600
    },
    {
      "epoch": 0.5366875,
      "grad_norm": 0.921123743057251,
      "learning_rate": 0.00013365744666068806,
      "loss": 3.8963,
      "step": 257610
    },
    {
      "epoch": 0.5367083333333333,
      "grad_norm": 0.9318215847015381,
      "learning_rate": 0.00013364764682772032,
      "loss": 3.7797,
      "step": 257620
    },
    {
      "epoch": 0.5367291666666667,
      "grad_norm": 0.9575062394142151,
      "learning_rate": 0.00013363784706538824,
      "loss": 4.0149,
      "step": 257630
    },
    {
      "epoch": 0.53675,
      "grad_norm": 0.9508365392684937,
      "learning_rate": 0.00013362804737373414,
      "loss": 3.7515,
      "step": 257640
    },
    {
      "epoch": 0.5367708333333333,
      "grad_norm": 0.9365620613098145,
      "learning_rate": 0.00013361824775280046,
      "loss": 4.0153,
      "step": 257650
    },
    {
      "epoch": 0.5367916666666667,
      "grad_norm": 0.9388620853424072,
      "learning_rate": 0.00013360844820262948,
      "loss": 3.9098,
      "step": 257660
    },
    {
      "epoch": 0.5368125,
      "grad_norm": 0.9685102105140686,
      "learning_rate": 0.00013359864872326347,
      "loss": 3.9029,
      "step": 257670
    },
    {
      "epoch": 0.5368333333333334,
      "grad_norm": 1.017653226852417,
      "learning_rate": 0.00013358884931474478,
      "loss": 3.8995,
      "step": 257680
    },
    {
      "epoch": 0.5368541666666666,
      "grad_norm": 0.8796790242195129,
      "learning_rate": 0.00013357904997711583,
      "loss": 3.7315,
      "step": 257690
    },
    {
      "epoch": 0.536875,
      "grad_norm": 0.889811635017395,
      "learning_rate": 0.00013356925071041884,
      "loss": 3.8923,
      "step": 257700
    },
    {
      "epoch": 0.5368958333333333,
      "grad_norm": 0.8781308531761169,
      "learning_rate": 0.00013355945151469618,
      "loss": 3.9419,
      "step": 257710
    },
    {
      "epoch": 0.5369166666666667,
      "grad_norm": 0.9287556409835815,
      "learning_rate": 0.00013354965238999023,
      "loss": 3.8661,
      "step": 257720
    },
    {
      "epoch": 0.5369375,
      "grad_norm": 0.9598087668418884,
      "learning_rate": 0.0001335398533363432,
      "loss": 3.7832,
      "step": 257730
    },
    {
      "epoch": 0.5369583333333333,
      "grad_norm": 0.8943893909454346,
      "learning_rate": 0.00013353005435379754,
      "loss": 3.8068,
      "step": 257740
    },
    {
      "epoch": 0.5369791666666667,
      "grad_norm": 0.9468797445297241,
      "learning_rate": 0.00013352025544239552,
      "loss": 4.0287,
      "step": 257750
    },
    {
      "epoch": 0.537,
      "grad_norm": 0.9725908041000366,
      "learning_rate": 0.00013351045660217945,
      "loss": 3.8711,
      "step": 257760
    },
    {
      "epoch": 0.5370208333333333,
      "grad_norm": 0.9517372846603394,
      "learning_rate": 0.00013350065783319167,
      "loss": 3.9152,
      "step": 257770
    },
    {
      "epoch": 0.5370416666666666,
      "grad_norm": 1.188964605331421,
      "learning_rate": 0.0001334908591354746,
      "loss": 3.8759,
      "step": 257780
    },
    {
      "epoch": 0.5370625,
      "grad_norm": 0.8587281703948975,
      "learning_rate": 0.00013348106050907037,
      "loss": 3.899,
      "step": 257790
    },
    {
      "epoch": 0.5370833333333334,
      "grad_norm": 1.1353508234024048,
      "learning_rate": 0.0001334712619540215,
      "loss": 3.883,
      "step": 257800
    },
    {
      "epoch": 0.5371041666666667,
      "grad_norm": 0.9739841818809509,
      "learning_rate": 0.0001334614634703702,
      "loss": 3.8767,
      "step": 257810
    },
    {
      "epoch": 0.537125,
      "grad_norm": 0.9738411903381348,
      "learning_rate": 0.00013345166505815883,
      "loss": 3.8561,
      "step": 257820
    },
    {
      "epoch": 0.5371458333333333,
      "grad_norm": 1.14686918258667,
      "learning_rate": 0.00013344186671742977,
      "loss": 4.1735,
      "step": 257830
    },
    {
      "epoch": 0.5371666666666667,
      "grad_norm": 0.8849659562110901,
      "learning_rate": 0.00013343206844822526,
      "loss": 3.7825,
      "step": 257840
    },
    {
      "epoch": 0.5371875,
      "grad_norm": 0.8701127171516418,
      "learning_rate": 0.0001334222702505876,
      "loss": 3.851,
      "step": 257850
    },
    {
      "epoch": 0.5372083333333333,
      "grad_norm": 1.10792076587677,
      "learning_rate": 0.00013341247212455924,
      "loss": 3.7952,
      "step": 257860
    },
    {
      "epoch": 0.5372291666666666,
      "grad_norm": 1.050228238105774,
      "learning_rate": 0.00013340267407018242,
      "loss": 3.9924,
      "step": 257870
    },
    {
      "epoch": 0.53725,
      "grad_norm": 0.9288223385810852,
      "learning_rate": 0.00013339287608749942,
      "loss": 3.739,
      "step": 257880
    },
    {
      "epoch": 0.5372708333333334,
      "grad_norm": 0.944743812084198,
      "learning_rate": 0.0001333830781765527,
      "loss": 3.7695,
      "step": 257890
    },
    {
      "epoch": 0.5372916666666666,
      "grad_norm": 0.9132494926452637,
      "learning_rate": 0.0001333732803373845,
      "loss": 3.9704,
      "step": 257900
    },
    {
      "epoch": 0.5373125,
      "grad_norm": 1.0483756065368652,
      "learning_rate": 0.0001333634825700371,
      "loss": 3.7017,
      "step": 257910
    },
    {
      "epoch": 0.5373333333333333,
      "grad_norm": 0.9254919290542603,
      "learning_rate": 0.0001333536848745529,
      "loss": 3.7439,
      "step": 257920
    },
    {
      "epoch": 0.5373541666666667,
      "grad_norm": 0.9431713223457336,
      "learning_rate": 0.00013334388725097423,
      "loss": 3.93,
      "step": 257930
    },
    {
      "epoch": 0.537375,
      "grad_norm": 0.9345265626907349,
      "learning_rate": 0.00013333408969934334,
      "loss": 3.8459,
      "step": 257940
    },
    {
      "epoch": 0.5373958333333333,
      "grad_norm": 0.8467424511909485,
      "learning_rate": 0.00013332429221970255,
      "loss": 3.6786,
      "step": 257950
    },
    {
      "epoch": 0.5374166666666667,
      "grad_norm": 0.9588296413421631,
      "learning_rate": 0.00013331449481209426,
      "loss": 3.8438,
      "step": 257960
    },
    {
      "epoch": 0.5374375,
      "grad_norm": 1.0905814170837402,
      "learning_rate": 0.00013330469747656072,
      "loss": 3.9281,
      "step": 257970
    },
    {
      "epoch": 0.5374583333333334,
      "grad_norm": 0.9958961606025696,
      "learning_rate": 0.00013329490021314426,
      "loss": 3.8034,
      "step": 257980
    },
    {
      "epoch": 0.5374791666666666,
      "grad_norm": 0.9017513990402222,
      "learning_rate": 0.0001332851030218873,
      "loss": 3.9276,
      "step": 257990
    },
    {
      "epoch": 0.5375,
      "grad_norm": 1.2578283548355103,
      "learning_rate": 0.000133275305902832,
      "loss": 3.9319,
      "step": 258000
    },
    {
      "epoch": 0.5375,
      "eval_loss": 3.6049964427948,
      "eval_runtime": 7.2307,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.415,
      "step": 258000
    },
    {
      "epoch": 0.5375208333333333,
      "grad_norm": 1.1998447179794312,
      "learning_rate": 0.00013326550885602078,
      "loss": 3.7807,
      "step": 258010
    },
    {
      "epoch": 0.5375416666666667,
      "grad_norm": 0.9921326041221619,
      "learning_rate": 0.00013325571188149596,
      "loss": 4.0675,
      "step": 258020
    },
    {
      "epoch": 0.5375625,
      "grad_norm": 1.0369164943695068,
      "learning_rate": 0.00013324591497929986,
      "loss": 3.807,
      "step": 258030
    },
    {
      "epoch": 0.5375833333333333,
      "grad_norm": 0.9411457777023315,
      "learning_rate": 0.00013323611814947467,
      "loss": 3.8886,
      "step": 258040
    },
    {
      "epoch": 0.5376041666666667,
      "grad_norm": 0.9374607801437378,
      "learning_rate": 0.0001332263213920629,
      "loss": 3.6077,
      "step": 258050
    },
    {
      "epoch": 0.537625,
      "grad_norm": 1.0080490112304688,
      "learning_rate": 0.0001332165247071068,
      "loss": 4.02,
      "step": 258060
    },
    {
      "epoch": 0.5376458333333334,
      "grad_norm": 0.9362521171569824,
      "learning_rate": 0.0001332067280946486,
      "loss": 3.8035,
      "step": 258070
    },
    {
      "epoch": 0.5376666666666666,
      "grad_norm": 0.9483197331428528,
      "learning_rate": 0.0001331969315547307,
      "loss": 3.8773,
      "step": 258080
    },
    {
      "epoch": 0.5376875,
      "grad_norm": 0.9267260432243347,
      "learning_rate": 0.00013318713508739548,
      "loss": 4.0101,
      "step": 258090
    },
    {
      "epoch": 0.5377083333333333,
      "grad_norm": 0.9107942581176758,
      "learning_rate": 0.0001331773386926851,
      "loss": 4.0186,
      "step": 258100
    },
    {
      "epoch": 0.5377291666666667,
      "grad_norm": 0.8821364045143127,
      "learning_rate": 0.00013316754237064198,
      "loss": 3.812,
      "step": 258110
    },
    {
      "epoch": 0.53775,
      "grad_norm": 0.9193480014801025,
      "learning_rate": 0.00013315774612130844,
      "loss": 3.9342,
      "step": 258120
    },
    {
      "epoch": 0.5377708333333333,
      "grad_norm": 0.8877209424972534,
      "learning_rate": 0.0001331479499447267,
      "loss": 3.9974,
      "step": 258130
    },
    {
      "epoch": 0.5377916666666667,
      "grad_norm": 0.9660136103630066,
      "learning_rate": 0.0001331381538409392,
      "loss": 3.837,
      "step": 258140
    },
    {
      "epoch": 0.5378125,
      "grad_norm": 0.943164050579071,
      "learning_rate": 0.00013312835780998823,
      "loss": 3.8519,
      "step": 258150
    },
    {
      "epoch": 0.5378333333333334,
      "grad_norm": 0.9518860578536987,
      "learning_rate": 0.000133118561851916,
      "loss": 3.8093,
      "step": 258160
    },
    {
      "epoch": 0.5378541666666666,
      "grad_norm": 0.8866233825683594,
      "learning_rate": 0.00013310876596676498,
      "loss": 4.1118,
      "step": 258170
    },
    {
      "epoch": 0.537875,
      "grad_norm": 0.9051558375358582,
      "learning_rate": 0.00013309897015457737,
      "loss": 3.8617,
      "step": 258180
    },
    {
      "epoch": 0.5378958333333334,
      "grad_norm": 0.9814804792404175,
      "learning_rate": 0.00013308917441539548,
      "loss": 3.9759,
      "step": 258190
    },
    {
      "epoch": 0.5379166666666667,
      "grad_norm": 0.850162148475647,
      "learning_rate": 0.00013307937874926172,
      "loss": 4.1047,
      "step": 258200
    },
    {
      "epoch": 0.5379375,
      "grad_norm": 0.9599538445472717,
      "learning_rate": 0.00013306958315621834,
      "loss": 3.9334,
      "step": 258210
    },
    {
      "epoch": 0.5379583333333333,
      "grad_norm": 1.0735435485839844,
      "learning_rate": 0.00013305978763630764,
      "loss": 3.9711,
      "step": 258220
    },
    {
      "epoch": 0.5379791666666667,
      "grad_norm": 1.1582669019699097,
      "learning_rate": 0.00013304999218957195,
      "loss": 3.7805,
      "step": 258230
    },
    {
      "epoch": 0.538,
      "grad_norm": 0.9684603214263916,
      "learning_rate": 0.00013304019681605357,
      "loss": 3.8315,
      "step": 258240
    },
    {
      "epoch": 0.5380208333333333,
      "grad_norm": 0.9387487173080444,
      "learning_rate": 0.00013303040151579491,
      "loss": 3.8415,
      "step": 258250
    },
    {
      "epoch": 0.5380416666666666,
      "grad_norm": 1.0205110311508179,
      "learning_rate": 0.0001330206062888381,
      "loss": 3.9403,
      "step": 258260
    },
    {
      "epoch": 0.5380625,
      "grad_norm": 0.930209219455719,
      "learning_rate": 0.00013301081113522556,
      "loss": 3.671,
      "step": 258270
    },
    {
      "epoch": 0.5380833333333334,
      "grad_norm": 0.9128111600875854,
      "learning_rate": 0.00013300101605499967,
      "loss": 3.8739,
      "step": 258280
    },
    {
      "epoch": 0.5381041666666667,
      "grad_norm": 1.0450630187988281,
      "learning_rate": 0.00013299122104820256,
      "loss": 3.7483,
      "step": 258290
    },
    {
      "epoch": 0.538125,
      "grad_norm": 0.9205461144447327,
      "learning_rate": 0.00013298142611487673,
      "loss": 3.7702,
      "step": 258300
    },
    {
      "epoch": 0.5381458333333333,
      "grad_norm": 0.9585400223731995,
      "learning_rate": 0.00013297163125506437,
      "loss": 3.9577,
      "step": 258310
    },
    {
      "epoch": 0.5381666666666667,
      "grad_norm": 1.016614317893982,
      "learning_rate": 0.00013296183646880778,
      "loss": 3.7484,
      "step": 258320
    },
    {
      "epoch": 0.5381875,
      "grad_norm": 0.8922774195671082,
      "learning_rate": 0.00013295204175614936,
      "loss": 3.8754,
      "step": 258330
    },
    {
      "epoch": 0.5382083333333333,
      "grad_norm": 0.9999105930328369,
      "learning_rate": 0.00013294224711713138,
      "loss": 3.9045,
      "step": 258340
    },
    {
      "epoch": 0.5382291666666666,
      "grad_norm": 0.9734011292457581,
      "learning_rate": 0.00013293245255179608,
      "loss": 3.8706,
      "step": 258350
    },
    {
      "epoch": 0.53825,
      "grad_norm": 1.0376780033111572,
      "learning_rate": 0.0001329226580601859,
      "loss": 3.8046,
      "step": 258360
    },
    {
      "epoch": 0.5382708333333334,
      "grad_norm": 0.9295865893363953,
      "learning_rate": 0.00013291286364234306,
      "loss": 3.7591,
      "step": 258370
    },
    {
      "epoch": 0.5382916666666666,
      "grad_norm": 0.8864634037017822,
      "learning_rate": 0.00013290306929830982,
      "loss": 3.7529,
      "step": 258380
    },
    {
      "epoch": 0.5383125,
      "grad_norm": 0.8983179926872253,
      "learning_rate": 0.00013289327502812864,
      "loss": 3.8928,
      "step": 258390
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 1.0081208944320679,
      "learning_rate": 0.00013288348083184172,
      "loss": 3.7907,
      "step": 258400
    },
    {
      "epoch": 0.5383541666666667,
      "grad_norm": 0.9305147528648376,
      "learning_rate": 0.0001328736867094913,
      "loss": 3.9122,
      "step": 258410
    },
    {
      "epoch": 0.538375,
      "grad_norm": 1.1920334100723267,
      "learning_rate": 0.0001328638926611199,
      "loss": 3.7859,
      "step": 258420
    },
    {
      "epoch": 0.5383958333333333,
      "grad_norm": 0.9565328359603882,
      "learning_rate": 0.00013285409868676968,
      "loss": 3.8887,
      "step": 258430
    },
    {
      "epoch": 0.5384166666666667,
      "grad_norm": 0.9273084402084351,
      "learning_rate": 0.0001328443047864829,
      "loss": 4.1175,
      "step": 258440
    },
    {
      "epoch": 0.5384375,
      "grad_norm": 0.9334993362426758,
      "learning_rate": 0.00013283451096030198,
      "loss": 3.8442,
      "step": 258450
    },
    {
      "epoch": 0.5384583333333334,
      "grad_norm": 0.9977751970291138,
      "learning_rate": 0.0001328247172082692,
      "loss": 3.7515,
      "step": 258460
    },
    {
      "epoch": 0.5384791666666666,
      "grad_norm": 0.9370052218437195,
      "learning_rate": 0.00013281492353042678,
      "loss": 3.8551,
      "step": 258470
    },
    {
      "epoch": 0.5385,
      "grad_norm": 1.0249968767166138,
      "learning_rate": 0.0001328051299268171,
      "loss": 3.6952,
      "step": 258480
    },
    {
      "epoch": 0.5385208333333333,
      "grad_norm": 0.9306250214576721,
      "learning_rate": 0.0001327953363974825,
      "loss": 3.7564,
      "step": 258490
    },
    {
      "epoch": 0.5385416666666667,
      "grad_norm": 0.8980483412742615,
      "learning_rate": 0.00013278554294246517,
      "loss": 3.8882,
      "step": 258500
    },
    {
      "epoch": 0.5385625,
      "grad_norm": 0.8794419169425964,
      "learning_rate": 0.00013277574956180752,
      "loss": 3.6636,
      "step": 258510
    },
    {
      "epoch": 0.5385833333333333,
      "grad_norm": 0.9708530902862549,
      "learning_rate": 0.00013276595625555184,
      "loss": 3.8095,
      "step": 258520
    },
    {
      "epoch": 0.5386041666666667,
      "grad_norm": 0.9774460792541504,
      "learning_rate": 0.0001327561630237404,
      "loss": 3.6468,
      "step": 258530
    },
    {
      "epoch": 0.538625,
      "grad_norm": 0.8760574460029602,
      "learning_rate": 0.00013274636986641546,
      "loss": 3.886,
      "step": 258540
    },
    {
      "epoch": 0.5386458333333334,
      "grad_norm": 0.8896535634994507,
      "learning_rate": 0.00013273657678361943,
      "loss": 3.8189,
      "step": 258550
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 1.0662208795547485,
      "learning_rate": 0.00013272678377539455,
      "loss": 3.6726,
      "step": 258560
    },
    {
      "epoch": 0.5386875,
      "grad_norm": 0.8786821961402893,
      "learning_rate": 0.00013271699084178306,
      "loss": 3.733,
      "step": 258570
    },
    {
      "epoch": 0.5387083333333333,
      "grad_norm": 0.9193292260169983,
      "learning_rate": 0.00013270719798282737,
      "loss": 3.9829,
      "step": 258580
    },
    {
      "epoch": 0.5387291666666667,
      "grad_norm": 0.9288191795349121,
      "learning_rate": 0.00013269740519856977,
      "loss": 4.2094,
      "step": 258590
    },
    {
      "epoch": 0.53875,
      "grad_norm": 1.2910326719284058,
      "learning_rate": 0.0001326876124890525,
      "loss": 3.891,
      "step": 258600
    },
    {
      "epoch": 0.5387708333333333,
      "grad_norm": 1.1134504079818726,
      "learning_rate": 0.0001326778198543179,
      "loss": 4.0748,
      "step": 258610
    },
    {
      "epoch": 0.5387916666666667,
      "grad_norm": 1.0096362829208374,
      "learning_rate": 0.00013266802729440825,
      "loss": 3.9942,
      "step": 258620
    },
    {
      "epoch": 0.5388125,
      "grad_norm": 0.9087321758270264,
      "learning_rate": 0.00013265823480936584,
      "loss": 3.9736,
      "step": 258630
    },
    {
      "epoch": 0.5388333333333334,
      "grad_norm": 0.9975934028625488,
      "learning_rate": 0.00013264844239923302,
      "loss": 3.8986,
      "step": 258640
    },
    {
      "epoch": 0.5388541666666666,
      "grad_norm": 1.176035761833191,
      "learning_rate": 0.0001326386500640521,
      "loss": 3.8398,
      "step": 258650
    },
    {
      "epoch": 0.538875,
      "grad_norm": 1.0016186237335205,
      "learning_rate": 0.00013262885780386527,
      "loss": 3.7207,
      "step": 258660
    },
    {
      "epoch": 0.5388958333333334,
      "grad_norm": 0.9018750190734863,
      "learning_rate": 0.00013261906561871494,
      "loss": 3.8156,
      "step": 258670
    },
    {
      "epoch": 0.5389166666666667,
      "grad_norm": 1.0120798349380493,
      "learning_rate": 0.00013260927350864336,
      "loss": 3.7186,
      "step": 258680
    },
    {
      "epoch": 0.5389375,
      "grad_norm": 1.1716296672821045,
      "learning_rate": 0.0001325994814736928,
      "loss": 3.7758,
      "step": 258690
    },
    {
      "epoch": 0.5389583333333333,
      "grad_norm": 1.1993961334228516,
      "learning_rate": 0.00013258968951390565,
      "loss": 3.7387,
      "step": 258700
    },
    {
      "epoch": 0.5389791666666667,
      "grad_norm": 0.9589247703552246,
      "learning_rate": 0.0001325798976293241,
      "loss": 4.1331,
      "step": 258710
    },
    {
      "epoch": 0.539,
      "grad_norm": 0.9538417458534241,
      "learning_rate": 0.0001325701058199905,
      "loss": 3.7488,
      "step": 258720
    },
    {
      "epoch": 0.5390208333333333,
      "grad_norm": 0.9396133422851562,
      "learning_rate": 0.00013256031408594718,
      "loss": 3.9702,
      "step": 258730
    },
    {
      "epoch": 0.5390416666666666,
      "grad_norm": 0.9422100186347961,
      "learning_rate": 0.0001325505224272364,
      "loss": 3.9516,
      "step": 258740
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 1.0443986654281616,
      "learning_rate": 0.0001325407308439004,
      "loss": 3.7796,
      "step": 258750
    },
    {
      "epoch": 0.5390833333333334,
      "grad_norm": 0.916354775428772,
      "learning_rate": 0.0001325309393359816,
      "loss": 3.7845,
      "step": 258760
    },
    {
      "epoch": 0.5391041666666667,
      "grad_norm": 0.8622913956642151,
      "learning_rate": 0.0001325211479035222,
      "loss": 3.7663,
      "step": 258770
    },
    {
      "epoch": 0.539125,
      "grad_norm": 0.9653915762901306,
      "learning_rate": 0.00013251135654656447,
      "loss": 3.7691,
      "step": 258780
    },
    {
      "epoch": 0.5391458333333333,
      "grad_norm": 0.8771408796310425,
      "learning_rate": 0.00013250156526515083,
      "loss": 3.9675,
      "step": 258790
    },
    {
      "epoch": 0.5391666666666667,
      "grad_norm": 0.8851291537284851,
      "learning_rate": 0.00013249177405932352,
      "loss": 3.6878,
      "step": 258800
    },
    {
      "epoch": 0.5391875,
      "grad_norm": 1.2440121173858643,
      "learning_rate": 0.00013248198292912478,
      "loss": 3.9128,
      "step": 258810
    },
    {
      "epoch": 0.5392083333333333,
      "grad_norm": 1.0824568271636963,
      "learning_rate": 0.0001324721918745969,
      "loss": 3.8392,
      "step": 258820
    },
    {
      "epoch": 0.5392291666666666,
      "grad_norm": 0.9456459879875183,
      "learning_rate": 0.00013246240089578228,
      "loss": 3.8651,
      "step": 258830
    },
    {
      "epoch": 0.53925,
      "grad_norm": 0.9449948072433472,
      "learning_rate": 0.0001324526099927231,
      "loss": 3.7917,
      "step": 258840
    },
    {
      "epoch": 0.5392708333333334,
      "grad_norm": 0.9703136086463928,
      "learning_rate": 0.00013244281916546168,
      "loss": 3.9486,
      "step": 258850
    },
    {
      "epoch": 0.5392916666666666,
      "grad_norm": 0.9196757078170776,
      "learning_rate": 0.0001324330284140404,
      "loss": 3.773,
      "step": 258860
    },
    {
      "epoch": 0.5393125,
      "grad_norm": 1.1765637397766113,
      "learning_rate": 0.00013242323773850144,
      "loss": 3.8363,
      "step": 258870
    },
    {
      "epoch": 0.5393333333333333,
      "grad_norm": 0.9583632349967957,
      "learning_rate": 0.00013241344713888712,
      "loss": 3.8809,
      "step": 258880
    },
    {
      "epoch": 0.5393541666666667,
      "grad_norm": 0.9598262310028076,
      "learning_rate": 0.00013240365661523979,
      "loss": 3.9911,
      "step": 258890
    },
    {
      "epoch": 0.539375,
      "grad_norm": 0.9180670380592346,
      "learning_rate": 0.0001323938661676017,
      "loss": 3.7386,
      "step": 258900
    },
    {
      "epoch": 0.5393958333333333,
      "grad_norm": 0.9033523201942444,
      "learning_rate": 0.00013238407579601507,
      "loss": 3.8459,
      "step": 258910
    },
    {
      "epoch": 0.5394166666666667,
      "grad_norm": 1.124884009361267,
      "learning_rate": 0.00013237428550052233,
      "loss": 3.9681,
      "step": 258920
    },
    {
      "epoch": 0.5394375,
      "grad_norm": 0.8836163878440857,
      "learning_rate": 0.0001323644952811657,
      "loss": 3.9169,
      "step": 258930
    },
    {
      "epoch": 0.5394583333333334,
      "grad_norm": 0.8646068572998047,
      "learning_rate": 0.00013235470513798742,
      "loss": 3.8736,
      "step": 258940
    },
    {
      "epoch": 0.5394791666666666,
      "grad_norm": 0.8794671893119812,
      "learning_rate": 0.00013234491507102986,
      "loss": 3.8031,
      "step": 258950
    },
    {
      "epoch": 0.5395,
      "grad_norm": 0.9022982120513916,
      "learning_rate": 0.0001323351250803353,
      "loss": 3.8895,
      "step": 258960
    },
    {
      "epoch": 0.5395208333333333,
      "grad_norm": 0.9232538342475891,
      "learning_rate": 0.00013232533516594595,
      "loss": 3.6843,
      "step": 258970
    },
    {
      "epoch": 0.5395416666666667,
      "grad_norm": 0.8496802449226379,
      "learning_rate": 0.00013231554532790418,
      "loss": 3.8331,
      "step": 258980
    },
    {
      "epoch": 0.5395625,
      "grad_norm": 0.9423080682754517,
      "learning_rate": 0.0001323057555662523,
      "loss": 3.8846,
      "step": 258990
    },
    {
      "epoch": 0.5395833333333333,
      "grad_norm": 0.9299647212028503,
      "learning_rate": 0.00013229596588103248,
      "loss": 3.7942,
      "step": 259000
    },
    {
      "epoch": 0.5395833333333333,
      "eval_loss": 3.6041481494903564,
      "eval_runtime": 6.8668,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 259000
    },
    {
      "epoch": 0.5396041666666667,
      "grad_norm": 0.8956140875816345,
      "learning_rate": 0.00013228617627228712,
      "loss": 3.7611,
      "step": 259010
    },
    {
      "epoch": 0.539625,
      "grad_norm": 0.8714244365692139,
      "learning_rate": 0.00013227638674005848,
      "loss": 3.8717,
      "step": 259020
    },
    {
      "epoch": 0.5396458333333334,
      "grad_norm": 0.9084028005599976,
      "learning_rate": 0.0001322665972843888,
      "loss": 3.8141,
      "step": 259030
    },
    {
      "epoch": 0.5396666666666666,
      "grad_norm": 0.8582332134246826,
      "learning_rate": 0.00013225680790532045,
      "loss": 3.8602,
      "step": 259040
    },
    {
      "epoch": 0.5396875,
      "grad_norm": 1.0464354753494263,
      "learning_rate": 0.00013224701860289561,
      "loss": 3.9148,
      "step": 259050
    },
    {
      "epoch": 0.5397083333333333,
      "grad_norm": 0.9987764358520508,
      "learning_rate": 0.00013223722937715662,
      "loss": 3.8059,
      "step": 259060
    },
    {
      "epoch": 0.5397291666666667,
      "grad_norm": 0.9374303817749023,
      "learning_rate": 0.00013222744022814583,
      "loss": 3.9039,
      "step": 259070
    },
    {
      "epoch": 0.53975,
      "grad_norm": 0.9626067280769348,
      "learning_rate": 0.0001322176511559054,
      "loss": 3.7571,
      "step": 259080
    },
    {
      "epoch": 0.5397708333333333,
      "grad_norm": 0.9842424988746643,
      "learning_rate": 0.00013220786216047768,
      "loss": 3.8692,
      "step": 259090
    },
    {
      "epoch": 0.5397916666666667,
      "grad_norm": 0.941052258014679,
      "learning_rate": 0.000132198073241905,
      "loss": 3.7963,
      "step": 259100
    },
    {
      "epoch": 0.5398125,
      "grad_norm": 0.976051390171051,
      "learning_rate": 0.0001321882844002296,
      "loss": 3.8128,
      "step": 259110
    },
    {
      "epoch": 0.5398333333333334,
      "grad_norm": 0.8946679830551147,
      "learning_rate": 0.00013217849563549374,
      "loss": 3.8846,
      "step": 259120
    },
    {
      "epoch": 0.5398541666666666,
      "grad_norm": 1.1154824495315552,
      "learning_rate": 0.0001321687069477397,
      "loss": 3.7074,
      "step": 259130
    },
    {
      "epoch": 0.539875,
      "grad_norm": 0.9186838269233704,
      "learning_rate": 0.00013215891833700982,
      "loss": 3.8394,
      "step": 259140
    },
    {
      "epoch": 0.5398958333333334,
      "grad_norm": 0.9491381049156189,
      "learning_rate": 0.00013214912980334635,
      "loss": 3.8106,
      "step": 259150
    },
    {
      "epoch": 0.5399166666666667,
      "grad_norm": 0.9291822910308838,
      "learning_rate": 0.00013213934134679152,
      "loss": 3.8996,
      "step": 259160
    },
    {
      "epoch": 0.5399375,
      "grad_norm": 0.9561260342597961,
      "learning_rate": 0.00013212955296738776,
      "loss": 3.8955,
      "step": 259170
    },
    {
      "epoch": 0.5399583333333333,
      "grad_norm": 0.9706311821937561,
      "learning_rate": 0.0001321197646651772,
      "loss": 3.5407,
      "step": 259180
    },
    {
      "epoch": 0.5399791666666667,
      "grad_norm": 1.52603280544281,
      "learning_rate": 0.00013210997644020215,
      "loss": 4.0935,
      "step": 259190
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8960038423538208,
      "learning_rate": 0.00013210018829250497,
      "loss": 3.8627,
      "step": 259200
    },
    {
      "epoch": 0.5400208333333333,
      "grad_norm": 1.010570764541626,
      "learning_rate": 0.0001320904002221279,
      "loss": 3.7824,
      "step": 259210
    },
    {
      "epoch": 0.5400416666666666,
      "grad_norm": 0.9676180481910706,
      "learning_rate": 0.00013208061222911313,
      "loss": 3.9017,
      "step": 259220
    },
    {
      "epoch": 0.5400625,
      "grad_norm": 4.098759174346924,
      "learning_rate": 0.00013207082431350312,
      "loss": 3.8953,
      "step": 259230
    },
    {
      "epoch": 0.5400833333333334,
      "grad_norm": 0.9826457500457764,
      "learning_rate": 0.00013206103647534002,
      "loss": 3.7486,
      "step": 259240
    },
    {
      "epoch": 0.5401041666666667,
      "grad_norm": 0.9487068057060242,
      "learning_rate": 0.0001320512487146661,
      "loss": 3.6898,
      "step": 259250
    },
    {
      "epoch": 0.540125,
      "grad_norm": 0.9084063768386841,
      "learning_rate": 0.00013204146103152373,
      "loss": 3.7643,
      "step": 259260
    },
    {
      "epoch": 0.5401458333333333,
      "grad_norm": 0.9225190877914429,
      "learning_rate": 0.00013203167342595515,
      "loss": 3.8471,
      "step": 259270
    },
    {
      "epoch": 0.5401666666666667,
      "grad_norm": 0.8479907512664795,
      "learning_rate": 0.00013202188589800254,
      "loss": 3.8347,
      "step": 259280
    },
    {
      "epoch": 0.5401875,
      "grad_norm": 1.0623747110366821,
      "learning_rate": 0.00013201209844770838,
      "loss": 3.6871,
      "step": 259290
    },
    {
      "epoch": 0.5402083333333333,
      "grad_norm": 0.8883477449417114,
      "learning_rate": 0.0001320023110751148,
      "loss": 3.6529,
      "step": 259300
    },
    {
      "epoch": 0.5402291666666666,
      "grad_norm": 1.0199471712112427,
      "learning_rate": 0.00013199252378026405,
      "loss": 3.8081,
      "step": 259310
    },
    {
      "epoch": 0.54025,
      "grad_norm": 0.9563173651695251,
      "learning_rate": 0.00013198273656319853,
      "loss": 3.7629,
      "step": 259320
    },
    {
      "epoch": 0.5402708333333334,
      "grad_norm": 0.9835578203201294,
      "learning_rate": 0.00013197294942396046,
      "loss": 3.8666,
      "step": 259330
    },
    {
      "epoch": 0.5402916666666666,
      "grad_norm": 1.0413190126419067,
      "learning_rate": 0.0001319631623625921,
      "loss": 3.8859,
      "step": 259340
    },
    {
      "epoch": 0.5403125,
      "grad_norm": 0.9144138693809509,
      "learning_rate": 0.0001319533753791357,
      "loss": 3.9237,
      "step": 259350
    },
    {
      "epoch": 0.5403333333333333,
      "grad_norm": 0.9390274286270142,
      "learning_rate": 0.00013194358847363365,
      "loss": 3.7552,
      "step": 259360
    },
    {
      "epoch": 0.5403541666666667,
      "grad_norm": 0.9095985889434814,
      "learning_rate": 0.00013193380164612807,
      "loss": 3.6146,
      "step": 259370
    },
    {
      "epoch": 0.540375,
      "grad_norm": 1.0839771032333374,
      "learning_rate": 0.00013192401489666136,
      "loss": 3.8556,
      "step": 259380
    },
    {
      "epoch": 0.5403958333333333,
      "grad_norm": 1.0742369890213013,
      "learning_rate": 0.0001319142282252758,
      "loss": 3.8527,
      "step": 259390
    },
    {
      "epoch": 0.5404166666666667,
      "grad_norm": 0.9944561719894409,
      "learning_rate": 0.00013190444163201353,
      "loss": 3.8741,
      "step": 259400
    },
    {
      "epoch": 0.5404375,
      "grad_norm": 0.8670673370361328,
      "learning_rate": 0.00013189465511691693,
      "loss": 3.6988,
      "step": 259410
    },
    {
      "epoch": 0.5404583333333334,
      "grad_norm": 1.1710652112960815,
      "learning_rate": 0.0001318848686800283,
      "loss": 3.987,
      "step": 259420
    },
    {
      "epoch": 0.5404791666666666,
      "grad_norm": 0.9637308716773987,
      "learning_rate": 0.00013187508232138985,
      "loss": 3.8487,
      "step": 259430
    },
    {
      "epoch": 0.5405,
      "grad_norm": 0.9087611436843872,
      "learning_rate": 0.0001318652960410438,
      "loss": 3.8012,
      "step": 259440
    },
    {
      "epoch": 0.5405208333333333,
      "grad_norm": 0.9102886319160461,
      "learning_rate": 0.00013185550983903254,
      "loss": 3.7405,
      "step": 259450
    },
    {
      "epoch": 0.5405416666666667,
      "grad_norm": 0.9296671748161316,
      "learning_rate": 0.00013184572371539836,
      "loss": 3.9574,
      "step": 259460
    },
    {
      "epoch": 0.5405625,
      "grad_norm": 0.9150087833404541,
      "learning_rate": 0.00013183593767018335,
      "loss": 3.7894,
      "step": 259470
    },
    {
      "epoch": 0.5405833333333333,
      "grad_norm": 0.933184027671814,
      "learning_rate": 0.00013182615170342996,
      "loss": 3.9888,
      "step": 259480
    },
    {
      "epoch": 0.5406041666666667,
      "grad_norm": 0.8807730078697205,
      "learning_rate": 0.00013181636581518043,
      "loss": 3.7513,
      "step": 259490
    },
    {
      "epoch": 0.540625,
      "grad_norm": 0.8699192404747009,
      "learning_rate": 0.00013180658000547696,
      "loss": 3.7286,
      "step": 259500
    },
    {
      "epoch": 0.5406458333333334,
      "grad_norm": 0.8532900214195251,
      "learning_rate": 0.00013179679427436185,
      "loss": 3.8517,
      "step": 259510
    },
    {
      "epoch": 0.5406666666666666,
      "grad_norm": 0.9081646800041199,
      "learning_rate": 0.00013178700862187743,
      "loss": 3.6841,
      "step": 259520
    },
    {
      "epoch": 0.5406875,
      "grad_norm": 0.9537484049797058,
      "learning_rate": 0.00013177722304806588,
      "loss": 3.8752,
      "step": 259530
    },
    {
      "epoch": 0.5407083333333333,
      "grad_norm": 0.8838617205619812,
      "learning_rate": 0.00013176743755296955,
      "loss": 3.7847,
      "step": 259540
    },
    {
      "epoch": 0.5407291666666667,
      "grad_norm": 0.9990772008895874,
      "learning_rate": 0.00013175765213663067,
      "loss": 3.7796,
      "step": 259550
    },
    {
      "epoch": 0.54075,
      "grad_norm": 0.993078887462616,
      "learning_rate": 0.00013174786679909144,
      "loss": 3.8674,
      "step": 259560
    },
    {
      "epoch": 0.5407708333333333,
      "grad_norm": 1.0792391300201416,
      "learning_rate": 0.00013173808154039431,
      "loss": 3.9304,
      "step": 259570
    },
    {
      "epoch": 0.5407916666666667,
      "grad_norm": 0.8742984533309937,
      "learning_rate": 0.00013172829636058138,
      "loss": 3.5738,
      "step": 259580
    },
    {
      "epoch": 0.5408125,
      "grad_norm": 1.0601264238357544,
      "learning_rate": 0.00013171851125969494,
      "loss": 3.8044,
      "step": 259590
    },
    {
      "epoch": 0.5408333333333334,
      "grad_norm": 1.0145000219345093,
      "learning_rate": 0.00013170872623777737,
      "loss": 3.9563,
      "step": 259600
    },
    {
      "epoch": 0.5408541666666666,
      "grad_norm": 0.8958561420440674,
      "learning_rate": 0.00013169894129487085,
      "loss": 3.6999,
      "step": 259610
    },
    {
      "epoch": 0.540875,
      "grad_norm": 0.9612775444984436,
      "learning_rate": 0.0001316891564310176,
      "loss": 3.7993,
      "step": 259620
    },
    {
      "epoch": 0.5408958333333334,
      "grad_norm": 1.2127786874771118,
      "learning_rate": 0.00013167937164626002,
      "loss": 3.9013,
      "step": 259630
    },
    {
      "epoch": 0.5409166666666667,
      "grad_norm": 1.3545969724655151,
      "learning_rate": 0.00013166958694064027,
      "loss": 3.8517,
      "step": 259640
    },
    {
      "epoch": 0.5409375,
      "grad_norm": 1.4611706733703613,
      "learning_rate": 0.00013165980231420063,
      "loss": 3.8279,
      "step": 259650
    },
    {
      "epoch": 0.5409583333333333,
      "grad_norm": 0.9314467906951904,
      "learning_rate": 0.00013165001776698342,
      "loss": 3.9517,
      "step": 259660
    },
    {
      "epoch": 0.5409791666666667,
      "grad_norm": 0.9432033896446228,
      "learning_rate": 0.0001316402332990309,
      "loss": 3.9843,
      "step": 259670
    },
    {
      "epoch": 0.541,
      "grad_norm": 0.9012781381607056,
      "learning_rate": 0.00013163044891038522,
      "loss": 3.7647,
      "step": 259680
    },
    {
      "epoch": 0.5410208333333333,
      "grad_norm": 0.9229783415794373,
      "learning_rate": 0.00013162066460108875,
      "loss": 3.8471,
      "step": 259690
    },
    {
      "epoch": 0.5410416666666666,
      "grad_norm": 0.9661047458648682,
      "learning_rate": 0.00013161088037118377,
      "loss": 3.8332,
      "step": 259700
    },
    {
      "epoch": 0.5410625,
      "grad_norm": 1.1255406141281128,
      "learning_rate": 0.0001316010962207125,
      "loss": 4.1162,
      "step": 259710
    },
    {
      "epoch": 0.5410833333333334,
      "grad_norm": 0.9124153852462769,
      "learning_rate": 0.00013159131214971717,
      "loss": 3.9241,
      "step": 259720
    },
    {
      "epoch": 0.5411041666666667,
      "grad_norm": 0.8845349550247192,
      "learning_rate": 0.00013158152815824015,
      "loss": 3.9643,
      "step": 259730
    },
    {
      "epoch": 0.541125,
      "grad_norm": 1.0337941646575928,
      "learning_rate": 0.0001315717442463236,
      "loss": 3.7704,
      "step": 259740
    },
    {
      "epoch": 0.5411458333333333,
      "grad_norm": 0.9510957598686218,
      "learning_rate": 0.0001315619604140098,
      "loss": 3.893,
      "step": 259750
    },
    {
      "epoch": 0.5411666666666667,
      "grad_norm": 0.8647114038467407,
      "learning_rate": 0.00013155217666134108,
      "loss": 3.8945,
      "step": 259760
    },
    {
      "epoch": 0.5411875,
      "grad_norm": 1.129958987236023,
      "learning_rate": 0.00013154239298835964,
      "loss": 3.9543,
      "step": 259770
    },
    {
      "epoch": 0.5412083333333333,
      "grad_norm": 0.876524031162262,
      "learning_rate": 0.0001315326093951077,
      "loss": 3.9213,
      "step": 259780
    },
    {
      "epoch": 0.5412291666666667,
      "grad_norm": 0.8904020190238953,
      "learning_rate": 0.00013152282588162765,
      "loss": 3.7969,
      "step": 259790
    },
    {
      "epoch": 0.54125,
      "grad_norm": 0.9628676176071167,
      "learning_rate": 0.0001315130424479617,
      "loss": 3.859,
      "step": 259800
    },
    {
      "epoch": 0.5412708333333334,
      "grad_norm": 0.9376755952835083,
      "learning_rate": 0.00013150325909415202,
      "loss": 3.7396,
      "step": 259810
    },
    {
      "epoch": 0.5412916666666666,
      "grad_norm": 0.958339273929596,
      "learning_rate": 0.00013149347582024095,
      "loss": 3.7184,
      "step": 259820
    },
    {
      "epoch": 0.5413125,
      "grad_norm": 1.0455042123794556,
      "learning_rate": 0.0001314836926262708,
      "loss": 3.7354,
      "step": 259830
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 0.8676292300224304,
      "learning_rate": 0.00013147390951228366,
      "loss": 3.793,
      "step": 259840
    },
    {
      "epoch": 0.5413541666666667,
      "grad_norm": 0.8813753724098206,
      "learning_rate": 0.00013146412647832196,
      "loss": 3.711,
      "step": 259850
    },
    {
      "epoch": 0.541375,
      "grad_norm": 0.9399567246437073,
      "learning_rate": 0.00013145434352442793,
      "loss": 3.902,
      "step": 259860
    },
    {
      "epoch": 0.5413958333333333,
      "grad_norm": 0.9015442132949829,
      "learning_rate": 0.00013144456065064373,
      "loss": 3.7228,
      "step": 259870
    },
    {
      "epoch": 0.5414166666666667,
      "grad_norm": 0.9516887664794922,
      "learning_rate": 0.0001314347778570117,
      "loss": 3.894,
      "step": 259880
    },
    {
      "epoch": 0.5414375,
      "grad_norm": 1.0381181240081787,
      "learning_rate": 0.00013142499514357412,
      "loss": 3.6994,
      "step": 259890
    },
    {
      "epoch": 0.5414583333333334,
      "grad_norm": 0.8645197749137878,
      "learning_rate": 0.00013141521251037316,
      "loss": 3.7611,
      "step": 259900
    },
    {
      "epoch": 0.5414791666666666,
      "grad_norm": 0.8424007892608643,
      "learning_rate": 0.00013140542995745115,
      "loss": 3.7265,
      "step": 259910
    },
    {
      "epoch": 0.5415,
      "grad_norm": 0.8561701774597168,
      "learning_rate": 0.00013139564748485035,
      "loss": 3.9401,
      "step": 259920
    },
    {
      "epoch": 0.5415208333333333,
      "grad_norm": 0.9374161958694458,
      "learning_rate": 0.00013138586509261292,
      "loss": 3.6898,
      "step": 259930
    },
    {
      "epoch": 0.5415416666666667,
      "grad_norm": 0.9406254887580872,
      "learning_rate": 0.00013137608278078125,
      "loss": 3.8803,
      "step": 259940
    },
    {
      "epoch": 0.5415625,
      "grad_norm": 1.0132898092269897,
      "learning_rate": 0.0001313663005493975,
      "loss": 3.6399,
      "step": 259950
    },
    {
      "epoch": 0.5415833333333333,
      "grad_norm": 0.9672095775604248,
      "learning_rate": 0.00013135651839850393,
      "loss": 3.8439,
      "step": 259960
    },
    {
      "epoch": 0.5416041666666667,
      "grad_norm": 0.8979830741882324,
      "learning_rate": 0.00013134673632814287,
      "loss": 3.8088,
      "step": 259970
    },
    {
      "epoch": 0.541625,
      "grad_norm": 0.9187548756599426,
      "learning_rate": 0.0001313369543383565,
      "loss": 3.8936,
      "step": 259980
    },
    {
      "epoch": 0.5416458333333334,
      "grad_norm": 0.9617730379104614,
      "learning_rate": 0.00013132717242918715,
      "loss": 3.998,
      "step": 259990
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 0.9320656657218933,
      "learning_rate": 0.00013131739060067696,
      "loss": 3.7002,
      "step": 260000
    },
    {
      "epoch": 0.5416666666666666,
      "eval_loss": 3.596665620803833,
      "eval_runtime": 6.8432,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 260000
    },
    {
      "epoch": 0.5416875,
      "grad_norm": 1.0540493726730347,
      "learning_rate": 0.00013130760885286826,
      "loss": 3.94,
      "step": 260010
    },
    {
      "epoch": 0.5417083333333333,
      "grad_norm": 0.9321750402450562,
      "learning_rate": 0.00013129782718580333,
      "loss": 3.7573,
      "step": 260020
    },
    {
      "epoch": 0.5417291666666667,
      "grad_norm": 0.9048557281494141,
      "learning_rate": 0.00013128804559952434,
      "loss": 3.8821,
      "step": 260030
    },
    {
      "epoch": 0.54175,
      "grad_norm": 0.9946120381355286,
      "learning_rate": 0.00013127826409407362,
      "loss": 3.6702,
      "step": 260040
    },
    {
      "epoch": 0.5417708333333333,
      "grad_norm": 0.9438698887825012,
      "learning_rate": 0.00013126848266949335,
      "loss": 3.7848,
      "step": 260050
    },
    {
      "epoch": 0.5417916666666667,
      "grad_norm": 0.8690963387489319,
      "learning_rate": 0.0001312587013258258,
      "loss": 3.8813,
      "step": 260060
    },
    {
      "epoch": 0.5418125,
      "grad_norm": 1.215319037437439,
      "learning_rate": 0.00013124892006311333,
      "loss": 3.7567,
      "step": 260070
    },
    {
      "epoch": 0.5418333333333333,
      "grad_norm": 0.9707655906677246,
      "learning_rate": 0.00013123913888139804,
      "loss": 3.9375,
      "step": 260080
    },
    {
      "epoch": 0.5418541666666666,
      "grad_norm": 0.8925029039382935,
      "learning_rate": 0.00013122935778072222,
      "loss": 3.7605,
      "step": 260090
    },
    {
      "epoch": 0.541875,
      "grad_norm": 0.9085060358047485,
      "learning_rate": 0.00013121957676112822,
      "loss": 3.9423,
      "step": 260100
    },
    {
      "epoch": 0.5418958333333334,
      "grad_norm": 0.9791709780693054,
      "learning_rate": 0.00013120979582265815,
      "loss": 3.9348,
      "step": 260110
    },
    {
      "epoch": 0.5419166666666667,
      "grad_norm": 0.9351606369018555,
      "learning_rate": 0.00013120001496535433,
      "loss": 4.0357,
      "step": 260120
    },
    {
      "epoch": 0.5419375,
      "grad_norm": 0.9371826648712158,
      "learning_rate": 0.00013119023418925907,
      "loss": 3.8306,
      "step": 260130
    },
    {
      "epoch": 0.5419583333333333,
      "grad_norm": 1.049838662147522,
      "learning_rate": 0.0001311804534944145,
      "loss": 3.7013,
      "step": 260140
    },
    {
      "epoch": 0.5419791666666667,
      "grad_norm": 0.9647600054740906,
      "learning_rate": 0.0001311706728808629,
      "loss": 3.6617,
      "step": 260150
    },
    {
      "epoch": 0.542,
      "grad_norm": 0.9303120374679565,
      "learning_rate": 0.0001311608923486466,
      "loss": 3.7368,
      "step": 260160
    },
    {
      "epoch": 0.5420208333333333,
      "grad_norm": 0.9763115048408508,
      "learning_rate": 0.00013115111189780778,
      "loss": 3.968,
      "step": 260170
    },
    {
      "epoch": 0.5420416666666666,
      "grad_norm": 1.005395531654358,
      "learning_rate": 0.00013114133152838863,
      "loss": 3.8721,
      "step": 260180
    },
    {
      "epoch": 0.5420625,
      "grad_norm": 1.02507483959198,
      "learning_rate": 0.00013113155124043152,
      "loss": 3.8905,
      "step": 260190
    },
    {
      "epoch": 0.5420833333333334,
      "grad_norm": 0.8860043287277222,
      "learning_rate": 0.00013112177103397863,
      "loss": 3.8959,
      "step": 260200
    },
    {
      "epoch": 0.5421041666666667,
      "grad_norm": 0.9094151258468628,
      "learning_rate": 0.0001311119909090722,
      "loss": 3.7416,
      "step": 260210
    },
    {
      "epoch": 0.542125,
      "grad_norm": 0.9671468138694763,
      "learning_rate": 0.00013110221086575448,
      "loss": 3.9412,
      "step": 260220
    },
    {
      "epoch": 0.5421458333333333,
      "grad_norm": 1.2688255310058594,
      "learning_rate": 0.0001310924309040678,
      "loss": 3.9225,
      "step": 260230
    },
    {
      "epoch": 0.5421666666666667,
      "grad_norm": 0.9236533045768738,
      "learning_rate": 0.00013108265102405425,
      "loss": 3.7824,
      "step": 260240
    },
    {
      "epoch": 0.5421875,
      "grad_norm": 0.982674777507782,
      "learning_rate": 0.0001310728712257562,
      "loss": 3.89,
      "step": 260250
    },
    {
      "epoch": 0.5422083333333333,
      "grad_norm": 0.8810492157936096,
      "learning_rate": 0.0001310630915092159,
      "loss": 3.6973,
      "step": 260260
    },
    {
      "epoch": 0.5422291666666667,
      "grad_norm": 0.8944727182388306,
      "learning_rate": 0.00013105331187447544,
      "loss": 3.8787,
      "step": 260270
    },
    {
      "epoch": 0.54225,
      "grad_norm": 0.9097945094108582,
      "learning_rate": 0.00013104353232157724,
      "loss": 3.8143,
      "step": 260280
    },
    {
      "epoch": 0.5422708333333334,
      "grad_norm": 1.0949395895004272,
      "learning_rate": 0.0001310337528505635,
      "loss": 3.7789,
      "step": 260290
    },
    {
      "epoch": 0.5422916666666666,
      "grad_norm": 0.9493767023086548,
      "learning_rate": 0.00013102397346147644,
      "loss": 3.6347,
      "step": 260300
    },
    {
      "epoch": 0.5423125,
      "grad_norm": 1.462131381034851,
      "learning_rate": 0.00013101419415435824,
      "loss": 3.6674,
      "step": 260310
    },
    {
      "epoch": 0.5423333333333333,
      "grad_norm": 0.9824582934379578,
      "learning_rate": 0.00013100441492925124,
      "loss": 3.8781,
      "step": 260320
    },
    {
      "epoch": 0.5423541666666667,
      "grad_norm": 0.9426984786987305,
      "learning_rate": 0.0001309946357861977,
      "loss": 3.8683,
      "step": 260330
    },
    {
      "epoch": 0.542375,
      "grad_norm": 0.9364334344863892,
      "learning_rate": 0.00013098485672523972,
      "loss": 3.8555,
      "step": 260340
    },
    {
      "epoch": 0.5423958333333333,
      "grad_norm": 0.9429246783256531,
      "learning_rate": 0.00013097507774641965,
      "loss": 3.8387,
      "step": 260350
    },
    {
      "epoch": 0.5424166666666667,
      "grad_norm": 0.9840126037597656,
      "learning_rate": 0.00013096529884977978,
      "loss": 3.951,
      "step": 260360
    },
    {
      "epoch": 0.5424375,
      "grad_norm": 1.2428336143493652,
      "learning_rate": 0.0001309555200353622,
      "loss": 3.8321,
      "step": 260370
    },
    {
      "epoch": 0.5424583333333334,
      "grad_norm": 0.8679950833320618,
      "learning_rate": 0.00013094574130320926,
      "loss": 3.7085,
      "step": 260380
    },
    {
      "epoch": 0.5424791666666666,
      "grad_norm": 0.9676198959350586,
      "learning_rate": 0.00013093596265336324,
      "loss": 3.9255,
      "step": 260390
    },
    {
      "epoch": 0.5425,
      "grad_norm": 0.9756468534469604,
      "learning_rate": 0.00013092618408586622,
      "loss": 3.8303,
      "step": 260400
    },
    {
      "epoch": 0.5425208333333333,
      "grad_norm": 0.9257245659828186,
      "learning_rate": 0.0001309164056007606,
      "loss": 3.881,
      "step": 260410
    },
    {
      "epoch": 0.5425416666666667,
      "grad_norm": 0.9629039168357849,
      "learning_rate": 0.00013090662719808857,
      "loss": 3.8948,
      "step": 260420
    },
    {
      "epoch": 0.5425625,
      "grad_norm": 0.8316078186035156,
      "learning_rate": 0.00013089684887789227,
      "loss": 3.9779,
      "step": 260430
    },
    {
      "epoch": 0.5425833333333333,
      "grad_norm": 1.1804932355880737,
      "learning_rate": 0.0001308870706402141,
      "loss": 3.7275,
      "step": 260440
    },
    {
      "epoch": 0.5426041666666667,
      "grad_norm": 1.217849612236023,
      "learning_rate": 0.00013087729248509617,
      "loss": 3.6276,
      "step": 260450
    },
    {
      "epoch": 0.542625,
      "grad_norm": 0.9133002758026123,
      "learning_rate": 0.00013086751441258076,
      "loss": 3.8265,
      "step": 260460
    },
    {
      "epoch": 0.5426458333333334,
      "grad_norm": 0.8985699415206909,
      "learning_rate": 0.00013085773642271018,
      "loss": 3.8164,
      "step": 260470
    },
    {
      "epoch": 0.5426666666666666,
      "grad_norm": 0.8563703298568726,
      "learning_rate": 0.00013084795851552657,
      "loss": 3.9449,
      "step": 260480
    },
    {
      "epoch": 0.5426875,
      "grad_norm": 0.9028387665748596,
      "learning_rate": 0.00013083818069107214,
      "loss": 3.735,
      "step": 260490
    },
    {
      "epoch": 0.5427083333333333,
      "grad_norm": 1.061108112335205,
      "learning_rate": 0.00013082840294938928,
      "loss": 3.7835,
      "step": 260500
    },
    {
      "epoch": 0.5427291666666667,
      "grad_norm": 1.062498688697815,
      "learning_rate": 0.00013081862529052007,
      "loss": 3.9199,
      "step": 260510
    },
    {
      "epoch": 0.54275,
      "grad_norm": 1.0965455770492554,
      "learning_rate": 0.00013080884771450677,
      "loss": 3.8608,
      "step": 260520
    },
    {
      "epoch": 0.5427708333333333,
      "grad_norm": 1.0456855297088623,
      "learning_rate": 0.00013079907022139174,
      "loss": 3.6033,
      "step": 260530
    },
    {
      "epoch": 0.5427916666666667,
      "grad_norm": 0.972383975982666,
      "learning_rate": 0.00013078929281121714,
      "loss": 3.8127,
      "step": 260540
    },
    {
      "epoch": 0.5428125,
      "grad_norm": 0.9244246482849121,
      "learning_rate": 0.0001307795154840251,
      "loss": 3.6544,
      "step": 260550
    },
    {
      "epoch": 0.5428333333333333,
      "grad_norm": 0.9734521508216858,
      "learning_rate": 0.00013076973823985798,
      "loss": 3.8055,
      "step": 260560
    },
    {
      "epoch": 0.5428541666666666,
      "grad_norm": 0.9772385954856873,
      "learning_rate": 0.000130759961078758,
      "loss": 3.8705,
      "step": 260570
    },
    {
      "epoch": 0.542875,
      "grad_norm": 0.9972968697547913,
      "learning_rate": 0.00013075018400076737,
      "loss": 3.7292,
      "step": 260580
    },
    {
      "epoch": 0.5428958333333334,
      "grad_norm": 0.9553069472312927,
      "learning_rate": 0.00013074040700592827,
      "loss": 3.8228,
      "step": 260590
    },
    {
      "epoch": 0.5429166666666667,
      "grad_norm": 0.94858717918396,
      "learning_rate": 0.00013073063009428305,
      "loss": 3.9599,
      "step": 260600
    },
    {
      "epoch": 0.5429375,
      "grad_norm": 0.9127474427223206,
      "learning_rate": 0.00013072085326587389,
      "loss": 3.9189,
      "step": 260610
    },
    {
      "epoch": 0.5429583333333333,
      "grad_norm": 1.0464270114898682,
      "learning_rate": 0.00013071107652074294,
      "loss": 3.8393,
      "step": 260620
    },
    {
      "epoch": 0.5429791666666667,
      "grad_norm": 0.9090136885643005,
      "learning_rate": 0.00013070129985893257,
      "loss": 3.7433,
      "step": 260630
    },
    {
      "epoch": 0.543,
      "grad_norm": 0.9743887782096863,
      "learning_rate": 0.00013069152328048494,
      "loss": 3.8998,
      "step": 260640
    },
    {
      "epoch": 0.5430208333333333,
      "grad_norm": 0.9315950870513916,
      "learning_rate": 0.00013068174678544222,
      "loss": 3.963,
      "step": 260650
    },
    {
      "epoch": 0.5430416666666666,
      "grad_norm": 1.0039942264556885,
      "learning_rate": 0.0001306719703738468,
      "loss": 3.8815,
      "step": 260660
    },
    {
      "epoch": 0.5430625,
      "grad_norm": 0.9198657870292664,
      "learning_rate": 0.0001306621940457408,
      "loss": 3.8472,
      "step": 260670
    },
    {
      "epoch": 0.5430833333333334,
      "grad_norm": 0.9579113125801086,
      "learning_rate": 0.00013065241780116642,
      "loss": 4.0041,
      "step": 260680
    },
    {
      "epoch": 0.5431041666666667,
      "grad_norm": 3.609205722808838,
      "learning_rate": 0.00013064264164016595,
      "loss": 4.1094,
      "step": 260690
    },
    {
      "epoch": 0.543125,
      "grad_norm": 0.8308706879615784,
      "learning_rate": 0.00013063286556278165,
      "loss": 3.865,
      "step": 260700
    },
    {
      "epoch": 0.5431458333333333,
      "grad_norm": 0.9224814772605896,
      "learning_rate": 0.00013062308956905564,
      "loss": 3.8861,
      "step": 260710
    },
    {
      "epoch": 0.5431666666666667,
      "grad_norm": 0.9611964225769043,
      "learning_rate": 0.00013061331365903022,
      "loss": 3.7505,
      "step": 260720
    },
    {
      "epoch": 0.5431875,
      "grad_norm": 0.9912033081054688,
      "learning_rate": 0.00013060353783274768,
      "loss": 3.8845,
      "step": 260730
    },
    {
      "epoch": 0.5432083333333333,
      "grad_norm": 1.068870186805725,
      "learning_rate": 0.0001305937620902501,
      "loss": 3.8784,
      "step": 260740
    },
    {
      "epoch": 0.5432291666666667,
      "grad_norm": 0.9767835736274719,
      "learning_rate": 0.0001305839864315798,
      "loss": 3.5706,
      "step": 260750
    },
    {
      "epoch": 0.54325,
      "grad_norm": 0.8953401446342468,
      "learning_rate": 0.00013057421085677906,
      "loss": 3.7806,
      "step": 260760
    },
    {
      "epoch": 0.5432708333333334,
      "grad_norm": 0.9008551239967346,
      "learning_rate": 0.00013056443536588994,
      "loss": 3.721,
      "step": 260770
    },
    {
      "epoch": 0.5432916666666666,
      "grad_norm": 0.8696687817573547,
      "learning_rate": 0.00013055465995895482,
      "loss": 3.8497,
      "step": 260780
    },
    {
      "epoch": 0.5433125,
      "grad_norm": 0.9082843065261841,
      "learning_rate": 0.0001305448846360159,
      "loss": 3.8937,
      "step": 260790
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 1.0371794700622559,
      "learning_rate": 0.00013053510939711532,
      "loss": 3.8249,
      "step": 260800
    },
    {
      "epoch": 0.5433541666666667,
      "grad_norm": 0.9310097098350525,
      "learning_rate": 0.00013052533424229542,
      "loss": 3.7549,
      "step": 260810
    },
    {
      "epoch": 0.543375,
      "grad_norm": 0.8863278031349182,
      "learning_rate": 0.00013051555917159834,
      "loss": 3.6721,
      "step": 260820
    },
    {
      "epoch": 0.5433958333333333,
      "grad_norm": 0.9723328948020935,
      "learning_rate": 0.00013050578418506627,
      "loss": 3.8559,
      "step": 260830
    },
    {
      "epoch": 0.5434166666666667,
      "grad_norm": 0.9677930474281311,
      "learning_rate": 0.00013049600928274161,
      "loss": 4.0157,
      "step": 260840
    },
    {
      "epoch": 0.5434375,
      "grad_norm": 0.869410514831543,
      "learning_rate": 0.0001304862344646664,
      "loss": 3.9345,
      "step": 260850
    },
    {
      "epoch": 0.5434583333333334,
      "grad_norm": 0.9077554941177368,
      "learning_rate": 0.00013047645973088292,
      "loss": 3.8329,
      "step": 260860
    },
    {
      "epoch": 0.5434791666666666,
      "grad_norm": 1.2211824655532837,
      "learning_rate": 0.00013046668508143348,
      "loss": 3.9366,
      "step": 260870
    },
    {
      "epoch": 0.5435,
      "grad_norm": 0.8891457319259644,
      "learning_rate": 0.00013045691051636018,
      "loss": 3.7401,
      "step": 260880
    },
    {
      "epoch": 0.5435208333333333,
      "grad_norm": 1.1745251417160034,
      "learning_rate": 0.00013044713603570533,
      "loss": 3.9431,
      "step": 260890
    },
    {
      "epoch": 0.5435416666666667,
      "grad_norm": 0.9040588736534119,
      "learning_rate": 0.00013043736163951102,
      "loss": 3.6927,
      "step": 260900
    },
    {
      "epoch": 0.5435625,
      "grad_norm": 0.8326635956764221,
      "learning_rate": 0.00013042758732781964,
      "loss": 3.7827,
      "step": 260910
    },
    {
      "epoch": 0.5435833333333333,
      "grad_norm": 1.3436046838760376,
      "learning_rate": 0.00013041781310067335,
      "loss": 3.8383,
      "step": 260920
    },
    {
      "epoch": 0.5436041666666667,
      "grad_norm": 0.890779972076416,
      "learning_rate": 0.00013040803895811428,
      "loss": 3.855,
      "step": 260930
    },
    {
      "epoch": 0.543625,
      "grad_norm": 1.0788288116455078,
      "learning_rate": 0.00013039826490018482,
      "loss": 3.6636,
      "step": 260940
    },
    {
      "epoch": 0.5436458333333334,
      "grad_norm": 0.9483885765075684,
      "learning_rate": 0.00013038849092692704,
      "loss": 3.788,
      "step": 260950
    },
    {
      "epoch": 0.5436666666666666,
      "grad_norm": 1.0505294799804688,
      "learning_rate": 0.00013037871703838318,
      "loss": 3.984,
      "step": 260960
    },
    {
      "epoch": 0.5436875,
      "grad_norm": 0.926464319229126,
      "learning_rate": 0.00013036894323459556,
      "loss": 3.8776,
      "step": 260970
    },
    {
      "epoch": 0.5437083333333333,
      "grad_norm": 1.2099063396453857,
      "learning_rate": 0.0001303591695156063,
      "loss": 3.7979,
      "step": 260980
    },
    {
      "epoch": 0.5437291666666667,
      "grad_norm": 0.8858441114425659,
      "learning_rate": 0.00013034939588145764,
      "loss": 3.9499,
      "step": 260990
    },
    {
      "epoch": 0.54375,
      "grad_norm": 1.003114104270935,
      "learning_rate": 0.00013033962233219187,
      "loss": 3.8399,
      "step": 261000
    },
    {
      "epoch": 0.54375,
      "eval_loss": 3.6015095710754395,
      "eval_runtime": 6.8989,
      "eval_samples_per_second": 1.449,
      "eval_steps_per_second": 0.435,
      "step": 261000
    },
    {
      "epoch": 0.5437708333333333,
      "grad_norm": 1.0674479007720947,
      "learning_rate": 0.00013032984886785114,
      "loss": 4.1415,
      "step": 261010
    },
    {
      "epoch": 0.5437916666666667,
      "grad_norm": 1.0277503728866577,
      "learning_rate": 0.0001303200754884776,
      "loss": 3.8062,
      "step": 261020
    },
    {
      "epoch": 0.5438125,
      "grad_norm": 0.8934506177902222,
      "learning_rate": 0.00013031030219411364,
      "loss": 3.7987,
      "step": 261030
    },
    {
      "epoch": 0.5438333333333333,
      "grad_norm": 1.0048366785049438,
      "learning_rate": 0.00013030052898480135,
      "loss": 3.7854,
      "step": 261040
    },
    {
      "epoch": 0.5438541666666666,
      "grad_norm": 0.9031870365142822,
      "learning_rate": 0.00013029075586058295,
      "loss": 3.8399,
      "step": 261050
    },
    {
      "epoch": 0.543875,
      "grad_norm": 0.9877141714096069,
      "learning_rate": 0.0001302809828215007,
      "loss": 4.0,
      "step": 261060
    },
    {
      "epoch": 0.5438958333333334,
      "grad_norm": 0.9170646667480469,
      "learning_rate": 0.00013027120986759683,
      "loss": 3.9143,
      "step": 261070
    },
    {
      "epoch": 0.5439166666666667,
      "grad_norm": 1.134507179260254,
      "learning_rate": 0.00013026143699891343,
      "loss": 3.8897,
      "step": 261080
    },
    {
      "epoch": 0.5439375,
      "grad_norm": 0.929302453994751,
      "learning_rate": 0.00013025166421549287,
      "loss": 3.616,
      "step": 261090
    },
    {
      "epoch": 0.5439583333333333,
      "grad_norm": 0.9523261189460754,
      "learning_rate": 0.00013024189151737735,
      "loss": 3.6982,
      "step": 261100
    },
    {
      "epoch": 0.5439791666666667,
      "grad_norm": 0.9244654178619385,
      "learning_rate": 0.00013023211890460896,
      "loss": 3.7417,
      "step": 261110
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.9665052890777588,
      "learning_rate": 0.00013022234637723003,
      "loss": 3.9812,
      "step": 261120
    },
    {
      "epoch": 0.5440208333333333,
      "grad_norm": 0.9541558027267456,
      "learning_rate": 0.00013021257393528276,
      "loss": 3.8666,
      "step": 261130
    },
    {
      "epoch": 0.5440416666666666,
      "grad_norm": 0.9480212926864624,
      "learning_rate": 0.00013020280157880927,
      "loss": 3.7977,
      "step": 261140
    },
    {
      "epoch": 0.5440625,
      "grad_norm": 0.9141477942466736,
      "learning_rate": 0.00013019302930785187,
      "loss": 3.8569,
      "step": 261150
    },
    {
      "epoch": 0.5440833333333334,
      "grad_norm": 0.9531915187835693,
      "learning_rate": 0.0001301832571224528,
      "loss": 3.9163,
      "step": 261160
    },
    {
      "epoch": 0.5441041666666667,
      "grad_norm": 1.2621738910675049,
      "learning_rate": 0.0001301734850226542,
      "loss": 3.8016,
      "step": 261170
    },
    {
      "epoch": 0.544125,
      "grad_norm": 1.0012083053588867,
      "learning_rate": 0.00013016371300849822,
      "loss": 3.689,
      "step": 261180
    },
    {
      "epoch": 0.5441458333333333,
      "grad_norm": 1.0356782674789429,
      "learning_rate": 0.00013015394108002718,
      "loss": 3.8164,
      "step": 261190
    },
    {
      "epoch": 0.5441666666666667,
      "grad_norm": 0.8144124150276184,
      "learning_rate": 0.00013014416923728332,
      "loss": 3.7054,
      "step": 261200
    },
    {
      "epoch": 0.5441875,
      "grad_norm": 0.9589675664901733,
      "learning_rate": 0.00013013439748030872,
      "loss": 3.6386,
      "step": 261210
    },
    {
      "epoch": 0.5442083333333333,
      "grad_norm": 0.9940915107727051,
      "learning_rate": 0.00013012462580914565,
      "loss": 3.9201,
      "step": 261220
    },
    {
      "epoch": 0.5442291666666667,
      "grad_norm": 1.0271055698394775,
      "learning_rate": 0.0001301148542238364,
      "loss": 3.9732,
      "step": 261230
    },
    {
      "epoch": 0.54425,
      "grad_norm": 1.2061305046081543,
      "learning_rate": 0.00013010508272442303,
      "loss": 3.7689,
      "step": 261240
    },
    {
      "epoch": 0.5442708333333334,
      "grad_norm": 0.9031028151512146,
      "learning_rate": 0.00013009531131094788,
      "loss": 3.8912,
      "step": 261250
    },
    {
      "epoch": 0.5442916666666666,
      "grad_norm": 1.1476179361343384,
      "learning_rate": 0.0001300855399834531,
      "loss": 3.7145,
      "step": 261260
    },
    {
      "epoch": 0.5443125,
      "grad_norm": 0.9076246023178101,
      "learning_rate": 0.00013007576874198088,
      "loss": 3.9003,
      "step": 261270
    },
    {
      "epoch": 0.5443333333333333,
      "grad_norm": 1.0269287824630737,
      "learning_rate": 0.00013006599758657347,
      "loss": 3.7685,
      "step": 261280
    },
    {
      "epoch": 0.5443541666666667,
      "grad_norm": 0.9769061207771301,
      "learning_rate": 0.0001300562265172731,
      "loss": 3.7514,
      "step": 261290
    },
    {
      "epoch": 0.544375,
      "grad_norm": 0.8990428447723389,
      "learning_rate": 0.00013004645553412185,
      "loss": 3.8301,
      "step": 261300
    },
    {
      "epoch": 0.5443958333333333,
      "grad_norm": 0.9246574640274048,
      "learning_rate": 0.00013003668463716208,
      "loss": 3.9826,
      "step": 261310
    },
    {
      "epoch": 0.5444166666666667,
      "grad_norm": 0.9260669946670532,
      "learning_rate": 0.00013002691382643593,
      "loss": 3.8194,
      "step": 261320
    },
    {
      "epoch": 0.5444375,
      "grad_norm": 0.9111392498016357,
      "learning_rate": 0.00013001714310198554,
      "loss": 3.8424,
      "step": 261330
    },
    {
      "epoch": 0.5444583333333334,
      "grad_norm": 1.0953630208969116,
      "learning_rate": 0.00013000737246385326,
      "loss": 3.8974,
      "step": 261340
    },
    {
      "epoch": 0.5444791666666666,
      "grad_norm": 0.9290875792503357,
      "learning_rate": 0.00012999760191208118,
      "loss": 3.7624,
      "step": 261350
    },
    {
      "epoch": 0.5445,
      "grad_norm": 0.9659190773963928,
      "learning_rate": 0.00012998783144671153,
      "loss": 3.7431,
      "step": 261360
    },
    {
      "epoch": 0.5445208333333333,
      "grad_norm": 0.8891286253929138,
      "learning_rate": 0.00012997806106778656,
      "loss": 3.7798,
      "step": 261370
    },
    {
      "epoch": 0.5445416666666667,
      "grad_norm": 0.9368951916694641,
      "learning_rate": 0.0001299682907753484,
      "loss": 3.6588,
      "step": 261380
    },
    {
      "epoch": 0.5445625,
      "grad_norm": 1.0166420936584473,
      "learning_rate": 0.0001299585205694393,
      "loss": 3.7398,
      "step": 261390
    },
    {
      "epoch": 0.5445833333333333,
      "grad_norm": 0.9867233633995056,
      "learning_rate": 0.0001299487504501015,
      "loss": 3.8485,
      "step": 261400
    },
    {
      "epoch": 0.5446041666666667,
      "grad_norm": 0.9381271600723267,
      "learning_rate": 0.00012993898041737718,
      "loss": 3.77,
      "step": 261410
    },
    {
      "epoch": 0.544625,
      "grad_norm": 0.8924376368522644,
      "learning_rate": 0.00012992921047130841,
      "loss": 3.7741,
      "step": 261420
    },
    {
      "epoch": 0.5446458333333334,
      "grad_norm": 1.1167038679122925,
      "learning_rate": 0.00012991944061193763,
      "loss": 3.8523,
      "step": 261430
    },
    {
      "epoch": 0.5446666666666666,
      "grad_norm": 1.2247419357299805,
      "learning_rate": 0.0001299096708393069,
      "loss": 3.8626,
      "step": 261440
    },
    {
      "epoch": 0.5446875,
      "grad_norm": 0.9229340553283691,
      "learning_rate": 0.00012989990115345838,
      "loss": 3.7616,
      "step": 261450
    },
    {
      "epoch": 0.5447083333333333,
      "grad_norm": 0.9592862725257874,
      "learning_rate": 0.00012989013155443436,
      "loss": 3.7999,
      "step": 261460
    },
    {
      "epoch": 0.5447291666666667,
      "grad_norm": 1.186362385749817,
      "learning_rate": 0.00012988036204227704,
      "loss": 3.7288,
      "step": 261470
    },
    {
      "epoch": 0.54475,
      "grad_norm": 0.9921697378158569,
      "learning_rate": 0.00012987059261702856,
      "loss": 3.8191,
      "step": 261480
    },
    {
      "epoch": 0.5447708333333333,
      "grad_norm": 0.9406660795211792,
      "learning_rate": 0.0001298608232787311,
      "loss": 3.8951,
      "step": 261490
    },
    {
      "epoch": 0.5447916666666667,
      "grad_norm": 0.9088364839553833,
      "learning_rate": 0.000129851054027427,
      "loss": 3.7471,
      "step": 261500
    },
    {
      "epoch": 0.5448125,
      "grad_norm": 0.8850292563438416,
      "learning_rate": 0.00012984128486315835,
      "loss": 3.8988,
      "step": 261510
    },
    {
      "epoch": 0.5448333333333333,
      "grad_norm": 0.919048011302948,
      "learning_rate": 0.00012983151578596733,
      "loss": 3.7319,
      "step": 261520
    },
    {
      "epoch": 0.5448541666666666,
      "grad_norm": 0.8819342255592346,
      "learning_rate": 0.00012982174679589624,
      "loss": 3.8639,
      "step": 261530
    },
    {
      "epoch": 0.544875,
      "grad_norm": 0.9008265137672424,
      "learning_rate": 0.0001298119778929872,
      "loss": 3.8847,
      "step": 261540
    },
    {
      "epoch": 0.5448958333333334,
      "grad_norm": 0.9136928915977478,
      "learning_rate": 0.00012980220907728238,
      "loss": 3.6903,
      "step": 261550
    },
    {
      "epoch": 0.5449166666666667,
      "grad_norm": 0.9659186005592346,
      "learning_rate": 0.00012979244034882405,
      "loss": 3.8343,
      "step": 261560
    },
    {
      "epoch": 0.5449375,
      "grad_norm": 0.9595473408699036,
      "learning_rate": 0.00012978267170765442,
      "loss": 3.8233,
      "step": 261570
    },
    {
      "epoch": 0.5449583333333333,
      "grad_norm": 0.8984169960021973,
      "learning_rate": 0.00012977290315381557,
      "loss": 3.6541,
      "step": 261580
    },
    {
      "epoch": 0.5449791666666667,
      "grad_norm": 0.8928408026695251,
      "learning_rate": 0.00012976313468734979,
      "loss": 3.87,
      "step": 261590
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.9041479825973511,
      "learning_rate": 0.0001297533663082993,
      "loss": 3.7746,
      "step": 261600
    },
    {
      "epoch": 0.5450208333333333,
      "grad_norm": 0.9263196587562561,
      "learning_rate": 0.0001297435980167062,
      "loss": 3.5962,
      "step": 261610
    },
    {
      "epoch": 0.5450416666666666,
      "grad_norm": 0.9635398983955383,
      "learning_rate": 0.00012973382981261276,
      "loss": 3.744,
      "step": 261620
    },
    {
      "epoch": 0.5450625,
      "grad_norm": 0.9900820851325989,
      "learning_rate": 0.0001297240616960612,
      "loss": 3.8394,
      "step": 261630
    },
    {
      "epoch": 0.5450833333333334,
      "grad_norm": 0.8945070505142212,
      "learning_rate": 0.00012971429366709358,
      "loss": 3.796,
      "step": 261640
    },
    {
      "epoch": 0.5451041666666666,
      "grad_norm": 0.9259438514709473,
      "learning_rate": 0.00012970452572575223,
      "loss": 3.7487,
      "step": 261650
    },
    {
      "epoch": 0.545125,
      "grad_norm": 0.9731917977333069,
      "learning_rate": 0.00012969475787207932,
      "loss": 3.8433,
      "step": 261660
    },
    {
      "epoch": 0.5451458333333333,
      "grad_norm": 1.03053617477417,
      "learning_rate": 0.00012968499010611697,
      "loss": 3.7631,
      "step": 261670
    },
    {
      "epoch": 0.5451666666666667,
      "grad_norm": 0.8864120244979858,
      "learning_rate": 0.00012967522242790747,
      "loss": 3.8879,
      "step": 261680
    },
    {
      "epoch": 0.5451875,
      "grad_norm": 0.8906151652336121,
      "learning_rate": 0.00012966545483749295,
      "loss": 3.9526,
      "step": 261690
    },
    {
      "epoch": 0.5452083333333333,
      "grad_norm": 0.9650123119354248,
      "learning_rate": 0.00012965568733491558,
      "loss": 3.8144,
      "step": 261700
    },
    {
      "epoch": 0.5452291666666667,
      "grad_norm": 1.0171594619750977,
      "learning_rate": 0.00012964591992021762,
      "loss": 3.7486,
      "step": 261710
    },
    {
      "epoch": 0.54525,
      "grad_norm": 1.267699122428894,
      "learning_rate": 0.00012963615259344122,
      "loss": 3.6551,
      "step": 261720
    },
    {
      "epoch": 0.5452708333333334,
      "grad_norm": 0.9814339280128479,
      "learning_rate": 0.00012962638535462856,
      "loss": 3.8105,
      "step": 261730
    },
    {
      "epoch": 0.5452916666666666,
      "grad_norm": 0.9127928018569946,
      "learning_rate": 0.0001296166182038219,
      "loss": 3.8306,
      "step": 261740
    },
    {
      "epoch": 0.5453125,
      "grad_norm": 0.8834414482116699,
      "learning_rate": 0.00012960685114106333,
      "loss": 3.9448,
      "step": 261750
    },
    {
      "epoch": 0.5453333333333333,
      "grad_norm": 0.937663733959198,
      "learning_rate": 0.00012959708416639517,
      "loss": 3.8163,
      "step": 261760
    },
    {
      "epoch": 0.5453541666666667,
      "grad_norm": 0.9646644592285156,
      "learning_rate": 0.00012958731727985944,
      "loss": 3.9104,
      "step": 261770
    },
    {
      "epoch": 0.545375,
      "grad_norm": 0.8822373151779175,
      "learning_rate": 0.00012957755048149843,
      "loss": 3.6804,
      "step": 261780
    },
    {
      "epoch": 0.5453958333333333,
      "grad_norm": 0.9118671417236328,
      "learning_rate": 0.00012956778377135438,
      "loss": 3.8976,
      "step": 261790
    },
    {
      "epoch": 0.5454166666666667,
      "grad_norm": 0.9585954546928406,
      "learning_rate": 0.00012955801714946937,
      "loss": 3.7832,
      "step": 261800
    },
    {
      "epoch": 0.5454375,
      "grad_norm": 0.9442728161811829,
      "learning_rate": 0.00012954825061588566,
      "loss": 3.8084,
      "step": 261810
    },
    {
      "epoch": 0.5454583333333334,
      "grad_norm": 1.0283180475234985,
      "learning_rate": 0.0001295384841706454,
      "loss": 3.9089,
      "step": 261820
    },
    {
      "epoch": 0.5454791666666666,
      "grad_norm": 0.8734768629074097,
      "learning_rate": 0.00012952871781379073,
      "loss": 3.578,
      "step": 261830
    },
    {
      "epoch": 0.5455,
      "grad_norm": 0.9988747835159302,
      "learning_rate": 0.000129518951545364,
      "loss": 3.7354,
      "step": 261840
    },
    {
      "epoch": 0.5455208333333333,
      "grad_norm": 1.0235539674758911,
      "learning_rate": 0.00012950918536540722,
      "loss": 3.959,
      "step": 261850
    },
    {
      "epoch": 0.5455416666666667,
      "grad_norm": 0.8629220724105835,
      "learning_rate": 0.00012949941927396265,
      "loss": 3.851,
      "step": 261860
    },
    {
      "epoch": 0.5455625,
      "grad_norm": 1.0004812479019165,
      "learning_rate": 0.00012948965327107254,
      "loss": 3.6625,
      "step": 261870
    },
    {
      "epoch": 0.5455833333333333,
      "grad_norm": 0.9053970575332642,
      "learning_rate": 0.00012947988735677896,
      "loss": 3.8319,
      "step": 261880
    },
    {
      "epoch": 0.5456041666666667,
      "grad_norm": 0.9431629180908203,
      "learning_rate": 0.0001294701215311241,
      "loss": 3.7229,
      "step": 261890
    },
    {
      "epoch": 0.545625,
      "grad_norm": 0.9714371562004089,
      "learning_rate": 0.00012946035579415027,
      "loss": 3.5363,
      "step": 261900
    },
    {
      "epoch": 0.5456458333333334,
      "grad_norm": 0.9557982683181763,
      "learning_rate": 0.00012945059014589954,
      "loss": 3.9552,
      "step": 261910
    },
    {
      "epoch": 0.5456666666666666,
      "grad_norm": 1.0690184831619263,
      "learning_rate": 0.0001294408245864141,
      "loss": 3.7967,
      "step": 261920
    },
    {
      "epoch": 0.5456875,
      "grad_norm": 1.0169769525527954,
      "learning_rate": 0.0001294310591157362,
      "loss": 3.8542,
      "step": 261930
    },
    {
      "epoch": 0.5457083333333334,
      "grad_norm": 0.9632272124290466,
      "learning_rate": 0.000129421293733908,
      "loss": 3.7958,
      "step": 261940
    },
    {
      "epoch": 0.5457291666666667,
      "grad_norm": 0.9852898716926575,
      "learning_rate": 0.0001294115284409716,
      "loss": 3.5868,
      "step": 261950
    },
    {
      "epoch": 0.54575,
      "grad_norm": 0.9172832369804382,
      "learning_rate": 0.0001294017632369693,
      "loss": 3.7553,
      "step": 261960
    },
    {
      "epoch": 0.5457708333333333,
      "grad_norm": 0.9562820196151733,
      "learning_rate": 0.00012939199812194322,
      "loss": 3.8278,
      "step": 261970
    },
    {
      "epoch": 0.5457916666666667,
      "grad_norm": 1.1179040670394897,
      "learning_rate": 0.00012938223309593553,
      "loss": 3.873,
      "step": 261980
    },
    {
      "epoch": 0.5458125,
      "grad_norm": 0.8885117173194885,
      "learning_rate": 0.00012937246815898843,
      "loss": 3.8427,
      "step": 261990
    },
    {
      "epoch": 0.5458333333333333,
      "grad_norm": 1.2285975217819214,
      "learning_rate": 0.00012936270331114416,
      "loss": 4.0148,
      "step": 262000
    },
    {
      "epoch": 0.5458333333333333,
      "eval_loss": 3.6023597717285156,
      "eval_runtime": 6.8012,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.441,
      "step": 262000
    },
    {
      "epoch": 0.5458541666666666,
      "grad_norm": 1.019915223121643,
      "learning_rate": 0.00012935293855244478,
      "loss": 3.8312,
      "step": 262010
    },
    {
      "epoch": 0.545875,
      "grad_norm": 1.1048777103424072,
      "learning_rate": 0.00012934317388293255,
      "loss": 3.8139,
      "step": 262020
    },
    {
      "epoch": 0.5458958333333334,
      "grad_norm": 0.9466645121574402,
      "learning_rate": 0.00012933340930264966,
      "loss": 3.8648,
      "step": 262030
    },
    {
      "epoch": 0.5459166666666667,
      "grad_norm": 0.9384298324584961,
      "learning_rate": 0.0001293236448116382,
      "loss": 3.7096,
      "step": 262040
    },
    {
      "epoch": 0.5459375,
      "grad_norm": 1.1638356447219849,
      "learning_rate": 0.00012931388040994047,
      "loss": 3.9017,
      "step": 262050
    },
    {
      "epoch": 0.5459583333333333,
      "grad_norm": 0.9500802755355835,
      "learning_rate": 0.00012930411609759856,
      "loss": 3.7997,
      "step": 262060
    },
    {
      "epoch": 0.5459791666666667,
      "grad_norm": 0.9392027258872986,
      "learning_rate": 0.00012929435187465472,
      "loss": 3.8208,
      "step": 262070
    },
    {
      "epoch": 0.546,
      "grad_norm": 1.0005319118499756,
      "learning_rate": 0.000129284587741151,
      "loss": 3.8718,
      "step": 262080
    },
    {
      "epoch": 0.5460208333333333,
      "grad_norm": 0.9051029682159424,
      "learning_rate": 0.00012927482369712973,
      "loss": 3.7079,
      "step": 262090
    },
    {
      "epoch": 0.5460416666666666,
      "grad_norm": 0.9124584197998047,
      "learning_rate": 0.000129265059742633,
      "loss": 3.8559,
      "step": 262100
    },
    {
      "epoch": 0.5460625,
      "grad_norm": 0.9664852023124695,
      "learning_rate": 0.00012925529587770298,
      "loss": 3.976,
      "step": 262110
    },
    {
      "epoch": 0.5460833333333334,
      "grad_norm": 0.9208584427833557,
      "learning_rate": 0.0001292455321023819,
      "loss": 3.9487,
      "step": 262120
    },
    {
      "epoch": 0.5461041666666666,
      "grad_norm": 0.8873951435089111,
      "learning_rate": 0.0001292357684167119,
      "loss": 3.8646,
      "step": 262130
    },
    {
      "epoch": 0.546125,
      "grad_norm": 1.1866827011108398,
      "learning_rate": 0.00012922600482073512,
      "loss": 3.8409,
      "step": 262140
    },
    {
      "epoch": 0.5461458333333333,
      "grad_norm": 0.9056329727172852,
      "learning_rate": 0.00012921624131449384,
      "loss": 3.6767,
      "step": 262150
    },
    {
      "epoch": 0.5461666666666667,
      "grad_norm": 0.8827299475669861,
      "learning_rate": 0.00012920647789803016,
      "loss": 3.771,
      "step": 262160
    },
    {
      "epoch": 0.5461875,
      "grad_norm": 0.9603617191314697,
      "learning_rate": 0.0001291967145713862,
      "loss": 3.804,
      "step": 262170
    },
    {
      "epoch": 0.5462083333333333,
      "grad_norm": 0.9165010452270508,
      "learning_rate": 0.0001291869513346043,
      "loss": 3.7908,
      "step": 262180
    },
    {
      "epoch": 0.5462291666666667,
      "grad_norm": 0.9086894392967224,
      "learning_rate": 0.00012917718818772648,
      "loss": 3.7692,
      "step": 262190
    },
    {
      "epoch": 0.54625,
      "grad_norm": 1.067176342010498,
      "learning_rate": 0.00012916742513079493,
      "loss": 3.8545,
      "step": 262200
    },
    {
      "epoch": 0.5462708333333334,
      "grad_norm": 0.9090195894241333,
      "learning_rate": 0.0001291576621638519,
      "loss": 3.544,
      "step": 262210
    },
    {
      "epoch": 0.5462916666666666,
      "grad_norm": 0.9125028252601624,
      "learning_rate": 0.00012914789928693954,
      "loss": 3.6209,
      "step": 262220
    },
    {
      "epoch": 0.5463125,
      "grad_norm": 1.0911420583724976,
      "learning_rate": 0.00012913813650009993,
      "loss": 3.7723,
      "step": 262230
    },
    {
      "epoch": 0.5463333333333333,
      "grad_norm": 1.0513616800308228,
      "learning_rate": 0.0001291283738033754,
      "loss": 3.7762,
      "step": 262240
    },
    {
      "epoch": 0.5463541666666667,
      "grad_norm": 0.9610726237297058,
      "learning_rate": 0.000129118611196808,
      "loss": 3.901,
      "step": 262250
    },
    {
      "epoch": 0.546375,
      "grad_norm": 1.1605260372161865,
      "learning_rate": 0.00012910884868043987,
      "loss": 3.8033,
      "step": 262260
    },
    {
      "epoch": 0.5463958333333333,
      "grad_norm": 0.9682724475860596,
      "learning_rate": 0.00012909908625431332,
      "loss": 3.7638,
      "step": 262270
    },
    {
      "epoch": 0.5464166666666667,
      "grad_norm": 0.8899168372154236,
      "learning_rate": 0.00012908932391847043,
      "loss": 3.6484,
      "step": 262280
    },
    {
      "epoch": 0.5464375,
      "grad_norm": 1.0581715106964111,
      "learning_rate": 0.00012907956167295333,
      "loss": 3.5831,
      "step": 262290
    },
    {
      "epoch": 0.5464583333333334,
      "grad_norm": 0.8982282280921936,
      "learning_rate": 0.0001290697995178043,
      "loss": 3.7573,
      "step": 262300
    },
    {
      "epoch": 0.5464791666666666,
      "grad_norm": 0.8713321685791016,
      "learning_rate": 0.00012906003745306548,
      "loss": 3.6898,
      "step": 262310
    },
    {
      "epoch": 0.5465,
      "grad_norm": 0.9200215339660645,
      "learning_rate": 0.00012905027547877894,
      "loss": 3.9126,
      "step": 262320
    },
    {
      "epoch": 0.5465208333333333,
      "grad_norm": 0.99432772397995,
      "learning_rate": 0.00012904051359498696,
      "loss": 3.7998,
      "step": 262330
    },
    {
      "epoch": 0.5465416666666667,
      "grad_norm": 0.9773564338684082,
      "learning_rate": 0.00012903075180173166,
      "loss": 3.8471,
      "step": 262340
    },
    {
      "epoch": 0.5465625,
      "grad_norm": 1.1443337202072144,
      "learning_rate": 0.00012902099009905521,
      "loss": 3.928,
      "step": 262350
    },
    {
      "epoch": 0.5465833333333333,
      "grad_norm": 0.9403577446937561,
      "learning_rate": 0.00012901122848699975,
      "loss": 3.6661,
      "step": 262360
    },
    {
      "epoch": 0.5466041666666667,
      "grad_norm": 0.8748723864555359,
      "learning_rate": 0.00012900146696560752,
      "loss": 3.8233,
      "step": 262370
    },
    {
      "epoch": 0.546625,
      "grad_norm": 0.8633989095687866,
      "learning_rate": 0.00012899170553492062,
      "loss": 3.798,
      "step": 262380
    },
    {
      "epoch": 0.5466458333333334,
      "grad_norm": 1.0062726736068726,
      "learning_rate": 0.00012898194419498122,
      "loss": 3.8151,
      "step": 262390
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 0.9311456680297852,
      "learning_rate": 0.00012897218294583154,
      "loss": 3.9599,
      "step": 262400
    },
    {
      "epoch": 0.5466875,
      "grad_norm": 1.0747400522232056,
      "learning_rate": 0.00012896242178751368,
      "loss": 3.9867,
      "step": 262410
    },
    {
      "epoch": 0.5467083333333334,
      "grad_norm": 0.9346292018890381,
      "learning_rate": 0.0001289526607200698,
      "loss": 3.653,
      "step": 262420
    },
    {
      "epoch": 0.5467291666666667,
      "grad_norm": 0.9428985118865967,
      "learning_rate": 0.00012894289974354215,
      "loss": 3.8833,
      "step": 262430
    },
    {
      "epoch": 0.54675,
      "grad_norm": 1.899717926979065,
      "learning_rate": 0.00012893313885797286,
      "loss": 3.799,
      "step": 262440
    },
    {
      "epoch": 0.5467708333333333,
      "grad_norm": 0.9676149487495422,
      "learning_rate": 0.000128923378063404,
      "loss": 3.5155,
      "step": 262450
    },
    {
      "epoch": 0.5467916666666667,
      "grad_norm": 0.9998428225517273,
      "learning_rate": 0.00012891361735987782,
      "loss": 3.7423,
      "step": 262460
    },
    {
      "epoch": 0.5468125,
      "grad_norm": 0.9112966656684875,
      "learning_rate": 0.00012890385674743649,
      "loss": 3.8113,
      "step": 262470
    },
    {
      "epoch": 0.5468333333333333,
      "grad_norm": 1.2525914907455444,
      "learning_rate": 0.00012889409622612213,
      "loss": 3.8651,
      "step": 262480
    },
    {
      "epoch": 0.5468541666666666,
      "grad_norm": 1.0875588655471802,
      "learning_rate": 0.0001288843357959769,
      "loss": 3.9195,
      "step": 262490
    },
    {
      "epoch": 0.546875,
      "grad_norm": 0.9797923564910889,
      "learning_rate": 0.00012887457545704303,
      "loss": 3.9649,
      "step": 262500
    },
    {
      "epoch": 0.5468958333333334,
      "grad_norm": 1.1706252098083496,
      "learning_rate": 0.0001288648152093626,
      "loss": 3.9541,
      "step": 262510
    },
    {
      "epoch": 0.5469166666666667,
      "grad_norm": 0.9885537028312683,
      "learning_rate": 0.0001288550550529778,
      "loss": 3.7895,
      "step": 262520
    },
    {
      "epoch": 0.5469375,
      "grad_norm": 0.9967803955078125,
      "learning_rate": 0.00012884529498793083,
      "loss": 3.8013,
      "step": 262530
    },
    {
      "epoch": 0.5469583333333333,
      "grad_norm": 0.9581811428070068,
      "learning_rate": 0.00012883553501426374,
      "loss": 3.6823,
      "step": 262540
    },
    {
      "epoch": 0.5469791666666667,
      "grad_norm": 0.8877995610237122,
      "learning_rate": 0.00012882577513201885,
      "loss": 4.0202,
      "step": 262550
    },
    {
      "epoch": 0.547,
      "grad_norm": 0.9459689855575562,
      "learning_rate": 0.0001288160153412382,
      "loss": 4.0196,
      "step": 262560
    },
    {
      "epoch": 0.5470208333333333,
      "grad_norm": 0.9023646712303162,
      "learning_rate": 0.00012880625564196392,
      "loss": 3.9057,
      "step": 262570
    },
    {
      "epoch": 0.5470416666666666,
      "grad_norm": 1.0219007730484009,
      "learning_rate": 0.0001287964960342383,
      "loss": 3.8282,
      "step": 262580
    },
    {
      "epoch": 0.5470625,
      "grad_norm": 0.8943641185760498,
      "learning_rate": 0.0001287867365181034,
      "loss": 3.694,
      "step": 262590
    },
    {
      "epoch": 0.5470833333333334,
      "grad_norm": 0.926250696182251,
      "learning_rate": 0.00012877697709360136,
      "loss": 3.8197,
      "step": 262600
    },
    {
      "epoch": 0.5471041666666666,
      "grad_norm": 0.9586811065673828,
      "learning_rate": 0.00012876721776077446,
      "loss": 3.8762,
      "step": 262610
    },
    {
      "epoch": 0.547125,
      "grad_norm": 0.9419584274291992,
      "learning_rate": 0.00012875745851966472,
      "loss": 3.6046,
      "step": 262620
    },
    {
      "epoch": 0.5471458333333333,
      "grad_norm": 1.0617060661315918,
      "learning_rate": 0.0001287476993703143,
      "loss": 3.6951,
      "step": 262630
    },
    {
      "epoch": 0.5471666666666667,
      "grad_norm": 0.9032344222068787,
      "learning_rate": 0.00012873794031276553,
      "loss": 3.8733,
      "step": 262640
    },
    {
      "epoch": 0.5471875,
      "grad_norm": 0.9408386945724487,
      "learning_rate": 0.00012872818134706038,
      "loss": 3.9805,
      "step": 262650
    },
    {
      "epoch": 0.5472083333333333,
      "grad_norm": 0.8672544360160828,
      "learning_rate": 0.0001287184224732411,
      "loss": 3.7094,
      "step": 262660
    },
    {
      "epoch": 0.5472291666666667,
      "grad_norm": 0.9854558706283569,
      "learning_rate": 0.00012870866369134974,
      "loss": 3.8039,
      "step": 262670
    },
    {
      "epoch": 0.54725,
      "grad_norm": 1.413050651550293,
      "learning_rate": 0.0001286989050014286,
      "loss": 3.846,
      "step": 262680
    },
    {
      "epoch": 0.5472708333333334,
      "grad_norm": 0.9776202440261841,
      "learning_rate": 0.0001286891464035197,
      "loss": 3.9249,
      "step": 262690
    },
    {
      "epoch": 0.5472916666666666,
      "grad_norm": 0.8939483761787415,
      "learning_rate": 0.00012867938789766525,
      "loss": 3.8074,
      "step": 262700
    },
    {
      "epoch": 0.5473125,
      "grad_norm": 1.0031917095184326,
      "learning_rate": 0.00012866962948390747,
      "loss": 3.8271,
      "step": 262710
    },
    {
      "epoch": 0.5473333333333333,
      "grad_norm": 0.8843846917152405,
      "learning_rate": 0.0001286598711622884,
      "loss": 3.6714,
      "step": 262720
    },
    {
      "epoch": 0.5473541666666667,
      "grad_norm": 1.0567787885665894,
      "learning_rate": 0.0001286501129328502,
      "loss": 3.8378,
      "step": 262730
    },
    {
      "epoch": 0.547375,
      "grad_norm": 0.9638625979423523,
      "learning_rate": 0.00012864035479563516,
      "loss": 4.0145,
      "step": 262740
    },
    {
      "epoch": 0.5473958333333333,
      "grad_norm": 1.0107001066207886,
      "learning_rate": 0.00012863059675068526,
      "loss": 3.8866,
      "step": 262750
    },
    {
      "epoch": 0.5474166666666667,
      "grad_norm": 0.9184058308601379,
      "learning_rate": 0.00012862083879804271,
      "loss": 3.7631,
      "step": 262760
    },
    {
      "epoch": 0.5474375,
      "grad_norm": 0.9594957232475281,
      "learning_rate": 0.00012861108093774974,
      "loss": 3.909,
      "step": 262770
    },
    {
      "epoch": 0.5474583333333334,
      "grad_norm": 0.9706407189369202,
      "learning_rate": 0.0001286013231698484,
      "loss": 3.8823,
      "step": 262780
    },
    {
      "epoch": 0.5474791666666666,
      "grad_norm": 0.9170153737068176,
      "learning_rate": 0.00012859156549438084,
      "loss": 3.8535,
      "step": 262790
    },
    {
      "epoch": 0.5475,
      "grad_norm": 0.9422060251235962,
      "learning_rate": 0.0001285818079113893,
      "loss": 3.741,
      "step": 262800
    },
    {
      "epoch": 0.5475208333333333,
      "grad_norm": 0.9361392259597778,
      "learning_rate": 0.0001285720504209159,
      "loss": 3.7382,
      "step": 262810
    },
    {
      "epoch": 0.5475416666666667,
      "grad_norm": 0.9308586716651917,
      "learning_rate": 0.00012856229302300265,
      "loss": 3.8264,
      "step": 262820
    },
    {
      "epoch": 0.5475625,
      "grad_norm": 0.8751574158668518,
      "learning_rate": 0.0001285525357176919,
      "loss": 3.7944,
      "step": 262830
    },
    {
      "epoch": 0.5475833333333333,
      "grad_norm": 0.9715225100517273,
      "learning_rate": 0.0001285427785050257,
      "loss": 3.9483,
      "step": 262840
    },
    {
      "epoch": 0.5476041666666667,
      "grad_norm": 0.9309086799621582,
      "learning_rate": 0.00012853302138504614,
      "loss": 3.8784,
      "step": 262850
    },
    {
      "epoch": 0.547625,
      "grad_norm": 0.9499291181564331,
      "learning_rate": 0.00012852326435779546,
      "loss": 3.5725,
      "step": 262860
    },
    {
      "epoch": 0.5476458333333334,
      "grad_norm": 0.9246138334274292,
      "learning_rate": 0.00012851350742331582,
      "loss": 3.7515,
      "step": 262870
    },
    {
      "epoch": 0.5476666666666666,
      "grad_norm": 0.9474117755889893,
      "learning_rate": 0.00012850375058164924,
      "loss": 3.9692,
      "step": 262880
    },
    {
      "epoch": 0.5476875,
      "grad_norm": 0.9031404256820679,
      "learning_rate": 0.000128493993832838,
      "loss": 3.7545,
      "step": 262890
    },
    {
      "epoch": 0.5477083333333334,
      "grad_norm": 0.8339501619338989,
      "learning_rate": 0.00012848423717692423,
      "loss": 3.9053,
      "step": 262900
    },
    {
      "epoch": 0.5477291666666667,
      "grad_norm": 1.2347053289413452,
      "learning_rate": 0.00012847448061394995,
      "loss": 3.8254,
      "step": 262910
    },
    {
      "epoch": 0.54775,
      "grad_norm": 0.9845007061958313,
      "learning_rate": 0.00012846472414395745,
      "loss": 3.7229,
      "step": 262920
    },
    {
      "epoch": 0.5477708333333333,
      "grad_norm": 1.0214829444885254,
      "learning_rate": 0.00012845496776698885,
      "loss": 3.7982,
      "step": 262930
    },
    {
      "epoch": 0.5477916666666667,
      "grad_norm": 0.9851122498512268,
      "learning_rate": 0.00012844521148308626,
      "loss": 3.7786,
      "step": 262940
    },
    {
      "epoch": 0.5478125,
      "grad_norm": 0.9778298735618591,
      "learning_rate": 0.00012843545529229176,
      "loss": 3.9091,
      "step": 262950
    },
    {
      "epoch": 0.5478333333333333,
      "grad_norm": 1.0870649814605713,
      "learning_rate": 0.0001284256991946476,
      "loss": 3.894,
      "step": 262960
    },
    {
      "epoch": 0.5478541666666666,
      "grad_norm": 0.9739193320274353,
      "learning_rate": 0.00012841594319019586,
      "loss": 3.8198,
      "step": 262970
    },
    {
      "epoch": 0.547875,
      "grad_norm": 0.8389466404914856,
      "learning_rate": 0.00012840618727897866,
      "loss": 3.8217,
      "step": 262980
    },
    {
      "epoch": 0.5478958333333334,
      "grad_norm": 0.9067431092262268,
      "learning_rate": 0.00012839643146103825,
      "loss": 3.6932,
      "step": 262990
    },
    {
      "epoch": 0.5479166666666667,
      "grad_norm": 1.0499017238616943,
      "learning_rate": 0.0001283866757364167,
      "loss": 3.7879,
      "step": 263000
    },
    {
      "epoch": 0.5479166666666667,
      "eval_loss": 3.593285083770752,
      "eval_runtime": 6.9583,
      "eval_samples_per_second": 1.437,
      "eval_steps_per_second": 0.431,
      "step": 263000
    },
    {
      "epoch": 0.5479375,
      "grad_norm": 0.9003326296806335,
      "learning_rate": 0.0001283769201051561,
      "loss": 3.8885,
      "step": 263010
    },
    {
      "epoch": 0.5479583333333333,
      "grad_norm": 0.8281103372573853,
      "learning_rate": 0.0001283671645672987,
      "loss": 3.8134,
      "step": 263020
    },
    {
      "epoch": 0.5479791666666667,
      "grad_norm": 1.0649183988571167,
      "learning_rate": 0.00012835740912288661,
      "loss": 3.6427,
      "step": 263030
    },
    {
      "epoch": 0.548,
      "grad_norm": 0.9179623126983643,
      "learning_rate": 0.00012834765377196184,
      "loss": 3.8179,
      "step": 263040
    },
    {
      "epoch": 0.5480208333333333,
      "grad_norm": 1.0283318758010864,
      "learning_rate": 0.00012833789851456675,
      "loss": 3.6977,
      "step": 263050
    },
    {
      "epoch": 0.5480416666666666,
      "grad_norm": 1.0106550455093384,
      "learning_rate": 0.0001283281433507433,
      "loss": 3.9913,
      "step": 263060
    },
    {
      "epoch": 0.5480625,
      "grad_norm": 0.9315599203109741,
      "learning_rate": 0.0001283183882805337,
      "loss": 3.8534,
      "step": 263070
    },
    {
      "epoch": 0.5480833333333334,
      "grad_norm": 1.1424717903137207,
      "learning_rate": 0.00012830863330398013,
      "loss": 3.827,
      "step": 263080
    },
    {
      "epoch": 0.5481041666666666,
      "grad_norm": 1.8960354328155518,
      "learning_rate": 0.00012829887842112463,
      "loss": 3.9576,
      "step": 263090
    },
    {
      "epoch": 0.548125,
      "grad_norm": 1.048213005065918,
      "learning_rate": 0.00012828912363200935,
      "loss": 3.6944,
      "step": 263100
    },
    {
      "epoch": 0.5481458333333333,
      "grad_norm": 0.9803899526596069,
      "learning_rate": 0.00012827936893667656,
      "loss": 3.9282,
      "step": 263110
    },
    {
      "epoch": 0.5481666666666667,
      "grad_norm": 0.9220225214958191,
      "learning_rate": 0.00012826961433516824,
      "loss": 3.7656,
      "step": 263120
    },
    {
      "epoch": 0.5481875,
      "grad_norm": 0.9177207946777344,
      "learning_rate": 0.00012825985982752654,
      "loss": 3.8042,
      "step": 263130
    },
    {
      "epoch": 0.5482083333333333,
      "grad_norm": 0.8939955830574036,
      "learning_rate": 0.00012825010541379372,
      "loss": 3.8187,
      "step": 263140
    },
    {
      "epoch": 0.5482291666666667,
      "grad_norm": 1.049783706665039,
      "learning_rate": 0.0001282403510940118,
      "loss": 3.8392,
      "step": 263150
    },
    {
      "epoch": 0.54825,
      "grad_norm": 0.9380336403846741,
      "learning_rate": 0.0001282305968682229,
      "loss": 3.6204,
      "step": 263160
    },
    {
      "epoch": 0.5482708333333334,
      "grad_norm": 0.9341719746589661,
      "learning_rate": 0.0001282208427364693,
      "loss": 3.5647,
      "step": 263170
    },
    {
      "epoch": 0.5482916666666666,
      "grad_norm": 1.0805391073226929,
      "learning_rate": 0.00012821108869879303,
      "loss": 3.7318,
      "step": 263180
    },
    {
      "epoch": 0.5483125,
      "grad_norm": 0.8893745541572571,
      "learning_rate": 0.0001282013347552362,
      "loss": 3.9269,
      "step": 263190
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 1.0153398513793945,
      "learning_rate": 0.00012819158090584095,
      "loss": 3.6224,
      "step": 263200
    },
    {
      "epoch": 0.5483541666666667,
      "grad_norm": 0.9638993144035339,
      "learning_rate": 0.00012818182715064949,
      "loss": 3.7731,
      "step": 263210
    },
    {
      "epoch": 0.548375,
      "grad_norm": 1.0168945789337158,
      "learning_rate": 0.00012817207348970384,
      "loss": 3.6056,
      "step": 263220
    },
    {
      "epoch": 0.5483958333333333,
      "grad_norm": 0.8848830461502075,
      "learning_rate": 0.00012816231992304622,
      "loss": 3.7277,
      "step": 263230
    },
    {
      "epoch": 0.5484166666666667,
      "grad_norm": 0.9606581330299377,
      "learning_rate": 0.00012815256645071877,
      "loss": 3.7182,
      "step": 263240
    },
    {
      "epoch": 0.5484375,
      "grad_norm": 1.013813853263855,
      "learning_rate": 0.00012814281307276356,
      "loss": 3.7149,
      "step": 263250
    },
    {
      "epoch": 0.5484583333333334,
      "grad_norm": 0.9549497365951538,
      "learning_rate": 0.0001281330597892227,
      "loss": 3.7679,
      "step": 263260
    },
    {
      "epoch": 0.5484791666666666,
      "grad_norm": 0.9980524778366089,
      "learning_rate": 0.00012812330660013846,
      "loss": 3.9255,
      "step": 263270
    },
    {
      "epoch": 0.5485,
      "grad_norm": 0.8715720176696777,
      "learning_rate": 0.00012811355350555282,
      "loss": 3.8258,
      "step": 263280
    },
    {
      "epoch": 0.5485208333333333,
      "grad_norm": 0.9097640514373779,
      "learning_rate": 0.00012810380050550793,
      "loss": 3.89,
      "step": 263290
    },
    {
      "epoch": 0.5485416666666667,
      "grad_norm": 1.24875807762146,
      "learning_rate": 0.000128094047600046,
      "loss": 3.9055,
      "step": 263300
    },
    {
      "epoch": 0.5485625,
      "grad_norm": 1.009926676750183,
      "learning_rate": 0.00012808429478920915,
      "loss": 3.6454,
      "step": 263310
    },
    {
      "epoch": 0.5485833333333333,
      "grad_norm": 0.9272468090057373,
      "learning_rate": 0.00012807454207303942,
      "loss": 3.9439,
      "step": 263320
    },
    {
      "epoch": 0.5486041666666667,
      "grad_norm": 0.9657303094863892,
      "learning_rate": 0.00012806478945157898,
      "loss": 3.7232,
      "step": 263330
    },
    {
      "epoch": 0.548625,
      "grad_norm": 0.8613488078117371,
      "learning_rate": 0.00012805503692487,
      "loss": 3.7282,
      "step": 263340
    },
    {
      "epoch": 0.5486458333333334,
      "grad_norm": 0.8832393884658813,
      "learning_rate": 0.00012804528449295453,
      "loss": 3.7248,
      "step": 263350
    },
    {
      "epoch": 0.5486666666666666,
      "grad_norm": 0.9895120859146118,
      "learning_rate": 0.0001280355321558748,
      "loss": 3.7525,
      "step": 263360
    },
    {
      "epoch": 0.5486875,
      "grad_norm": 0.8929983377456665,
      "learning_rate": 0.00012802577991367285,
      "loss": 3.8687,
      "step": 263370
    },
    {
      "epoch": 0.5487083333333334,
      "grad_norm": 1.0118253231048584,
      "learning_rate": 0.0001280160277663908,
      "loss": 3.7801,
      "step": 263380
    },
    {
      "epoch": 0.5487291666666667,
      "grad_norm": 0.9289833307266235,
      "learning_rate": 0.00012800627571407083,
      "loss": 3.6604,
      "step": 263390
    },
    {
      "epoch": 0.54875,
      "grad_norm": 0.8726682662963867,
      "learning_rate": 0.00012799652375675507,
      "loss": 3.743,
      "step": 263400
    },
    {
      "epoch": 0.5487708333333333,
      "grad_norm": 0.9716579914093018,
      "learning_rate": 0.00012798677189448558,
      "loss": 3.8804,
      "step": 263410
    },
    {
      "epoch": 0.5487916666666667,
      "grad_norm": 0.9536435008049011,
      "learning_rate": 0.00012797702012730454,
      "loss": 3.8465,
      "step": 263420
    },
    {
      "epoch": 0.5488125,
      "grad_norm": 0.918688952922821,
      "learning_rate": 0.00012796726845525408,
      "loss": 3.9868,
      "step": 263430
    },
    {
      "epoch": 0.5488333333333333,
      "grad_norm": 1.0417227745056152,
      "learning_rate": 0.00012795751687837625,
      "loss": 3.733,
      "step": 263440
    },
    {
      "epoch": 0.5488541666666666,
      "grad_norm": 0.9022356867790222,
      "learning_rate": 0.00012794776539671327,
      "loss": 3.724,
      "step": 263450
    },
    {
      "epoch": 0.548875,
      "grad_norm": 0.9397757053375244,
      "learning_rate": 0.00012793801401030718,
      "loss": 3.6472,
      "step": 263460
    },
    {
      "epoch": 0.5488958333333334,
      "grad_norm": 0.9159428477287292,
      "learning_rate": 0.00012792826271920013,
      "loss": 3.9589,
      "step": 263470
    },
    {
      "epoch": 0.5489166666666667,
      "grad_norm": 0.9441455006599426,
      "learning_rate": 0.0001279185115234343,
      "loss": 3.9191,
      "step": 263480
    },
    {
      "epoch": 0.5489375,
      "grad_norm": 0.8704584240913391,
      "learning_rate": 0.00012790876042305174,
      "loss": 3.553,
      "step": 263490
    },
    {
      "epoch": 0.5489583333333333,
      "grad_norm": 0.9569597244262695,
      "learning_rate": 0.00012789900941809454,
      "loss": 3.7718,
      "step": 263500
    },
    {
      "epoch": 0.5489791666666667,
      "grad_norm": 0.9673250317573547,
      "learning_rate": 0.0001278892585086049,
      "loss": 3.752,
      "step": 263510
    },
    {
      "epoch": 0.549,
      "grad_norm": 0.9689419865608215,
      "learning_rate": 0.00012787950769462493,
      "loss": 3.7168,
      "step": 263520
    },
    {
      "epoch": 0.5490208333333333,
      "grad_norm": 0.9685693383216858,
      "learning_rate": 0.00012786975697619678,
      "loss": 3.8061,
      "step": 263530
    },
    {
      "epoch": 0.5490416666666667,
      "grad_norm": 0.9229986071586609,
      "learning_rate": 0.00012786000635336243,
      "loss": 3.7683,
      "step": 263540
    },
    {
      "epoch": 0.5490625,
      "grad_norm": 0.9234878420829773,
      "learning_rate": 0.00012785025582616414,
      "loss": 3.8036,
      "step": 263550
    },
    {
      "epoch": 0.5490833333333334,
      "grad_norm": 1.0897938013076782,
      "learning_rate": 0.00012784050539464396,
      "loss": 3.645,
      "step": 263560
    },
    {
      "epoch": 0.5491041666666666,
      "grad_norm": 1.0137983560562134,
      "learning_rate": 0.00012783075505884398,
      "loss": 3.8088,
      "step": 263570
    },
    {
      "epoch": 0.549125,
      "grad_norm": 0.9682440757751465,
      "learning_rate": 0.00012782100481880645,
      "loss": 3.8479,
      "step": 263580
    },
    {
      "epoch": 0.5491458333333333,
      "grad_norm": 0.9722879528999329,
      "learning_rate": 0.00012781125467457334,
      "loss": 3.7922,
      "step": 263590
    },
    {
      "epoch": 0.5491666666666667,
      "grad_norm": 0.9304712414741516,
      "learning_rate": 0.00012780150462618682,
      "loss": 3.7434,
      "step": 263600
    },
    {
      "epoch": 0.5491875,
      "grad_norm": 0.8950038552284241,
      "learning_rate": 0.00012779175467368906,
      "loss": 3.794,
      "step": 263610
    },
    {
      "epoch": 0.5492083333333333,
      "grad_norm": 0.9762237668037415,
      "learning_rate": 0.0001277820048171221,
      "loss": 3.8719,
      "step": 263620
    },
    {
      "epoch": 0.5492291666666667,
      "grad_norm": 1.190466284751892,
      "learning_rate": 0.00012777225505652804,
      "loss": 3.8427,
      "step": 263630
    },
    {
      "epoch": 0.54925,
      "grad_norm": 0.9807339906692505,
      "learning_rate": 0.00012776250539194914,
      "loss": 3.836,
      "step": 263640
    },
    {
      "epoch": 0.5492708333333334,
      "grad_norm": 0.9203404784202576,
      "learning_rate": 0.00012775275582342736,
      "loss": 3.7456,
      "step": 263650
    },
    {
      "epoch": 0.5492916666666666,
      "grad_norm": 0.9035599231719971,
      "learning_rate": 0.00012774300635100486,
      "loss": 3.9786,
      "step": 263660
    },
    {
      "epoch": 0.5493125,
      "grad_norm": 0.8641862273216248,
      "learning_rate": 0.0001277332569747238,
      "loss": 3.7454,
      "step": 263670
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 1.1410822868347168,
      "learning_rate": 0.00012772350769462624,
      "loss": 3.9,
      "step": 263680
    },
    {
      "epoch": 0.5493541666666667,
      "grad_norm": 0.9237256050109863,
      "learning_rate": 0.00012771375851075426,
      "loss": 3.7505,
      "step": 263690
    },
    {
      "epoch": 0.549375,
      "grad_norm": 0.9128531217575073,
      "learning_rate": 0.00012770400942315008,
      "loss": 3.8855,
      "step": 263700
    },
    {
      "epoch": 0.5493958333333333,
      "grad_norm": 1.142325758934021,
      "learning_rate": 0.00012769426043185577,
      "loss": 3.7783,
      "step": 263710
    },
    {
      "epoch": 0.5494166666666667,
      "grad_norm": 0.8841564655303955,
      "learning_rate": 0.00012768451153691337,
      "loss": 4.0097,
      "step": 263720
    },
    {
      "epoch": 0.5494375,
      "grad_norm": 0.9586959481239319,
      "learning_rate": 0.00012767476273836505,
      "loss": 3.7714,
      "step": 263730
    },
    {
      "epoch": 0.5494583333333334,
      "grad_norm": 0.9723144173622131,
      "learning_rate": 0.00012766501403625299,
      "loss": 3.8279,
      "step": 263740
    },
    {
      "epoch": 0.5494791666666666,
      "grad_norm": 0.8886309266090393,
      "learning_rate": 0.00012765526543061912,
      "loss": 3.7131,
      "step": 263750
    },
    {
      "epoch": 0.5495,
      "grad_norm": 0.926833987236023,
      "learning_rate": 0.00012764551692150572,
      "loss": 3.8969,
      "step": 263760
    },
    {
      "epoch": 0.5495208333333333,
      "grad_norm": 0.9084994792938232,
      "learning_rate": 0.00012763576850895487,
      "loss": 3.5535,
      "step": 263770
    },
    {
      "epoch": 0.5495416666666667,
      "grad_norm": 0.9636367559432983,
      "learning_rate": 0.00012762602019300855,
      "loss": 3.6753,
      "step": 263780
    },
    {
      "epoch": 0.5495625,
      "grad_norm": 0.9328055381774902,
      "learning_rate": 0.00012761627197370906,
      "loss": 3.7526,
      "step": 263790
    },
    {
      "epoch": 0.5495833333333333,
      "grad_norm": 1.0732654333114624,
      "learning_rate": 0.0001276065238510984,
      "loss": 3.959,
      "step": 263800
    },
    {
      "epoch": 0.5496041666666667,
      "grad_norm": 1.0410226583480835,
      "learning_rate": 0.00012759677582521863,
      "loss": 3.8218,
      "step": 263810
    },
    {
      "epoch": 0.549625,
      "grad_norm": 0.9721647500991821,
      "learning_rate": 0.00012758702789611198,
      "loss": 4.0508,
      "step": 263820
    },
    {
      "epoch": 0.5496458333333333,
      "grad_norm": 1.442552924156189,
      "learning_rate": 0.0001275772800638205,
      "loss": 3.9027,
      "step": 263830
    },
    {
      "epoch": 0.5496666666666666,
      "grad_norm": 1.0658605098724365,
      "learning_rate": 0.00012756753232838632,
      "loss": 3.7929,
      "step": 263840
    },
    {
      "epoch": 0.5496875,
      "grad_norm": 0.957712709903717,
      "learning_rate": 0.00012755778468985144,
      "loss": 3.7858,
      "step": 263850
    },
    {
      "epoch": 0.5497083333333334,
      "grad_norm": 1.0083119869232178,
      "learning_rate": 0.00012754803714825808,
      "loss": 3.8201,
      "step": 263860
    },
    {
      "epoch": 0.5497291666666667,
      "grad_norm": 0.9431651830673218,
      "learning_rate": 0.00012753828970364834,
      "loss": 3.8638,
      "step": 263870
    },
    {
      "epoch": 0.54975,
      "grad_norm": 0.9091858863830566,
      "learning_rate": 0.00012752854235606424,
      "loss": 3.9527,
      "step": 263880
    },
    {
      "epoch": 0.5497708333333333,
      "grad_norm": 1.001357078552246,
      "learning_rate": 0.000127518795105548,
      "loss": 3.8313,
      "step": 263890
    },
    {
      "epoch": 0.5497916666666667,
      "grad_norm": 1.0855680704116821,
      "learning_rate": 0.00012750904795214168,
      "loss": 3.8918,
      "step": 263900
    },
    {
      "epoch": 0.5498125,
      "grad_norm": 1.063780426979065,
      "learning_rate": 0.00012749930089588727,
      "loss": 3.7845,
      "step": 263910
    },
    {
      "epoch": 0.5498333333333333,
      "grad_norm": 0.9199238419532776,
      "learning_rate": 0.00012748955393682704,
      "loss": 3.7351,
      "step": 263920
    },
    {
      "epoch": 0.5498541666666666,
      "grad_norm": 1.2300541400909424,
      "learning_rate": 0.00012747980707500308,
      "loss": 3.7977,
      "step": 263930
    },
    {
      "epoch": 0.549875,
      "grad_norm": 0.9518958330154419,
      "learning_rate": 0.00012747006031045734,
      "loss": 3.7256,
      "step": 263940
    },
    {
      "epoch": 0.5498958333333334,
      "grad_norm": 0.9256629943847656,
      "learning_rate": 0.0001274603136432321,
      "loss": 3.819,
      "step": 263950
    },
    {
      "epoch": 0.5499166666666667,
      "grad_norm": 0.9457414746284485,
      "learning_rate": 0.00012745056707336934,
      "loss": 3.8204,
      "step": 263960
    },
    {
      "epoch": 0.5499375,
      "grad_norm": 0.9278249144554138,
      "learning_rate": 0.00012744082060091118,
      "loss": 3.8112,
      "step": 263970
    },
    {
      "epoch": 0.5499583333333333,
      "grad_norm": 1.006717324256897,
      "learning_rate": 0.00012743107422589982,
      "loss": 3.8756,
      "step": 263980
    },
    {
      "epoch": 0.5499791666666667,
      "grad_norm": 1.0081384181976318,
      "learning_rate": 0.00012742132794837723,
      "loss": 3.8866,
      "step": 263990
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0311522483825684,
      "learning_rate": 0.00012741158176838554,
      "loss": 3.634,
      "step": 264000
    },
    {
      "epoch": 0.55,
      "eval_loss": 3.592419385910034,
      "eval_runtime": 6.828,
      "eval_samples_per_second": 1.465,
      "eval_steps_per_second": 0.439,
      "step": 264000
    },
    {
      "epoch": 0.5500208333333333,
      "grad_norm": 0.9634437561035156,
      "learning_rate": 0.00012740183568596696,
      "loss": 3.878,
      "step": 264010
    },
    {
      "epoch": 0.5500416666666667,
      "grad_norm": 1.0487877130508423,
      "learning_rate": 0.00012739208970116345,
      "loss": 3.5735,
      "step": 264020
    },
    {
      "epoch": 0.5500625,
      "grad_norm": 0.9026342034339905,
      "learning_rate": 0.00012738234381401715,
      "loss": 3.7986,
      "step": 264030
    },
    {
      "epoch": 0.5500833333333334,
      "grad_norm": 1.0294679403305054,
      "learning_rate": 0.00012737259802457024,
      "loss": 3.8688,
      "step": 264040
    },
    {
      "epoch": 0.5501041666666666,
      "grad_norm": 0.8822582960128784,
      "learning_rate": 0.00012736285233286475,
      "loss": 3.7527,
      "step": 264050
    },
    {
      "epoch": 0.550125,
      "grad_norm": 0.894851565361023,
      "learning_rate": 0.0001273531067389427,
      "loss": 3.8902,
      "step": 264060
    },
    {
      "epoch": 0.5501458333333333,
      "grad_norm": 0.8770484924316406,
      "learning_rate": 0.00012734336124284627,
      "loss": 3.6578,
      "step": 264070
    },
    {
      "epoch": 0.5501666666666667,
      "grad_norm": 1.1972161531448364,
      "learning_rate": 0.00012733361584461763,
      "loss": 3.8259,
      "step": 264080
    },
    {
      "epoch": 0.5501875,
      "grad_norm": 0.8844740986824036,
      "learning_rate": 0.00012732387054429872,
      "loss": 3.734,
      "step": 264090
    },
    {
      "epoch": 0.5502083333333333,
      "grad_norm": 1.0956940650939941,
      "learning_rate": 0.00012731412534193172,
      "loss": 3.7921,
      "step": 264100
    },
    {
      "epoch": 0.5502291666666667,
      "grad_norm": 0.8867543935775757,
      "learning_rate": 0.0001273043802375588,
      "loss": 3.6984,
      "step": 264110
    },
    {
      "epoch": 0.55025,
      "grad_norm": 1.0073057413101196,
      "learning_rate": 0.0001272946352312219,
      "loss": 3.8206,
      "step": 264120
    },
    {
      "epoch": 0.5502708333333334,
      "grad_norm": 1.1060481071472168,
      "learning_rate": 0.00012728489032296316,
      "loss": 3.8327,
      "step": 264130
    },
    {
      "epoch": 0.5502916666666666,
      "grad_norm": 0.9775995016098022,
      "learning_rate": 0.0001272751455128248,
      "loss": 3.8065,
      "step": 264140
    },
    {
      "epoch": 0.5503125,
      "grad_norm": 0.9878032207489014,
      "learning_rate": 0.00012726540080084875,
      "loss": 3.81,
      "step": 264150
    },
    {
      "epoch": 0.5503333333333333,
      "grad_norm": 0.9315947890281677,
      "learning_rate": 0.00012725565618707714,
      "loss": 3.6939,
      "step": 264160
    },
    {
      "epoch": 0.5503541666666667,
      "grad_norm": 0.893326997756958,
      "learning_rate": 0.00012724591167155217,
      "loss": 3.8914,
      "step": 264170
    },
    {
      "epoch": 0.550375,
      "grad_norm": 1.0077438354492188,
      "learning_rate": 0.00012723616725431584,
      "loss": 3.8724,
      "step": 264180
    },
    {
      "epoch": 0.5503958333333333,
      "grad_norm": 1.1306207180023193,
      "learning_rate": 0.0001272264229354102,
      "loss": 3.8185,
      "step": 264190
    },
    {
      "epoch": 0.5504166666666667,
      "grad_norm": 0.9020532369613647,
      "learning_rate": 0.00012721667871487744,
      "loss": 3.6611,
      "step": 264200
    },
    {
      "epoch": 0.5504375,
      "grad_norm": 0.950965940952301,
      "learning_rate": 0.00012720693459275962,
      "loss": 3.6688,
      "step": 264210
    },
    {
      "epoch": 0.5504583333333334,
      "grad_norm": 0.9984988570213318,
      "learning_rate": 0.00012719719056909879,
      "loss": 3.6062,
      "step": 264220
    },
    {
      "epoch": 0.5504791666666666,
      "grad_norm": 0.9800902009010315,
      "learning_rate": 0.00012718744664393707,
      "loss": 3.8345,
      "step": 264230
    },
    {
      "epoch": 0.5505,
      "grad_norm": 1.0561429262161255,
      "learning_rate": 0.0001271777028173166,
      "loss": 3.7209,
      "step": 264240
    },
    {
      "epoch": 0.5505208333333333,
      "grad_norm": 0.9344568252563477,
      "learning_rate": 0.00012716795908927935,
      "loss": 3.8082,
      "step": 264250
    },
    {
      "epoch": 0.5505416666666667,
      "grad_norm": 0.980086624622345,
      "learning_rate": 0.0001271582154598675,
      "loss": 3.6985,
      "step": 264260
    },
    {
      "epoch": 0.5505625,
      "grad_norm": 0.8594006896018982,
      "learning_rate": 0.00012714847192912316,
      "loss": 3.6631,
      "step": 264270
    },
    {
      "epoch": 0.5505833333333333,
      "grad_norm": 0.9979699850082397,
      "learning_rate": 0.00012713872849708834,
      "loss": 3.8874,
      "step": 264280
    },
    {
      "epoch": 0.5506041666666667,
      "grad_norm": 0.9536272287368774,
      "learning_rate": 0.00012712898516380517,
      "loss": 3.7808,
      "step": 264290
    },
    {
      "epoch": 0.550625,
      "grad_norm": 1.1576833724975586,
      "learning_rate": 0.00012711924192931575,
      "loss": 3.5265,
      "step": 264300
    },
    {
      "epoch": 0.5506458333333333,
      "grad_norm": 1.163989782333374,
      "learning_rate": 0.00012710949879366211,
      "loss": 3.8704,
      "step": 264310
    },
    {
      "epoch": 0.5506666666666666,
      "grad_norm": 1.2784236669540405,
      "learning_rate": 0.00012709975575688642,
      "loss": 3.7992,
      "step": 264320
    },
    {
      "epoch": 0.5506875,
      "grad_norm": 0.9065558910369873,
      "learning_rate": 0.0001270900128190307,
      "loss": 3.8503,
      "step": 264330
    },
    {
      "epoch": 0.5507083333333334,
      "grad_norm": 1.1554971933364868,
      "learning_rate": 0.00012708026998013702,
      "loss": 3.6015,
      "step": 264340
    },
    {
      "epoch": 0.5507291666666667,
      "grad_norm": 1.040306806564331,
      "learning_rate": 0.00012707052724024757,
      "loss": 3.8469,
      "step": 264350
    },
    {
      "epoch": 0.55075,
      "grad_norm": 0.9357112646102905,
      "learning_rate": 0.00012706078459940432,
      "loss": 3.8595,
      "step": 264360
    },
    {
      "epoch": 0.5507708333333333,
      "grad_norm": 0.8506971597671509,
      "learning_rate": 0.0001270510420576494,
      "loss": 3.726,
      "step": 264370
    },
    {
      "epoch": 0.5507916666666667,
      "grad_norm": 1.281430721282959,
      "learning_rate": 0.00012704129961502492,
      "loss": 3.7982,
      "step": 264380
    },
    {
      "epoch": 0.5508125,
      "grad_norm": 0.9449900388717651,
      "learning_rate": 0.0001270315572715729,
      "loss": 3.6481,
      "step": 264390
    },
    {
      "epoch": 0.5508333333333333,
      "grad_norm": 1.0399762392044067,
      "learning_rate": 0.00012702181502733553,
      "loss": 3.9002,
      "step": 264400
    },
    {
      "epoch": 0.5508541666666666,
      "grad_norm": 0.9594555497169495,
      "learning_rate": 0.00012701207288235474,
      "loss": 3.7188,
      "step": 264410
    },
    {
      "epoch": 0.550875,
      "grad_norm": 1.0215187072753906,
      "learning_rate": 0.00012700233083667276,
      "loss": 3.8316,
      "step": 264420
    },
    {
      "epoch": 0.5508958333333334,
      "grad_norm": 0.9772065281867981,
      "learning_rate": 0.0001269925888903316,
      "loss": 3.7858,
      "step": 264430
    },
    {
      "epoch": 0.5509166666666667,
      "grad_norm": 1.1716300249099731,
      "learning_rate": 0.0001269828470433733,
      "loss": 3.7738,
      "step": 264440
    },
    {
      "epoch": 0.5509375,
      "grad_norm": 0.9265334606170654,
      "learning_rate": 0.00012697310529584003,
      "loss": 3.9563,
      "step": 264450
    },
    {
      "epoch": 0.5509583333333333,
      "grad_norm": 1.5700217485427856,
      "learning_rate": 0.00012696336364777385,
      "loss": 3.7152,
      "step": 264460
    },
    {
      "epoch": 0.5509791666666667,
      "grad_norm": 0.9553860425949097,
      "learning_rate": 0.00012695362209921675,
      "loss": 3.6548,
      "step": 264470
    },
    {
      "epoch": 0.551,
      "grad_norm": 0.9618484973907471,
      "learning_rate": 0.00012694388065021095,
      "loss": 3.9701,
      "step": 264480
    },
    {
      "epoch": 0.5510208333333333,
      "grad_norm": 0.9887524247169495,
      "learning_rate": 0.00012693413930079842,
      "loss": 3.8206,
      "step": 264490
    },
    {
      "epoch": 0.5510416666666667,
      "grad_norm": 1.0080424547195435,
      "learning_rate": 0.00012692439805102128,
      "loss": 3.9096,
      "step": 264500
    },
    {
      "epoch": 0.5510625,
      "grad_norm": 1.289442777633667,
      "learning_rate": 0.00012691465690092162,
      "loss": 3.8081,
      "step": 264510
    },
    {
      "epoch": 0.5510833333333334,
      "grad_norm": 1.7011213302612305,
      "learning_rate": 0.0001269049158505415,
      "loss": 3.907,
      "step": 264520
    },
    {
      "epoch": 0.5511041666666666,
      "grad_norm": 0.958993673324585,
      "learning_rate": 0.000126895174899923,
      "loss": 3.7149,
      "step": 264530
    },
    {
      "epoch": 0.551125,
      "grad_norm": 0.9028036594390869,
      "learning_rate": 0.0001268854340491082,
      "loss": 3.7375,
      "step": 264540
    },
    {
      "epoch": 0.5511458333333333,
      "grad_norm": 1.2417945861816406,
      "learning_rate": 0.00012687569329813923,
      "loss": 3.8549,
      "step": 264550
    },
    {
      "epoch": 0.5511666666666667,
      "grad_norm": 0.9782119393348694,
      "learning_rate": 0.000126865952647058,
      "loss": 3.6529,
      "step": 264560
    },
    {
      "epoch": 0.5511875,
      "grad_norm": 0.915208101272583,
      "learning_rate": 0.00012685621209590676,
      "loss": 3.9454,
      "step": 264570
    },
    {
      "epoch": 0.5512083333333333,
      "grad_norm": 0.9179232716560364,
      "learning_rate": 0.00012684647164472754,
      "loss": 3.8997,
      "step": 264580
    },
    {
      "epoch": 0.5512291666666667,
      "grad_norm": 0.9085845947265625,
      "learning_rate": 0.00012683673129356234,
      "loss": 3.7459,
      "step": 264590
    },
    {
      "epoch": 0.55125,
      "grad_norm": 1.0021740198135376,
      "learning_rate": 0.00012682699104245337,
      "loss": 3.8668,
      "step": 264600
    },
    {
      "epoch": 0.5512708333333334,
      "grad_norm": 1.1027497053146362,
      "learning_rate": 0.00012681725089144257,
      "loss": 3.71,
      "step": 264610
    },
    {
      "epoch": 0.5512916666666666,
      "grad_norm": 0.9066151976585388,
      "learning_rate": 0.00012680751084057207,
      "loss": 3.8739,
      "step": 264620
    },
    {
      "epoch": 0.5513125,
      "grad_norm": 0.9057040810585022,
      "learning_rate": 0.00012679777088988396,
      "loss": 3.9061,
      "step": 264630
    },
    {
      "epoch": 0.5513333333333333,
      "grad_norm": 1.0303702354431152,
      "learning_rate": 0.00012678803103942032,
      "loss": 3.7661,
      "step": 264640
    },
    {
      "epoch": 0.5513541666666667,
      "grad_norm": 1.1414031982421875,
      "learning_rate": 0.00012677829128922315,
      "loss": 3.8792,
      "step": 264650
    },
    {
      "epoch": 0.551375,
      "grad_norm": 1.2615633010864258,
      "learning_rate": 0.00012676855163933458,
      "loss": 3.6388,
      "step": 264660
    },
    {
      "epoch": 0.5513958333333333,
      "grad_norm": 1.0804834365844727,
      "learning_rate": 0.0001267588120897967,
      "loss": 3.8873,
      "step": 264670
    },
    {
      "epoch": 0.5514166666666667,
      "grad_norm": 1.2735003232955933,
      "learning_rate": 0.0001267490726406515,
      "loss": 3.8967,
      "step": 264680
    },
    {
      "epoch": 0.5514375,
      "grad_norm": 0.9273285269737244,
      "learning_rate": 0.00012673933329194117,
      "loss": 4.0792,
      "step": 264690
    },
    {
      "epoch": 0.5514583333333334,
      "grad_norm": 1.1222153902053833,
      "learning_rate": 0.00012672959404370768,
      "loss": 3.7618,
      "step": 264700
    },
    {
      "epoch": 0.5514791666666666,
      "grad_norm": 1.1758902072906494,
      "learning_rate": 0.00012671985489599318,
      "loss": 3.9035,
      "step": 264710
    },
    {
      "epoch": 0.5515,
      "grad_norm": 1.0353755950927734,
      "learning_rate": 0.00012671011584883962,
      "loss": 3.7982,
      "step": 264720
    },
    {
      "epoch": 0.5515208333333333,
      "grad_norm": 2.2090559005737305,
      "learning_rate": 0.00012670037690228913,
      "loss": 3.8551,
      "step": 264730
    },
    {
      "epoch": 0.5515416666666667,
      "grad_norm": 0.989182710647583,
      "learning_rate": 0.00012669063805638387,
      "loss": 3.759,
      "step": 264740
    },
    {
      "epoch": 0.5515625,
      "grad_norm": 1.0119435787200928,
      "learning_rate": 0.00012668089931116574,
      "loss": 3.8429,
      "step": 264750
    },
    {
      "epoch": 0.5515833333333333,
      "grad_norm": 0.9663814306259155,
      "learning_rate": 0.00012667116066667695,
      "loss": 3.8373,
      "step": 264760
    },
    {
      "epoch": 0.5516041666666667,
      "grad_norm": 0.9917675256729126,
      "learning_rate": 0.00012666142212295952,
      "loss": 3.8179,
      "step": 264770
    },
    {
      "epoch": 0.551625,
      "grad_norm": 1.0982184410095215,
      "learning_rate": 0.00012665168368005544,
      "loss": 3.8745,
      "step": 264780
    },
    {
      "epoch": 0.5516458333333333,
      "grad_norm": 0.917734682559967,
      "learning_rate": 0.0001266419453380069,
      "loss": 3.7078,
      "step": 264790
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 1.0338729619979858,
      "learning_rate": 0.00012663220709685594,
      "loss": 3.8926,
      "step": 264800
    },
    {
      "epoch": 0.5516875,
      "grad_norm": 0.8877317309379578,
      "learning_rate": 0.00012662246895664452,
      "loss": 3.8689,
      "step": 264810
    },
    {
      "epoch": 0.5517083333333334,
      "grad_norm": 0.9249577522277832,
      "learning_rate": 0.00012661273091741485,
      "loss": 3.7974,
      "step": 264820
    },
    {
      "epoch": 0.5517291666666667,
      "grad_norm": 2.4151625633239746,
      "learning_rate": 0.0001266029929792089,
      "loss": 3.863,
      "step": 264830
    },
    {
      "epoch": 0.55175,
      "grad_norm": 1.1342394351959229,
      "learning_rate": 0.0001265932551420687,
      "loss": 3.7682,
      "step": 264840
    },
    {
      "epoch": 0.5517708333333333,
      "grad_norm": 0.9392774105072021,
      "learning_rate": 0.00012658351740603646,
      "loss": 3.8707,
      "step": 264850
    },
    {
      "epoch": 0.5517916666666667,
      "grad_norm": 1.066140055656433,
      "learning_rate": 0.0001265737797711541,
      "loss": 3.835,
      "step": 264860
    },
    {
      "epoch": 0.5518125,
      "grad_norm": 0.9988611340522766,
      "learning_rate": 0.00012656404223746376,
      "loss": 3.6589,
      "step": 264870
    },
    {
      "epoch": 0.5518333333333333,
      "grad_norm": 0.9847434759140015,
      "learning_rate": 0.0001265543048050075,
      "loss": 3.719,
      "step": 264880
    },
    {
      "epoch": 0.5518541666666666,
      "grad_norm": 0.9845424890518188,
      "learning_rate": 0.00012654456747382734,
      "loss": 3.9097,
      "step": 264890
    },
    {
      "epoch": 0.551875,
      "grad_norm": 0.9469854831695557,
      "learning_rate": 0.00012653483024396533,
      "loss": 3.7025,
      "step": 264900
    },
    {
      "epoch": 0.5518958333333334,
      "grad_norm": 0.9420140385627747,
      "learning_rate": 0.00012652509311546366,
      "loss": 3.8626,
      "step": 264910
    },
    {
      "epoch": 0.5519166666666667,
      "grad_norm": 0.9241997003555298,
      "learning_rate": 0.00012651535608836423,
      "loss": 4.0223,
      "step": 264920
    },
    {
      "epoch": 0.5519375,
      "grad_norm": 1.0273276567459106,
      "learning_rate": 0.00012650561916270912,
      "loss": 3.8862,
      "step": 264930
    },
    {
      "epoch": 0.5519583333333333,
      "grad_norm": 0.9758437275886536,
      "learning_rate": 0.00012649588233854052,
      "loss": 3.7831,
      "step": 264940
    },
    {
      "epoch": 0.5519791666666667,
      "grad_norm": 1.120167851448059,
      "learning_rate": 0.0001264861456159004,
      "loss": 3.9219,
      "step": 264950
    },
    {
      "epoch": 0.552,
      "grad_norm": 0.9988202452659607,
      "learning_rate": 0.00012647640899483077,
      "loss": 3.8277,
      "step": 264960
    },
    {
      "epoch": 0.5520208333333333,
      "grad_norm": 0.8684592843055725,
      "learning_rate": 0.00012646667247537377,
      "loss": 3.7194,
      "step": 264970
    },
    {
      "epoch": 0.5520416666666667,
      "grad_norm": 0.92271888256073,
      "learning_rate": 0.00012645693605757146,
      "loss": 3.9074,
      "step": 264980
    },
    {
      "epoch": 0.5520625,
      "grad_norm": 1.053038477897644,
      "learning_rate": 0.00012644719974146584,
      "loss": 3.8331,
      "step": 264990
    },
    {
      "epoch": 0.5520833333333334,
      "grad_norm": 1.0113344192504883,
      "learning_rate": 0.00012643746352709894,
      "loss": 3.9587,
      "step": 265000
    },
    {
      "epoch": 0.5520833333333334,
      "eval_loss": 3.604130506515503,
      "eval_runtime": 6.8146,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.44,
      "step": 265000
    },
    {
      "epoch": 0.5521041666666666,
      "grad_norm": 0.9694267511367798,
      "learning_rate": 0.00012642772741451298,
      "loss": 3.7183,
      "step": 265010
    },
    {
      "epoch": 0.552125,
      "grad_norm": 0.9070123434066772,
      "learning_rate": 0.00012641799140374982,
      "loss": 3.5645,
      "step": 265020
    },
    {
      "epoch": 0.5521458333333333,
      "grad_norm": 0.9684561491012573,
      "learning_rate": 0.00012640825549485162,
      "loss": 3.7635,
      "step": 265030
    },
    {
      "epoch": 0.5521666666666667,
      "grad_norm": 1.0131479501724243,
      "learning_rate": 0.00012639851968786046,
      "loss": 3.762,
      "step": 265040
    },
    {
      "epoch": 0.5521875,
      "grad_norm": 0.889545738697052,
      "learning_rate": 0.00012638878398281834,
      "loss": 3.873,
      "step": 265050
    },
    {
      "epoch": 0.5522083333333333,
      "grad_norm": 1.1142268180847168,
      "learning_rate": 0.00012637904837976726,
      "loss": 3.7845,
      "step": 265060
    },
    {
      "epoch": 0.5522291666666667,
      "grad_norm": 0.9141172170639038,
      "learning_rate": 0.00012636931287874942,
      "loss": 3.7749,
      "step": 265070
    },
    {
      "epoch": 0.55225,
      "grad_norm": 0.9571822881698608,
      "learning_rate": 0.0001263595774798068,
      "loss": 3.8971,
      "step": 265080
    },
    {
      "epoch": 0.5522708333333334,
      "grad_norm": 0.8664165139198303,
      "learning_rate": 0.00012634984218298139,
      "loss": 3.8062,
      "step": 265090
    },
    {
      "epoch": 0.5522916666666666,
      "grad_norm": 1.0084975957870483,
      "learning_rate": 0.0001263401069883153,
      "loss": 3.9888,
      "step": 265100
    },
    {
      "epoch": 0.5523125,
      "grad_norm": 0.9818052649497986,
      "learning_rate": 0.00012633037189585064,
      "loss": 3.7802,
      "step": 265110
    },
    {
      "epoch": 0.5523333333333333,
      "grad_norm": 1.099053978919983,
      "learning_rate": 0.00012632063690562933,
      "loss": 3.9759,
      "step": 265120
    },
    {
      "epoch": 0.5523541666666667,
      "grad_norm": 0.9088040590286255,
      "learning_rate": 0.00012631090201769353,
      "loss": 3.9098,
      "step": 265130
    },
    {
      "epoch": 0.552375,
      "grad_norm": 0.9312431216239929,
      "learning_rate": 0.0001263011672320853,
      "loss": 3.6927,
      "step": 265140
    },
    {
      "epoch": 0.5523958333333333,
      "grad_norm": 1.4497179985046387,
      "learning_rate": 0.0001262914325488466,
      "loss": 3.6626,
      "step": 265150
    },
    {
      "epoch": 0.5524166666666667,
      "grad_norm": 1.3567439317703247,
      "learning_rate": 0.00012628169796801951,
      "loss": 3.833,
      "step": 265160
    },
    {
      "epoch": 0.5524375,
      "grad_norm": 1.2271088361740112,
      "learning_rate": 0.00012627196348964615,
      "loss": 3.9076,
      "step": 265170
    },
    {
      "epoch": 0.5524583333333334,
      "grad_norm": 0.939208447933197,
      "learning_rate": 0.00012626222911376846,
      "loss": 3.8348,
      "step": 265180
    },
    {
      "epoch": 0.5524791666666666,
      "grad_norm": 0.9825519323348999,
      "learning_rate": 0.0001262524948404286,
      "loss": 4.0332,
      "step": 265190
    },
    {
      "epoch": 0.5525,
      "grad_norm": 0.8935447931289673,
      "learning_rate": 0.00012624276066966855,
      "loss": 4.0251,
      "step": 265200
    },
    {
      "epoch": 0.5525208333333333,
      "grad_norm": 1.0454775094985962,
      "learning_rate": 0.00012623302660153031,
      "loss": 3.7876,
      "step": 265210
    },
    {
      "epoch": 0.5525416666666667,
      "grad_norm": 1.0165860652923584,
      "learning_rate": 0.00012622329263605605,
      "loss": 3.7227,
      "step": 265220
    },
    {
      "epoch": 0.5525625,
      "grad_norm": 0.953514039516449,
      "learning_rate": 0.00012621355877328775,
      "loss": 3.7888,
      "step": 265230
    },
    {
      "epoch": 0.5525833333333333,
      "grad_norm": 0.921747624874115,
      "learning_rate": 0.00012620382501326742,
      "loss": 3.7289,
      "step": 265240
    },
    {
      "epoch": 0.5526041666666667,
      "grad_norm": 0.9840381145477295,
      "learning_rate": 0.0001261940913560372,
      "loss": 3.9879,
      "step": 265250
    },
    {
      "epoch": 0.552625,
      "grad_norm": 1.0053868293762207,
      "learning_rate": 0.00012618435780163906,
      "loss": 3.8378,
      "step": 265260
    },
    {
      "epoch": 0.5526458333333333,
      "grad_norm": 0.9863273501396179,
      "learning_rate": 0.000126174624350115,
      "loss": 3.9413,
      "step": 265270
    },
    {
      "epoch": 0.5526666666666666,
      "grad_norm": 0.8586487770080566,
      "learning_rate": 0.00012616489100150726,
      "loss": 3.8099,
      "step": 265280
    },
    {
      "epoch": 0.5526875,
      "grad_norm": 0.9644151926040649,
      "learning_rate": 0.0001261551577558577,
      "loss": 3.8342,
      "step": 265290
    },
    {
      "epoch": 0.5527083333333334,
      "grad_norm": 0.9011578559875488,
      "learning_rate": 0.00012614542461320842,
      "loss": 3.626,
      "step": 265300
    },
    {
      "epoch": 0.5527291666666667,
      "grad_norm": 0.9263032674789429,
      "learning_rate": 0.00012613569157360143,
      "loss": 4.0325,
      "step": 265310
    },
    {
      "epoch": 0.55275,
      "grad_norm": 1.1319197416305542,
      "learning_rate": 0.00012612595863707886,
      "loss": 3.6809,
      "step": 265320
    },
    {
      "epoch": 0.5527708333333333,
      "grad_norm": 1.027915358543396,
      "learning_rate": 0.00012611622580368267,
      "loss": 3.9467,
      "step": 265330
    },
    {
      "epoch": 0.5527916666666667,
      "grad_norm": 0.8798434138298035,
      "learning_rate": 0.00012610649307345488,
      "loss": 3.7192,
      "step": 265340
    },
    {
      "epoch": 0.5528125,
      "grad_norm": 1.01325261592865,
      "learning_rate": 0.0001260967604464377,
      "loss": 3.9964,
      "step": 265350
    },
    {
      "epoch": 0.5528333333333333,
      "grad_norm": 0.9519754648208618,
      "learning_rate": 0.00012608702792267298,
      "loss": 3.8878,
      "step": 265360
    },
    {
      "epoch": 0.5528541666666666,
      "grad_norm": 0.8628233671188354,
      "learning_rate": 0.0001260772955022028,
      "loss": 3.7903,
      "step": 265370
    },
    {
      "epoch": 0.552875,
      "grad_norm": 0.8934377431869507,
      "learning_rate": 0.0001260675631850693,
      "loss": 3.9215,
      "step": 265380
    },
    {
      "epoch": 0.5528958333333334,
      "grad_norm": 0.9537254571914673,
      "learning_rate": 0.00012605783097131444,
      "loss": 3.7561,
      "step": 265390
    },
    {
      "epoch": 0.5529166666666666,
      "grad_norm": 0.9272274374961853,
      "learning_rate": 0.00012604809886098022,
      "loss": 3.862,
      "step": 265400
    },
    {
      "epoch": 0.5529375,
      "grad_norm": 1.1162737607955933,
      "learning_rate": 0.0001260383668541088,
      "loss": 3.7966,
      "step": 265410
    },
    {
      "epoch": 0.5529583333333333,
      "grad_norm": 0.9616425633430481,
      "learning_rate": 0.00012602863495074216,
      "loss": 3.9073,
      "step": 265420
    },
    {
      "epoch": 0.5529791666666667,
      "grad_norm": 1.0436991453170776,
      "learning_rate": 0.00012601890315092223,
      "loss": 3.8605,
      "step": 265430
    },
    {
      "epoch": 0.553,
      "grad_norm": 0.9917905330657959,
      "learning_rate": 0.00012600917145469124,
      "loss": 3.9049,
      "step": 265440
    },
    {
      "epoch": 0.5530208333333333,
      "grad_norm": 0.9128954410552979,
      "learning_rate": 0.00012599943986209112,
      "loss": 3.8755,
      "step": 265450
    },
    {
      "epoch": 0.5530416666666667,
      "grad_norm": 1.0305956602096558,
      "learning_rate": 0.00012598970837316388,
      "loss": 3.8412,
      "step": 265460
    },
    {
      "epoch": 0.5530625,
      "grad_norm": 0.9199709296226501,
      "learning_rate": 0.0001259799769879516,
      "loss": 3.7725,
      "step": 265470
    },
    {
      "epoch": 0.5530833333333334,
      "grad_norm": 1.0405479669570923,
      "learning_rate": 0.0001259702457064964,
      "loss": 3.8685,
      "step": 265480
    },
    {
      "epoch": 0.5531041666666666,
      "grad_norm": 0.8739436268806458,
      "learning_rate": 0.0001259605145288401,
      "loss": 4.0119,
      "step": 265490
    },
    {
      "epoch": 0.553125,
      "grad_norm": 0.9143280386924744,
      "learning_rate": 0.00012595078345502492,
      "loss": 3.9179,
      "step": 265500
    },
    {
      "epoch": 0.5531458333333333,
      "grad_norm": 1.1457977294921875,
      "learning_rate": 0.00012594105248509287,
      "loss": 3.9442,
      "step": 265510
    },
    {
      "epoch": 0.5531666666666667,
      "grad_norm": 0.948198676109314,
      "learning_rate": 0.00012593132161908588,
      "loss": 3.9071,
      "step": 265520
    },
    {
      "epoch": 0.5531875,
      "grad_norm": 0.9614955186843872,
      "learning_rate": 0.00012592159085704607,
      "loss": 3.6617,
      "step": 265530
    },
    {
      "epoch": 0.5532083333333333,
      "grad_norm": 1.1776392459869385,
      "learning_rate": 0.00012591186019901551,
      "loss": 3.6724,
      "step": 265540
    },
    {
      "epoch": 0.5532291666666667,
      "grad_norm": 0.8813086748123169,
      "learning_rate": 0.0001259021296450361,
      "loss": 3.853,
      "step": 265550
    },
    {
      "epoch": 0.55325,
      "grad_norm": 0.9177373051643372,
      "learning_rate": 0.00012589239919515003,
      "loss": 3.7966,
      "step": 265560
    },
    {
      "epoch": 0.5532708333333334,
      "grad_norm": 1.1879369020462036,
      "learning_rate": 0.00012588266884939922,
      "loss": 3.6188,
      "step": 265570
    },
    {
      "epoch": 0.5532916666666666,
      "grad_norm": 1.0630017518997192,
      "learning_rate": 0.00012587293860782578,
      "loss": 3.6659,
      "step": 265580
    },
    {
      "epoch": 0.5533125,
      "grad_norm": 0.9717613458633423,
      "learning_rate": 0.0001258632084704716,
      "loss": 3.8602,
      "step": 265590
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 0.9933100938796997,
      "learning_rate": 0.00012585347843737884,
      "loss": 3.8475,
      "step": 265600
    },
    {
      "epoch": 0.5533541666666667,
      "grad_norm": 0.93941730260849,
      "learning_rate": 0.00012584374850858958,
      "loss": 3.925,
      "step": 265610
    },
    {
      "epoch": 0.553375,
      "grad_norm": 0.9396545886993408,
      "learning_rate": 0.00012583401868414564,
      "loss": 3.9888,
      "step": 265620
    },
    {
      "epoch": 0.5533958333333333,
      "grad_norm": 0.94102942943573,
      "learning_rate": 0.00012582428896408922,
      "loss": 3.9977,
      "step": 265630
    },
    {
      "epoch": 0.5534166666666667,
      "grad_norm": 0.950554370880127,
      "learning_rate": 0.00012581455934846235,
      "loss": 3.8504,
      "step": 265640
    },
    {
      "epoch": 0.5534375,
      "grad_norm": 0.9269261956214905,
      "learning_rate": 0.00012580482983730692,
      "loss": 3.905,
      "step": 265650
    },
    {
      "epoch": 0.5534583333333334,
      "grad_norm": 0.928158164024353,
      "learning_rate": 0.0001257951004306651,
      "loss": 3.9161,
      "step": 265660
    },
    {
      "epoch": 0.5534791666666666,
      "grad_norm": 0.9306579828262329,
      "learning_rate": 0.00012578537112857888,
      "loss": 3.8477,
      "step": 265670
    },
    {
      "epoch": 0.5535,
      "grad_norm": 1.1004606485366821,
      "learning_rate": 0.00012577564193109024,
      "loss": 3.7897,
      "step": 265680
    },
    {
      "epoch": 0.5535208333333334,
      "grad_norm": 0.9336165189743042,
      "learning_rate": 0.0001257659128382413,
      "loss": 3.922,
      "step": 265690
    },
    {
      "epoch": 0.5535416666666667,
      "grad_norm": 1.171094536781311,
      "learning_rate": 0.00012575618385007398,
      "loss": 3.7808,
      "step": 265700
    },
    {
      "epoch": 0.5535625,
      "grad_norm": 1.1491062641143799,
      "learning_rate": 0.0001257464549666303,
      "loss": 3.8694,
      "step": 265710
    },
    {
      "epoch": 0.5535833333333333,
      "grad_norm": 0.9066077470779419,
      "learning_rate": 0.0001257367261879524,
      "loss": 3.9313,
      "step": 265720
    },
    {
      "epoch": 0.5536041666666667,
      "grad_norm": 0.9629068970680237,
      "learning_rate": 0.00012572699751408224,
      "loss": 3.8974,
      "step": 265730
    },
    {
      "epoch": 0.553625,
      "grad_norm": 0.9349391460418701,
      "learning_rate": 0.00012571726894506177,
      "loss": 3.8094,
      "step": 265740
    },
    {
      "epoch": 0.5536458333333333,
      "grad_norm": 0.9339472055435181,
      "learning_rate": 0.00012570754048093317,
      "loss": 3.8145,
      "step": 265750
    },
    {
      "epoch": 0.5536666666666666,
      "grad_norm": 0.9018758535385132,
      "learning_rate": 0.00012569781212173835,
      "loss": 3.8616,
      "step": 265760
    },
    {
      "epoch": 0.5536875,
      "grad_norm": 0.9493361115455627,
      "learning_rate": 0.00012568808386751931,
      "loss": 3.8646,
      "step": 265770
    },
    {
      "epoch": 0.5537083333333334,
      "grad_norm": 1.1046093702316284,
      "learning_rate": 0.00012567835571831822,
      "loss": 3.9257,
      "step": 265780
    },
    {
      "epoch": 0.5537291666666667,
      "grad_norm": 0.9085639715194702,
      "learning_rate": 0.00012566862767417696,
      "loss": 3.7692,
      "step": 265790
    },
    {
      "epoch": 0.55375,
      "grad_norm": 0.8957018256187439,
      "learning_rate": 0.00012565889973513756,
      "loss": 3.7378,
      "step": 265800
    },
    {
      "epoch": 0.5537708333333333,
      "grad_norm": 0.9785576462745667,
      "learning_rate": 0.00012564917190124213,
      "loss": 3.7829,
      "step": 265810
    },
    {
      "epoch": 0.5537916666666667,
      "grad_norm": 0.9634228944778442,
      "learning_rate": 0.00012563944417253267,
      "loss": 3.898,
      "step": 265820
    },
    {
      "epoch": 0.5538125,
      "grad_norm": 1.0800795555114746,
      "learning_rate": 0.0001256297165490511,
      "loss": 3.7043,
      "step": 265830
    },
    {
      "epoch": 0.5538333333333333,
      "grad_norm": 1.1087700128555298,
      "learning_rate": 0.00012561998903083953,
      "loss": 3.7962,
      "step": 265840
    },
    {
      "epoch": 0.5538541666666666,
      "grad_norm": 0.985832691192627,
      "learning_rate": 0.00012561026161794,
      "loss": 3.8173,
      "step": 265850
    },
    {
      "epoch": 0.553875,
      "grad_norm": 1.0802814960479736,
      "learning_rate": 0.0001256005343103944,
      "loss": 3.703,
      "step": 265860
    },
    {
      "epoch": 0.5538958333333334,
      "grad_norm": 1.084660291671753,
      "learning_rate": 0.00012559080710824487,
      "loss": 3.8482,
      "step": 265870
    },
    {
      "epoch": 0.5539166666666666,
      "grad_norm": 0.9843283891677856,
      "learning_rate": 0.00012558108001153344,
      "loss": 3.8643,
      "step": 265880
    },
    {
      "epoch": 0.5539375,
      "grad_norm": 0.9530759453773499,
      "learning_rate": 0.00012557135302030203,
      "loss": 3.7365,
      "step": 265890
    },
    {
      "epoch": 0.5539583333333333,
      "grad_norm": 0.942004382610321,
      "learning_rate": 0.0001255616261345927,
      "loss": 3.9599,
      "step": 265900
    },
    {
      "epoch": 0.5539791666666667,
      "grad_norm": 0.9798309803009033,
      "learning_rate": 0.0001255518993544475,
      "loss": 3.7848,
      "step": 265910
    },
    {
      "epoch": 0.554,
      "grad_norm": 0.9552183747291565,
      "learning_rate": 0.00012554217267990843,
      "loss": 3.9856,
      "step": 265920
    },
    {
      "epoch": 0.5540208333333333,
      "grad_norm": 0.9005809426307678,
      "learning_rate": 0.00012553244611101738,
      "loss": 3.8203,
      "step": 265930
    },
    {
      "epoch": 0.5540416666666667,
      "grad_norm": 0.8998340964317322,
      "learning_rate": 0.0001255227196478166,
      "loss": 3.8406,
      "step": 265940
    },
    {
      "epoch": 0.5540625,
      "grad_norm": 0.9535322189331055,
      "learning_rate": 0.000125512993290348,
      "loss": 3.9446,
      "step": 265950
    },
    {
      "epoch": 0.5540833333333334,
      "grad_norm": 0.9625340700149536,
      "learning_rate": 0.00012550326703865349,
      "loss": 3.7762,
      "step": 265960
    },
    {
      "epoch": 0.5541041666666666,
      "grad_norm": 0.9558954834938049,
      "learning_rate": 0.0001254935408927752,
      "loss": 3.8225,
      "step": 265970
    },
    {
      "epoch": 0.554125,
      "grad_norm": 1.0160975456237793,
      "learning_rate": 0.00012548381485275514,
      "loss": 3.9145,
      "step": 265980
    },
    {
      "epoch": 0.5541458333333333,
      "grad_norm": 0.9104893207550049,
      "learning_rate": 0.00012547408891863524,
      "loss": 3.9928,
      "step": 265990
    },
    {
      "epoch": 0.5541666666666667,
      "grad_norm": 0.9023118019104004,
      "learning_rate": 0.0001254643630904576,
      "loss": 3.958,
      "step": 266000
    },
    {
      "epoch": 0.5541666666666667,
      "eval_loss": 3.5932986736297607,
      "eval_runtime": 6.8127,
      "eval_samples_per_second": 1.468,
      "eval_steps_per_second": 0.44,
      "step": 266000
    },
    {
      "epoch": 0.5541875,
      "grad_norm": 1.0784931182861328,
      "learning_rate": 0.00012545463736826423,
      "loss": 3.9399,
      "step": 266010
    },
    {
      "epoch": 0.5542083333333333,
      "grad_norm": 0.8823410868644714,
      "learning_rate": 0.00012544491175209705,
      "loss": 3.7348,
      "step": 266020
    },
    {
      "epoch": 0.5542291666666667,
      "grad_norm": 1.0093858242034912,
      "learning_rate": 0.00012543518624199816,
      "loss": 3.9053,
      "step": 266030
    },
    {
      "epoch": 0.55425,
      "grad_norm": 0.9476780295372009,
      "learning_rate": 0.00012542546083800954,
      "loss": 3.8803,
      "step": 266040
    },
    {
      "epoch": 0.5542708333333334,
      "grad_norm": 1.0185625553131104,
      "learning_rate": 0.00012541573554017318,
      "loss": 3.9079,
      "step": 266050
    },
    {
      "epoch": 0.5542916666666666,
      "grad_norm": 0.9154718518257141,
      "learning_rate": 0.00012540601034853117,
      "loss": 3.9858,
      "step": 266060
    },
    {
      "epoch": 0.5543125,
      "grad_norm": 1.1895297765731812,
      "learning_rate": 0.00012539628526312543,
      "loss": 3.6883,
      "step": 266070
    },
    {
      "epoch": 0.5543333333333333,
      "grad_norm": 0.8874996900558472,
      "learning_rate": 0.00012538656028399797,
      "loss": 3.8171,
      "step": 266080
    },
    {
      "epoch": 0.5543541666666667,
      "grad_norm": 0.8928800821304321,
      "learning_rate": 0.00012537683541119087,
      "loss": 3.7543,
      "step": 266090
    },
    {
      "epoch": 0.554375,
      "grad_norm": 0.9325345754623413,
      "learning_rate": 0.00012536711064474609,
      "loss": 4.1323,
      "step": 266100
    },
    {
      "epoch": 0.5543958333333333,
      "grad_norm": 0.9252500534057617,
      "learning_rate": 0.00012535738598470558,
      "loss": 3.7029,
      "step": 266110
    },
    {
      "epoch": 0.5544166666666667,
      "grad_norm": 1.063873291015625,
      "learning_rate": 0.0001253476614311115,
      "loss": 3.8088,
      "step": 266120
    },
    {
      "epoch": 0.5544375,
      "grad_norm": 0.9609470963478088,
      "learning_rate": 0.00012533793698400573,
      "loss": 3.6988,
      "step": 266130
    },
    {
      "epoch": 0.5544583333333334,
      "grad_norm": 0.9367703199386597,
      "learning_rate": 0.00012532821264343025,
      "loss": 3.9054,
      "step": 266140
    },
    {
      "epoch": 0.5544791666666666,
      "grad_norm": 0.9167360067367554,
      "learning_rate": 0.0001253184884094272,
      "loss": 3.921,
      "step": 266150
    },
    {
      "epoch": 0.5545,
      "grad_norm": 0.8234155178070068,
      "learning_rate": 0.00012530876428203848,
      "loss": 3.9375,
      "step": 266160
    },
    {
      "epoch": 0.5545208333333334,
      "grad_norm": 1.090233325958252,
      "learning_rate": 0.00012529904026130616,
      "loss": 3.729,
      "step": 266170
    },
    {
      "epoch": 0.5545416666666667,
      "grad_norm": 0.9265081286430359,
      "learning_rate": 0.00012528931634727216,
      "loss": 4.0058,
      "step": 266180
    },
    {
      "epoch": 0.5545625,
      "grad_norm": 0.898725152015686,
      "learning_rate": 0.0001252795925399786,
      "loss": 3.9083,
      "step": 266190
    },
    {
      "epoch": 0.5545833333333333,
      "grad_norm": 0.919529914855957,
      "learning_rate": 0.00012526986883946737,
      "loss": 3.958,
      "step": 266200
    },
    {
      "epoch": 0.5546041666666667,
      "grad_norm": 0.9658218026161194,
      "learning_rate": 0.00012526014524578047,
      "loss": 3.8538,
      "step": 266210
    },
    {
      "epoch": 0.554625,
      "grad_norm": 0.9162835478782654,
      "learning_rate": 0.00012525042175896004,
      "loss": 4.0002,
      "step": 266220
    },
    {
      "epoch": 0.5546458333333333,
      "grad_norm": 1.0300649404525757,
      "learning_rate": 0.00012524069837904794,
      "loss": 3.7209,
      "step": 266230
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 1.3164331912994385,
      "learning_rate": 0.0001252309751060862,
      "loss": 3.8872,
      "step": 266240
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 0.9430712461471558,
      "learning_rate": 0.0001252212519401169,
      "loss": 3.8697,
      "step": 266250
    },
    {
      "epoch": 0.5547083333333334,
      "grad_norm": 0.9470402002334595,
      "learning_rate": 0.00012521152888118195,
      "loss": 4.2027,
      "step": 266260
    },
    {
      "epoch": 0.5547291666666667,
      "grad_norm": 0.9724947810173035,
      "learning_rate": 0.00012520180592932336,
      "loss": 3.6713,
      "step": 266270
    },
    {
      "epoch": 0.55475,
      "grad_norm": 0.9628720879554749,
      "learning_rate": 0.00012519208308458323,
      "loss": 3.8007,
      "step": 266280
    },
    {
      "epoch": 0.5547708333333333,
      "grad_norm": 0.9606909155845642,
      "learning_rate": 0.0001251823603470034,
      "loss": 3.6689,
      "step": 266290
    },
    {
      "epoch": 0.5547916666666667,
      "grad_norm": 0.9844866394996643,
      "learning_rate": 0.00012517263771662595,
      "loss": 3.7128,
      "step": 266300
    },
    {
      "epoch": 0.5548125,
      "grad_norm": 1.096770167350769,
      "learning_rate": 0.00012516291519349296,
      "loss": 3.8987,
      "step": 266310
    },
    {
      "epoch": 0.5548333333333333,
      "grad_norm": 1.0501716136932373,
      "learning_rate": 0.00012515319277764633,
      "loss": 3.9312,
      "step": 266320
    },
    {
      "epoch": 0.5548541666666666,
      "grad_norm": 1.1917052268981934,
      "learning_rate": 0.00012514347046912802,
      "loss": 3.8794,
      "step": 266330
    },
    {
      "epoch": 0.554875,
      "grad_norm": 0.9928474426269531,
      "learning_rate": 0.00012513374826798008,
      "loss": 3.7641,
      "step": 266340
    },
    {
      "epoch": 0.5548958333333334,
      "grad_norm": 0.9809795618057251,
      "learning_rate": 0.00012512402617424455,
      "loss": 3.9391,
      "step": 266350
    },
    {
      "epoch": 0.5549166666666666,
      "grad_norm": 1.044249176979065,
      "learning_rate": 0.00012511430418796332,
      "loss": 3.811,
      "step": 266360
    },
    {
      "epoch": 0.5549375,
      "grad_norm": 1.0552836656570435,
      "learning_rate": 0.00012510458230917846,
      "loss": 3.906,
      "step": 266370
    },
    {
      "epoch": 0.5549583333333333,
      "grad_norm": 0.9115235805511475,
      "learning_rate": 0.00012509486053793203,
      "loss": 3.697,
      "step": 266380
    },
    {
      "epoch": 0.5549791666666667,
      "grad_norm": 0.9377779960632324,
      "learning_rate": 0.00012508513887426583,
      "loss": 3.8976,
      "step": 266390
    },
    {
      "epoch": 0.555,
      "grad_norm": 1.411313533782959,
      "learning_rate": 0.00012507541731822204,
      "loss": 3.9687,
      "step": 266400
    },
    {
      "epoch": 0.5550208333333333,
      "grad_norm": 1.0150221586227417,
      "learning_rate": 0.0001250656958698426,
      "loss": 3.8851,
      "step": 266410
    },
    {
      "epoch": 0.5550416666666667,
      "grad_norm": 1.405834436416626,
      "learning_rate": 0.0001250559745291694,
      "loss": 3.7492,
      "step": 266420
    },
    {
      "epoch": 0.5550625,
      "grad_norm": 0.9489648342132568,
      "learning_rate": 0.00012504625329624457,
      "loss": 3.8011,
      "step": 266430
    },
    {
      "epoch": 0.5550833333333334,
      "grad_norm": 0.9048151969909668,
      "learning_rate": 0.00012503653217111005,
      "loss": 4.1319,
      "step": 266440
    },
    {
      "epoch": 0.5551041666666666,
      "grad_norm": 0.982306182384491,
      "learning_rate": 0.0001250268111538078,
      "loss": 3.7918,
      "step": 266450
    },
    {
      "epoch": 0.555125,
      "grad_norm": 1.0080448389053345,
      "learning_rate": 0.0001250170902443799,
      "loss": 3.9003,
      "step": 266460
    },
    {
      "epoch": 0.5551458333333333,
      "grad_norm": 1.0587735176086426,
      "learning_rate": 0.00012500736944286823,
      "loss": 3.7876,
      "step": 266470
    },
    {
      "epoch": 0.5551666666666667,
      "grad_norm": 1.044232726097107,
      "learning_rate": 0.00012499764874931488,
      "loss": 3.8381,
      "step": 266480
    },
    {
      "epoch": 0.5551875,
      "grad_norm": 1.0299019813537598,
      "learning_rate": 0.0001249879281637617,
      "loss": 3.9802,
      "step": 266490
    },
    {
      "epoch": 0.5552083333333333,
      "grad_norm": 0.9591383337974548,
      "learning_rate": 0.00012497820768625083,
      "loss": 3.8435,
      "step": 266500
    },
    {
      "epoch": 0.5552291666666667,
      "grad_norm": 0.9231798648834229,
      "learning_rate": 0.00012496848731682422,
      "loss": 3.8385,
      "step": 266510
    },
    {
      "epoch": 0.55525,
      "grad_norm": 0.9221634864807129,
      "learning_rate": 0.0001249587670555238,
      "loss": 3.881,
      "step": 266520
    },
    {
      "epoch": 0.5552708333333334,
      "grad_norm": 0.9436682462692261,
      "learning_rate": 0.0001249490469023916,
      "loss": 3.8169,
      "step": 266530
    },
    {
      "epoch": 0.5552916666666666,
      "grad_norm": 0.9499345421791077,
      "learning_rate": 0.00012493932685746963,
      "loss": 3.883,
      "step": 266540
    },
    {
      "epoch": 0.5553125,
      "grad_norm": 0.9982247948646545,
      "learning_rate": 0.0001249296069207998,
      "loss": 3.9957,
      "step": 266550
    },
    {
      "epoch": 0.5553333333333333,
      "grad_norm": 1.031651496887207,
      "learning_rate": 0.0001249198870924242,
      "loss": 3.9512,
      "step": 266560
    },
    {
      "epoch": 0.5553541666666667,
      "grad_norm": 1.0466465950012207,
      "learning_rate": 0.00012491016737238472,
      "loss": 3.8554,
      "step": 266570
    },
    {
      "epoch": 0.555375,
      "grad_norm": 0.9978482127189636,
      "learning_rate": 0.00012490044776072336,
      "loss": 3.8855,
      "step": 266580
    },
    {
      "epoch": 0.5553958333333333,
      "grad_norm": 0.9673396944999695,
      "learning_rate": 0.00012489072825748218,
      "loss": 3.8436,
      "step": 266590
    },
    {
      "epoch": 0.5554166666666667,
      "grad_norm": 0.9850276708602905,
      "learning_rate": 0.00012488100886270313,
      "loss": 3.8622,
      "step": 266600
    },
    {
      "epoch": 0.5554375,
      "grad_norm": 0.8891852498054504,
      "learning_rate": 0.0001248712895764281,
      "loss": 3.9606,
      "step": 266610
    },
    {
      "epoch": 0.5554583333333334,
      "grad_norm": 0.9775543212890625,
      "learning_rate": 0.00012486157039869923,
      "loss": 3.9716,
      "step": 266620
    },
    {
      "epoch": 0.5554791666666666,
      "grad_norm": 1.0617791414260864,
      "learning_rate": 0.0001248518513295584,
      "loss": 3.879,
      "step": 266630
    },
    {
      "epoch": 0.5555,
      "grad_norm": 0.9297758936882019,
      "learning_rate": 0.0001248421323690476,
      "loss": 3.6781,
      "step": 266640
    },
    {
      "epoch": 0.5555208333333334,
      "grad_norm": 1.2246733903884888,
      "learning_rate": 0.00012483241351720885,
      "loss": 3.9181,
      "step": 266650
    },
    {
      "epoch": 0.5555416666666667,
      "grad_norm": 0.8921247124671936,
      "learning_rate": 0.00012482269477408412,
      "loss": 3.7409,
      "step": 266660
    },
    {
      "epoch": 0.5555625,
      "grad_norm": 0.9242233037948608,
      "learning_rate": 0.00012481297613971533,
      "loss": 3.7698,
      "step": 266670
    },
    {
      "epoch": 0.5555833333333333,
      "grad_norm": 0.933100163936615,
      "learning_rate": 0.00012480325761414458,
      "loss": 3.8095,
      "step": 266680
    },
    {
      "epoch": 0.5556041666666667,
      "grad_norm": 0.9420037269592285,
      "learning_rate": 0.0001247935391974138,
      "loss": 3.7752,
      "step": 266690
    },
    {
      "epoch": 0.555625,
      "grad_norm": 0.929705023765564,
      "learning_rate": 0.00012478382088956487,
      "loss": 3.9401,
      "step": 266700
    },
    {
      "epoch": 0.5556458333333333,
      "grad_norm": 0.8805389404296875,
      "learning_rate": 0.0001247741026906399,
      "loss": 3.9405,
      "step": 266710
    },
    {
      "epoch": 0.5556666666666666,
      "grad_norm": 0.9690717458724976,
      "learning_rate": 0.00012476438460068084,
      "loss": 3.6949,
      "step": 266720
    },
    {
      "epoch": 0.5556875,
      "grad_norm": 1.0377265214920044,
      "learning_rate": 0.00012475466661972958,
      "loss": 4.0439,
      "step": 266730
    },
    {
      "epoch": 0.5557083333333334,
      "grad_norm": 0.9659824967384338,
      "learning_rate": 0.0001247449487478282,
      "loss": 3.8966,
      "step": 266740
    },
    {
      "epoch": 0.5557291666666667,
      "grad_norm": 0.964593768119812,
      "learning_rate": 0.0001247352309850187,
      "loss": 3.7886,
      "step": 266750
    },
    {
      "epoch": 0.55575,
      "grad_norm": 1.0034043788909912,
      "learning_rate": 0.00012472551333134294,
      "loss": 3.9422,
      "step": 266760
    },
    {
      "epoch": 0.5557708333333333,
      "grad_norm": 0.9308777451515198,
      "learning_rate": 0.00012471579578684296,
      "loss": 3.8687,
      "step": 266770
    },
    {
      "epoch": 0.5557916666666667,
      "grad_norm": 1.0264945030212402,
      "learning_rate": 0.00012470607835156076,
      "loss": 3.7394,
      "step": 266780
    },
    {
      "epoch": 0.5558125,
      "grad_norm": 0.951646089553833,
      "learning_rate": 0.00012469636102553828,
      "loss": 3.775,
      "step": 266790
    },
    {
      "epoch": 0.5558333333333333,
      "grad_norm": 0.9718546867370605,
      "learning_rate": 0.00012468664380881747,
      "loss": 3.9228,
      "step": 266800
    },
    {
      "epoch": 0.5558541666666666,
      "grad_norm": 0.9465758800506592,
      "learning_rate": 0.0001246769267014404,
      "loss": 4.0517,
      "step": 266810
    },
    {
      "epoch": 0.555875,
      "grad_norm": 1.4391647577285767,
      "learning_rate": 0.00012466720970344901,
      "loss": 3.994,
      "step": 266820
    },
    {
      "epoch": 0.5558958333333334,
      "grad_norm": 0.9270318150520325,
      "learning_rate": 0.00012465749281488514,
      "loss": 3.8237,
      "step": 266830
    },
    {
      "epoch": 0.5559166666666666,
      "grad_norm": 0.9355127811431885,
      "learning_rate": 0.0001246477760357909,
      "loss": 3.8387,
      "step": 266840
    },
    {
      "epoch": 0.5559375,
      "grad_norm": 0.9361575841903687,
      "learning_rate": 0.00012463805936620831,
      "loss": 3.9521,
      "step": 266850
    },
    {
      "epoch": 0.5559583333333333,
      "grad_norm": 1.0742214918136597,
      "learning_rate": 0.00012462834280617917,
      "loss": 3.9434,
      "step": 266860
    },
    {
      "epoch": 0.5559791666666667,
      "grad_norm": 0.9025304317474365,
      "learning_rate": 0.00012461862635574557,
      "loss": 3.9669,
      "step": 266870
    },
    {
      "epoch": 0.556,
      "grad_norm": 0.91472327709198,
      "learning_rate": 0.00012460891001494953,
      "loss": 4.1033,
      "step": 266880
    },
    {
      "epoch": 0.5560208333333333,
      "grad_norm": 0.9374365210533142,
      "learning_rate": 0.00012459919378383284,
      "loss": 3.7132,
      "step": 266890
    },
    {
      "epoch": 0.5560416666666667,
      "grad_norm": 1.0509207248687744,
      "learning_rate": 0.0001245894776624376,
      "loss": 3.7436,
      "step": 266900
    },
    {
      "epoch": 0.5560625,
      "grad_norm": 1.2078866958618164,
      "learning_rate": 0.00012457976165080583,
      "loss": 3.8272,
      "step": 266910
    },
    {
      "epoch": 0.5560833333333334,
      "grad_norm": 0.9477064609527588,
      "learning_rate": 0.00012457004574897937,
      "loss": 3.9896,
      "step": 266920
    },
    {
      "epoch": 0.5561041666666666,
      "grad_norm": 0.9998009204864502,
      "learning_rate": 0.0001245603299570003,
      "loss": 3.9124,
      "step": 266930
    },
    {
      "epoch": 0.556125,
      "grad_norm": 0.9929307699203491,
      "learning_rate": 0.00012455061427491047,
      "loss": 3.829,
      "step": 266940
    },
    {
      "epoch": 0.5561458333333333,
      "grad_norm": 0.8936440944671631,
      "learning_rate": 0.00012454089870275192,
      "loss": 3.8432,
      "step": 266950
    },
    {
      "epoch": 0.5561666666666667,
      "grad_norm": 1.03024160861969,
      "learning_rate": 0.00012453118324056665,
      "loss": 3.6557,
      "step": 266960
    },
    {
      "epoch": 0.5561875,
      "grad_norm": 0.9396428465843201,
      "learning_rate": 0.0001245214678883966,
      "loss": 3.7389,
      "step": 266970
    },
    {
      "epoch": 0.5562083333333333,
      "grad_norm": 0.952327311038971,
      "learning_rate": 0.00012451175264628362,
      "loss": 3.9064,
      "step": 266980
    },
    {
      "epoch": 0.5562291666666667,
      "grad_norm": 0.8322235941886902,
      "learning_rate": 0.0001245020375142699,
      "loss": 3.7592,
      "step": 266990
    },
    {
      "epoch": 0.55625,
      "grad_norm": 0.9435825347900391,
      "learning_rate": 0.00012449232249239723,
      "loss": 3.5881,
      "step": 267000
    },
    {
      "epoch": 0.55625,
      "eval_loss": 3.5859150886535645,
      "eval_runtime": 7.3036,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 267000
    },
    {
      "epoch": 0.5562708333333334,
      "grad_norm": 0.9068968892097473,
      "learning_rate": 0.0001244826075807076,
      "loss": 3.9551,
      "step": 267010
    },
    {
      "epoch": 0.5562916666666666,
      "grad_norm": 1.267617106437683,
      "learning_rate": 0.00012447289277924307,
      "loss": 3.9155,
      "step": 267020
    },
    {
      "epoch": 0.5563125,
      "grad_norm": 1.0272070169448853,
      "learning_rate": 0.0001244631780880455,
      "loss": 3.7816,
      "step": 267030
    },
    {
      "epoch": 0.5563333333333333,
      "grad_norm": 0.9295235872268677,
      "learning_rate": 0.00012445346350715687,
      "loss": 3.6372,
      "step": 267040
    },
    {
      "epoch": 0.5563541666666667,
      "grad_norm": 1.0213638544082642,
      "learning_rate": 0.00012444374903661923,
      "loss": 3.7943,
      "step": 267050
    },
    {
      "epoch": 0.556375,
      "grad_norm": 1.0464160442352295,
      "learning_rate": 0.00012443403467647448,
      "loss": 3.9541,
      "step": 267060
    },
    {
      "epoch": 0.5563958333333333,
      "grad_norm": 0.9228696823120117,
      "learning_rate": 0.00012442432042676454,
      "loss": 3.8406,
      "step": 267070
    },
    {
      "epoch": 0.5564166666666667,
      "grad_norm": 1.13628089427948,
      "learning_rate": 0.00012441460628753137,
      "loss": 4.01,
      "step": 267080
    },
    {
      "epoch": 0.5564375,
      "grad_norm": 1.1164815425872803,
      "learning_rate": 0.00012440489225881707,
      "loss": 4.0265,
      "step": 267090
    },
    {
      "epoch": 0.5564583333333334,
      "grad_norm": 1.163699746131897,
      "learning_rate": 0.00012439517834066344,
      "loss": 4.1152,
      "step": 267100
    },
    {
      "epoch": 0.5564791666666666,
      "grad_norm": 0.9332177042961121,
      "learning_rate": 0.0001243854645331125,
      "loss": 4.129,
      "step": 267110
    },
    {
      "epoch": 0.5565,
      "grad_norm": 0.9827262759208679,
      "learning_rate": 0.00012437575083620625,
      "loss": 3.8543,
      "step": 267120
    },
    {
      "epoch": 0.5565208333333334,
      "grad_norm": 1.1252020597457886,
      "learning_rate": 0.0001243660372499866,
      "loss": 3.8372,
      "step": 267130
    },
    {
      "epoch": 0.5565416666666667,
      "grad_norm": 0.9145340919494629,
      "learning_rate": 0.0001243563237744955,
      "loss": 3.7136,
      "step": 267140
    },
    {
      "epoch": 0.5565625,
      "grad_norm": 1.0689657926559448,
      "learning_rate": 0.00012434661040977498,
      "loss": 3.8701,
      "step": 267150
    },
    {
      "epoch": 0.5565833333333333,
      "grad_norm": 1.0280425548553467,
      "learning_rate": 0.00012433689715586691,
      "loss": 3.8912,
      "step": 267160
    },
    {
      "epoch": 0.5566041666666667,
      "grad_norm": 0.8709240555763245,
      "learning_rate": 0.00012432718401281326,
      "loss": 4.0396,
      "step": 267170
    },
    {
      "epoch": 0.556625,
      "grad_norm": 1.2526347637176514,
      "learning_rate": 0.00012431747098065607,
      "loss": 3.8548,
      "step": 267180
    },
    {
      "epoch": 0.5566458333333333,
      "grad_norm": 0.9974616169929504,
      "learning_rate": 0.00012430775805943726,
      "loss": 3.7997,
      "step": 267190
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 0.9313145279884338,
      "learning_rate": 0.00012429804524919868,
      "loss": 4.0049,
      "step": 267200
    },
    {
      "epoch": 0.5566875,
      "grad_norm": 0.9565708041191101,
      "learning_rate": 0.00012428833254998244,
      "loss": 4.0086,
      "step": 267210
    },
    {
      "epoch": 0.5567083333333334,
      "grad_norm": 0.9674039483070374,
      "learning_rate": 0.00012427861996183043,
      "loss": 3.8025,
      "step": 267220
    },
    {
      "epoch": 0.5567291666666667,
      "grad_norm": 1.4143824577331543,
      "learning_rate": 0.00012426890748478453,
      "loss": 3.9515,
      "step": 267230
    },
    {
      "epoch": 0.55675,
      "grad_norm": 1.0951814651489258,
      "learning_rate": 0.0001242591951188868,
      "loss": 3.6698,
      "step": 267240
    },
    {
      "epoch": 0.5567708333333333,
      "grad_norm": 0.9930838942527771,
      "learning_rate": 0.0001242494828641792,
      "loss": 3.8849,
      "step": 267250
    },
    {
      "epoch": 0.5567916666666667,
      "grad_norm": 0.9805025458335876,
      "learning_rate": 0.00012423977072070357,
      "loss": 3.8233,
      "step": 267260
    },
    {
      "epoch": 0.5568125,
      "grad_norm": 0.9781752824783325,
      "learning_rate": 0.00012423005868850194,
      "loss": 3.9411,
      "step": 267270
    },
    {
      "epoch": 0.5568333333333333,
      "grad_norm": 0.9219058752059937,
      "learning_rate": 0.00012422034676761633,
      "loss": 3.8338,
      "step": 267280
    },
    {
      "epoch": 0.5568541666666667,
      "grad_norm": 0.9596037268638611,
      "learning_rate": 0.00012421063495808853,
      "loss": 3.9053,
      "step": 267290
    },
    {
      "epoch": 0.556875,
      "grad_norm": 1.0214611291885376,
      "learning_rate": 0.00012420092325996063,
      "loss": 3.9666,
      "step": 267300
    },
    {
      "epoch": 0.5568958333333334,
      "grad_norm": 0.9780496954917908,
      "learning_rate": 0.00012419121167327456,
      "loss": 3.9106,
      "step": 267310
    },
    {
      "epoch": 0.5569166666666666,
      "grad_norm": 0.970475971698761,
      "learning_rate": 0.00012418150019807218,
      "loss": 3.8588,
      "step": 267320
    },
    {
      "epoch": 0.5569375,
      "grad_norm": 0.9948181509971619,
      "learning_rate": 0.00012417178883439555,
      "loss": 3.9433,
      "step": 267330
    },
    {
      "epoch": 0.5569583333333333,
      "grad_norm": 0.9662497043609619,
      "learning_rate": 0.00012416207758228652,
      "loss": 3.8492,
      "step": 267340
    },
    {
      "epoch": 0.5569791666666667,
      "grad_norm": 1.0088286399841309,
      "learning_rate": 0.00012415236644178714,
      "loss": 3.9701,
      "step": 267350
    },
    {
      "epoch": 0.557,
      "grad_norm": 0.9075554609298706,
      "learning_rate": 0.00012414265541293924,
      "loss": 3.8813,
      "step": 267360
    },
    {
      "epoch": 0.5570208333333333,
      "grad_norm": 1.0648775100708008,
      "learning_rate": 0.00012413294449578486,
      "loss": 4.0797,
      "step": 267370
    },
    {
      "epoch": 0.5570416666666667,
      "grad_norm": 0.9151111841201782,
      "learning_rate": 0.00012412323369036596,
      "loss": 3.6342,
      "step": 267380
    },
    {
      "epoch": 0.5570625,
      "grad_norm": 0.9077991843223572,
      "learning_rate": 0.0001241135229967244,
      "loss": 3.7779,
      "step": 267390
    },
    {
      "epoch": 0.5570833333333334,
      "grad_norm": 0.9184255003929138,
      "learning_rate": 0.00012410381241490217,
      "loss": 3.8054,
      "step": 267400
    },
    {
      "epoch": 0.5571041666666666,
      "grad_norm": 0.9328030347824097,
      "learning_rate": 0.00012409410194494128,
      "loss": 4.1284,
      "step": 267410
    },
    {
      "epoch": 0.557125,
      "grad_norm": 0.9973663687705994,
      "learning_rate": 0.00012408439158688352,
      "loss": 3.7884,
      "step": 267420
    },
    {
      "epoch": 0.5571458333333333,
      "grad_norm": 0.9826713800430298,
      "learning_rate": 0.00012407468134077103,
      "loss": 3.9511,
      "step": 267430
    },
    {
      "epoch": 0.5571666666666667,
      "grad_norm": 1.1229685544967651,
      "learning_rate": 0.0001240649712066456,
      "loss": 4.0694,
      "step": 267440
    },
    {
      "epoch": 0.5571875,
      "grad_norm": 1.2021528482437134,
      "learning_rate": 0.0001240552611845492,
      "loss": 3.8919,
      "step": 267450
    },
    {
      "epoch": 0.5572083333333333,
      "grad_norm": 0.8889572024345398,
      "learning_rate": 0.00012404555127452387,
      "loss": 3.84,
      "step": 267460
    },
    {
      "epoch": 0.5572291666666667,
      "grad_norm": 1.137884259223938,
      "learning_rate": 0.00012403584147661147,
      "loss": 3.9119,
      "step": 267470
    },
    {
      "epoch": 0.55725,
      "grad_norm": 1.0394108295440674,
      "learning_rate": 0.0001240261317908539,
      "loss": 3.8225,
      "step": 267480
    },
    {
      "epoch": 0.5572708333333334,
      "grad_norm": 1.0687240362167358,
      "learning_rate": 0.00012401642221729323,
      "loss": 4.1074,
      "step": 267490
    },
    {
      "epoch": 0.5572916666666666,
      "grad_norm": 1.0426661968231201,
      "learning_rate": 0.00012400671275597131,
      "loss": 3.9764,
      "step": 267500
    },
    {
      "epoch": 0.5573125,
      "grad_norm": 1.0793652534484863,
      "learning_rate": 0.00012399700340693005,
      "loss": 3.8211,
      "step": 267510
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 0.915272057056427,
      "learning_rate": 0.00012398729417021154,
      "loss": 4.1071,
      "step": 267520
    },
    {
      "epoch": 0.5573541666666667,
      "grad_norm": 1.0106450319290161,
      "learning_rate": 0.00012397758504585754,
      "loss": 3.9789,
      "step": 267530
    },
    {
      "epoch": 0.557375,
      "grad_norm": 0.9309127926826477,
      "learning_rate": 0.00012396787603391007,
      "loss": 3.951,
      "step": 267540
    },
    {
      "epoch": 0.5573958333333333,
      "grad_norm": 0.8943557143211365,
      "learning_rate": 0.00012395816713441115,
      "loss": 3.7506,
      "step": 267550
    },
    {
      "epoch": 0.5574166666666667,
      "grad_norm": 1.2347033023834229,
      "learning_rate": 0.00012394845834740262,
      "loss": 3.7539,
      "step": 267560
    },
    {
      "epoch": 0.5574375,
      "grad_norm": 0.9139869213104248,
      "learning_rate": 0.00012393874967292636,
      "loss": 3.8298,
      "step": 267570
    },
    {
      "epoch": 0.5574583333333333,
      "grad_norm": 0.873365581035614,
      "learning_rate": 0.00012392904111102444,
      "loss": 3.8491,
      "step": 267580
    },
    {
      "epoch": 0.5574791666666666,
      "grad_norm": 0.8970478177070618,
      "learning_rate": 0.0001239193326617388,
      "loss": 3.8036,
      "step": 267590
    },
    {
      "epoch": 0.5575,
      "grad_norm": 1.2219260931015015,
      "learning_rate": 0.0001239096243251112,
      "loss": 3.794,
      "step": 267600
    },
    {
      "epoch": 0.5575208333333334,
      "grad_norm": 1.0820521116256714,
      "learning_rate": 0.00012389991610118375,
      "loss": 3.7877,
      "step": 267610
    },
    {
      "epoch": 0.5575416666666667,
      "grad_norm": 1.1054039001464844,
      "learning_rate": 0.0001238902079899984,
      "loss": 3.903,
      "step": 267620
    },
    {
      "epoch": 0.5575625,
      "grad_norm": 0.9773538112640381,
      "learning_rate": 0.00012388049999159689,
      "loss": 4.0032,
      "step": 267630
    },
    {
      "epoch": 0.5575833333333333,
      "grad_norm": 0.987805962562561,
      "learning_rate": 0.00012387079210602134,
      "loss": 3.743,
      "step": 267640
    },
    {
      "epoch": 0.5576041666666667,
      "grad_norm": 0.9424540996551514,
      "learning_rate": 0.00012386108433331367,
      "loss": 3.8575,
      "step": 267650
    },
    {
      "epoch": 0.557625,
      "grad_norm": 0.9381452798843384,
      "learning_rate": 0.00012385137667351572,
      "loss": 3.7532,
      "step": 267660
    },
    {
      "epoch": 0.5576458333333333,
      "grad_norm": 1.0155047178268433,
      "learning_rate": 0.00012384166912666946,
      "loss": 3.8891,
      "step": 267670
    },
    {
      "epoch": 0.5576666666666666,
      "grad_norm": 1.0696845054626465,
      "learning_rate": 0.00012383196169281688,
      "loss": 3.8185,
      "step": 267680
    },
    {
      "epoch": 0.5576875,
      "grad_norm": 0.9433132410049438,
      "learning_rate": 0.00012382225437199986,
      "loss": 3.8136,
      "step": 267690
    },
    {
      "epoch": 0.5577083333333334,
      "grad_norm": 1.0102273225784302,
      "learning_rate": 0.0001238125471642603,
      "loss": 3.8642,
      "step": 267700
    },
    {
      "epoch": 0.5577291666666667,
      "grad_norm": 1.0583891868591309,
      "learning_rate": 0.00012380284006964019,
      "loss": 3.8636,
      "step": 267710
    },
    {
      "epoch": 0.55775,
      "grad_norm": 0.9185298681259155,
      "learning_rate": 0.00012379313308818148,
      "loss": 3.877,
      "step": 267720
    },
    {
      "epoch": 0.5577708333333333,
      "grad_norm": 1.0006405115127563,
      "learning_rate": 0.00012378342621992597,
      "loss": 3.8942,
      "step": 267730
    },
    {
      "epoch": 0.5577916666666667,
      "grad_norm": 1.087538719177246,
      "learning_rate": 0.00012377371946491577,
      "loss": 4.047,
      "step": 267740
    },
    {
      "epoch": 0.5578125,
      "grad_norm": 1.0365148782730103,
      "learning_rate": 0.0001237640128231927,
      "loss": 4.0297,
      "step": 267750
    },
    {
      "epoch": 0.5578333333333333,
      "grad_norm": 1.0613006353378296,
      "learning_rate": 0.00012375430629479867,
      "loss": 3.9161,
      "step": 267760
    },
    {
      "epoch": 0.5578541666666667,
      "grad_norm": 0.9421378970146179,
      "learning_rate": 0.00012374459987977567,
      "loss": 3.9355,
      "step": 267770
    },
    {
      "epoch": 0.557875,
      "grad_norm": 1.2731144428253174,
      "learning_rate": 0.00012373489357816564,
      "loss": 3.7062,
      "step": 267780
    },
    {
      "epoch": 0.5578958333333334,
      "grad_norm": 0.9699032306671143,
      "learning_rate": 0.00012372518739001042,
      "loss": 3.7465,
      "step": 267790
    },
    {
      "epoch": 0.5579166666666666,
      "grad_norm": 1.1729183197021484,
      "learning_rate": 0.000123715481315352,
      "loss": 3.7746,
      "step": 267800
    },
    {
      "epoch": 0.5579375,
      "grad_norm": 1.0350548028945923,
      "learning_rate": 0.00012370577535423237,
      "loss": 4.0615,
      "step": 267810
    },
    {
      "epoch": 0.5579583333333333,
      "grad_norm": 0.9860893487930298,
      "learning_rate": 0.00012369606950669328,
      "loss": 4.0446,
      "step": 267820
    },
    {
      "epoch": 0.5579791666666667,
      "grad_norm": 1.1221519708633423,
      "learning_rate": 0.00012368636377277684,
      "loss": 3.8149,
      "step": 267830
    },
    {
      "epoch": 0.558,
      "grad_norm": 1.0004888772964478,
      "learning_rate": 0.00012367665815252486,
      "loss": 3.665,
      "step": 267840
    },
    {
      "epoch": 0.5580208333333333,
      "grad_norm": 0.93618243932724,
      "learning_rate": 0.00012366695264597925,
      "loss": 3.7726,
      "step": 267850
    },
    {
      "epoch": 0.5580416666666667,
      "grad_norm": 0.9889817833900452,
      "learning_rate": 0.00012365724725318204,
      "loss": 3.7385,
      "step": 267860
    },
    {
      "epoch": 0.5580625,
      "grad_norm": 0.9314867854118347,
      "learning_rate": 0.00012364754197417507,
      "loss": 3.8838,
      "step": 267870
    },
    {
      "epoch": 0.5580833333333334,
      "grad_norm": 0.9684145450592041,
      "learning_rate": 0.00012363783680900028,
      "loss": 3.7393,
      "step": 267880
    },
    {
      "epoch": 0.5581041666666666,
      "grad_norm": 1.063091516494751,
      "learning_rate": 0.00012362813175769964,
      "loss": 3.8979,
      "step": 267890
    },
    {
      "epoch": 0.558125,
      "grad_norm": 0.9123897552490234,
      "learning_rate": 0.00012361842682031502,
      "loss": 3.9529,
      "step": 267900
    },
    {
      "epoch": 0.5581458333333333,
      "grad_norm": 0.970848023891449,
      "learning_rate": 0.0001236087219968883,
      "loss": 3.8254,
      "step": 267910
    },
    {
      "epoch": 0.5581666666666667,
      "grad_norm": 1.227500081062317,
      "learning_rate": 0.0001235990172874615,
      "loss": 3.8444,
      "step": 267920
    },
    {
      "epoch": 0.5581875,
      "grad_norm": 0.9768667817115784,
      "learning_rate": 0.00012358931269207656,
      "loss": 3.9097,
      "step": 267930
    },
    {
      "epoch": 0.5582083333333333,
      "grad_norm": 0.9277694821357727,
      "learning_rate": 0.00012357960821077525,
      "loss": 3.825,
      "step": 267940
    },
    {
      "epoch": 0.5582291666666667,
      "grad_norm": 0.8908278346061707,
      "learning_rate": 0.00012356990384359957,
      "loss": 3.8566,
      "step": 267950
    },
    {
      "epoch": 0.55825,
      "grad_norm": 1.0625743865966797,
      "learning_rate": 0.0001235601995905915,
      "loss": 3.9743,
      "step": 267960
    },
    {
      "epoch": 0.5582708333333334,
      "grad_norm": 0.9455778002738953,
      "learning_rate": 0.00012355049545179287,
      "loss": 3.8552,
      "step": 267970
    },
    {
      "epoch": 0.5582916666666666,
      "grad_norm": 0.861200213432312,
      "learning_rate": 0.00012354079142724557,
      "loss": 3.929,
      "step": 267980
    },
    {
      "epoch": 0.5583125,
      "grad_norm": 0.8704994916915894,
      "learning_rate": 0.0001235310875169917,
      "loss": 3.8419,
      "step": 267990
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 0.95542973279953,
      "learning_rate": 0.00012352138372107295,
      "loss": 3.8144,
      "step": 268000
    },
    {
      "epoch": 0.5583333333333333,
      "eval_loss": 3.5919647216796875,
      "eval_runtime": 8.0751,
      "eval_samples_per_second": 1.238,
      "eval_steps_per_second": 0.372,
      "step": 268000
    },
    {
      "epoch": 0.5583541666666667,
      "grad_norm": 1.020767092704773,
      "learning_rate": 0.00012351168003953136,
      "loss": 3.9604,
      "step": 268010
    },
    {
      "epoch": 0.558375,
      "grad_norm": 1.262762188911438,
      "learning_rate": 0.00012350197647240888,
      "loss": 3.7839,
      "step": 268020
    },
    {
      "epoch": 0.5583958333333333,
      "grad_norm": 0.9008336663246155,
      "learning_rate": 0.00012349227301974733,
      "loss": 3.8681,
      "step": 268030
    },
    {
      "epoch": 0.5584166666666667,
      "grad_norm": 0.9783129096031189,
      "learning_rate": 0.00012348256968158867,
      "loss": 3.5918,
      "step": 268040
    },
    {
      "epoch": 0.5584375,
      "grad_norm": 0.9992566704750061,
      "learning_rate": 0.00012347286645797485,
      "loss": 4.0016,
      "step": 268050
    },
    {
      "epoch": 0.5584583333333333,
      "grad_norm": 0.9679318070411682,
      "learning_rate": 0.00012346316334894774,
      "loss": 3.7654,
      "step": 268060
    },
    {
      "epoch": 0.5584791666666666,
      "grad_norm": 0.8648689985275269,
      "learning_rate": 0.00012345346035454923,
      "loss": 3.7546,
      "step": 268070
    },
    {
      "epoch": 0.5585,
      "grad_norm": 0.9615306258201599,
      "learning_rate": 0.00012344375747482125,
      "loss": 3.9577,
      "step": 268080
    },
    {
      "epoch": 0.5585208333333334,
      "grad_norm": 0.8968109488487244,
      "learning_rate": 0.0001234340547098058,
      "loss": 4.0589,
      "step": 268090
    },
    {
      "epoch": 0.5585416666666667,
      "grad_norm": 0.928956151008606,
      "learning_rate": 0.00012342435205954462,
      "loss": 3.894,
      "step": 268100
    },
    {
      "epoch": 0.5585625,
      "grad_norm": 0.9481319189071655,
      "learning_rate": 0.00012341464952407978,
      "loss": 3.8402,
      "step": 268110
    },
    {
      "epoch": 0.5585833333333333,
      "grad_norm": 0.9682425260543823,
      "learning_rate": 0.00012340494710345312,
      "loss": 3.8095,
      "step": 268120
    },
    {
      "epoch": 0.5586041666666667,
      "grad_norm": 0.9327638745307922,
      "learning_rate": 0.00012339524479770654,
      "loss": 3.7324,
      "step": 268130
    },
    {
      "epoch": 0.558625,
      "grad_norm": 0.9140370488166809,
      "learning_rate": 0.00012338554260688198,
      "loss": 3.6848,
      "step": 268140
    },
    {
      "epoch": 0.5586458333333333,
      "grad_norm": 0.9612522125244141,
      "learning_rate": 0.0001233758405310214,
      "loss": 3.7289,
      "step": 268150
    },
    {
      "epoch": 0.5586666666666666,
      "grad_norm": 0.9240097403526306,
      "learning_rate": 0.00012336613857016657,
      "loss": 3.8582,
      "step": 268160
    },
    {
      "epoch": 0.5586875,
      "grad_norm": 0.946276843547821,
      "learning_rate": 0.0001233564367243595,
      "loss": 3.9277,
      "step": 268170
    },
    {
      "epoch": 0.5587083333333334,
      "grad_norm": 0.9174497723579407,
      "learning_rate": 0.00012334673499364213,
      "loss": 3.824,
      "step": 268180
    },
    {
      "epoch": 0.5587291666666667,
      "grad_norm": 0.9398354887962341,
      "learning_rate": 0.00012333703337805623,
      "loss": 3.863,
      "step": 268190
    },
    {
      "epoch": 0.55875,
      "grad_norm": 1.1078733205795288,
      "learning_rate": 0.00012332733187764386,
      "loss": 3.9052,
      "step": 268200
    },
    {
      "epoch": 0.5587708333333333,
      "grad_norm": 1.053202509880066,
      "learning_rate": 0.00012331763049244684,
      "loss": 3.8732,
      "step": 268210
    },
    {
      "epoch": 0.5587916666666667,
      "grad_norm": 0.9483833312988281,
      "learning_rate": 0.00012330792922250706,
      "loss": 3.91,
      "step": 268220
    },
    {
      "epoch": 0.5588125,
      "grad_norm": 0.979632556438446,
      "learning_rate": 0.00012329822806786652,
      "loss": 3.7253,
      "step": 268230
    },
    {
      "epoch": 0.5588333333333333,
      "grad_norm": 0.9190016984939575,
      "learning_rate": 0.00012328852702856702,
      "loss": 3.897,
      "step": 268240
    },
    {
      "epoch": 0.5588541666666667,
      "grad_norm": 0.929102897644043,
      "learning_rate": 0.00012327882610465056,
      "loss": 3.933,
      "step": 268250
    },
    {
      "epoch": 0.558875,
      "grad_norm": 1.0215908288955688,
      "learning_rate": 0.0001232691252961589,
      "loss": 3.8434,
      "step": 268260
    },
    {
      "epoch": 0.5588958333333334,
      "grad_norm": 0.909648597240448,
      "learning_rate": 0.0001232594246031341,
      "loss": 3.8849,
      "step": 268270
    },
    {
      "epoch": 0.5589166666666666,
      "grad_norm": 0.910140872001648,
      "learning_rate": 0.00012324972402561805,
      "loss": 3.8638,
      "step": 268280
    },
    {
      "epoch": 0.5589375,
      "grad_norm": 1.0725091695785522,
      "learning_rate": 0.0001232400235636525,
      "loss": 3.8166,
      "step": 268290
    },
    {
      "epoch": 0.5589583333333333,
      "grad_norm": 0.9151638746261597,
      "learning_rate": 0.00012323032321727952,
      "loss": 3.7592,
      "step": 268300
    },
    {
      "epoch": 0.5589791666666667,
      "grad_norm": 0.9796857237815857,
      "learning_rate": 0.00012322062298654097,
      "loss": 3.9454,
      "step": 268310
    },
    {
      "epoch": 0.559,
      "grad_norm": 0.9848846197128296,
      "learning_rate": 0.00012321092287147865,
      "loss": 3.6895,
      "step": 268320
    },
    {
      "epoch": 0.5590208333333333,
      "grad_norm": 0.9528982043266296,
      "learning_rate": 0.00012320122287213462,
      "loss": 3.9771,
      "step": 268330
    },
    {
      "epoch": 0.5590416666666667,
      "grad_norm": 1.0399668216705322,
      "learning_rate": 0.00012319152298855064,
      "loss": 3.8899,
      "step": 268340
    },
    {
      "epoch": 0.5590625,
      "grad_norm": 0.9399709701538086,
      "learning_rate": 0.00012318182322076866,
      "loss": 3.8712,
      "step": 268350
    },
    {
      "epoch": 0.5590833333333334,
      "grad_norm": 0.9324808120727539,
      "learning_rate": 0.00012317212356883066,
      "loss": 3.8267,
      "step": 268360
    },
    {
      "epoch": 0.5591041666666666,
      "grad_norm": 1.0209417343139648,
      "learning_rate": 0.0001231624240327784,
      "loss": 3.9139,
      "step": 268370
    },
    {
      "epoch": 0.559125,
      "grad_norm": 0.8643602728843689,
      "learning_rate": 0.00012315272461265386,
      "loss": 3.9355,
      "step": 268380
    },
    {
      "epoch": 0.5591458333333333,
      "grad_norm": 0.9649555087089539,
      "learning_rate": 0.00012314302530849896,
      "loss": 3.9403,
      "step": 268390
    },
    {
      "epoch": 0.5591666666666667,
      "grad_norm": 1.051694393157959,
      "learning_rate": 0.00012313332612035553,
      "loss": 3.7889,
      "step": 268400
    },
    {
      "epoch": 0.5591875,
      "grad_norm": 0.996428906917572,
      "learning_rate": 0.0001231236270482655,
      "loss": 3.995,
      "step": 268410
    },
    {
      "epoch": 0.5592083333333333,
      "grad_norm": 0.9392392635345459,
      "learning_rate": 0.00012311392809227079,
      "loss": 3.745,
      "step": 268420
    },
    {
      "epoch": 0.5592291666666667,
      "grad_norm": 1.0718340873718262,
      "learning_rate": 0.00012310422925241324,
      "loss": 4.0544,
      "step": 268430
    },
    {
      "epoch": 0.55925,
      "grad_norm": 1.0079615116119385,
      "learning_rate": 0.00012309453052873476,
      "loss": 3.735,
      "step": 268440
    },
    {
      "epoch": 0.5592708333333334,
      "grad_norm": 0.9560194611549377,
      "learning_rate": 0.00012308483192127726,
      "loss": 4.0134,
      "step": 268450
    },
    {
      "epoch": 0.5592916666666666,
      "grad_norm": 1.0367305278778076,
      "learning_rate": 0.00012307513343008268,
      "loss": 3.7281,
      "step": 268460
    },
    {
      "epoch": 0.5593125,
      "grad_norm": 1.015417218208313,
      "learning_rate": 0.0001230654350551928,
      "loss": 3.8804,
      "step": 268470
    },
    {
      "epoch": 0.5593333333333333,
      "grad_norm": 0.9343944787979126,
      "learning_rate": 0.0001230557367966496,
      "loss": 4.0395,
      "step": 268480
    },
    {
      "epoch": 0.5593541666666667,
      "grad_norm": 1.0203707218170166,
      "learning_rate": 0.000123046038654495,
      "loss": 3.945,
      "step": 268490
    },
    {
      "epoch": 0.559375,
      "grad_norm": 1.0343880653381348,
      "learning_rate": 0.00012303634062877077,
      "loss": 3.7523,
      "step": 268500
    },
    {
      "epoch": 0.5593958333333333,
      "grad_norm": 0.9269812703132629,
      "learning_rate": 0.00012302664271951892,
      "loss": 3.9979,
      "step": 268510
    },
    {
      "epoch": 0.5594166666666667,
      "grad_norm": 0.9045310020446777,
      "learning_rate": 0.00012301694492678131,
      "loss": 3.798,
      "step": 268520
    },
    {
      "epoch": 0.5594375,
      "grad_norm": 0.9025585651397705,
      "learning_rate": 0.0001230072472505998,
      "loss": 3.8892,
      "step": 268530
    },
    {
      "epoch": 0.5594583333333333,
      "grad_norm": 0.9424560070037842,
      "learning_rate": 0.00012299754969101627,
      "loss": 3.8655,
      "step": 268540
    },
    {
      "epoch": 0.5594791666666666,
      "grad_norm": 0.9653614163398743,
      "learning_rate": 0.0001229878522480727,
      "loss": 3.9245,
      "step": 268550
    },
    {
      "epoch": 0.5595,
      "grad_norm": 0.9691545963287354,
      "learning_rate": 0.0001229781549218109,
      "loss": 4.0252,
      "step": 268560
    },
    {
      "epoch": 0.5595208333333334,
      "grad_norm": 0.974063515663147,
      "learning_rate": 0.0001229684577122727,
      "loss": 3.8665,
      "step": 268570
    },
    {
      "epoch": 0.5595416666666667,
      "grad_norm": 0.8773918151855469,
      "learning_rate": 0.00012295876061950013,
      "loss": 3.741,
      "step": 268580
    },
    {
      "epoch": 0.5595625,
      "grad_norm": 0.9333739280700684,
      "learning_rate": 0.000122949063643535,
      "loss": 3.9096,
      "step": 268590
    },
    {
      "epoch": 0.5595833333333333,
      "grad_norm": 0.9401047229766846,
      "learning_rate": 0.00012293936678441919,
      "loss": 3.87,
      "step": 268600
    },
    {
      "epoch": 0.5596041666666667,
      "grad_norm": 0.9689203500747681,
      "learning_rate": 0.0001229296700421946,
      "loss": 3.8263,
      "step": 268610
    },
    {
      "epoch": 0.559625,
      "grad_norm": 0.8812624216079712,
      "learning_rate": 0.0001229199734169032,
      "loss": 3.812,
      "step": 268620
    },
    {
      "epoch": 0.5596458333333333,
      "grad_norm": 1.3902016878128052,
      "learning_rate": 0.00012291027690858666,
      "loss": 3.7707,
      "step": 268630
    },
    {
      "epoch": 0.5596666666666666,
      "grad_norm": 0.950810968875885,
      "learning_rate": 0.00012290058051728708,
      "loss": 4.0122,
      "step": 268640
    },
    {
      "epoch": 0.5596875,
      "grad_norm": 0.9462723135948181,
      "learning_rate": 0.0001228908842430463,
      "loss": 3.8981,
      "step": 268650
    },
    {
      "epoch": 0.5597083333333334,
      "grad_norm": 1.104126214981079,
      "learning_rate": 0.0001228811880859061,
      "loss": 3.9593,
      "step": 268660
    },
    {
      "epoch": 0.5597291666666667,
      "grad_norm": 0.8534632325172424,
      "learning_rate": 0.00012287149204590845,
      "loss": 3.8207,
      "step": 268670
    },
    {
      "epoch": 0.55975,
      "grad_norm": 1.4186078310012817,
      "learning_rate": 0.00012286179612309528,
      "loss": 3.7831,
      "step": 268680
    },
    {
      "epoch": 0.5597708333333333,
      "grad_norm": 1.1864879131317139,
      "learning_rate": 0.00012285210031750832,
      "loss": 4.0239,
      "step": 268690
    },
    {
      "epoch": 0.5597916666666667,
      "grad_norm": 0.9309309124946594,
      "learning_rate": 0.0001228424046291896,
      "loss": 3.9049,
      "step": 268700
    },
    {
      "epoch": 0.5598125,
      "grad_norm": 0.9077518582344055,
      "learning_rate": 0.00012283270905818092,
      "loss": 3.8969,
      "step": 268710
    },
    {
      "epoch": 0.5598333333333333,
      "grad_norm": 0.8589823246002197,
      "learning_rate": 0.00012282301360452415,
      "loss": 3.7419,
      "step": 268720
    },
    {
      "epoch": 0.5598541666666667,
      "grad_norm": 0.9182666540145874,
      "learning_rate": 0.00012281331826826126,
      "loss": 4.0204,
      "step": 268730
    },
    {
      "epoch": 0.559875,
      "grad_norm": 0.8539641499519348,
      "learning_rate": 0.00012280362304943406,
      "loss": 3.9734,
      "step": 268740
    },
    {
      "epoch": 0.5598958333333334,
      "grad_norm": 0.9159910082817078,
      "learning_rate": 0.00012279392794808437,
      "loss": 3.8826,
      "step": 268750
    },
    {
      "epoch": 0.5599166666666666,
      "grad_norm": 1.0655955076217651,
      "learning_rate": 0.00012278423296425425,
      "loss": 4.1422,
      "step": 268760
    },
    {
      "epoch": 0.5599375,
      "grad_norm": 0.8597500324249268,
      "learning_rate": 0.00012277453809798544,
      "loss": 3.8095,
      "step": 268770
    },
    {
      "epoch": 0.5599583333333333,
      "grad_norm": 0.9853699803352356,
      "learning_rate": 0.0001227648433493198,
      "loss": 4.1264,
      "step": 268780
    },
    {
      "epoch": 0.5599791666666667,
      "grad_norm": 0.9986512064933777,
      "learning_rate": 0.0001227551487182993,
      "loss": 3.8109,
      "step": 268790
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0943528413772583,
      "learning_rate": 0.00012274545420496577,
      "loss": 3.8682,
      "step": 268800
    },
    {
      "epoch": 0.5600208333333333,
      "grad_norm": 1.0405042171478271,
      "learning_rate": 0.00012273575980936105,
      "loss": 3.8723,
      "step": 268810
    },
    {
      "epoch": 0.5600416666666667,
      "grad_norm": 0.9851361513137817,
      "learning_rate": 0.00012272606553152715,
      "loss": 3.82,
      "step": 268820
    },
    {
      "epoch": 0.5600625,
      "grad_norm": 1.0413060188293457,
      "learning_rate": 0.0001227163713715058,
      "loss": 3.9112,
      "step": 268830
    },
    {
      "epoch": 0.5600833333333334,
      "grad_norm": 1.2675601243972778,
      "learning_rate": 0.00012270667732933892,
      "loss": 3.7905,
      "step": 268840
    },
    {
      "epoch": 0.5601041666666666,
      "grad_norm": 0.973602831363678,
      "learning_rate": 0.00012269698340506836,
      "loss": 3.8893,
      "step": 268850
    },
    {
      "epoch": 0.560125,
      "grad_norm": 0.9093717336654663,
      "learning_rate": 0.00012268728959873606,
      "loss": 3.8546,
      "step": 268860
    },
    {
      "epoch": 0.5601458333333333,
      "grad_norm": 0.9656827449798584,
      "learning_rate": 0.00012267759591038388,
      "loss": 4.0054,
      "step": 268870
    },
    {
      "epoch": 0.5601666666666667,
      "grad_norm": 0.9793200492858887,
      "learning_rate": 0.00012266790234005358,
      "loss": 3.9114,
      "step": 268880
    },
    {
      "epoch": 0.5601875,
      "grad_norm": 2.5266337394714355,
      "learning_rate": 0.0001226582088877872,
      "loss": 4.0231,
      "step": 268890
    },
    {
      "epoch": 0.5602083333333333,
      "grad_norm": 1.161125659942627,
      "learning_rate": 0.00012264851555362656,
      "loss": 4.1687,
      "step": 268900
    },
    {
      "epoch": 0.5602291666666667,
      "grad_norm": 1.1971403360366821,
      "learning_rate": 0.00012263882233761342,
      "loss": 3.8958,
      "step": 268910
    },
    {
      "epoch": 0.56025,
      "grad_norm": 1.091970682144165,
      "learning_rate": 0.00012262912923978982,
      "loss": 3.8929,
      "step": 268920
    },
    {
      "epoch": 0.5602708333333334,
      "grad_norm": 1.012975811958313,
      "learning_rate": 0.00012261943626019754,
      "loss": 4.0409,
      "step": 268930
    },
    {
      "epoch": 0.5602916666666666,
      "grad_norm": 0.9144701361656189,
      "learning_rate": 0.0001226097433988784,
      "loss": 3.9197,
      "step": 268940
    },
    {
      "epoch": 0.5603125,
      "grad_norm": 0.9831428527832031,
      "learning_rate": 0.00012260005065587435,
      "loss": 3.7975,
      "step": 268950
    },
    {
      "epoch": 0.5603333333333333,
      "grad_norm": 0.8894020318984985,
      "learning_rate": 0.00012259035803122728,
      "loss": 3.6934,
      "step": 268960
    },
    {
      "epoch": 0.5603541666666667,
      "grad_norm": 1.183583378791809,
      "learning_rate": 0.0001225806655249789,
      "loss": 3.9716,
      "step": 268970
    },
    {
      "epoch": 0.560375,
      "grad_norm": 1.0078669786453247,
      "learning_rate": 0.00012257097313717128,
      "loss": 3.884,
      "step": 268980
    },
    {
      "epoch": 0.5603958333333333,
      "grad_norm": 1.1628293991088867,
      "learning_rate": 0.00012256128086784624,
      "loss": 4.0954,
      "step": 268990
    },
    {
      "epoch": 0.5604166666666667,
      "grad_norm": 0.9535170793533325,
      "learning_rate": 0.0001225515887170455,
      "loss": 3.7734,
      "step": 269000
    },
    {
      "epoch": 0.5604166666666667,
      "eval_loss": 3.5970981121063232,
      "eval_runtime": 8.372,
      "eval_samples_per_second": 1.194,
      "eval_steps_per_second": 0.358,
      "step": 269000
    },
    {
      "epoch": 0.5604375,
      "grad_norm": 1.5732911825180054,
      "learning_rate": 0.00012254189668481108,
      "loss": 3.9582,
      "step": 269010
    },
    {
      "epoch": 0.5604583333333333,
      "grad_norm": 0.9123789668083191,
      "learning_rate": 0.00012253220477118483,
      "loss": 4.1676,
      "step": 269020
    },
    {
      "epoch": 0.5604791666666666,
      "grad_norm": 0.9096937775611877,
      "learning_rate": 0.00012252251297620854,
      "loss": 3.8809,
      "step": 269030
    },
    {
      "epoch": 0.5605,
      "grad_norm": 0.8934524655342102,
      "learning_rate": 0.00012251282129992412,
      "loss": 3.7587,
      "step": 269040
    },
    {
      "epoch": 0.5605208333333334,
      "grad_norm": 1.1104689836502075,
      "learning_rate": 0.00012250312974237346,
      "loss": 4.1294,
      "step": 269050
    },
    {
      "epoch": 0.5605416666666667,
      "grad_norm": 0.9805869460105896,
      "learning_rate": 0.00012249343830359835,
      "loss": 3.9836,
      "step": 269060
    },
    {
      "epoch": 0.5605625,
      "grad_norm": 0.9249083995819092,
      "learning_rate": 0.00012248374698364074,
      "loss": 3.7548,
      "step": 269070
    },
    {
      "epoch": 0.5605833333333333,
      "grad_norm": 0.9965168833732605,
      "learning_rate": 0.00012247405578254245,
      "loss": 3.8268,
      "step": 269080
    },
    {
      "epoch": 0.5606041666666667,
      "grad_norm": 1.1507693529129028,
      "learning_rate": 0.0001224643647003453,
      "loss": 4.0153,
      "step": 269090
    },
    {
      "epoch": 0.560625,
      "grad_norm": 0.9580757021903992,
      "learning_rate": 0.00012245467373709124,
      "loss": 3.8303,
      "step": 269100
    },
    {
      "epoch": 0.5606458333333333,
      "grad_norm": 0.9346604347229004,
      "learning_rate": 0.00012244498289282207,
      "loss": 3.7814,
      "step": 269110
    },
    {
      "epoch": 0.5606666666666666,
      "grad_norm": 0.9363908171653748,
      "learning_rate": 0.00012243529216757974,
      "loss": 4.0643,
      "step": 269120
    },
    {
      "epoch": 0.5606875,
      "grad_norm": 1.0396443605422974,
      "learning_rate": 0.00012242560156140592,
      "loss": 3.9872,
      "step": 269130
    },
    {
      "epoch": 0.5607083333333334,
      "grad_norm": 0.9285680651664734,
      "learning_rate": 0.0001224159110743426,
      "loss": 3.9891,
      "step": 269140
    },
    {
      "epoch": 0.5607291666666666,
      "grad_norm": 0.9460312724113464,
      "learning_rate": 0.0001224062207064317,
      "loss": 3.8964,
      "step": 269150
    },
    {
      "epoch": 0.56075,
      "grad_norm": 1.023661494255066,
      "learning_rate": 0.00012239653045771493,
      "loss": 3.9364,
      "step": 269160
    },
    {
      "epoch": 0.5607708333333333,
      "grad_norm": 0.9823899269104004,
      "learning_rate": 0.00012238684032823426,
      "loss": 3.7249,
      "step": 269170
    },
    {
      "epoch": 0.5607916666666667,
      "grad_norm": 0.9905110001564026,
      "learning_rate": 0.00012237715031803152,
      "loss": 3.9048,
      "step": 269180
    },
    {
      "epoch": 0.5608125,
      "grad_norm": 1.0228663682937622,
      "learning_rate": 0.00012236746042714852,
      "loss": 3.9229,
      "step": 269190
    },
    {
      "epoch": 0.5608333333333333,
      "grad_norm": 1.0541934967041016,
      "learning_rate": 0.00012235777065562723,
      "loss": 3.9003,
      "step": 269200
    },
    {
      "epoch": 0.5608541666666667,
      "grad_norm": 0.9472588300704956,
      "learning_rate": 0.00012234808100350936,
      "loss": 3.813,
      "step": 269210
    },
    {
      "epoch": 0.560875,
      "grad_norm": 0.9604522585868835,
      "learning_rate": 0.0001223383914708368,
      "loss": 3.9542,
      "step": 269220
    },
    {
      "epoch": 0.5608958333333334,
      "grad_norm": 0.9616444706916809,
      "learning_rate": 0.00012232870205765151,
      "loss": 3.657,
      "step": 269230
    },
    {
      "epoch": 0.5609166666666666,
      "grad_norm": 0.9349369406700134,
      "learning_rate": 0.00012231901276399526,
      "loss": 3.7947,
      "step": 269240
    },
    {
      "epoch": 0.5609375,
      "grad_norm": 0.958565354347229,
      "learning_rate": 0.00012230932358990988,
      "loss": 3.9088,
      "step": 269250
    },
    {
      "epoch": 0.5609583333333333,
      "grad_norm": 1.5947847366333008,
      "learning_rate": 0.00012229963453543733,
      "loss": 3.7274,
      "step": 269260
    },
    {
      "epoch": 0.5609791666666667,
      "grad_norm": 1.0462009906768799,
      "learning_rate": 0.00012228994560061935,
      "loss": 3.806,
      "step": 269270
    },
    {
      "epoch": 0.561,
      "grad_norm": 0.8988761305809021,
      "learning_rate": 0.00012228025678549781,
      "loss": 3.859,
      "step": 269280
    },
    {
      "epoch": 0.5610208333333333,
      "grad_norm": 1.0681627988815308,
      "learning_rate": 0.00012227056809011464,
      "loss": 3.7282,
      "step": 269290
    },
    {
      "epoch": 0.5610416666666667,
      "grad_norm": 0.884804904460907,
      "learning_rate": 0.00012226087951451163,
      "loss": 3.9661,
      "step": 269300
    },
    {
      "epoch": 0.5610625,
      "grad_norm": 1.0447640419006348,
      "learning_rate": 0.00012225119105873058,
      "loss": 3.7182,
      "step": 269310
    },
    {
      "epoch": 0.5610833333333334,
      "grad_norm": 1.0095778703689575,
      "learning_rate": 0.0001222415027228135,
      "loss": 3.8335,
      "step": 269320
    },
    {
      "epoch": 0.5611041666666666,
      "grad_norm": 1.007164716720581,
      "learning_rate": 0.00012223181450680214,
      "loss": 3.821,
      "step": 269330
    },
    {
      "epoch": 0.561125,
      "grad_norm": 1.283777117729187,
      "learning_rate": 0.00012222212641073825,
      "loss": 3.8654,
      "step": 269340
    },
    {
      "epoch": 0.5611458333333333,
      "grad_norm": 1.1306127309799194,
      "learning_rate": 0.00012221243843466383,
      "loss": 4.0733,
      "step": 269350
    },
    {
      "epoch": 0.5611666666666667,
      "grad_norm": 0.984660804271698,
      "learning_rate": 0.0001222027505786207,
      "loss": 3.8296,
      "step": 269360
    },
    {
      "epoch": 0.5611875,
      "grad_norm": 1.0730596780776978,
      "learning_rate": 0.00012219306284265064,
      "loss": 3.9559,
      "step": 269370
    },
    {
      "epoch": 0.5612083333333333,
      "grad_norm": 0.9325121641159058,
      "learning_rate": 0.00012218337522679556,
      "loss": 3.7824,
      "step": 269380
    },
    {
      "epoch": 0.5612291666666667,
      "grad_norm": 0.9151121973991394,
      "learning_rate": 0.0001221736877310973,
      "loss": 3.7489,
      "step": 269390
    },
    {
      "epoch": 0.56125,
      "grad_norm": 0.9495848417282104,
      "learning_rate": 0.00012216400035559768,
      "loss": 3.679,
      "step": 269400
    },
    {
      "epoch": 0.5612708333333334,
      "grad_norm": 1.1084554195404053,
      "learning_rate": 0.00012215431310033857,
      "loss": 3.8187,
      "step": 269410
    },
    {
      "epoch": 0.5612916666666666,
      "grad_norm": 0.9237710237503052,
      "learning_rate": 0.00012214462596536182,
      "loss": 3.9317,
      "step": 269420
    },
    {
      "epoch": 0.5613125,
      "grad_norm": 0.9113256931304932,
      "learning_rate": 0.0001221349389507093,
      "loss": 3.8466,
      "step": 269430
    },
    {
      "epoch": 0.5613333333333334,
      "grad_norm": 0.9291160106658936,
      "learning_rate": 0.0001221252520564227,
      "loss": 3.9902,
      "step": 269440
    },
    {
      "epoch": 0.5613541666666667,
      "grad_norm": 0.9671221375465393,
      "learning_rate": 0.00012211556528254403,
      "loss": 3.9567,
      "step": 269450
    },
    {
      "epoch": 0.561375,
      "grad_norm": 0.9996262788772583,
      "learning_rate": 0.00012210587862911514,
      "loss": 3.9876,
      "step": 269460
    },
    {
      "epoch": 0.5613958333333333,
      "grad_norm": 0.9539134502410889,
      "learning_rate": 0.0001220961920961777,
      "loss": 4.056,
      "step": 269470
    },
    {
      "epoch": 0.5614166666666667,
      "grad_norm": 0.9164515137672424,
      "learning_rate": 0.00012208650568377373,
      "loss": 3.9239,
      "step": 269480
    },
    {
      "epoch": 0.5614375,
      "grad_norm": 0.9532806873321533,
      "learning_rate": 0.00012207681939194504,
      "loss": 3.7184,
      "step": 269490
    },
    {
      "epoch": 0.5614583333333333,
      "grad_norm": 1.229783058166504,
      "learning_rate": 0.00012206713322073336,
      "loss": 4.0377,
      "step": 269500
    },
    {
      "epoch": 0.5614791666666666,
      "grad_norm": 0.9815142750740051,
      "learning_rate": 0.00012205744717018063,
      "loss": 4.0048,
      "step": 269510
    },
    {
      "epoch": 0.5615,
      "grad_norm": 0.8861122131347656,
      "learning_rate": 0.00012204776124032873,
      "loss": 3.6515,
      "step": 269520
    },
    {
      "epoch": 0.5615208333333334,
      "grad_norm": 0.9111084342002869,
      "learning_rate": 0.00012203807543121935,
      "loss": 3.9633,
      "step": 269530
    },
    {
      "epoch": 0.5615416666666667,
      "grad_norm": 0.996566891670227,
      "learning_rate": 0.00012202838974289446,
      "loss": 3.906,
      "step": 269540
    },
    {
      "epoch": 0.5615625,
      "grad_norm": 1.0386124849319458,
      "learning_rate": 0.00012201870417539587,
      "loss": 3.838,
      "step": 269550
    },
    {
      "epoch": 0.5615833333333333,
      "grad_norm": 1.112640142440796,
      "learning_rate": 0.00012200901872876534,
      "loss": 3.9866,
      "step": 269560
    },
    {
      "epoch": 0.5616041666666667,
      "grad_norm": 0.9875567555427551,
      "learning_rate": 0.00012199933340304486,
      "loss": 3.924,
      "step": 269570
    },
    {
      "epoch": 0.561625,
      "grad_norm": 0.9670998454093933,
      "learning_rate": 0.00012198964819827613,
      "loss": 3.8798,
      "step": 269580
    },
    {
      "epoch": 0.5616458333333333,
      "grad_norm": 0.9240548610687256,
      "learning_rate": 0.00012197996311450099,
      "loss": 4.0483,
      "step": 269590
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 0.9824122786521912,
      "learning_rate": 0.00012197027815176139,
      "loss": 4.0573,
      "step": 269600
    },
    {
      "epoch": 0.5616875,
      "grad_norm": 1.0194085836410522,
      "learning_rate": 0.00012196059331009907,
      "loss": 3.936,
      "step": 269610
    },
    {
      "epoch": 0.5617083333333334,
      "grad_norm": 0.9122382402420044,
      "learning_rate": 0.00012195090858955584,
      "loss": 3.771,
      "step": 269620
    },
    {
      "epoch": 0.5617291666666666,
      "grad_norm": 1.0130995512008667,
      "learning_rate": 0.00012194122399017365,
      "loss": 3.9094,
      "step": 269630
    },
    {
      "epoch": 0.56175,
      "grad_norm": 0.9165657758712769,
      "learning_rate": 0.00012193153951199424,
      "loss": 4.0486,
      "step": 269640
    },
    {
      "epoch": 0.5617708333333333,
      "grad_norm": 0.9241163730621338,
      "learning_rate": 0.00012192185515505942,
      "loss": 3.9483,
      "step": 269650
    },
    {
      "epoch": 0.5617916666666667,
      "grad_norm": 0.8995068669319153,
      "learning_rate": 0.00012191217091941116,
      "loss": 3.7427,
      "step": 269660
    },
    {
      "epoch": 0.5618125,
      "grad_norm": 1.0302940607070923,
      "learning_rate": 0.00012190248680509116,
      "loss": 3.9763,
      "step": 269670
    },
    {
      "epoch": 0.5618333333333333,
      "grad_norm": 1.3923149108886719,
      "learning_rate": 0.00012189280281214126,
      "loss": 3.8113,
      "step": 269680
    },
    {
      "epoch": 0.5618541666666667,
      "grad_norm": 1.180033802986145,
      "learning_rate": 0.0001218831189406034,
      "loss": 3.9293,
      "step": 269690
    },
    {
      "epoch": 0.561875,
      "grad_norm": 0.9420334100723267,
      "learning_rate": 0.00012187343519051933,
      "loss": 4.1309,
      "step": 269700
    },
    {
      "epoch": 0.5618958333333334,
      "grad_norm": 0.9746140241622925,
      "learning_rate": 0.00012186375156193086,
      "loss": 3.9166,
      "step": 269710
    },
    {
      "epoch": 0.5619166666666666,
      "grad_norm": 0.9284910559654236,
      "learning_rate": 0.00012185406805487982,
      "loss": 3.8799,
      "step": 269720
    },
    {
      "epoch": 0.5619375,
      "grad_norm": 1.0153453350067139,
      "learning_rate": 0.00012184438466940811,
      "loss": 3.8821,
      "step": 269730
    },
    {
      "epoch": 0.5619583333333333,
      "grad_norm": 1.019144892692566,
      "learning_rate": 0.0001218347014055575,
      "loss": 3.8985,
      "step": 269740
    },
    {
      "epoch": 0.5619791666666667,
      "grad_norm": 0.9567883014678955,
      "learning_rate": 0.00012182501826336977,
      "loss": 3.6527,
      "step": 269750
    },
    {
      "epoch": 0.562,
      "grad_norm": 1.5623886585235596,
      "learning_rate": 0.00012181533524288692,
      "loss": 4.0694,
      "step": 269760
    },
    {
      "epoch": 0.5620208333333333,
      "grad_norm": 0.9182007312774658,
      "learning_rate": 0.0001218056523441506,
      "loss": 3.8494,
      "step": 269770
    },
    {
      "epoch": 0.5620416666666667,
      "grad_norm": 0.9879549741744995,
      "learning_rate": 0.00012179596956720267,
      "loss": 3.8563,
      "step": 269780
    },
    {
      "epoch": 0.5620625,
      "grad_norm": 1.071472406387329,
      "learning_rate": 0.00012178628691208506,
      "loss": 3.8441,
      "step": 269790
    },
    {
      "epoch": 0.5620833333333334,
      "grad_norm": 1.0254874229431152,
      "learning_rate": 0.00012177660437883948,
      "loss": 3.8929,
      "step": 269800
    },
    {
      "epoch": 0.5621041666666666,
      "grad_norm": 0.8727050423622131,
      "learning_rate": 0.00012176692196750778,
      "loss": 3.7866,
      "step": 269810
    },
    {
      "epoch": 0.562125,
      "grad_norm": 0.9226784706115723,
      "learning_rate": 0.00012175723967813185,
      "loss": 3.7837,
      "step": 269820
    },
    {
      "epoch": 0.5621458333333333,
      "grad_norm": 0.9495800733566284,
      "learning_rate": 0.00012174755751075348,
      "loss": 3.8718,
      "step": 269830
    },
    {
      "epoch": 0.5621666666666667,
      "grad_norm": 0.9946632385253906,
      "learning_rate": 0.00012173787546541441,
      "loss": 3.9677,
      "step": 269840
    },
    {
      "epoch": 0.5621875,
      "grad_norm": 0.8990049958229065,
      "learning_rate": 0.00012172819354215656,
      "loss": 4.124,
      "step": 269850
    },
    {
      "epoch": 0.5622083333333333,
      "grad_norm": 1.3379652500152588,
      "learning_rate": 0.00012171851174102177,
      "loss": 3.8843,
      "step": 269860
    },
    {
      "epoch": 0.5622291666666667,
      "grad_norm": 0.9886553287506104,
      "learning_rate": 0.00012170883006205173,
      "loss": 3.8838,
      "step": 269870
    },
    {
      "epoch": 0.56225,
      "grad_norm": 1.0609397888183594,
      "learning_rate": 0.0001216991485052884,
      "loss": 3.8415,
      "step": 269880
    },
    {
      "epoch": 0.5622708333333334,
      "grad_norm": 1.033843994140625,
      "learning_rate": 0.00012168946707077356,
      "loss": 3.7558,
      "step": 269890
    },
    {
      "epoch": 0.5622916666666666,
      "grad_norm": 1.5617213249206543,
      "learning_rate": 0.00012167978575854896,
      "loss": 3.8164,
      "step": 269900
    },
    {
      "epoch": 0.5623125,
      "grad_norm": 0.9088308215141296,
      "learning_rate": 0.0001216701045686565,
      "loss": 4.0174,
      "step": 269910
    },
    {
      "epoch": 0.5623333333333334,
      "grad_norm": 0.9916620254516602,
      "learning_rate": 0.000121660423501138,
      "loss": 3.7395,
      "step": 269920
    },
    {
      "epoch": 0.5623541666666667,
      "grad_norm": 0.9798597097396851,
      "learning_rate": 0.0001216507425560352,
      "loss": 3.9219,
      "step": 269930
    },
    {
      "epoch": 0.562375,
      "grad_norm": 1.1214523315429688,
      "learning_rate": 0.00012164106173339004,
      "loss": 3.9771,
      "step": 269940
    },
    {
      "epoch": 0.5623958333333333,
      "grad_norm": 0.9783903360366821,
      "learning_rate": 0.00012163138103324422,
      "loss": 3.9693,
      "step": 269950
    },
    {
      "epoch": 0.5624166666666667,
      "grad_norm": 0.941636860370636,
      "learning_rate": 0.0001216217004556396,
      "loss": 3.8795,
      "step": 269960
    },
    {
      "epoch": 0.5624375,
      "grad_norm": 0.9614599943161011,
      "learning_rate": 0.00012161202000061804,
      "loss": 3.9834,
      "step": 269970
    },
    {
      "epoch": 0.5624583333333333,
      "grad_norm": 1.014907956123352,
      "learning_rate": 0.0001216023396682213,
      "loss": 3.9976,
      "step": 269980
    },
    {
      "epoch": 0.5624791666666666,
      "grad_norm": 0.959839940071106,
      "learning_rate": 0.00012159265945849118,
      "loss": 3.9674,
      "step": 269990
    },
    {
      "epoch": 0.5625,
      "grad_norm": 1.0230357646942139,
      "learning_rate": 0.00012158297937146957,
      "loss": 3.9342,
      "step": 270000
    },
    {
      "epoch": 0.5625,
      "eval_loss": 3.597231388092041,
      "eval_runtime": 8.0219,
      "eval_samples_per_second": 1.247,
      "eval_steps_per_second": 0.374,
      "step": 270000
    },
    {
      "epoch": 0.5625208333333334,
      "grad_norm": 0.9799951314926147,
      "learning_rate": 0.00012157329940719822,
      "loss": 3.8618,
      "step": 270010
    },
    {
      "epoch": 0.5625416666666667,
      "grad_norm": 0.9665729403495789,
      "learning_rate": 0.000121563619565719,
      "loss": 3.8581,
      "step": 270020
    },
    {
      "epoch": 0.5625625,
      "grad_norm": 0.9295472502708435,
      "learning_rate": 0.00012155393984707364,
      "loss": 3.8809,
      "step": 270030
    },
    {
      "epoch": 0.5625833333333333,
      "grad_norm": 1.105199933052063,
      "learning_rate": 0.00012154426025130401,
      "loss": 3.6586,
      "step": 270040
    },
    {
      "epoch": 0.5626041666666667,
      "grad_norm": 0.9820759296417236,
      "learning_rate": 0.00012153458077845195,
      "loss": 3.9627,
      "step": 270050
    },
    {
      "epoch": 0.562625,
      "grad_norm": 0.9727801084518433,
      "learning_rate": 0.00012152490142855917,
      "loss": 3.871,
      "step": 270060
    },
    {
      "epoch": 0.5626458333333333,
      "grad_norm": 1.0174918174743652,
      "learning_rate": 0.0001215152222016676,
      "loss": 3.9464,
      "step": 270070
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 1.0346143245697021,
      "learning_rate": 0.00012150554309781898,
      "loss": 3.9128,
      "step": 270080
    },
    {
      "epoch": 0.5626875,
      "grad_norm": 0.9321427345275879,
      "learning_rate": 0.00012149586411705509,
      "loss": 3.9265,
      "step": 270090
    },
    {
      "epoch": 0.5627083333333334,
      "grad_norm": 0.8967716693878174,
      "learning_rate": 0.00012148618525941784,
      "loss": 3.8667,
      "step": 270100
    },
    {
      "epoch": 0.5627291666666666,
      "grad_norm": 1.0971813201904297,
      "learning_rate": 0.00012147650652494898,
      "loss": 4.0716,
      "step": 270110
    },
    {
      "epoch": 0.56275,
      "grad_norm": 1.0818331241607666,
      "learning_rate": 0.00012146682791369026,
      "loss": 4.0318,
      "step": 270120
    },
    {
      "epoch": 0.5627708333333333,
      "grad_norm": 0.9697481989860535,
      "learning_rate": 0.00012145714942568365,
      "loss": 3.9993,
      "step": 270130
    },
    {
      "epoch": 0.5627916666666667,
      "grad_norm": 1.0082206726074219,
      "learning_rate": 0.00012144747106097078,
      "loss": 3.8771,
      "step": 270140
    },
    {
      "epoch": 0.5628125,
      "grad_norm": 0.9853095412254333,
      "learning_rate": 0.00012143779281959353,
      "loss": 3.9016,
      "step": 270150
    },
    {
      "epoch": 0.5628333333333333,
      "grad_norm": 1.0301713943481445,
      "learning_rate": 0.00012142811470159377,
      "loss": 4.0539,
      "step": 270160
    },
    {
      "epoch": 0.5628541666666667,
      "grad_norm": 1.0444307327270508,
      "learning_rate": 0.0001214184367070132,
      "loss": 3.9605,
      "step": 270170
    },
    {
      "epoch": 0.562875,
      "grad_norm": 0.9611204266548157,
      "learning_rate": 0.00012140875883589364,
      "loss": 3.9476,
      "step": 270180
    },
    {
      "epoch": 0.5628958333333334,
      "grad_norm": 1.1213669776916504,
      "learning_rate": 0.000121399081088277,
      "loss": 3.9254,
      "step": 270190
    },
    {
      "epoch": 0.5629166666666666,
      "grad_norm": 0.9420027136802673,
      "learning_rate": 0.000121389403464205,
      "loss": 3.7222,
      "step": 270200
    },
    {
      "epoch": 0.5629375,
      "grad_norm": 1.0714657306671143,
      "learning_rate": 0.00012137972596371939,
      "loss": 3.8275,
      "step": 270210
    },
    {
      "epoch": 0.5629583333333333,
      "grad_norm": 0.9605008363723755,
      "learning_rate": 0.00012137004858686208,
      "loss": 3.9486,
      "step": 270220
    },
    {
      "epoch": 0.5629791666666667,
      "grad_norm": 1.0198938846588135,
      "learning_rate": 0.00012136037133367485,
      "loss": 3.8057,
      "step": 270230
    },
    {
      "epoch": 0.563,
      "grad_norm": 0.9281361699104309,
      "learning_rate": 0.00012135069420419941,
      "loss": 3.9689,
      "step": 270240
    },
    {
      "epoch": 0.5630208333333333,
      "grad_norm": 1.0752618312835693,
      "learning_rate": 0.00012134101719847766,
      "loss": 4.0064,
      "step": 270250
    },
    {
      "epoch": 0.5630416666666667,
      "grad_norm": 0.9418216347694397,
      "learning_rate": 0.00012133134031655141,
      "loss": 3.9202,
      "step": 270260
    },
    {
      "epoch": 0.5630625,
      "grad_norm": 1.4454196691513062,
      "learning_rate": 0.00012132166355846235,
      "loss": 3.9141,
      "step": 270270
    },
    {
      "epoch": 0.5630833333333334,
      "grad_norm": 1.1332685947418213,
      "learning_rate": 0.0001213119869242524,
      "loss": 3.956,
      "step": 270280
    },
    {
      "epoch": 0.5631041666666666,
      "grad_norm": 0.890019416809082,
      "learning_rate": 0.00012130231041396333,
      "loss": 3.9718,
      "step": 270290
    },
    {
      "epoch": 0.563125,
      "grad_norm": 1.025240182876587,
      "learning_rate": 0.00012129263402763689,
      "loss": 3.8186,
      "step": 270300
    },
    {
      "epoch": 0.5631458333333333,
      "grad_norm": 0.9517319202423096,
      "learning_rate": 0.00012128295776531489,
      "loss": 3.9882,
      "step": 270310
    },
    {
      "epoch": 0.5631666666666667,
      "grad_norm": 0.9628608822822571,
      "learning_rate": 0.0001212732816270392,
      "loss": 3.838,
      "step": 270320
    },
    {
      "epoch": 0.5631875,
      "grad_norm": 1.2231940031051636,
      "learning_rate": 0.00012126360561285154,
      "loss": 3.8326,
      "step": 270330
    },
    {
      "epoch": 0.5632083333333333,
      "grad_norm": 0.9324934482574463,
      "learning_rate": 0.00012125392972279369,
      "loss": 4.0592,
      "step": 270340
    },
    {
      "epoch": 0.5632291666666667,
      "grad_norm": 1.1929577589035034,
      "learning_rate": 0.00012124425395690753,
      "loss": 3.8073,
      "step": 270350
    },
    {
      "epoch": 0.56325,
      "grad_norm": 1.0584560632705688,
      "learning_rate": 0.00012123457831523482,
      "loss": 4.1009,
      "step": 270360
    },
    {
      "epoch": 0.5632708333333334,
      "grad_norm": 1.0032691955566406,
      "learning_rate": 0.00012122490279781727,
      "loss": 3.7568,
      "step": 270370
    },
    {
      "epoch": 0.5632916666666666,
      "grad_norm": 0.946422815322876,
      "learning_rate": 0.0001212152274046968,
      "loss": 3.7923,
      "step": 270380
    },
    {
      "epoch": 0.5633125,
      "grad_norm": 0.9986995458602905,
      "learning_rate": 0.00012120555213591518,
      "loss": 3.9073,
      "step": 270390
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 0.9533580541610718,
      "learning_rate": 0.00012119587699151413,
      "loss": 3.778,
      "step": 270400
    },
    {
      "epoch": 0.5633541666666667,
      "grad_norm": 0.9246037602424622,
      "learning_rate": 0.0001211862019715355,
      "loss": 3.9449,
      "step": 270410
    },
    {
      "epoch": 0.563375,
      "grad_norm": 1.148612141609192,
      "learning_rate": 0.00012117652707602111,
      "loss": 3.9759,
      "step": 270420
    },
    {
      "epoch": 0.5633958333333333,
      "grad_norm": 0.9364300966262817,
      "learning_rate": 0.00012116685230501267,
      "loss": 3.7222,
      "step": 270430
    },
    {
      "epoch": 0.5634166666666667,
      "grad_norm": 0.9278977513313293,
      "learning_rate": 0.00012115717765855205,
      "loss": 3.8109,
      "step": 270440
    },
    {
      "epoch": 0.5634375,
      "grad_norm": 0.9874715209007263,
      "learning_rate": 0.000121147503136681,
      "loss": 3.9204,
      "step": 270450
    },
    {
      "epoch": 0.5634583333333333,
      "grad_norm": 0.937258780002594,
      "learning_rate": 0.00012113782873944125,
      "loss": 3.6917,
      "step": 270460
    },
    {
      "epoch": 0.5634791666666666,
      "grad_norm": 1.072008490562439,
      "learning_rate": 0.00012112815446687475,
      "loss": 3.8682,
      "step": 270470
    },
    {
      "epoch": 0.5635,
      "grad_norm": 0.9355138540267944,
      "learning_rate": 0.00012111848031902315,
      "loss": 3.9996,
      "step": 270480
    },
    {
      "epoch": 0.5635208333333334,
      "grad_norm": 0.9608321189880371,
      "learning_rate": 0.00012110880629592825,
      "loss": 4.0449,
      "step": 270490
    },
    {
      "epoch": 0.5635416666666667,
      "grad_norm": 0.9179949164390564,
      "learning_rate": 0.00012109913239763195,
      "loss": 3.9418,
      "step": 270500
    },
    {
      "epoch": 0.5635625,
      "grad_norm": 1.0049036741256714,
      "learning_rate": 0.0001210894586241759,
      "loss": 3.8451,
      "step": 270510
    },
    {
      "epoch": 0.5635833333333333,
      "grad_norm": 1.1700993776321411,
      "learning_rate": 0.00012107978497560195,
      "loss": 3.9368,
      "step": 270520
    },
    {
      "epoch": 0.5636041666666667,
      "grad_norm": 1.1728615760803223,
      "learning_rate": 0.0001210701114519519,
      "loss": 3.8512,
      "step": 270530
    },
    {
      "epoch": 0.563625,
      "grad_norm": 0.9484742283821106,
      "learning_rate": 0.00012106043805326752,
      "loss": 3.9596,
      "step": 270540
    },
    {
      "epoch": 0.5636458333333333,
      "grad_norm": 1.024282693862915,
      "learning_rate": 0.00012105076477959054,
      "loss": 3.8729,
      "step": 270550
    },
    {
      "epoch": 0.5636666666666666,
      "grad_norm": 0.9878473877906799,
      "learning_rate": 0.00012104109163096288,
      "loss": 4.0221,
      "step": 270560
    },
    {
      "epoch": 0.5636875,
      "grad_norm": 0.8561306595802307,
      "learning_rate": 0.00012103141860742623,
      "loss": 3.8343,
      "step": 270570
    },
    {
      "epoch": 0.5637083333333334,
      "grad_norm": 1.122973918914795,
      "learning_rate": 0.00012102174570902232,
      "loss": 3.9,
      "step": 270580
    },
    {
      "epoch": 0.5637291666666666,
      "grad_norm": 0.9490858316421509,
      "learning_rate": 0.00012101207293579304,
      "loss": 3.8556,
      "step": 270590
    },
    {
      "epoch": 0.56375,
      "grad_norm": 0.9960413575172424,
      "learning_rate": 0.00012100240028778015,
      "loss": 4.0061,
      "step": 270600
    },
    {
      "epoch": 0.5637708333333333,
      "grad_norm": 0.9875545501708984,
      "learning_rate": 0.00012099272776502538,
      "loss": 4.0177,
      "step": 270610
    },
    {
      "epoch": 0.5637916666666667,
      "grad_norm": 0.9740445613861084,
      "learning_rate": 0.00012098305536757052,
      "loss": 3.8955,
      "step": 270620
    },
    {
      "epoch": 0.5638125,
      "grad_norm": 0.9520814418792725,
      "learning_rate": 0.00012097338309545744,
      "loss": 3.9052,
      "step": 270630
    },
    {
      "epoch": 0.5638333333333333,
      "grad_norm": 0.9846287965774536,
      "learning_rate": 0.00012096371094872781,
      "loss": 4.0167,
      "step": 270640
    },
    {
      "epoch": 0.5638541666666667,
      "grad_norm": 1.0528427362442017,
      "learning_rate": 0.00012095403892742344,
      "loss": 3.9841,
      "step": 270650
    },
    {
      "epoch": 0.563875,
      "grad_norm": 1.062294840812683,
      "learning_rate": 0.00012094436703158618,
      "loss": 4.0272,
      "step": 270660
    },
    {
      "epoch": 0.5638958333333334,
      "grad_norm": 1.700199007987976,
      "learning_rate": 0.00012093469526125772,
      "loss": 4.0245,
      "step": 270670
    },
    {
      "epoch": 0.5639166666666666,
      "grad_norm": 0.9554367065429688,
      "learning_rate": 0.00012092502361647985,
      "loss": 3.9207,
      "step": 270680
    },
    {
      "epoch": 0.5639375,
      "grad_norm": 0.9681891798973083,
      "learning_rate": 0.00012091535209729443,
      "loss": 3.9904,
      "step": 270690
    },
    {
      "epoch": 0.5639583333333333,
      "grad_norm": 1.1329476833343506,
      "learning_rate": 0.00012090568070374316,
      "loss": 3.9552,
      "step": 270700
    },
    {
      "epoch": 0.5639791666666667,
      "grad_norm": 1.0156396627426147,
      "learning_rate": 0.0001208960094358678,
      "loss": 3.853,
      "step": 270710
    },
    {
      "epoch": 0.564,
      "grad_norm": 1.0961883068084717,
      "learning_rate": 0.00012088633829371016,
      "loss": 4.1376,
      "step": 270720
    },
    {
      "epoch": 0.5640208333333333,
      "grad_norm": 1.1156131029129028,
      "learning_rate": 0.00012087666727731206,
      "loss": 4.0207,
      "step": 270730
    },
    {
      "epoch": 0.5640416666666667,
      "grad_norm": 0.932036280632019,
      "learning_rate": 0.00012086699638671518,
      "loss": 3.7977,
      "step": 270740
    },
    {
      "epoch": 0.5640625,
      "grad_norm": 0.9128439426422119,
      "learning_rate": 0.00012085732562196136,
      "loss": 3.9628,
      "step": 270750
    },
    {
      "epoch": 0.5640833333333334,
      "grad_norm": 1.0603481531143188,
      "learning_rate": 0.00012084765498309238,
      "loss": 3.8461,
      "step": 270760
    },
    {
      "epoch": 0.5641041666666666,
      "grad_norm": 0.9604641199111938,
      "learning_rate": 0.00012083798447014995,
      "loss": 3.8354,
      "step": 270770
    },
    {
      "epoch": 0.564125,
      "grad_norm": 0.9724456667900085,
      "learning_rate": 0.00012082831408317589,
      "loss": 4.0909,
      "step": 270780
    },
    {
      "epoch": 0.5641458333333333,
      "grad_norm": 0.981422483921051,
      "learning_rate": 0.00012081864382221202,
      "loss": 3.798,
      "step": 270790
    },
    {
      "epoch": 0.5641666666666667,
      "grad_norm": 0.9786144495010376,
      "learning_rate": 0.00012080897368729998,
      "loss": 3.8289,
      "step": 270800
    },
    {
      "epoch": 0.5641875,
      "grad_norm": 1.0173479318618774,
      "learning_rate": 0.00012079930367848166,
      "loss": 3.9698,
      "step": 270810
    },
    {
      "epoch": 0.5642083333333333,
      "grad_norm": 1.0433526039123535,
      "learning_rate": 0.00012078963379579883,
      "loss": 3.9834,
      "step": 270820
    },
    {
      "epoch": 0.5642291666666667,
      "grad_norm": 0.9785326719284058,
      "learning_rate": 0.00012077996403929313,
      "loss": 3.9474,
      "step": 270830
    },
    {
      "epoch": 0.56425,
      "grad_norm": 0.8849576115608215,
      "learning_rate": 0.0001207702944090065,
      "loss": 4.0307,
      "step": 270840
    },
    {
      "epoch": 0.5642708333333334,
      "grad_norm": 1.0834169387817383,
      "learning_rate": 0.0001207606249049806,
      "loss": 3.8169,
      "step": 270850
    },
    {
      "epoch": 0.5642916666666666,
      "grad_norm": 0.9506420493125916,
      "learning_rate": 0.00012075095552725719,
      "loss": 3.823,
      "step": 270860
    },
    {
      "epoch": 0.5643125,
      "grad_norm": 1.001237392425537,
      "learning_rate": 0.00012074128627587814,
      "loss": 4.0717,
      "step": 270870
    },
    {
      "epoch": 0.5643333333333334,
      "grad_norm": 0.9614417552947998,
      "learning_rate": 0.00012073161715088512,
      "loss": 4.0464,
      "step": 270880
    },
    {
      "epoch": 0.5643541666666667,
      "grad_norm": 0.9950430393218994,
      "learning_rate": 0.00012072194815231995,
      "loss": 4.0352,
      "step": 270890
    },
    {
      "epoch": 0.564375,
      "grad_norm": 0.9091542363166809,
      "learning_rate": 0.00012071227928022433,
      "loss": 3.9846,
      "step": 270900
    },
    {
      "epoch": 0.5643958333333333,
      "grad_norm": 1.0515172481536865,
      "learning_rate": 0.00012070261053464008,
      "loss": 4.0159,
      "step": 270910
    },
    {
      "epoch": 0.5644166666666667,
      "grad_norm": 1.3024318218231201,
      "learning_rate": 0.00012069294191560902,
      "loss": 3.9683,
      "step": 270920
    },
    {
      "epoch": 0.5644375,
      "grad_norm": 0.9572655558586121,
      "learning_rate": 0.00012068327342317274,
      "loss": 3.8909,
      "step": 270930
    },
    {
      "epoch": 0.5644583333333333,
      "grad_norm": 0.94976806640625,
      "learning_rate": 0.00012067360505737321,
      "loss": 4.0635,
      "step": 270940
    },
    {
      "epoch": 0.5644791666666666,
      "grad_norm": 1.0283085107803345,
      "learning_rate": 0.00012066393681825206,
      "loss": 3.7576,
      "step": 270950
    },
    {
      "epoch": 0.5645,
      "grad_norm": 0.8914251923561096,
      "learning_rate": 0.00012065426870585107,
      "loss": 3.8574,
      "step": 270960
    },
    {
      "epoch": 0.5645208333333334,
      "grad_norm": 0.9549268484115601,
      "learning_rate": 0.00012064460072021208,
      "loss": 3.9233,
      "step": 270970
    },
    {
      "epoch": 0.5645416666666667,
      "grad_norm": 0.8690858483314514,
      "learning_rate": 0.00012063493286137675,
      "loss": 3.8565,
      "step": 270980
    },
    {
      "epoch": 0.5645625,
      "grad_norm": 1.0464284420013428,
      "learning_rate": 0.00012062526512938687,
      "loss": 4.0315,
      "step": 270990
    },
    {
      "epoch": 0.5645833333333333,
      "grad_norm": 0.9568618535995483,
      "learning_rate": 0.00012061559752428428,
      "loss": 4.0149,
      "step": 271000
    },
    {
      "epoch": 0.5645833333333333,
      "eval_loss": 3.6039810180664062,
      "eval_runtime": 7.4693,
      "eval_samples_per_second": 1.339,
      "eval_steps_per_second": 0.402,
      "step": 271000
    },
    {
      "epoch": 0.5646041666666667,
      "grad_norm": 0.9727647304534912,
      "learning_rate": 0.00012060593004611064,
      "loss": 3.7791,
      "step": 271010
    },
    {
      "epoch": 0.564625,
      "grad_norm": 0.8965604901313782,
      "learning_rate": 0.00012059626269490772,
      "loss": 3.8637,
      "step": 271020
    },
    {
      "epoch": 0.5646458333333333,
      "grad_norm": 1.005698323249817,
      "learning_rate": 0.00012058659547071736,
      "loss": 3.8667,
      "step": 271030
    },
    {
      "epoch": 0.5646666666666667,
      "grad_norm": 0.9169836640357971,
      "learning_rate": 0.00012057692837358124,
      "loss": 3.9572,
      "step": 271040
    },
    {
      "epoch": 0.5646875,
      "grad_norm": 1.691970705986023,
      "learning_rate": 0.0001205672614035411,
      "loss": 3.9534,
      "step": 271050
    },
    {
      "epoch": 0.5647083333333334,
      "grad_norm": 1.1001794338226318,
      "learning_rate": 0.00012055759456063882,
      "loss": 4.0061,
      "step": 271060
    },
    {
      "epoch": 0.5647291666666666,
      "grad_norm": 1.0412341356277466,
      "learning_rate": 0.00012054792784491608,
      "loss": 4.0285,
      "step": 271070
    },
    {
      "epoch": 0.56475,
      "grad_norm": 1.061194896697998,
      "learning_rate": 0.00012053826125641456,
      "loss": 3.9594,
      "step": 271080
    },
    {
      "epoch": 0.5647708333333333,
      "grad_norm": 1.1842337846755981,
      "learning_rate": 0.00012052859479517612,
      "loss": 3.9352,
      "step": 271090
    },
    {
      "epoch": 0.5647916666666667,
      "grad_norm": 1.0017253160476685,
      "learning_rate": 0.00012051892846124251,
      "loss": 3.7529,
      "step": 271100
    },
    {
      "epoch": 0.5648125,
      "grad_norm": 1.0170104503631592,
      "learning_rate": 0.00012050926225465543,
      "loss": 3.9097,
      "step": 271110
    },
    {
      "epoch": 0.5648333333333333,
      "grad_norm": 1.0047677755355835,
      "learning_rate": 0.00012049959617545667,
      "loss": 3.9545,
      "step": 271120
    },
    {
      "epoch": 0.5648541666666667,
      "grad_norm": 0.9997841715812683,
      "learning_rate": 0.000120489930223688,
      "loss": 3.7857,
      "step": 271130
    },
    {
      "epoch": 0.564875,
      "grad_norm": 1.0092661380767822,
      "learning_rate": 0.00012048026439939109,
      "loss": 3.8996,
      "step": 271140
    },
    {
      "epoch": 0.5648958333333334,
      "grad_norm": 1.02163565158844,
      "learning_rate": 0.0001204705987026078,
      "loss": 4.0075,
      "step": 271150
    },
    {
      "epoch": 0.5649166666666666,
      "grad_norm": 1.0968379974365234,
      "learning_rate": 0.00012046093313337986,
      "loss": 4.0571,
      "step": 271160
    },
    {
      "epoch": 0.5649375,
      "grad_norm": 0.9762718677520752,
      "learning_rate": 0.00012045126769174896,
      "loss": 3.8647,
      "step": 271170
    },
    {
      "epoch": 0.5649583333333333,
      "grad_norm": 1.013077735900879,
      "learning_rate": 0.00012044160237775687,
      "loss": 4.0503,
      "step": 271180
    },
    {
      "epoch": 0.5649791666666667,
      "grad_norm": 0.9355923533439636,
      "learning_rate": 0.00012043193719144541,
      "loss": 4.0477,
      "step": 271190
    },
    {
      "epoch": 0.565,
      "grad_norm": 0.9703080058097839,
      "learning_rate": 0.00012042227213285628,
      "loss": 3.7961,
      "step": 271200
    },
    {
      "epoch": 0.5650208333333333,
      "grad_norm": 0.9315850138664246,
      "learning_rate": 0.00012041260720203117,
      "loss": 4.0514,
      "step": 271210
    },
    {
      "epoch": 0.5650416666666667,
      "grad_norm": 0.9382808804512024,
      "learning_rate": 0.00012040294239901191,
      "loss": 3.6509,
      "step": 271220
    },
    {
      "epoch": 0.5650625,
      "grad_norm": 1.0013800859451294,
      "learning_rate": 0.00012039327772384025,
      "loss": 3.98,
      "step": 271230
    },
    {
      "epoch": 0.5650833333333334,
      "grad_norm": 1.1227957010269165,
      "learning_rate": 0.00012038361317655786,
      "loss": 3.8908,
      "step": 271240
    },
    {
      "epoch": 0.5651041666666666,
      "grad_norm": 0.9406702518463135,
      "learning_rate": 0.00012037394875720655,
      "loss": 3.8773,
      "step": 271250
    },
    {
      "epoch": 0.565125,
      "grad_norm": 1.0192972421646118,
      "learning_rate": 0.0001203642844658281,
      "loss": 3.9082,
      "step": 271260
    },
    {
      "epoch": 0.5651458333333333,
      "grad_norm": 1.0050009489059448,
      "learning_rate": 0.00012035462030246415,
      "loss": 4.0982,
      "step": 271270
    },
    {
      "epoch": 0.5651666666666667,
      "grad_norm": 1.0100252628326416,
      "learning_rate": 0.00012034495626715652,
      "loss": 3.9289,
      "step": 271280
    },
    {
      "epoch": 0.5651875,
      "grad_norm": 0.9991571307182312,
      "learning_rate": 0.000120335292359947,
      "loss": 3.9426,
      "step": 271290
    },
    {
      "epoch": 0.5652083333333333,
      "grad_norm": 1.0291085243225098,
      "learning_rate": 0.00012032562858087719,
      "loss": 3.9983,
      "step": 271300
    },
    {
      "epoch": 0.5652291666666667,
      "grad_norm": 1.0766972303390503,
      "learning_rate": 0.00012031596492998895,
      "loss": 3.8725,
      "step": 271310
    },
    {
      "epoch": 0.56525,
      "grad_norm": 0.9845896363258362,
      "learning_rate": 0.00012030630140732404,
      "loss": 3.8654,
      "step": 271320
    },
    {
      "epoch": 0.5652708333333333,
      "grad_norm": 0.9334129691123962,
      "learning_rate": 0.00012029663801292408,
      "loss": 3.8169,
      "step": 271330
    },
    {
      "epoch": 0.5652916666666666,
      "grad_norm": 0.9859805107116699,
      "learning_rate": 0.00012028697474683096,
      "loss": 4.0373,
      "step": 271340
    },
    {
      "epoch": 0.5653125,
      "grad_norm": 0.9336923360824585,
      "learning_rate": 0.0001202773116090863,
      "loss": 3.842,
      "step": 271350
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 0.8858947157859802,
      "learning_rate": 0.00012026764859973187,
      "loss": 3.8634,
      "step": 271360
    },
    {
      "epoch": 0.5653541666666667,
      "grad_norm": 0.9606100916862488,
      "learning_rate": 0.00012025798571880948,
      "loss": 3.7123,
      "step": 271370
    },
    {
      "epoch": 0.565375,
      "grad_norm": 0.9978723526000977,
      "learning_rate": 0.0001202483229663608,
      "loss": 3.9072,
      "step": 271380
    },
    {
      "epoch": 0.5653958333333333,
      "grad_norm": 0.9966926574707031,
      "learning_rate": 0.00012023866034242754,
      "loss": 3.9613,
      "step": 271390
    },
    {
      "epoch": 0.5654166666666667,
      "grad_norm": 1.7247514724731445,
      "learning_rate": 0.00012022899784705158,
      "loss": 4.0297,
      "step": 271400
    },
    {
      "epoch": 0.5654375,
      "grad_norm": 0.9668582081794739,
      "learning_rate": 0.00012021933548027451,
      "loss": 3.8217,
      "step": 271410
    },
    {
      "epoch": 0.5654583333333333,
      "grad_norm": 1.0349748134613037,
      "learning_rate": 0.00012020967324213809,
      "loss": 4.0454,
      "step": 271420
    },
    {
      "epoch": 0.5654791666666666,
      "grad_norm": 1.0323553085327148,
      "learning_rate": 0.00012020001113268417,
      "loss": 3.973,
      "step": 271430
    },
    {
      "epoch": 0.5655,
      "grad_norm": 1.0830256938934326,
      "learning_rate": 0.00012019034915195439,
      "loss": 3.943,
      "step": 271440
    },
    {
      "epoch": 0.5655208333333334,
      "grad_norm": 0.9009096026420593,
      "learning_rate": 0.00012018068729999043,
      "loss": 3.8445,
      "step": 271450
    },
    {
      "epoch": 0.5655416666666667,
      "grad_norm": 0.9155958890914917,
      "learning_rate": 0.00012017102557683415,
      "loss": 3.9914,
      "step": 271460
    },
    {
      "epoch": 0.5655625,
      "grad_norm": 0.9467272162437439,
      "learning_rate": 0.00012016136398252727,
      "loss": 3.8262,
      "step": 271470
    },
    {
      "epoch": 0.5655833333333333,
      "grad_norm": 1.0599178075790405,
      "learning_rate": 0.00012015170251711144,
      "loss": 3.8869,
      "step": 271480
    },
    {
      "epoch": 0.5656041666666667,
      "grad_norm": 0.9734918475151062,
      "learning_rate": 0.0001201420411806284,
      "loss": 3.9115,
      "step": 271490
    },
    {
      "epoch": 0.565625,
      "grad_norm": 0.9945404529571533,
      "learning_rate": 0.00012013237997311999,
      "loss": 3.8215,
      "step": 271500
    },
    {
      "epoch": 0.5656458333333333,
      "grad_norm": 0.9960309863090515,
      "learning_rate": 0.00012012271889462785,
      "loss": 3.7963,
      "step": 271510
    },
    {
      "epoch": 0.5656666666666667,
      "grad_norm": 1.0525827407836914,
      "learning_rate": 0.00012011305794519371,
      "loss": 4.0147,
      "step": 271520
    },
    {
      "epoch": 0.5656875,
      "grad_norm": 0.9299824833869934,
      "learning_rate": 0.0001201033971248594,
      "loss": 3.7966,
      "step": 271530
    },
    {
      "epoch": 0.5657083333333334,
      "grad_norm": 1.016831874847412,
      "learning_rate": 0.00012009373643366655,
      "loss": 3.9642,
      "step": 271540
    },
    {
      "epoch": 0.5657291666666666,
      "grad_norm": 0.9067938923835754,
      "learning_rate": 0.00012008407587165687,
      "loss": 4.1648,
      "step": 271550
    },
    {
      "epoch": 0.56575,
      "grad_norm": 1.0018922090530396,
      "learning_rate": 0.00012007441543887222,
      "loss": 3.9805,
      "step": 271560
    },
    {
      "epoch": 0.5657708333333333,
      "grad_norm": 0.9647160768508911,
      "learning_rate": 0.00012006475513535425,
      "loss": 3.9273,
      "step": 271570
    },
    {
      "epoch": 0.5657916666666667,
      "grad_norm": 0.9560605883598328,
      "learning_rate": 0.00012005509496114461,
      "loss": 3.9485,
      "step": 271580
    },
    {
      "epoch": 0.5658125,
      "grad_norm": 1.0029945373535156,
      "learning_rate": 0.00012004543491628515,
      "loss": 3.9112,
      "step": 271590
    },
    {
      "epoch": 0.5658333333333333,
      "grad_norm": 0.9630064368247986,
      "learning_rate": 0.00012003577500081758,
      "loss": 4.0359,
      "step": 271600
    },
    {
      "epoch": 0.5658541666666667,
      "grad_norm": 1.033563256263733,
      "learning_rate": 0.00012002611521478355,
      "loss": 3.8538,
      "step": 271610
    },
    {
      "epoch": 0.565875,
      "grad_norm": 1.0609792470932007,
      "learning_rate": 0.00012001645555822485,
      "loss": 4.0503,
      "step": 271620
    },
    {
      "epoch": 0.5658958333333334,
      "grad_norm": 1.167484998703003,
      "learning_rate": 0.00012000679603118323,
      "loss": 3.8249,
      "step": 271630
    },
    {
      "epoch": 0.5659166666666666,
      "grad_norm": 0.922749936580658,
      "learning_rate": 0.00011999713663370034,
      "loss": 3.8158,
      "step": 271640
    },
    {
      "epoch": 0.5659375,
      "grad_norm": 1.0274701118469238,
      "learning_rate": 0.00011998747736581795,
      "loss": 3.9952,
      "step": 271650
    },
    {
      "epoch": 0.5659583333333333,
      "grad_norm": 1.104956030845642,
      "learning_rate": 0.00011997781822757782,
      "loss": 4.0945,
      "step": 271660
    },
    {
      "epoch": 0.5659791666666667,
      "grad_norm": 0.9920455813407898,
      "learning_rate": 0.00011996815921902155,
      "loss": 3.8721,
      "step": 271670
    },
    {
      "epoch": 0.566,
      "grad_norm": 1.020350456237793,
      "learning_rate": 0.000119958500340191,
      "loss": 4.0109,
      "step": 271680
    },
    {
      "epoch": 0.5660208333333333,
      "grad_norm": 1.123220682144165,
      "learning_rate": 0.00011994884159112785,
      "loss": 3.8748,
      "step": 271690
    },
    {
      "epoch": 0.5660416666666667,
      "grad_norm": 0.9589433073997498,
      "learning_rate": 0.00011993918297187377,
      "loss": 3.7638,
      "step": 271700
    },
    {
      "epoch": 0.5660625,
      "grad_norm": 1.041464924812317,
      "learning_rate": 0.00011992952448247057,
      "loss": 3.9992,
      "step": 271710
    },
    {
      "epoch": 0.5660833333333334,
      "grad_norm": 1.1125531196594238,
      "learning_rate": 0.00011991986612295988,
      "loss": 3.9102,
      "step": 271720
    },
    {
      "epoch": 0.5661041666666666,
      "grad_norm": 0.9836623668670654,
      "learning_rate": 0.00011991020789338345,
      "loss": 4.0728,
      "step": 271730
    },
    {
      "epoch": 0.566125,
      "grad_norm": 1.0393621921539307,
      "learning_rate": 0.00011990054979378308,
      "loss": 3.9861,
      "step": 271740
    },
    {
      "epoch": 0.5661458333333333,
      "grad_norm": 0.9724845886230469,
      "learning_rate": 0.00011989089182420036,
      "loss": 3.8424,
      "step": 271750
    },
    {
      "epoch": 0.5661666666666667,
      "grad_norm": 1.2302169799804688,
      "learning_rate": 0.00011988123398467712,
      "loss": 3.9243,
      "step": 271760
    },
    {
      "epoch": 0.5661875,
      "grad_norm": 0.96318519115448,
      "learning_rate": 0.00011987157627525496,
      "loss": 3.8192,
      "step": 271770
    },
    {
      "epoch": 0.5662083333333333,
      "grad_norm": 1.0008875131607056,
      "learning_rate": 0.0001198619186959757,
      "loss": 3.86,
      "step": 271780
    },
    {
      "epoch": 0.5662291666666667,
      "grad_norm": 0.9294861555099487,
      "learning_rate": 0.00011985226124688105,
      "loss": 3.9871,
      "step": 271790
    },
    {
      "epoch": 0.56625,
      "grad_norm": 0.9527050852775574,
      "learning_rate": 0.00011984260392801263,
      "loss": 3.936,
      "step": 271800
    },
    {
      "epoch": 0.5662708333333333,
      "grad_norm": 1.080238699913025,
      "learning_rate": 0.00011983294673941226,
      "loss": 3.8604,
      "step": 271810
    },
    {
      "epoch": 0.5662916666666666,
      "grad_norm": 1.1931872367858887,
      "learning_rate": 0.00011982328968112164,
      "loss": 3.9351,
      "step": 271820
    },
    {
      "epoch": 0.5663125,
      "grad_norm": 1.045766830444336,
      "learning_rate": 0.00011981363275318242,
      "loss": 3.8617,
      "step": 271830
    },
    {
      "epoch": 0.5663333333333334,
      "grad_norm": 0.9538587927818298,
      "learning_rate": 0.0001198039759556364,
      "loss": 3.9978,
      "step": 271840
    },
    {
      "epoch": 0.5663541666666667,
      "grad_norm": 1.022140383720398,
      "learning_rate": 0.00011979431928852525,
      "loss": 4.008,
      "step": 271850
    },
    {
      "epoch": 0.566375,
      "grad_norm": 0.9645286798477173,
      "learning_rate": 0.00011978466275189063,
      "loss": 3.6879,
      "step": 271860
    },
    {
      "epoch": 0.5663958333333333,
      "grad_norm": 0.8714548349380493,
      "learning_rate": 0.00011977500634577438,
      "loss": 3.8032,
      "step": 271870
    },
    {
      "epoch": 0.5664166666666667,
      "grad_norm": 1.000733733177185,
      "learning_rate": 0.0001197653500702181,
      "loss": 3.8354,
      "step": 271880
    },
    {
      "epoch": 0.5664375,
      "grad_norm": 1.1284981966018677,
      "learning_rate": 0.0001197556939252635,
      "loss": 3.8563,
      "step": 271890
    },
    {
      "epoch": 0.5664583333333333,
      "grad_norm": 0.9736589193344116,
      "learning_rate": 0.00011974603791095241,
      "loss": 4.1286,
      "step": 271900
    },
    {
      "epoch": 0.5664791666666666,
      "grad_norm": 1.057542085647583,
      "learning_rate": 0.00011973638202732642,
      "loss": 3.8976,
      "step": 271910
    },
    {
      "epoch": 0.5665,
      "grad_norm": 0.9473608732223511,
      "learning_rate": 0.00011972672627442726,
      "loss": 3.8539,
      "step": 271920
    },
    {
      "epoch": 0.5665208333333334,
      "grad_norm": 0.9834904074668884,
      "learning_rate": 0.00011971707065229672,
      "loss": 3.8647,
      "step": 271930
    },
    {
      "epoch": 0.5665416666666667,
      "grad_norm": 0.9144429564476013,
      "learning_rate": 0.00011970741516097644,
      "loss": 3.8386,
      "step": 271940
    },
    {
      "epoch": 0.5665625,
      "grad_norm": 1.157827615737915,
      "learning_rate": 0.00011969775980050808,
      "loss": 3.7852,
      "step": 271950
    },
    {
      "epoch": 0.5665833333333333,
      "grad_norm": 1.0374839305877686,
      "learning_rate": 0.00011968810457093342,
      "loss": 3.9137,
      "step": 271960
    },
    {
      "epoch": 0.5666041666666667,
      "grad_norm": 0.9522261023521423,
      "learning_rate": 0.0001196784494722942,
      "loss": 3.7706,
      "step": 271970
    },
    {
      "epoch": 0.566625,
      "grad_norm": 1.0612528324127197,
      "learning_rate": 0.000119668794504632,
      "loss": 3.8262,
      "step": 271980
    },
    {
      "epoch": 0.5666458333333333,
      "grad_norm": 1.0711559057235718,
      "learning_rate": 0.00011965913966798864,
      "loss": 3.9343,
      "step": 271990
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.9533509612083435,
      "learning_rate": 0.00011964948496240581,
      "loss": 3.9247,
      "step": 272000
    },
    {
      "epoch": 0.5666666666666667,
      "eval_loss": 3.6029961109161377,
      "eval_runtime": 8.1131,
      "eval_samples_per_second": 1.233,
      "eval_steps_per_second": 0.37,
      "step": 272000
    },
    {
      "epoch": 0.5666875,
      "grad_norm": 0.9334174394607544,
      "learning_rate": 0.00011963983038792514,
      "loss": 4.0386,
      "step": 272010
    },
    {
      "epoch": 0.5667083333333334,
      "grad_norm": 1.156229019165039,
      "learning_rate": 0.0001196301759445884,
      "loss": 3.9213,
      "step": 272020
    },
    {
      "epoch": 0.5667291666666666,
      "grad_norm": 1.008630394935608,
      "learning_rate": 0.00011962052163243733,
      "loss": 4.1166,
      "step": 272030
    },
    {
      "epoch": 0.56675,
      "grad_norm": 1.0736606121063232,
      "learning_rate": 0.00011961086745151351,
      "loss": 3.8268,
      "step": 272040
    },
    {
      "epoch": 0.5667708333333333,
      "grad_norm": 1.4612494707107544,
      "learning_rate": 0.00011960121340185875,
      "loss": 3.8588,
      "step": 272050
    },
    {
      "epoch": 0.5667916666666667,
      "grad_norm": 0.9264044761657715,
      "learning_rate": 0.00011959155948351475,
      "loss": 3.6635,
      "step": 272060
    },
    {
      "epoch": 0.5668125,
      "grad_norm": 1.0174078941345215,
      "learning_rate": 0.00011958190569652316,
      "loss": 3.9092,
      "step": 272070
    },
    {
      "epoch": 0.5668333333333333,
      "grad_norm": 0.9794553518295288,
      "learning_rate": 0.00011957225204092566,
      "loss": 3.8488,
      "step": 272080
    },
    {
      "epoch": 0.5668541666666667,
      "grad_norm": 1.0616915225982666,
      "learning_rate": 0.00011956259851676399,
      "loss": 3.81,
      "step": 272090
    },
    {
      "epoch": 0.566875,
      "grad_norm": 1.2243064641952515,
      "learning_rate": 0.00011955294512407989,
      "loss": 3.7978,
      "step": 272100
    },
    {
      "epoch": 0.5668958333333334,
      "grad_norm": 1.241081714630127,
      "learning_rate": 0.00011954329186291496,
      "loss": 3.9507,
      "step": 272110
    },
    {
      "epoch": 0.5669166666666666,
      "grad_norm": 1.0366929769515991,
      "learning_rate": 0.00011953363873331098,
      "loss": 3.8321,
      "step": 272120
    },
    {
      "epoch": 0.5669375,
      "grad_norm": 0.9655038714408875,
      "learning_rate": 0.00011952398573530965,
      "loss": 3.768,
      "step": 272130
    },
    {
      "epoch": 0.5669583333333333,
      "grad_norm": 0.987673282623291,
      "learning_rate": 0.00011951433286895256,
      "loss": 3.8415,
      "step": 272140
    },
    {
      "epoch": 0.5669791666666667,
      "grad_norm": 0.9730890393257141,
      "learning_rate": 0.00011950468013428154,
      "loss": 3.8351,
      "step": 272150
    },
    {
      "epoch": 0.567,
      "grad_norm": 0.9981933832168579,
      "learning_rate": 0.00011949502753133826,
      "loss": 3.6965,
      "step": 272160
    },
    {
      "epoch": 0.5670208333333333,
      "grad_norm": 0.9498477578163147,
      "learning_rate": 0.00011948537506016431,
      "loss": 3.9212,
      "step": 272170
    },
    {
      "epoch": 0.5670416666666667,
      "grad_norm": 0.8962441682815552,
      "learning_rate": 0.00011947572272080149,
      "loss": 3.7832,
      "step": 272180
    },
    {
      "epoch": 0.5670625,
      "grad_norm": 0.9146382808685303,
      "learning_rate": 0.00011946607051329152,
      "loss": 4.1377,
      "step": 272190
    },
    {
      "epoch": 0.5670833333333334,
      "grad_norm": 0.9273864030838013,
      "learning_rate": 0.00011945641843767598,
      "loss": 3.9422,
      "step": 272200
    },
    {
      "epoch": 0.5671041666666666,
      "grad_norm": 0.8983126282691956,
      "learning_rate": 0.00011944676649399666,
      "loss": 4.0497,
      "step": 272210
    },
    {
      "epoch": 0.567125,
      "grad_norm": 0.8817571401596069,
      "learning_rate": 0.00011943711468229518,
      "loss": 3.9849,
      "step": 272220
    },
    {
      "epoch": 0.5671458333333333,
      "grad_norm": 0.9125111103057861,
      "learning_rate": 0.00011942746300261325,
      "loss": 3.7728,
      "step": 272230
    },
    {
      "epoch": 0.5671666666666667,
      "grad_norm": 0.9800083637237549,
      "learning_rate": 0.00011941781145499264,
      "loss": 3.8938,
      "step": 272240
    },
    {
      "epoch": 0.5671875,
      "grad_norm": 1.0304962396621704,
      "learning_rate": 0.00011940816003947495,
      "loss": 4.056,
      "step": 272250
    },
    {
      "epoch": 0.5672083333333333,
      "grad_norm": 0.9628655314445496,
      "learning_rate": 0.00011939850875610186,
      "loss": 3.8183,
      "step": 272260
    },
    {
      "epoch": 0.5672291666666667,
      "grad_norm": 0.949097752571106,
      "learning_rate": 0.00011938885760491517,
      "loss": 4.0131,
      "step": 272270
    },
    {
      "epoch": 0.56725,
      "grad_norm": 1.013575553894043,
      "learning_rate": 0.00011937920658595647,
      "loss": 3.9056,
      "step": 272280
    },
    {
      "epoch": 0.5672708333333333,
      "grad_norm": 1.2661187648773193,
      "learning_rate": 0.00011936955569926743,
      "loss": 3.7872,
      "step": 272290
    },
    {
      "epoch": 0.5672916666666666,
      "grad_norm": 1.1615763902664185,
      "learning_rate": 0.00011935990494488986,
      "loss": 3.8163,
      "step": 272300
    },
    {
      "epoch": 0.5673125,
      "grad_norm": 1.2834068536758423,
      "learning_rate": 0.00011935025432286534,
      "loss": 3.8013,
      "step": 272310
    },
    {
      "epoch": 0.5673333333333334,
      "grad_norm": 1.127038598060608,
      "learning_rate": 0.00011934060383323556,
      "loss": 4.0787,
      "step": 272320
    },
    {
      "epoch": 0.5673541666666667,
      "grad_norm": 0.9873000979423523,
      "learning_rate": 0.00011933095347604229,
      "loss": 3.7659,
      "step": 272330
    },
    {
      "epoch": 0.567375,
      "grad_norm": 0.8892770409584045,
      "learning_rate": 0.00011932130325132717,
      "loss": 3.671,
      "step": 272340
    },
    {
      "epoch": 0.5673958333333333,
      "grad_norm": 1.042569637298584,
      "learning_rate": 0.00011931165315913184,
      "loss": 3.8878,
      "step": 272350
    },
    {
      "epoch": 0.5674166666666667,
      "grad_norm": 0.9512585997581482,
      "learning_rate": 0.00011930200319949799,
      "loss": 3.8339,
      "step": 272360
    },
    {
      "epoch": 0.5674375,
      "grad_norm": 1.2280182838439941,
      "learning_rate": 0.0001192923533724674,
      "loss": 3.8882,
      "step": 272370
    },
    {
      "epoch": 0.5674583333333333,
      "grad_norm": 0.9883773922920227,
      "learning_rate": 0.00011928270367808167,
      "loss": 3.9133,
      "step": 272380
    },
    {
      "epoch": 0.5674791666666666,
      "grad_norm": 0.9607805609703064,
      "learning_rate": 0.00011927305411638244,
      "loss": 3.9133,
      "step": 272390
    },
    {
      "epoch": 0.5675,
      "grad_norm": 0.971459686756134,
      "learning_rate": 0.00011926340468741155,
      "loss": 3.9898,
      "step": 272400
    },
    {
      "epoch": 0.5675208333333334,
      "grad_norm": 0.9478628635406494,
      "learning_rate": 0.00011925375539121053,
      "loss": 3.9058,
      "step": 272410
    },
    {
      "epoch": 0.5675416666666667,
      "grad_norm": 1.042944073677063,
      "learning_rate": 0.00011924410622782108,
      "loss": 3.8212,
      "step": 272420
    },
    {
      "epoch": 0.5675625,
      "grad_norm": 0.9758888483047485,
      "learning_rate": 0.000119234457197285,
      "loss": 4.0297,
      "step": 272430
    },
    {
      "epoch": 0.5675833333333333,
      "grad_norm": 1.035884141921997,
      "learning_rate": 0.00011922480829964387,
      "loss": 3.8957,
      "step": 272440
    },
    {
      "epoch": 0.5676041666666667,
      "grad_norm": 0.990929126739502,
      "learning_rate": 0.00011921515953493934,
      "loss": 3.8743,
      "step": 272450
    },
    {
      "epoch": 0.567625,
      "grad_norm": 1.1181559562683105,
      "learning_rate": 0.00011920551090321315,
      "loss": 4.0615,
      "step": 272460
    },
    {
      "epoch": 0.5676458333333333,
      "grad_norm": 1.096356749534607,
      "learning_rate": 0.00011919586240450702,
      "loss": 3.8789,
      "step": 272470
    },
    {
      "epoch": 0.5676666666666667,
      "grad_norm": 0.955142617225647,
      "learning_rate": 0.00011918621403886249,
      "loss": 3.7462,
      "step": 272480
    },
    {
      "epoch": 0.5676875,
      "grad_norm": 0.9294288158416748,
      "learning_rate": 0.00011917656580632135,
      "loss": 3.8309,
      "step": 272490
    },
    {
      "epoch": 0.5677083333333334,
      "grad_norm": 0.9812460541725159,
      "learning_rate": 0.00011916691770692528,
      "loss": 3.7645,
      "step": 272500
    },
    {
      "epoch": 0.5677291666666666,
      "grad_norm": 1.0992504358291626,
      "learning_rate": 0.00011915726974071587,
      "loss": 3.7324,
      "step": 272510
    },
    {
      "epoch": 0.56775,
      "grad_norm": 1.0489819049835205,
      "learning_rate": 0.00011914762190773485,
      "loss": 3.9256,
      "step": 272520
    },
    {
      "epoch": 0.5677708333333333,
      "grad_norm": 0.9944464564323425,
      "learning_rate": 0.00011913797420802394,
      "loss": 3.884,
      "step": 272530
    },
    {
      "epoch": 0.5677916666666667,
      "grad_norm": 0.8927561640739441,
      "learning_rate": 0.00011912832664162469,
      "loss": 3.8367,
      "step": 272540
    },
    {
      "epoch": 0.5678125,
      "grad_norm": 1.0054593086242676,
      "learning_rate": 0.0001191186792085789,
      "loss": 3.9228,
      "step": 272550
    },
    {
      "epoch": 0.5678333333333333,
      "grad_norm": 1.0279759168624878,
      "learning_rate": 0.00011910903190892822,
      "loss": 3.922,
      "step": 272560
    },
    {
      "epoch": 0.5678541666666667,
      "grad_norm": 0.9992347359657288,
      "learning_rate": 0.00011909938474271422,
      "loss": 3.7365,
      "step": 272570
    },
    {
      "epoch": 0.567875,
      "grad_norm": 1.1319334506988525,
      "learning_rate": 0.00011908973770997871,
      "loss": 3.9306,
      "step": 272580
    },
    {
      "epoch": 0.5678958333333334,
      "grad_norm": 1.0012493133544922,
      "learning_rate": 0.00011908009081076328,
      "loss": 3.8445,
      "step": 272590
    },
    {
      "epoch": 0.5679166666666666,
      "grad_norm": 1.0488864183425903,
      "learning_rate": 0.00011907044404510958,
      "loss": 4.0333,
      "step": 272600
    },
    {
      "epoch": 0.5679375,
      "grad_norm": 0.979171633720398,
      "learning_rate": 0.00011906079741305939,
      "loss": 3.8877,
      "step": 272610
    },
    {
      "epoch": 0.5679583333333333,
      "grad_norm": 0.992555558681488,
      "learning_rate": 0.00011905115091465425,
      "loss": 3.6477,
      "step": 272620
    },
    {
      "epoch": 0.5679791666666667,
      "grad_norm": 1.0418983697891235,
      "learning_rate": 0.00011904150454993588,
      "loss": 4.0352,
      "step": 272630
    },
    {
      "epoch": 0.568,
      "grad_norm": 1.2573398351669312,
      "learning_rate": 0.00011903185831894601,
      "loss": 4.0164,
      "step": 272640
    },
    {
      "epoch": 0.5680208333333333,
      "grad_norm": 1.3060994148254395,
      "learning_rate": 0.00011902221222172622,
      "loss": 3.9823,
      "step": 272650
    },
    {
      "epoch": 0.5680416666666667,
      "grad_norm": 0.9257470369338989,
      "learning_rate": 0.00011901256625831825,
      "loss": 3.9371,
      "step": 272660
    },
    {
      "epoch": 0.5680625,
      "grad_norm": 0.9185430407524109,
      "learning_rate": 0.00011900292042876365,
      "loss": 3.7774,
      "step": 272670
    },
    {
      "epoch": 0.5680833333333334,
      "grad_norm": 1.0122852325439453,
      "learning_rate": 0.00011899327473310423,
      "loss": 3.8382,
      "step": 272680
    },
    {
      "epoch": 0.5681041666666666,
      "grad_norm": 0.9559207558631897,
      "learning_rate": 0.00011898362917138159,
      "loss": 3.8567,
      "step": 272690
    },
    {
      "epoch": 0.568125,
      "grad_norm": 0.9379917979240417,
      "learning_rate": 0.00011897398374363735,
      "loss": 3.7536,
      "step": 272700
    },
    {
      "epoch": 0.5681458333333333,
      "grad_norm": 0.9225268959999084,
      "learning_rate": 0.00011896433844991327,
      "loss": 3.8614,
      "step": 272710
    },
    {
      "epoch": 0.5681666666666667,
      "grad_norm": 0.9886187314987183,
      "learning_rate": 0.00011895469329025095,
      "loss": 3.7461,
      "step": 272720
    },
    {
      "epoch": 0.5681875,
      "grad_norm": 0.9375224113464355,
      "learning_rate": 0.000118945048264692,
      "loss": 3.8422,
      "step": 272730
    },
    {
      "epoch": 0.5682083333333333,
      "grad_norm": 0.9780488610267639,
      "learning_rate": 0.00011893540337327825,
      "loss": 3.8699,
      "step": 272740
    },
    {
      "epoch": 0.5682291666666667,
      "grad_norm": 0.9078887104988098,
      "learning_rate": 0.00011892575861605121,
      "loss": 3.859,
      "step": 272750
    },
    {
      "epoch": 0.56825,
      "grad_norm": 1.1594887971878052,
      "learning_rate": 0.00011891611399305256,
      "loss": 4.0096,
      "step": 272760
    },
    {
      "epoch": 0.5682708333333333,
      "grad_norm": 1.1840797662734985,
      "learning_rate": 0.00011890646950432405,
      "loss": 3.9556,
      "step": 272770
    },
    {
      "epoch": 0.5682916666666666,
      "grad_norm": 1.4163700342178345,
      "learning_rate": 0.00011889682514990727,
      "loss": 3.7324,
      "step": 272780
    },
    {
      "epoch": 0.5683125,
      "grad_norm": 1.1018446683883667,
      "learning_rate": 0.00011888718092984385,
      "loss": 4.0635,
      "step": 272790
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 1.3401007652282715,
      "learning_rate": 0.00011887753684417558,
      "loss": 3.9208,
      "step": 272800
    },
    {
      "epoch": 0.5683541666666667,
      "grad_norm": 1.1057190895080566,
      "learning_rate": 0.00011886789289294399,
      "loss": 3.9845,
      "step": 272810
    },
    {
      "epoch": 0.568375,
      "grad_norm": 0.9921873807907104,
      "learning_rate": 0.00011885824907619071,
      "loss": 3.9079,
      "step": 272820
    },
    {
      "epoch": 0.5683958333333333,
      "grad_norm": 1.1715762615203857,
      "learning_rate": 0.00011884860539395758,
      "loss": 4.0321,
      "step": 272830
    },
    {
      "epoch": 0.5684166666666667,
      "grad_norm": 1.0084342956542969,
      "learning_rate": 0.00011883896184628613,
      "loss": 3.9154,
      "step": 272840
    },
    {
      "epoch": 0.5684375,
      "grad_norm": 0.9416813254356384,
      "learning_rate": 0.00011882931843321794,
      "loss": 3.7664,
      "step": 272850
    },
    {
      "epoch": 0.5684583333333333,
      "grad_norm": 0.9590567350387573,
      "learning_rate": 0.00011881967515479483,
      "loss": 3.7625,
      "step": 272860
    },
    {
      "epoch": 0.5684791666666666,
      "grad_norm": 1.0439255237579346,
      "learning_rate": 0.00011881003201105838,
      "loss": 4.0112,
      "step": 272870
    },
    {
      "epoch": 0.5685,
      "grad_norm": 0.9925686120986938,
      "learning_rate": 0.0001188003890020502,
      "loss": 3.7764,
      "step": 272880
    },
    {
      "epoch": 0.5685208333333334,
      "grad_norm": 0.9370927214622498,
      "learning_rate": 0.00011879074612781202,
      "loss": 3.984,
      "step": 272890
    },
    {
      "epoch": 0.5685416666666666,
      "grad_norm": 1.0093199014663696,
      "learning_rate": 0.00011878110338838549,
      "loss": 3.9793,
      "step": 272900
    },
    {
      "epoch": 0.5685625,
      "grad_norm": 0.9599741697311401,
      "learning_rate": 0.00011877146078381218,
      "loss": 3.876,
      "step": 272910
    },
    {
      "epoch": 0.5685833333333333,
      "grad_norm": 0.985069215297699,
      "learning_rate": 0.00011876181831413383,
      "loss": 4.0166,
      "step": 272920
    },
    {
      "epoch": 0.5686041666666667,
      "grad_norm": 0.9538452625274658,
      "learning_rate": 0.00011875217597939207,
      "loss": 3.8128,
      "step": 272930
    },
    {
      "epoch": 0.568625,
      "grad_norm": 1.071083664894104,
      "learning_rate": 0.00011874253377962857,
      "loss": 3.8698,
      "step": 272940
    },
    {
      "epoch": 0.5686458333333333,
      "grad_norm": 0.9475698471069336,
      "learning_rate": 0.00011873289171488486,
      "loss": 4.0772,
      "step": 272950
    },
    {
      "epoch": 0.5686666666666667,
      "grad_norm": 1.1284390687942505,
      "learning_rate": 0.00011872324978520274,
      "loss": 3.8945,
      "step": 272960
    },
    {
      "epoch": 0.5686875,
      "grad_norm": 1.017591953277588,
      "learning_rate": 0.00011871360799062382,
      "loss": 3.9368,
      "step": 272970
    },
    {
      "epoch": 0.5687083333333334,
      "grad_norm": 0.9100932478904724,
      "learning_rate": 0.00011870396633118966,
      "loss": 3.8678,
      "step": 272980
    },
    {
      "epoch": 0.5687291666666666,
      "grad_norm": 0.9718165993690491,
      "learning_rate": 0.00011869432480694203,
      "loss": 3.8827,
      "step": 272990
    },
    {
      "epoch": 0.56875,
      "grad_norm": 1.108826994895935,
      "learning_rate": 0.00011868468341792253,
      "loss": 3.9302,
      "step": 273000
    },
    {
      "epoch": 0.56875,
      "eval_loss": 3.6035633087158203,
      "eval_runtime": 7.3789,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.407,
      "step": 273000
    },
    {
      "epoch": 0.5687708333333333,
      "grad_norm": 1.387330412864685,
      "learning_rate": 0.00011867504216417276,
      "loss": 3.9759,
      "step": 273010
    },
    {
      "epoch": 0.5687916666666667,
      "grad_norm": 0.9314092397689819,
      "learning_rate": 0.00011866540104573443,
      "loss": 3.9693,
      "step": 273020
    },
    {
      "epoch": 0.5688125,
      "grad_norm": 1.6844948530197144,
      "learning_rate": 0.00011865576006264919,
      "loss": 3.5799,
      "step": 273030
    },
    {
      "epoch": 0.5688333333333333,
      "grad_norm": 1.1536359786987305,
      "learning_rate": 0.00011864611921495861,
      "loss": 3.8305,
      "step": 273040
    },
    {
      "epoch": 0.5688541666666667,
      "grad_norm": 0.9578751921653748,
      "learning_rate": 0.00011863647850270441,
      "loss": 3.883,
      "step": 273050
    },
    {
      "epoch": 0.568875,
      "grad_norm": 1.1545963287353516,
      "learning_rate": 0.00011862683792592825,
      "loss": 3.9224,
      "step": 273060
    },
    {
      "epoch": 0.5688958333333334,
      "grad_norm": 1.0025216341018677,
      "learning_rate": 0.00011861719748467165,
      "loss": 3.9602,
      "step": 273070
    },
    {
      "epoch": 0.5689166666666666,
      "grad_norm": 1.03949773311615,
      "learning_rate": 0.0001186075571789764,
      "loss": 4.0577,
      "step": 273080
    },
    {
      "epoch": 0.5689375,
      "grad_norm": 1.044053077697754,
      "learning_rate": 0.00011859791700888406,
      "loss": 3.8951,
      "step": 273090
    },
    {
      "epoch": 0.5689583333333333,
      "grad_norm": 0.9901615381240845,
      "learning_rate": 0.00011858827697443626,
      "loss": 3.878,
      "step": 273100
    },
    {
      "epoch": 0.5689791666666667,
      "grad_norm": 0.9191030263900757,
      "learning_rate": 0.00011857863707567471,
      "loss": 3.9367,
      "step": 273110
    },
    {
      "epoch": 0.569,
      "grad_norm": 0.9550608396530151,
      "learning_rate": 0.000118568997312641,
      "loss": 3.8568,
      "step": 273120
    },
    {
      "epoch": 0.5690208333333333,
      "grad_norm": 1.2286388874053955,
      "learning_rate": 0.00011855935768537673,
      "loss": 3.9234,
      "step": 273130
    },
    {
      "epoch": 0.5690416666666667,
      "grad_norm": 1.2573864459991455,
      "learning_rate": 0.00011854971819392366,
      "loss": 4.0164,
      "step": 273140
    },
    {
      "epoch": 0.5690625,
      "grad_norm": 0.9553740620613098,
      "learning_rate": 0.00011854007883832332,
      "loss": 3.921,
      "step": 273150
    },
    {
      "epoch": 0.5690833333333334,
      "grad_norm": 0.9701161980628967,
      "learning_rate": 0.00011853043961861738,
      "loss": 3.8716,
      "step": 273160
    },
    {
      "epoch": 0.5691041666666666,
      "grad_norm": 0.9647179245948792,
      "learning_rate": 0.00011852080053484754,
      "loss": 3.7122,
      "step": 273170
    },
    {
      "epoch": 0.569125,
      "grad_norm": 1.015324592590332,
      "learning_rate": 0.00011851116158705533,
      "loss": 3.7315,
      "step": 273180
    },
    {
      "epoch": 0.5691458333333334,
      "grad_norm": 0.9454611539840698,
      "learning_rate": 0.00011850152277528244,
      "loss": 3.9809,
      "step": 273190
    },
    {
      "epoch": 0.5691666666666667,
      "grad_norm": 0.9618003368377686,
      "learning_rate": 0.00011849188409957052,
      "loss": 4.0635,
      "step": 273200
    },
    {
      "epoch": 0.5691875,
      "grad_norm": 0.9113134741783142,
      "learning_rate": 0.00011848224555996122,
      "loss": 3.8586,
      "step": 273210
    },
    {
      "epoch": 0.5692083333333333,
      "grad_norm": 1.0710959434509277,
      "learning_rate": 0.00011847260715649607,
      "loss": 3.8778,
      "step": 273220
    },
    {
      "epoch": 0.5692291666666667,
      "grad_norm": 1.065673828125,
      "learning_rate": 0.00011846296888921681,
      "loss": 3.9665,
      "step": 273230
    },
    {
      "epoch": 0.56925,
      "grad_norm": 1.3968807458877563,
      "learning_rate": 0.00011845333075816509,
      "loss": 3.9626,
      "step": 273240
    },
    {
      "epoch": 0.5692708333333333,
      "grad_norm": 0.9268814325332642,
      "learning_rate": 0.00011844369276338244,
      "loss": 3.9453,
      "step": 273250
    },
    {
      "epoch": 0.5692916666666666,
      "grad_norm": 0.9896451830863953,
      "learning_rate": 0.00011843405490491053,
      "loss": 3.6955,
      "step": 273260
    },
    {
      "epoch": 0.5693125,
      "grad_norm": 1.1666975021362305,
      "learning_rate": 0.00011842441718279107,
      "loss": 4.1312,
      "step": 273270
    },
    {
      "epoch": 0.5693333333333334,
      "grad_norm": 0.9761212468147278,
      "learning_rate": 0.00011841477959706558,
      "loss": 3.781,
      "step": 273280
    },
    {
      "epoch": 0.5693541666666667,
      "grad_norm": 1.1721975803375244,
      "learning_rate": 0.00011840514214777572,
      "loss": 3.7701,
      "step": 273290
    },
    {
      "epoch": 0.569375,
      "grad_norm": 0.8877738118171692,
      "learning_rate": 0.0001183955048349632,
      "loss": 4.133,
      "step": 273300
    },
    {
      "epoch": 0.5693958333333333,
      "grad_norm": 1.055784821510315,
      "learning_rate": 0.00011838586765866957,
      "loss": 3.991,
      "step": 273310
    },
    {
      "epoch": 0.5694166666666667,
      "grad_norm": 1.0063199996948242,
      "learning_rate": 0.00011837623061893644,
      "loss": 3.7656,
      "step": 273320
    },
    {
      "epoch": 0.5694375,
      "grad_norm": 0.9787716865539551,
      "learning_rate": 0.00011836659371580553,
      "loss": 3.7566,
      "step": 273330
    },
    {
      "epoch": 0.5694583333333333,
      "grad_norm": 1.0625295639038086,
      "learning_rate": 0.00011835695694931844,
      "loss": 3.8843,
      "step": 273340
    },
    {
      "epoch": 0.5694791666666666,
      "grad_norm": 1.0475444793701172,
      "learning_rate": 0.00011834732031951669,
      "loss": 3.7381,
      "step": 273350
    },
    {
      "epoch": 0.5695,
      "grad_norm": 1.069190502166748,
      "learning_rate": 0.00011833768382644202,
      "loss": 3.9367,
      "step": 273360
    },
    {
      "epoch": 0.5695208333333334,
      "grad_norm": 0.9470666646957397,
      "learning_rate": 0.00011832804747013604,
      "loss": 3.8676,
      "step": 273370
    },
    {
      "epoch": 0.5695416666666666,
      "grad_norm": 0.9208368062973022,
      "learning_rate": 0.00011831841125064031,
      "loss": 3.9256,
      "step": 273380
    },
    {
      "epoch": 0.5695625,
      "grad_norm": 1.1442580223083496,
      "learning_rate": 0.00011830877516799653,
      "loss": 4.0535,
      "step": 273390
    },
    {
      "epoch": 0.5695833333333333,
      "grad_norm": 0.9036294221878052,
      "learning_rate": 0.00011829913922224635,
      "loss": 3.8287,
      "step": 273400
    },
    {
      "epoch": 0.5696041666666667,
      "grad_norm": 1.052534580230713,
      "learning_rate": 0.00011828950341343124,
      "loss": 3.8229,
      "step": 273410
    },
    {
      "epoch": 0.569625,
      "grad_norm": 1.1461036205291748,
      "learning_rate": 0.00011827986774159297,
      "loss": 4.1624,
      "step": 273420
    },
    {
      "epoch": 0.5696458333333333,
      "grad_norm": 0.9709721803665161,
      "learning_rate": 0.00011827023220677314,
      "loss": 3.882,
      "step": 273430
    },
    {
      "epoch": 0.5696666666666667,
      "grad_norm": 0.9647889733314514,
      "learning_rate": 0.0001182605968090133,
      "loss": 3.9092,
      "step": 273440
    },
    {
      "epoch": 0.5696875,
      "grad_norm": 1.202656865119934,
      "learning_rate": 0.00011825096154835518,
      "loss": 4.0452,
      "step": 273450
    },
    {
      "epoch": 0.5697083333333334,
      "grad_norm": 0.9509343504905701,
      "learning_rate": 0.0001182413264248403,
      "loss": 3.9203,
      "step": 273460
    },
    {
      "epoch": 0.5697291666666666,
      "grad_norm": 1.0604983568191528,
      "learning_rate": 0.00011823169143851029,
      "loss": 4.0369,
      "step": 273470
    },
    {
      "epoch": 0.56975,
      "grad_norm": 0.9295246005058289,
      "learning_rate": 0.00011822205658940686,
      "loss": 4.0032,
      "step": 273480
    },
    {
      "epoch": 0.5697708333333333,
      "grad_norm": 0.9506213068962097,
      "learning_rate": 0.00011821242187757155,
      "loss": 3.9295,
      "step": 273490
    },
    {
      "epoch": 0.5697916666666667,
      "grad_norm": 0.9026573896408081,
      "learning_rate": 0.00011820278730304595,
      "loss": 3.7938,
      "step": 273500
    },
    {
      "epoch": 0.5698125,
      "grad_norm": 1.16452956199646,
      "learning_rate": 0.00011819315286587177,
      "loss": 3.8579,
      "step": 273510
    },
    {
      "epoch": 0.5698333333333333,
      "grad_norm": 1.4248522520065308,
      "learning_rate": 0.00011818351856609058,
      "loss": 3.9271,
      "step": 273520
    },
    {
      "epoch": 0.5698541666666667,
      "grad_norm": 0.9799997806549072,
      "learning_rate": 0.000118173884403744,
      "loss": 3.6653,
      "step": 273530
    },
    {
      "epoch": 0.569875,
      "grad_norm": 1.0998905897140503,
      "learning_rate": 0.00011816425037887359,
      "loss": 3.8945,
      "step": 273540
    },
    {
      "epoch": 0.5698958333333334,
      "grad_norm": 1.1672046184539795,
      "learning_rate": 0.00011815461649152106,
      "loss": 3.974,
      "step": 273550
    },
    {
      "epoch": 0.5699166666666666,
      "grad_norm": 0.9176535606384277,
      "learning_rate": 0.000118144982741728,
      "loss": 3.8272,
      "step": 273560
    },
    {
      "epoch": 0.5699375,
      "grad_norm": 1.1160374879837036,
      "learning_rate": 0.00011813534912953594,
      "loss": 3.9551,
      "step": 273570
    },
    {
      "epoch": 0.5699583333333333,
      "grad_norm": 1.0678484439849854,
      "learning_rate": 0.00011812571565498665,
      "loss": 3.8662,
      "step": 273580
    },
    {
      "epoch": 0.5699791666666667,
      "grad_norm": 1.171230435371399,
      "learning_rate": 0.00011811608231812158,
      "loss": 3.8113,
      "step": 273590
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.028741478919983,
      "learning_rate": 0.0001181064491189824,
      "loss": 3.9352,
      "step": 273600
    },
    {
      "epoch": 0.5700208333333333,
      "grad_norm": 0.9230974316596985,
      "learning_rate": 0.0001180968160576108,
      "loss": 4.1236,
      "step": 273610
    },
    {
      "epoch": 0.5700416666666667,
      "grad_norm": 0.9629735946655273,
      "learning_rate": 0.00011808718313404827,
      "loss": 3.7534,
      "step": 273620
    },
    {
      "epoch": 0.5700625,
      "grad_norm": 0.9284576177597046,
      "learning_rate": 0.0001180775503483365,
      "loss": 3.9172,
      "step": 273630
    },
    {
      "epoch": 0.5700833333333334,
      "grad_norm": 0.9221636056900024,
      "learning_rate": 0.0001180679177005171,
      "loss": 3.923,
      "step": 273640
    },
    {
      "epoch": 0.5701041666666666,
      "grad_norm": 1.069388508796692,
      "learning_rate": 0.00011805828519063162,
      "loss": 3.8215,
      "step": 273650
    },
    {
      "epoch": 0.570125,
      "grad_norm": 0.9700411558151245,
      "learning_rate": 0.00011804865281872169,
      "loss": 3.9975,
      "step": 273660
    },
    {
      "epoch": 0.5701458333333334,
      "grad_norm": 0.987867534160614,
      "learning_rate": 0.00011803902058482899,
      "loss": 4.052,
      "step": 273670
    },
    {
      "epoch": 0.5701666666666667,
      "grad_norm": 1.0906949043273926,
      "learning_rate": 0.00011802938848899505,
      "loss": 3.939,
      "step": 273680
    },
    {
      "epoch": 0.5701875,
      "grad_norm": 1.0247217416763306,
      "learning_rate": 0.00011801975653126145,
      "loss": 4.0622,
      "step": 273690
    },
    {
      "epoch": 0.5702083333333333,
      "grad_norm": 1.0813065767288208,
      "learning_rate": 0.00011801012471166991,
      "loss": 3.863,
      "step": 273700
    },
    {
      "epoch": 0.5702291666666667,
      "grad_norm": 1.072265386581421,
      "learning_rate": 0.00011800049303026197,
      "loss": 3.8778,
      "step": 273710
    },
    {
      "epoch": 0.57025,
      "grad_norm": 1.0051112174987793,
      "learning_rate": 0.00011799086148707916,
      "loss": 3.9337,
      "step": 273720
    },
    {
      "epoch": 0.5702708333333333,
      "grad_norm": 1.0226494073867798,
      "learning_rate": 0.00011798123008216321,
      "loss": 3.9067,
      "step": 273730
    },
    {
      "epoch": 0.5702916666666666,
      "grad_norm": 1.0749905109405518,
      "learning_rate": 0.00011797159881555571,
      "loss": 4.0226,
      "step": 273740
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 1.2190417051315308,
      "learning_rate": 0.00011796196768729812,
      "loss": 3.9945,
      "step": 273750
    },
    {
      "epoch": 0.5703333333333334,
      "grad_norm": 1.2191109657287598,
      "learning_rate": 0.00011795233669743221,
      "loss": 3.7524,
      "step": 273760
    },
    {
      "epoch": 0.5703541666666667,
      "grad_norm": 1.0494838953018188,
      "learning_rate": 0.00011794270584599956,
      "loss": 3.9558,
      "step": 273770
    },
    {
      "epoch": 0.570375,
      "grad_norm": 1.0238301753997803,
      "learning_rate": 0.00011793307513304164,
      "loss": 4.1656,
      "step": 273780
    },
    {
      "epoch": 0.5703958333333333,
      "grad_norm": 1.0311576128005981,
      "learning_rate": 0.0001179234445586002,
      "loss": 3.9938,
      "step": 273790
    },
    {
      "epoch": 0.5704166666666667,
      "grad_norm": 1.0131621360778809,
      "learning_rate": 0.0001179138141227168,
      "loss": 4.049,
      "step": 273800
    },
    {
      "epoch": 0.5704375,
      "grad_norm": 1.4415432214736938,
      "learning_rate": 0.00011790418382543296,
      "loss": 3.8989,
      "step": 273810
    },
    {
      "epoch": 0.5704583333333333,
      "grad_norm": 1.3094810247421265,
      "learning_rate": 0.00011789455366679037,
      "loss": 3.9035,
      "step": 273820
    },
    {
      "epoch": 0.5704791666666666,
      "grad_norm": 0.9521403908729553,
      "learning_rate": 0.00011788492364683065,
      "loss": 3.8398,
      "step": 273830
    },
    {
      "epoch": 0.5705,
      "grad_norm": 0.997171938419342,
      "learning_rate": 0.00011787529376559532,
      "loss": 3.7989,
      "step": 273840
    },
    {
      "epoch": 0.5705208333333334,
      "grad_norm": 0.896648645401001,
      "learning_rate": 0.00011786566402312596,
      "loss": 3.8329,
      "step": 273850
    },
    {
      "epoch": 0.5705416666666666,
      "grad_norm": 0.9798087477684021,
      "learning_rate": 0.00011785603441946425,
      "loss": 3.7986,
      "step": 273860
    },
    {
      "epoch": 0.5705625,
      "grad_norm": 0.9375289678573608,
      "learning_rate": 0.00011784640495465178,
      "loss": 3.7897,
      "step": 273870
    },
    {
      "epoch": 0.5705833333333333,
      "grad_norm": 1.0992114543914795,
      "learning_rate": 0.00011783677562873004,
      "loss": 4.0267,
      "step": 273880
    },
    {
      "epoch": 0.5706041666666667,
      "grad_norm": 1.0380457639694214,
      "learning_rate": 0.00011782714644174071,
      "loss": 3.7896,
      "step": 273890
    },
    {
      "epoch": 0.570625,
      "grad_norm": 0.9928022027015686,
      "learning_rate": 0.00011781751739372545,
      "loss": 3.9698,
      "step": 273900
    },
    {
      "epoch": 0.5706458333333333,
      "grad_norm": 1.3213695287704468,
      "learning_rate": 0.00011780788848472567,
      "loss": 3.9138,
      "step": 273910
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 1.0760506391525269,
      "learning_rate": 0.00011779825971478313,
      "loss": 3.9549,
      "step": 273920
    },
    {
      "epoch": 0.5706875,
      "grad_norm": 1.0727734565734863,
      "learning_rate": 0.00011778863108393938,
      "loss": 3.7681,
      "step": 273930
    },
    {
      "epoch": 0.5707083333333334,
      "grad_norm": 1.0576937198638916,
      "learning_rate": 0.00011777900259223593,
      "loss": 3.8972,
      "step": 273940
    },
    {
      "epoch": 0.5707291666666666,
      "grad_norm": 0.9765148162841797,
      "learning_rate": 0.0001177693742397145,
      "loss": 3.7986,
      "step": 273950
    },
    {
      "epoch": 0.57075,
      "grad_norm": 1.117180585861206,
      "learning_rate": 0.00011775974602641658,
      "loss": 3.822,
      "step": 273960
    },
    {
      "epoch": 0.5707708333333333,
      "grad_norm": 0.8765119314193726,
      "learning_rate": 0.00011775011795238377,
      "loss": 3.8286,
      "step": 273970
    },
    {
      "epoch": 0.5707916666666667,
      "grad_norm": 0.9148718118667603,
      "learning_rate": 0.00011774049001765775,
      "loss": 3.917,
      "step": 273980
    },
    {
      "epoch": 0.5708125,
      "grad_norm": 0.8982211351394653,
      "learning_rate": 0.00011773086222228001,
      "loss": 3.7994,
      "step": 273990
    },
    {
      "epoch": 0.5708333333333333,
      "grad_norm": 1.6029231548309326,
      "learning_rate": 0.00011772123456629215,
      "loss": 4.0202,
      "step": 274000
    },
    {
      "epoch": 0.5708333333333333,
      "eval_loss": 3.604053497314453,
      "eval_runtime": 7.545,
      "eval_samples_per_second": 1.325,
      "eval_steps_per_second": 0.398,
      "step": 274000
    },
    {
      "epoch": 0.5708541666666667,
      "grad_norm": 1.109323501586914,
      "learning_rate": 0.00011771160704973582,
      "loss": 3.854,
      "step": 274010
    },
    {
      "epoch": 0.570875,
      "grad_norm": 0.8841590285301208,
      "learning_rate": 0.00011770197967265253,
      "loss": 3.9672,
      "step": 274020
    },
    {
      "epoch": 0.5708958333333334,
      "grad_norm": 1.7516047954559326,
      "learning_rate": 0.0001176923524350839,
      "loss": 4.0591,
      "step": 274030
    },
    {
      "epoch": 0.5709166666666666,
      "grad_norm": 0.9826412200927734,
      "learning_rate": 0.00011768272533707158,
      "loss": 3.8857,
      "step": 274040
    },
    {
      "epoch": 0.5709375,
      "grad_norm": 1.0511667728424072,
      "learning_rate": 0.00011767309837865704,
      "loss": 3.885,
      "step": 274050
    },
    {
      "epoch": 0.5709583333333333,
      "grad_norm": 0.9007585048675537,
      "learning_rate": 0.00011766347155988191,
      "loss": 3.9646,
      "step": 274060
    },
    {
      "epoch": 0.5709791666666667,
      "grad_norm": 0.9615384340286255,
      "learning_rate": 0.00011765384488078784,
      "loss": 3.8886,
      "step": 274070
    },
    {
      "epoch": 0.571,
      "grad_norm": 0.9571531414985657,
      "learning_rate": 0.00011764421834141636,
      "loss": 3.8574,
      "step": 274080
    },
    {
      "epoch": 0.5710208333333333,
      "grad_norm": 1.1624704599380493,
      "learning_rate": 0.00011763459194180898,
      "loss": 3.8876,
      "step": 274090
    },
    {
      "epoch": 0.5710416666666667,
      "grad_norm": 1.3333523273468018,
      "learning_rate": 0.00011762496568200738,
      "loss": 4.1161,
      "step": 274100
    },
    {
      "epoch": 0.5710625,
      "grad_norm": 0.8791465759277344,
      "learning_rate": 0.00011761533956205315,
      "loss": 3.9134,
      "step": 274110
    },
    {
      "epoch": 0.5710833333333334,
      "grad_norm": 0.9418655633926392,
      "learning_rate": 0.00011760571358198781,
      "loss": 4.1296,
      "step": 274120
    },
    {
      "epoch": 0.5711041666666666,
      "grad_norm": 0.9530280828475952,
      "learning_rate": 0.00011759608774185292,
      "loss": 3.9502,
      "step": 274130
    },
    {
      "epoch": 0.571125,
      "grad_norm": 0.981330156326294,
      "learning_rate": 0.00011758646204169018,
      "loss": 4.0206,
      "step": 274140
    },
    {
      "epoch": 0.5711458333333334,
      "grad_norm": 0.9337287545204163,
      "learning_rate": 0.00011757683648154106,
      "loss": 3.7792,
      "step": 274150
    },
    {
      "epoch": 0.5711666666666667,
      "grad_norm": 1.0503077507019043,
      "learning_rate": 0.00011756721106144714,
      "loss": 3.8145,
      "step": 274160
    },
    {
      "epoch": 0.5711875,
      "grad_norm": 0.9716418385505676,
      "learning_rate": 0.00011755758578145008,
      "loss": 3.9552,
      "step": 274170
    },
    {
      "epoch": 0.5712083333333333,
      "grad_norm": 0.9624372720718384,
      "learning_rate": 0.00011754796064159138,
      "loss": 3.9363,
      "step": 274180
    },
    {
      "epoch": 0.5712291666666667,
      "grad_norm": 1.1240073442459106,
      "learning_rate": 0.00011753833564191262,
      "loss": 3.8127,
      "step": 274190
    },
    {
      "epoch": 0.57125,
      "grad_norm": 1.580336570739746,
      "learning_rate": 0.00011752871078245547,
      "loss": 4.0511,
      "step": 274200
    },
    {
      "epoch": 0.5712708333333333,
      "grad_norm": 0.9413571357727051,
      "learning_rate": 0.00011751908606326141,
      "loss": 3.9255,
      "step": 274210
    },
    {
      "epoch": 0.5712916666666666,
      "grad_norm": 1.047855257987976,
      "learning_rate": 0.00011750946148437201,
      "loss": 3.862,
      "step": 274220
    },
    {
      "epoch": 0.5713125,
      "grad_norm": 0.9941950440406799,
      "learning_rate": 0.0001174998370458289,
      "loss": 3.8192,
      "step": 274230
    },
    {
      "epoch": 0.5713333333333334,
      "grad_norm": 0.923124372959137,
      "learning_rate": 0.00011749021274767365,
      "loss": 3.8374,
      "step": 274240
    },
    {
      "epoch": 0.5713541666666667,
      "grad_norm": 0.9072209000587463,
      "learning_rate": 0.00011748058858994776,
      "loss": 3.8054,
      "step": 274250
    },
    {
      "epoch": 0.571375,
      "grad_norm": 1.063289761543274,
      "learning_rate": 0.00011747096457269288,
      "loss": 3.947,
      "step": 274260
    },
    {
      "epoch": 0.5713958333333333,
      "grad_norm": 0.9290054440498352,
      "learning_rate": 0.00011746134069595058,
      "loss": 3.8639,
      "step": 274270
    },
    {
      "epoch": 0.5714166666666667,
      "grad_norm": 0.9545397162437439,
      "learning_rate": 0.00011745171695976236,
      "loss": 4.0881,
      "step": 274280
    },
    {
      "epoch": 0.5714375,
      "grad_norm": 0.9636120796203613,
      "learning_rate": 0.00011744209336416988,
      "loss": 3.8983,
      "step": 274290
    },
    {
      "epoch": 0.5714583333333333,
      "grad_norm": 0.9524691700935364,
      "learning_rate": 0.00011743246990921469,
      "loss": 3.8013,
      "step": 274300
    },
    {
      "epoch": 0.5714791666666666,
      "grad_norm": 1.0333703756332397,
      "learning_rate": 0.00011742284659493827,
      "loss": 3.909,
      "step": 274310
    },
    {
      "epoch": 0.5715,
      "grad_norm": 1.0535402297973633,
      "learning_rate": 0.0001174132234213823,
      "loss": 4.0111,
      "step": 274320
    },
    {
      "epoch": 0.5715208333333334,
      "grad_norm": 0.9928804636001587,
      "learning_rate": 0.00011740360038858832,
      "loss": 3.849,
      "step": 274330
    },
    {
      "epoch": 0.5715416666666666,
      "grad_norm": 0.9826422929763794,
      "learning_rate": 0.00011739397749659783,
      "loss": 3.9089,
      "step": 274340
    },
    {
      "epoch": 0.5715625,
      "grad_norm": 0.9289819002151489,
      "learning_rate": 0.00011738435474545252,
      "loss": 3.9769,
      "step": 274350
    },
    {
      "epoch": 0.5715833333333333,
      "grad_norm": 0.9730400443077087,
      "learning_rate": 0.00011737473213519385,
      "loss": 4.0636,
      "step": 274360
    },
    {
      "epoch": 0.5716041666666667,
      "grad_norm": 0.8907251358032227,
      "learning_rate": 0.0001173651096658634,
      "loss": 3.9589,
      "step": 274370
    },
    {
      "epoch": 0.571625,
      "grad_norm": 0.9380015134811401,
      "learning_rate": 0.00011735548733750281,
      "loss": 3.8039,
      "step": 274380
    },
    {
      "epoch": 0.5716458333333333,
      "grad_norm": 1.0086575746536255,
      "learning_rate": 0.00011734586515015355,
      "loss": 4.0307,
      "step": 274390
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 1.032779574394226,
      "learning_rate": 0.00011733624310385722,
      "loss": 3.9433,
      "step": 274400
    },
    {
      "epoch": 0.5716875,
      "grad_norm": 1.0139168500900269,
      "learning_rate": 0.00011732662119865544,
      "loss": 3.7777,
      "step": 274410
    },
    {
      "epoch": 0.5717083333333334,
      "grad_norm": 0.9544603228569031,
      "learning_rate": 0.00011731699943458971,
      "loss": 4.0233,
      "step": 274420
    },
    {
      "epoch": 0.5717291666666666,
      "grad_norm": 0.8959553241729736,
      "learning_rate": 0.00011730737781170164,
      "loss": 3.8408,
      "step": 274430
    },
    {
      "epoch": 0.57175,
      "grad_norm": 0.9639914631843567,
      "learning_rate": 0.00011729775633003266,
      "loss": 3.7695,
      "step": 274440
    },
    {
      "epoch": 0.5717708333333333,
      "grad_norm": 0.9998364448547363,
      "learning_rate": 0.0001172881349896245,
      "loss": 3.9808,
      "step": 274450
    },
    {
      "epoch": 0.5717916666666667,
      "grad_norm": 0.9823912382125854,
      "learning_rate": 0.00011727851379051865,
      "loss": 3.8534,
      "step": 274460
    },
    {
      "epoch": 0.5718125,
      "grad_norm": 0.9633132219314575,
      "learning_rate": 0.0001172688927327566,
      "loss": 3.8282,
      "step": 274470
    },
    {
      "epoch": 0.5718333333333333,
      "grad_norm": 1.0277721881866455,
      "learning_rate": 0.00011725927181638006,
      "loss": 3.8874,
      "step": 274480
    },
    {
      "epoch": 0.5718541666666667,
      "grad_norm": 0.9378544092178345,
      "learning_rate": 0.00011724965104143046,
      "loss": 3.7369,
      "step": 274490
    },
    {
      "epoch": 0.571875,
      "grad_norm": 1.1970666646957397,
      "learning_rate": 0.00011724003040794939,
      "loss": 3.896,
      "step": 274500
    },
    {
      "epoch": 0.5718958333333334,
      "grad_norm": 0.9095224142074585,
      "learning_rate": 0.00011723040991597847,
      "loss": 3.8016,
      "step": 274510
    },
    {
      "epoch": 0.5719166666666666,
      "grad_norm": 0.9731151461601257,
      "learning_rate": 0.00011722078956555918,
      "loss": 3.9427,
      "step": 274520
    },
    {
      "epoch": 0.5719375,
      "grad_norm": 0.9257626533508301,
      "learning_rate": 0.00011721116935673308,
      "loss": 4.0998,
      "step": 274530
    },
    {
      "epoch": 0.5719583333333333,
      "grad_norm": 1.0179003477096558,
      "learning_rate": 0.0001172015492895418,
      "loss": 3.9793,
      "step": 274540
    },
    {
      "epoch": 0.5719791666666667,
      "grad_norm": 0.9956514835357666,
      "learning_rate": 0.00011719192936402681,
      "loss": 3.9008,
      "step": 274550
    },
    {
      "epoch": 0.572,
      "grad_norm": 1.8318308591842651,
      "learning_rate": 0.00011718230958022969,
      "loss": 4.085,
      "step": 274560
    },
    {
      "epoch": 0.5720208333333333,
      "grad_norm": 1.0071347951889038,
      "learning_rate": 0.00011717268993819206,
      "loss": 3.9707,
      "step": 274570
    },
    {
      "epoch": 0.5720416666666667,
      "grad_norm": 0.9493530988693237,
      "learning_rate": 0.0001171630704379554,
      "loss": 4.0222,
      "step": 274580
    },
    {
      "epoch": 0.5720625,
      "grad_norm": 1.180975317955017,
      "learning_rate": 0.00011715345107956123,
      "loss": 3.7053,
      "step": 274590
    },
    {
      "epoch": 0.5720833333333334,
      "grad_norm": 1.002784013748169,
      "learning_rate": 0.00011714383186305118,
      "loss": 3.9346,
      "step": 274600
    },
    {
      "epoch": 0.5721041666666666,
      "grad_norm": 0.8938729166984558,
      "learning_rate": 0.00011713421278846679,
      "loss": 4.0823,
      "step": 274610
    },
    {
      "epoch": 0.572125,
      "grad_norm": 0.9821826815605164,
      "learning_rate": 0.00011712459385584953,
      "loss": 3.9155,
      "step": 274620
    },
    {
      "epoch": 0.5721458333333334,
      "grad_norm": 1.0111582279205322,
      "learning_rate": 0.00011711497506524105,
      "loss": 4.0358,
      "step": 274630
    },
    {
      "epoch": 0.5721666666666667,
      "grad_norm": 1.086653232574463,
      "learning_rate": 0.0001171053564166829,
      "loss": 3.9949,
      "step": 274640
    },
    {
      "epoch": 0.5721875,
      "grad_norm": 1.0100783109664917,
      "learning_rate": 0.00011709573791021651,
      "loss": 3.8672,
      "step": 274650
    },
    {
      "epoch": 0.5722083333333333,
      "grad_norm": 1.1221983432769775,
      "learning_rate": 0.00011708611954588355,
      "loss": 3.7981,
      "step": 274660
    },
    {
      "epoch": 0.5722291666666667,
      "grad_norm": 1.0661544799804688,
      "learning_rate": 0.00011707650132372556,
      "loss": 3.9089,
      "step": 274670
    },
    {
      "epoch": 0.57225,
      "grad_norm": 4.441367149353027,
      "learning_rate": 0.00011706688324378399,
      "loss": 3.9767,
      "step": 274680
    },
    {
      "epoch": 0.5722708333333333,
      "grad_norm": 1.0276343822479248,
      "learning_rate": 0.00011705726530610045,
      "loss": 3.9244,
      "step": 274690
    },
    {
      "epoch": 0.5722916666666666,
      "grad_norm": 0.9600198864936829,
      "learning_rate": 0.00011704764751071655,
      "loss": 3.9481,
      "step": 274700
    },
    {
      "epoch": 0.5723125,
      "grad_norm": 1.0305593013763428,
      "learning_rate": 0.00011703802985767377,
      "loss": 3.9479,
      "step": 274710
    },
    {
      "epoch": 0.5723333333333334,
      "grad_norm": 1.084749698638916,
      "learning_rate": 0.00011702841234701358,
      "loss": 3.9342,
      "step": 274720
    },
    {
      "epoch": 0.5723541666666667,
      "grad_norm": 0.9807036519050598,
      "learning_rate": 0.00011701879497877761,
      "loss": 3.7899,
      "step": 274730
    },
    {
      "epoch": 0.572375,
      "grad_norm": 0.9643296003341675,
      "learning_rate": 0.00011700917775300747,
      "loss": 4.0251,
      "step": 274740
    },
    {
      "epoch": 0.5723958333333333,
      "grad_norm": 0.9406059384346008,
      "learning_rate": 0.00011699956066974451,
      "loss": 4.0794,
      "step": 274750
    },
    {
      "epoch": 0.5724166666666667,
      "grad_norm": 1.040936827659607,
      "learning_rate": 0.00011698994372903044,
      "loss": 3.7658,
      "step": 274760
    },
    {
      "epoch": 0.5724375,
      "grad_norm": 0.974875271320343,
      "learning_rate": 0.00011698032693090678,
      "loss": 3.8554,
      "step": 274770
    },
    {
      "epoch": 0.5724583333333333,
      "grad_norm": 1.0579761266708374,
      "learning_rate": 0.00011697071027541498,
      "loss": 3.9954,
      "step": 274780
    },
    {
      "epoch": 0.5724791666666667,
      "grad_norm": 0.9554232954978943,
      "learning_rate": 0.00011696109376259665,
      "loss": 3.7436,
      "step": 274790
    },
    {
      "epoch": 0.5725,
      "grad_norm": 0.9716352224349976,
      "learning_rate": 0.00011695147739249336,
      "loss": 3.8379,
      "step": 274800
    },
    {
      "epoch": 0.5725208333333334,
      "grad_norm": 0.9624726176261902,
      "learning_rate": 0.00011694186116514655,
      "loss": 3.8458,
      "step": 274810
    },
    {
      "epoch": 0.5725416666666666,
      "grad_norm": 1.0562530755996704,
      "learning_rate": 0.00011693224508059784,
      "loss": 3.6583,
      "step": 274820
    },
    {
      "epoch": 0.5725625,
      "grad_norm": 0.9942209124565125,
      "learning_rate": 0.00011692262913888876,
      "loss": 3.9945,
      "step": 274830
    },
    {
      "epoch": 0.5725833333333333,
      "grad_norm": 1.0920671224594116,
      "learning_rate": 0.00011691301334006078,
      "loss": 3.754,
      "step": 274840
    },
    {
      "epoch": 0.5726041666666667,
      "grad_norm": 1.1075239181518555,
      "learning_rate": 0.00011690339768415555,
      "loss": 3.8457,
      "step": 274850
    },
    {
      "epoch": 0.572625,
      "grad_norm": 1.1865978240966797,
      "learning_rate": 0.00011689378217121451,
      "loss": 3.8678,
      "step": 274860
    },
    {
      "epoch": 0.5726458333333333,
      "grad_norm": 0.9048852324485779,
      "learning_rate": 0.00011688416680127918,
      "loss": 3.8967,
      "step": 274870
    },
    {
      "epoch": 0.5726666666666667,
      "grad_norm": 1.3167920112609863,
      "learning_rate": 0.00011687455157439123,
      "loss": 3.954,
      "step": 274880
    },
    {
      "epoch": 0.5726875,
      "grad_norm": 0.9442932605743408,
      "learning_rate": 0.00011686493649059206,
      "loss": 3.9131,
      "step": 274890
    },
    {
      "epoch": 0.5727083333333334,
      "grad_norm": 0.9726447463035583,
      "learning_rate": 0.00011685532154992321,
      "loss": 4.103,
      "step": 274900
    },
    {
      "epoch": 0.5727291666666666,
      "grad_norm": 0.9786069393157959,
      "learning_rate": 0.00011684570675242633,
      "loss": 3.7377,
      "step": 274910
    },
    {
      "epoch": 0.57275,
      "grad_norm": 0.9200942516326904,
      "learning_rate": 0.00011683609209814284,
      "loss": 3.7095,
      "step": 274920
    },
    {
      "epoch": 0.5727708333333333,
      "grad_norm": 0.9420141577720642,
      "learning_rate": 0.00011682647758711425,
      "loss": 3.934,
      "step": 274930
    },
    {
      "epoch": 0.5727916666666667,
      "grad_norm": 1.1794018745422363,
      "learning_rate": 0.00011681686321938223,
      "loss": 4.1069,
      "step": 274940
    },
    {
      "epoch": 0.5728125,
      "grad_norm": 1.0125682353973389,
      "learning_rate": 0.00011680724899498822,
      "loss": 4.0125,
      "step": 274950
    },
    {
      "epoch": 0.5728333333333333,
      "grad_norm": 1.0042170286178589,
      "learning_rate": 0.00011679763491397369,
      "loss": 3.9207,
      "step": 274960
    },
    {
      "epoch": 0.5728541666666667,
      "grad_norm": 1.0819873809814453,
      "learning_rate": 0.00011678802097638027,
      "loss": 3.8845,
      "step": 274970
    },
    {
      "epoch": 0.572875,
      "grad_norm": 1.0021443367004395,
      "learning_rate": 0.00011677840718224949,
      "loss": 3.9594,
      "step": 274980
    },
    {
      "epoch": 0.5728958333333334,
      "grad_norm": 1.006051778793335,
      "learning_rate": 0.00011676879353162277,
      "loss": 4.0217,
      "step": 274990
    },
    {
      "epoch": 0.5729166666666666,
      "grad_norm": 0.9522094130516052,
      "learning_rate": 0.00011675918002454175,
      "loss": 3.9032,
      "step": 275000
    },
    {
      "epoch": 0.5729166666666666,
      "eval_loss": 3.6013500690460205,
      "eval_runtime": 7.6614,
      "eval_samples_per_second": 1.305,
      "eval_steps_per_second": 0.392,
      "step": 275000
    },
    {
      "epoch": 0.5729375,
      "grad_norm": 0.9319997429847717,
      "learning_rate": 0.00011674956666104794,
      "loss": 3.8069,
      "step": 275010
    },
    {
      "epoch": 0.5729583333333333,
      "grad_norm": 0.9520667791366577,
      "learning_rate": 0.0001167399534411828,
      "loss": 3.959,
      "step": 275020
    },
    {
      "epoch": 0.5729791666666667,
      "grad_norm": 1.0756909847259521,
      "learning_rate": 0.00011673034036498788,
      "loss": 4.1744,
      "step": 275030
    },
    {
      "epoch": 0.573,
      "grad_norm": 0.9900438785552979,
      "learning_rate": 0.00011672072743250477,
      "loss": 3.881,
      "step": 275040
    },
    {
      "epoch": 0.5730208333333333,
      "grad_norm": 1.0731559991836548,
      "learning_rate": 0.00011671111464377492,
      "loss": 4.0158,
      "step": 275050
    },
    {
      "epoch": 0.5730416666666667,
      "grad_norm": 1.4247077703475952,
      "learning_rate": 0.00011670150199883984,
      "loss": 4.0337,
      "step": 275060
    },
    {
      "epoch": 0.5730625,
      "grad_norm": 0.9876450300216675,
      "learning_rate": 0.00011669188949774117,
      "loss": 3.7155,
      "step": 275070
    },
    {
      "epoch": 0.5730833333333333,
      "grad_norm": 1.0021451711654663,
      "learning_rate": 0.00011668227714052034,
      "loss": 4.0167,
      "step": 275080
    },
    {
      "epoch": 0.5731041666666666,
      "grad_norm": 0.9331660270690918,
      "learning_rate": 0.00011667266492721883,
      "loss": 4.0324,
      "step": 275090
    },
    {
      "epoch": 0.573125,
      "grad_norm": 0.9370792508125305,
      "learning_rate": 0.00011666305285787822,
      "loss": 4.0293,
      "step": 275100
    },
    {
      "epoch": 0.5731458333333334,
      "grad_norm": 0.9164904952049255,
      "learning_rate": 0.0001166534409325401,
      "loss": 4.0736,
      "step": 275110
    },
    {
      "epoch": 0.5731666666666667,
      "grad_norm": 0.9767357707023621,
      "learning_rate": 0.00011664382915124583,
      "loss": 3.9089,
      "step": 275120
    },
    {
      "epoch": 0.5731875,
      "grad_norm": 1.0151125192642212,
      "learning_rate": 0.00011663421751403704,
      "loss": 4.1504,
      "step": 275130
    },
    {
      "epoch": 0.5732083333333333,
      "grad_norm": 1.3271660804748535,
      "learning_rate": 0.00011662460602095526,
      "loss": 3.9279,
      "step": 275140
    },
    {
      "epoch": 0.5732291666666667,
      "grad_norm": 0.9661917686462402,
      "learning_rate": 0.00011661499467204192,
      "loss": 4.1124,
      "step": 275150
    },
    {
      "epoch": 0.57325,
      "grad_norm": 0.8923717737197876,
      "learning_rate": 0.0001166053834673386,
      "loss": 3.8595,
      "step": 275160
    },
    {
      "epoch": 0.5732708333333333,
      "grad_norm": 0.9635416865348816,
      "learning_rate": 0.00011659577240688685,
      "loss": 3.9567,
      "step": 275170
    },
    {
      "epoch": 0.5732916666666666,
      "grad_norm": 1.0253902673721313,
      "learning_rate": 0.00011658616149072808,
      "loss": 3.8095,
      "step": 275180
    },
    {
      "epoch": 0.5733125,
      "grad_norm": 0.9812652468681335,
      "learning_rate": 0.00011657655071890389,
      "loss": 3.7802,
      "step": 275190
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 1.1748430728912354,
      "learning_rate": 0.00011656694009145581,
      "loss": 3.9493,
      "step": 275200
    },
    {
      "epoch": 0.5733541666666667,
      "grad_norm": 1.0827646255493164,
      "learning_rate": 0.00011655732960842525,
      "loss": 3.8709,
      "step": 275210
    },
    {
      "epoch": 0.573375,
      "grad_norm": 0.9817900061607361,
      "learning_rate": 0.00011654771926985385,
      "loss": 3.8775,
      "step": 275220
    },
    {
      "epoch": 0.5733958333333333,
      "grad_norm": 0.9624683856964111,
      "learning_rate": 0.00011653810907578302,
      "loss": 3.9151,
      "step": 275230
    },
    {
      "epoch": 0.5734166666666667,
      "grad_norm": 1.0048298835754395,
      "learning_rate": 0.00011652849902625429,
      "loss": 4.0633,
      "step": 275240
    },
    {
      "epoch": 0.5734375,
      "grad_norm": 1.066408634185791,
      "learning_rate": 0.00011651888912130926,
      "loss": 3.9022,
      "step": 275250
    },
    {
      "epoch": 0.5734583333333333,
      "grad_norm": 1.2305036783218384,
      "learning_rate": 0.00011650927936098934,
      "loss": 4.0763,
      "step": 275260
    },
    {
      "epoch": 0.5734791666666667,
      "grad_norm": 1.1589938402175903,
      "learning_rate": 0.00011649966974533606,
      "loss": 4.0435,
      "step": 275270
    },
    {
      "epoch": 0.5735,
      "grad_norm": 1.2812696695327759,
      "learning_rate": 0.00011649006027439099,
      "loss": 3.7644,
      "step": 275280
    },
    {
      "epoch": 0.5735208333333334,
      "grad_norm": 1.0045720338821411,
      "learning_rate": 0.00011648045094819557,
      "loss": 3.8447,
      "step": 275290
    },
    {
      "epoch": 0.5735416666666666,
      "grad_norm": 0.9597432613372803,
      "learning_rate": 0.00011647084176679138,
      "loss": 3.9143,
      "step": 275300
    },
    {
      "epoch": 0.5735625,
      "grad_norm": 1.3147598505020142,
      "learning_rate": 0.0001164612327302198,
      "loss": 3.9551,
      "step": 275310
    },
    {
      "epoch": 0.5735833333333333,
      "grad_norm": 1.0435677766799927,
      "learning_rate": 0.00011645162383852251,
      "loss": 4.0023,
      "step": 275320
    },
    {
      "epoch": 0.5736041666666667,
      "grad_norm": 1.0302653312683105,
      "learning_rate": 0.00011644201509174085,
      "loss": 3.8787,
      "step": 275330
    },
    {
      "epoch": 0.573625,
      "grad_norm": 0.9667679071426392,
      "learning_rate": 0.00011643240648991639,
      "loss": 3.678,
      "step": 275340
    },
    {
      "epoch": 0.5736458333333333,
      "grad_norm": 1.0130208730697632,
      "learning_rate": 0.00011642279803309072,
      "loss": 4.0491,
      "step": 275350
    },
    {
      "epoch": 0.5736666666666667,
      "grad_norm": 1.0548702478408813,
      "learning_rate": 0.00011641318972130525,
      "loss": 3.9066,
      "step": 275360
    },
    {
      "epoch": 0.5736875,
      "grad_norm": 0.9858092069625854,
      "learning_rate": 0.00011640358155460144,
      "loss": 4.134,
      "step": 275370
    },
    {
      "epoch": 0.5737083333333334,
      "grad_norm": 0.9274638891220093,
      "learning_rate": 0.00011639397353302094,
      "loss": 4.0524,
      "step": 275380
    },
    {
      "epoch": 0.5737291666666666,
      "grad_norm": 1.042730450630188,
      "learning_rate": 0.00011638436565660515,
      "loss": 3.869,
      "step": 275390
    },
    {
      "epoch": 0.57375,
      "grad_norm": 1.0557235479354858,
      "learning_rate": 0.00011637475792539553,
      "loss": 3.8821,
      "step": 275400
    },
    {
      "epoch": 0.5737708333333333,
      "grad_norm": 1.0318571329116821,
      "learning_rate": 0.00011636515033943375,
      "loss": 3.6959,
      "step": 275410
    },
    {
      "epoch": 0.5737916666666667,
      "grad_norm": 1.016310453414917,
      "learning_rate": 0.00011635554289876115,
      "loss": 3.7783,
      "step": 275420
    },
    {
      "epoch": 0.5738125,
      "grad_norm": 1.0568739175796509,
      "learning_rate": 0.00011634593560341927,
      "loss": 3.9269,
      "step": 275430
    },
    {
      "epoch": 0.5738333333333333,
      "grad_norm": 1.0358179807662964,
      "learning_rate": 0.00011633632845344968,
      "loss": 3.7969,
      "step": 275440
    },
    {
      "epoch": 0.5738541666666667,
      "grad_norm": 0.9044561982154846,
      "learning_rate": 0.00011632672144889383,
      "loss": 3.9169,
      "step": 275450
    },
    {
      "epoch": 0.573875,
      "grad_norm": 0.9623978734016418,
      "learning_rate": 0.00011631711458979316,
      "loss": 4.0338,
      "step": 275460
    },
    {
      "epoch": 0.5738958333333334,
      "grad_norm": 1.0040665864944458,
      "learning_rate": 0.00011630750787618923,
      "loss": 4.0547,
      "step": 275470
    },
    {
      "epoch": 0.5739166666666666,
      "grad_norm": 0.995974600315094,
      "learning_rate": 0.00011629790130812358,
      "loss": 3.8775,
      "step": 275480
    },
    {
      "epoch": 0.5739375,
      "grad_norm": 0.9797412753105164,
      "learning_rate": 0.0001162882948856376,
      "loss": 3.9635,
      "step": 275490
    },
    {
      "epoch": 0.5739583333333333,
      "grad_norm": 1.0987004041671753,
      "learning_rate": 0.00011627868860877287,
      "loss": 3.7771,
      "step": 275500
    },
    {
      "epoch": 0.5739791666666667,
      "grad_norm": 0.9979925751686096,
      "learning_rate": 0.00011626908247757087,
      "loss": 3.8453,
      "step": 275510
    },
    {
      "epoch": 0.574,
      "grad_norm": 0.9507995247840881,
      "learning_rate": 0.00011625947649207304,
      "loss": 3.973,
      "step": 275520
    },
    {
      "epoch": 0.5740208333333333,
      "grad_norm": 1.4207886457443237,
      "learning_rate": 0.00011624987065232093,
      "loss": 3.9635,
      "step": 275530
    },
    {
      "epoch": 0.5740416666666667,
      "grad_norm": 0.9280827045440674,
      "learning_rate": 0.00011624026495835605,
      "loss": 3.943,
      "step": 275540
    },
    {
      "epoch": 0.5740625,
      "grad_norm": 1.0282795429229736,
      "learning_rate": 0.0001162306594102198,
      "loss": 3.9669,
      "step": 275550
    },
    {
      "epoch": 0.5740833333333333,
      "grad_norm": 1.3181161880493164,
      "learning_rate": 0.0001162210540079538,
      "loss": 3.9202,
      "step": 275560
    },
    {
      "epoch": 0.5741041666666666,
      "grad_norm": 0.9356961846351624,
      "learning_rate": 0.00011621144875159947,
      "loss": 3.7802,
      "step": 275570
    },
    {
      "epoch": 0.574125,
      "grad_norm": 1.0125726461410522,
      "learning_rate": 0.00011620184364119825,
      "loss": 3.8797,
      "step": 275580
    },
    {
      "epoch": 0.5741458333333334,
      "grad_norm": 1.0987777709960938,
      "learning_rate": 0.00011619223867679177,
      "loss": 3.8186,
      "step": 275590
    },
    {
      "epoch": 0.5741666666666667,
      "grad_norm": 0.9307006597518921,
      "learning_rate": 0.00011618263385842138,
      "loss": 3.974,
      "step": 275600
    },
    {
      "epoch": 0.5741875,
      "grad_norm": 1.059991478919983,
      "learning_rate": 0.00011617302918612868,
      "loss": 3.7462,
      "step": 275610
    },
    {
      "epoch": 0.5742083333333333,
      "grad_norm": 0.9549721479415894,
      "learning_rate": 0.00011616342465995502,
      "loss": 3.8838,
      "step": 275620
    },
    {
      "epoch": 0.5742291666666667,
      "grad_norm": 0.8950275182723999,
      "learning_rate": 0.00011615382027994202,
      "loss": 3.9776,
      "step": 275630
    },
    {
      "epoch": 0.57425,
      "grad_norm": 1.0340012311935425,
      "learning_rate": 0.00011614421604613114,
      "loss": 3.706,
      "step": 275640
    },
    {
      "epoch": 0.5742708333333333,
      "grad_norm": 1.0764998197555542,
      "learning_rate": 0.00011613461195856379,
      "loss": 3.7475,
      "step": 275650
    },
    {
      "epoch": 0.5742916666666666,
      "grad_norm": 0.9938126802444458,
      "learning_rate": 0.00011612500801728154,
      "loss": 3.8533,
      "step": 275660
    },
    {
      "epoch": 0.5743125,
      "grad_norm": 1.5049588680267334,
      "learning_rate": 0.00011611540422232588,
      "loss": 4.121,
      "step": 275670
    },
    {
      "epoch": 0.5743333333333334,
      "grad_norm": 1.0300779342651367,
      "learning_rate": 0.00011610580057373819,
      "loss": 3.7079,
      "step": 275680
    },
    {
      "epoch": 0.5743541666666667,
      "grad_norm": 1.0219066143035889,
      "learning_rate": 0.00011609619707156007,
      "loss": 4.1542,
      "step": 275690
    },
    {
      "epoch": 0.574375,
      "grad_norm": 1.0255529880523682,
      "learning_rate": 0.00011608659371583298,
      "loss": 3.9391,
      "step": 275700
    },
    {
      "epoch": 0.5743958333333333,
      "grad_norm": 2.1440205574035645,
      "learning_rate": 0.00011607699050659832,
      "loss": 3.7786,
      "step": 275710
    },
    {
      "epoch": 0.5744166666666667,
      "grad_norm": 1.0190743207931519,
      "learning_rate": 0.00011606738744389771,
      "loss": 4.0519,
      "step": 275720
    },
    {
      "epoch": 0.5744375,
      "grad_norm": 0.9869675636291504,
      "learning_rate": 0.0001160577845277725,
      "loss": 3.9891,
      "step": 275730
    },
    {
      "epoch": 0.5744583333333333,
      "grad_norm": 1.0988667011260986,
      "learning_rate": 0.00011604818175826421,
      "loss": 3.9391,
      "step": 275740
    },
    {
      "epoch": 0.5744791666666667,
      "grad_norm": 0.9023360013961792,
      "learning_rate": 0.00011603857913541439,
      "loss": 3.8177,
      "step": 275750
    },
    {
      "epoch": 0.5745,
      "grad_norm": 1.0341697931289673,
      "learning_rate": 0.00011602897665926446,
      "loss": 3.8426,
      "step": 275760
    },
    {
      "epoch": 0.5745208333333334,
      "grad_norm": 0.9377599358558655,
      "learning_rate": 0.00011601937432985584,
      "loss": 3.7404,
      "step": 275770
    },
    {
      "epoch": 0.5745416666666666,
      "grad_norm": 1.1228076219558716,
      "learning_rate": 0.00011600977214723015,
      "loss": 3.9498,
      "step": 275780
    },
    {
      "epoch": 0.5745625,
      "grad_norm": 0.9767325520515442,
      "learning_rate": 0.00011600017011142874,
      "loss": 3.9487,
      "step": 275790
    },
    {
      "epoch": 0.5745833333333333,
      "grad_norm": 0.9707087278366089,
      "learning_rate": 0.00011599056822249313,
      "loss": 3.8726,
      "step": 275800
    },
    {
      "epoch": 0.5746041666666667,
      "grad_norm": 1.054848551750183,
      "learning_rate": 0.00011598096648046484,
      "loss": 3.7781,
      "step": 275810
    },
    {
      "epoch": 0.574625,
      "grad_norm": 0.9295915961265564,
      "learning_rate": 0.00011597136488538534,
      "loss": 3.9236,
      "step": 275820
    },
    {
      "epoch": 0.5746458333333333,
      "grad_norm": 0.9141471982002258,
      "learning_rate": 0.00011596176343729596,
      "loss": 3.864,
      "step": 275830
    },
    {
      "epoch": 0.5746666666666667,
      "grad_norm": 1.0547586679458618,
      "learning_rate": 0.00011595216213623839,
      "loss": 4.0257,
      "step": 275840
    },
    {
      "epoch": 0.5746875,
      "grad_norm": 1.1020044088363647,
      "learning_rate": 0.00011594256098225401,
      "loss": 3.7685,
      "step": 275850
    },
    {
      "epoch": 0.5747083333333334,
      "grad_norm": 1.339892029762268,
      "learning_rate": 0.0001159329599753842,
      "loss": 3.7629,
      "step": 275860
    },
    {
      "epoch": 0.5747291666666666,
      "grad_norm": 0.9580429196357727,
      "learning_rate": 0.00011592335911567057,
      "loss": 3.8072,
      "step": 275870
    },
    {
      "epoch": 0.57475,
      "grad_norm": 1.114240050315857,
      "learning_rate": 0.00011591375840315458,
      "loss": 3.9686,
      "step": 275880
    },
    {
      "epoch": 0.5747708333333333,
      "grad_norm": 0.9995760917663574,
      "learning_rate": 0.00011590415783787761,
      "loss": 3.7404,
      "step": 275890
    },
    {
      "epoch": 0.5747916666666667,
      "grad_norm": 1.013041615486145,
      "learning_rate": 0.00011589455741988114,
      "loss": 3.8317,
      "step": 275900
    },
    {
      "epoch": 0.5748125,
      "grad_norm": 0.9863534569740295,
      "learning_rate": 0.00011588495714920677,
      "loss": 3.9347,
      "step": 275910
    },
    {
      "epoch": 0.5748333333333333,
      "grad_norm": 1.2072030305862427,
      "learning_rate": 0.00011587535702589585,
      "loss": 3.8161,
      "step": 275920
    },
    {
      "epoch": 0.5748541666666667,
      "grad_norm": 0.9301614761352539,
      "learning_rate": 0.00011586575704998984,
      "loss": 3.8507,
      "step": 275930
    },
    {
      "epoch": 0.574875,
      "grad_norm": 0.9778096079826355,
      "learning_rate": 0.0001158561572215303,
      "loss": 3.9157,
      "step": 275940
    },
    {
      "epoch": 0.5748958333333334,
      "grad_norm": 0.9355641603469849,
      "learning_rate": 0.00011584655754055867,
      "loss": 4.0746,
      "step": 275950
    },
    {
      "epoch": 0.5749166666666666,
      "grad_norm": 1.0115621089935303,
      "learning_rate": 0.0001158369580071163,
      "loss": 3.8165,
      "step": 275960
    },
    {
      "epoch": 0.5749375,
      "grad_norm": 0.9589169025421143,
      "learning_rate": 0.0001158273586212448,
      "loss": 3.9447,
      "step": 275970
    },
    {
      "epoch": 0.5749583333333333,
      "grad_norm": 0.9011539220809937,
      "learning_rate": 0.00011581775938298562,
      "loss": 3.9079,
      "step": 275980
    },
    {
      "epoch": 0.5749791666666667,
      "grad_norm": 0.9949206113815308,
      "learning_rate": 0.00011580816029238012,
      "loss": 3.7649,
      "step": 275990
    },
    {
      "epoch": 0.575,
      "grad_norm": 1.119970679283142,
      "learning_rate": 0.00011579856134946986,
      "loss": 3.9836,
      "step": 276000
    },
    {
      "epoch": 0.575,
      "eval_loss": 3.6045336723327637,
      "eval_runtime": 7.8944,
      "eval_samples_per_second": 1.267,
      "eval_steps_per_second": 0.38,
      "step": 276000
    },
    {
      "epoch": 0.5750208333333333,
      "grad_norm": 0.91405189037323,
      "learning_rate": 0.00011578896255429632,
      "loss": 3.9675,
      "step": 276010
    },
    {
      "epoch": 0.5750416666666667,
      "grad_norm": 0.9918106198310852,
      "learning_rate": 0.00011577936390690083,
      "loss": 3.8428,
      "step": 276020
    },
    {
      "epoch": 0.5750625,
      "grad_norm": 0.8985365033149719,
      "learning_rate": 0.000115769765407325,
      "loss": 3.5887,
      "step": 276030
    },
    {
      "epoch": 0.5750833333333333,
      "grad_norm": 0.9296109676361084,
      "learning_rate": 0.00011576016705561026,
      "loss": 3.9705,
      "step": 276040
    },
    {
      "epoch": 0.5751041666666666,
      "grad_norm": 1.14742112159729,
      "learning_rate": 0.00011575056885179798,
      "loss": 3.9195,
      "step": 276050
    },
    {
      "epoch": 0.575125,
      "grad_norm": 1.1984587907791138,
      "learning_rate": 0.00011574097079592971,
      "loss": 3.7856,
      "step": 276060
    },
    {
      "epoch": 0.5751458333333334,
      "grad_norm": 0.9078094363212585,
      "learning_rate": 0.00011573137288804693,
      "loss": 3.9503,
      "step": 276070
    },
    {
      "epoch": 0.5751666666666667,
      "grad_norm": 0.8504102826118469,
      "learning_rate": 0.00011572177512819099,
      "loss": 3.8914,
      "step": 276080
    },
    {
      "epoch": 0.5751875,
      "grad_norm": 1.042697787284851,
      "learning_rate": 0.00011571217751640348,
      "loss": 3.8627,
      "step": 276090
    },
    {
      "epoch": 0.5752083333333333,
      "grad_norm": 1.1391147375106812,
      "learning_rate": 0.00011570258005272574,
      "loss": 3.8249,
      "step": 276100
    },
    {
      "epoch": 0.5752291666666667,
      "grad_norm": 0.9525566101074219,
      "learning_rate": 0.00011569298273719926,
      "loss": 3.8112,
      "step": 276110
    },
    {
      "epoch": 0.57525,
      "grad_norm": 0.9187821745872498,
      "learning_rate": 0.00011568338556986558,
      "loss": 3.8818,
      "step": 276120
    },
    {
      "epoch": 0.5752708333333333,
      "grad_norm": 0.9800321459770203,
      "learning_rate": 0.00011567378855076605,
      "loss": 3.8286,
      "step": 276130
    },
    {
      "epoch": 0.5752916666666666,
      "grad_norm": 1.123478651046753,
      "learning_rate": 0.00011566419167994215,
      "loss": 3.7824,
      "step": 276140
    },
    {
      "epoch": 0.5753125,
      "grad_norm": 1.2716585397720337,
      "learning_rate": 0.0001156545949574354,
      "loss": 3.8713,
      "step": 276150
    },
    {
      "epoch": 0.5753333333333334,
      "grad_norm": 1.076716423034668,
      "learning_rate": 0.00011564499838328718,
      "loss": 3.878,
      "step": 276160
    },
    {
      "epoch": 0.5753541666666667,
      "grad_norm": 1.1811822652816772,
      "learning_rate": 0.00011563540195753894,
      "loss": 3.9415,
      "step": 276170
    },
    {
      "epoch": 0.575375,
      "grad_norm": 0.8991557955741882,
      "learning_rate": 0.00011562580568023221,
      "loss": 4.0641,
      "step": 276180
    },
    {
      "epoch": 0.5753958333333333,
      "grad_norm": 1.2090013027191162,
      "learning_rate": 0.00011561620955140838,
      "loss": 3.9903,
      "step": 276190
    },
    {
      "epoch": 0.5754166666666667,
      "grad_norm": 0.927359402179718,
      "learning_rate": 0.00011560661357110894,
      "loss": 3.9407,
      "step": 276200
    },
    {
      "epoch": 0.5754375,
      "grad_norm": 0.9514337778091431,
      "learning_rate": 0.00011559701773937525,
      "loss": 3.7131,
      "step": 276210
    },
    {
      "epoch": 0.5754583333333333,
      "grad_norm": 1.047271490097046,
      "learning_rate": 0.00011558742205624888,
      "loss": 3.8951,
      "step": 276220
    },
    {
      "epoch": 0.5754791666666667,
      "grad_norm": 1.0409384965896606,
      "learning_rate": 0.0001155778265217712,
      "loss": 3.837,
      "step": 276230
    },
    {
      "epoch": 0.5755,
      "grad_norm": 0.9706205129623413,
      "learning_rate": 0.00011556823113598366,
      "loss": 4.0727,
      "step": 276240
    },
    {
      "epoch": 0.5755208333333334,
      "grad_norm": 1.6212975978851318,
      "learning_rate": 0.00011555863589892779,
      "loss": 3.8811,
      "step": 276250
    },
    {
      "epoch": 0.5755416666666666,
      "grad_norm": 1.168322205543518,
      "learning_rate": 0.00011554904081064494,
      "loss": 4.002,
      "step": 276260
    },
    {
      "epoch": 0.5755625,
      "grad_norm": 1.1075289249420166,
      "learning_rate": 0.00011553944587117659,
      "loss": 3.9566,
      "step": 276270
    },
    {
      "epoch": 0.5755833333333333,
      "grad_norm": 1.0379695892333984,
      "learning_rate": 0.00011552985108056424,
      "loss": 3.6703,
      "step": 276280
    },
    {
      "epoch": 0.5756041666666667,
      "grad_norm": 1.0580250024795532,
      "learning_rate": 0.00011552025643884926,
      "loss": 3.8502,
      "step": 276290
    },
    {
      "epoch": 0.575625,
      "grad_norm": 1.0126562118530273,
      "learning_rate": 0.00011551066194607308,
      "loss": 4.0158,
      "step": 276300
    },
    {
      "epoch": 0.5756458333333333,
      "grad_norm": 1.0312747955322266,
      "learning_rate": 0.00011550106760227727,
      "loss": 3.9319,
      "step": 276310
    },
    {
      "epoch": 0.5756666666666667,
      "grad_norm": 1.0471992492675781,
      "learning_rate": 0.0001154914734075032,
      "loss": 3.7615,
      "step": 276320
    },
    {
      "epoch": 0.5756875,
      "grad_norm": 1.0980253219604492,
      "learning_rate": 0.00011548187936179218,
      "loss": 3.89,
      "step": 276330
    },
    {
      "epoch": 0.5757083333333334,
      "grad_norm": 1.099737524986267,
      "learning_rate": 0.0001154722854651859,
      "loss": 3.9027,
      "step": 276340
    },
    {
      "epoch": 0.5757291666666666,
      "grad_norm": 0.9969492554664612,
      "learning_rate": 0.00011546269171772566,
      "loss": 4.067,
      "step": 276350
    },
    {
      "epoch": 0.57575,
      "grad_norm": 0.9832024574279785,
      "learning_rate": 0.00011545309811945286,
      "loss": 3.8151,
      "step": 276360
    },
    {
      "epoch": 0.5757708333333333,
      "grad_norm": 0.915385901927948,
      "learning_rate": 0.00011544350467040905,
      "loss": 4.0202,
      "step": 276370
    },
    {
      "epoch": 0.5757916666666667,
      "grad_norm": 1.1733402013778687,
      "learning_rate": 0.00011543391137063565,
      "loss": 3.8931,
      "step": 276380
    },
    {
      "epoch": 0.5758125,
      "grad_norm": 1.0048774480819702,
      "learning_rate": 0.00011542431822017399,
      "loss": 3.8743,
      "step": 276390
    },
    {
      "epoch": 0.5758333333333333,
      "grad_norm": 0.8898634910583496,
      "learning_rate": 0.00011541472521906563,
      "loss": 3.7491,
      "step": 276400
    },
    {
      "epoch": 0.5758541666666667,
      "grad_norm": 1.0940111875534058,
      "learning_rate": 0.000115405132367352,
      "loss": 3.8868,
      "step": 276410
    },
    {
      "epoch": 0.575875,
      "grad_norm": 0.9123005270957947,
      "learning_rate": 0.00011539553966507443,
      "loss": 3.8465,
      "step": 276420
    },
    {
      "epoch": 0.5758958333333334,
      "grad_norm": 0.9227045774459839,
      "learning_rate": 0.00011538594711227448,
      "loss": 3.8173,
      "step": 276430
    },
    {
      "epoch": 0.5759166666666666,
      "grad_norm": 1.0076731443405151,
      "learning_rate": 0.00011537635470899357,
      "loss": 4.1315,
      "step": 276440
    },
    {
      "epoch": 0.5759375,
      "grad_norm": 0.9880011081695557,
      "learning_rate": 0.00011536676245527304,
      "loss": 3.8719,
      "step": 276450
    },
    {
      "epoch": 0.5759583333333333,
      "grad_norm": 0.9366957545280457,
      "learning_rate": 0.00011535717035115443,
      "loss": 3.9224,
      "step": 276460
    },
    {
      "epoch": 0.5759791666666667,
      "grad_norm": 0.9944400191307068,
      "learning_rate": 0.00011534757839667911,
      "loss": 3.9551,
      "step": 276470
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.9805411696434021,
      "learning_rate": 0.00011533798659188857,
      "loss": 3.8816,
      "step": 276480
    },
    {
      "epoch": 0.5760208333333333,
      "grad_norm": 1.0924999713897705,
      "learning_rate": 0.00011532839493682415,
      "loss": 3.9018,
      "step": 276490
    },
    {
      "epoch": 0.5760416666666667,
      "grad_norm": 0.9678413271903992,
      "learning_rate": 0.00011531880343152737,
      "loss": 3.9287,
      "step": 276500
    },
    {
      "epoch": 0.5760625,
      "grad_norm": 1.0736082792282104,
      "learning_rate": 0.00011530921207603965,
      "loss": 3.9467,
      "step": 276510
    },
    {
      "epoch": 0.5760833333333333,
      "grad_norm": 1.0408225059509277,
      "learning_rate": 0.00011529962087040235,
      "loss": 3.8819,
      "step": 276520
    },
    {
      "epoch": 0.5761041666666666,
      "grad_norm": 0.9054045677185059,
      "learning_rate": 0.00011529002981465697,
      "loss": 3.9552,
      "step": 276530
    },
    {
      "epoch": 0.576125,
      "grad_norm": 1.029844045639038,
      "learning_rate": 0.00011528043890884499,
      "loss": 3.8539,
      "step": 276540
    },
    {
      "epoch": 0.5761458333333334,
      "grad_norm": 0.9996588230133057,
      "learning_rate": 0.00011527084815300768,
      "loss": 3.9245,
      "step": 276550
    },
    {
      "epoch": 0.5761666666666667,
      "grad_norm": 1.0687493085861206,
      "learning_rate": 0.00011526125754718659,
      "loss": 3.7176,
      "step": 276560
    },
    {
      "epoch": 0.5761875,
      "grad_norm": 0.9017999768257141,
      "learning_rate": 0.00011525166709142314,
      "loss": 3.8375,
      "step": 276570
    },
    {
      "epoch": 0.5762083333333333,
      "grad_norm": 1.0240988731384277,
      "learning_rate": 0.00011524207678575869,
      "loss": 3.9813,
      "step": 276580
    },
    {
      "epoch": 0.5762291666666667,
      "grad_norm": 1.0242646932601929,
      "learning_rate": 0.00011523248663023476,
      "loss": 3.8251,
      "step": 276590
    },
    {
      "epoch": 0.57625,
      "grad_norm": 0.9645971655845642,
      "learning_rate": 0.0001152228966248927,
      "loss": 3.6994,
      "step": 276600
    },
    {
      "epoch": 0.5762708333333333,
      "grad_norm": 0.9329798817634583,
      "learning_rate": 0.00011521330676977393,
      "loss": 3.9342,
      "step": 276610
    },
    {
      "epoch": 0.5762916666666666,
      "grad_norm": 1.098372220993042,
      "learning_rate": 0.00011520371706491998,
      "loss": 3.9413,
      "step": 276620
    },
    {
      "epoch": 0.5763125,
      "grad_norm": 1.0430183410644531,
      "learning_rate": 0.00011519412751037214,
      "loss": 3.799,
      "step": 276630
    },
    {
      "epoch": 0.5763333333333334,
      "grad_norm": 1.0314550399780273,
      "learning_rate": 0.00011518453810617187,
      "loss": 3.8818,
      "step": 276640
    },
    {
      "epoch": 0.5763541666666666,
      "grad_norm": 1.0442231893539429,
      "learning_rate": 0.0001151749488523607,
      "loss": 3.8416,
      "step": 276650
    },
    {
      "epoch": 0.576375,
      "grad_norm": 0.9552440643310547,
      "learning_rate": 0.00011516535974897991,
      "loss": 3.8827,
      "step": 276660
    },
    {
      "epoch": 0.5763958333333333,
      "grad_norm": 0.9779506921768188,
      "learning_rate": 0.00011515577079607096,
      "loss": 3.8664,
      "step": 276670
    },
    {
      "epoch": 0.5764166666666667,
      "grad_norm": 1.0004143714904785,
      "learning_rate": 0.00011514618199367534,
      "loss": 3.8028,
      "step": 276680
    },
    {
      "epoch": 0.5764375,
      "grad_norm": 1.0988181829452515,
      "learning_rate": 0.00011513659334183441,
      "loss": 4.1446,
      "step": 276690
    },
    {
      "epoch": 0.5764583333333333,
      "grad_norm": 1.2175118923187256,
      "learning_rate": 0.00011512700484058953,
      "loss": 3.8394,
      "step": 276700
    },
    {
      "epoch": 0.5764791666666667,
      "grad_norm": 1.1387985944747925,
      "learning_rate": 0.00011511741648998226,
      "loss": 3.9357,
      "step": 276710
    },
    {
      "epoch": 0.5765,
      "grad_norm": 1.085745096206665,
      "learning_rate": 0.00011510782829005396,
      "loss": 3.592,
      "step": 276720
    },
    {
      "epoch": 0.5765208333333334,
      "grad_norm": 1.0072813034057617,
      "learning_rate": 0.00011509824024084594,
      "loss": 3.9387,
      "step": 276730
    },
    {
      "epoch": 0.5765416666666666,
      "grad_norm": 1.0510036945343018,
      "learning_rate": 0.00011508865234239975,
      "loss": 3.9626,
      "step": 276740
    },
    {
      "epoch": 0.5765625,
      "grad_norm": 0.9846804141998291,
      "learning_rate": 0.0001150790645947568,
      "loss": 3.9504,
      "step": 276750
    },
    {
      "epoch": 0.5765833333333333,
      "grad_norm": 0.9776134490966797,
      "learning_rate": 0.00011506947699795842,
      "loss": 3.7835,
      "step": 276760
    },
    {
      "epoch": 0.5766041666666667,
      "grad_norm": 1.1220567226409912,
      "learning_rate": 0.00011505988955204609,
      "loss": 3.9477,
      "step": 276770
    },
    {
      "epoch": 0.576625,
      "grad_norm": 1.1164131164550781,
      "learning_rate": 0.00011505030225706124,
      "loss": 3.8124,
      "step": 276780
    },
    {
      "epoch": 0.5766458333333333,
      "grad_norm": 0.9144347310066223,
      "learning_rate": 0.0001150407151130452,
      "loss": 4.0022,
      "step": 276790
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 1.028591275215149,
      "learning_rate": 0.00011503112812003943,
      "loss": 3.7446,
      "step": 276800
    },
    {
      "epoch": 0.5766875,
      "grad_norm": 1.0416728258132935,
      "learning_rate": 0.00011502154127808539,
      "loss": 3.8615,
      "step": 276810
    },
    {
      "epoch": 0.5767083333333334,
      "grad_norm": 0.8895244002342224,
      "learning_rate": 0.00011501195458722445,
      "loss": 4.1103,
      "step": 276820
    },
    {
      "epoch": 0.5767291666666666,
      "grad_norm": 0.9428558349609375,
      "learning_rate": 0.00011500236804749795,
      "loss": 3.8542,
      "step": 276830
    },
    {
      "epoch": 0.57675,
      "grad_norm": 1.084216833114624,
      "learning_rate": 0.00011499278165894742,
      "loss": 3.8024,
      "step": 276840
    },
    {
      "epoch": 0.5767708333333333,
      "grad_norm": 1.0700838565826416,
      "learning_rate": 0.00011498319542161423,
      "loss": 3.7439,
      "step": 276850
    },
    {
      "epoch": 0.5767916666666667,
      "grad_norm": 1.0179556608200073,
      "learning_rate": 0.00011497360933553969,
      "loss": 4.0658,
      "step": 276860
    },
    {
      "epoch": 0.5768125,
      "grad_norm": 1.041674017906189,
      "learning_rate": 0.00011496402340076537,
      "loss": 3.9665,
      "step": 276870
    },
    {
      "epoch": 0.5768333333333333,
      "grad_norm": 1.1046874523162842,
      "learning_rate": 0.0001149544376173326,
      "loss": 3.9593,
      "step": 276880
    },
    {
      "epoch": 0.5768541666666667,
      "grad_norm": 0.9363144040107727,
      "learning_rate": 0.00011494485198528274,
      "loss": 3.966,
      "step": 276890
    },
    {
      "epoch": 0.576875,
      "grad_norm": 1.0479378700256348,
      "learning_rate": 0.00011493526650465726,
      "loss": 3.9813,
      "step": 276900
    },
    {
      "epoch": 0.5768958333333334,
      "grad_norm": 1.0679880380630493,
      "learning_rate": 0.0001149256811754976,
      "loss": 3.9046,
      "step": 276910
    },
    {
      "epoch": 0.5769166666666666,
      "grad_norm": 1.1265441179275513,
      "learning_rate": 0.00011491609599784503,
      "loss": 3.7057,
      "step": 276920
    },
    {
      "epoch": 0.5769375,
      "grad_norm": 0.9704931974411011,
      "learning_rate": 0.00011490651097174109,
      "loss": 3.9414,
      "step": 276930
    },
    {
      "epoch": 0.5769583333333334,
      "grad_norm": 1.022464394569397,
      "learning_rate": 0.00011489692609722715,
      "loss": 4.0146,
      "step": 276940
    },
    {
      "epoch": 0.5769791666666667,
      "grad_norm": 1.0288004875183105,
      "learning_rate": 0.00011488734137434454,
      "loss": 4.0269,
      "step": 276950
    },
    {
      "epoch": 0.577,
      "grad_norm": 1.0802793502807617,
      "learning_rate": 0.00011487775680313477,
      "loss": 4.1247,
      "step": 276960
    },
    {
      "epoch": 0.5770208333333333,
      "grad_norm": 0.9972367286682129,
      "learning_rate": 0.00011486817238363918,
      "loss": 3.7515,
      "step": 276970
    },
    {
      "epoch": 0.5770416666666667,
      "grad_norm": 0.940243661403656,
      "learning_rate": 0.00011485858811589911,
      "loss": 3.9217,
      "step": 276980
    },
    {
      "epoch": 0.5770625,
      "grad_norm": 1.0151281356811523,
      "learning_rate": 0.00011484900399995613,
      "loss": 3.9749,
      "step": 276990
    },
    {
      "epoch": 0.5770833333333333,
      "grad_norm": 1.1881492137908936,
      "learning_rate": 0.00011483942003585148,
      "loss": 3.8229,
      "step": 277000
    },
    {
      "epoch": 0.5770833333333333,
      "eval_loss": 3.601135730743408,
      "eval_runtime": 7.3975,
      "eval_samples_per_second": 1.352,
      "eval_steps_per_second": 0.406,
      "step": 277000
    },
    {
      "epoch": 0.5771041666666666,
      "grad_norm": 0.9604690670967102,
      "learning_rate": 0.0001148298362236266,
      "loss": 3.8452,
      "step": 277010
    },
    {
      "epoch": 0.577125,
      "grad_norm": 0.932604968547821,
      "learning_rate": 0.00011482025256332296,
      "loss": 3.9854,
      "step": 277020
    },
    {
      "epoch": 0.5771458333333334,
      "grad_norm": 0.9705798625946045,
      "learning_rate": 0.00011481066905498189,
      "loss": 3.9998,
      "step": 277030
    },
    {
      "epoch": 0.5771666666666667,
      "grad_norm": 0.9345993995666504,
      "learning_rate": 0.00011480108569864476,
      "loss": 4.074,
      "step": 277040
    },
    {
      "epoch": 0.5771875,
      "grad_norm": 0.9787423610687256,
      "learning_rate": 0.00011479150249435306,
      "loss": 4.0931,
      "step": 277050
    },
    {
      "epoch": 0.5772083333333333,
      "grad_norm": 1.2253260612487793,
      "learning_rate": 0.00011478191944214809,
      "loss": 3.9369,
      "step": 277060
    },
    {
      "epoch": 0.5772291666666667,
      "grad_norm": 0.9751454591751099,
      "learning_rate": 0.00011477233654207134,
      "loss": 3.8445,
      "step": 277070
    },
    {
      "epoch": 0.57725,
      "grad_norm": 0.9724442958831787,
      "learning_rate": 0.00011476275379416412,
      "loss": 3.9059,
      "step": 277080
    },
    {
      "epoch": 0.5772708333333333,
      "grad_norm": 1.0309020280838013,
      "learning_rate": 0.00011475317119846787,
      "loss": 3.8881,
      "step": 277090
    },
    {
      "epoch": 0.5772916666666666,
      "grad_norm": 1.0017669200897217,
      "learning_rate": 0.00011474358875502395,
      "loss": 4.2107,
      "step": 277100
    },
    {
      "epoch": 0.5773125,
      "grad_norm": 1.1969006061553955,
      "learning_rate": 0.00011473400646387374,
      "loss": 3.7872,
      "step": 277110
    },
    {
      "epoch": 0.5773333333333334,
      "grad_norm": 0.9167253971099854,
      "learning_rate": 0.00011472442432505873,
      "loss": 3.9751,
      "step": 277120
    },
    {
      "epoch": 0.5773541666666666,
      "grad_norm": 0.956005334854126,
      "learning_rate": 0.00011471484233862021,
      "loss": 3.8105,
      "step": 277130
    },
    {
      "epoch": 0.577375,
      "grad_norm": 1.1468983888626099,
      "learning_rate": 0.00011470526050459957,
      "loss": 3.8821,
      "step": 277140
    },
    {
      "epoch": 0.5773958333333333,
      "grad_norm": 1.017755389213562,
      "learning_rate": 0.00011469567882303829,
      "loss": 3.8976,
      "step": 277150
    },
    {
      "epoch": 0.5774166666666667,
      "grad_norm": 0.9667184948921204,
      "learning_rate": 0.00011468609729397769,
      "loss": 3.7918,
      "step": 277160
    },
    {
      "epoch": 0.5774375,
      "grad_norm": 1.0549700260162354,
      "learning_rate": 0.00011467651591745914,
      "loss": 3.7671,
      "step": 277170
    },
    {
      "epoch": 0.5774583333333333,
      "grad_norm": 1.046332836151123,
      "learning_rate": 0.00011466693469352411,
      "loss": 3.7742,
      "step": 277180
    },
    {
      "epoch": 0.5774791666666667,
      "grad_norm": 1.051577091217041,
      "learning_rate": 0.0001146573536222139,
      "loss": 3.884,
      "step": 277190
    },
    {
      "epoch": 0.5775,
      "grad_norm": 0.9554212689399719,
      "learning_rate": 0.00011464777270356991,
      "loss": 3.7852,
      "step": 277200
    },
    {
      "epoch": 0.5775208333333334,
      "grad_norm": 1.0610586404800415,
      "learning_rate": 0.00011463819193763363,
      "loss": 3.9416,
      "step": 277210
    },
    {
      "epoch": 0.5775416666666666,
      "grad_norm": 1.0018627643585205,
      "learning_rate": 0.00011462861132444633,
      "loss": 3.8996,
      "step": 277220
    },
    {
      "epoch": 0.5775625,
      "grad_norm": 0.9787976741790771,
      "learning_rate": 0.00011461903086404939,
      "loss": 3.9448,
      "step": 277230
    },
    {
      "epoch": 0.5775833333333333,
      "grad_norm": 0.9491350054740906,
      "learning_rate": 0.00011460945055648425,
      "loss": 3.9393,
      "step": 277240
    },
    {
      "epoch": 0.5776041666666667,
      "grad_norm": 0.9994668960571289,
      "learning_rate": 0.00011459987040179231,
      "loss": 3.9624,
      "step": 277250
    },
    {
      "epoch": 0.577625,
      "grad_norm": 0.9898450970649719,
      "learning_rate": 0.00011459029040001487,
      "loss": 3.8865,
      "step": 277260
    },
    {
      "epoch": 0.5776458333333333,
      "grad_norm": 0.9861371517181396,
      "learning_rate": 0.00011458071055119335,
      "loss": 3.8785,
      "step": 277270
    },
    {
      "epoch": 0.5776666666666667,
      "grad_norm": 1.1945359706878662,
      "learning_rate": 0.00011457113085536921,
      "loss": 3.937,
      "step": 277280
    },
    {
      "epoch": 0.5776875,
      "grad_norm": 0.962068498134613,
      "learning_rate": 0.00011456155131258368,
      "loss": 3.7653,
      "step": 277290
    },
    {
      "epoch": 0.5777083333333334,
      "grad_norm": 0.9536905288696289,
      "learning_rate": 0.00011455197192287826,
      "loss": 3.8221,
      "step": 277300
    },
    {
      "epoch": 0.5777291666666666,
      "grad_norm": 0.9577142596244812,
      "learning_rate": 0.00011454239268629433,
      "loss": 3.9527,
      "step": 277310
    },
    {
      "epoch": 0.57775,
      "grad_norm": 1.0172959566116333,
      "learning_rate": 0.00011453281360287315,
      "loss": 4.1475,
      "step": 277320
    },
    {
      "epoch": 0.5777708333333333,
      "grad_norm": 1.043319582939148,
      "learning_rate": 0.00011452323467265624,
      "loss": 4.1456,
      "step": 277330
    },
    {
      "epoch": 0.5777916666666667,
      "grad_norm": 1.001153826713562,
      "learning_rate": 0.00011451365589568488,
      "loss": 3.8725,
      "step": 277340
    },
    {
      "epoch": 0.5778125,
      "grad_norm": 0.9985048770904541,
      "learning_rate": 0.00011450407727200046,
      "loss": 3.9795,
      "step": 277350
    },
    {
      "epoch": 0.5778333333333333,
      "grad_norm": 0.8987283110618591,
      "learning_rate": 0.00011449449880164443,
      "loss": 3.5881,
      "step": 277360
    },
    {
      "epoch": 0.5778541666666667,
      "grad_norm": 1.005947232246399,
      "learning_rate": 0.0001144849204846581,
      "loss": 3.8691,
      "step": 277370
    },
    {
      "epoch": 0.577875,
      "grad_norm": 1.0473296642303467,
      "learning_rate": 0.00011447534232108285,
      "loss": 3.7653,
      "step": 277380
    },
    {
      "epoch": 0.5778958333333334,
      "grad_norm": 0.9908905625343323,
      "learning_rate": 0.00011446576431096003,
      "loss": 4.0657,
      "step": 277390
    },
    {
      "epoch": 0.5779166666666666,
      "grad_norm": 1.224442958831787,
      "learning_rate": 0.00011445618645433105,
      "loss": 3.9376,
      "step": 277400
    },
    {
      "epoch": 0.5779375,
      "grad_norm": 1.014260172843933,
      "learning_rate": 0.00011444660875123733,
      "loss": 3.8879,
      "step": 277410
    },
    {
      "epoch": 0.5779583333333334,
      "grad_norm": 0.998521625995636,
      "learning_rate": 0.00011443703120172011,
      "loss": 3.8726,
      "step": 277420
    },
    {
      "epoch": 0.5779791666666667,
      "grad_norm": 2.4815902709960938,
      "learning_rate": 0.00011442745380582088,
      "loss": 3.7725,
      "step": 277430
    },
    {
      "epoch": 0.578,
      "grad_norm": 1.1897963285446167,
      "learning_rate": 0.00011441787656358098,
      "loss": 3.8801,
      "step": 277440
    },
    {
      "epoch": 0.5780208333333333,
      "grad_norm": 1.0613220930099487,
      "learning_rate": 0.00011440829947504174,
      "loss": 3.8599,
      "step": 277450
    },
    {
      "epoch": 0.5780416666666667,
      "grad_norm": 1.030775785446167,
      "learning_rate": 0.00011439872254024458,
      "loss": 3.7506,
      "step": 277460
    },
    {
      "epoch": 0.5780625,
      "grad_norm": 0.9664449095726013,
      "learning_rate": 0.00011438914575923085,
      "loss": 3.855,
      "step": 277470
    },
    {
      "epoch": 0.5780833333333333,
      "grad_norm": 1.0360321998596191,
      "learning_rate": 0.00011437956913204185,
      "loss": 3.8141,
      "step": 277480
    },
    {
      "epoch": 0.5781041666666666,
      "grad_norm": 1.0124537944793701,
      "learning_rate": 0.0001143699926587191,
      "loss": 3.6688,
      "step": 277490
    },
    {
      "epoch": 0.578125,
      "grad_norm": 0.9513625502586365,
      "learning_rate": 0.00011436041633930385,
      "loss": 3.9028,
      "step": 277500
    },
    {
      "epoch": 0.5781458333333334,
      "grad_norm": 1.1095027923583984,
      "learning_rate": 0.00011435084017383743,
      "loss": 3.9324,
      "step": 277510
    },
    {
      "epoch": 0.5781666666666667,
      "grad_norm": 0.988835334777832,
      "learning_rate": 0.00011434126416236136,
      "loss": 3.9321,
      "step": 277520
    },
    {
      "epoch": 0.5781875,
      "grad_norm": 0.9102451205253601,
      "learning_rate": 0.00011433168830491689,
      "loss": 3.8513,
      "step": 277530
    },
    {
      "epoch": 0.5782083333333333,
      "grad_norm": 0.955193281173706,
      "learning_rate": 0.00011432211260154535,
      "loss": 3.9996,
      "step": 277540
    },
    {
      "epoch": 0.5782291666666667,
      "grad_norm": 0.9571728110313416,
      "learning_rate": 0.00011431253705228825,
      "loss": 3.8061,
      "step": 277550
    },
    {
      "epoch": 0.57825,
      "grad_norm": 1.0952630043029785,
      "learning_rate": 0.00011430296165718682,
      "loss": 4.1148,
      "step": 277560
    },
    {
      "epoch": 0.5782708333333333,
      "grad_norm": 0.9831491708755493,
      "learning_rate": 0.00011429338641628243,
      "loss": 3.9988,
      "step": 277570
    },
    {
      "epoch": 0.5782916666666666,
      "grad_norm": 0.9565238952636719,
      "learning_rate": 0.00011428381132961656,
      "loss": 3.9475,
      "step": 277580
    },
    {
      "epoch": 0.5783125,
      "grad_norm": 1.0637693405151367,
      "learning_rate": 0.00011427423639723046,
      "loss": 3.9336,
      "step": 277590
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 0.947853684425354,
      "learning_rate": 0.00011426466161916548,
      "loss": 3.9862,
      "step": 277600
    },
    {
      "epoch": 0.5783541666666666,
      "grad_norm": 0.918138861656189,
      "learning_rate": 0.00011425508699546303,
      "loss": 3.7387,
      "step": 277610
    },
    {
      "epoch": 0.578375,
      "grad_norm": 1.0122824907302856,
      "learning_rate": 0.0001142455125261645,
      "loss": 3.8254,
      "step": 277620
    },
    {
      "epoch": 0.5783958333333333,
      "grad_norm": 1.4874809980392456,
      "learning_rate": 0.00011423593821131112,
      "loss": 3.8086,
      "step": 277630
    },
    {
      "epoch": 0.5784166666666667,
      "grad_norm": 1.0125449895858765,
      "learning_rate": 0.00011422636405094438,
      "loss": 3.6295,
      "step": 277640
    },
    {
      "epoch": 0.5784375,
      "grad_norm": 1.0500489473342896,
      "learning_rate": 0.00011421679004510561,
      "loss": 3.9408,
      "step": 277650
    },
    {
      "epoch": 0.5784583333333333,
      "grad_norm": 1.132181167602539,
      "learning_rate": 0.00011420721619383612,
      "loss": 3.9625,
      "step": 277660
    },
    {
      "epoch": 0.5784791666666667,
      "grad_norm": 0.9701582193374634,
      "learning_rate": 0.00011419764249717724,
      "loss": 3.7572,
      "step": 277670
    },
    {
      "epoch": 0.5785,
      "grad_norm": 0.971564531326294,
      "learning_rate": 0.00011418806895517044,
      "loss": 3.8008,
      "step": 277680
    },
    {
      "epoch": 0.5785208333333334,
      "grad_norm": 0.9911326766014099,
      "learning_rate": 0.00011417849556785699,
      "loss": 3.9623,
      "step": 277690
    },
    {
      "epoch": 0.5785416666666666,
      "grad_norm": 0.9947723746299744,
      "learning_rate": 0.00011416892233527823,
      "loss": 3.7869,
      "step": 277700
    },
    {
      "epoch": 0.5785625,
      "grad_norm": 0.9719396829605103,
      "learning_rate": 0.00011415934925747559,
      "loss": 3.8794,
      "step": 277710
    },
    {
      "epoch": 0.5785833333333333,
      "grad_norm": 0.9400858879089355,
      "learning_rate": 0.0001141497763344904,
      "loss": 4.0266,
      "step": 277720
    },
    {
      "epoch": 0.5786041666666667,
      "grad_norm": 0.9806913137435913,
      "learning_rate": 0.0001141402035663639,
      "loss": 4.0409,
      "step": 277730
    },
    {
      "epoch": 0.578625,
      "grad_norm": 1.0224121809005737,
      "learning_rate": 0.00011413063095313755,
      "loss": 4.0331,
      "step": 277740
    },
    {
      "epoch": 0.5786458333333333,
      "grad_norm": 0.9997240900993347,
      "learning_rate": 0.0001141210584948527,
      "loss": 4.0167,
      "step": 277750
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 0.9392120242118835,
      "learning_rate": 0.00011411148619155066,
      "loss": 3.8145,
      "step": 277760
    },
    {
      "epoch": 0.5786875,
      "grad_norm": 0.9632421731948853,
      "learning_rate": 0.00011410191404327279,
      "loss": 3.87,
      "step": 277770
    },
    {
      "epoch": 0.5787083333333334,
      "grad_norm": 1.0356217622756958,
      "learning_rate": 0.00011409234205006047,
      "loss": 3.8348,
      "step": 277780
    },
    {
      "epoch": 0.5787291666666666,
      "grad_norm": 0.9342533349990845,
      "learning_rate": 0.00011408277021195497,
      "loss": 3.9598,
      "step": 277790
    },
    {
      "epoch": 0.57875,
      "grad_norm": 1.0346115827560425,
      "learning_rate": 0.00011407319852899772,
      "loss": 3.886,
      "step": 277800
    },
    {
      "epoch": 0.5787708333333333,
      "grad_norm": 1.0241118669509888,
      "learning_rate": 0.00011406362700123005,
      "loss": 3.8564,
      "step": 277810
    },
    {
      "epoch": 0.5787916666666667,
      "grad_norm": 1.1125792264938354,
      "learning_rate": 0.00011405405562869324,
      "loss": 3.9858,
      "step": 277820
    },
    {
      "epoch": 0.5788125,
      "grad_norm": 0.9820935726165771,
      "learning_rate": 0.00011404448441142873,
      "loss": 3.8825,
      "step": 277830
    },
    {
      "epoch": 0.5788333333333333,
      "grad_norm": 1.0591344833374023,
      "learning_rate": 0.0001140349133494778,
      "loss": 3.9644,
      "step": 277840
    },
    {
      "epoch": 0.5788541666666667,
      "grad_norm": 1.0062471628189087,
      "learning_rate": 0.00011402534244288176,
      "loss": 3.9053,
      "step": 277850
    },
    {
      "epoch": 0.578875,
      "grad_norm": 1.1020841598510742,
      "learning_rate": 0.00011401577169168208,
      "loss": 4.088,
      "step": 277860
    },
    {
      "epoch": 0.5788958333333334,
      "grad_norm": 1.0289318561553955,
      "learning_rate": 0.00011400620109591996,
      "loss": 3.9027,
      "step": 277870
    },
    {
      "epoch": 0.5789166666666666,
      "grad_norm": 1.0155317783355713,
      "learning_rate": 0.00011399663065563681,
      "loss": 3.8672,
      "step": 277880
    },
    {
      "epoch": 0.5789375,
      "grad_norm": 1.1637691259384155,
      "learning_rate": 0.00011398706037087401,
      "loss": 3.941,
      "step": 277890
    },
    {
      "epoch": 0.5789583333333334,
      "grad_norm": 1.1235507726669312,
      "learning_rate": 0.00011397749024167281,
      "loss": 4.0369,
      "step": 277900
    },
    {
      "epoch": 0.5789791666666667,
      "grad_norm": 0.99953693151474,
      "learning_rate": 0.00011396792026807458,
      "loss": 3.9321,
      "step": 277910
    },
    {
      "epoch": 0.579,
      "grad_norm": 0.9311166405677795,
      "learning_rate": 0.00011395835045012074,
      "loss": 4.1505,
      "step": 277920
    },
    {
      "epoch": 0.5790208333333333,
      "grad_norm": 0.9162273406982422,
      "learning_rate": 0.0001139487807878525,
      "loss": 3.9812,
      "step": 277930
    },
    {
      "epoch": 0.5790416666666667,
      "grad_norm": 0.9298171401023865,
      "learning_rate": 0.00011393921128131132,
      "loss": 3.9234,
      "step": 277940
    },
    {
      "epoch": 0.5790625,
      "grad_norm": 1.2135350704193115,
      "learning_rate": 0.0001139296419305384,
      "loss": 3.8977,
      "step": 277950
    },
    {
      "epoch": 0.5790833333333333,
      "grad_norm": 1.0371685028076172,
      "learning_rate": 0.00011392007273557519,
      "loss": 4.0142,
      "step": 277960
    },
    {
      "epoch": 0.5791041666666666,
      "grad_norm": 0.9996430277824402,
      "learning_rate": 0.000113910503696463,
      "loss": 3.801,
      "step": 277970
    },
    {
      "epoch": 0.579125,
      "grad_norm": 1.1279836893081665,
      "learning_rate": 0.00011390093481324308,
      "loss": 4.0192,
      "step": 277980
    },
    {
      "epoch": 0.5791458333333334,
      "grad_norm": 0.9730544090270996,
      "learning_rate": 0.0001138913660859569,
      "loss": 3.8565,
      "step": 277990
    },
    {
      "epoch": 0.5791666666666667,
      "grad_norm": 0.9681897163391113,
      "learning_rate": 0.0001138817975146457,
      "loss": 3.8266,
      "step": 278000
    },
    {
      "epoch": 0.5791666666666667,
      "eval_loss": 3.5953738689422607,
      "eval_runtime": 7.5117,
      "eval_samples_per_second": 1.331,
      "eval_steps_per_second": 0.399,
      "step": 278000
    },
    {
      "epoch": 0.5791875,
      "grad_norm": 0.9811384677886963,
      "learning_rate": 0.00011387222909935082,
      "loss": 4.1062,
      "step": 278010
    },
    {
      "epoch": 0.5792083333333333,
      "grad_norm": 1.410323143005371,
      "learning_rate": 0.00011386266084011364,
      "loss": 3.8531,
      "step": 278020
    },
    {
      "epoch": 0.5792291666666667,
      "grad_norm": 0.9954880475997925,
      "learning_rate": 0.00011385309273697546,
      "loss": 3.9364,
      "step": 278030
    },
    {
      "epoch": 0.57925,
      "grad_norm": 0.9982170462608337,
      "learning_rate": 0.00011384352478997757,
      "loss": 3.9929,
      "step": 278040
    },
    {
      "epoch": 0.5792708333333333,
      "grad_norm": 1.096358060836792,
      "learning_rate": 0.0001138339569991614,
      "loss": 3.8946,
      "step": 278050
    },
    {
      "epoch": 0.5792916666666666,
      "grad_norm": 0.974321722984314,
      "learning_rate": 0.00011382438936456819,
      "loss": 3.8389,
      "step": 278060
    },
    {
      "epoch": 0.5793125,
      "grad_norm": 0.9818826913833618,
      "learning_rate": 0.00011381482188623927,
      "loss": 3.8376,
      "step": 278070
    },
    {
      "epoch": 0.5793333333333334,
      "grad_norm": 1.08786940574646,
      "learning_rate": 0.00011380525456421605,
      "loss": 3.8886,
      "step": 278080
    },
    {
      "epoch": 0.5793541666666666,
      "grad_norm": 1.1113719940185547,
      "learning_rate": 0.00011379568739853981,
      "loss": 3.8617,
      "step": 278090
    },
    {
      "epoch": 0.579375,
      "grad_norm": 0.9724509716033936,
      "learning_rate": 0.00011378612038925183,
      "loss": 3.7624,
      "step": 278100
    },
    {
      "epoch": 0.5793958333333333,
      "grad_norm": 1.1093534231185913,
      "learning_rate": 0.00011377655353639348,
      "loss": 3.9678,
      "step": 278110
    },
    {
      "epoch": 0.5794166666666667,
      "grad_norm": 0.9199562072753906,
      "learning_rate": 0.0001137669868400061,
      "loss": 3.7252,
      "step": 278120
    },
    {
      "epoch": 0.5794375,
      "grad_norm": 1.1152706146240234,
      "learning_rate": 0.00011375742030013096,
      "loss": 3.9732,
      "step": 278130
    },
    {
      "epoch": 0.5794583333333333,
      "grad_norm": 1.2539178133010864,
      "learning_rate": 0.00011374785391680945,
      "loss": 3.9857,
      "step": 278140
    },
    {
      "epoch": 0.5794791666666667,
      "grad_norm": 0.9270893335342407,
      "learning_rate": 0.00011373828769008286,
      "loss": 3.827,
      "step": 278150
    },
    {
      "epoch": 0.5795,
      "grad_norm": 0.9787613153457642,
      "learning_rate": 0.00011372872161999249,
      "loss": 3.8932,
      "step": 278160
    },
    {
      "epoch": 0.5795208333333334,
      "grad_norm": 0.9948921799659729,
      "learning_rate": 0.0001137191557065797,
      "loss": 3.8392,
      "step": 278170
    },
    {
      "epoch": 0.5795416666666666,
      "grad_norm": 0.9804408550262451,
      "learning_rate": 0.00011370958994988582,
      "loss": 3.9481,
      "step": 278180
    },
    {
      "epoch": 0.5795625,
      "grad_norm": 1.1347904205322266,
      "learning_rate": 0.0001137000243499521,
      "loss": 3.7621,
      "step": 278190
    },
    {
      "epoch": 0.5795833333333333,
      "grad_norm": 0.8946720957756042,
      "learning_rate": 0.00011369045890681992,
      "loss": 3.9006,
      "step": 278200
    },
    {
      "epoch": 0.5796041666666667,
      "grad_norm": 0.9733662605285645,
      "learning_rate": 0.00011368089362053064,
      "loss": 3.8217,
      "step": 278210
    },
    {
      "epoch": 0.579625,
      "grad_norm": 1.1230086088180542,
      "learning_rate": 0.00011367132849112543,
      "loss": 3.8602,
      "step": 278220
    },
    {
      "epoch": 0.5796458333333333,
      "grad_norm": 1.0976866483688354,
      "learning_rate": 0.00011366176351864579,
      "loss": 3.7731,
      "step": 278230
    },
    {
      "epoch": 0.5796666666666667,
      "grad_norm": 0.9832650423049927,
      "learning_rate": 0.0001136521987031329,
      "loss": 3.7375,
      "step": 278240
    },
    {
      "epoch": 0.5796875,
      "grad_norm": 0.9719716310501099,
      "learning_rate": 0.00011364263404462815,
      "loss": 3.8373,
      "step": 278250
    },
    {
      "epoch": 0.5797083333333334,
      "grad_norm": 0.9989795684814453,
      "learning_rate": 0.0001136330695431728,
      "loss": 3.9524,
      "step": 278260
    },
    {
      "epoch": 0.5797291666666666,
      "grad_norm": 0.9427902102470398,
      "learning_rate": 0.00011362350519880821,
      "loss": 3.9168,
      "step": 278270
    },
    {
      "epoch": 0.57975,
      "grad_norm": 0.898459792137146,
      "learning_rate": 0.0001136139410115757,
      "loss": 3.7773,
      "step": 278280
    },
    {
      "epoch": 0.5797708333333333,
      "grad_norm": 1.0168207883834839,
      "learning_rate": 0.0001136043769815165,
      "loss": 4.0753,
      "step": 278290
    },
    {
      "epoch": 0.5797916666666667,
      "grad_norm": 1.015823245048523,
      "learning_rate": 0.00011359481310867202,
      "loss": 3.8897,
      "step": 278300
    },
    {
      "epoch": 0.5798125,
      "grad_norm": 1.0279133319854736,
      "learning_rate": 0.00011358524939308357,
      "loss": 3.9727,
      "step": 278310
    },
    {
      "epoch": 0.5798333333333333,
      "grad_norm": 1.0038223266601562,
      "learning_rate": 0.00011357568583479237,
      "loss": 3.8877,
      "step": 278320
    },
    {
      "epoch": 0.5798541666666667,
      "grad_norm": 0.8921434879302979,
      "learning_rate": 0.00011356612243383984,
      "loss": 3.9837,
      "step": 278330
    },
    {
      "epoch": 0.579875,
      "grad_norm": 0.9106594920158386,
      "learning_rate": 0.00011355655919026722,
      "loss": 3.9189,
      "step": 278340
    },
    {
      "epoch": 0.5798958333333334,
      "grad_norm": 1.0549532175064087,
      "learning_rate": 0.0001135469961041158,
      "loss": 3.826,
      "step": 278350
    },
    {
      "epoch": 0.5799166666666666,
      "grad_norm": 0.9812461733818054,
      "learning_rate": 0.000113537433175427,
      "loss": 3.9143,
      "step": 278360
    },
    {
      "epoch": 0.5799375,
      "grad_norm": 1.0080177783966064,
      "learning_rate": 0.00011352787040424202,
      "loss": 4.0061,
      "step": 278370
    },
    {
      "epoch": 0.5799583333333334,
      "grad_norm": 1.0622732639312744,
      "learning_rate": 0.00011351830779060218,
      "loss": 3.991,
      "step": 278380
    },
    {
      "epoch": 0.5799791666666667,
      "grad_norm": 0.9478874802589417,
      "learning_rate": 0.00011350874533454884,
      "loss": 3.9039,
      "step": 278390
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9891316294670105,
      "learning_rate": 0.00011349918303612328,
      "loss": 3.7157,
      "step": 278400
    },
    {
      "epoch": 0.5800208333333333,
      "grad_norm": 0.9998636245727539,
      "learning_rate": 0.00011348962089536676,
      "loss": 4.0175,
      "step": 278410
    },
    {
      "epoch": 0.5800416666666667,
      "grad_norm": 0.9867927432060242,
      "learning_rate": 0.00011348005891232069,
      "loss": 3.8867,
      "step": 278420
    },
    {
      "epoch": 0.5800625,
      "grad_norm": 1.0841931104660034,
      "learning_rate": 0.00011347049708702627,
      "loss": 3.8369,
      "step": 278430
    },
    {
      "epoch": 0.5800833333333333,
      "grad_norm": 1.0423663854599,
      "learning_rate": 0.00011346093541952483,
      "loss": 4.0545,
      "step": 278440
    },
    {
      "epoch": 0.5801041666666666,
      "grad_norm": 0.9910144209861755,
      "learning_rate": 0.00011345137390985772,
      "loss": 3.8736,
      "step": 278450
    },
    {
      "epoch": 0.580125,
      "grad_norm": 1.0150527954101562,
      "learning_rate": 0.00011344181255806623,
      "loss": 3.8753,
      "step": 278460
    },
    {
      "epoch": 0.5801458333333334,
      "grad_norm": 1.0269062519073486,
      "learning_rate": 0.00011343225136419157,
      "loss": 3.5808,
      "step": 278470
    },
    {
      "epoch": 0.5801666666666667,
      "grad_norm": 1.0287461280822754,
      "learning_rate": 0.00011342269032827513,
      "loss": 4.0039,
      "step": 278480
    },
    {
      "epoch": 0.5801875,
      "grad_norm": 0.9137681126594543,
      "learning_rate": 0.00011341312945035824,
      "loss": 3.9331,
      "step": 278490
    },
    {
      "epoch": 0.5802083333333333,
      "grad_norm": 1.1505405902862549,
      "learning_rate": 0.00011340356873048207,
      "loss": 3.9934,
      "step": 278500
    },
    {
      "epoch": 0.5802291666666667,
      "grad_norm": 1.0146688222885132,
      "learning_rate": 0.00011339400816868805,
      "loss": 3.8156,
      "step": 278510
    },
    {
      "epoch": 0.58025,
      "grad_norm": 0.9827868938446045,
      "learning_rate": 0.00011338444776501743,
      "loss": 3.8436,
      "step": 278520
    },
    {
      "epoch": 0.5802708333333333,
      "grad_norm": 1.038506031036377,
      "learning_rate": 0.00011337488751951147,
      "loss": 4.0147,
      "step": 278530
    },
    {
      "epoch": 0.5802916666666667,
      "grad_norm": 1.0481376647949219,
      "learning_rate": 0.0001133653274322115,
      "loss": 3.9431,
      "step": 278540
    },
    {
      "epoch": 0.5803125,
      "grad_norm": 0.9806364178657532,
      "learning_rate": 0.00011335576750315886,
      "loss": 4.0189,
      "step": 278550
    },
    {
      "epoch": 0.5803333333333334,
      "grad_norm": 1.1253851652145386,
      "learning_rate": 0.00011334620773239476,
      "loss": 3.9931,
      "step": 278560
    },
    {
      "epoch": 0.5803541666666666,
      "grad_norm": 0.9447866082191467,
      "learning_rate": 0.0001133366481199605,
      "loss": 3.8619,
      "step": 278570
    },
    {
      "epoch": 0.580375,
      "grad_norm": 1.0197696685791016,
      "learning_rate": 0.00011332708866589747,
      "loss": 3.9821,
      "step": 278580
    },
    {
      "epoch": 0.5803958333333333,
      "grad_norm": 0.9523853659629822,
      "learning_rate": 0.00011331752937024692,
      "loss": 3.6861,
      "step": 278590
    },
    {
      "epoch": 0.5804166666666667,
      "grad_norm": 1.127594232559204,
      "learning_rate": 0.00011330797023305005,
      "loss": 3.7544,
      "step": 278600
    },
    {
      "epoch": 0.5804375,
      "grad_norm": 1.0135008096694946,
      "learning_rate": 0.00011329841125434827,
      "loss": 3.9916,
      "step": 278610
    },
    {
      "epoch": 0.5804583333333333,
      "grad_norm": 0.9353148937225342,
      "learning_rate": 0.00011328885243418283,
      "loss": 3.9189,
      "step": 278620
    },
    {
      "epoch": 0.5804791666666667,
      "grad_norm": 0.981930673122406,
      "learning_rate": 0.00011327929377259497,
      "loss": 3.9038,
      "step": 278630
    },
    {
      "epoch": 0.5805,
      "grad_norm": 0.9562168717384338,
      "learning_rate": 0.00011326973526962604,
      "loss": 4.1514,
      "step": 278640
    },
    {
      "epoch": 0.5805208333333334,
      "grad_norm": 0.9904654622077942,
      "learning_rate": 0.00011326017692531737,
      "loss": 3.8781,
      "step": 278650
    },
    {
      "epoch": 0.5805416666666666,
      "grad_norm": 0.9738454818725586,
      "learning_rate": 0.00011325061873971013,
      "loss": 3.7586,
      "step": 278660
    },
    {
      "epoch": 0.5805625,
      "grad_norm": 1.0817731618881226,
      "learning_rate": 0.00011324106071284569,
      "loss": 3.9854,
      "step": 278670
    },
    {
      "epoch": 0.5805833333333333,
      "grad_norm": 0.9537148475646973,
      "learning_rate": 0.00011323150284476534,
      "loss": 3.9729,
      "step": 278680
    },
    {
      "epoch": 0.5806041666666667,
      "grad_norm": 0.9295777678489685,
      "learning_rate": 0.00011322194513551031,
      "loss": 3.7243,
      "step": 278690
    },
    {
      "epoch": 0.580625,
      "grad_norm": 0.9938998818397522,
      "learning_rate": 0.00011321238758512193,
      "loss": 4.0767,
      "step": 278700
    },
    {
      "epoch": 0.5806458333333333,
      "grad_norm": 1.1743062734603882,
      "learning_rate": 0.0001132028301936415,
      "loss": 3.8498,
      "step": 278710
    },
    {
      "epoch": 0.5806666666666667,
      "grad_norm": 1.1606132984161377,
      "learning_rate": 0.00011319327296111022,
      "loss": 3.9968,
      "step": 278720
    },
    {
      "epoch": 0.5806875,
      "grad_norm": 0.9254557490348816,
      "learning_rate": 0.0001131837158875695,
      "loss": 3.8319,
      "step": 278730
    },
    {
      "epoch": 0.5807083333333334,
      "grad_norm": 0.9645305275917053,
      "learning_rate": 0.00011317415897306053,
      "loss": 3.8411,
      "step": 278740
    },
    {
      "epoch": 0.5807291666666666,
      "grad_norm": 1.0816904306411743,
      "learning_rate": 0.00011316460221762458,
      "loss": 3.8946,
      "step": 278750
    },
    {
      "epoch": 0.58075,
      "grad_norm": 1.1086355447769165,
      "learning_rate": 0.00011315504562130302,
      "loss": 3.8223,
      "step": 278760
    },
    {
      "epoch": 0.5807708333333333,
      "grad_norm": 1.1500532627105713,
      "learning_rate": 0.00011314548918413705,
      "loss": 4.0953,
      "step": 278770
    },
    {
      "epoch": 0.5807916666666667,
      "grad_norm": 0.9257707595825195,
      "learning_rate": 0.00011313593290616796,
      "loss": 3.8403,
      "step": 278780
    },
    {
      "epoch": 0.5808125,
      "grad_norm": 1.0122802257537842,
      "learning_rate": 0.0001131263767874371,
      "loss": 3.9616,
      "step": 278790
    },
    {
      "epoch": 0.5808333333333333,
      "grad_norm": 0.9426239132881165,
      "learning_rate": 0.00011311682082798567,
      "loss": 3.8643,
      "step": 278800
    },
    {
      "epoch": 0.5808541666666667,
      "grad_norm": 1.0317256450653076,
      "learning_rate": 0.00011310726502785493,
      "loss": 3.9015,
      "step": 278810
    },
    {
      "epoch": 0.580875,
      "grad_norm": 1.1613376140594482,
      "learning_rate": 0.00011309770938708628,
      "loss": 3.9854,
      "step": 278820
    },
    {
      "epoch": 0.5808958333333333,
      "grad_norm": 0.9245555400848389,
      "learning_rate": 0.00011308815390572092,
      "loss": 3.6159,
      "step": 278830
    },
    {
      "epoch": 0.5809166666666666,
      "grad_norm": 0.9955042004585266,
      "learning_rate": 0.00011307859858380008,
      "loss": 3.8205,
      "step": 278840
    },
    {
      "epoch": 0.5809375,
      "grad_norm": 1.0243412256240845,
      "learning_rate": 0.00011306904342136505,
      "loss": 3.7583,
      "step": 278850
    },
    {
      "epoch": 0.5809583333333334,
      "grad_norm": 1.1827869415283203,
      "learning_rate": 0.00011305948841845721,
      "loss": 3.8782,
      "step": 278860
    },
    {
      "epoch": 0.5809791666666667,
      "grad_norm": 0.9220622777938843,
      "learning_rate": 0.00011304993357511772,
      "loss": 3.92,
      "step": 278870
    },
    {
      "epoch": 0.581,
      "grad_norm": 1.0382143259048462,
      "learning_rate": 0.00011304037889138786,
      "loss": 4.1641,
      "step": 278880
    },
    {
      "epoch": 0.5810208333333333,
      "grad_norm": 1.0632370710372925,
      "learning_rate": 0.000113030824367309,
      "loss": 3.8903,
      "step": 278890
    },
    {
      "epoch": 0.5810416666666667,
      "grad_norm": 0.9459601640701294,
      "learning_rate": 0.00011302127000292231,
      "loss": 3.9243,
      "step": 278900
    },
    {
      "epoch": 0.5810625,
      "grad_norm": 1.0767407417297363,
      "learning_rate": 0.00011301171579826907,
      "loss": 4.012,
      "step": 278910
    },
    {
      "epoch": 0.5810833333333333,
      "grad_norm": 0.9181397557258606,
      "learning_rate": 0.00011300216175339063,
      "loss": 3.8859,
      "step": 278920
    },
    {
      "epoch": 0.5811041666666666,
      "grad_norm": 1.0144646167755127,
      "learning_rate": 0.00011299260786832817,
      "loss": 4.0517,
      "step": 278930
    },
    {
      "epoch": 0.581125,
      "grad_norm": 0.9727762937545776,
      "learning_rate": 0.00011298305414312298,
      "loss": 3.8991,
      "step": 278940
    },
    {
      "epoch": 0.5811458333333334,
      "grad_norm": 0.9725049138069153,
      "learning_rate": 0.00011297350057781638,
      "loss": 4.0202,
      "step": 278950
    },
    {
      "epoch": 0.5811666666666667,
      "grad_norm": 1.055452585220337,
      "learning_rate": 0.00011296394717244963,
      "loss": 3.8003,
      "step": 278960
    },
    {
      "epoch": 0.5811875,
      "grad_norm": 0.8743729591369629,
      "learning_rate": 0.0001129543939270639,
      "loss": 3.8389,
      "step": 278970
    },
    {
      "epoch": 0.5812083333333333,
      "grad_norm": 1.0499745607376099,
      "learning_rate": 0.00011294484084170056,
      "loss": 3.9985,
      "step": 278980
    },
    {
      "epoch": 0.5812291666666667,
      "grad_norm": 0.9510549306869507,
      "learning_rate": 0.00011293528791640086,
      "loss": 4.004,
      "step": 278990
    },
    {
      "epoch": 0.58125,
      "grad_norm": 1.005491852760315,
      "learning_rate": 0.00011292573515120599,
      "loss": 3.8088,
      "step": 279000
    },
    {
      "epoch": 0.58125,
      "eval_loss": 3.589972972869873,
      "eval_runtime": 7.4826,
      "eval_samples_per_second": 1.336,
      "eval_steps_per_second": 0.401,
      "step": 279000
    },
    {
      "epoch": 0.5812708333333333,
      "grad_norm": 1.0736417770385742,
      "learning_rate": 0.0001129161825461573,
      "loss": 3.8552,
      "step": 279010
    },
    {
      "epoch": 0.5812916666666667,
      "grad_norm": 1.0778509378433228,
      "learning_rate": 0.00011290663010129604,
      "loss": 3.966,
      "step": 279020
    },
    {
      "epoch": 0.5813125,
      "grad_norm": 1.2227296829223633,
      "learning_rate": 0.0001128970778166634,
      "loss": 4.0894,
      "step": 279030
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 1.13683021068573,
      "learning_rate": 0.00011288752569230073,
      "loss": 3.8716,
      "step": 279040
    },
    {
      "epoch": 0.5813541666666666,
      "grad_norm": 1.0632715225219727,
      "learning_rate": 0.00011287797372824929,
      "loss": 3.9005,
      "step": 279050
    },
    {
      "epoch": 0.581375,
      "grad_norm": 0.979712724685669,
      "learning_rate": 0.00011286842192455026,
      "loss": 3.8145,
      "step": 279060
    },
    {
      "epoch": 0.5813958333333333,
      "grad_norm": 1.022963047027588,
      "learning_rate": 0.00011285887028124497,
      "loss": 3.7961,
      "step": 279070
    },
    {
      "epoch": 0.5814166666666667,
      "grad_norm": 1.0833864212036133,
      "learning_rate": 0.00011284931879837469,
      "loss": 3.8191,
      "step": 279080
    },
    {
      "epoch": 0.5814375,
      "grad_norm": 1.0791270732879639,
      "learning_rate": 0.00011283976747598058,
      "loss": 3.8975,
      "step": 279090
    },
    {
      "epoch": 0.5814583333333333,
      "grad_norm": 1.0128353834152222,
      "learning_rate": 0.00011283021631410406,
      "loss": 4.066,
      "step": 279100
    },
    {
      "epoch": 0.5814791666666667,
      "grad_norm": 1.2378926277160645,
      "learning_rate": 0.00011282066531278622,
      "loss": 4.0013,
      "step": 279110
    },
    {
      "epoch": 0.5815,
      "grad_norm": 1.0530014038085938,
      "learning_rate": 0.00011281111447206844,
      "loss": 4.0029,
      "step": 279120
    },
    {
      "epoch": 0.5815208333333334,
      "grad_norm": 0.9761120080947876,
      "learning_rate": 0.00011280156379199186,
      "loss": 3.8038,
      "step": 279130
    },
    {
      "epoch": 0.5815416666666666,
      "grad_norm": 1.002181053161621,
      "learning_rate": 0.00011279201327259782,
      "loss": 4.0901,
      "step": 279140
    },
    {
      "epoch": 0.5815625,
      "grad_norm": 1.028563380241394,
      "learning_rate": 0.0001127824629139276,
      "loss": 3.9116,
      "step": 279150
    },
    {
      "epoch": 0.5815833333333333,
      "grad_norm": 0.9089483618736267,
      "learning_rate": 0.00011277291271602233,
      "loss": 4.0437,
      "step": 279160
    },
    {
      "epoch": 0.5816041666666667,
      "grad_norm": 1.1648502349853516,
      "learning_rate": 0.0001127633626789234,
      "loss": 4.0033,
      "step": 279170
    },
    {
      "epoch": 0.581625,
      "grad_norm": 0.9444810748100281,
      "learning_rate": 0.00011275381280267202,
      "loss": 3.7846,
      "step": 279180
    },
    {
      "epoch": 0.5816458333333333,
      "grad_norm": 1.1055748462677002,
      "learning_rate": 0.00011274426308730935,
      "loss": 3.9835,
      "step": 279190
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 0.9389553666114807,
      "learning_rate": 0.00011273471353287675,
      "loss": 3.9038,
      "step": 279200
    },
    {
      "epoch": 0.5816875,
      "grad_norm": 1.014026165008545,
      "learning_rate": 0.0001127251641394155,
      "loss": 3.8175,
      "step": 279210
    },
    {
      "epoch": 0.5817083333333334,
      "grad_norm": 0.9353572130203247,
      "learning_rate": 0.00011271561490696669,
      "loss": 3.9665,
      "step": 279220
    },
    {
      "epoch": 0.5817291666666666,
      "grad_norm": 0.8954690098762512,
      "learning_rate": 0.00011270606583557174,
      "loss": 3.9752,
      "step": 279230
    },
    {
      "epoch": 0.58175,
      "grad_norm": 1.0737534761428833,
      "learning_rate": 0.0001126965169252718,
      "loss": 3.7568,
      "step": 279240
    },
    {
      "epoch": 0.5817708333333333,
      "grad_norm": 0.9610571265220642,
      "learning_rate": 0.00011268696817610809,
      "loss": 3.8164,
      "step": 279250
    },
    {
      "epoch": 0.5817916666666667,
      "grad_norm": 0.9972427487373352,
      "learning_rate": 0.000112677419588122,
      "loss": 4.0193,
      "step": 279260
    },
    {
      "epoch": 0.5818125,
      "grad_norm": 0.9873178601264954,
      "learning_rate": 0.00011266787116135463,
      "loss": 3.9546,
      "step": 279270
    },
    {
      "epoch": 0.5818333333333333,
      "grad_norm": 1.1067280769348145,
      "learning_rate": 0.00011265832289584726,
      "loss": 3.8624,
      "step": 279280
    },
    {
      "epoch": 0.5818541666666667,
      "grad_norm": 1.0308880805969238,
      "learning_rate": 0.0001126487747916412,
      "loss": 3.8692,
      "step": 279290
    },
    {
      "epoch": 0.581875,
      "grad_norm": 0.921153724193573,
      "learning_rate": 0.00011263922684877763,
      "loss": 3.8703,
      "step": 279300
    },
    {
      "epoch": 0.5818958333333333,
      "grad_norm": 1.0054666996002197,
      "learning_rate": 0.00011262967906729778,
      "loss": 4.0067,
      "step": 279310
    },
    {
      "epoch": 0.5819166666666666,
      "grad_norm": 0.9490346908569336,
      "learning_rate": 0.00011262013144724299,
      "loss": 3.8195,
      "step": 279320
    },
    {
      "epoch": 0.5819375,
      "grad_norm": 0.9557082653045654,
      "learning_rate": 0.00011261058398865443,
      "loss": 3.8246,
      "step": 279330
    },
    {
      "epoch": 0.5819583333333334,
      "grad_norm": 1.5996134281158447,
      "learning_rate": 0.00011260103669157328,
      "loss": 4.0585,
      "step": 279340
    },
    {
      "epoch": 0.5819791666666667,
      "grad_norm": 1.000544548034668,
      "learning_rate": 0.0001125914895560409,
      "loss": 3.8654,
      "step": 279350
    },
    {
      "epoch": 0.582,
      "grad_norm": 0.995284378528595,
      "learning_rate": 0.00011258194258209847,
      "loss": 3.946,
      "step": 279360
    },
    {
      "epoch": 0.5820208333333333,
      "grad_norm": 1.2029683589935303,
      "learning_rate": 0.0001125723957697872,
      "loss": 4.0338,
      "step": 279370
    },
    {
      "epoch": 0.5820416666666667,
      "grad_norm": 1.0227025747299194,
      "learning_rate": 0.0001125628491191484,
      "loss": 3.9645,
      "step": 279380
    },
    {
      "epoch": 0.5820625,
      "grad_norm": 1.0231921672821045,
      "learning_rate": 0.00011255330263022331,
      "loss": 4.0005,
      "step": 279390
    },
    {
      "epoch": 0.5820833333333333,
      "grad_norm": 1.1390578746795654,
      "learning_rate": 0.00011254375630305306,
      "loss": 4.1413,
      "step": 279400
    },
    {
      "epoch": 0.5821041666666666,
      "grad_norm": 1.1155871152877808,
      "learning_rate": 0.00011253421013767898,
      "loss": 3.8065,
      "step": 279410
    },
    {
      "epoch": 0.582125,
      "grad_norm": 1.0401384830474854,
      "learning_rate": 0.00011252466413414232,
      "loss": 3.8497,
      "step": 279420
    },
    {
      "epoch": 0.5821458333333334,
      "grad_norm": 0.9782625436782837,
      "learning_rate": 0.00011251511829248425,
      "loss": 3.8344,
      "step": 279430
    },
    {
      "epoch": 0.5821666666666667,
      "grad_norm": 0.9553805589675903,
      "learning_rate": 0.00011250557261274598,
      "loss": 3.8728,
      "step": 279440
    },
    {
      "epoch": 0.5821875,
      "grad_norm": 1.138694405555725,
      "learning_rate": 0.00011249602709496889,
      "loss": 3.8959,
      "step": 279450
    },
    {
      "epoch": 0.5822083333333333,
      "grad_norm": 0.983291745185852,
      "learning_rate": 0.0001124864817391941,
      "loss": 3.8685,
      "step": 279460
    },
    {
      "epoch": 0.5822291666666667,
      "grad_norm": 1.5684477090835571,
      "learning_rate": 0.00011247693654546278,
      "loss": 3.7038,
      "step": 279470
    },
    {
      "epoch": 0.58225,
      "grad_norm": 1.034613013267517,
      "learning_rate": 0.00011246739151381631,
      "loss": 3.9419,
      "step": 279480
    },
    {
      "epoch": 0.5822708333333333,
      "grad_norm": 1.0945547819137573,
      "learning_rate": 0.00011245784664429585,
      "loss": 3.8024,
      "step": 279490
    },
    {
      "epoch": 0.5822916666666667,
      "grad_norm": 0.9804762601852417,
      "learning_rate": 0.0001124483019369426,
      "loss": 4.1091,
      "step": 279500
    },
    {
      "epoch": 0.5823125,
      "grad_norm": 0.9876884818077087,
      "learning_rate": 0.00011243875739179783,
      "loss": 3.9987,
      "step": 279510
    },
    {
      "epoch": 0.5823333333333334,
      "grad_norm": 1.1211093664169312,
      "learning_rate": 0.0001124292130089028,
      "loss": 4.0441,
      "step": 279520
    },
    {
      "epoch": 0.5823541666666666,
      "grad_norm": 0.9418843388557434,
      "learning_rate": 0.00011241966878829864,
      "loss": 3.893,
      "step": 279530
    },
    {
      "epoch": 0.582375,
      "grad_norm": 0.9919050335884094,
      "learning_rate": 0.00011241012473002664,
      "loss": 3.9535,
      "step": 279540
    },
    {
      "epoch": 0.5823958333333333,
      "grad_norm": 1.2376707792282104,
      "learning_rate": 0.00011240058083412808,
      "loss": 4.033,
      "step": 279550
    },
    {
      "epoch": 0.5824166666666667,
      "grad_norm": 1.0828007459640503,
      "learning_rate": 0.00011239103710064406,
      "loss": 4.0675,
      "step": 279560
    },
    {
      "epoch": 0.5824375,
      "grad_norm": 1.0046507120132446,
      "learning_rate": 0.0001123814935296159,
      "loss": 3.7831,
      "step": 279570
    },
    {
      "epoch": 0.5824583333333333,
      "grad_norm": 0.9067384600639343,
      "learning_rate": 0.00011237195012108483,
      "loss": 4.037,
      "step": 279580
    },
    {
      "epoch": 0.5824791666666667,
      "grad_norm": 1.0428115129470825,
      "learning_rate": 0.00011236240687509199,
      "loss": 3.8717,
      "step": 279590
    },
    {
      "epoch": 0.5825,
      "grad_norm": 0.9454065561294556,
      "learning_rate": 0.0001123528637916787,
      "loss": 4.1056,
      "step": 279600
    },
    {
      "epoch": 0.5825208333333334,
      "grad_norm": 1.059132695198059,
      "learning_rate": 0.00011234332087088613,
      "loss": 4.0949,
      "step": 279610
    },
    {
      "epoch": 0.5825416666666666,
      "grad_norm": 1.0328556299209595,
      "learning_rate": 0.00011233377811275546,
      "loss": 3.8743,
      "step": 279620
    },
    {
      "epoch": 0.5825625,
      "grad_norm": 1.1084280014038086,
      "learning_rate": 0.00011232423551732802,
      "loss": 3.9392,
      "step": 279630
    },
    {
      "epoch": 0.5825833333333333,
      "grad_norm": 0.9043012261390686,
      "learning_rate": 0.00011231469308464493,
      "loss": 3.8245,
      "step": 279640
    },
    {
      "epoch": 0.5826041666666667,
      "grad_norm": 1.0892893075942993,
      "learning_rate": 0.00011230515081474744,
      "loss": 3.7405,
      "step": 279650
    },
    {
      "epoch": 0.582625,
      "grad_norm": 1.2000457048416138,
      "learning_rate": 0.00011229560870767681,
      "loss": 3.8422,
      "step": 279660
    },
    {
      "epoch": 0.5826458333333333,
      "grad_norm": 1.1263662576675415,
      "learning_rate": 0.00011228606676347421,
      "loss": 3.9048,
      "step": 279670
    },
    {
      "epoch": 0.5826666666666667,
      "grad_norm": 0.9747318625450134,
      "learning_rate": 0.00011227652498218085,
      "loss": 3.9862,
      "step": 279680
    },
    {
      "epoch": 0.5826875,
      "grad_norm": 0.8872380256652832,
      "learning_rate": 0.00011226698336383803,
      "loss": 3.8501,
      "step": 279690
    },
    {
      "epoch": 0.5827083333333334,
      "grad_norm": 0.9960797429084778,
      "learning_rate": 0.00011225744190848686,
      "loss": 3.6959,
      "step": 279700
    },
    {
      "epoch": 0.5827291666666666,
      "grad_norm": 0.9814192652702332,
      "learning_rate": 0.00011224790061616868,
      "loss": 4.0809,
      "step": 279710
    },
    {
      "epoch": 0.58275,
      "grad_norm": 0.9231058955192566,
      "learning_rate": 0.0001122383594869245,
      "loss": 3.9716,
      "step": 279720
    },
    {
      "epoch": 0.5827708333333333,
      "grad_norm": 1.0249172449111938,
      "learning_rate": 0.00011222881852079576,
      "loss": 3.9233,
      "step": 279730
    },
    {
      "epoch": 0.5827916666666667,
      "grad_norm": 1.0083523988723755,
      "learning_rate": 0.00011221927771782354,
      "loss": 3.7332,
      "step": 279740
    },
    {
      "epoch": 0.5828125,
      "grad_norm": 1.1248780488967896,
      "learning_rate": 0.00011220973707804905,
      "loss": 3.6302,
      "step": 279750
    },
    {
      "epoch": 0.5828333333333333,
      "grad_norm": 0.9771270751953125,
      "learning_rate": 0.0001122001966015136,
      "loss": 3.8074,
      "step": 279760
    },
    {
      "epoch": 0.5828541666666667,
      "grad_norm": 0.9748005867004395,
      "learning_rate": 0.0001121906562882583,
      "loss": 4.0472,
      "step": 279770
    },
    {
      "epoch": 0.582875,
      "grad_norm": 1.0856945514678955,
      "learning_rate": 0.00011218111613832436,
      "loss": 3.9725,
      "step": 279780
    },
    {
      "epoch": 0.5828958333333333,
      "grad_norm": 0.976152241230011,
      "learning_rate": 0.0001121715761517531,
      "loss": 3.9816,
      "step": 279790
    },
    {
      "epoch": 0.5829166666666666,
      "grad_norm": 1.049273133277893,
      "learning_rate": 0.00011216203632858565,
      "loss": 3.8678,
      "step": 279800
    },
    {
      "epoch": 0.5829375,
      "grad_norm": 0.932920515537262,
      "learning_rate": 0.00011215249666886316,
      "loss": 3.9108,
      "step": 279810
    },
    {
      "epoch": 0.5829583333333334,
      "grad_norm": 1.0062936544418335,
      "learning_rate": 0.00011214295717262699,
      "loss": 3.8524,
      "step": 279820
    },
    {
      "epoch": 0.5829791666666667,
      "grad_norm": 0.9380495548248291,
      "learning_rate": 0.00011213341783991824,
      "loss": 3.8945,
      "step": 279830
    },
    {
      "epoch": 0.583,
      "grad_norm": 1.0345087051391602,
      "learning_rate": 0.00011212387867077809,
      "loss": 4.0112,
      "step": 279840
    },
    {
      "epoch": 0.5830208333333333,
      "grad_norm": 0.9861019849777222,
      "learning_rate": 0.00011211433966524782,
      "loss": 3.7998,
      "step": 279850
    },
    {
      "epoch": 0.5830416666666667,
      "grad_norm": 1.1007506847381592,
      "learning_rate": 0.00011210480082336863,
      "loss": 3.8636,
      "step": 279860
    },
    {
      "epoch": 0.5830625,
      "grad_norm": 1.1330491304397583,
      "learning_rate": 0.00011209526214518165,
      "loss": 3.8709,
      "step": 279870
    },
    {
      "epoch": 0.5830833333333333,
      "grad_norm": 0.9617494344711304,
      "learning_rate": 0.00011208572363072814,
      "loss": 3.822,
      "step": 279880
    },
    {
      "epoch": 0.5831041666666666,
      "grad_norm": 1.0355420112609863,
      "learning_rate": 0.00011207618528004935,
      "loss": 3.9225,
      "step": 279890
    },
    {
      "epoch": 0.583125,
      "grad_norm": 1.1468932628631592,
      "learning_rate": 0.00011206664709318637,
      "loss": 4.1223,
      "step": 279900
    },
    {
      "epoch": 0.5831458333333334,
      "grad_norm": 1.0003684759140015,
      "learning_rate": 0.00011205710907018047,
      "loss": 3.7655,
      "step": 279910
    },
    {
      "epoch": 0.5831666666666667,
      "grad_norm": 1.1067034006118774,
      "learning_rate": 0.0001120475712110729,
      "loss": 3.9573,
      "step": 279920
    },
    {
      "epoch": 0.5831875,
      "grad_norm": 0.9274147748947144,
      "learning_rate": 0.00011203803351590472,
      "loss": 3.7789,
      "step": 279930
    },
    {
      "epoch": 0.5832083333333333,
      "grad_norm": 0.9490503668785095,
      "learning_rate": 0.00011202849598471722,
      "loss": 3.8496,
      "step": 279940
    },
    {
      "epoch": 0.5832291666666667,
      "grad_norm": 1.0913265943527222,
      "learning_rate": 0.00011201895861755166,
      "loss": 3.854,
      "step": 279950
    },
    {
      "epoch": 0.58325,
      "grad_norm": 1.0499294996261597,
      "learning_rate": 0.00011200942141444908,
      "loss": 4.1142,
      "step": 279960
    },
    {
      "epoch": 0.5832708333333333,
      "grad_norm": 1.0270873308181763,
      "learning_rate": 0.00011199988437545081,
      "loss": 3.8601,
      "step": 279970
    },
    {
      "epoch": 0.5832916666666667,
      "grad_norm": 1.1116377115249634,
      "learning_rate": 0.00011199034750059799,
      "loss": 3.9228,
      "step": 279980
    },
    {
      "epoch": 0.5833125,
      "grad_norm": 1.091335654258728,
      "learning_rate": 0.00011198081078993177,
      "loss": 3.8458,
      "step": 279990
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 1.091752052307129,
      "learning_rate": 0.0001119712742434935,
      "loss": 3.8959,
      "step": 280000
    },
    {
      "epoch": 0.5833333333333334,
      "eval_loss": 3.5921950340270996,
      "eval_runtime": 6.9722,
      "eval_samples_per_second": 1.434,
      "eval_steps_per_second": 0.43,
      "step": 280000
    },
    {
      "epoch": 0.5833541666666666,
      "grad_norm": 0.9422931671142578,
      "learning_rate": 0.0001119617378613242,
      "loss": 4.0385,
      "step": 280010
    },
    {
      "epoch": 0.583375,
      "grad_norm": 1.8779010772705078,
      "learning_rate": 0.00011195220164346519,
      "loss": 3.8145,
      "step": 280020
    },
    {
      "epoch": 0.5833958333333333,
      "grad_norm": 0.9345822334289551,
      "learning_rate": 0.00011194266558995755,
      "loss": 4.0364,
      "step": 280030
    },
    {
      "epoch": 0.5834166666666667,
      "grad_norm": 0.9869153499603271,
      "learning_rate": 0.00011193312970084254,
      "loss": 3.9207,
      "step": 280040
    },
    {
      "epoch": 0.5834375,
      "grad_norm": 1.0129839181900024,
      "learning_rate": 0.00011192359397616139,
      "loss": 3.9334,
      "step": 280050
    },
    {
      "epoch": 0.5834583333333333,
      "grad_norm": 1.054904580116272,
      "learning_rate": 0.00011191405841595516,
      "loss": 3.9133,
      "step": 280060
    },
    {
      "epoch": 0.5834791666666667,
      "grad_norm": 1.0687215328216553,
      "learning_rate": 0.00011190452302026518,
      "loss": 3.8363,
      "step": 280070
    },
    {
      "epoch": 0.5835,
      "grad_norm": 1.1172285079956055,
      "learning_rate": 0.0001118949877891326,
      "loss": 3.9966,
      "step": 280080
    },
    {
      "epoch": 0.5835208333333334,
      "grad_norm": 1.1208349466323853,
      "learning_rate": 0.00011188545272259854,
      "loss": 3.7661,
      "step": 280090
    },
    {
      "epoch": 0.5835416666666666,
      "grad_norm": 0.9709280729293823,
      "learning_rate": 0.00011187591782070427,
      "loss": 3.8172,
      "step": 280100
    },
    {
      "epoch": 0.5835625,
      "grad_norm": 1.077296257019043,
      "learning_rate": 0.00011186638308349093,
      "loss": 3.9688,
      "step": 280110
    },
    {
      "epoch": 0.5835833333333333,
      "grad_norm": 1.0190067291259766,
      "learning_rate": 0.0001118568485109997,
      "loss": 3.8234,
      "step": 280120
    },
    {
      "epoch": 0.5836041666666667,
      "grad_norm": 1.062793493270874,
      "learning_rate": 0.00011184731410327184,
      "loss": 3.8293,
      "step": 280130
    },
    {
      "epoch": 0.583625,
      "grad_norm": 0.9578495025634766,
      "learning_rate": 0.00011183777986034844,
      "loss": 3.9231,
      "step": 280140
    },
    {
      "epoch": 0.5836458333333333,
      "grad_norm": 0.9528180360794067,
      "learning_rate": 0.0001118282457822707,
      "loss": 3.7802,
      "step": 280150
    },
    {
      "epoch": 0.5836666666666667,
      "grad_norm": 0.9690930247306824,
      "learning_rate": 0.0001118187118690799,
      "loss": 3.9615,
      "step": 280160
    },
    {
      "epoch": 0.5836875,
      "grad_norm": 0.9335328936576843,
      "learning_rate": 0.00011180917812081713,
      "loss": 4.2066,
      "step": 280170
    },
    {
      "epoch": 0.5837083333333334,
      "grad_norm": 0.9978783130645752,
      "learning_rate": 0.00011179964453752354,
      "loss": 4.0526,
      "step": 280180
    },
    {
      "epoch": 0.5837291666666666,
      "grad_norm": 3.120615005493164,
      "learning_rate": 0.00011179011111924042,
      "loss": 3.9503,
      "step": 280190
    },
    {
      "epoch": 0.58375,
      "grad_norm": 0.96509850025177,
      "learning_rate": 0.00011178057786600889,
      "loss": 3.8846,
      "step": 280200
    },
    {
      "epoch": 0.5837708333333333,
      "grad_norm": 1.137718677520752,
      "learning_rate": 0.00011177104477787009,
      "loss": 4.0087,
      "step": 280210
    },
    {
      "epoch": 0.5837916666666667,
      "grad_norm": 0.9880138039588928,
      "learning_rate": 0.0001117615118548653,
      "loss": 3.8191,
      "step": 280220
    },
    {
      "epoch": 0.5838125,
      "grad_norm": 0.9912580251693726,
      "learning_rate": 0.00011175197909703566,
      "loss": 3.7704,
      "step": 280230
    },
    {
      "epoch": 0.5838333333333333,
      "grad_norm": 1.2831969261169434,
      "learning_rate": 0.00011174244650442225,
      "loss": 3.7571,
      "step": 280240
    },
    {
      "epoch": 0.5838541666666667,
      "grad_norm": 1.4762918949127197,
      "learning_rate": 0.00011173291407706638,
      "loss": 3.8662,
      "step": 280250
    },
    {
      "epoch": 0.583875,
      "grad_norm": 0.9678294062614441,
      "learning_rate": 0.0001117233818150092,
      "loss": 3.8449,
      "step": 280260
    },
    {
      "epoch": 0.5838958333333333,
      "grad_norm": 0.9591191411018372,
      "learning_rate": 0.00011171384971829179,
      "loss": 3.9288,
      "step": 280270
    },
    {
      "epoch": 0.5839166666666666,
      "grad_norm": 1.0062803030014038,
      "learning_rate": 0.00011170431778695543,
      "loss": 3.8487,
      "step": 280280
    },
    {
      "epoch": 0.5839375,
      "grad_norm": 0.9905829429626465,
      "learning_rate": 0.00011169478602104128,
      "loss": 3.9171,
      "step": 280290
    },
    {
      "epoch": 0.5839583333333334,
      "grad_norm": 1.027522087097168,
      "learning_rate": 0.00011168525442059047,
      "loss": 3.9876,
      "step": 280300
    },
    {
      "epoch": 0.5839791666666667,
      "grad_norm": 0.9599480628967285,
      "learning_rate": 0.00011167572298564416,
      "loss": 3.9341,
      "step": 280310
    },
    {
      "epoch": 0.584,
      "grad_norm": 1.035691261291504,
      "learning_rate": 0.00011166619171624361,
      "loss": 3.7916,
      "step": 280320
    },
    {
      "epoch": 0.5840208333333333,
      "grad_norm": 1.3174288272857666,
      "learning_rate": 0.00011165666061242997,
      "loss": 3.8665,
      "step": 280330
    },
    {
      "epoch": 0.5840416666666667,
      "grad_norm": 1.0318677425384521,
      "learning_rate": 0.0001116471296742443,
      "loss": 4.0029,
      "step": 280340
    },
    {
      "epoch": 0.5840625,
      "grad_norm": 1.1075310707092285,
      "learning_rate": 0.00011163759890172788,
      "loss": 4.0303,
      "step": 280350
    },
    {
      "epoch": 0.5840833333333333,
      "grad_norm": 0.9577787518501282,
      "learning_rate": 0.00011162806829492185,
      "loss": 3.9237,
      "step": 280360
    },
    {
      "epoch": 0.5841041666666666,
      "grad_norm": 1.070155143737793,
      "learning_rate": 0.00011161853785386735,
      "loss": 3.9314,
      "step": 280370
    },
    {
      "epoch": 0.584125,
      "grad_norm": 1.0935693979263306,
      "learning_rate": 0.0001116090075786056,
      "loss": 4.0635,
      "step": 280380
    },
    {
      "epoch": 0.5841458333333334,
      "grad_norm": 1.1726444959640503,
      "learning_rate": 0.00011159947746917776,
      "loss": 3.6976,
      "step": 280390
    },
    {
      "epoch": 0.5841666666666666,
      "grad_norm": 1.1617546081542969,
      "learning_rate": 0.00011158994752562492,
      "loss": 4.0523,
      "step": 280400
    },
    {
      "epoch": 0.5841875,
      "grad_norm": 0.9551728367805481,
      "learning_rate": 0.00011158041774798833,
      "loss": 3.739,
      "step": 280410
    },
    {
      "epoch": 0.5842083333333333,
      "grad_norm": 0.9875085949897766,
      "learning_rate": 0.00011157088813630917,
      "loss": 3.779,
      "step": 280420
    },
    {
      "epoch": 0.5842291666666667,
      "grad_norm": 0.9477329850196838,
      "learning_rate": 0.0001115613586906285,
      "loss": 4.0125,
      "step": 280430
    },
    {
      "epoch": 0.58425,
      "grad_norm": 1.1441316604614258,
      "learning_rate": 0.00011155182941098755,
      "loss": 3.8222,
      "step": 280440
    },
    {
      "epoch": 0.5842708333333333,
      "grad_norm": 0.9097998142242432,
      "learning_rate": 0.00011154230029742753,
      "loss": 3.8664,
      "step": 280450
    },
    {
      "epoch": 0.5842916666666667,
      "grad_norm": 0.9605549573898315,
      "learning_rate": 0.00011153277134998949,
      "loss": 3.9363,
      "step": 280460
    },
    {
      "epoch": 0.5843125,
      "grad_norm": 0.9608067274093628,
      "learning_rate": 0.00011152324256871473,
      "loss": 3.9902,
      "step": 280470
    },
    {
      "epoch": 0.5843333333333334,
      "grad_norm": 1.037643313407898,
      "learning_rate": 0.00011151371395364428,
      "loss": 3.8497,
      "step": 280480
    },
    {
      "epoch": 0.5843541666666666,
      "grad_norm": 0.9983401298522949,
      "learning_rate": 0.00011150418550481932,
      "loss": 3.9411,
      "step": 280490
    },
    {
      "epoch": 0.584375,
      "grad_norm": 0.9673618674278259,
      "learning_rate": 0.00011149465722228111,
      "loss": 3.9416,
      "step": 280500
    },
    {
      "epoch": 0.5843958333333333,
      "grad_norm": 1.1404770612716675,
      "learning_rate": 0.0001114851291060707,
      "loss": 3.8955,
      "step": 280510
    },
    {
      "epoch": 0.5844166666666667,
      "grad_norm": 0.9341806173324585,
      "learning_rate": 0.00011147560115622926,
      "loss": 3.8953,
      "step": 280520
    },
    {
      "epoch": 0.5844375,
      "grad_norm": 1.0495103597640991,
      "learning_rate": 0.00011146607337279805,
      "loss": 3.7169,
      "step": 280530
    },
    {
      "epoch": 0.5844583333333333,
      "grad_norm": 1.153550386428833,
      "learning_rate": 0.00011145654575581809,
      "loss": 3.8716,
      "step": 280540
    },
    {
      "epoch": 0.5844791666666667,
      "grad_norm": 0.9548068046569824,
      "learning_rate": 0.00011144701830533058,
      "loss": 3.9102,
      "step": 280550
    },
    {
      "epoch": 0.5845,
      "grad_norm": 1.015535593032837,
      "learning_rate": 0.00011143749102137674,
      "loss": 3.8932,
      "step": 280560
    },
    {
      "epoch": 0.5845208333333334,
      "grad_norm": 1.223759412765503,
      "learning_rate": 0.00011142796390399768,
      "loss": 4.0194,
      "step": 280570
    },
    {
      "epoch": 0.5845416666666666,
      "grad_norm": 1.0644949674606323,
      "learning_rate": 0.0001114184369532345,
      "loss": 3.7462,
      "step": 280580
    },
    {
      "epoch": 0.5845625,
      "grad_norm": 0.9893379807472229,
      "learning_rate": 0.00011140891016912843,
      "loss": 3.8719,
      "step": 280590
    },
    {
      "epoch": 0.5845833333333333,
      "grad_norm": 0.9963347315788269,
      "learning_rate": 0.00011139938355172063,
      "loss": 3.8782,
      "step": 280600
    },
    {
      "epoch": 0.5846041666666667,
      "grad_norm": 1.0577712059020996,
      "learning_rate": 0.00011138985710105217,
      "loss": 3.897,
      "step": 280610
    },
    {
      "epoch": 0.584625,
      "grad_norm": 0.9602698683738708,
      "learning_rate": 0.00011138033081716421,
      "loss": 3.8698,
      "step": 280620
    },
    {
      "epoch": 0.5846458333333333,
      "grad_norm": 0.9465112686157227,
      "learning_rate": 0.000111370804700098,
      "loss": 3.7399,
      "step": 280630
    },
    {
      "epoch": 0.5846666666666667,
      "grad_norm": 1.0689479112625122,
      "learning_rate": 0.0001113612787498946,
      "loss": 3.8833,
      "step": 280640
    },
    {
      "epoch": 0.5846875,
      "grad_norm": 0.975968062877655,
      "learning_rate": 0.00011135175296659515,
      "loss": 4.1319,
      "step": 280650
    },
    {
      "epoch": 0.5847083333333334,
      "grad_norm": 1.1393177509307861,
      "learning_rate": 0.00011134222735024088,
      "loss": 3.9441,
      "step": 280660
    },
    {
      "epoch": 0.5847291666666666,
      "grad_norm": 1.0545070171356201,
      "learning_rate": 0.00011133270190087286,
      "loss": 3.8515,
      "step": 280670
    },
    {
      "epoch": 0.58475,
      "grad_norm": 1.1423494815826416,
      "learning_rate": 0.00011132317661853224,
      "loss": 3.884,
      "step": 280680
    },
    {
      "epoch": 0.5847708333333334,
      "grad_norm": 0.9802072644233704,
      "learning_rate": 0.00011131365150326023,
      "loss": 4.0832,
      "step": 280690
    },
    {
      "epoch": 0.5847916666666667,
      "grad_norm": 0.9797452092170715,
      "learning_rate": 0.00011130412655509792,
      "loss": 4.0763,
      "step": 280700
    },
    {
      "epoch": 0.5848125,
      "grad_norm": 1.0136138200759888,
      "learning_rate": 0.00011129460177408642,
      "loss": 3.8714,
      "step": 280710
    },
    {
      "epoch": 0.5848333333333333,
      "grad_norm": 1.1543999910354614,
      "learning_rate": 0.000111285077160267,
      "loss": 3.7079,
      "step": 280720
    },
    {
      "epoch": 0.5848541666666667,
      "grad_norm": 1.0823105573654175,
      "learning_rate": 0.00011127555271368071,
      "loss": 3.8479,
      "step": 280730
    },
    {
      "epoch": 0.584875,
      "grad_norm": 1.1624784469604492,
      "learning_rate": 0.00011126602843436864,
      "loss": 3.8139,
      "step": 280740
    },
    {
      "epoch": 0.5848958333333333,
      "grad_norm": 0.9804987907409668,
      "learning_rate": 0.00011125650432237204,
      "loss": 3.8626,
      "step": 280750
    },
    {
      "epoch": 0.5849166666666666,
      "grad_norm": 1.0976073741912842,
      "learning_rate": 0.00011124698037773202,
      "loss": 4.0173,
      "step": 280760
    },
    {
      "epoch": 0.5849375,
      "grad_norm": 0.9725854992866516,
      "learning_rate": 0.00011123745660048964,
      "loss": 3.8732,
      "step": 280770
    },
    {
      "epoch": 0.5849583333333334,
      "grad_norm": 0.9464955925941467,
      "learning_rate": 0.00011122793299068616,
      "loss": 3.8494,
      "step": 280780
    },
    {
      "epoch": 0.5849791666666667,
      "grad_norm": 1.0870189666748047,
      "learning_rate": 0.00011121840954836268,
      "loss": 3.9894,
      "step": 280790
    },
    {
      "epoch": 0.585,
      "grad_norm": 0.9611169099807739,
      "learning_rate": 0.00011120888627356025,
      "loss": 3.8882,
      "step": 280800
    },
    {
      "epoch": 0.5850208333333333,
      "grad_norm": 1.0000624656677246,
      "learning_rate": 0.00011119936316632011,
      "loss": 3.956,
      "step": 280810
    },
    {
      "epoch": 0.5850416666666667,
      "grad_norm": 1.0035836696624756,
      "learning_rate": 0.00011118984022668339,
      "loss": 4.0157,
      "step": 280820
    },
    {
      "epoch": 0.5850625,
      "grad_norm": 0.9542850255966187,
      "learning_rate": 0.00011118031745469116,
      "loss": 3.9628,
      "step": 280830
    },
    {
      "epoch": 0.5850833333333333,
      "grad_norm": 0.9502795934677124,
      "learning_rate": 0.00011117079485038463,
      "loss": 3.9427,
      "step": 280840
    },
    {
      "epoch": 0.5851041666666666,
      "grad_norm": 0.9680947661399841,
      "learning_rate": 0.00011116127241380488,
      "loss": 3.9292,
      "step": 280850
    },
    {
      "epoch": 0.585125,
      "grad_norm": 0.9653730392456055,
      "learning_rate": 0.00011115175014499302,
      "loss": 3.736,
      "step": 280860
    },
    {
      "epoch": 0.5851458333333334,
      "grad_norm": 1.0866941213607788,
      "learning_rate": 0.00011114222804399028,
      "loss": 3.8927,
      "step": 280870
    },
    {
      "epoch": 0.5851666666666666,
      "grad_norm": 1.0753284692764282,
      "learning_rate": 0.00011113270611083772,
      "loss": 3.9712,
      "step": 280880
    },
    {
      "epoch": 0.5851875,
      "grad_norm": 1.0000375509262085,
      "learning_rate": 0.0001111231843455765,
      "loss": 3.8111,
      "step": 280890
    },
    {
      "epoch": 0.5852083333333333,
      "grad_norm": 1.0039514303207397,
      "learning_rate": 0.00011111366274824768,
      "loss": 3.7581,
      "step": 280900
    },
    {
      "epoch": 0.5852291666666667,
      "grad_norm": 0.9999210834503174,
      "learning_rate": 0.00011110414131889247,
      "loss": 3.7847,
      "step": 280910
    },
    {
      "epoch": 0.58525,
      "grad_norm": 1.2914254665374756,
      "learning_rate": 0.000111094620057552,
      "loss": 4.0214,
      "step": 280920
    },
    {
      "epoch": 0.5852708333333333,
      "grad_norm": 0.988480269908905,
      "learning_rate": 0.00011108509896426732,
      "loss": 3.923,
      "step": 280930
    },
    {
      "epoch": 0.5852916666666667,
      "grad_norm": 1.05891752243042,
      "learning_rate": 0.00011107557803907964,
      "loss": 3.8493,
      "step": 280940
    },
    {
      "epoch": 0.5853125,
      "grad_norm": 0.9223060607910156,
      "learning_rate": 0.00011106605728203011,
      "loss": 4.0096,
      "step": 280950
    },
    {
      "epoch": 0.5853333333333334,
      "grad_norm": 0.9989555478096008,
      "learning_rate": 0.0001110565366931597,
      "loss": 4.0769,
      "step": 280960
    },
    {
      "epoch": 0.5853541666666666,
      "grad_norm": 1.080656886100769,
      "learning_rate": 0.00011104701627250972,
      "loss": 3.9476,
      "step": 280970
    },
    {
      "epoch": 0.585375,
      "grad_norm": 1.1771982908248901,
      "learning_rate": 0.00011103749602012118,
      "loss": 4.075,
      "step": 280980
    },
    {
      "epoch": 0.5853958333333333,
      "grad_norm": 1.0989370346069336,
      "learning_rate": 0.00011102797593603518,
      "loss": 3.9834,
      "step": 280990
    },
    {
      "epoch": 0.5854166666666667,
      "grad_norm": 0.9937901496887207,
      "learning_rate": 0.00011101845602029298,
      "loss": 3.8879,
      "step": 281000
    },
    {
      "epoch": 0.5854166666666667,
      "eval_loss": 3.591557264328003,
      "eval_runtime": 7.5796,
      "eval_samples_per_second": 1.319,
      "eval_steps_per_second": 0.396,
      "step": 281000
    },
    {
      "epoch": 0.5854375,
      "grad_norm": 1.0335687398910522,
      "learning_rate": 0.00011100893627293558,
      "loss": 3.9894,
      "step": 281010
    },
    {
      "epoch": 0.5854583333333333,
      "grad_norm": 1.022838830947876,
      "learning_rate": 0.00011099941669400412,
      "loss": 4.0287,
      "step": 281020
    },
    {
      "epoch": 0.5854791666666667,
      "grad_norm": 0.9520145058631897,
      "learning_rate": 0.00011098989728353982,
      "loss": 3.964,
      "step": 281030
    },
    {
      "epoch": 0.5855,
      "grad_norm": 0.9966705441474915,
      "learning_rate": 0.00011098037804158366,
      "loss": 4.0567,
      "step": 281040
    },
    {
      "epoch": 0.5855208333333334,
      "grad_norm": 0.9948376417160034,
      "learning_rate": 0.00011097085896817681,
      "loss": 3.9322,
      "step": 281050
    },
    {
      "epoch": 0.5855416666666666,
      "grad_norm": 1.0639110803604126,
      "learning_rate": 0.00011096134006336044,
      "loss": 3.8361,
      "step": 281060
    },
    {
      "epoch": 0.5855625,
      "grad_norm": 0.997643768787384,
      "learning_rate": 0.00011095182132717563,
      "loss": 3.8947,
      "step": 281070
    },
    {
      "epoch": 0.5855833333333333,
      "grad_norm": 1.0586503744125366,
      "learning_rate": 0.00011094230275966345,
      "loss": 3.9211,
      "step": 281080
    },
    {
      "epoch": 0.5856041666666667,
      "grad_norm": 0.9588018655776978,
      "learning_rate": 0.0001109327843608651,
      "loss": 3.9154,
      "step": 281090
    },
    {
      "epoch": 0.585625,
      "grad_norm": 1.070083737373352,
      "learning_rate": 0.0001109232661308217,
      "loss": 3.8657,
      "step": 281100
    },
    {
      "epoch": 0.5856458333333333,
      "grad_norm": 0.9699487090110779,
      "learning_rate": 0.00011091374806957424,
      "loss": 4.0671,
      "step": 281110
    },
    {
      "epoch": 0.5856666666666667,
      "grad_norm": 1.0087240934371948,
      "learning_rate": 0.00011090423017716394,
      "loss": 3.9176,
      "step": 281120
    },
    {
      "epoch": 0.5856875,
      "grad_norm": 0.9658814668655396,
      "learning_rate": 0.00011089471245363192,
      "loss": 3.9916,
      "step": 281130
    },
    {
      "epoch": 0.5857083333333334,
      "grad_norm": 1.054469108581543,
      "learning_rate": 0.00011088519489901923,
      "loss": 3.9659,
      "step": 281140
    },
    {
      "epoch": 0.5857291666666666,
      "grad_norm": 1.0023823976516724,
      "learning_rate": 0.00011087567751336701,
      "loss": 3.8489,
      "step": 281150
    },
    {
      "epoch": 0.58575,
      "grad_norm": 0.9941084384918213,
      "learning_rate": 0.00011086616029671643,
      "loss": 3.931,
      "step": 281160
    },
    {
      "epoch": 0.5857708333333334,
      "grad_norm": 0.9875471591949463,
      "learning_rate": 0.00011085664324910848,
      "loss": 3.8617,
      "step": 281170
    },
    {
      "epoch": 0.5857916666666667,
      "grad_norm": 0.8900670409202576,
      "learning_rate": 0.00011084712637058437,
      "loss": 3.6565,
      "step": 281180
    },
    {
      "epoch": 0.5858125,
      "grad_norm": 0.96535724401474,
      "learning_rate": 0.00011083760966118519,
      "loss": 3.8391,
      "step": 281190
    },
    {
      "epoch": 0.5858333333333333,
      "grad_norm": 1.0272061824798584,
      "learning_rate": 0.00011082809312095203,
      "loss": 4.0,
      "step": 281200
    },
    {
      "epoch": 0.5858541666666667,
      "grad_norm": 1.1263841390609741,
      "learning_rate": 0.00011081857674992594,
      "loss": 4.0258,
      "step": 281210
    },
    {
      "epoch": 0.585875,
      "grad_norm": 0.9533004760742188,
      "learning_rate": 0.0001108090605481482,
      "loss": 3.9445,
      "step": 281220
    },
    {
      "epoch": 0.5858958333333333,
      "grad_norm": 0.9954533576965332,
      "learning_rate": 0.00011079954451565977,
      "loss": 3.7386,
      "step": 281230
    },
    {
      "epoch": 0.5859166666666666,
      "grad_norm": 1.0007907152175903,
      "learning_rate": 0.00011079002865250173,
      "loss": 4.0624,
      "step": 281240
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 1.0214217901229858,
      "learning_rate": 0.00011078051295871528,
      "loss": 3.7596,
      "step": 281250
    },
    {
      "epoch": 0.5859583333333334,
      "grad_norm": 0.9657313823699951,
      "learning_rate": 0.00011077099743434154,
      "loss": 3.9377,
      "step": 281260
    },
    {
      "epoch": 0.5859791666666667,
      "grad_norm": 0.9889074563980103,
      "learning_rate": 0.00011076148207942147,
      "loss": 3.7617,
      "step": 281270
    },
    {
      "epoch": 0.586,
      "grad_norm": 0.9980140924453735,
      "learning_rate": 0.00011075196689399633,
      "loss": 3.9932,
      "step": 281280
    },
    {
      "epoch": 0.5860208333333333,
      "grad_norm": 0.9479449391365051,
      "learning_rate": 0.00011074245187810716,
      "loss": 3.9479,
      "step": 281290
    },
    {
      "epoch": 0.5860416666666667,
      "grad_norm": 1.3389540910720825,
      "learning_rate": 0.00011073293703179501,
      "loss": 3.9834,
      "step": 281300
    },
    {
      "epoch": 0.5860625,
      "grad_norm": 1.0441932678222656,
      "learning_rate": 0.00011072342235510105,
      "loss": 3.908,
      "step": 281310
    },
    {
      "epoch": 0.5860833333333333,
      "grad_norm": 0.9741165637969971,
      "learning_rate": 0.0001107139078480664,
      "loss": 3.8365,
      "step": 281320
    },
    {
      "epoch": 0.5861041666666666,
      "grad_norm": 0.9362144470214844,
      "learning_rate": 0.00011070439351073205,
      "loss": 3.9052,
      "step": 281330
    },
    {
      "epoch": 0.586125,
      "grad_norm": 1.378708839416504,
      "learning_rate": 0.00011069487934313922,
      "loss": 3.889,
      "step": 281340
    },
    {
      "epoch": 0.5861458333333334,
      "grad_norm": 0.9949578642845154,
      "learning_rate": 0.00011068536534532894,
      "loss": 3.7799,
      "step": 281350
    },
    {
      "epoch": 0.5861666666666666,
      "grad_norm": 0.9751739501953125,
      "learning_rate": 0.00011067585151734228,
      "loss": 3.973,
      "step": 281360
    },
    {
      "epoch": 0.5861875,
      "grad_norm": 1.0378570556640625,
      "learning_rate": 0.00011066633785922043,
      "loss": 3.8078,
      "step": 281370
    },
    {
      "epoch": 0.5862083333333333,
      "grad_norm": 0.9988677501678467,
      "learning_rate": 0.00011065682437100442,
      "loss": 3.9963,
      "step": 281380
    },
    {
      "epoch": 0.5862291666666667,
      "grad_norm": 1.0121359825134277,
      "learning_rate": 0.00011064731105273531,
      "loss": 3.9239,
      "step": 281390
    },
    {
      "epoch": 0.58625,
      "grad_norm": 0.9520464539527893,
      "learning_rate": 0.00011063779790445432,
      "loss": 3.8767,
      "step": 281400
    },
    {
      "epoch": 0.5862708333333333,
      "grad_norm": 1.0454679727554321,
      "learning_rate": 0.00011062828492620241,
      "loss": 3.8783,
      "step": 281410
    },
    {
      "epoch": 0.5862916666666667,
      "grad_norm": 1.050595998764038,
      "learning_rate": 0.0001106187721180207,
      "loss": 3.8397,
      "step": 281420
    },
    {
      "epoch": 0.5863125,
      "grad_norm": 1.0532008409500122,
      "learning_rate": 0.00011060925947995035,
      "loss": 3.9019,
      "step": 281430
    },
    {
      "epoch": 0.5863333333333334,
      "grad_norm": 1.0167381763458252,
      "learning_rate": 0.00011059974701203241,
      "loss": 3.8048,
      "step": 281440
    },
    {
      "epoch": 0.5863541666666666,
      "grad_norm": 1.0400692224502563,
      "learning_rate": 0.00011059023471430792,
      "loss": 3.9236,
      "step": 281450
    },
    {
      "epoch": 0.586375,
      "grad_norm": 1.0106141567230225,
      "learning_rate": 0.00011058072258681809,
      "loss": 3.7727,
      "step": 281460
    },
    {
      "epoch": 0.5863958333333333,
      "grad_norm": 1.2061609029769897,
      "learning_rate": 0.0001105712106296039,
      "loss": 3.7707,
      "step": 281470
    },
    {
      "epoch": 0.5864166666666667,
      "grad_norm": 1.0794777870178223,
      "learning_rate": 0.00011056169884270648,
      "loss": 4.0505,
      "step": 281480
    },
    {
      "epoch": 0.5864375,
      "grad_norm": 1.1061936616897583,
      "learning_rate": 0.00011055218722616686,
      "loss": 3.8686,
      "step": 281490
    },
    {
      "epoch": 0.5864583333333333,
      "grad_norm": 1.2812108993530273,
      "learning_rate": 0.00011054267578002626,
      "loss": 3.9033,
      "step": 281500
    },
    {
      "epoch": 0.5864791666666667,
      "grad_norm": 1.0463511943817139,
      "learning_rate": 0.00011053316450432563,
      "loss": 4.0343,
      "step": 281510
    },
    {
      "epoch": 0.5865,
      "grad_norm": 1.1096858978271484,
      "learning_rate": 0.00011052365339910609,
      "loss": 3.8973,
      "step": 281520
    },
    {
      "epoch": 0.5865208333333334,
      "grad_norm": 1.0308552980422974,
      "learning_rate": 0.00011051414246440878,
      "loss": 3.9376,
      "step": 281530
    },
    {
      "epoch": 0.5865416666666666,
      "grad_norm": 0.9899724721908569,
      "learning_rate": 0.00011050463170027473,
      "loss": 3.9821,
      "step": 281540
    },
    {
      "epoch": 0.5865625,
      "grad_norm": 1.0498008728027344,
      "learning_rate": 0.00011049512110674501,
      "loss": 3.9959,
      "step": 281550
    },
    {
      "epoch": 0.5865833333333333,
      "grad_norm": 1.0352121591567993,
      "learning_rate": 0.00011048561068386079,
      "loss": 3.9363,
      "step": 281560
    },
    {
      "epoch": 0.5866041666666667,
      "grad_norm": 1.0241440534591675,
      "learning_rate": 0.00011047610043166306,
      "loss": 4.0934,
      "step": 281570
    },
    {
      "epoch": 0.586625,
      "grad_norm": 0.9482929110527039,
      "learning_rate": 0.00011046659035019288,
      "loss": 3.8372,
      "step": 281580
    },
    {
      "epoch": 0.5866458333333333,
      "grad_norm": 0.9834731817245483,
      "learning_rate": 0.00011045708043949147,
      "loss": 3.9524,
      "step": 281590
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.9613622426986694,
      "learning_rate": 0.00011044757069959981,
      "loss": 3.899,
      "step": 281600
    },
    {
      "epoch": 0.5866875,
      "grad_norm": 1.1011394262313843,
      "learning_rate": 0.00011043806113055894,
      "loss": 3.8384,
      "step": 281610
    },
    {
      "epoch": 0.5867083333333334,
      "grad_norm": 1.118261456489563,
      "learning_rate": 0.00011042855173241,
      "loss": 3.9594,
      "step": 281620
    },
    {
      "epoch": 0.5867291666666666,
      "grad_norm": 1.0412801504135132,
      "learning_rate": 0.0001104190425051941,
      "loss": 3.8503,
      "step": 281630
    },
    {
      "epoch": 0.58675,
      "grad_norm": 0.9909634590148926,
      "learning_rate": 0.00011040953344895219,
      "loss": 3.7384,
      "step": 281640
    },
    {
      "epoch": 0.5867708333333334,
      "grad_norm": 1.0259603261947632,
      "learning_rate": 0.00011040002456372546,
      "loss": 3.9585,
      "step": 281650
    },
    {
      "epoch": 0.5867916666666667,
      "grad_norm": 0.9162296056747437,
      "learning_rate": 0.000110390515849555,
      "loss": 3.7912,
      "step": 281660
    },
    {
      "epoch": 0.5868125,
      "grad_norm": 1.1883009672164917,
      "learning_rate": 0.00011038100730648174,
      "loss": 3.8584,
      "step": 281670
    },
    {
      "epoch": 0.5868333333333333,
      "grad_norm": 0.9705556631088257,
      "learning_rate": 0.00011037149893454688,
      "loss": 3.8022,
      "step": 281680
    },
    {
      "epoch": 0.5868541666666667,
      "grad_norm": 0.9838764667510986,
      "learning_rate": 0.00011036199073379151,
      "loss": 3.8908,
      "step": 281690
    },
    {
      "epoch": 0.586875,
      "grad_norm": 1.020813226699829,
      "learning_rate": 0.00011035248270425657,
      "loss": 3.8488,
      "step": 281700
    },
    {
      "epoch": 0.5868958333333333,
      "grad_norm": 1.077768087387085,
      "learning_rate": 0.00011034297484598324,
      "loss": 3.7947,
      "step": 281710
    },
    {
      "epoch": 0.5869166666666666,
      "grad_norm": 1.0227683782577515,
      "learning_rate": 0.00011033346715901262,
      "loss": 3.7497,
      "step": 281720
    },
    {
      "epoch": 0.5869375,
      "grad_norm": 1.007695198059082,
      "learning_rate": 0.00011032395964338564,
      "loss": 3.9175,
      "step": 281730
    },
    {
      "epoch": 0.5869583333333334,
      "grad_norm": 0.9787932634353638,
      "learning_rate": 0.0001103144522991435,
      "loss": 3.7842,
      "step": 281740
    },
    {
      "epoch": 0.5869791666666667,
      "grad_norm": 1.056963324546814,
      "learning_rate": 0.00011030494512632722,
      "loss": 3.8618,
      "step": 281750
    },
    {
      "epoch": 0.587,
      "grad_norm": 1.059556007385254,
      "learning_rate": 0.0001102954381249778,
      "loss": 3.9232,
      "step": 281760
    },
    {
      "epoch": 0.5870208333333333,
      "grad_norm": 1.01025390625,
      "learning_rate": 0.00011028593129513646,
      "loss": 3.8186,
      "step": 281770
    },
    {
      "epoch": 0.5870416666666667,
      "grad_norm": 1.0017521381378174,
      "learning_rate": 0.00011027642463684413,
      "loss": 3.9221,
      "step": 281780
    },
    {
      "epoch": 0.5870625,
      "grad_norm": 1.0074474811553955,
      "learning_rate": 0.00011026691815014195,
      "loss": 3.8849,
      "step": 281790
    },
    {
      "epoch": 0.5870833333333333,
      "grad_norm": 0.9829772114753723,
      "learning_rate": 0.0001102574118350709,
      "loss": 4.0089,
      "step": 281800
    },
    {
      "epoch": 0.5871041666666666,
      "grad_norm": 0.9669274091720581,
      "learning_rate": 0.00011024790569167215,
      "loss": 3.9848,
      "step": 281810
    },
    {
      "epoch": 0.587125,
      "grad_norm": 0.9114148616790771,
      "learning_rate": 0.00011023839971998671,
      "loss": 3.9104,
      "step": 281820
    },
    {
      "epoch": 0.5871458333333334,
      "grad_norm": 0.9972763657569885,
      "learning_rate": 0.00011022889392005559,
      "loss": 4.0667,
      "step": 281830
    },
    {
      "epoch": 0.5871666666666666,
      "grad_norm": 0.9964079260826111,
      "learning_rate": 0.00011021938829191999,
      "loss": 3.9953,
      "step": 281840
    },
    {
      "epoch": 0.5871875,
      "grad_norm": 0.8969691395759583,
      "learning_rate": 0.00011020988283562083,
      "loss": 4.0128,
      "step": 281850
    },
    {
      "epoch": 0.5872083333333333,
      "grad_norm": 0.9559429883956909,
      "learning_rate": 0.0001102003775511992,
      "loss": 3.817,
      "step": 281860
    },
    {
      "epoch": 0.5872291666666667,
      "grad_norm": 1.0175526142120361,
      "learning_rate": 0.00011019087243869625,
      "loss": 3.8545,
      "step": 281870
    },
    {
      "epoch": 0.58725,
      "grad_norm": 0.9948137998580933,
      "learning_rate": 0.00011018136749815294,
      "loss": 3.9903,
      "step": 281880
    },
    {
      "epoch": 0.5872708333333333,
      "grad_norm": 1.0248608589172363,
      "learning_rate": 0.00011017186272961034,
      "loss": 3.8788,
      "step": 281890
    },
    {
      "epoch": 0.5872916666666667,
      "grad_norm": 1.0686604976654053,
      "learning_rate": 0.0001101623581331096,
      "loss": 3.9584,
      "step": 281900
    },
    {
      "epoch": 0.5873125,
      "grad_norm": 1.0360441207885742,
      "learning_rate": 0.00011015285370869164,
      "loss": 3.8847,
      "step": 281910
    },
    {
      "epoch": 0.5873333333333334,
      "grad_norm": 1.0157660245895386,
      "learning_rate": 0.00011014334945639755,
      "loss": 3.8862,
      "step": 281920
    },
    {
      "epoch": 0.5873541666666666,
      "grad_norm": 1.105054259300232,
      "learning_rate": 0.00011013384537626851,
      "loss": 3.8035,
      "step": 281930
    },
    {
      "epoch": 0.587375,
      "grad_norm": 1.0871942043304443,
      "learning_rate": 0.00011012434146834543,
      "loss": 3.8374,
      "step": 281940
    },
    {
      "epoch": 0.5873958333333333,
      "grad_norm": 1.0642449855804443,
      "learning_rate": 0.00011011483773266938,
      "loss": 3.8779,
      "step": 281950
    },
    {
      "epoch": 0.5874166666666667,
      "grad_norm": 1.0082156658172607,
      "learning_rate": 0.0001101053341692815,
      "loss": 3.9515,
      "step": 281960
    },
    {
      "epoch": 0.5874375,
      "grad_norm": 0.9753262996673584,
      "learning_rate": 0.00011009583077822278,
      "loss": 3.8399,
      "step": 281970
    },
    {
      "epoch": 0.5874583333333333,
      "grad_norm": 1.1415575742721558,
      "learning_rate": 0.00011008632755953423,
      "loss": 3.7571,
      "step": 281980
    },
    {
      "epoch": 0.5874791666666667,
      "grad_norm": 0.9718443155288696,
      "learning_rate": 0.00011007682451325697,
      "loss": 3.9194,
      "step": 281990
    },
    {
      "epoch": 0.5875,
      "grad_norm": 1.0143359899520874,
      "learning_rate": 0.00011006732163943206,
      "loss": 3.8912,
      "step": 282000
    },
    {
      "epoch": 0.5875,
      "eval_loss": 3.583310604095459,
      "eval_runtime": 7.7283,
      "eval_samples_per_second": 1.294,
      "eval_steps_per_second": 0.388,
      "step": 282000
    },
    {
      "epoch": 0.5875208333333334,
      "grad_norm": 1.0487204790115356,
      "learning_rate": 0.00011005781893810045,
      "loss": 4.0284,
      "step": 282010
    },
    {
      "epoch": 0.5875416666666666,
      "grad_norm": 1.1929831504821777,
      "learning_rate": 0.00011004831640930327,
      "loss": 3.9797,
      "step": 282020
    },
    {
      "epoch": 0.5875625,
      "grad_norm": 1.0485563278198242,
      "learning_rate": 0.0001100388140530816,
      "loss": 3.8639,
      "step": 282030
    },
    {
      "epoch": 0.5875833333333333,
      "grad_norm": 1.1455405950546265,
      "learning_rate": 0.00011002931186947637,
      "loss": 3.8524,
      "step": 282040
    },
    {
      "epoch": 0.5876041666666667,
      "grad_norm": 0.9717649817466736,
      "learning_rate": 0.0001100198098585287,
      "loss": 3.8833,
      "step": 282050
    },
    {
      "epoch": 0.587625,
      "grad_norm": 1.0375864505767822,
      "learning_rate": 0.00011001030802027968,
      "loss": 3.9886,
      "step": 282060
    },
    {
      "epoch": 0.5876458333333333,
      "grad_norm": 1.0522487163543701,
      "learning_rate": 0.00011000080635477026,
      "loss": 3.8162,
      "step": 282070
    },
    {
      "epoch": 0.5876666666666667,
      "grad_norm": 1.098244071006775,
      "learning_rate": 0.0001099913048620415,
      "loss": 3.9587,
      "step": 282080
    },
    {
      "epoch": 0.5876875,
      "grad_norm": 1.150646686553955,
      "learning_rate": 0.00010998180354213453,
      "loss": 3.9134,
      "step": 282090
    },
    {
      "epoch": 0.5877083333333334,
      "grad_norm": 1.1025993824005127,
      "learning_rate": 0.00010997230239509032,
      "loss": 3.8686,
      "step": 282100
    },
    {
      "epoch": 0.5877291666666666,
      "grad_norm": 1.095869779586792,
      "learning_rate": 0.00010996280142094986,
      "loss": 4.0845,
      "step": 282110
    },
    {
      "epoch": 0.58775,
      "grad_norm": 0.9237743616104126,
      "learning_rate": 0.00010995330061975428,
      "loss": 3.8033,
      "step": 282120
    },
    {
      "epoch": 0.5877708333333334,
      "grad_norm": 0.9284980893135071,
      "learning_rate": 0.00010994379999154464,
      "loss": 3.9177,
      "step": 282130
    },
    {
      "epoch": 0.5877916666666667,
      "grad_norm": 1.0326482057571411,
      "learning_rate": 0.00010993429953636183,
      "loss": 3.8194,
      "step": 282140
    },
    {
      "epoch": 0.5878125,
      "grad_norm": 1.0575892925262451,
      "learning_rate": 0.00010992479925424704,
      "loss": 3.9095,
      "step": 282150
    },
    {
      "epoch": 0.5878333333333333,
      "grad_norm": 0.9672601222991943,
      "learning_rate": 0.00010991529914524129,
      "loss": 4.1854,
      "step": 282160
    },
    {
      "epoch": 0.5878541666666667,
      "grad_norm": 1.1080222129821777,
      "learning_rate": 0.00010990579920938549,
      "loss": 3.9445,
      "step": 282170
    },
    {
      "epoch": 0.587875,
      "grad_norm": 0.9728816747665405,
      "learning_rate": 0.00010989629944672083,
      "loss": 3.8821,
      "step": 282180
    },
    {
      "epoch": 0.5878958333333333,
      "grad_norm": 1.0169326066970825,
      "learning_rate": 0.00010988679985728831,
      "loss": 3.9989,
      "step": 282190
    },
    {
      "epoch": 0.5879166666666666,
      "grad_norm": 0.9695345759391785,
      "learning_rate": 0.00010987730044112886,
      "loss": 3.5389,
      "step": 282200
    },
    {
      "epoch": 0.5879375,
      "grad_norm": 1.0660244226455688,
      "learning_rate": 0.00010986780119828363,
      "loss": 3.6948,
      "step": 282210
    },
    {
      "epoch": 0.5879583333333334,
      "grad_norm": 1.1053458452224731,
      "learning_rate": 0.00010985830212879365,
      "loss": 3.8331,
      "step": 282220
    },
    {
      "epoch": 0.5879791666666667,
      "grad_norm": 0.956355631351471,
      "learning_rate": 0.00010984880323269984,
      "loss": 4.0216,
      "step": 282230
    },
    {
      "epoch": 0.588,
      "grad_norm": 1.008219599723816,
      "learning_rate": 0.00010983930451004338,
      "loss": 3.8126,
      "step": 282240
    },
    {
      "epoch": 0.5880208333333333,
      "grad_norm": 0.9789657592773438,
      "learning_rate": 0.0001098298059608652,
      "loss": 3.8262,
      "step": 282250
    },
    {
      "epoch": 0.5880416666666667,
      "grad_norm": 1.161998987197876,
      "learning_rate": 0.0001098203075852063,
      "loss": 4.0478,
      "step": 282260
    },
    {
      "epoch": 0.5880625,
      "grad_norm": 1.0431801080703735,
      "learning_rate": 0.00010981080938310785,
      "loss": 3.8643,
      "step": 282270
    },
    {
      "epoch": 0.5880833333333333,
      "grad_norm": 1.026142954826355,
      "learning_rate": 0.00010980131135461077,
      "loss": 3.8764,
      "step": 282280
    },
    {
      "epoch": 0.5881041666666667,
      "grad_norm": 1.0380851030349731,
      "learning_rate": 0.00010979181349975608,
      "loss": 3.7549,
      "step": 282290
    },
    {
      "epoch": 0.588125,
      "grad_norm": 1.2046512365341187,
      "learning_rate": 0.0001097823158185849,
      "loss": 3.7637,
      "step": 282300
    },
    {
      "epoch": 0.5881458333333334,
      "grad_norm": 1.0206854343414307,
      "learning_rate": 0.00010977281831113815,
      "loss": 3.9997,
      "step": 282310
    },
    {
      "epoch": 0.5881666666666666,
      "grad_norm": 1.1914088726043701,
      "learning_rate": 0.00010976332097745689,
      "loss": 3.9414,
      "step": 282320
    },
    {
      "epoch": 0.5881875,
      "grad_norm": 1.0561233758926392,
      "learning_rate": 0.0001097538238175822,
      "loss": 4.0028,
      "step": 282330
    },
    {
      "epoch": 0.5882083333333333,
      "grad_norm": 0.9063620567321777,
      "learning_rate": 0.00010974432683155508,
      "loss": 3.9267,
      "step": 282340
    },
    {
      "epoch": 0.5882291666666667,
      "grad_norm": 0.9765234589576721,
      "learning_rate": 0.00010973483001941647,
      "loss": 3.7314,
      "step": 282350
    },
    {
      "epoch": 0.58825,
      "grad_norm": 1.1086499691009521,
      "learning_rate": 0.00010972533338120747,
      "loss": 3.8189,
      "step": 282360
    },
    {
      "epoch": 0.5882708333333333,
      "grad_norm": 1.1412144899368286,
      "learning_rate": 0.00010971583691696915,
      "loss": 3.9031,
      "step": 282370
    },
    {
      "epoch": 0.5882916666666667,
      "grad_norm": 1.1722664833068848,
      "learning_rate": 0.00010970634062674241,
      "loss": 3.7399,
      "step": 282380
    },
    {
      "epoch": 0.5883125,
      "grad_norm": 1.0461622476577759,
      "learning_rate": 0.00010969684451056832,
      "loss": 3.777,
      "step": 282390
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 0.9908525943756104,
      "learning_rate": 0.00010968734856848795,
      "loss": 3.8233,
      "step": 282400
    },
    {
      "epoch": 0.5883541666666666,
      "grad_norm": 1.0594162940979004,
      "learning_rate": 0.00010967785280054225,
      "loss": 3.7159,
      "step": 282410
    },
    {
      "epoch": 0.588375,
      "grad_norm": 1.1809890270233154,
      "learning_rate": 0.00010966835720677224,
      "loss": 3.8187,
      "step": 282420
    },
    {
      "epoch": 0.5883958333333333,
      "grad_norm": 0.9844205379486084,
      "learning_rate": 0.000109658861787219,
      "loss": 4.083,
      "step": 282430
    },
    {
      "epoch": 0.5884166666666667,
      "grad_norm": 1.0604641437530518,
      "learning_rate": 0.00010964936654192352,
      "loss": 3.9482,
      "step": 282440
    },
    {
      "epoch": 0.5884375,
      "grad_norm": 0.9524160623550415,
      "learning_rate": 0.00010963987147092675,
      "loss": 3.786,
      "step": 282450
    },
    {
      "epoch": 0.5884583333333333,
      "grad_norm": 0.9867530465126038,
      "learning_rate": 0.00010963037657426982,
      "loss": 3.9883,
      "step": 282460
    },
    {
      "epoch": 0.5884791666666667,
      "grad_norm": 0.9464183449745178,
      "learning_rate": 0.0001096208818519937,
      "loss": 3.895,
      "step": 282470
    },
    {
      "epoch": 0.5885,
      "grad_norm": 1.0600379705429077,
      "learning_rate": 0.00010961138730413931,
      "loss": 3.9566,
      "step": 282480
    },
    {
      "epoch": 0.5885208333333334,
      "grad_norm": 1.0022969245910645,
      "learning_rate": 0.00010960189293074777,
      "loss": 3.8241,
      "step": 282490
    },
    {
      "epoch": 0.5885416666666666,
      "grad_norm": 0.9356725215911865,
      "learning_rate": 0.0001095923987318601,
      "loss": 3.6393,
      "step": 282500
    },
    {
      "epoch": 0.5885625,
      "grad_norm": 1.1881818771362305,
      "learning_rate": 0.00010958290470751723,
      "loss": 3.794,
      "step": 282510
    },
    {
      "epoch": 0.5885833333333333,
      "grad_norm": 0.9799115061759949,
      "learning_rate": 0.00010957341085776021,
      "loss": 3.8,
      "step": 282520
    },
    {
      "epoch": 0.5886041666666667,
      "grad_norm": 1.1015074253082275,
      "learning_rate": 0.00010956391718263009,
      "loss": 4.0196,
      "step": 282530
    },
    {
      "epoch": 0.588625,
      "grad_norm": 0.9399496912956238,
      "learning_rate": 0.00010955442368216779,
      "loss": 3.7244,
      "step": 282540
    },
    {
      "epoch": 0.5886458333333333,
      "grad_norm": 1.0199354887008667,
      "learning_rate": 0.00010954493035641442,
      "loss": 4.1596,
      "step": 282550
    },
    {
      "epoch": 0.5886666666666667,
      "grad_norm": 0.9788294434547424,
      "learning_rate": 0.00010953543720541093,
      "loss": 4.2027,
      "step": 282560
    },
    {
      "epoch": 0.5886875,
      "grad_norm": 0.9831287264823914,
      "learning_rate": 0.0001095259442291983,
      "loss": 3.9981,
      "step": 282570
    },
    {
      "epoch": 0.5887083333333333,
      "grad_norm": 1.0551258325576782,
      "learning_rate": 0.00010951645142781759,
      "loss": 3.8007,
      "step": 282580
    },
    {
      "epoch": 0.5887291666666666,
      "grad_norm": 1.1835870742797852,
      "learning_rate": 0.00010950695880130981,
      "loss": 3.9728,
      "step": 282590
    },
    {
      "epoch": 0.58875,
      "grad_norm": 1.0459672212600708,
      "learning_rate": 0.00010949746634971588,
      "loss": 3.7724,
      "step": 282600
    },
    {
      "epoch": 0.5887708333333334,
      "grad_norm": 1.0070894956588745,
      "learning_rate": 0.00010948797407307694,
      "loss": 3.85,
      "step": 282610
    },
    {
      "epoch": 0.5887916666666667,
      "grad_norm": 1.2246809005737305,
      "learning_rate": 0.00010947848197143387,
      "loss": 3.9425,
      "step": 282620
    },
    {
      "epoch": 0.5888125,
      "grad_norm": 1.1311910152435303,
      "learning_rate": 0.0001094689900448277,
      "loss": 3.9788,
      "step": 282630
    },
    {
      "epoch": 0.5888333333333333,
      "grad_norm": 0.9097235798835754,
      "learning_rate": 0.00010945949829329951,
      "loss": 3.8937,
      "step": 282640
    },
    {
      "epoch": 0.5888541666666667,
      "grad_norm": 1.0604101419448853,
      "learning_rate": 0.0001094500067168902,
      "loss": 3.9446,
      "step": 282650
    },
    {
      "epoch": 0.588875,
      "grad_norm": 1.2997695207595825,
      "learning_rate": 0.00010944051531564085,
      "loss": 3.9307,
      "step": 282660
    },
    {
      "epoch": 0.5888958333333333,
      "grad_norm": 0.9512732625007629,
      "learning_rate": 0.00010943102408959236,
      "loss": 3.9463,
      "step": 282670
    },
    {
      "epoch": 0.5889166666666666,
      "grad_norm": 0.9847612380981445,
      "learning_rate": 0.00010942153303878581,
      "loss": 3.8495,
      "step": 282680
    },
    {
      "epoch": 0.5889375,
      "grad_norm": 0.9781044721603394,
      "learning_rate": 0.0001094120421632622,
      "loss": 3.7869,
      "step": 282690
    },
    {
      "epoch": 0.5889583333333334,
      "grad_norm": 0.9666584730148315,
      "learning_rate": 0.00010940255146306244,
      "loss": 3.7342,
      "step": 282700
    },
    {
      "epoch": 0.5889791666666667,
      "grad_norm": 1.0035868883132935,
      "learning_rate": 0.00010939306093822764,
      "loss": 3.8758,
      "step": 282710
    },
    {
      "epoch": 0.589,
      "grad_norm": 0.9701295495033264,
      "learning_rate": 0.00010938357058879876,
      "loss": 3.7728,
      "step": 282720
    },
    {
      "epoch": 0.5890208333333333,
      "grad_norm": 0.9917240738868713,
      "learning_rate": 0.0001093740804148167,
      "loss": 3.8963,
      "step": 282730
    },
    {
      "epoch": 0.5890416666666667,
      "grad_norm": 0.9865979552268982,
      "learning_rate": 0.00010936459041632262,
      "loss": 4.0043,
      "step": 282740
    },
    {
      "epoch": 0.5890625,
      "grad_norm": 0.9523233771324158,
      "learning_rate": 0.00010935510059335739,
      "loss": 3.7602,
      "step": 282750
    },
    {
      "epoch": 0.5890833333333333,
      "grad_norm": 1.1149240732192993,
      "learning_rate": 0.000109345610945962,
      "loss": 3.9203,
      "step": 282760
    },
    {
      "epoch": 0.5891041666666667,
      "grad_norm": 0.9623421430587769,
      "learning_rate": 0.00010933612147417754,
      "loss": 3.8206,
      "step": 282770
    },
    {
      "epoch": 0.589125,
      "grad_norm": 0.9498066306114197,
      "learning_rate": 0.00010932663217804491,
      "loss": 3.9414,
      "step": 282780
    },
    {
      "epoch": 0.5891458333333334,
      "grad_norm": 1.1643093824386597,
      "learning_rate": 0.0001093171430576051,
      "loss": 4.052,
      "step": 282790
    },
    {
      "epoch": 0.5891666666666666,
      "grad_norm": 0.919773280620575,
      "learning_rate": 0.0001093076541128992,
      "loss": 3.8992,
      "step": 282800
    },
    {
      "epoch": 0.5891875,
      "grad_norm": 1.0883276462554932,
      "learning_rate": 0.00010929816534396809,
      "loss": 3.9373,
      "step": 282810
    },
    {
      "epoch": 0.5892083333333333,
      "grad_norm": 0.9541614651679993,
      "learning_rate": 0.00010928867675085273,
      "loss": 3.9272,
      "step": 282820
    },
    {
      "epoch": 0.5892291666666667,
      "grad_norm": 1.1104350090026855,
      "learning_rate": 0.00010927918833359428,
      "loss": 3.8755,
      "step": 282830
    },
    {
      "epoch": 0.58925,
      "grad_norm": 1.1778409481048584,
      "learning_rate": 0.00010926970009223359,
      "loss": 3.9035,
      "step": 282840
    },
    {
      "epoch": 0.5892708333333333,
      "grad_norm": 0.9515448212623596,
      "learning_rate": 0.00010926021202681162,
      "loss": 3.956,
      "step": 282850
    },
    {
      "epoch": 0.5892916666666667,
      "grad_norm": 1.0297720432281494,
      "learning_rate": 0.00010925072413736945,
      "loss": 3.9498,
      "step": 282860
    },
    {
      "epoch": 0.5893125,
      "grad_norm": 1.2224620580673218,
      "learning_rate": 0.00010924123642394804,
      "loss": 4.0448,
      "step": 282870
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 1.0124882459640503,
      "learning_rate": 0.0001092317488865883,
      "loss": 3.9281,
      "step": 282880
    },
    {
      "epoch": 0.5893541666666666,
      "grad_norm": 1.0522993803024292,
      "learning_rate": 0.00010922226152533129,
      "loss": 3.9378,
      "step": 282890
    },
    {
      "epoch": 0.589375,
      "grad_norm": 1.0425602197647095,
      "learning_rate": 0.00010921277434021801,
      "loss": 4.1217,
      "step": 282900
    },
    {
      "epoch": 0.5893958333333333,
      "grad_norm": 1.0642002820968628,
      "learning_rate": 0.00010920328733128934,
      "loss": 3.9823,
      "step": 282910
    },
    {
      "epoch": 0.5894166666666667,
      "grad_norm": 0.9325404167175293,
      "learning_rate": 0.00010919380049858635,
      "loss": 3.9268,
      "step": 282920
    },
    {
      "epoch": 0.5894375,
      "grad_norm": 1.0620150566101074,
      "learning_rate": 0.00010918431384215001,
      "loss": 3.8565,
      "step": 282930
    },
    {
      "epoch": 0.5894583333333333,
      "grad_norm": 1.0073858499526978,
      "learning_rate": 0.00010917482736202122,
      "loss": 3.9231,
      "step": 282940
    },
    {
      "epoch": 0.5894791666666667,
      "grad_norm": 1.064526081085205,
      "learning_rate": 0.00010916534105824105,
      "loss": 3.8589,
      "step": 282950
    },
    {
      "epoch": 0.5895,
      "grad_norm": 1.128880500793457,
      "learning_rate": 0.00010915585493085047,
      "loss": 3.8368,
      "step": 282960
    },
    {
      "epoch": 0.5895208333333334,
      "grad_norm": 1.2596644163131714,
      "learning_rate": 0.00010914636897989044,
      "loss": 3.9781,
      "step": 282970
    },
    {
      "epoch": 0.5895416666666666,
      "grad_norm": 1.0158555507659912,
      "learning_rate": 0.00010913688320540185,
      "loss": 3.9273,
      "step": 282980
    },
    {
      "epoch": 0.5895625,
      "grad_norm": 1.072158694267273,
      "learning_rate": 0.0001091273976074258,
      "loss": 3.869,
      "step": 282990
    },
    {
      "epoch": 0.5895833333333333,
      "grad_norm": 1.0803730487823486,
      "learning_rate": 0.00010911791218600322,
      "loss": 3.9302,
      "step": 283000
    },
    {
      "epoch": 0.5895833333333333,
      "eval_loss": 3.5849978923797607,
      "eval_runtime": 7.4881,
      "eval_samples_per_second": 1.335,
      "eval_steps_per_second": 0.401,
      "step": 283000
    },
    {
      "epoch": 0.5896041666666667,
      "grad_norm": 0.9858361482620239,
      "learning_rate": 0.00010910842694117503,
      "loss": 3.8223,
      "step": 283010
    },
    {
      "epoch": 0.589625,
      "grad_norm": 0.9958943128585815,
      "learning_rate": 0.00010909894187298228,
      "loss": 3.8343,
      "step": 283020
    },
    {
      "epoch": 0.5896458333333333,
      "grad_norm": 0.9765141010284424,
      "learning_rate": 0.00010908945698146593,
      "loss": 3.8571,
      "step": 283030
    },
    {
      "epoch": 0.5896666666666667,
      "grad_norm": 1.1500449180603027,
      "learning_rate": 0.00010907997226666689,
      "loss": 3.9305,
      "step": 283040
    },
    {
      "epoch": 0.5896875,
      "grad_norm": 0.9855024218559265,
      "learning_rate": 0.00010907048772862619,
      "loss": 3.8854,
      "step": 283050
    },
    {
      "epoch": 0.5897083333333333,
      "grad_norm": 0.9855557680130005,
      "learning_rate": 0.00010906100336738481,
      "loss": 3.8056,
      "step": 283060
    },
    {
      "epoch": 0.5897291666666666,
      "grad_norm": 0.9820473194122314,
      "learning_rate": 0.00010905151918298364,
      "loss": 3.7233,
      "step": 283070
    },
    {
      "epoch": 0.58975,
      "grad_norm": 0.9363154172897339,
      "learning_rate": 0.00010904203517546373,
      "loss": 4.0515,
      "step": 283080
    },
    {
      "epoch": 0.5897708333333334,
      "grad_norm": 1.0112236738204956,
      "learning_rate": 0.00010903255134486605,
      "loss": 3.8744,
      "step": 283090
    },
    {
      "epoch": 0.5897916666666667,
      "grad_norm": 1.409082293510437,
      "learning_rate": 0.00010902306769123145,
      "loss": 4.0063,
      "step": 283100
    },
    {
      "epoch": 0.5898125,
      "grad_norm": 1.0467429161071777,
      "learning_rate": 0.00010901358421460106,
      "loss": 4.0145,
      "step": 283110
    },
    {
      "epoch": 0.5898333333333333,
      "grad_norm": 0.9236775636672974,
      "learning_rate": 0.00010900410091501571,
      "loss": 3.8875,
      "step": 283120
    },
    {
      "epoch": 0.5898541666666667,
      "grad_norm": 1.0572508573532104,
      "learning_rate": 0.00010899461779251641,
      "loss": 3.9216,
      "step": 283130
    },
    {
      "epoch": 0.589875,
      "grad_norm": 1.0131886005401611,
      "learning_rate": 0.00010898513484714418,
      "loss": 3.9709,
      "step": 283140
    },
    {
      "epoch": 0.5898958333333333,
      "grad_norm": 1.4683796167373657,
      "learning_rate": 0.0001089756520789399,
      "loss": 3.8574,
      "step": 283150
    },
    {
      "epoch": 0.5899166666666666,
      "grad_norm": 1.0804566144943237,
      "learning_rate": 0.00010896616948794453,
      "loss": 3.7924,
      "step": 283160
    },
    {
      "epoch": 0.5899375,
      "grad_norm": 1.05118989944458,
      "learning_rate": 0.00010895668707419914,
      "loss": 3.8685,
      "step": 283170
    },
    {
      "epoch": 0.5899583333333334,
      "grad_norm": 0.9918216466903687,
      "learning_rate": 0.00010894720483774458,
      "loss": 4.0185,
      "step": 283180
    },
    {
      "epoch": 0.5899791666666667,
      "grad_norm": 1.0104825496673584,
      "learning_rate": 0.00010893772277862182,
      "loss": 3.8524,
      "step": 283190
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0544028282165527,
      "learning_rate": 0.00010892824089687189,
      "loss": 3.891,
      "step": 283200
    },
    {
      "epoch": 0.5900208333333333,
      "grad_norm": 0.9601397514343262,
      "learning_rate": 0.0001089187591925357,
      "loss": 4.0123,
      "step": 283210
    },
    {
      "epoch": 0.5900416666666667,
      "grad_norm": 1.0643980503082275,
      "learning_rate": 0.00010890927766565415,
      "loss": 4.0025,
      "step": 283220
    },
    {
      "epoch": 0.5900625,
      "grad_norm": 0.9636068940162659,
      "learning_rate": 0.00010889979631626831,
      "loss": 3.9319,
      "step": 283230
    },
    {
      "epoch": 0.5900833333333333,
      "grad_norm": 1.0298455953598022,
      "learning_rate": 0.0001088903151444191,
      "loss": 3.7077,
      "step": 283240
    },
    {
      "epoch": 0.5901041666666667,
      "grad_norm": 1.0747911930084229,
      "learning_rate": 0.00010888083415014743,
      "loss": 3.9411,
      "step": 283250
    },
    {
      "epoch": 0.590125,
      "grad_norm": 1.200790524482727,
      "learning_rate": 0.00010887135333349423,
      "loss": 3.9328,
      "step": 283260
    },
    {
      "epoch": 0.5901458333333334,
      "grad_norm": 1.1284266710281372,
      "learning_rate": 0.0001088618726945006,
      "loss": 3.9976,
      "step": 283270
    },
    {
      "epoch": 0.5901666666666666,
      "grad_norm": 1.045854091644287,
      "learning_rate": 0.00010885239223320732,
      "loss": 3.8944,
      "step": 283280
    },
    {
      "epoch": 0.5901875,
      "grad_norm": 1.0189415216445923,
      "learning_rate": 0.00010884291194965541,
      "loss": 3.7358,
      "step": 283290
    },
    {
      "epoch": 0.5902083333333333,
      "grad_norm": 0.9740992784500122,
      "learning_rate": 0.0001088334318438859,
      "loss": 3.9522,
      "step": 283300
    },
    {
      "epoch": 0.5902291666666667,
      "grad_norm": 1.0707862377166748,
      "learning_rate": 0.00010882395191593963,
      "loss": 3.8977,
      "step": 283310
    },
    {
      "epoch": 0.59025,
      "grad_norm": 0.9997721910476685,
      "learning_rate": 0.00010881447216585755,
      "loss": 3.904,
      "step": 283320
    },
    {
      "epoch": 0.5902708333333333,
      "grad_norm": 1.075608730316162,
      "learning_rate": 0.00010880499259368072,
      "loss": 3.9134,
      "step": 283330
    },
    {
      "epoch": 0.5902916666666667,
      "grad_norm": 1.1213566064834595,
      "learning_rate": 0.00010879551319945002,
      "loss": 4.0284,
      "step": 283340
    },
    {
      "epoch": 0.5903125,
      "grad_norm": 0.9954780340194702,
      "learning_rate": 0.00010878603398320632,
      "loss": 3.8735,
      "step": 283350
    },
    {
      "epoch": 0.5903333333333334,
      "grad_norm": 0.9991971254348755,
      "learning_rate": 0.00010877655494499067,
      "loss": 4.0383,
      "step": 283360
    },
    {
      "epoch": 0.5903541666666666,
      "grad_norm": 0.9883666038513184,
      "learning_rate": 0.00010876707608484404,
      "loss": 3.9736,
      "step": 283370
    },
    {
      "epoch": 0.590375,
      "grad_norm": 1.036780834197998,
      "learning_rate": 0.00010875759740280724,
      "loss": 3.8213,
      "step": 283380
    },
    {
      "epoch": 0.5903958333333333,
      "grad_norm": 1.076816439628601,
      "learning_rate": 0.00010874811889892132,
      "loss": 4.064,
      "step": 283390
    },
    {
      "epoch": 0.5904166666666667,
      "grad_norm": 0.8845410346984863,
      "learning_rate": 0.00010873864057322722,
      "loss": 3.7849,
      "step": 283400
    },
    {
      "epoch": 0.5904375,
      "grad_norm": 1.0022847652435303,
      "learning_rate": 0.00010872916242576583,
      "loss": 3.8346,
      "step": 283410
    },
    {
      "epoch": 0.5904583333333333,
      "grad_norm": 0.9522016048431396,
      "learning_rate": 0.00010871968445657811,
      "loss": 3.9072,
      "step": 283420
    },
    {
      "epoch": 0.5904791666666667,
      "grad_norm": 0.9987569451332092,
      "learning_rate": 0.00010871020666570509,
      "loss": 3.9053,
      "step": 283430
    },
    {
      "epoch": 0.5905,
      "grad_norm": 1.0296497344970703,
      "learning_rate": 0.00010870072905318754,
      "loss": 3.9039,
      "step": 283440
    },
    {
      "epoch": 0.5905208333333334,
      "grad_norm": 0.9964758157730103,
      "learning_rate": 0.00010869125161906653,
      "loss": 3.9652,
      "step": 283450
    },
    {
      "epoch": 0.5905416666666666,
      "grad_norm": 1.0410754680633545,
      "learning_rate": 0.000108681774363383,
      "loss": 3.9458,
      "step": 283460
    },
    {
      "epoch": 0.5905625,
      "grad_norm": 1.0552669763565063,
      "learning_rate": 0.0001086722972861778,
      "loss": 3.7285,
      "step": 283470
    },
    {
      "epoch": 0.5905833333333333,
      "grad_norm": 1.0002087354660034,
      "learning_rate": 0.00010866282038749197,
      "loss": 3.8761,
      "step": 283480
    },
    {
      "epoch": 0.5906041666666667,
      "grad_norm": 1.0277472734451294,
      "learning_rate": 0.00010865334366736635,
      "loss": 3.8427,
      "step": 283490
    },
    {
      "epoch": 0.590625,
      "grad_norm": 0.9876150488853455,
      "learning_rate": 0.0001086438671258419,
      "loss": 3.9022,
      "step": 283500
    },
    {
      "epoch": 0.5906458333333333,
      "grad_norm": 1.093941569328308,
      "learning_rate": 0.00010863439076295963,
      "loss": 3.8691,
      "step": 283510
    },
    {
      "epoch": 0.5906666666666667,
      "grad_norm": 0.9571744799613953,
      "learning_rate": 0.00010862491457876039,
      "loss": 3.9161,
      "step": 283520
    },
    {
      "epoch": 0.5906875,
      "grad_norm": 1.280879020690918,
      "learning_rate": 0.00010861543857328511,
      "loss": 3.8209,
      "step": 283530
    },
    {
      "epoch": 0.5907083333333333,
      "grad_norm": 1.0448427200317383,
      "learning_rate": 0.00010860596274657481,
      "loss": 3.9858,
      "step": 283540
    },
    {
      "epoch": 0.5907291666666666,
      "grad_norm": 1.0122734308242798,
      "learning_rate": 0.00010859648709867035,
      "loss": 3.8255,
      "step": 283550
    },
    {
      "epoch": 0.59075,
      "grad_norm": 1.0023003816604614,
      "learning_rate": 0.00010858701162961269,
      "loss": 3.9172,
      "step": 283560
    },
    {
      "epoch": 0.5907708333333334,
      "grad_norm": 1.075039029121399,
      "learning_rate": 0.0001085775363394427,
      "loss": 4.0093,
      "step": 283570
    },
    {
      "epoch": 0.5907916666666667,
      "grad_norm": 0.962285578250885,
      "learning_rate": 0.00010856806122820139,
      "loss": 3.7875,
      "step": 283580
    },
    {
      "epoch": 0.5908125,
      "grad_norm": 0.9779298901557922,
      "learning_rate": 0.00010855858629592967,
      "loss": 3.7945,
      "step": 283590
    },
    {
      "epoch": 0.5908333333333333,
      "grad_norm": 0.9629389643669128,
      "learning_rate": 0.00010854911154266839,
      "loss": 3.917,
      "step": 283600
    },
    {
      "epoch": 0.5908541666666667,
      "grad_norm": 1.3845841884613037,
      "learning_rate": 0.00010853963696845864,
      "loss": 3.9513,
      "step": 283610
    },
    {
      "epoch": 0.590875,
      "grad_norm": 1.087011694908142,
      "learning_rate": 0.00010853016257334116,
      "loss": 3.7698,
      "step": 283620
    },
    {
      "epoch": 0.5908958333333333,
      "grad_norm": 1.1586904525756836,
      "learning_rate": 0.00010852068835735698,
      "loss": 4.1457,
      "step": 283630
    },
    {
      "epoch": 0.5909166666666666,
      "grad_norm": 1.0978673696517944,
      "learning_rate": 0.00010851121432054705,
      "loss": 4.01,
      "step": 283640
    },
    {
      "epoch": 0.5909375,
      "grad_norm": 1.188166618347168,
      "learning_rate": 0.00010850174046295222,
      "loss": 3.8877,
      "step": 283650
    },
    {
      "epoch": 0.5909583333333334,
      "grad_norm": 1.0274062156677246,
      "learning_rate": 0.00010849226678461341,
      "loss": 3.6257,
      "step": 283660
    },
    {
      "epoch": 0.5909791666666667,
      "grad_norm": 1.0385491847991943,
      "learning_rate": 0.00010848279328557164,
      "loss": 3.8099,
      "step": 283670
    },
    {
      "epoch": 0.591,
      "grad_norm": 1.1085001230239868,
      "learning_rate": 0.00010847331996586776,
      "loss": 3.9607,
      "step": 283680
    },
    {
      "epoch": 0.5910208333333333,
      "grad_norm": 0.9835272431373596,
      "learning_rate": 0.00010846384682554264,
      "loss": 3.9527,
      "step": 283690
    },
    {
      "epoch": 0.5910416666666667,
      "grad_norm": 1.0784658193588257,
      "learning_rate": 0.00010845437386463734,
      "loss": 3.7824,
      "step": 283700
    },
    {
      "epoch": 0.5910625,
      "grad_norm": 1.0320210456848145,
      "learning_rate": 0.00010844490108319269,
      "loss": 4.0796,
      "step": 283710
    },
    {
      "epoch": 0.5910833333333333,
      "grad_norm": 1.0021823644638062,
      "learning_rate": 0.00010843542848124953,
      "loss": 3.9182,
      "step": 283720
    },
    {
      "epoch": 0.5911041666666667,
      "grad_norm": 1.0542634725570679,
      "learning_rate": 0.00010842595605884896,
      "loss": 3.9924,
      "step": 283730
    },
    {
      "epoch": 0.591125,
      "grad_norm": 0.9686208963394165,
      "learning_rate": 0.00010841648381603182,
      "loss": 3.7922,
      "step": 283740
    },
    {
      "epoch": 0.5911458333333334,
      "grad_norm": 1.0476768016815186,
      "learning_rate": 0.00010840701175283893,
      "loss": 3.7373,
      "step": 283750
    },
    {
      "epoch": 0.5911666666666666,
      "grad_norm": 1.003053069114685,
      "learning_rate": 0.00010839753986931131,
      "loss": 3.9596,
      "step": 283760
    },
    {
      "epoch": 0.5911875,
      "grad_norm": 0.9356861710548401,
      "learning_rate": 0.00010838806816548989,
      "loss": 3.9725,
      "step": 283770
    },
    {
      "epoch": 0.5912083333333333,
      "grad_norm": 1.1086761951446533,
      "learning_rate": 0.00010837859664141547,
      "loss": 4.0211,
      "step": 283780
    },
    {
      "epoch": 0.5912291666666667,
      "grad_norm": 0.9899023175239563,
      "learning_rate": 0.0001083691252971291,
      "loss": 3.8859,
      "step": 283790
    },
    {
      "epoch": 0.59125,
      "grad_norm": 0.9706106781959534,
      "learning_rate": 0.00010835965413267164,
      "loss": 3.8422,
      "step": 283800
    },
    {
      "epoch": 0.5912708333333333,
      "grad_norm": 1.0164172649383545,
      "learning_rate": 0.00010835018314808393,
      "loss": 3.8489,
      "step": 283810
    },
    {
      "epoch": 0.5912916666666667,
      "grad_norm": 1.0136750936508179,
      "learning_rate": 0.00010834071234340698,
      "loss": 3.9105,
      "step": 283820
    },
    {
      "epoch": 0.5913125,
      "grad_norm": 1.028200387954712,
      "learning_rate": 0.0001083312417186817,
      "loss": 3.8013,
      "step": 283830
    },
    {
      "epoch": 0.5913333333333334,
      "grad_norm": 1.071759819984436,
      "learning_rate": 0.00010832177127394893,
      "loss": 3.8145,
      "step": 283840
    },
    {
      "epoch": 0.5913541666666666,
      "grad_norm": 0.9257116913795471,
      "learning_rate": 0.00010831230100924958,
      "loss": 3.8945,
      "step": 283850
    },
    {
      "epoch": 0.591375,
      "grad_norm": 0.9746960997581482,
      "learning_rate": 0.0001083028309246246,
      "loss": 3.8533,
      "step": 283860
    },
    {
      "epoch": 0.5913958333333333,
      "grad_norm": 0.9765852093696594,
      "learning_rate": 0.00010829336102011494,
      "loss": 4.0987,
      "step": 283870
    },
    {
      "epoch": 0.5914166666666667,
      "grad_norm": 0.9879636168479919,
      "learning_rate": 0.00010828389129576138,
      "loss": 3.8399,
      "step": 283880
    },
    {
      "epoch": 0.5914375,
      "grad_norm": 1.0586320161819458,
      "learning_rate": 0.00010827442175160493,
      "loss": 3.8414,
      "step": 283890
    },
    {
      "epoch": 0.5914583333333333,
      "grad_norm": 0.9941020011901855,
      "learning_rate": 0.00010826495238768646,
      "loss": 4.0223,
      "step": 283900
    },
    {
      "epoch": 0.5914791666666667,
      "grad_norm": 1.0426504611968994,
      "learning_rate": 0.00010825548320404686,
      "loss": 3.8845,
      "step": 283910
    },
    {
      "epoch": 0.5915,
      "grad_norm": 1.9474730491638184,
      "learning_rate": 0.00010824601420072705,
      "loss": 3.8517,
      "step": 283920
    },
    {
      "epoch": 0.5915208333333334,
      "grad_norm": 1.0210734605789185,
      "learning_rate": 0.00010823654537776798,
      "loss": 3.9278,
      "step": 283930
    },
    {
      "epoch": 0.5915416666666666,
      "grad_norm": 1.0447239875793457,
      "learning_rate": 0.00010822707673521042,
      "loss": 3.9574,
      "step": 283940
    },
    {
      "epoch": 0.5915625,
      "grad_norm": 0.9756429195404053,
      "learning_rate": 0.0001082176082730954,
      "loss": 3.838,
      "step": 283950
    },
    {
      "epoch": 0.5915833333333333,
      "grad_norm": 0.9940393567085266,
      "learning_rate": 0.0001082081399914638,
      "loss": 4.0864,
      "step": 283960
    },
    {
      "epoch": 0.5916041666666667,
      "grad_norm": 0.9934770464897156,
      "learning_rate": 0.00010819867189035646,
      "loss": 3.8595,
      "step": 283970
    },
    {
      "epoch": 0.591625,
      "grad_norm": 1.1023924350738525,
      "learning_rate": 0.00010818920396981434,
      "loss": 3.9228,
      "step": 283980
    },
    {
      "epoch": 0.5916458333333333,
      "grad_norm": 1.0674773454666138,
      "learning_rate": 0.00010817973622987829,
      "loss": 4.0463,
      "step": 283990
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 0.9586822986602783,
      "learning_rate": 0.00010817026867058918,
      "loss": 3.8181,
      "step": 284000
    },
    {
      "epoch": 0.5916666666666667,
      "eval_loss": 3.5812244415283203,
      "eval_runtime": 7.3639,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 284000
    },
    {
      "epoch": 0.5916875,
      "grad_norm": 0.9599598050117493,
      "learning_rate": 0.00010816080129198802,
      "loss": 3.9706,
      "step": 284010
    },
    {
      "epoch": 0.5917083333333333,
      "grad_norm": 1.0035881996154785,
      "learning_rate": 0.00010815133409411562,
      "loss": 3.8135,
      "step": 284020
    },
    {
      "epoch": 0.5917291666666666,
      "grad_norm": 1.0021573305130005,
      "learning_rate": 0.00010814186707701284,
      "loss": 3.7891,
      "step": 284030
    },
    {
      "epoch": 0.59175,
      "grad_norm": 0.959618866443634,
      "learning_rate": 0.00010813240024072072,
      "loss": 3.94,
      "step": 284040
    },
    {
      "epoch": 0.5917708333333334,
      "grad_norm": 0.9118596315383911,
      "learning_rate": 0.00010812293358528,
      "loss": 3.7425,
      "step": 284050
    },
    {
      "epoch": 0.5917916666666667,
      "grad_norm": 1.0488231182098389,
      "learning_rate": 0.0001081134671107316,
      "loss": 3.7276,
      "step": 284060
    },
    {
      "epoch": 0.5918125,
      "grad_norm": 1.0175703763961792,
      "learning_rate": 0.00010810400081711651,
      "loss": 3.9208,
      "step": 284070
    },
    {
      "epoch": 0.5918333333333333,
      "grad_norm": 1.0580958127975464,
      "learning_rate": 0.00010809453470447553,
      "loss": 3.9611,
      "step": 284080
    },
    {
      "epoch": 0.5918541666666667,
      "grad_norm": 1.062564730644226,
      "learning_rate": 0.00010808506877284952,
      "loss": 3.809,
      "step": 284090
    },
    {
      "epoch": 0.591875,
      "grad_norm": 0.9759119153022766,
      "learning_rate": 0.00010807560302227953,
      "loss": 4.0128,
      "step": 284100
    },
    {
      "epoch": 0.5918958333333333,
      "grad_norm": 1.0003399848937988,
      "learning_rate": 0.00010806613745280629,
      "loss": 3.9588,
      "step": 284110
    },
    {
      "epoch": 0.5919166666666666,
      "grad_norm": 0.9736868143081665,
      "learning_rate": 0.0001080566720644707,
      "loss": 3.9721,
      "step": 284120
    },
    {
      "epoch": 0.5919375,
      "grad_norm": 0.9979769587516785,
      "learning_rate": 0.00010804720685731371,
      "loss": 4.0556,
      "step": 284130
    },
    {
      "epoch": 0.5919583333333334,
      "grad_norm": 1.0166015625,
      "learning_rate": 0.0001080377418313762,
      "loss": 3.8491,
      "step": 284140
    },
    {
      "epoch": 0.5919791666666666,
      "grad_norm": 1.1296582221984863,
      "learning_rate": 0.00010802827698669902,
      "loss": 3.9723,
      "step": 284150
    },
    {
      "epoch": 0.592,
      "grad_norm": 1.0859516859054565,
      "learning_rate": 0.00010801881232332305,
      "loss": 3.8606,
      "step": 284160
    },
    {
      "epoch": 0.5920208333333333,
      "grad_norm": 0.9433911442756653,
      "learning_rate": 0.00010800934784128922,
      "loss": 3.8011,
      "step": 284170
    },
    {
      "epoch": 0.5920416666666667,
      "grad_norm": 1.0172501802444458,
      "learning_rate": 0.00010799988354063838,
      "loss": 4.0622,
      "step": 284180
    },
    {
      "epoch": 0.5920625,
      "grad_norm": 0.9650645852088928,
      "learning_rate": 0.0001079904194214114,
      "loss": 3.8204,
      "step": 284190
    },
    {
      "epoch": 0.5920833333333333,
      "grad_norm": 1.1259211301803589,
      "learning_rate": 0.00010798095548364921,
      "loss": 4.0031,
      "step": 284200
    },
    {
      "epoch": 0.5921041666666667,
      "grad_norm": 1.101392149925232,
      "learning_rate": 0.00010797149172739266,
      "loss": 3.8722,
      "step": 284210
    },
    {
      "epoch": 0.592125,
      "grad_norm": 1.0111392736434937,
      "learning_rate": 0.00010796202815268256,
      "loss": 3.9235,
      "step": 284220
    },
    {
      "epoch": 0.5921458333333334,
      "grad_norm": 1.3233752250671387,
      "learning_rate": 0.00010795256475955994,
      "loss": 4.0323,
      "step": 284230
    },
    {
      "epoch": 0.5921666666666666,
      "grad_norm": 0.953855037689209,
      "learning_rate": 0.0001079431015480656,
      "loss": 3.9437,
      "step": 284240
    },
    {
      "epoch": 0.5921875,
      "grad_norm": 1.028719425201416,
      "learning_rate": 0.00010793363851824037,
      "loss": 3.8806,
      "step": 284250
    },
    {
      "epoch": 0.5922083333333333,
      "grad_norm": 1.4418221712112427,
      "learning_rate": 0.00010792417567012517,
      "loss": 3.8593,
      "step": 284260
    },
    {
      "epoch": 0.5922291666666667,
      "grad_norm": 1.1247758865356445,
      "learning_rate": 0.00010791471300376092,
      "loss": 3.9417,
      "step": 284270
    },
    {
      "epoch": 0.59225,
      "grad_norm": 1.065565586090088,
      "learning_rate": 0.00010790525051918839,
      "loss": 3.6425,
      "step": 284280
    },
    {
      "epoch": 0.5922708333333333,
      "grad_norm": 2.5368945598602295,
      "learning_rate": 0.00010789578821644854,
      "loss": 4.1032,
      "step": 284290
    },
    {
      "epoch": 0.5922916666666667,
      "grad_norm": 0.9614211916923523,
      "learning_rate": 0.00010788632609558225,
      "loss": 3.7548,
      "step": 284300
    },
    {
      "epoch": 0.5923125,
      "grad_norm": 1.1074328422546387,
      "learning_rate": 0.00010787686415663031,
      "loss": 3.7967,
      "step": 284310
    },
    {
      "epoch": 0.5923333333333334,
      "grad_norm": 1.075201392173767,
      "learning_rate": 0.00010786740239963366,
      "loss": 3.7876,
      "step": 284320
    },
    {
      "epoch": 0.5923541666666666,
      "grad_norm": 1.1697189807891846,
      "learning_rate": 0.00010785794082463321,
      "loss": 3.9337,
      "step": 284330
    },
    {
      "epoch": 0.592375,
      "grad_norm": 1.143168568611145,
      "learning_rate": 0.00010784847943166969,
      "loss": 3.7196,
      "step": 284340
    },
    {
      "epoch": 0.5923958333333333,
      "grad_norm": 0.9976937770843506,
      "learning_rate": 0.00010783901822078413,
      "loss": 3.9409,
      "step": 284350
    },
    {
      "epoch": 0.5924166666666667,
      "grad_norm": 1.02386474609375,
      "learning_rate": 0.00010782955719201728,
      "loss": 3.7344,
      "step": 284360
    },
    {
      "epoch": 0.5924375,
      "grad_norm": 1.3348426818847656,
      "learning_rate": 0.00010782009634541002,
      "loss": 3.866,
      "step": 284370
    },
    {
      "epoch": 0.5924583333333333,
      "grad_norm": 1.010467529296875,
      "learning_rate": 0.0001078106356810033,
      "loss": 4.0368,
      "step": 284380
    },
    {
      "epoch": 0.5924791666666667,
      "grad_norm": 1.7776997089385986,
      "learning_rate": 0.00010780117519883793,
      "loss": 3.9301,
      "step": 284390
    },
    {
      "epoch": 0.5925,
      "grad_norm": 1.0782448053359985,
      "learning_rate": 0.00010779171489895476,
      "loss": 3.7886,
      "step": 284400
    },
    {
      "epoch": 0.5925208333333334,
      "grad_norm": 0.9964104890823364,
      "learning_rate": 0.0001077822547813947,
      "loss": 3.8537,
      "step": 284410
    },
    {
      "epoch": 0.5925416666666666,
      "grad_norm": 0.9978927373886108,
      "learning_rate": 0.00010777279484619857,
      "loss": 3.9577,
      "step": 284420
    },
    {
      "epoch": 0.5925625,
      "grad_norm": 0.9801979064941406,
      "learning_rate": 0.00010776333509340729,
      "loss": 3.8142,
      "step": 284430
    },
    {
      "epoch": 0.5925833333333334,
      "grad_norm": 0.9053741693496704,
      "learning_rate": 0.00010775387552306161,
      "loss": 3.9432,
      "step": 284440
    },
    {
      "epoch": 0.5926041666666667,
      "grad_norm": 1.0549719333648682,
      "learning_rate": 0.0001077444161352025,
      "loss": 3.89,
      "step": 284450
    },
    {
      "epoch": 0.592625,
      "grad_norm": 1.0613906383514404,
      "learning_rate": 0.00010773495692987082,
      "loss": 4.0316,
      "step": 284460
    },
    {
      "epoch": 0.5926458333333333,
      "grad_norm": 1.079076886177063,
      "learning_rate": 0.00010772549790710732,
      "loss": 3.8889,
      "step": 284470
    },
    {
      "epoch": 0.5926666666666667,
      "grad_norm": 1.1887478828430176,
      "learning_rate": 0.00010771603906695302,
      "loss": 3.9013,
      "step": 284480
    },
    {
      "epoch": 0.5926875,
      "grad_norm": 0.9283777475357056,
      "learning_rate": 0.00010770658040944867,
      "loss": 3.9972,
      "step": 284490
    },
    {
      "epoch": 0.5927083333333333,
      "grad_norm": 0.9854081273078918,
      "learning_rate": 0.00010769712193463509,
      "loss": 4.0039,
      "step": 284500
    },
    {
      "epoch": 0.5927291666666666,
      "grad_norm": 0.9774364829063416,
      "learning_rate": 0.00010768766364255328,
      "loss": 3.8986,
      "step": 284510
    },
    {
      "epoch": 0.59275,
      "grad_norm": 0.9660235047340393,
      "learning_rate": 0.00010767820553324397,
      "loss": 3.8654,
      "step": 284520
    },
    {
      "epoch": 0.5927708333333334,
      "grad_norm": 1.0229681730270386,
      "learning_rate": 0.00010766874760674805,
      "loss": 3.9279,
      "step": 284530
    },
    {
      "epoch": 0.5927916666666667,
      "grad_norm": 1.1469316482543945,
      "learning_rate": 0.00010765928986310644,
      "loss": 3.9763,
      "step": 284540
    },
    {
      "epoch": 0.5928125,
      "grad_norm": 1.0323795080184937,
      "learning_rate": 0.00010764983230235988,
      "loss": 3.9855,
      "step": 284550
    },
    {
      "epoch": 0.5928333333333333,
      "grad_norm": 1.093889832496643,
      "learning_rate": 0.00010764037492454929,
      "loss": 3.9311,
      "step": 284560
    },
    {
      "epoch": 0.5928541666666667,
      "grad_norm": 1.00575590133667,
      "learning_rate": 0.00010763091772971554,
      "loss": 3.8458,
      "step": 284570
    },
    {
      "epoch": 0.592875,
      "grad_norm": 0.946003258228302,
      "learning_rate": 0.00010762146071789945,
      "loss": 3.8649,
      "step": 284580
    },
    {
      "epoch": 0.5928958333333333,
      "grad_norm": 1.0689342021942139,
      "learning_rate": 0.00010761200388914183,
      "loss": 4.2084,
      "step": 284590
    },
    {
      "epoch": 0.5929166666666666,
      "grad_norm": 1.0084582567214966,
      "learning_rate": 0.00010760254724348363,
      "loss": 3.8745,
      "step": 284600
    },
    {
      "epoch": 0.5929375,
      "grad_norm": 1.103426218032837,
      "learning_rate": 0.00010759309078096567,
      "loss": 3.6972,
      "step": 284610
    },
    {
      "epoch": 0.5929583333333334,
      "grad_norm": 1.0213141441345215,
      "learning_rate": 0.00010758363450162869,
      "loss": 3.8133,
      "step": 284620
    },
    {
      "epoch": 0.5929791666666666,
      "grad_norm": 1.0560508966445923,
      "learning_rate": 0.00010757417840551365,
      "loss": 3.9853,
      "step": 284630
    },
    {
      "epoch": 0.593,
      "grad_norm": 1.0930472612380981,
      "learning_rate": 0.00010756472249266143,
      "loss": 3.98,
      "step": 284640
    },
    {
      "epoch": 0.5930208333333333,
      "grad_norm": 0.9600555300712585,
      "learning_rate": 0.00010755526676311271,
      "loss": 3.8239,
      "step": 284650
    },
    {
      "epoch": 0.5930416666666667,
      "grad_norm": 0.9635068774223328,
      "learning_rate": 0.00010754581121690848,
      "loss": 4.0798,
      "step": 284660
    },
    {
      "epoch": 0.5930625,
      "grad_norm": 1.2463781833648682,
      "learning_rate": 0.00010753635585408957,
      "loss": 4.0417,
      "step": 284670
    },
    {
      "epoch": 0.5930833333333333,
      "grad_norm": 1.0675417184829712,
      "learning_rate": 0.00010752690067469673,
      "loss": 3.9826,
      "step": 284680
    },
    {
      "epoch": 0.5931041666666667,
      "grad_norm": 1.033852219581604,
      "learning_rate": 0.00010751744567877091,
      "loss": 4.0508,
      "step": 284690
    },
    {
      "epoch": 0.593125,
      "grad_norm": 0.9577591419219971,
      "learning_rate": 0.00010750799086635292,
      "loss": 4.0596,
      "step": 284700
    },
    {
      "epoch": 0.5931458333333334,
      "grad_norm": 1.021485686302185,
      "learning_rate": 0.00010749853623748361,
      "loss": 3.7909,
      "step": 284710
    },
    {
      "epoch": 0.5931666666666666,
      "grad_norm": 1.0771242380142212,
      "learning_rate": 0.00010748908179220375,
      "loss": 3.9978,
      "step": 284720
    },
    {
      "epoch": 0.5931875,
      "grad_norm": 1.1765507459640503,
      "learning_rate": 0.00010747962753055422,
      "loss": 4.2131,
      "step": 284730
    },
    {
      "epoch": 0.5932083333333333,
      "grad_norm": 1.0206526517868042,
      "learning_rate": 0.00010747017345257594,
      "loss": 3.5743,
      "step": 284740
    },
    {
      "epoch": 0.5932291666666667,
      "grad_norm": 0.9950987100601196,
      "learning_rate": 0.00010746071955830959,
      "loss": 4.0104,
      "step": 284750
    },
    {
      "epoch": 0.59325,
      "grad_norm": 1.1700365543365479,
      "learning_rate": 0.00010745126584779613,
      "loss": 4.0766,
      "step": 284760
    },
    {
      "epoch": 0.5932708333333333,
      "grad_norm": 1.1406813859939575,
      "learning_rate": 0.00010744181232107639,
      "loss": 3.9619,
      "step": 284770
    },
    {
      "epoch": 0.5932916666666667,
      "grad_norm": 1.0958623886108398,
      "learning_rate": 0.0001074323589781911,
      "loss": 3.9018,
      "step": 284780
    },
    {
      "epoch": 0.5933125,
      "grad_norm": 1.2115472555160522,
      "learning_rate": 0.00010742290581918122,
      "loss": 3.8788,
      "step": 284790
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 1.2591699361801147,
      "learning_rate": 0.00010741345284408757,
      "loss": 3.9798,
      "step": 284800
    },
    {
      "epoch": 0.5933541666666666,
      "grad_norm": 0.9863046407699585,
      "learning_rate": 0.00010740400005295085,
      "loss": 4.0983,
      "step": 284810
    },
    {
      "epoch": 0.593375,
      "grad_norm": 1.0333263874053955,
      "learning_rate": 0.00010739454744581207,
      "loss": 3.7742,
      "step": 284820
    },
    {
      "epoch": 0.5933958333333333,
      "grad_norm": 1.028153896331787,
      "learning_rate": 0.00010738509502271196,
      "loss": 3.8786,
      "step": 284830
    },
    {
      "epoch": 0.5934166666666667,
      "grad_norm": 1.0205228328704834,
      "learning_rate": 0.00010737564278369134,
      "loss": 3.9371,
      "step": 284840
    },
    {
      "epoch": 0.5934375,
      "grad_norm": 1.0018683671951294,
      "learning_rate": 0.00010736619072879112,
      "loss": 3.7648,
      "step": 284850
    },
    {
      "epoch": 0.5934583333333333,
      "grad_norm": 1.1446939706802368,
      "learning_rate": 0.00010735673885805207,
      "loss": 3.9673,
      "step": 284860
    },
    {
      "epoch": 0.5934791666666667,
      "grad_norm": 1.023366928100586,
      "learning_rate": 0.00010734728717151498,
      "loss": 4.0099,
      "step": 284870
    },
    {
      "epoch": 0.5935,
      "grad_norm": 1.1289279460906982,
      "learning_rate": 0.0001073378356692208,
      "loss": 3.9848,
      "step": 284880
    },
    {
      "epoch": 0.5935208333333334,
      "grad_norm": 1.028000831604004,
      "learning_rate": 0.00010732838435121024,
      "loss": 3.6913,
      "step": 284890
    },
    {
      "epoch": 0.5935416666666666,
      "grad_norm": 0.9799609780311584,
      "learning_rate": 0.00010731893321752414,
      "loss": 4.0828,
      "step": 284900
    },
    {
      "epoch": 0.5935625,
      "grad_norm": 1.0373928546905518,
      "learning_rate": 0.00010730948226820343,
      "loss": 3.8828,
      "step": 284910
    },
    {
      "epoch": 0.5935833333333334,
      "grad_norm": 1.0475773811340332,
      "learning_rate": 0.00010730003150328881,
      "loss": 3.9992,
      "step": 284920
    },
    {
      "epoch": 0.5936041666666667,
      "grad_norm": 1.0004810094833374,
      "learning_rate": 0.00010729058092282113,
      "loss": 3.8255,
      "step": 284930
    },
    {
      "epoch": 0.593625,
      "grad_norm": 1.3975895643234253,
      "learning_rate": 0.00010728113052684131,
      "loss": 3.9082,
      "step": 284940
    },
    {
      "epoch": 0.5936458333333333,
      "grad_norm": 1.175200343132019,
      "learning_rate": 0.00010727168031539002,
      "loss": 3.8884,
      "step": 284950
    },
    {
      "epoch": 0.5936666666666667,
      "grad_norm": 1.025351881980896,
      "learning_rate": 0.00010726223028850818,
      "loss": 3.7629,
      "step": 284960
    },
    {
      "epoch": 0.5936875,
      "grad_norm": 1.0404692888259888,
      "learning_rate": 0.00010725278044623662,
      "loss": 3.8034,
      "step": 284970
    },
    {
      "epoch": 0.5937083333333333,
      "grad_norm": 1.1156666278839111,
      "learning_rate": 0.00010724333078861613,
      "loss": 3.8853,
      "step": 284980
    },
    {
      "epoch": 0.5937291666666666,
      "grad_norm": 0.9475700259208679,
      "learning_rate": 0.00010723388131568748,
      "loss": 3.9175,
      "step": 284990
    },
    {
      "epoch": 0.59375,
      "grad_norm": 1.25490403175354,
      "learning_rate": 0.00010722443202749154,
      "loss": 3.9781,
      "step": 285000
    },
    {
      "epoch": 0.59375,
      "eval_loss": 3.5869014263153076,
      "eval_runtime": 7.3389,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 285000
    },
    {
      "epoch": 0.5937708333333334,
      "grad_norm": 1.0136075019836426,
      "learning_rate": 0.00010721498292406918,
      "loss": 4.0039,
      "step": 285010
    },
    {
      "epoch": 0.5937916666666667,
      "grad_norm": 0.9953780770301819,
      "learning_rate": 0.00010720553400546112,
      "loss": 3.7515,
      "step": 285020
    },
    {
      "epoch": 0.5938125,
      "grad_norm": 0.9643939137458801,
      "learning_rate": 0.00010719608527170817,
      "loss": 3.7701,
      "step": 285030
    },
    {
      "epoch": 0.5938333333333333,
      "grad_norm": 1.003104329109192,
      "learning_rate": 0.00010718663672285128,
      "loss": 4.0262,
      "step": 285040
    },
    {
      "epoch": 0.5938541666666667,
      "grad_norm": 1.0977106094360352,
      "learning_rate": 0.00010717718835893111,
      "loss": 3.8899,
      "step": 285050
    },
    {
      "epoch": 0.593875,
      "grad_norm": 1.0463614463806152,
      "learning_rate": 0.00010716774017998852,
      "loss": 4.0242,
      "step": 285060
    },
    {
      "epoch": 0.5938958333333333,
      "grad_norm": 0.9612152576446533,
      "learning_rate": 0.00010715829218606441,
      "loss": 3.8773,
      "step": 285070
    },
    {
      "epoch": 0.5939166666666666,
      "grad_norm": 1.0352810621261597,
      "learning_rate": 0.00010714884437719947,
      "loss": 3.9582,
      "step": 285080
    },
    {
      "epoch": 0.5939375,
      "grad_norm": 1.1586943864822388,
      "learning_rate": 0.00010713939675343453,
      "loss": 3.9672,
      "step": 285090
    },
    {
      "epoch": 0.5939583333333334,
      "grad_norm": 0.9517487287521362,
      "learning_rate": 0.0001071299493148105,
      "loss": 3.7357,
      "step": 285100
    },
    {
      "epoch": 0.5939791666666666,
      "grad_norm": 1.0000795125961304,
      "learning_rate": 0.00010712050206136811,
      "loss": 3.9411,
      "step": 285110
    },
    {
      "epoch": 0.594,
      "grad_norm": 0.9853443503379822,
      "learning_rate": 0.00010711105499314812,
      "loss": 4.1456,
      "step": 285120
    },
    {
      "epoch": 0.5940208333333333,
      "grad_norm": 1.1484668254852295,
      "learning_rate": 0.00010710160811019142,
      "loss": 3.892,
      "step": 285130
    },
    {
      "epoch": 0.5940416666666667,
      "grad_norm": 1.9190714359283447,
      "learning_rate": 0.00010709216141253885,
      "loss": 3.8207,
      "step": 285140
    },
    {
      "epoch": 0.5940625,
      "grad_norm": 0.9546019434928894,
      "learning_rate": 0.00010708271490023108,
      "loss": 3.9305,
      "step": 285150
    },
    {
      "epoch": 0.5940833333333333,
      "grad_norm": 1.1321834325790405,
      "learning_rate": 0.00010707326857330903,
      "loss": 3.7351,
      "step": 285160
    },
    {
      "epoch": 0.5941041666666667,
      "grad_norm": 0.9822116494178772,
      "learning_rate": 0.00010706382243181349,
      "loss": 3.7635,
      "step": 285170
    },
    {
      "epoch": 0.594125,
      "grad_norm": 1.2970505952835083,
      "learning_rate": 0.0001070543764757852,
      "loss": 3.8207,
      "step": 285180
    },
    {
      "epoch": 0.5941458333333334,
      "grad_norm": 0.9296282529830933,
      "learning_rate": 0.00010704493070526501,
      "loss": 3.912,
      "step": 285190
    },
    {
      "epoch": 0.5941666666666666,
      "grad_norm": 0.9757287502288818,
      "learning_rate": 0.00010703548512029376,
      "loss": 3.8697,
      "step": 285200
    },
    {
      "epoch": 0.5941875,
      "grad_norm": 1.001664400100708,
      "learning_rate": 0.00010702603972091215,
      "loss": 3.9482,
      "step": 285210
    },
    {
      "epoch": 0.5942083333333333,
      "grad_norm": 0.9932350516319275,
      "learning_rate": 0.00010701659450716109,
      "loss": 3.9135,
      "step": 285220
    },
    {
      "epoch": 0.5942291666666667,
      "grad_norm": 1.112131953239441,
      "learning_rate": 0.0001070071494790813,
      "loss": 3.9756,
      "step": 285230
    },
    {
      "epoch": 0.59425,
      "grad_norm": 0.9260832667350769,
      "learning_rate": 0.00010699770463671357,
      "loss": 3.9407,
      "step": 285240
    },
    {
      "epoch": 0.5942708333333333,
      "grad_norm": 1.3018606901168823,
      "learning_rate": 0.0001069882599800988,
      "loss": 3.991,
      "step": 285250
    },
    {
      "epoch": 0.5942916666666667,
      "grad_norm": 1.1788510084152222,
      "learning_rate": 0.00010697881550927769,
      "loss": 3.9678,
      "step": 285260
    },
    {
      "epoch": 0.5943125,
      "grad_norm": 0.9549703001976013,
      "learning_rate": 0.00010696937122429105,
      "loss": 3.8905,
      "step": 285270
    },
    {
      "epoch": 0.5943333333333334,
      "grad_norm": 1.0594940185546875,
      "learning_rate": 0.00010695992712517976,
      "loss": 4.0919,
      "step": 285280
    },
    {
      "epoch": 0.5943541666666666,
      "grad_norm": 1.0242934226989746,
      "learning_rate": 0.00010695048321198449,
      "loss": 3.8786,
      "step": 285290
    },
    {
      "epoch": 0.594375,
      "grad_norm": 1.0403459072113037,
      "learning_rate": 0.00010694103948474614,
      "loss": 3.6619,
      "step": 285300
    },
    {
      "epoch": 0.5943958333333333,
      "grad_norm": 0.9818691611289978,
      "learning_rate": 0.00010693159594350538,
      "loss": 3.9497,
      "step": 285310
    },
    {
      "epoch": 0.5944166666666667,
      "grad_norm": 0.9581379890441895,
      "learning_rate": 0.00010692215258830311,
      "loss": 3.8605,
      "step": 285320
    },
    {
      "epoch": 0.5944375,
      "grad_norm": 1.0217326879501343,
      "learning_rate": 0.00010691270941918015,
      "loss": 3.8163,
      "step": 285330
    },
    {
      "epoch": 0.5944583333333333,
      "grad_norm": 0.9828330874443054,
      "learning_rate": 0.00010690326643617715,
      "loss": 3.8917,
      "step": 285340
    },
    {
      "epoch": 0.5944791666666667,
      "grad_norm": 0.9106216430664062,
      "learning_rate": 0.00010689382363933503,
      "loss": 3.7852,
      "step": 285350
    },
    {
      "epoch": 0.5945,
      "grad_norm": 1.1084938049316406,
      "learning_rate": 0.0001068843810286945,
      "loss": 3.9296,
      "step": 285360
    },
    {
      "epoch": 0.5945208333333334,
      "grad_norm": 0.975334644317627,
      "learning_rate": 0.00010687493860429636,
      "loss": 3.6855,
      "step": 285370
    },
    {
      "epoch": 0.5945416666666666,
      "grad_norm": 0.9671175479888916,
      "learning_rate": 0.00010686549636618148,
      "loss": 3.6637,
      "step": 285380
    },
    {
      "epoch": 0.5945625,
      "grad_norm": 1.04848051071167,
      "learning_rate": 0.00010685605431439053,
      "loss": 3.8871,
      "step": 285390
    },
    {
      "epoch": 0.5945833333333334,
      "grad_norm": 1.0641276836395264,
      "learning_rate": 0.00010684661244896433,
      "loss": 3.962,
      "step": 285400
    },
    {
      "epoch": 0.5946041666666667,
      "grad_norm": 1.976826786994934,
      "learning_rate": 0.00010683717076994375,
      "loss": 3.9783,
      "step": 285410
    },
    {
      "epoch": 0.594625,
      "grad_norm": 1.0450817346572876,
      "learning_rate": 0.00010682772927736948,
      "loss": 3.7344,
      "step": 285420
    },
    {
      "epoch": 0.5946458333333333,
      "grad_norm": 1.0212796926498413,
      "learning_rate": 0.00010681828797128228,
      "loss": 3.7745,
      "step": 285430
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 1.106776237487793,
      "learning_rate": 0.00010680884685172305,
      "loss": 3.9368,
      "step": 285440
    },
    {
      "epoch": 0.5946875,
      "grad_norm": 1.0514699220657349,
      "learning_rate": 0.00010679940591873248,
      "loss": 4.0299,
      "step": 285450
    },
    {
      "epoch": 0.5947083333333333,
      "grad_norm": 0.9415797591209412,
      "learning_rate": 0.00010678996517235135,
      "loss": 3.7167,
      "step": 285460
    },
    {
      "epoch": 0.5947291666666666,
      "grad_norm": 1.041195273399353,
      "learning_rate": 0.00010678052461262053,
      "loss": 3.8525,
      "step": 285470
    },
    {
      "epoch": 0.59475,
      "grad_norm": 0.9973962306976318,
      "learning_rate": 0.00010677108423958072,
      "loss": 3.8783,
      "step": 285480
    },
    {
      "epoch": 0.5947708333333334,
      "grad_norm": 1.010313868522644,
      "learning_rate": 0.00010676164405327267,
      "loss": 3.8753,
      "step": 285490
    },
    {
      "epoch": 0.5947916666666667,
      "grad_norm": 1.0195037126541138,
      "learning_rate": 0.00010675220405373723,
      "loss": 4.0717,
      "step": 285500
    },
    {
      "epoch": 0.5948125,
      "grad_norm": 1.2529047727584839,
      "learning_rate": 0.00010674276424101517,
      "loss": 3.9241,
      "step": 285510
    },
    {
      "epoch": 0.5948333333333333,
      "grad_norm": 1.0955519676208496,
      "learning_rate": 0.00010673332461514719,
      "loss": 3.8132,
      "step": 285520
    },
    {
      "epoch": 0.5948541666666667,
      "grad_norm": 0.9905575513839722,
      "learning_rate": 0.00010672388517617415,
      "loss": 3.9223,
      "step": 285530
    },
    {
      "epoch": 0.594875,
      "grad_norm": 0.9291926622390747,
      "learning_rate": 0.00010671444592413684,
      "loss": 3.7914,
      "step": 285540
    },
    {
      "epoch": 0.5948958333333333,
      "grad_norm": 1.1012814044952393,
      "learning_rate": 0.00010670500685907592,
      "loss": 3.8932,
      "step": 285550
    },
    {
      "epoch": 0.5949166666666666,
      "grad_norm": 1.2669322490692139,
      "learning_rate": 0.00010669556798103228,
      "loss": 3.7722,
      "step": 285560
    },
    {
      "epoch": 0.5949375,
      "grad_norm": 1.026769995689392,
      "learning_rate": 0.00010668612929004663,
      "loss": 3.8455,
      "step": 285570
    },
    {
      "epoch": 0.5949583333333334,
      "grad_norm": 0.9975214004516602,
      "learning_rate": 0.00010667669078615975,
      "loss": 3.7829,
      "step": 285580
    },
    {
      "epoch": 0.5949791666666666,
      "grad_norm": 1.0661101341247559,
      "learning_rate": 0.00010666725246941243,
      "loss": 3.8614,
      "step": 285590
    },
    {
      "epoch": 0.595,
      "grad_norm": 1.1305290460586548,
      "learning_rate": 0.00010665781433984544,
      "loss": 3.6777,
      "step": 285600
    },
    {
      "epoch": 0.5950208333333333,
      "grad_norm": 0.9927195906639099,
      "learning_rate": 0.00010664837639749954,
      "loss": 3.8226,
      "step": 285610
    },
    {
      "epoch": 0.5950416666666667,
      "grad_norm": 1.0921831130981445,
      "learning_rate": 0.00010663893864241545,
      "loss": 4.0301,
      "step": 285620
    },
    {
      "epoch": 0.5950625,
      "grad_norm": 1.0047434568405151,
      "learning_rate": 0.00010662950107463399,
      "loss": 3.9672,
      "step": 285630
    },
    {
      "epoch": 0.5950833333333333,
      "grad_norm": 0.9894151091575623,
      "learning_rate": 0.00010662006369419596,
      "loss": 3.9949,
      "step": 285640
    },
    {
      "epoch": 0.5951041666666667,
      "grad_norm": 0.9632816314697266,
      "learning_rate": 0.00010661062650114202,
      "loss": 3.9529,
      "step": 285650
    },
    {
      "epoch": 0.595125,
      "grad_norm": 0.9837243556976318,
      "learning_rate": 0.00010660118949551302,
      "loss": 3.9308,
      "step": 285660
    },
    {
      "epoch": 0.5951458333333334,
      "grad_norm": 0.9773657321929932,
      "learning_rate": 0.00010659175267734976,
      "loss": 3.9339,
      "step": 285670
    },
    {
      "epoch": 0.5951666666666666,
      "grad_norm": 0.9902390241622925,
      "learning_rate": 0.00010658231604669288,
      "loss": 3.7191,
      "step": 285680
    },
    {
      "epoch": 0.5951875,
      "grad_norm": 0.9669973254203796,
      "learning_rate": 0.00010657287960358323,
      "loss": 3.7981,
      "step": 285690
    },
    {
      "epoch": 0.5952083333333333,
      "grad_norm": 2.1729516983032227,
      "learning_rate": 0.00010656344334806158,
      "loss": 4.102,
      "step": 285700
    },
    {
      "epoch": 0.5952291666666667,
      "grad_norm": 0.9467861652374268,
      "learning_rate": 0.00010655400728016861,
      "loss": 4.0441,
      "step": 285710
    },
    {
      "epoch": 0.59525,
      "grad_norm": 1.0677670240402222,
      "learning_rate": 0.00010654457139994517,
      "loss": 4.1225,
      "step": 285720
    },
    {
      "epoch": 0.5952708333333333,
      "grad_norm": 1.0454435348510742,
      "learning_rate": 0.00010653513570743197,
      "loss": 3.7518,
      "step": 285730
    },
    {
      "epoch": 0.5952916666666667,
      "grad_norm": 0.9698753356933594,
      "learning_rate": 0.00010652570020266973,
      "loss": 3.782,
      "step": 285740
    },
    {
      "epoch": 0.5953125,
      "grad_norm": 1.1006637811660767,
      "learning_rate": 0.00010651626488569933,
      "loss": 3.8965,
      "step": 285750
    },
    {
      "epoch": 0.5953333333333334,
      "grad_norm": 0.9717772603034973,
      "learning_rate": 0.00010650682975656143,
      "loss": 4.0113,
      "step": 285760
    },
    {
      "epoch": 0.5953541666666666,
      "grad_norm": 1.0234586000442505,
      "learning_rate": 0.00010649739481529677,
      "loss": 3.9087,
      "step": 285770
    },
    {
      "epoch": 0.595375,
      "grad_norm": 1.0607728958129883,
      "learning_rate": 0.00010648796006194621,
      "loss": 3.9685,
      "step": 285780
    },
    {
      "epoch": 0.5953958333333333,
      "grad_norm": 0.9835913777351379,
      "learning_rate": 0.00010647852549655041,
      "loss": 3.801,
      "step": 285790
    },
    {
      "epoch": 0.5954166666666667,
      "grad_norm": 1.037790060043335,
      "learning_rate": 0.00010646909111915012,
      "loss": 3.9289,
      "step": 285800
    },
    {
      "epoch": 0.5954375,
      "grad_norm": 1.0529097318649292,
      "learning_rate": 0.00010645965692978618,
      "loss": 3.9045,
      "step": 285810
    },
    {
      "epoch": 0.5954583333333333,
      "grad_norm": 1.0587927103042603,
      "learning_rate": 0.00010645022292849928,
      "loss": 3.7821,
      "step": 285820
    },
    {
      "epoch": 0.5954791666666667,
      "grad_norm": 1.0279393196105957,
      "learning_rate": 0.00010644078911533012,
      "loss": 3.9461,
      "step": 285830
    },
    {
      "epoch": 0.5955,
      "grad_norm": 1.126733422279358,
      "learning_rate": 0.00010643135549031958,
      "loss": 3.9122,
      "step": 285840
    },
    {
      "epoch": 0.5955208333333334,
      "grad_norm": 1.061109185218811,
      "learning_rate": 0.00010642192205350835,
      "loss": 3.9235,
      "step": 285850
    },
    {
      "epoch": 0.5955416666666666,
      "grad_norm": 0.9502657651901245,
      "learning_rate": 0.0001064124888049371,
      "loss": 3.9159,
      "step": 285860
    },
    {
      "epoch": 0.5955625,
      "grad_norm": 0.9778409004211426,
      "learning_rate": 0.00010640305574464667,
      "loss": 4.0177,
      "step": 285870
    },
    {
      "epoch": 0.5955833333333334,
      "grad_norm": 1.0281293392181396,
      "learning_rate": 0.00010639362287267782,
      "loss": 3.9333,
      "step": 285880
    },
    {
      "epoch": 0.5956041666666667,
      "grad_norm": 1.0812865495681763,
      "learning_rate": 0.00010638419018907121,
      "loss": 3.9964,
      "step": 285890
    },
    {
      "epoch": 0.595625,
      "grad_norm": 1.034850001335144,
      "learning_rate": 0.00010637475769386762,
      "loss": 3.8699,
      "step": 285900
    },
    {
      "epoch": 0.5956458333333333,
      "grad_norm": 0.9724791646003723,
      "learning_rate": 0.00010636532538710787,
      "loss": 4.1168,
      "step": 285910
    },
    {
      "epoch": 0.5956666666666667,
      "grad_norm": 1.1193516254425049,
      "learning_rate": 0.00010635589326883261,
      "loss": 3.8673,
      "step": 285920
    },
    {
      "epoch": 0.5956875,
      "grad_norm": 1.3624730110168457,
      "learning_rate": 0.00010634646133908258,
      "loss": 3.8822,
      "step": 285930
    },
    {
      "epoch": 0.5957083333333333,
      "grad_norm": 1.0315996408462524,
      "learning_rate": 0.00010633702959789863,
      "loss": 3.9064,
      "step": 285940
    },
    {
      "epoch": 0.5957291666666666,
      "grad_norm": 1.023079514503479,
      "learning_rate": 0.00010632759804532138,
      "loss": 4.0816,
      "step": 285950
    },
    {
      "epoch": 0.59575,
      "grad_norm": 0.887710690498352,
      "learning_rate": 0.00010631816668139161,
      "loss": 4.1253,
      "step": 285960
    },
    {
      "epoch": 0.5957708333333334,
      "grad_norm": 0.9461584091186523,
      "learning_rate": 0.00010630873550615011,
      "loss": 3.8013,
      "step": 285970
    },
    {
      "epoch": 0.5957916666666667,
      "grad_norm": 1.0306123495101929,
      "learning_rate": 0.00010629930451963761,
      "loss": 3.874,
      "step": 285980
    },
    {
      "epoch": 0.5958125,
      "grad_norm": 1.1689189672470093,
      "learning_rate": 0.00010628987372189473,
      "loss": 3.9838,
      "step": 285990
    },
    {
      "epoch": 0.5958333333333333,
      "grad_norm": 1.0770963430404663,
      "learning_rate": 0.00010628044311296233,
      "loss": 3.8864,
      "step": 286000
    },
    {
      "epoch": 0.5958333333333333,
      "eval_loss": 3.585869550704956,
      "eval_runtime": 7.8144,
      "eval_samples_per_second": 1.28,
      "eval_steps_per_second": 0.384,
      "step": 286000
    },
    {
      "epoch": 0.5958541666666667,
      "grad_norm": 1.0466736555099487,
      "learning_rate": 0.00010627101269288113,
      "loss": 4.0534,
      "step": 286010
    },
    {
      "epoch": 0.595875,
      "grad_norm": 1.0308306217193604,
      "learning_rate": 0.0001062615824616918,
      "loss": 3.8579,
      "step": 286020
    },
    {
      "epoch": 0.5958958333333333,
      "grad_norm": 1.1947942972183228,
      "learning_rate": 0.00010625215241943514,
      "loss": 3.7904,
      "step": 286030
    },
    {
      "epoch": 0.5959166666666667,
      "grad_norm": 0.9528223276138306,
      "learning_rate": 0.00010624272256615191,
      "loss": 3.6476,
      "step": 286040
    },
    {
      "epoch": 0.5959375,
      "grad_norm": 1.1846182346343994,
      "learning_rate": 0.00010623329290188273,
      "loss": 4.1572,
      "step": 286050
    },
    {
      "epoch": 0.5959583333333334,
      "grad_norm": 1.2186181545257568,
      "learning_rate": 0.00010622386342666844,
      "loss": 4.0297,
      "step": 286060
    },
    {
      "epoch": 0.5959791666666666,
      "grad_norm": 0.9199333786964417,
      "learning_rate": 0.00010621443414054976,
      "loss": 3.8533,
      "step": 286070
    },
    {
      "epoch": 0.596,
      "grad_norm": 0.9401821494102478,
      "learning_rate": 0.00010620500504356732,
      "loss": 3.8465,
      "step": 286080
    },
    {
      "epoch": 0.5960208333333333,
      "grad_norm": 1.1555026769638062,
      "learning_rate": 0.00010619557613576195,
      "loss": 3.8033,
      "step": 286090
    },
    {
      "epoch": 0.5960416666666667,
      "grad_norm": 1.0078065395355225,
      "learning_rate": 0.00010618614741717439,
      "loss": 4.0784,
      "step": 286100
    },
    {
      "epoch": 0.5960625,
      "grad_norm": 0.9367312788963318,
      "learning_rate": 0.00010617671888784528,
      "loss": 4.0957,
      "step": 286110
    },
    {
      "epoch": 0.5960833333333333,
      "grad_norm": 1.1566718816757202,
      "learning_rate": 0.00010616729054781544,
      "loss": 3.8352,
      "step": 286120
    },
    {
      "epoch": 0.5961041666666667,
      "grad_norm": 1.076661467552185,
      "learning_rate": 0.00010615786239712553,
      "loss": 3.9205,
      "step": 286130
    },
    {
      "epoch": 0.596125,
      "grad_norm": 1.025827169418335,
      "learning_rate": 0.00010614843443581626,
      "loss": 4.0508,
      "step": 286140
    },
    {
      "epoch": 0.5961458333333334,
      "grad_norm": 1.1016204357147217,
      "learning_rate": 0.00010613900666392849,
      "loss": 3.7035,
      "step": 286150
    },
    {
      "epoch": 0.5961666666666666,
      "grad_norm": 0.9949753284454346,
      "learning_rate": 0.0001061295790815028,
      "loss": 3.9183,
      "step": 286160
    },
    {
      "epoch": 0.5961875,
      "grad_norm": 1.1684061288833618,
      "learning_rate": 0.00010612015168857993,
      "loss": 4.0862,
      "step": 286170
    },
    {
      "epoch": 0.5962083333333333,
      "grad_norm": 0.9808566570281982,
      "learning_rate": 0.0001061107244852007,
      "loss": 3.9133,
      "step": 286180
    },
    {
      "epoch": 0.5962291666666667,
      "grad_norm": 1.1277759075164795,
      "learning_rate": 0.00010610129747140575,
      "loss": 3.9241,
      "step": 286190
    },
    {
      "epoch": 0.59625,
      "grad_norm": 1.0265535116195679,
      "learning_rate": 0.00010609187064723581,
      "loss": 3.8454,
      "step": 286200
    },
    {
      "epoch": 0.5962708333333333,
      "grad_norm": 1.0566943883895874,
      "learning_rate": 0.00010608244401273159,
      "loss": 3.9278,
      "step": 286210
    },
    {
      "epoch": 0.5962916666666667,
      "grad_norm": 1.1018803119659424,
      "learning_rate": 0.00010607301756793386,
      "loss": 3.7902,
      "step": 286220
    },
    {
      "epoch": 0.5963125,
      "grad_norm": 0.9831072688102722,
      "learning_rate": 0.00010606359131288329,
      "loss": 4.0097,
      "step": 286230
    },
    {
      "epoch": 0.5963333333333334,
      "grad_norm": 1.0596555471420288,
      "learning_rate": 0.00010605416524762058,
      "loss": 3.9273,
      "step": 286240
    },
    {
      "epoch": 0.5963541666666666,
      "grad_norm": 1.1239678859710693,
      "learning_rate": 0.00010604473937218654,
      "loss": 3.9207,
      "step": 286250
    },
    {
      "epoch": 0.596375,
      "grad_norm": 1.0797522068023682,
      "learning_rate": 0.00010603531368662181,
      "loss": 3.849,
      "step": 286260
    },
    {
      "epoch": 0.5963958333333333,
      "grad_norm": 1.0353517532348633,
      "learning_rate": 0.00010602588819096708,
      "loss": 3.9726,
      "step": 286270
    },
    {
      "epoch": 0.5964166666666667,
      "grad_norm": 3.4281365871429443,
      "learning_rate": 0.00010601646288526317,
      "loss": 3.9669,
      "step": 286280
    },
    {
      "epoch": 0.5964375,
      "grad_norm": 1.0885722637176514,
      "learning_rate": 0.0001060070377695507,
      "loss": 3.8963,
      "step": 286290
    },
    {
      "epoch": 0.5964583333333333,
      "grad_norm": 1.086692452430725,
      "learning_rate": 0.00010599761284387039,
      "loss": 3.9016,
      "step": 286300
    },
    {
      "epoch": 0.5964791666666667,
      "grad_norm": 0.967206597328186,
      "learning_rate": 0.00010598818810826303,
      "loss": 4.068,
      "step": 286310
    },
    {
      "epoch": 0.5965,
      "grad_norm": 1.0222512483596802,
      "learning_rate": 0.00010597876356276924,
      "loss": 3.9094,
      "step": 286320
    },
    {
      "epoch": 0.5965208333333333,
      "grad_norm": 1.2117398977279663,
      "learning_rate": 0.00010596933920742975,
      "loss": 3.906,
      "step": 286330
    },
    {
      "epoch": 0.5965416666666666,
      "grad_norm": 1.2400484085083008,
      "learning_rate": 0.00010595991504228533,
      "loss": 3.9846,
      "step": 286340
    },
    {
      "epoch": 0.5965625,
      "grad_norm": 1.0153374671936035,
      "learning_rate": 0.00010595049106737666,
      "loss": 3.8499,
      "step": 286350
    },
    {
      "epoch": 0.5965833333333334,
      "grad_norm": 1.4907582998275757,
      "learning_rate": 0.00010594106728274437,
      "loss": 3.8273,
      "step": 286360
    },
    {
      "epoch": 0.5966041666666667,
      "grad_norm": 0.9898589849472046,
      "learning_rate": 0.00010593164368842924,
      "loss": 3.8402,
      "step": 286370
    },
    {
      "epoch": 0.596625,
      "grad_norm": 0.9744532704353333,
      "learning_rate": 0.00010592222028447203,
      "loss": 3.9514,
      "step": 286380
    },
    {
      "epoch": 0.5966458333333333,
      "grad_norm": 1.1859098672866821,
      "learning_rate": 0.0001059127970709133,
      "loss": 4.055,
      "step": 286390
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 1.1360869407653809,
      "learning_rate": 0.00010590337404779386,
      "loss": 3.8883,
      "step": 286400
    },
    {
      "epoch": 0.5966875,
      "grad_norm": 0.9606004953384399,
      "learning_rate": 0.00010589395121515441,
      "loss": 3.8215,
      "step": 286410
    },
    {
      "epoch": 0.5967083333333333,
      "grad_norm": 1.0245254039764404,
      "learning_rate": 0.0001058845285730356,
      "loss": 4.0301,
      "step": 286420
    },
    {
      "epoch": 0.5967291666666666,
      "grad_norm": 1.1404426097869873,
      "learning_rate": 0.0001058751061214782,
      "loss": 4.034,
      "step": 286430
    },
    {
      "epoch": 0.59675,
      "grad_norm": 0.950862467288971,
      "learning_rate": 0.00010586568386052289,
      "loss": 4.0149,
      "step": 286440
    },
    {
      "epoch": 0.5967708333333334,
      "grad_norm": 1.1500179767608643,
      "learning_rate": 0.00010585626179021028,
      "loss": 3.6853,
      "step": 286450
    },
    {
      "epoch": 0.5967916666666667,
      "grad_norm": 1.1257874965667725,
      "learning_rate": 0.0001058468399105812,
      "loss": 3.8273,
      "step": 286460
    },
    {
      "epoch": 0.5968125,
      "grad_norm": 1.0360801219940186,
      "learning_rate": 0.00010583741822167631,
      "loss": 3.7483,
      "step": 286470
    },
    {
      "epoch": 0.5968333333333333,
      "grad_norm": 0.9725364446640015,
      "learning_rate": 0.00010582799672353631,
      "loss": 3.9236,
      "step": 286480
    },
    {
      "epoch": 0.5968541666666667,
      "grad_norm": 0.9440993666648865,
      "learning_rate": 0.0001058185754162018,
      "loss": 3.9453,
      "step": 286490
    },
    {
      "epoch": 0.596875,
      "grad_norm": 1.1588644981384277,
      "learning_rate": 0.0001058091542997136,
      "loss": 3.8811,
      "step": 286500
    },
    {
      "epoch": 0.5968958333333333,
      "grad_norm": 1.033158779144287,
      "learning_rate": 0.0001057997333741124,
      "loss": 3.7905,
      "step": 286510
    },
    {
      "epoch": 0.5969166666666667,
      "grad_norm": 1.0866162776947021,
      "learning_rate": 0.00010579031263943877,
      "loss": 3.8386,
      "step": 286520
    },
    {
      "epoch": 0.5969375,
      "grad_norm": 1.1176894903182983,
      "learning_rate": 0.00010578089209573351,
      "loss": 4.1561,
      "step": 286530
    },
    {
      "epoch": 0.5969583333333334,
      "grad_norm": 1.102369785308838,
      "learning_rate": 0.00010577147174303738,
      "loss": 3.9632,
      "step": 286540
    },
    {
      "epoch": 0.5969791666666666,
      "grad_norm": 1.1366099119186401,
      "learning_rate": 0.00010576205158139087,
      "loss": 4.1132,
      "step": 286550
    },
    {
      "epoch": 0.597,
      "grad_norm": 0.9969509243965149,
      "learning_rate": 0.00010575263161083485,
      "loss": 3.914,
      "step": 286560
    },
    {
      "epoch": 0.5970208333333333,
      "grad_norm": 1.0726181268692017,
      "learning_rate": 0.00010574321183140995,
      "loss": 4.0276,
      "step": 286570
    },
    {
      "epoch": 0.5970416666666667,
      "grad_norm": 0.9605804085731506,
      "learning_rate": 0.0001057337922431568,
      "loss": 4.0408,
      "step": 286580
    },
    {
      "epoch": 0.5970625,
      "grad_norm": 1.0291707515716553,
      "learning_rate": 0.0001057243728461162,
      "loss": 3.8492,
      "step": 286590
    },
    {
      "epoch": 0.5970833333333333,
      "grad_norm": 0.9172250628471375,
      "learning_rate": 0.0001057149536403288,
      "loss": 4.0671,
      "step": 286600
    },
    {
      "epoch": 0.5971041666666667,
      "grad_norm": 1.010491967201233,
      "learning_rate": 0.00010570553462583521,
      "loss": 3.9484,
      "step": 286610
    },
    {
      "epoch": 0.597125,
      "grad_norm": 0.93548184633255,
      "learning_rate": 0.00010569611580267623,
      "loss": 3.8088,
      "step": 286620
    },
    {
      "epoch": 0.5971458333333334,
      "grad_norm": 1.1940935850143433,
      "learning_rate": 0.00010568669717089249,
      "loss": 3.982,
      "step": 286630
    },
    {
      "epoch": 0.5971666666666666,
      "grad_norm": 1.0129954814910889,
      "learning_rate": 0.00010567727873052462,
      "loss": 4.1151,
      "step": 286640
    },
    {
      "epoch": 0.5971875,
      "grad_norm": 1.0665245056152344,
      "learning_rate": 0.00010566786048161342,
      "loss": 3.8625,
      "step": 286650
    },
    {
      "epoch": 0.5972083333333333,
      "grad_norm": 1.1851202249526978,
      "learning_rate": 0.00010565844242419951,
      "loss": 3.7459,
      "step": 286660
    },
    {
      "epoch": 0.5972291666666667,
      "grad_norm": 1.26758873462677,
      "learning_rate": 0.00010564902455832353,
      "loss": 3.9688,
      "step": 286670
    },
    {
      "epoch": 0.59725,
      "grad_norm": 0.9934169054031372,
      "learning_rate": 0.00010563960688402628,
      "loss": 3.8612,
      "step": 286680
    },
    {
      "epoch": 0.5972708333333333,
      "grad_norm": 0.9529134035110474,
      "learning_rate": 0.00010563018940134831,
      "loss": 3.8583,
      "step": 286690
    },
    {
      "epoch": 0.5972916666666667,
      "grad_norm": 1.0254377126693726,
      "learning_rate": 0.00010562077211033035,
      "loss": 3.9195,
      "step": 286700
    },
    {
      "epoch": 0.5973125,
      "grad_norm": 1.0870251655578613,
      "learning_rate": 0.00010561135501101316,
      "loss": 3.9368,
      "step": 286710
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 0.933675229549408,
      "learning_rate": 0.00010560193810343733,
      "loss": 3.8426,
      "step": 286720
    },
    {
      "epoch": 0.5973541666666666,
      "grad_norm": 0.9769095778465271,
      "learning_rate": 0.0001055925213876435,
      "loss": 3.9387,
      "step": 286730
    },
    {
      "epoch": 0.597375,
      "grad_norm": 0.9906003475189209,
      "learning_rate": 0.00010558310486367241,
      "loss": 3.8279,
      "step": 286740
    },
    {
      "epoch": 0.5973958333333333,
      "grad_norm": 1.0465856790542603,
      "learning_rate": 0.0001055736885315648,
      "loss": 3.8657,
      "step": 286750
    },
    {
      "epoch": 0.5974166666666667,
      "grad_norm": 1.597610354423523,
      "learning_rate": 0.00010556427239136118,
      "loss": 3.9635,
      "step": 286760
    },
    {
      "epoch": 0.5974375,
      "grad_norm": 1.0078901052474976,
      "learning_rate": 0.00010555485644310235,
      "loss": 3.9463,
      "step": 286770
    },
    {
      "epoch": 0.5974583333333333,
      "grad_norm": 0.9784849286079407,
      "learning_rate": 0.00010554544068682897,
      "loss": 3.8118,
      "step": 286780
    },
    {
      "epoch": 0.5974791666666667,
      "grad_norm": 1.057157278060913,
      "learning_rate": 0.00010553602512258167,
      "loss": 3.8563,
      "step": 286790
    },
    {
      "epoch": 0.5975,
      "grad_norm": 1.191370964050293,
      "learning_rate": 0.00010552660975040111,
      "loss": 3.8711,
      "step": 286800
    },
    {
      "epoch": 0.5975208333333333,
      "grad_norm": 0.9767272472381592,
      "learning_rate": 0.00010551719457032804,
      "loss": 3.8423,
      "step": 286810
    },
    {
      "epoch": 0.5975416666666666,
      "grad_norm": 1.2261799573898315,
      "learning_rate": 0.00010550777958240307,
      "loss": 3.903,
      "step": 286820
    },
    {
      "epoch": 0.5975625,
      "grad_norm": 0.9890112280845642,
      "learning_rate": 0.00010549836478666683,
      "loss": 3.5898,
      "step": 286830
    },
    {
      "epoch": 0.5975833333333334,
      "grad_norm": 1.0881966352462769,
      "learning_rate": 0.0001054889501831601,
      "loss": 4.0395,
      "step": 286840
    },
    {
      "epoch": 0.5976041666666667,
      "grad_norm": 1.038370132446289,
      "learning_rate": 0.00010547953577192351,
      "loss": 3.8592,
      "step": 286850
    },
    {
      "epoch": 0.597625,
      "grad_norm": 1.7404664754867554,
      "learning_rate": 0.00010547012155299764,
      "loss": 4.1214,
      "step": 286860
    },
    {
      "epoch": 0.5976458333333333,
      "grad_norm": 1.035378098487854,
      "learning_rate": 0.00010546070752642323,
      "loss": 3.8513,
      "step": 286870
    },
    {
      "epoch": 0.5976666666666667,
      "grad_norm": 0.9648504257202148,
      "learning_rate": 0.00010545129369224097,
      "loss": 4.0582,
      "step": 286880
    },
    {
      "epoch": 0.5976875,
      "grad_norm": 0.9669030904769897,
      "learning_rate": 0.00010544188005049142,
      "loss": 3.9256,
      "step": 286890
    },
    {
      "epoch": 0.5977083333333333,
      "grad_norm": 0.9248555898666382,
      "learning_rate": 0.00010543246660121536,
      "loss": 3.8682,
      "step": 286900
    },
    {
      "epoch": 0.5977291666666666,
      "grad_norm": 1.141074538230896,
      "learning_rate": 0.00010542305334445343,
      "loss": 3.9504,
      "step": 286910
    },
    {
      "epoch": 0.59775,
      "grad_norm": 1.0068963766098022,
      "learning_rate": 0.0001054136402802462,
      "loss": 3.751,
      "step": 286920
    },
    {
      "epoch": 0.5977708333333334,
      "grad_norm": 0.9543634653091431,
      "learning_rate": 0.00010540422740863443,
      "loss": 3.9195,
      "step": 286930
    },
    {
      "epoch": 0.5977916666666667,
      "grad_norm": 0.9845688939094543,
      "learning_rate": 0.00010539481472965877,
      "loss": 3.7878,
      "step": 286940
    },
    {
      "epoch": 0.5978125,
      "grad_norm": 0.9943510890007019,
      "learning_rate": 0.00010538540224335979,
      "loss": 3.9272,
      "step": 286950
    },
    {
      "epoch": 0.5978333333333333,
      "grad_norm": 0.9699611067771912,
      "learning_rate": 0.00010537598994977824,
      "loss": 3.8374,
      "step": 286960
    },
    {
      "epoch": 0.5978541666666667,
      "grad_norm": 0.9823535680770874,
      "learning_rate": 0.00010536657784895481,
      "loss": 3.9521,
      "step": 286970
    },
    {
      "epoch": 0.597875,
      "grad_norm": 1.0247784852981567,
      "learning_rate": 0.00010535716594092998,
      "loss": 3.8731,
      "step": 286980
    },
    {
      "epoch": 0.5978958333333333,
      "grad_norm": 0.9785288572311401,
      "learning_rate": 0.00010534775422574464,
      "loss": 3.8938,
      "step": 286990
    },
    {
      "epoch": 0.5979166666666667,
      "grad_norm": 0.9633156061172485,
      "learning_rate": 0.00010533834270343926,
      "loss": 3.9975,
      "step": 287000
    },
    {
      "epoch": 0.5979166666666667,
      "eval_loss": 3.581387996673584,
      "eval_runtime": 7.8811,
      "eval_samples_per_second": 1.269,
      "eval_steps_per_second": 0.381,
      "step": 287000
    },
    {
      "epoch": 0.5979375,
      "grad_norm": 1.0961296558380127,
      "learning_rate": 0.00010532893137405455,
      "loss": 3.9551,
      "step": 287010
    },
    {
      "epoch": 0.5979583333333334,
      "grad_norm": 0.972602128982544,
      "learning_rate": 0.00010531952023763121,
      "loss": 3.9888,
      "step": 287020
    },
    {
      "epoch": 0.5979791666666666,
      "grad_norm": 1.0959217548370361,
      "learning_rate": 0.00010531010929420987,
      "loss": 3.9132,
      "step": 287030
    },
    {
      "epoch": 0.598,
      "grad_norm": 1.0296658277511597,
      "learning_rate": 0.0001053006985438311,
      "loss": 3.918,
      "step": 287040
    },
    {
      "epoch": 0.5980208333333333,
      "grad_norm": 1.2573180198669434,
      "learning_rate": 0.0001052912879865357,
      "loss": 3.9663,
      "step": 287050
    },
    {
      "epoch": 0.5980416666666667,
      "grad_norm": 1.0376681089401245,
      "learning_rate": 0.00010528187762236421,
      "loss": 3.786,
      "step": 287060
    },
    {
      "epoch": 0.5980625,
      "grad_norm": 1.00465726852417,
      "learning_rate": 0.00010527246745135732,
      "loss": 3.86,
      "step": 287070
    },
    {
      "epoch": 0.5980833333333333,
      "grad_norm": 1.659079909324646,
      "learning_rate": 0.00010526305747355562,
      "loss": 3.967,
      "step": 287080
    },
    {
      "epoch": 0.5981041666666667,
      "grad_norm": 1.0469093322753906,
      "learning_rate": 0.00010525364768899982,
      "loss": 3.9923,
      "step": 287090
    },
    {
      "epoch": 0.598125,
      "grad_norm": 1.0719269514083862,
      "learning_rate": 0.0001052442380977306,
      "loss": 3.7685,
      "step": 287100
    },
    {
      "epoch": 0.5981458333333334,
      "grad_norm": 1.0441011190414429,
      "learning_rate": 0.00010523482869978848,
      "loss": 3.7232,
      "step": 287110
    },
    {
      "epoch": 0.5981666666666666,
      "grad_norm": 0.979799211025238,
      "learning_rate": 0.00010522541949521426,
      "loss": 3.8816,
      "step": 287120
    },
    {
      "epoch": 0.5981875,
      "grad_norm": 1.1884759664535522,
      "learning_rate": 0.00010521601048404846,
      "loss": 4.001,
      "step": 287130
    },
    {
      "epoch": 0.5982083333333333,
      "grad_norm": 1.0103956460952759,
      "learning_rate": 0.00010520660166633173,
      "loss": 3.902,
      "step": 287140
    },
    {
      "epoch": 0.5982291666666667,
      "grad_norm": 1.1797678470611572,
      "learning_rate": 0.0001051971930421048,
      "loss": 3.9524,
      "step": 287150
    },
    {
      "epoch": 0.59825,
      "grad_norm": 1.1136595010757446,
      "learning_rate": 0.00010518778461140827,
      "loss": 3.8467,
      "step": 287160
    },
    {
      "epoch": 0.5982708333333333,
      "grad_norm": 1.0453312397003174,
      "learning_rate": 0.00010517837637428272,
      "loss": 3.6591,
      "step": 287170
    },
    {
      "epoch": 0.5982916666666667,
      "grad_norm": 1.0212864875793457,
      "learning_rate": 0.00010516896833076892,
      "loss": 3.8493,
      "step": 287180
    },
    {
      "epoch": 0.5983125,
      "grad_norm": 1.1736420392990112,
      "learning_rate": 0.00010515956048090737,
      "loss": 4.0248,
      "step": 287190
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 1.0700653791427612,
      "learning_rate": 0.00010515015282473877,
      "loss": 3.971,
      "step": 287200
    },
    {
      "epoch": 0.5983541666666666,
      "grad_norm": 1.0017796754837036,
      "learning_rate": 0.00010514074536230382,
      "loss": 3.8205,
      "step": 287210
    },
    {
      "epoch": 0.598375,
      "grad_norm": 2.519176483154297,
      "learning_rate": 0.00010513133809364305,
      "loss": 3.901,
      "step": 287220
    },
    {
      "epoch": 0.5983958333333333,
      "grad_norm": 1.2708994150161743,
      "learning_rate": 0.00010512193101879712,
      "loss": 3.6856,
      "step": 287230
    },
    {
      "epoch": 0.5984166666666667,
      "grad_norm": 1.034286618232727,
      "learning_rate": 0.0001051125241378067,
      "loss": 4.0348,
      "step": 287240
    },
    {
      "epoch": 0.5984375,
      "grad_norm": 1.0392416715621948,
      "learning_rate": 0.00010510311745071244,
      "loss": 4.005,
      "step": 287250
    },
    {
      "epoch": 0.5984583333333333,
      "grad_norm": 1.0018706321716309,
      "learning_rate": 0.00010509371095755489,
      "loss": 3.8603,
      "step": 287260
    },
    {
      "epoch": 0.5984791666666667,
      "grad_norm": 0.9891753196716309,
      "learning_rate": 0.00010508430465837473,
      "loss": 3.7895,
      "step": 287270
    },
    {
      "epoch": 0.5985,
      "grad_norm": 0.9696263074874878,
      "learning_rate": 0.00010507489855321267,
      "loss": 4.0634,
      "step": 287280
    },
    {
      "epoch": 0.5985208333333333,
      "grad_norm": 1.024126648902893,
      "learning_rate": 0.00010506549264210918,
      "loss": 4.0579,
      "step": 287290
    },
    {
      "epoch": 0.5985416666666666,
      "grad_norm": 1.0220457315444946,
      "learning_rate": 0.000105056086925105,
      "loss": 3.7567,
      "step": 287300
    },
    {
      "epoch": 0.5985625,
      "grad_norm": 1.0504399538040161,
      "learning_rate": 0.00010504668140224078,
      "loss": 3.9044,
      "step": 287310
    },
    {
      "epoch": 0.5985833333333334,
      "grad_norm": 1.088409185409546,
      "learning_rate": 0.00010503727607355704,
      "loss": 3.8861,
      "step": 287320
    },
    {
      "epoch": 0.5986041666666667,
      "grad_norm": 0.9458677172660828,
      "learning_rate": 0.00010502787093909451,
      "loss": 3.8072,
      "step": 287330
    },
    {
      "epoch": 0.598625,
      "grad_norm": 1.031049132347107,
      "learning_rate": 0.00010501846599889377,
      "loss": 3.9374,
      "step": 287340
    },
    {
      "epoch": 0.5986458333333333,
      "grad_norm": 1.0212708711624146,
      "learning_rate": 0.00010500906125299542,
      "loss": 4.0017,
      "step": 287350
    },
    {
      "epoch": 0.5986666666666667,
      "grad_norm": 1.3051921129226685,
      "learning_rate": 0.00010499965670144018,
      "loss": 3.8499,
      "step": 287360
    },
    {
      "epoch": 0.5986875,
      "grad_norm": 1.0731436014175415,
      "learning_rate": 0.00010499025234426856,
      "loss": 3.902,
      "step": 287370
    },
    {
      "epoch": 0.5987083333333333,
      "grad_norm": 1.0071531534194946,
      "learning_rate": 0.00010498084818152129,
      "loss": 3.6802,
      "step": 287380
    },
    {
      "epoch": 0.5987291666666666,
      "grad_norm": 1.0580017566680908,
      "learning_rate": 0.00010497144421323885,
      "loss": 3.8486,
      "step": 287390
    },
    {
      "epoch": 0.59875,
      "grad_norm": 1.0132195949554443,
      "learning_rate": 0.000104962040439462,
      "loss": 3.9955,
      "step": 287400
    },
    {
      "epoch": 0.5987708333333334,
      "grad_norm": 0.9759977459907532,
      "learning_rate": 0.00010495263686023132,
      "loss": 3.9396,
      "step": 287410
    },
    {
      "epoch": 0.5987916666666667,
      "grad_norm": 0.9574421644210815,
      "learning_rate": 0.00010494323347558738,
      "loss": 4.0013,
      "step": 287420
    },
    {
      "epoch": 0.5988125,
      "grad_norm": 1.0287319421768188,
      "learning_rate": 0.00010493383028557084,
      "loss": 3.7183,
      "step": 287430
    },
    {
      "epoch": 0.5988333333333333,
      "grad_norm": 1.0389659404754639,
      "learning_rate": 0.00010492442729022236,
      "loss": 3.8441,
      "step": 287440
    },
    {
      "epoch": 0.5988541666666667,
      "grad_norm": 1.823628544807434,
      "learning_rate": 0.00010491502448958246,
      "loss": 4.145,
      "step": 287450
    },
    {
      "epoch": 0.598875,
      "grad_norm": 2.6249234676361084,
      "learning_rate": 0.00010490562188369183,
      "loss": 4.0917,
      "step": 287460
    },
    {
      "epoch": 0.5988958333333333,
      "grad_norm": 1.0662615299224854,
      "learning_rate": 0.00010489621947259107,
      "loss": 4.1956,
      "step": 287470
    },
    {
      "epoch": 0.5989166666666667,
      "grad_norm": 1.3608981370925903,
      "learning_rate": 0.00010488681725632075,
      "loss": 3.948,
      "step": 287480
    },
    {
      "epoch": 0.5989375,
      "grad_norm": 1.1187348365783691,
      "learning_rate": 0.0001048774152349216,
      "loss": 3.9157,
      "step": 287490
    },
    {
      "epoch": 0.5989583333333334,
      "grad_norm": 1.00967276096344,
      "learning_rate": 0.0001048680134084341,
      "loss": 3.8835,
      "step": 287500
    },
    {
      "epoch": 0.5989791666666666,
      "grad_norm": 0.9325722455978394,
      "learning_rate": 0.00010485861177689889,
      "loss": 3.8383,
      "step": 287510
    },
    {
      "epoch": 0.599,
      "grad_norm": 0.9583758115768433,
      "learning_rate": 0.00010484921034035668,
      "loss": 3.783,
      "step": 287520
    },
    {
      "epoch": 0.5990208333333333,
      "grad_norm": 1.071967601776123,
      "learning_rate": 0.00010483980909884798,
      "loss": 4.0306,
      "step": 287530
    },
    {
      "epoch": 0.5990416666666667,
      "grad_norm": 1.0342684984207153,
      "learning_rate": 0.00010483040805241339,
      "loss": 3.9594,
      "step": 287540
    },
    {
      "epoch": 0.5990625,
      "grad_norm": 1.0235742330551147,
      "learning_rate": 0.00010482100720109362,
      "loss": 3.8822,
      "step": 287550
    },
    {
      "epoch": 0.5990833333333333,
      "grad_norm": 1.309413194656372,
      "learning_rate": 0.00010481160654492919,
      "loss": 4.093,
      "step": 287560
    },
    {
      "epoch": 0.5991041666666667,
      "grad_norm": 1.0539114475250244,
      "learning_rate": 0.00010480220608396068,
      "loss": 4.0641,
      "step": 287570
    },
    {
      "epoch": 0.599125,
      "grad_norm": 1.1201343536376953,
      "learning_rate": 0.00010479280581822883,
      "loss": 3.9833,
      "step": 287580
    },
    {
      "epoch": 0.5991458333333334,
      "grad_norm": 1.0751184225082397,
      "learning_rate": 0.00010478340574777414,
      "loss": 3.8388,
      "step": 287590
    },
    {
      "epoch": 0.5991666666666666,
      "grad_norm": 1.1548776626586914,
      "learning_rate": 0.00010477400587263721,
      "loss": 3.861,
      "step": 287600
    },
    {
      "epoch": 0.5991875,
      "grad_norm": 0.9465711712837219,
      "learning_rate": 0.00010476460619285872,
      "loss": 3.9951,
      "step": 287610
    },
    {
      "epoch": 0.5992083333333333,
      "grad_norm": 1.0463848114013672,
      "learning_rate": 0.00010475520670847924,
      "loss": 3.9588,
      "step": 287620
    },
    {
      "epoch": 0.5992291666666667,
      "grad_norm": 1.0256428718566895,
      "learning_rate": 0.00010474580741953927,
      "loss": 3.7982,
      "step": 287630
    },
    {
      "epoch": 0.59925,
      "grad_norm": 1.1128875017166138,
      "learning_rate": 0.00010473640832607957,
      "loss": 3.8827,
      "step": 287640
    },
    {
      "epoch": 0.5992708333333333,
      "grad_norm": 0.9568196535110474,
      "learning_rate": 0.00010472700942814066,
      "loss": 3.8605,
      "step": 287650
    },
    {
      "epoch": 0.5992916666666667,
      "grad_norm": 1.0770957469940186,
      "learning_rate": 0.00010471761072576315,
      "loss": 4.1417,
      "step": 287660
    },
    {
      "epoch": 0.5993125,
      "grad_norm": 1.1260499954223633,
      "learning_rate": 0.00010470821221898758,
      "loss": 3.8636,
      "step": 287670
    },
    {
      "epoch": 0.5993333333333334,
      "grad_norm": 1.0491222143173218,
      "learning_rate": 0.00010469881390785468,
      "loss": 3.7887,
      "step": 287680
    },
    {
      "epoch": 0.5993541666666666,
      "grad_norm": 1.1303296089172363,
      "learning_rate": 0.00010468941579240496,
      "loss": 3.8456,
      "step": 287690
    },
    {
      "epoch": 0.599375,
      "grad_norm": 1.0091710090637207,
      "learning_rate": 0.00010468001787267897,
      "loss": 3.6861,
      "step": 287700
    },
    {
      "epoch": 0.5993958333333333,
      "grad_norm": 0.9911957383155823,
      "learning_rate": 0.00010467062014871744,
      "loss": 3.9034,
      "step": 287710
    },
    {
      "epoch": 0.5994166666666667,
      "grad_norm": 1.9195996522903442,
      "learning_rate": 0.00010466122262056088,
      "loss": 4.0256,
      "step": 287720
    },
    {
      "epoch": 0.5994375,
      "grad_norm": 1.0250964164733887,
      "learning_rate": 0.00010465182528824983,
      "loss": 3.8245,
      "step": 287730
    },
    {
      "epoch": 0.5994583333333333,
      "grad_norm": 0.9518852829933167,
      "learning_rate": 0.00010464242815182498,
      "loss": 3.7008,
      "step": 287740
    },
    {
      "epoch": 0.5994791666666667,
      "grad_norm": 1.0024781227111816,
      "learning_rate": 0.00010463303121132694,
      "loss": 3.755,
      "step": 287750
    },
    {
      "epoch": 0.5995,
      "grad_norm": 0.9518929719924927,
      "learning_rate": 0.00010462363446679615,
      "loss": 4.0956,
      "step": 287760
    },
    {
      "epoch": 0.5995208333333333,
      "grad_norm": 0.9649195671081543,
      "learning_rate": 0.00010461423791827334,
      "loss": 3.9227,
      "step": 287770
    },
    {
      "epoch": 0.5995416666666666,
      "grad_norm": 0.9863064289093018,
      "learning_rate": 0.00010460484156579908,
      "loss": 3.9694,
      "step": 287780
    },
    {
      "epoch": 0.5995625,
      "grad_norm": 0.9557355046272278,
      "learning_rate": 0.00010459544540941388,
      "loss": 3.78,
      "step": 287790
    },
    {
      "epoch": 0.5995833333333334,
      "grad_norm": 1.0127323865890503,
      "learning_rate": 0.00010458604944915844,
      "loss": 3.9111,
      "step": 287800
    },
    {
      "epoch": 0.5996041666666667,
      "grad_norm": 0.9813886880874634,
      "learning_rate": 0.0001045766536850733,
      "loss": 3.827,
      "step": 287810
    },
    {
      "epoch": 0.599625,
      "grad_norm": 1.001543402671814,
      "learning_rate": 0.00010456725811719896,
      "loss": 3.9052,
      "step": 287820
    },
    {
      "epoch": 0.5996458333333333,
      "grad_norm": 1.0803859233856201,
      "learning_rate": 0.00010455786274557612,
      "loss": 3.9089,
      "step": 287830
    },
    {
      "epoch": 0.5996666666666667,
      "grad_norm": 0.9746282696723938,
      "learning_rate": 0.00010454846757024538,
      "loss": 3.7931,
      "step": 287840
    },
    {
      "epoch": 0.5996875,
      "grad_norm": 1.0405941009521484,
      "learning_rate": 0.00010453907259124718,
      "loss": 3.7748,
      "step": 287850
    },
    {
      "epoch": 0.5997083333333333,
      "grad_norm": 1.025152564048767,
      "learning_rate": 0.00010452967780862226,
      "loss": 3.9708,
      "step": 287860
    },
    {
      "epoch": 0.5997291666666666,
      "grad_norm": 1.096489667892456,
      "learning_rate": 0.00010452028322241111,
      "loss": 3.9207,
      "step": 287870
    },
    {
      "epoch": 0.59975,
      "grad_norm": 1.051527738571167,
      "learning_rate": 0.0001045108888326543,
      "loss": 3.814,
      "step": 287880
    },
    {
      "epoch": 0.5997708333333334,
      "grad_norm": 1.1241092681884766,
      "learning_rate": 0.00010450149463939251,
      "loss": 3.8569,
      "step": 287890
    },
    {
      "epoch": 0.5997916666666666,
      "grad_norm": 1.0952600240707397,
      "learning_rate": 0.00010449210064266623,
      "loss": 3.9112,
      "step": 287900
    },
    {
      "epoch": 0.5998125,
      "grad_norm": 1.0808643102645874,
      "learning_rate": 0.000104482706842516,
      "loss": 3.9244,
      "step": 287910
    },
    {
      "epoch": 0.5998333333333333,
      "grad_norm": 0.9788705110549927,
      "learning_rate": 0.00010447331323898255,
      "loss": 3.9943,
      "step": 287920
    },
    {
      "epoch": 0.5998541666666667,
      "grad_norm": 1.0783852338790894,
      "learning_rate": 0.00010446391983210631,
      "loss": 3.9632,
      "step": 287930
    },
    {
      "epoch": 0.599875,
      "grad_norm": 1.1412450075149536,
      "learning_rate": 0.00010445452662192791,
      "loss": 3.9587,
      "step": 287940
    },
    {
      "epoch": 0.5998958333333333,
      "grad_norm": 0.9323405623435974,
      "learning_rate": 0.00010444513360848798,
      "loss": 3.9521,
      "step": 287950
    },
    {
      "epoch": 0.5999166666666667,
      "grad_norm": 0.9840982556343079,
      "learning_rate": 0.000104435740791827,
      "loss": 4.0155,
      "step": 287960
    },
    {
      "epoch": 0.5999375,
      "grad_norm": 1.1794840097427368,
      "learning_rate": 0.00010442634817198563,
      "loss": 3.9405,
      "step": 287970
    },
    {
      "epoch": 0.5999583333333334,
      "grad_norm": 1.0113415718078613,
      "learning_rate": 0.00010441695574900432,
      "loss": 4.0067,
      "step": 287980
    },
    {
      "epoch": 0.5999791666666666,
      "grad_norm": 1.0870840549468994,
      "learning_rate": 0.00010440756352292379,
      "loss": 3.986,
      "step": 287990
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0831282138824463,
      "learning_rate": 0.00010439817149378449,
      "loss": 4.0338,
      "step": 288000
    },
    {
      "epoch": 0.6,
      "eval_loss": 3.5875842571258545,
      "eval_runtime": 6.9527,
      "eval_samples_per_second": 1.438,
      "eval_steps_per_second": 0.431,
      "step": 288000
    },
    {
      "epoch": 0.6000208333333333,
      "grad_norm": 1.1548789739608765,
      "learning_rate": 0.00010438877966162703,
      "loss": 3.8771,
      "step": 288010
    },
    {
      "epoch": 0.6000416666666667,
      "grad_norm": 1.085668683052063,
      "learning_rate": 0.00010437938802649205,
      "loss": 4.0028,
      "step": 288020
    },
    {
      "epoch": 0.6000625,
      "grad_norm": 1.1422550678253174,
      "learning_rate": 0.00010436999658842,
      "loss": 3.826,
      "step": 288030
    },
    {
      "epoch": 0.6000833333333333,
      "grad_norm": 0.9791475534439087,
      "learning_rate": 0.00010436060534745148,
      "loss": 3.8417,
      "step": 288040
    },
    {
      "epoch": 0.6001041666666667,
      "grad_norm": 1.0732184648513794,
      "learning_rate": 0.00010435121430362718,
      "loss": 3.812,
      "step": 288050
    },
    {
      "epoch": 0.600125,
      "grad_norm": 0.9513386487960815,
      "learning_rate": 0.00010434182345698749,
      "loss": 3.9696,
      "step": 288060
    },
    {
      "epoch": 0.6001458333333334,
      "grad_norm": 1.0668517351150513,
      "learning_rate": 0.00010433243280757301,
      "loss": 3.716,
      "step": 288070
    },
    {
      "epoch": 0.6001666666666666,
      "grad_norm": 1.0253030061721802,
      "learning_rate": 0.00010432304235542445,
      "loss": 3.9647,
      "step": 288080
    },
    {
      "epoch": 0.6001875,
      "grad_norm": 1.0389569997787476,
      "learning_rate": 0.00010431365210058221,
      "loss": 3.6575,
      "step": 288090
    },
    {
      "epoch": 0.6002083333333333,
      "grad_norm": 0.9909884333610535,
      "learning_rate": 0.00010430426204308688,
      "loss": 4.1194,
      "step": 288100
    },
    {
      "epoch": 0.6002291666666667,
      "grad_norm": 1.0150715112686157,
      "learning_rate": 0.00010429487218297913,
      "loss": 3.8138,
      "step": 288110
    },
    {
      "epoch": 0.60025,
      "grad_norm": 0.9902825355529785,
      "learning_rate": 0.00010428548252029941,
      "loss": 3.9063,
      "step": 288120
    },
    {
      "epoch": 0.6002708333333333,
      "grad_norm": 1.0378109216690063,
      "learning_rate": 0.00010427609305508827,
      "loss": 3.6989,
      "step": 288130
    },
    {
      "epoch": 0.6002916666666667,
      "grad_norm": 1.0920330286026,
      "learning_rate": 0.00010426670378738634,
      "loss": 3.7871,
      "step": 288140
    },
    {
      "epoch": 0.6003125,
      "grad_norm": 0.9575691223144531,
      "learning_rate": 0.00010425731471723415,
      "loss": 3.8107,
      "step": 288150
    },
    {
      "epoch": 0.6003333333333334,
      "grad_norm": 1.0217536687850952,
      "learning_rate": 0.00010424792584467223,
      "loss": 3.911,
      "step": 288160
    },
    {
      "epoch": 0.6003541666666666,
      "grad_norm": 1.0642367601394653,
      "learning_rate": 0.00010423853716974117,
      "loss": 3.9671,
      "step": 288170
    },
    {
      "epoch": 0.600375,
      "grad_norm": 1.0021989345550537,
      "learning_rate": 0.00010422914869248155,
      "loss": 3.9132,
      "step": 288180
    },
    {
      "epoch": 0.6003958333333334,
      "grad_norm": 1.0246081352233887,
      "learning_rate": 0.00010421976041293383,
      "loss": 3.9271,
      "step": 288190
    },
    {
      "epoch": 0.6004166666666667,
      "grad_norm": 1.0378758907318115,
      "learning_rate": 0.00010421037233113866,
      "loss": 3.8391,
      "step": 288200
    },
    {
      "epoch": 0.6004375,
      "grad_norm": 1.0723870992660522,
      "learning_rate": 0.00010420098444713659,
      "loss": 3.9061,
      "step": 288210
    },
    {
      "epoch": 0.6004583333333333,
      "grad_norm": 1.0028390884399414,
      "learning_rate": 0.00010419159676096805,
      "loss": 3.908,
      "step": 288220
    },
    {
      "epoch": 0.6004791666666667,
      "grad_norm": 0.9810848832130432,
      "learning_rate": 0.00010418220927267377,
      "loss": 3.7795,
      "step": 288230
    },
    {
      "epoch": 0.6005,
      "grad_norm": 1.1385794878005981,
      "learning_rate": 0.00010417282198229418,
      "loss": 3.7641,
      "step": 288240
    },
    {
      "epoch": 0.6005208333333333,
      "grad_norm": 1.0939515829086304,
      "learning_rate": 0.00010416343488986988,
      "loss": 3.8784,
      "step": 288250
    },
    {
      "epoch": 0.6005416666666666,
      "grad_norm": 1.1499663591384888,
      "learning_rate": 0.00010415404799544133,
      "loss": 3.8439,
      "step": 288260
    },
    {
      "epoch": 0.6005625,
      "grad_norm": 1.0606111288070679,
      "learning_rate": 0.0001041446612990492,
      "loss": 3.6985,
      "step": 288270
    },
    {
      "epoch": 0.6005833333333334,
      "grad_norm": 1.0829927921295166,
      "learning_rate": 0.00010413527480073399,
      "loss": 3.9636,
      "step": 288280
    },
    {
      "epoch": 0.6006041666666667,
      "grad_norm": 1.0058702230453491,
      "learning_rate": 0.00010412588850053619,
      "loss": 3.9461,
      "step": 288290
    },
    {
      "epoch": 0.600625,
      "grad_norm": 1.0152862071990967,
      "learning_rate": 0.00010411650239849641,
      "loss": 3.9715,
      "step": 288300
    },
    {
      "epoch": 0.6006458333333333,
      "grad_norm": 1.0380518436431885,
      "learning_rate": 0.00010410711649465522,
      "loss": 3.7131,
      "step": 288310
    },
    {
      "epoch": 0.6006666666666667,
      "grad_norm": 1.0254343748092651,
      "learning_rate": 0.00010409773078905305,
      "loss": 3.8581,
      "step": 288320
    },
    {
      "epoch": 0.6006875,
      "grad_norm": 1.0292634963989258,
      "learning_rate": 0.00010408834528173055,
      "loss": 4.1402,
      "step": 288330
    },
    {
      "epoch": 0.6007083333333333,
      "grad_norm": 1.0089263916015625,
      "learning_rate": 0.00010407895997272825,
      "loss": 3.8724,
      "step": 288340
    },
    {
      "epoch": 0.6007291666666666,
      "grad_norm": 1.0252805948257446,
      "learning_rate": 0.00010406957486208661,
      "loss": 4.0779,
      "step": 288350
    },
    {
      "epoch": 0.60075,
      "grad_norm": 1.1216453313827515,
      "learning_rate": 0.0001040601899498463,
      "loss": 3.969,
      "step": 288360
    },
    {
      "epoch": 0.6007708333333334,
      "grad_norm": 1.0339460372924805,
      "learning_rate": 0.00010405080523604774,
      "loss": 3.8969,
      "step": 288370
    },
    {
      "epoch": 0.6007916666666666,
      "grad_norm": 1.0874577760696411,
      "learning_rate": 0.00010404142072073149,
      "loss": 3.942,
      "step": 288380
    },
    {
      "epoch": 0.6008125,
      "grad_norm": 1.1874465942382812,
      "learning_rate": 0.00010403203640393817,
      "loss": 4.042,
      "step": 288390
    },
    {
      "epoch": 0.6008333333333333,
      "grad_norm": 1.1263335943222046,
      "learning_rate": 0.00010402265228570822,
      "loss": 3.9093,
      "step": 288400
    },
    {
      "epoch": 0.6008541666666667,
      "grad_norm": 1.0937024354934692,
      "learning_rate": 0.00010401326836608219,
      "loss": 4.0217,
      "step": 288410
    },
    {
      "epoch": 0.600875,
      "grad_norm": 0.9669702649116516,
      "learning_rate": 0.00010400388464510069,
      "loss": 3.9497,
      "step": 288420
    },
    {
      "epoch": 0.6008958333333333,
      "grad_norm": 1.0350791215896606,
      "learning_rate": 0.00010399450112280418,
      "loss": 3.7871,
      "step": 288430
    },
    {
      "epoch": 0.6009166666666667,
      "grad_norm": 0.9322696328163147,
      "learning_rate": 0.00010398511779923318,
      "loss": 4.0036,
      "step": 288440
    },
    {
      "epoch": 0.6009375,
      "grad_norm": 1.0587854385375977,
      "learning_rate": 0.00010397573467442833,
      "loss": 3.9955,
      "step": 288450
    },
    {
      "epoch": 0.6009583333333334,
      "grad_norm": 0.9781113266944885,
      "learning_rate": 0.00010396635174843004,
      "loss": 4.0254,
      "step": 288460
    },
    {
      "epoch": 0.6009791666666666,
      "grad_norm": 1.0154756307601929,
      "learning_rate": 0.00010395696902127886,
      "loss": 4.0202,
      "step": 288470
    },
    {
      "epoch": 0.601,
      "grad_norm": 1.2151306867599487,
      "learning_rate": 0.00010394758649301543,
      "loss": 3.9948,
      "step": 288480
    },
    {
      "epoch": 0.6010208333333333,
      "grad_norm": 0.9792174696922302,
      "learning_rate": 0.00010393820416368018,
      "loss": 3.8095,
      "step": 288490
    },
    {
      "epoch": 0.6010416666666667,
      "grad_norm": 1.0796818733215332,
      "learning_rate": 0.0001039288220333136,
      "loss": 3.9867,
      "step": 288500
    },
    {
      "epoch": 0.6010625,
      "grad_norm": 1.1640785932540894,
      "learning_rate": 0.00010391944010195631,
      "loss": 3.9618,
      "step": 288510
    },
    {
      "epoch": 0.6010833333333333,
      "grad_norm": 1.0553464889526367,
      "learning_rate": 0.00010391005836964882,
      "loss": 4.0894,
      "step": 288520
    },
    {
      "epoch": 0.6011041666666667,
      "grad_norm": 1.0504770278930664,
      "learning_rate": 0.00010390067683643158,
      "loss": 3.7554,
      "step": 288530
    },
    {
      "epoch": 0.601125,
      "grad_norm": 0.9888986349105835,
      "learning_rate": 0.00010389129550234517,
      "loss": 3.8522,
      "step": 288540
    },
    {
      "epoch": 0.6011458333333334,
      "grad_norm": 1.1359411478042603,
      "learning_rate": 0.00010388191436743016,
      "loss": 4.0886,
      "step": 288550
    },
    {
      "epoch": 0.6011666666666666,
      "grad_norm": 1.0327130556106567,
      "learning_rate": 0.00010387253343172701,
      "loss": 3.9515,
      "step": 288560
    },
    {
      "epoch": 0.6011875,
      "grad_norm": 1.0078428983688354,
      "learning_rate": 0.00010386315269527621,
      "loss": 3.9336,
      "step": 288570
    },
    {
      "epoch": 0.6012083333333333,
      "grad_norm": 1.101697564125061,
      "learning_rate": 0.0001038537721581184,
      "loss": 3.803,
      "step": 288580
    },
    {
      "epoch": 0.6012291666666667,
      "grad_norm": 0.9990962147712708,
      "learning_rate": 0.000103844391820294,
      "loss": 3.9913,
      "step": 288590
    },
    {
      "epoch": 0.60125,
      "grad_norm": 1.0903706550598145,
      "learning_rate": 0.00010383501168184352,
      "loss": 4.0065,
      "step": 288600
    },
    {
      "epoch": 0.6012708333333333,
      "grad_norm": 1.041441798210144,
      "learning_rate": 0.00010382563174280758,
      "loss": 3.9277,
      "step": 288610
    },
    {
      "epoch": 0.6012916666666667,
      "grad_norm": 1.757846713066101,
      "learning_rate": 0.00010381625200322665,
      "loss": 3.8369,
      "step": 288620
    },
    {
      "epoch": 0.6013125,
      "grad_norm": 1.0901966094970703,
      "learning_rate": 0.00010380687246314112,
      "loss": 3.8858,
      "step": 288630
    },
    {
      "epoch": 0.6013333333333334,
      "grad_norm": 1.0555671453475952,
      "learning_rate": 0.00010379749312259169,
      "loss": 3.857,
      "step": 288640
    },
    {
      "epoch": 0.6013541666666666,
      "grad_norm": 0.9571182727813721,
      "learning_rate": 0.00010378811398161881,
      "loss": 3.9065,
      "step": 288650
    },
    {
      "epoch": 0.601375,
      "grad_norm": 1.0518171787261963,
      "learning_rate": 0.00010377873504026294,
      "loss": 4.0294,
      "step": 288660
    },
    {
      "epoch": 0.6013958333333334,
      "grad_norm": 1.0342780351638794,
      "learning_rate": 0.00010376935629856467,
      "loss": 3.7573,
      "step": 288670
    },
    {
      "epoch": 0.6014166666666667,
      "grad_norm": 0.9707704186439514,
      "learning_rate": 0.00010375997775656451,
      "loss": 3.9039,
      "step": 288680
    },
    {
      "epoch": 0.6014375,
      "grad_norm": 0.9345941543579102,
      "learning_rate": 0.00010375059941430288,
      "loss": 3.7044,
      "step": 288690
    },
    {
      "epoch": 0.6014583333333333,
      "grad_norm": 1.0137536525726318,
      "learning_rate": 0.00010374122127182037,
      "loss": 3.8693,
      "step": 288700
    },
    {
      "epoch": 0.6014791666666667,
      "grad_norm": 1.410994529724121,
      "learning_rate": 0.00010373184332915754,
      "loss": 3.8354,
      "step": 288710
    },
    {
      "epoch": 0.6015,
      "grad_norm": 1.0246471166610718,
      "learning_rate": 0.00010372246558635474,
      "loss": 3.9206,
      "step": 288720
    },
    {
      "epoch": 0.6015208333333333,
      "grad_norm": 1.0394269227981567,
      "learning_rate": 0.00010371308804345264,
      "loss": 3.8489,
      "step": 288730
    },
    {
      "epoch": 0.6015416666666666,
      "grad_norm": 0.951704740524292,
      "learning_rate": 0.00010370371070049164,
      "loss": 3.8883,
      "step": 288740
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 1.0999194383621216,
      "learning_rate": 0.00010369433355751227,
      "loss": 3.7789,
      "step": 288750
    },
    {
      "epoch": 0.6015833333333334,
      "grad_norm": 1.0529232025146484,
      "learning_rate": 0.0001036849566145551,
      "loss": 3.9326,
      "step": 288760
    },
    {
      "epoch": 0.6016041666666667,
      "grad_norm": 1.0150331258773804,
      "learning_rate": 0.00010367557987166055,
      "loss": 4.0647,
      "step": 288770
    },
    {
      "epoch": 0.601625,
      "grad_norm": 0.9896879196166992,
      "learning_rate": 0.00010366620332886914,
      "loss": 3.9694,
      "step": 288780
    },
    {
      "epoch": 0.6016458333333333,
      "grad_norm": 1.0545943975448608,
      "learning_rate": 0.00010365682698622144,
      "loss": 4.0967,
      "step": 288790
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 0.9909006953239441,
      "learning_rate": 0.0001036474508437579,
      "loss": 3.9291,
      "step": 288800
    },
    {
      "epoch": 0.6016875,
      "grad_norm": 1.1925020217895508,
      "learning_rate": 0.00010363807490151896,
      "loss": 3.9441,
      "step": 288810
    },
    {
      "epoch": 0.6017083333333333,
      "grad_norm": 0.9934245944023132,
      "learning_rate": 0.00010362869915954526,
      "loss": 3.7937,
      "step": 288820
    },
    {
      "epoch": 0.6017291666666666,
      "grad_norm": 1.1229124069213867,
      "learning_rate": 0.00010361932361787719,
      "loss": 3.786,
      "step": 288830
    },
    {
      "epoch": 0.60175,
      "grad_norm": 1.3908801078796387,
      "learning_rate": 0.00010360994827655533,
      "loss": 3.9518,
      "step": 288840
    },
    {
      "epoch": 0.6017708333333334,
      "grad_norm": 0.9699599742889404,
      "learning_rate": 0.00010360057313562006,
      "loss": 4.148,
      "step": 288850
    },
    {
      "epoch": 0.6017916666666666,
      "grad_norm": 1.0159839391708374,
      "learning_rate": 0.000103591198195112,
      "loss": 3.969,
      "step": 288860
    },
    {
      "epoch": 0.6018125,
      "grad_norm": 1.0693097114562988,
      "learning_rate": 0.00010358182345507158,
      "loss": 4.0105,
      "step": 288870
    },
    {
      "epoch": 0.6018333333333333,
      "grad_norm": 1.0036125183105469,
      "learning_rate": 0.00010357244891553927,
      "loss": 3.878,
      "step": 288880
    },
    {
      "epoch": 0.6018541666666667,
      "grad_norm": 0.9621967077255249,
      "learning_rate": 0.00010356307457655566,
      "loss": 3.7597,
      "step": 288890
    },
    {
      "epoch": 0.601875,
      "grad_norm": 1.1803550720214844,
      "learning_rate": 0.00010355370043816117,
      "loss": 3.8802,
      "step": 288900
    },
    {
      "epoch": 0.6018958333333333,
      "grad_norm": 1.0632104873657227,
      "learning_rate": 0.00010354432650039626,
      "loss": 3.8916,
      "step": 288910
    },
    {
      "epoch": 0.6019166666666667,
      "grad_norm": 0.9411491751670837,
      "learning_rate": 0.00010353495276330152,
      "loss": 3.9506,
      "step": 288920
    },
    {
      "epoch": 0.6019375,
      "grad_norm": 1.0400869846343994,
      "learning_rate": 0.00010352557922691742,
      "loss": 3.8018,
      "step": 288930
    },
    {
      "epoch": 0.6019583333333334,
      "grad_norm": 1.1913508176803589,
      "learning_rate": 0.00010351620589128434,
      "loss": 3.8306,
      "step": 288940
    },
    {
      "epoch": 0.6019791666666666,
      "grad_norm": 1.0419645309448242,
      "learning_rate": 0.00010350683275644293,
      "loss": 4.0556,
      "step": 288950
    },
    {
      "epoch": 0.602,
      "grad_norm": 1.0236831903457642,
      "learning_rate": 0.00010349745982243356,
      "loss": 3.8047,
      "step": 288960
    },
    {
      "epoch": 0.6020208333333333,
      "grad_norm": 1.014197587966919,
      "learning_rate": 0.00010348808708929671,
      "loss": 3.867,
      "step": 288970
    },
    {
      "epoch": 0.6020416666666667,
      "grad_norm": 0.9778894186019897,
      "learning_rate": 0.00010347871455707302,
      "loss": 4.0921,
      "step": 288980
    },
    {
      "epoch": 0.6020625,
      "grad_norm": 1.1978847980499268,
      "learning_rate": 0.00010346934222580284,
      "loss": 4.0551,
      "step": 288990
    },
    {
      "epoch": 0.6020833333333333,
      "grad_norm": 1.0952757596969604,
      "learning_rate": 0.00010345997009552663,
      "loss": 3.5784,
      "step": 289000
    },
    {
      "epoch": 0.6020833333333333,
      "eval_loss": 3.581800937652588,
      "eval_runtime": 7.5959,
      "eval_samples_per_second": 1.316,
      "eval_steps_per_second": 0.395,
      "step": 289000
    },
    {
      "epoch": 0.6021041666666667,
      "grad_norm": 0.9883721470832825,
      "learning_rate": 0.00010345059816628494,
      "loss": 4.0383,
      "step": 289010
    },
    {
      "epoch": 0.602125,
      "grad_norm": 1.425157904624939,
      "learning_rate": 0.00010344122643811828,
      "loss": 3.8938,
      "step": 289020
    },
    {
      "epoch": 0.6021458333333334,
      "grad_norm": 0.9558219313621521,
      "learning_rate": 0.00010343185491106703,
      "loss": 3.7473,
      "step": 289030
    },
    {
      "epoch": 0.6021666666666666,
      "grad_norm": 0.9463185667991638,
      "learning_rate": 0.00010342248358517178,
      "loss": 3.8115,
      "step": 289040
    },
    {
      "epoch": 0.6021875,
      "grad_norm": 0.9769179224967957,
      "learning_rate": 0.00010341311246047298,
      "loss": 3.9579,
      "step": 289050
    },
    {
      "epoch": 0.6022083333333333,
      "grad_norm": 0.9338569641113281,
      "learning_rate": 0.00010340374153701105,
      "loss": 3.8798,
      "step": 289060
    },
    {
      "epoch": 0.6022291666666667,
      "grad_norm": 1.1928942203521729,
      "learning_rate": 0.00010339437081482654,
      "loss": 3.8033,
      "step": 289070
    },
    {
      "epoch": 0.60225,
      "grad_norm": 1.1083673238754272,
      "learning_rate": 0.00010338500029395993,
      "loss": 3.9159,
      "step": 289080
    },
    {
      "epoch": 0.6022708333333333,
      "grad_norm": 1.152834177017212,
      "learning_rate": 0.00010337562997445157,
      "loss": 3.8936,
      "step": 289090
    },
    {
      "epoch": 0.6022916666666667,
      "grad_norm": 1.102167010307312,
      "learning_rate": 0.0001033662598563421,
      "loss": 4.0852,
      "step": 289100
    },
    {
      "epoch": 0.6023125,
      "grad_norm": 1.0490821599960327,
      "learning_rate": 0.00010335688993967195,
      "loss": 3.9649,
      "step": 289110
    },
    {
      "epoch": 0.6023333333333334,
      "grad_norm": 1.0281519889831543,
      "learning_rate": 0.0001033475202244815,
      "loss": 3.6462,
      "step": 289120
    },
    {
      "epoch": 0.6023541666666666,
      "grad_norm": 1.2881033420562744,
      "learning_rate": 0.00010333815071081139,
      "loss": 4.0114,
      "step": 289130
    },
    {
      "epoch": 0.602375,
      "grad_norm": 1.0414868593215942,
      "learning_rate": 0.00010332878139870195,
      "loss": 3.8106,
      "step": 289140
    },
    {
      "epoch": 0.6023958333333334,
      "grad_norm": 1.001348853111267,
      "learning_rate": 0.00010331941228819372,
      "loss": 3.8515,
      "step": 289150
    },
    {
      "epoch": 0.6024166666666667,
      "grad_norm": 1.024411678314209,
      "learning_rate": 0.0001033100433793271,
      "loss": 4.0151,
      "step": 289160
    },
    {
      "epoch": 0.6024375,
      "grad_norm": 1.015547752380371,
      "learning_rate": 0.00010330067467214266,
      "loss": 3.8911,
      "step": 289170
    },
    {
      "epoch": 0.6024583333333333,
      "grad_norm": 1.0113648176193237,
      "learning_rate": 0.00010329130616668082,
      "loss": 3.8344,
      "step": 289180
    },
    {
      "epoch": 0.6024791666666667,
      "grad_norm": 1.104454755783081,
      "learning_rate": 0.000103281937862982,
      "loss": 3.9032,
      "step": 289190
    },
    {
      "epoch": 0.6025,
      "grad_norm": 1.1657074689865112,
      "learning_rate": 0.00010327256976108675,
      "loss": 4.0417,
      "step": 289200
    },
    {
      "epoch": 0.6025208333333333,
      "grad_norm": 1.017417073249817,
      "learning_rate": 0.00010326320186103553,
      "loss": 4.0526,
      "step": 289210
    },
    {
      "epoch": 0.6025416666666666,
      "grad_norm": 1.1671284437179565,
      "learning_rate": 0.00010325383416286871,
      "loss": 3.8903,
      "step": 289220
    },
    {
      "epoch": 0.6025625,
      "grad_norm": 1.1349159479141235,
      "learning_rate": 0.0001032444666666269,
      "loss": 3.802,
      "step": 289230
    },
    {
      "epoch": 0.6025833333333334,
      "grad_norm": 1.051161289215088,
      "learning_rate": 0.00010323509937235045,
      "loss": 3.8555,
      "step": 289240
    },
    {
      "epoch": 0.6026041666666667,
      "grad_norm": 1.0100054740905762,
      "learning_rate": 0.00010322573228007982,
      "loss": 3.6671,
      "step": 289250
    },
    {
      "epoch": 0.602625,
      "grad_norm": 0.989342987537384,
      "learning_rate": 0.00010321636538985559,
      "loss": 3.9713,
      "step": 289260
    },
    {
      "epoch": 0.6026458333333333,
      "grad_norm": 1.0562744140625,
      "learning_rate": 0.0001032069987017181,
      "loss": 4.0294,
      "step": 289270
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 1.0678925514221191,
      "learning_rate": 0.00010319763221570781,
      "loss": 3.9783,
      "step": 289280
    },
    {
      "epoch": 0.6026875,
      "grad_norm": 1.0290625095367432,
      "learning_rate": 0.00010318826593186532,
      "loss": 3.8911,
      "step": 289290
    },
    {
      "epoch": 0.6027083333333333,
      "grad_norm": 1.0632445812225342,
      "learning_rate": 0.00010317889985023093,
      "loss": 3.9906,
      "step": 289300
    },
    {
      "epoch": 0.6027291666666666,
      "grad_norm": 1.0616910457611084,
      "learning_rate": 0.00010316953397084515,
      "loss": 3.7228,
      "step": 289310
    },
    {
      "epoch": 0.60275,
      "grad_norm": 0.9228367209434509,
      "learning_rate": 0.00010316016829374849,
      "loss": 3.7897,
      "step": 289320
    },
    {
      "epoch": 0.6027708333333334,
      "grad_norm": 0.9944374561309814,
      "learning_rate": 0.00010315080281898135,
      "loss": 4.0647,
      "step": 289330
    },
    {
      "epoch": 0.6027916666666666,
      "grad_norm": 1.0200552940368652,
      "learning_rate": 0.00010314143754658416,
      "loss": 3.9384,
      "step": 289340
    },
    {
      "epoch": 0.6028125,
      "grad_norm": 1.0244163274765015,
      "learning_rate": 0.00010313207247659747,
      "loss": 3.9403,
      "step": 289350
    },
    {
      "epoch": 0.6028333333333333,
      "grad_norm": 1.02985680103302,
      "learning_rate": 0.00010312270760906168,
      "loss": 3.8573,
      "step": 289360
    },
    {
      "epoch": 0.6028541666666667,
      "grad_norm": 0.9934182167053223,
      "learning_rate": 0.00010311334294401717,
      "loss": 4.0061,
      "step": 289370
    },
    {
      "epoch": 0.602875,
      "grad_norm": 0.9784254431724548,
      "learning_rate": 0.00010310397848150449,
      "loss": 3.934,
      "step": 289380
    },
    {
      "epoch": 0.6028958333333333,
      "grad_norm": 1.0549447536468506,
      "learning_rate": 0.0001030946142215641,
      "loss": 3.8896,
      "step": 289390
    },
    {
      "epoch": 0.6029166666666667,
      "grad_norm": 0.9770634174346924,
      "learning_rate": 0.00010308525016423632,
      "loss": 3.6903,
      "step": 289400
    },
    {
      "epoch": 0.6029375,
      "grad_norm": 1.1041173934936523,
      "learning_rate": 0.00010307588630956175,
      "loss": 3.5461,
      "step": 289410
    },
    {
      "epoch": 0.6029583333333334,
      "grad_norm": 1.0878182649612427,
      "learning_rate": 0.00010306652265758081,
      "loss": 4.138,
      "step": 289420
    },
    {
      "epoch": 0.6029791666666666,
      "grad_norm": 1.10634183883667,
      "learning_rate": 0.00010305715920833387,
      "loss": 3.8078,
      "step": 289430
    },
    {
      "epoch": 0.603,
      "grad_norm": 0.982761800289154,
      "learning_rate": 0.0001030477959618614,
      "loss": 3.8107,
      "step": 289440
    },
    {
      "epoch": 0.6030208333333333,
      "grad_norm": 1.0218533277511597,
      "learning_rate": 0.0001030384329182039,
      "loss": 3.8376,
      "step": 289450
    },
    {
      "epoch": 0.6030416666666667,
      "grad_norm": 0.9343294501304626,
      "learning_rate": 0.00010302907007740177,
      "loss": 3.9454,
      "step": 289460
    },
    {
      "epoch": 0.6030625,
      "grad_norm": 1.104271650314331,
      "learning_rate": 0.00010301970743949545,
      "loss": 4.0019,
      "step": 289470
    },
    {
      "epoch": 0.6030833333333333,
      "grad_norm": 1.0024980306625366,
      "learning_rate": 0.00010301034500452545,
      "loss": 4.0162,
      "step": 289480
    },
    {
      "epoch": 0.6031041666666667,
      "grad_norm": 1.1391451358795166,
      "learning_rate": 0.00010300098277253216,
      "loss": 3.8384,
      "step": 289490
    },
    {
      "epoch": 0.603125,
      "grad_norm": 1.0960900783538818,
      "learning_rate": 0.00010299162074355595,
      "loss": 3.7813,
      "step": 289500
    },
    {
      "epoch": 0.6031458333333334,
      "grad_norm": 1.0187044143676758,
      "learning_rate": 0.00010298225891763737,
      "loss": 4.0933,
      "step": 289510
    },
    {
      "epoch": 0.6031666666666666,
      "grad_norm": 1.0875760316848755,
      "learning_rate": 0.00010297289729481683,
      "loss": 3.8308,
      "step": 289520
    },
    {
      "epoch": 0.6031875,
      "grad_norm": 0.9973876476287842,
      "learning_rate": 0.00010296353587513472,
      "loss": 3.8215,
      "step": 289530
    },
    {
      "epoch": 0.6032083333333333,
      "grad_norm": 1.383363127708435,
      "learning_rate": 0.00010295417465863156,
      "loss": 3.9128,
      "step": 289540
    },
    {
      "epoch": 0.6032291666666667,
      "grad_norm": 1.038055419921875,
      "learning_rate": 0.00010294481364534775,
      "loss": 4.0019,
      "step": 289550
    },
    {
      "epoch": 0.60325,
      "grad_norm": 1.0954065322875977,
      "learning_rate": 0.00010293545283532367,
      "loss": 3.961,
      "step": 289560
    },
    {
      "epoch": 0.6032708333333333,
      "grad_norm": 1.0720919370651245,
      "learning_rate": 0.00010292609222859982,
      "loss": 3.7501,
      "step": 289570
    },
    {
      "epoch": 0.6032916666666667,
      "grad_norm": 1.0861667394638062,
      "learning_rate": 0.00010291673182521667,
      "loss": 3.9539,
      "step": 289580
    },
    {
      "epoch": 0.6033125,
      "grad_norm": 1.2587623596191406,
      "learning_rate": 0.00010290737162521452,
      "loss": 3.7328,
      "step": 289590
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 1.1903210878372192,
      "learning_rate": 0.00010289801162863393,
      "loss": 3.7593,
      "step": 289600
    },
    {
      "epoch": 0.6033541666666666,
      "grad_norm": 0.9905084371566772,
      "learning_rate": 0.0001028886518355153,
      "loss": 3.8922,
      "step": 289610
    },
    {
      "epoch": 0.603375,
      "grad_norm": 0.9543787837028503,
      "learning_rate": 0.000102879292245899,
      "loss": 3.8728,
      "step": 289620
    },
    {
      "epoch": 0.6033958333333334,
      "grad_norm": 1.0328885316848755,
      "learning_rate": 0.00010286993285982557,
      "loss": 3.9048,
      "step": 289630
    },
    {
      "epoch": 0.6034166666666667,
      "grad_norm": 0.9505980610847473,
      "learning_rate": 0.00010286057367733533,
      "loss": 3.7964,
      "step": 289640
    },
    {
      "epoch": 0.6034375,
      "grad_norm": 1.1379910707473755,
      "learning_rate": 0.00010285121469846873,
      "loss": 3.8361,
      "step": 289650
    },
    {
      "epoch": 0.6034583333333333,
      "grad_norm": 0.9780415892601013,
      "learning_rate": 0.00010284185592326629,
      "loss": 3.7753,
      "step": 289660
    },
    {
      "epoch": 0.6034791666666667,
      "grad_norm": 1.0944589376449585,
      "learning_rate": 0.00010283249735176832,
      "loss": 3.7898,
      "step": 289670
    },
    {
      "epoch": 0.6035,
      "grad_norm": 0.9579254388809204,
      "learning_rate": 0.00010282313898401527,
      "loss": 3.8086,
      "step": 289680
    },
    {
      "epoch": 0.6035208333333333,
      "grad_norm": 0.9940603375434875,
      "learning_rate": 0.00010281378082004764,
      "loss": 3.9594,
      "step": 289690
    },
    {
      "epoch": 0.6035416666666666,
      "grad_norm": 0.9462618231773376,
      "learning_rate": 0.00010280442285990578,
      "loss": 4.1555,
      "step": 289700
    },
    {
      "epoch": 0.6035625,
      "grad_norm": 1.2918846607208252,
      "learning_rate": 0.00010279506510363008,
      "loss": 3.7971,
      "step": 289710
    },
    {
      "epoch": 0.6035833333333334,
      "grad_norm": 1.236030101776123,
      "learning_rate": 0.00010278570755126107,
      "loss": 3.8051,
      "step": 289720
    },
    {
      "epoch": 0.6036041666666667,
      "grad_norm": 0.9561448693275452,
      "learning_rate": 0.00010277635020283915,
      "loss": 3.8253,
      "step": 289730
    },
    {
      "epoch": 0.603625,
      "grad_norm": 0.9915637969970703,
      "learning_rate": 0.00010276699305840464,
      "loss": 3.9846,
      "step": 289740
    },
    {
      "epoch": 0.6036458333333333,
      "grad_norm": 1.1345808506011963,
      "learning_rate": 0.00010275763611799802,
      "loss": 3.8786,
      "step": 289750
    },
    {
      "epoch": 0.6036666666666667,
      "grad_norm": 0.9778240919113159,
      "learning_rate": 0.00010274827938165976,
      "loss": 3.957,
      "step": 289760
    },
    {
      "epoch": 0.6036875,
      "grad_norm": 0.980453610420227,
      "learning_rate": 0.0001027389228494302,
      "loss": 3.9731,
      "step": 289770
    },
    {
      "epoch": 0.6037083333333333,
      "grad_norm": 1.0714787244796753,
      "learning_rate": 0.00010272956652134975,
      "loss": 3.8634,
      "step": 289780
    },
    {
      "epoch": 0.6037291666666667,
      "grad_norm": 0.9526183009147644,
      "learning_rate": 0.00010272021039745896,
      "loss": 3.9859,
      "step": 289790
    },
    {
      "epoch": 0.60375,
      "grad_norm": 1.0415033102035522,
      "learning_rate": 0.00010271085447779807,
      "loss": 3.9578,
      "step": 289800
    },
    {
      "epoch": 0.6037708333333334,
      "grad_norm": 1.0663723945617676,
      "learning_rate": 0.00010270149876240755,
      "loss": 3.8216,
      "step": 289810
    },
    {
      "epoch": 0.6037916666666666,
      "grad_norm": 0.9612874388694763,
      "learning_rate": 0.00010269214325132791,
      "loss": 3.8168,
      "step": 289820
    },
    {
      "epoch": 0.6038125,
      "grad_norm": 0.917985200881958,
      "learning_rate": 0.00010268278794459945,
      "loss": 3.7852,
      "step": 289830
    },
    {
      "epoch": 0.6038333333333333,
      "grad_norm": 0.9675811529159546,
      "learning_rate": 0.00010267343284226257,
      "loss": 3.9275,
      "step": 289840
    },
    {
      "epoch": 0.6038541666666667,
      "grad_norm": 1.0563286542892456,
      "learning_rate": 0.0001026640779443578,
      "loss": 4.0009,
      "step": 289850
    },
    {
      "epoch": 0.603875,
      "grad_norm": 1.0074613094329834,
      "learning_rate": 0.00010265472325092548,
      "loss": 3.9574,
      "step": 289860
    },
    {
      "epoch": 0.6038958333333333,
      "grad_norm": 1.1894259452819824,
      "learning_rate": 0.00010264536876200595,
      "loss": 3.8397,
      "step": 289870
    },
    {
      "epoch": 0.6039166666666667,
      "grad_norm": 1.0639970302581787,
      "learning_rate": 0.0001026360144776397,
      "loss": 3.8767,
      "step": 289880
    },
    {
      "epoch": 0.6039375,
      "grad_norm": 0.984830379486084,
      "learning_rate": 0.00010262666039786717,
      "loss": 4.0091,
      "step": 289890
    },
    {
      "epoch": 0.6039583333333334,
      "grad_norm": 1.193908929824829,
      "learning_rate": 0.00010261730652272866,
      "loss": 3.8495,
      "step": 289900
    },
    {
      "epoch": 0.6039791666666666,
      "grad_norm": 1.0800052881240845,
      "learning_rate": 0.00010260795285226464,
      "loss": 3.9169,
      "step": 289910
    },
    {
      "epoch": 0.604,
      "grad_norm": 1.006202220916748,
      "learning_rate": 0.00010259859938651554,
      "loss": 3.9706,
      "step": 289920
    },
    {
      "epoch": 0.6040208333333333,
      "grad_norm": 1.1874313354492188,
      "learning_rate": 0.00010258924612552167,
      "loss": 3.6744,
      "step": 289930
    },
    {
      "epoch": 0.6040416666666667,
      "grad_norm": 1.0287245512008667,
      "learning_rate": 0.00010257989306932353,
      "loss": 3.6884,
      "step": 289940
    },
    {
      "epoch": 0.6040625,
      "grad_norm": 1.0234218835830688,
      "learning_rate": 0.00010257054021796149,
      "loss": 4.0004,
      "step": 289950
    },
    {
      "epoch": 0.6040833333333333,
      "grad_norm": 1.013789176940918,
      "learning_rate": 0.0001025611875714759,
      "loss": 3.9867,
      "step": 289960
    },
    {
      "epoch": 0.6041041666666667,
      "grad_norm": 1.0409247875213623,
      "learning_rate": 0.00010255183512990722,
      "loss": 3.7148,
      "step": 289970
    },
    {
      "epoch": 0.604125,
      "grad_norm": 0.958219051361084,
      "learning_rate": 0.00010254248289329589,
      "loss": 3.8022,
      "step": 289980
    },
    {
      "epoch": 0.6041458333333334,
      "grad_norm": 0.9841752648353577,
      "learning_rate": 0.00010253313086168216,
      "loss": 3.9496,
      "step": 289990
    },
    {
      "epoch": 0.6041666666666666,
      "grad_norm": 1.003970980644226,
      "learning_rate": 0.00010252377903510657,
      "loss": 3.9342,
      "step": 290000
    },
    {
      "epoch": 0.6041666666666666,
      "eval_loss": 3.5877537727355957,
      "eval_runtime": 7.9687,
      "eval_samples_per_second": 1.255,
      "eval_steps_per_second": 0.376,
      "step": 290000
    },
    {
      "epoch": 0.6041875,
      "grad_norm": 1.1409597396850586,
      "learning_rate": 0.00010251442741360946,
      "loss": 3.8004,
      "step": 290010
    },
    {
      "epoch": 0.6042083333333333,
      "grad_norm": 1.0610442161560059,
      "learning_rate": 0.00010250507599723124,
      "loss": 3.931,
      "step": 290020
    },
    {
      "epoch": 0.6042291666666667,
      "grad_norm": 1.1086771488189697,
      "learning_rate": 0.00010249572478601224,
      "loss": 3.902,
      "step": 290030
    },
    {
      "epoch": 0.60425,
      "grad_norm": 0.9669591784477234,
      "learning_rate": 0.00010248637377999293,
      "loss": 3.8028,
      "step": 290040
    },
    {
      "epoch": 0.6042708333333333,
      "grad_norm": 0.9693514704704285,
      "learning_rate": 0.0001024770229792137,
      "loss": 3.9691,
      "step": 290050
    },
    {
      "epoch": 0.6042916666666667,
      "grad_norm": 1.1823254823684692,
      "learning_rate": 0.00010246767238371485,
      "loss": 3.8618,
      "step": 290060
    },
    {
      "epoch": 0.6043125,
      "grad_norm": 1.3558074235916138,
      "learning_rate": 0.0001024583219935369,
      "loss": 3.9601,
      "step": 290070
    },
    {
      "epoch": 0.6043333333333333,
      "grad_norm": 0.9659299850463867,
      "learning_rate": 0.0001024489718087202,
      "loss": 3.8851,
      "step": 290080
    },
    {
      "epoch": 0.6043541666666666,
      "grad_norm": 0.8991361260414124,
      "learning_rate": 0.00010243962182930506,
      "loss": 3.9482,
      "step": 290090
    },
    {
      "epoch": 0.604375,
      "grad_norm": 0.9540740251541138,
      "learning_rate": 0.00010243027205533196,
      "loss": 3.9116,
      "step": 290100
    },
    {
      "epoch": 0.6043958333333334,
      "grad_norm": 0.949621856212616,
      "learning_rate": 0.00010242092248684128,
      "loss": 3.8913,
      "step": 290110
    },
    {
      "epoch": 0.6044166666666667,
      "grad_norm": 1.1002720594406128,
      "learning_rate": 0.00010241157312387332,
      "loss": 3.714,
      "step": 290120
    },
    {
      "epoch": 0.6044375,
      "grad_norm": 0.9982576370239258,
      "learning_rate": 0.0001024022239664686,
      "loss": 3.8529,
      "step": 290130
    },
    {
      "epoch": 0.6044583333333333,
      "grad_norm": 1.0811010599136353,
      "learning_rate": 0.00010239287501466738,
      "loss": 3.9982,
      "step": 290140
    },
    {
      "epoch": 0.6044791666666667,
      "grad_norm": 1.019486665725708,
      "learning_rate": 0.00010238352626851008,
      "loss": 3.8678,
      "step": 290150
    },
    {
      "epoch": 0.6045,
      "grad_norm": 1.035740852355957,
      "learning_rate": 0.00010237417772803715,
      "loss": 3.9182,
      "step": 290160
    },
    {
      "epoch": 0.6045208333333333,
      "grad_norm": 0.9793357253074646,
      "learning_rate": 0.00010236482939328892,
      "loss": 4.0009,
      "step": 290170
    },
    {
      "epoch": 0.6045416666666666,
      "grad_norm": 1.0437180995941162,
      "learning_rate": 0.00010235548126430572,
      "loss": 3.9056,
      "step": 290180
    },
    {
      "epoch": 0.6045625,
      "grad_norm": 0.9978939294815063,
      "learning_rate": 0.00010234613334112803,
      "loss": 3.995,
      "step": 290190
    },
    {
      "epoch": 0.6045833333333334,
      "grad_norm": 0.9695717692375183,
      "learning_rate": 0.00010233678562379617,
      "loss": 3.9703,
      "step": 290200
    },
    {
      "epoch": 0.6046041666666667,
      "grad_norm": 0.9994121789932251,
      "learning_rate": 0.00010232743811235049,
      "loss": 4.0291,
      "step": 290210
    },
    {
      "epoch": 0.604625,
      "grad_norm": 1.2676523923873901,
      "learning_rate": 0.00010231809080683146,
      "loss": 3.9708,
      "step": 290220
    },
    {
      "epoch": 0.6046458333333333,
      "grad_norm": 1.0227190256118774,
      "learning_rate": 0.00010230874370727943,
      "loss": 4.0025,
      "step": 290230
    },
    {
      "epoch": 0.6046666666666667,
      "grad_norm": 1.0250537395477295,
      "learning_rate": 0.00010229939681373467,
      "loss": 3.8603,
      "step": 290240
    },
    {
      "epoch": 0.6046875,
      "grad_norm": 1.0356571674346924,
      "learning_rate": 0.00010229005012623766,
      "loss": 3.7942,
      "step": 290250
    },
    {
      "epoch": 0.6047083333333333,
      "grad_norm": 1.0285404920578003,
      "learning_rate": 0.00010228070364482878,
      "loss": 3.953,
      "step": 290260
    },
    {
      "epoch": 0.6047291666666667,
      "grad_norm": 1.1311514377593994,
      "learning_rate": 0.00010227135736954831,
      "loss": 3.8477,
      "step": 290270
    },
    {
      "epoch": 0.60475,
      "grad_norm": 1.0480400323867798,
      "learning_rate": 0.00010226201130043673,
      "loss": 4.086,
      "step": 290280
    },
    {
      "epoch": 0.6047708333333334,
      "grad_norm": 0.9412418007850647,
      "learning_rate": 0.00010225266543753439,
      "loss": 3.9767,
      "step": 290290
    },
    {
      "epoch": 0.6047916666666666,
      "grad_norm": 1.0685256719589233,
      "learning_rate": 0.00010224331978088159,
      "loss": 3.9023,
      "step": 290300
    },
    {
      "epoch": 0.6048125,
      "grad_norm": 0.9873626232147217,
      "learning_rate": 0.00010223397433051874,
      "loss": 3.9163,
      "step": 290310
    },
    {
      "epoch": 0.6048333333333333,
      "grad_norm": 1.0355843305587769,
      "learning_rate": 0.00010222462908648628,
      "loss": 3.8543,
      "step": 290320
    },
    {
      "epoch": 0.6048541666666667,
      "grad_norm": 1.056006669998169,
      "learning_rate": 0.00010221528404882446,
      "loss": 3.9144,
      "step": 290330
    },
    {
      "epoch": 0.604875,
      "grad_norm": 1.105805516242981,
      "learning_rate": 0.00010220593921757366,
      "loss": 4.1218,
      "step": 290340
    },
    {
      "epoch": 0.6048958333333333,
      "grad_norm": 1.484025001525879,
      "learning_rate": 0.00010219659459277434,
      "loss": 3.9237,
      "step": 290350
    },
    {
      "epoch": 0.6049166666666667,
      "grad_norm": 1.076694369316101,
      "learning_rate": 0.00010218725017446685,
      "loss": 3.9694,
      "step": 290360
    },
    {
      "epoch": 0.6049375,
      "grad_norm": 0.9870356917381287,
      "learning_rate": 0.00010217790596269143,
      "loss": 3.8899,
      "step": 290370
    },
    {
      "epoch": 0.6049583333333334,
      "grad_norm": 1.013174057006836,
      "learning_rate": 0.00010216856195748856,
      "loss": 3.7973,
      "step": 290380
    },
    {
      "epoch": 0.6049791666666666,
      "grad_norm": 1.0264794826507568,
      "learning_rate": 0.00010215921815889859,
      "loss": 3.6617,
      "step": 290390
    },
    {
      "epoch": 0.605,
      "grad_norm": 1.336952567100525,
      "learning_rate": 0.0001021498745669618,
      "loss": 3.7779,
      "step": 290400
    },
    {
      "epoch": 0.6050208333333333,
      "grad_norm": 0.998647153377533,
      "learning_rate": 0.00010214053118171864,
      "loss": 4.0328,
      "step": 290410
    },
    {
      "epoch": 0.6050416666666667,
      "grad_norm": 1.056858777999878,
      "learning_rate": 0.00010213118800320949,
      "loss": 3.7834,
      "step": 290420
    },
    {
      "epoch": 0.6050625,
      "grad_norm": 0.986643373966217,
      "learning_rate": 0.00010212184503147458,
      "loss": 3.7557,
      "step": 290430
    },
    {
      "epoch": 0.6050833333333333,
      "grad_norm": 0.99850994348526,
      "learning_rate": 0.0001021125022665544,
      "loss": 3.8357,
      "step": 290440
    },
    {
      "epoch": 0.6051041666666667,
      "grad_norm": 1.0811964273452759,
      "learning_rate": 0.00010210315970848925,
      "loss": 3.9031,
      "step": 290450
    },
    {
      "epoch": 0.605125,
      "grad_norm": 1.0104639530181885,
      "learning_rate": 0.00010209381735731947,
      "loss": 3.6873,
      "step": 290460
    },
    {
      "epoch": 0.6051458333333334,
      "grad_norm": 1.020232915878296,
      "learning_rate": 0.00010208447521308544,
      "loss": 4.1536,
      "step": 290470
    },
    {
      "epoch": 0.6051666666666666,
      "grad_norm": 1.0356059074401855,
      "learning_rate": 0.00010207513327582756,
      "loss": 3.9786,
      "step": 290480
    },
    {
      "epoch": 0.6051875,
      "grad_norm": 0.9940860271453857,
      "learning_rate": 0.00010206579154558605,
      "loss": 4.0074,
      "step": 290490
    },
    {
      "epoch": 0.6052083333333333,
      "grad_norm": 1.0642515420913696,
      "learning_rate": 0.00010205645002240142,
      "loss": 3.9059,
      "step": 290500
    },
    {
      "epoch": 0.6052291666666667,
      "grad_norm": 0.9871676564216614,
      "learning_rate": 0.00010204710870631394,
      "loss": 4.045,
      "step": 290510
    },
    {
      "epoch": 0.60525,
      "grad_norm": 1.020081639289856,
      "learning_rate": 0.00010203776759736391,
      "loss": 3.8755,
      "step": 290520
    },
    {
      "epoch": 0.6052708333333333,
      "grad_norm": 1.3201671838760376,
      "learning_rate": 0.00010202842669559183,
      "loss": 4.1355,
      "step": 290530
    },
    {
      "epoch": 0.6052916666666667,
      "grad_norm": 1.0562448501586914,
      "learning_rate": 0.0001020190860010379,
      "loss": 3.9028,
      "step": 290540
    },
    {
      "epoch": 0.6053125,
      "grad_norm": 0.9840326309204102,
      "learning_rate": 0.00010200974551374247,
      "loss": 3.9481,
      "step": 290550
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 1.0183086395263672,
      "learning_rate": 0.00010200040523374605,
      "loss": 3.757,
      "step": 290560
    },
    {
      "epoch": 0.6053541666666666,
      "grad_norm": 0.967265784740448,
      "learning_rate": 0.00010199106516108885,
      "loss": 4.0032,
      "step": 290570
    },
    {
      "epoch": 0.605375,
      "grad_norm": 1.091240406036377,
      "learning_rate": 0.0001019817252958112,
      "loss": 4.0771,
      "step": 290580
    },
    {
      "epoch": 0.6053958333333334,
      "grad_norm": 1.0760221481323242,
      "learning_rate": 0.00010197238563795356,
      "loss": 3.7695,
      "step": 290590
    },
    {
      "epoch": 0.6054166666666667,
      "grad_norm": 1.0183534622192383,
      "learning_rate": 0.00010196304618755615,
      "loss": 3.7867,
      "step": 290600
    },
    {
      "epoch": 0.6054375,
      "grad_norm": 1.0858296155929565,
      "learning_rate": 0.00010195370694465942,
      "loss": 3.8339,
      "step": 290610
    },
    {
      "epoch": 0.6054583333333333,
      "grad_norm": 1.0109901428222656,
      "learning_rate": 0.00010194436790930359,
      "loss": 3.6666,
      "step": 290620
    },
    {
      "epoch": 0.6054791666666667,
      "grad_norm": 1.070914387702942,
      "learning_rate": 0.00010193502908152913,
      "loss": 3.9449,
      "step": 290630
    },
    {
      "epoch": 0.6055,
      "grad_norm": 1.151450276374817,
      "learning_rate": 0.00010192569046137628,
      "loss": 3.9097,
      "step": 290640
    },
    {
      "epoch": 0.6055208333333333,
      "grad_norm": 1.1195793151855469,
      "learning_rate": 0.0001019163520488854,
      "loss": 3.9346,
      "step": 290650
    },
    {
      "epoch": 0.6055416666666666,
      "grad_norm": 0.99357008934021,
      "learning_rate": 0.0001019070138440969,
      "loss": 3.9234,
      "step": 290660
    },
    {
      "epoch": 0.6055625,
      "grad_norm": 1.126388669013977,
      "learning_rate": 0.00010189767584705103,
      "loss": 3.9507,
      "step": 290670
    },
    {
      "epoch": 0.6055833333333334,
      "grad_norm": 1.0522419214248657,
      "learning_rate": 0.00010188833805778814,
      "loss": 3.8708,
      "step": 290680
    },
    {
      "epoch": 0.6056041666666667,
      "grad_norm": 1.1574482917785645,
      "learning_rate": 0.00010187900047634865,
      "loss": 3.9405,
      "step": 290690
    },
    {
      "epoch": 0.605625,
      "grad_norm": 0.9895520806312561,
      "learning_rate": 0.00010186966310277277,
      "loss": 3.7132,
      "step": 290700
    },
    {
      "epoch": 0.6056458333333333,
      "grad_norm": 1.00213623046875,
      "learning_rate": 0.0001018603259371009,
      "loss": 3.9769,
      "step": 290710
    },
    {
      "epoch": 0.6056666666666667,
      "grad_norm": 1.210182547569275,
      "learning_rate": 0.0001018509889793734,
      "loss": 3.891,
      "step": 290720
    },
    {
      "epoch": 0.6056875,
      "grad_norm": 1.2003155946731567,
      "learning_rate": 0.00010184165222963058,
      "loss": 3.9421,
      "step": 290730
    },
    {
      "epoch": 0.6057083333333333,
      "grad_norm": 3.688009262084961,
      "learning_rate": 0.00010183231568791271,
      "loss": 3.796,
      "step": 290740
    },
    {
      "epoch": 0.6057291666666667,
      "grad_norm": 0.9967883825302124,
      "learning_rate": 0.0001018229793542602,
      "loss": 3.7946,
      "step": 290750
    },
    {
      "epoch": 0.60575,
      "grad_norm": 1.1108824014663696,
      "learning_rate": 0.00010181364322871334,
      "loss": 3.9569,
      "step": 290760
    },
    {
      "epoch": 0.6057708333333334,
      "grad_norm": 1.2083981037139893,
      "learning_rate": 0.00010180430731131245,
      "loss": 4.0711,
      "step": 290770
    },
    {
      "epoch": 0.6057916666666666,
      "grad_norm": 0.9989829659461975,
      "learning_rate": 0.00010179497160209791,
      "loss": 3.866,
      "step": 290780
    },
    {
      "epoch": 0.6058125,
      "grad_norm": 1.0240415334701538,
      "learning_rate": 0.00010178563610111002,
      "loss": 3.904,
      "step": 290790
    },
    {
      "epoch": 0.6058333333333333,
      "grad_norm": 0.941940426826477,
      "learning_rate": 0.00010177630080838904,
      "loss": 3.7071,
      "step": 290800
    },
    {
      "epoch": 0.6058541666666667,
      "grad_norm": 1.192458152770996,
      "learning_rate": 0.00010176696572397538,
      "loss": 4.2179,
      "step": 290810
    },
    {
      "epoch": 0.605875,
      "grad_norm": 1.0755839347839355,
      "learning_rate": 0.00010175763084790936,
      "loss": 3.9441,
      "step": 290820
    },
    {
      "epoch": 0.6058958333333333,
      "grad_norm": 1.0162869691848755,
      "learning_rate": 0.00010174829618023124,
      "loss": 3.7784,
      "step": 290830
    },
    {
      "epoch": 0.6059166666666667,
      "grad_norm": 1.135064721107483,
      "learning_rate": 0.00010173896172098141,
      "loss": 4.0678,
      "step": 290840
    },
    {
      "epoch": 0.6059375,
      "grad_norm": 1.047470211982727,
      "learning_rate": 0.00010172962747020018,
      "loss": 3.9831,
      "step": 290850
    },
    {
      "epoch": 0.6059583333333334,
      "grad_norm": 1.0274029970169067,
      "learning_rate": 0.0001017202934279278,
      "loss": 4.0012,
      "step": 290860
    },
    {
      "epoch": 0.6059791666666666,
      "grad_norm": 0.9861583113670349,
      "learning_rate": 0.00010171095959420469,
      "loss": 3.866,
      "step": 290870
    },
    {
      "epoch": 0.606,
      "grad_norm": 0.9581522941589355,
      "learning_rate": 0.0001017016259690711,
      "loss": 3.9053,
      "step": 290880
    },
    {
      "epoch": 0.6060208333333333,
      "grad_norm": 1.4157698154449463,
      "learning_rate": 0.0001016922925525674,
      "loss": 3.9974,
      "step": 290890
    },
    {
      "epoch": 0.6060416666666667,
      "grad_norm": 0.9771665930747986,
      "learning_rate": 0.00010168295934473381,
      "loss": 4.1524,
      "step": 290900
    },
    {
      "epoch": 0.6060625,
      "grad_norm": 0.9612772464752197,
      "learning_rate": 0.00010167362634561075,
      "loss": 3.9845,
      "step": 290910
    },
    {
      "epoch": 0.6060833333333333,
      "grad_norm": 0.9610966444015503,
      "learning_rate": 0.00010166429355523852,
      "loss": 3.9123,
      "step": 290920
    },
    {
      "epoch": 0.6061041666666667,
      "grad_norm": 1.011671543121338,
      "learning_rate": 0.00010165496097365732,
      "loss": 3.882,
      "step": 290930
    },
    {
      "epoch": 0.606125,
      "grad_norm": 0.9840940833091736,
      "learning_rate": 0.00010164562860090762,
      "loss": 3.8199,
      "step": 290940
    },
    {
      "epoch": 0.6061458333333334,
      "grad_norm": 1.0714787244796753,
      "learning_rate": 0.00010163629643702968,
      "loss": 3.8945,
      "step": 290950
    },
    {
      "epoch": 0.6061666666666666,
      "grad_norm": 0.990753710269928,
      "learning_rate": 0.00010162696448206375,
      "loss": 3.7065,
      "step": 290960
    },
    {
      "epoch": 0.6061875,
      "grad_norm": 1.0510858297348022,
      "learning_rate": 0.00010161763273605019,
      "loss": 3.7016,
      "step": 290970
    },
    {
      "epoch": 0.6062083333333333,
      "grad_norm": 1.1697219610214233,
      "learning_rate": 0.00010160830119902936,
      "loss": 3.9058,
      "step": 290980
    },
    {
      "epoch": 0.6062291666666667,
      "grad_norm": 1.0690761804580688,
      "learning_rate": 0.00010159896987104144,
      "loss": 3.8637,
      "step": 290990
    },
    {
      "epoch": 0.60625,
      "grad_norm": 1.154917597770691,
      "learning_rate": 0.00010158963875212688,
      "loss": 3.9703,
      "step": 291000
    },
    {
      "epoch": 0.60625,
      "eval_loss": 3.5859158039093018,
      "eval_runtime": 7.4399,
      "eval_samples_per_second": 1.344,
      "eval_steps_per_second": 0.403,
      "step": 291000
    },
    {
      "epoch": 0.6062708333333333,
      "grad_norm": 1.0618197917938232,
      "learning_rate": 0.00010158030784232589,
      "loss": 3.6748,
      "step": 291010
    },
    {
      "epoch": 0.6062916666666667,
      "grad_norm": 1.2512757778167725,
      "learning_rate": 0.00010157097714167876,
      "loss": 3.8057,
      "step": 291020
    },
    {
      "epoch": 0.6063125,
      "grad_norm": 1.1517704725265503,
      "learning_rate": 0.0001015616466502259,
      "loss": 3.9585,
      "step": 291030
    },
    {
      "epoch": 0.6063333333333333,
      "grad_norm": 1.0265166759490967,
      "learning_rate": 0.00010155231636800754,
      "loss": 3.8197,
      "step": 291040
    },
    {
      "epoch": 0.6063541666666666,
      "grad_norm": 1.0564358234405518,
      "learning_rate": 0.00010154298629506397,
      "loss": 3.7452,
      "step": 291050
    },
    {
      "epoch": 0.606375,
      "grad_norm": 0.9814395308494568,
      "learning_rate": 0.00010153365643143557,
      "loss": 4.0415,
      "step": 291060
    },
    {
      "epoch": 0.6063958333333334,
      "grad_norm": 0.9468849301338196,
      "learning_rate": 0.00010152432677716254,
      "loss": 3.8148,
      "step": 291070
    },
    {
      "epoch": 0.6064166666666667,
      "grad_norm": 1.120418906211853,
      "learning_rate": 0.00010151499733228522,
      "loss": 3.9058,
      "step": 291080
    },
    {
      "epoch": 0.6064375,
      "grad_norm": 1.123906135559082,
      "learning_rate": 0.00010150566809684399,
      "loss": 3.8333,
      "step": 291090
    },
    {
      "epoch": 0.6064583333333333,
      "grad_norm": 1.0179771184921265,
      "learning_rate": 0.00010149633907087902,
      "loss": 3.8964,
      "step": 291100
    },
    {
      "epoch": 0.6064791666666667,
      "grad_norm": 1.0144516229629517,
      "learning_rate": 0.00010148701025443066,
      "loss": 3.8286,
      "step": 291110
    },
    {
      "epoch": 0.6065,
      "grad_norm": 1.5761781930923462,
      "learning_rate": 0.00010147768164753925,
      "loss": 4.0026,
      "step": 291120
    },
    {
      "epoch": 0.6065208333333333,
      "grad_norm": 0.9757157564163208,
      "learning_rate": 0.00010146835325024507,
      "loss": 4.0007,
      "step": 291130
    },
    {
      "epoch": 0.6065416666666666,
      "grad_norm": 1.1144368648529053,
      "learning_rate": 0.00010145902506258832,
      "loss": 4.1708,
      "step": 291140
    },
    {
      "epoch": 0.6065625,
      "grad_norm": 0.9397634863853455,
      "learning_rate": 0.0001014496970846094,
      "loss": 3.9773,
      "step": 291150
    },
    {
      "epoch": 0.6065833333333334,
      "grad_norm": 0.9486949443817139,
      "learning_rate": 0.00010144036931634861,
      "loss": 3.7634,
      "step": 291160
    },
    {
      "epoch": 0.6066041666666667,
      "grad_norm": 1.040774941444397,
      "learning_rate": 0.00010143104175784613,
      "loss": 3.9358,
      "step": 291170
    },
    {
      "epoch": 0.606625,
      "grad_norm": 0.9760563373565674,
      "learning_rate": 0.00010142171440914236,
      "loss": 3.9069,
      "step": 291180
    },
    {
      "epoch": 0.6066458333333333,
      "grad_norm": 1.0792415142059326,
      "learning_rate": 0.00010141238727027761,
      "loss": 4.0107,
      "step": 291190
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 1.1186141967773438,
      "learning_rate": 0.00010140306034129207,
      "loss": 4.0839,
      "step": 291200
    },
    {
      "epoch": 0.6066875,
      "grad_norm": 1.0628166198730469,
      "learning_rate": 0.00010139373362222602,
      "loss": 3.8862,
      "step": 291210
    },
    {
      "epoch": 0.6067083333333333,
      "grad_norm": 1.0029677152633667,
      "learning_rate": 0.00010138440711311987,
      "loss": 3.8653,
      "step": 291220
    },
    {
      "epoch": 0.6067291666666667,
      "grad_norm": 1.0008903741836548,
      "learning_rate": 0.00010137508081401387,
      "loss": 3.9567,
      "step": 291230
    },
    {
      "epoch": 0.60675,
      "grad_norm": 1.240096092224121,
      "learning_rate": 0.00010136575472494818,
      "loss": 3.9164,
      "step": 291240
    },
    {
      "epoch": 0.6067708333333334,
      "grad_norm": 0.9949080348014832,
      "learning_rate": 0.0001013564288459632,
      "loss": 3.9643,
      "step": 291250
    },
    {
      "epoch": 0.6067916666666666,
      "grad_norm": 1.2094874382019043,
      "learning_rate": 0.00010134710317709926,
      "loss": 3.9091,
      "step": 291260
    },
    {
      "epoch": 0.6068125,
      "grad_norm": 0.9976986646652222,
      "learning_rate": 0.00010133777771839649,
      "loss": 4.041,
      "step": 291270
    },
    {
      "epoch": 0.6068333333333333,
      "grad_norm": 1.0091207027435303,
      "learning_rate": 0.0001013284524698953,
      "loss": 3.8853,
      "step": 291280
    },
    {
      "epoch": 0.6068541666666667,
      "grad_norm": 1.0744062662124634,
      "learning_rate": 0.00010131912743163596,
      "loss": 3.9198,
      "step": 291290
    },
    {
      "epoch": 0.606875,
      "grad_norm": 1.072663426399231,
      "learning_rate": 0.00010130980260365865,
      "loss": 4.0685,
      "step": 291300
    },
    {
      "epoch": 0.6068958333333333,
      "grad_norm": 1.1865854263305664,
      "learning_rate": 0.00010130047798600373,
      "loss": 3.9648,
      "step": 291310
    },
    {
      "epoch": 0.6069166666666667,
      "grad_norm": 1.1100207567214966,
      "learning_rate": 0.00010129115357871155,
      "loss": 3.7318,
      "step": 291320
    },
    {
      "epoch": 0.6069375,
      "grad_norm": 1.0402719974517822,
      "learning_rate": 0.00010128182938182222,
      "loss": 3.8946,
      "step": 291330
    },
    {
      "epoch": 0.6069583333333334,
      "grad_norm": 1.0222326517105103,
      "learning_rate": 0.00010127250539537612,
      "loss": 3.7525,
      "step": 291340
    },
    {
      "epoch": 0.6069791666666666,
      "grad_norm": 1.01104736328125,
      "learning_rate": 0.00010126318161941356,
      "loss": 3.9992,
      "step": 291350
    },
    {
      "epoch": 0.607,
      "grad_norm": 1.016461730003357,
      "learning_rate": 0.00010125385805397469,
      "loss": 3.9139,
      "step": 291360
    },
    {
      "epoch": 0.6070208333333333,
      "grad_norm": 1.1785227060317993,
      "learning_rate": 0.00010124453469909992,
      "loss": 3.9337,
      "step": 291370
    },
    {
      "epoch": 0.6070416666666667,
      "grad_norm": 1.0353164672851562,
      "learning_rate": 0.00010123521155482946,
      "loss": 3.9809,
      "step": 291380
    },
    {
      "epoch": 0.6070625,
      "grad_norm": 1.3470803499221802,
      "learning_rate": 0.00010122588862120352,
      "loss": 3.993,
      "step": 291390
    },
    {
      "epoch": 0.6070833333333333,
      "grad_norm": 0.9650475978851318,
      "learning_rate": 0.0001012165658982625,
      "loss": 4.0325,
      "step": 291400
    },
    {
      "epoch": 0.6071041666666667,
      "grad_norm": 1.0775514841079712,
      "learning_rate": 0.00010120724338604657,
      "loss": 4.1923,
      "step": 291410
    },
    {
      "epoch": 0.607125,
      "grad_norm": 0.9967358112335205,
      "learning_rate": 0.000101197921084596,
      "loss": 3.8914,
      "step": 291420
    },
    {
      "epoch": 0.6071458333333334,
      "grad_norm": 1.0119932889938354,
      "learning_rate": 0.0001011885989939512,
      "loss": 3.9162,
      "step": 291430
    },
    {
      "epoch": 0.6071666666666666,
      "grad_norm": 1.0284756422042847,
      "learning_rate": 0.00010117927711415225,
      "loss": 3.9871,
      "step": 291440
    },
    {
      "epoch": 0.6071875,
      "grad_norm": 1.1666526794433594,
      "learning_rate": 0.00010116995544523949,
      "loss": 3.9803,
      "step": 291450
    },
    {
      "epoch": 0.6072083333333333,
      "grad_norm": 1.0239194631576538,
      "learning_rate": 0.00010116063398725327,
      "loss": 3.8693,
      "step": 291460
    },
    {
      "epoch": 0.6072291666666667,
      "grad_norm": 1.0593706369400024,
      "learning_rate": 0.00010115131274023373,
      "loss": 3.9482,
      "step": 291470
    },
    {
      "epoch": 0.60725,
      "grad_norm": 1.0338460206985474,
      "learning_rate": 0.00010114199170422121,
      "loss": 3.8351,
      "step": 291480
    },
    {
      "epoch": 0.6072708333333333,
      "grad_norm": 1.0962343215942383,
      "learning_rate": 0.00010113267087925588,
      "loss": 3.9299,
      "step": 291490
    },
    {
      "epoch": 0.6072916666666667,
      "grad_norm": 1.054046630859375,
      "learning_rate": 0.00010112335026537814,
      "loss": 3.8798,
      "step": 291500
    },
    {
      "epoch": 0.6073125,
      "grad_norm": 1.0144543647766113,
      "learning_rate": 0.00010111402986262817,
      "loss": 3.8343,
      "step": 291510
    },
    {
      "epoch": 0.6073333333333333,
      "grad_norm": 1.144068717956543,
      "learning_rate": 0.00010110470967104617,
      "loss": 4.0667,
      "step": 291520
    },
    {
      "epoch": 0.6073541666666666,
      "grad_norm": 1.1652226448059082,
      "learning_rate": 0.00010109538969067256,
      "loss": 3.8075,
      "step": 291530
    },
    {
      "epoch": 0.607375,
      "grad_norm": 0.9753145575523376,
      "learning_rate": 0.00010108606992154748,
      "loss": 3.7132,
      "step": 291540
    },
    {
      "epoch": 0.6073958333333334,
      "grad_norm": 1.1765718460083008,
      "learning_rate": 0.00010107675036371115,
      "loss": 3.7538,
      "step": 291550
    },
    {
      "epoch": 0.6074166666666667,
      "grad_norm": 1.069677472114563,
      "learning_rate": 0.000101067431017204,
      "loss": 3.7693,
      "step": 291560
    },
    {
      "epoch": 0.6074375,
      "grad_norm": 1.105046272277832,
      "learning_rate": 0.00010105811188206612,
      "loss": 3.8564,
      "step": 291570
    },
    {
      "epoch": 0.6074583333333333,
      "grad_norm": 0.984299898147583,
      "learning_rate": 0.0001010487929583378,
      "loss": 3.913,
      "step": 291580
    },
    {
      "epoch": 0.6074791666666667,
      "grad_norm": 1.005802869796753,
      "learning_rate": 0.00010103947424605938,
      "loss": 3.8088,
      "step": 291590
    },
    {
      "epoch": 0.6075,
      "grad_norm": 1.087307333946228,
      "learning_rate": 0.00010103015574527106,
      "loss": 3.971,
      "step": 291600
    },
    {
      "epoch": 0.6075208333333333,
      "grad_norm": 1.1402047872543335,
      "learning_rate": 0.00010102083745601299,
      "loss": 3.7949,
      "step": 291610
    },
    {
      "epoch": 0.6075416666666666,
      "grad_norm": 1.304553747177124,
      "learning_rate": 0.0001010115193783256,
      "loss": 3.8536,
      "step": 291620
    },
    {
      "epoch": 0.6075625,
      "grad_norm": 1.10553777217865,
      "learning_rate": 0.00010100220151224906,
      "loss": 3.8518,
      "step": 291630
    },
    {
      "epoch": 0.6075833333333334,
      "grad_norm": 1.0240390300750732,
      "learning_rate": 0.00010099288385782353,
      "loss": 3.8446,
      "step": 291640
    },
    {
      "epoch": 0.6076041666666666,
      "grad_norm": 1.2181533575057983,
      "learning_rate": 0.00010098356641508941,
      "loss": 3.8274,
      "step": 291650
    },
    {
      "epoch": 0.607625,
      "grad_norm": 1.0221179723739624,
      "learning_rate": 0.00010097424918408688,
      "loss": 3.9309,
      "step": 291660
    },
    {
      "epoch": 0.6076458333333333,
      "grad_norm": 1.0590851306915283,
      "learning_rate": 0.00010096493216485616,
      "loss": 3.9272,
      "step": 291670
    },
    {
      "epoch": 0.6076666666666667,
      "grad_norm": 1.1808069944381714,
      "learning_rate": 0.00010095561535743753,
      "loss": 3.7867,
      "step": 291680
    },
    {
      "epoch": 0.6076875,
      "grad_norm": 1.0881811380386353,
      "learning_rate": 0.00010094629876187129,
      "loss": 3.8534,
      "step": 291690
    },
    {
      "epoch": 0.6077083333333333,
      "grad_norm": 1.0116286277770996,
      "learning_rate": 0.00010093698237819753,
      "loss": 4.048,
      "step": 291700
    },
    {
      "epoch": 0.6077291666666667,
      "grad_norm": 1.255119800567627,
      "learning_rate": 0.00010092766620645661,
      "loss": 3.939,
      "step": 291710
    },
    {
      "epoch": 0.60775,
      "grad_norm": 1.035190463066101,
      "learning_rate": 0.00010091835024668879,
      "loss": 3.9176,
      "step": 291720
    },
    {
      "epoch": 0.6077708333333334,
      "grad_norm": 1.2583425045013428,
      "learning_rate": 0.0001009090344989342,
      "loss": 4.0687,
      "step": 291730
    },
    {
      "epoch": 0.6077916666666666,
      "grad_norm": 1.0294567346572876,
      "learning_rate": 0.00010089971896323324,
      "loss": 4.0139,
      "step": 291740
    },
    {
      "epoch": 0.6078125,
      "grad_norm": 0.9990445971488953,
      "learning_rate": 0.000100890403639626,
      "loss": 3.8295,
      "step": 291750
    },
    {
      "epoch": 0.6078333333333333,
      "grad_norm": 1.1450119018554688,
      "learning_rate": 0.00010088108852815276,
      "loss": 3.8951,
      "step": 291760
    },
    {
      "epoch": 0.6078541666666667,
      "grad_norm": 0.9689457416534424,
      "learning_rate": 0.00010087177362885383,
      "loss": 3.8681,
      "step": 291770
    },
    {
      "epoch": 0.607875,
      "grad_norm": 1.165712833404541,
      "learning_rate": 0.00010086245894176936,
      "loss": 3.9483,
      "step": 291780
    },
    {
      "epoch": 0.6078958333333333,
      "grad_norm": 0.9889581203460693,
      "learning_rate": 0.00010085314446693964,
      "loss": 3.9353,
      "step": 291790
    },
    {
      "epoch": 0.6079166666666667,
      "grad_norm": 1.2874113321304321,
      "learning_rate": 0.00010084383020440485,
      "loss": 3.9013,
      "step": 291800
    },
    {
      "epoch": 0.6079375,
      "grad_norm": 1.2337414026260376,
      "learning_rate": 0.00010083451615420526,
      "loss": 3.899,
      "step": 291810
    },
    {
      "epoch": 0.6079583333333334,
      "grad_norm": 1.154172420501709,
      "learning_rate": 0.00010082520231638115,
      "loss": 3.9516,
      "step": 291820
    },
    {
      "epoch": 0.6079791666666666,
      "grad_norm": 1.0784380435943604,
      "learning_rate": 0.00010081588869097262,
      "loss": 3.8369,
      "step": 291830
    },
    {
      "epoch": 0.608,
      "grad_norm": 1.0179328918457031,
      "learning_rate": 0.00010080657527802,
      "loss": 3.9791,
      "step": 291840
    },
    {
      "epoch": 0.6080208333333333,
      "grad_norm": 1.2541286945343018,
      "learning_rate": 0.00010079726207756358,
      "loss": 3.9476,
      "step": 291850
    },
    {
      "epoch": 0.6080416666666667,
      "grad_norm": 1.0677738189697266,
      "learning_rate": 0.0001007879490896434,
      "loss": 3.7761,
      "step": 291860
    },
    {
      "epoch": 0.6080625,
      "grad_norm": 1.1333671808242798,
      "learning_rate": 0.0001007786363142999,
      "loss": 3.8686,
      "step": 291870
    },
    {
      "epoch": 0.6080833333333333,
      "grad_norm": 1.03166925907135,
      "learning_rate": 0.00010076932375157315,
      "loss": 4.0159,
      "step": 291880
    },
    {
      "epoch": 0.6081041666666667,
      "grad_norm": 1.103185772895813,
      "learning_rate": 0.00010076001140150343,
      "loss": 3.8079,
      "step": 291890
    },
    {
      "epoch": 0.608125,
      "grad_norm": 1.066502332687378,
      "learning_rate": 0.00010075069926413102,
      "loss": 3.9891,
      "step": 291900
    },
    {
      "epoch": 0.6081458333333334,
      "grad_norm": 0.9976867437362671,
      "learning_rate": 0.00010074138733949607,
      "loss": 4.0316,
      "step": 291910
    },
    {
      "epoch": 0.6081666666666666,
      "grad_norm": 1.1011073589324951,
      "learning_rate": 0.00010073207562763879,
      "loss": 3.7799,
      "step": 291920
    },
    {
      "epoch": 0.6081875,
      "grad_norm": 1.1519694328308105,
      "learning_rate": 0.0001007227641285995,
      "loss": 3.9417,
      "step": 291930
    },
    {
      "epoch": 0.6082083333333334,
      "grad_norm": 1.0585193634033203,
      "learning_rate": 0.00010071345284241834,
      "loss": 3.8105,
      "step": 291940
    },
    {
      "epoch": 0.6082291666666667,
      "grad_norm": 1.0372188091278076,
      "learning_rate": 0.00010070414176913551,
      "loss": 4.069,
      "step": 291950
    },
    {
      "epoch": 0.60825,
      "grad_norm": 1.3451637029647827,
      "learning_rate": 0.00010069483090879135,
      "loss": 4.0152,
      "step": 291960
    },
    {
      "epoch": 0.6082708333333333,
      "grad_norm": 1.1532832384109497,
      "learning_rate": 0.00010068552026142598,
      "loss": 3.9808,
      "step": 291970
    },
    {
      "epoch": 0.6082916666666667,
      "grad_norm": 1.306369423866272,
      "learning_rate": 0.00010067620982707962,
      "loss": 3.9168,
      "step": 291980
    },
    {
      "epoch": 0.6083125,
      "grad_norm": 1.0394365787506104,
      "learning_rate": 0.00010066689960579254,
      "loss": 3.7397,
      "step": 291990
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 1.0501872301101685,
      "learning_rate": 0.00010065758959760495,
      "loss": 3.7855,
      "step": 292000
    },
    {
      "epoch": 0.6083333333333333,
      "eval_loss": 3.5877461433410645,
      "eval_runtime": 7.3427,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 292000
    },
    {
      "epoch": 0.6083541666666666,
      "grad_norm": 1.0442925691604614,
      "learning_rate": 0.00010064827980255698,
      "loss": 3.895,
      "step": 292010
    },
    {
      "epoch": 0.608375,
      "grad_norm": 1.192747712135315,
      "learning_rate": 0.00010063897022068891,
      "loss": 3.7932,
      "step": 292020
    },
    {
      "epoch": 0.6083958333333334,
      "grad_norm": 0.9857041835784912,
      "learning_rate": 0.00010062966085204102,
      "loss": 4.0356,
      "step": 292030
    },
    {
      "epoch": 0.6084166666666667,
      "grad_norm": 1.0165107250213623,
      "learning_rate": 0.00010062035169665336,
      "loss": 3.7644,
      "step": 292040
    },
    {
      "epoch": 0.6084375,
      "grad_norm": 1.0551118850708008,
      "learning_rate": 0.00010061104275456626,
      "loss": 3.7753,
      "step": 292050
    },
    {
      "epoch": 0.6084583333333333,
      "grad_norm": 1.034976840019226,
      "learning_rate": 0.00010060173402581997,
      "loss": 3.8544,
      "step": 292060
    },
    {
      "epoch": 0.6084791666666667,
      "grad_norm": 1.1365017890930176,
      "learning_rate": 0.00010059242551045459,
      "loss": 3.9388,
      "step": 292070
    },
    {
      "epoch": 0.6085,
      "grad_norm": 1.046635389328003,
      "learning_rate": 0.00010058311720851034,
      "loss": 3.9262,
      "step": 292080
    },
    {
      "epoch": 0.6085208333333333,
      "grad_norm": 1.0187054872512817,
      "learning_rate": 0.00010057380912002754,
      "loss": 4.0707,
      "step": 292090
    },
    {
      "epoch": 0.6085416666666666,
      "grad_norm": 0.9153227806091309,
      "learning_rate": 0.0001005645012450463,
      "loss": 3.9649,
      "step": 292100
    },
    {
      "epoch": 0.6085625,
      "grad_norm": 1.036199688911438,
      "learning_rate": 0.00010055519358360675,
      "loss": 3.8524,
      "step": 292110
    },
    {
      "epoch": 0.6085833333333334,
      "grad_norm": 1.181949496269226,
      "learning_rate": 0.0001005458861357493,
      "loss": 3.9216,
      "step": 292120
    },
    {
      "epoch": 0.6086041666666666,
      "grad_norm": 1.0368961095809937,
      "learning_rate": 0.00010053657890151405,
      "loss": 3.9607,
      "step": 292130
    },
    {
      "epoch": 0.608625,
      "grad_norm": 1.1197071075439453,
      "learning_rate": 0.00010052727188094112,
      "loss": 3.9114,
      "step": 292140
    },
    {
      "epoch": 0.6086458333333333,
      "grad_norm": 1.0833791494369507,
      "learning_rate": 0.00010051796507407086,
      "loss": 3.843,
      "step": 292150
    },
    {
      "epoch": 0.6086666666666667,
      "grad_norm": 1.0832158327102661,
      "learning_rate": 0.00010050865848094339,
      "loss": 4.0031,
      "step": 292160
    },
    {
      "epoch": 0.6086875,
      "grad_norm": 1.102448582649231,
      "learning_rate": 0.00010049935210159888,
      "loss": 3.8107,
      "step": 292170
    },
    {
      "epoch": 0.6087083333333333,
      "grad_norm": 1.0724910497665405,
      "learning_rate": 0.00010049004593607762,
      "loss": 3.7953,
      "step": 292180
    },
    {
      "epoch": 0.6087291666666667,
      "grad_norm": 1.0542755126953125,
      "learning_rate": 0.0001004807399844198,
      "loss": 3.7902,
      "step": 292190
    },
    {
      "epoch": 0.60875,
      "grad_norm": 1.0022259950637817,
      "learning_rate": 0.00010047143424666549,
      "loss": 3.8469,
      "step": 292200
    },
    {
      "epoch": 0.6087708333333334,
      "grad_norm": 1.0033038854599,
      "learning_rate": 0.00010046212872285502,
      "loss": 3.7278,
      "step": 292210
    },
    {
      "epoch": 0.6087916666666666,
      "grad_norm": 3.9311251640319824,
      "learning_rate": 0.00010045282341302859,
      "loss": 3.9825,
      "step": 292220
    },
    {
      "epoch": 0.6088125,
      "grad_norm": 1.02260422706604,
      "learning_rate": 0.00010044351831722628,
      "loss": 3.9978,
      "step": 292230
    },
    {
      "epoch": 0.6088333333333333,
      "grad_norm": 1.0039840936660767,
      "learning_rate": 0.00010043421343548842,
      "loss": 3.8411,
      "step": 292240
    },
    {
      "epoch": 0.6088541666666667,
      "grad_norm": 1.2635045051574707,
      "learning_rate": 0.0001004249087678551,
      "loss": 3.9768,
      "step": 292250
    },
    {
      "epoch": 0.608875,
      "grad_norm": 1.061368465423584,
      "learning_rate": 0.00010041560431436653,
      "loss": 3.8724,
      "step": 292260
    },
    {
      "epoch": 0.6088958333333333,
      "grad_norm": 1.0446983575820923,
      "learning_rate": 0.00010040630007506296,
      "loss": 3.915,
      "step": 292270
    },
    {
      "epoch": 0.6089166666666667,
      "grad_norm": 1.0427719354629517,
      "learning_rate": 0.00010039699604998456,
      "loss": 3.9778,
      "step": 292280
    },
    {
      "epoch": 0.6089375,
      "grad_norm": 1.0060889720916748,
      "learning_rate": 0.00010038769223917142,
      "loss": 3.8592,
      "step": 292290
    },
    {
      "epoch": 0.6089583333333334,
      "grad_norm": 1.0344699621200562,
      "learning_rate": 0.0001003783886426639,
      "loss": 3.9808,
      "step": 292300
    },
    {
      "epoch": 0.6089791666666666,
      "grad_norm": 0.9980940222740173,
      "learning_rate": 0.00010036908526050208,
      "loss": 4.0878,
      "step": 292310
    },
    {
      "epoch": 0.609,
      "grad_norm": 1.0144352912902832,
      "learning_rate": 0.0001003597820927261,
      "loss": 3.8056,
      "step": 292320
    },
    {
      "epoch": 0.6090208333333333,
      "grad_norm": 1.0371239185333252,
      "learning_rate": 0.0001003504791393763,
      "loss": 4.0295,
      "step": 292330
    },
    {
      "epoch": 0.6090416666666667,
      "grad_norm": 1.0351232290267944,
      "learning_rate": 0.00010034117640049274,
      "loss": 3.9717,
      "step": 292340
    },
    {
      "epoch": 0.6090625,
      "grad_norm": 0.965762734413147,
      "learning_rate": 0.00010033187387611562,
      "loss": 3.5636,
      "step": 292350
    },
    {
      "epoch": 0.6090833333333333,
      "grad_norm": 1.016983151435852,
      "learning_rate": 0.00010032257156628522,
      "loss": 3.7457,
      "step": 292360
    },
    {
      "epoch": 0.6091041666666667,
      "grad_norm": 1.112146019935608,
      "learning_rate": 0.0001003132694710416,
      "loss": 3.9543,
      "step": 292370
    },
    {
      "epoch": 0.609125,
      "grad_norm": 0.9615963101387024,
      "learning_rate": 0.00010030396759042501,
      "loss": 3.8174,
      "step": 292380
    },
    {
      "epoch": 0.6091458333333334,
      "grad_norm": 1.020125389099121,
      "learning_rate": 0.00010029466592447553,
      "loss": 3.8589,
      "step": 292390
    },
    {
      "epoch": 0.6091666666666666,
      "grad_norm": 1.0127971172332764,
      "learning_rate": 0.00010028536447323351,
      "loss": 4.0029,
      "step": 292400
    },
    {
      "epoch": 0.6091875,
      "grad_norm": 1.057386040687561,
      "learning_rate": 0.00010027606323673899,
      "loss": 3.9092,
      "step": 292410
    },
    {
      "epoch": 0.6092083333333334,
      "grad_norm": 1.0031647682189941,
      "learning_rate": 0.00010026676221503217,
      "loss": 4.0218,
      "step": 292420
    },
    {
      "epoch": 0.6092291666666667,
      "grad_norm": 1.2489206790924072,
      "learning_rate": 0.00010025746140815334,
      "loss": 4.0124,
      "step": 292430
    },
    {
      "epoch": 0.60925,
      "grad_norm": 1.4641999006271362,
      "learning_rate": 0.00010024816081614253,
      "loss": 4.1055,
      "step": 292440
    },
    {
      "epoch": 0.6092708333333333,
      "grad_norm": 0.9722900390625,
      "learning_rate": 0.00010023886043903994,
      "loss": 3.8037,
      "step": 292450
    },
    {
      "epoch": 0.6092916666666667,
      "grad_norm": 1.1137784719467163,
      "learning_rate": 0.00010022956027688582,
      "loss": 3.7345,
      "step": 292460
    },
    {
      "epoch": 0.6093125,
      "grad_norm": 1.416256070137024,
      "learning_rate": 0.00010022026032972029,
      "loss": 3.8308,
      "step": 292470
    },
    {
      "epoch": 0.6093333333333333,
      "grad_norm": 1.0214208364486694,
      "learning_rate": 0.00010021096059758352,
      "loss": 3.9624,
      "step": 292480
    },
    {
      "epoch": 0.6093541666666666,
      "grad_norm": 1.1190221309661865,
      "learning_rate": 0.00010020166108051571,
      "loss": 3.8424,
      "step": 292490
    },
    {
      "epoch": 0.609375,
      "grad_norm": 1.0525296926498413,
      "learning_rate": 0.00010019236177855706,
      "loss": 3.9071,
      "step": 292500
    },
    {
      "epoch": 0.6093958333333334,
      "grad_norm": 0.9988313317298889,
      "learning_rate": 0.0001001830626917476,
      "loss": 3.923,
      "step": 292510
    },
    {
      "epoch": 0.6094166666666667,
      "grad_norm": 0.9976001977920532,
      "learning_rate": 0.00010017376382012762,
      "loss": 4.002,
      "step": 292520
    },
    {
      "epoch": 0.6094375,
      "grad_norm": 1.2663898468017578,
      "learning_rate": 0.00010016446516373731,
      "loss": 4.0175,
      "step": 292530
    },
    {
      "epoch": 0.6094583333333333,
      "grad_norm": 1.0438495874404907,
      "learning_rate": 0.0001001551667226167,
      "loss": 3.9266,
      "step": 292540
    },
    {
      "epoch": 0.6094791666666667,
      "grad_norm": 1.0497890710830688,
      "learning_rate": 0.00010014586849680609,
      "loss": 4.1582,
      "step": 292550
    },
    {
      "epoch": 0.6095,
      "grad_norm": 1.0795397758483887,
      "learning_rate": 0.00010013657048634561,
      "loss": 4.0454,
      "step": 292560
    },
    {
      "epoch": 0.6095208333333333,
      "grad_norm": 1.204195499420166,
      "learning_rate": 0.00010012727269127536,
      "loss": 3.9183,
      "step": 292570
    },
    {
      "epoch": 0.6095416666666666,
      "grad_norm": 1.1234073638916016,
      "learning_rate": 0.00010011797511163558,
      "loss": 3.7408,
      "step": 292580
    },
    {
      "epoch": 0.6095625,
      "grad_norm": 1.055277943611145,
      "learning_rate": 0.00010010867774746641,
      "loss": 3.9268,
      "step": 292590
    },
    {
      "epoch": 0.6095833333333334,
      "grad_norm": 1.0182058811187744,
      "learning_rate": 0.00010009938059880795,
      "loss": 4.0009,
      "step": 292600
    },
    {
      "epoch": 0.6096041666666666,
      "grad_norm": 1.0877718925476074,
      "learning_rate": 0.00010009008366570047,
      "loss": 3.7413,
      "step": 292610
    },
    {
      "epoch": 0.609625,
      "grad_norm": 1.3288819789886475,
      "learning_rate": 0.00010008078694818407,
      "loss": 4.0387,
      "step": 292620
    },
    {
      "epoch": 0.6096458333333333,
      "grad_norm": 1.012583613395691,
      "learning_rate": 0.00010007149044629887,
      "loss": 3.9269,
      "step": 292630
    },
    {
      "epoch": 0.6096666666666667,
      "grad_norm": 1.0635677576065063,
      "learning_rate": 0.00010006219416008514,
      "loss": 3.8273,
      "step": 292640
    },
    {
      "epoch": 0.6096875,
      "grad_norm": 0.9995332360267639,
      "learning_rate": 0.00010005289808958291,
      "loss": 4.0419,
      "step": 292650
    },
    {
      "epoch": 0.6097083333333333,
      "grad_norm": 1.0279629230499268,
      "learning_rate": 0.00010004360223483244,
      "loss": 3.9226,
      "step": 292660
    },
    {
      "epoch": 0.6097291666666667,
      "grad_norm": 1.0160170793533325,
      "learning_rate": 0.00010003430659587374,
      "loss": 3.926,
      "step": 292670
    },
    {
      "epoch": 0.60975,
      "grad_norm": 0.9318758845329285,
      "learning_rate": 0.00010002501117274713,
      "loss": 3.8638,
      "step": 292680
    },
    {
      "epoch": 0.6097708333333334,
      "grad_norm": 1.295699119567871,
      "learning_rate": 0.00010001571596549269,
      "loss": 3.9573,
      "step": 292690
    },
    {
      "epoch": 0.6097916666666666,
      "grad_norm": 1.0115681886672974,
      "learning_rate": 0.00010000642097415054,
      "loss": 3.8907,
      "step": 292700
    },
    {
      "epoch": 0.6098125,
      "grad_norm": 1.0067920684814453,
      "learning_rate": 9.999712619876087e-05,
      "loss": 3.786,
      "step": 292710
    },
    {
      "epoch": 0.6098333333333333,
      "grad_norm": 0.9367032051086426,
      "learning_rate": 9.998783163936386e-05,
      "loss": 3.8446,
      "step": 292720
    },
    {
      "epoch": 0.6098541666666667,
      "grad_norm": 1.0266871452331543,
      "learning_rate": 9.997853729599955e-05,
      "loss": 3.9202,
      "step": 292730
    },
    {
      "epoch": 0.609875,
      "grad_norm": 1.0806468725204468,
      "learning_rate": 9.996924316870824e-05,
      "loss": 3.9162,
      "step": 292740
    },
    {
      "epoch": 0.6098958333333333,
      "grad_norm": 1.0311697721481323,
      "learning_rate": 9.995994925752994e-05,
      "loss": 4.0413,
      "step": 292750
    },
    {
      "epoch": 0.6099166666666667,
      "grad_norm": 0.9421679377555847,
      "learning_rate": 9.995065556250485e-05,
      "loss": 3.8158,
      "step": 292760
    },
    {
      "epoch": 0.6099375,
      "grad_norm": 1.0771484375,
      "learning_rate": 9.994136208367315e-05,
      "loss": 4.0177,
      "step": 292770
    },
    {
      "epoch": 0.6099583333333334,
      "grad_norm": 1.0396199226379395,
      "learning_rate": 9.993206882107496e-05,
      "loss": 3.9823,
      "step": 292780
    },
    {
      "epoch": 0.6099791666666666,
      "grad_norm": 1.8081648349761963,
      "learning_rate": 9.992277577475034e-05,
      "loss": 3.7564,
      "step": 292790
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1026371717453003,
      "learning_rate": 9.99134829447396e-05,
      "loss": 3.9044,
      "step": 292800
    },
    {
      "epoch": 0.6100208333333333,
      "grad_norm": 1.1150871515274048,
      "learning_rate": 9.990419033108273e-05,
      "loss": 4.0347,
      "step": 292810
    },
    {
      "epoch": 0.6100416666666667,
      "grad_norm": 1.0425105094909668,
      "learning_rate": 9.989489793381993e-05,
      "loss": 4.1379,
      "step": 292820
    },
    {
      "epoch": 0.6100625,
      "grad_norm": 1.0826021432876587,
      "learning_rate": 9.988560575299138e-05,
      "loss": 3.986,
      "step": 292830
    },
    {
      "epoch": 0.6100833333333333,
      "grad_norm": 1.029267430305481,
      "learning_rate": 9.987631378863713e-05,
      "loss": 3.891,
      "step": 292840
    },
    {
      "epoch": 0.6101041666666667,
      "grad_norm": 1.1423298120498657,
      "learning_rate": 9.986702204079735e-05,
      "loss": 3.7597,
      "step": 292850
    },
    {
      "epoch": 0.610125,
      "grad_norm": 0.9634109735488892,
      "learning_rate": 9.985773050951226e-05,
      "loss": 4.0255,
      "step": 292860
    },
    {
      "epoch": 0.6101458333333334,
      "grad_norm": 1.0127462148666382,
      "learning_rate": 9.984843919482192e-05,
      "loss": 3.8157,
      "step": 292870
    },
    {
      "epoch": 0.6101666666666666,
      "grad_norm": 1.1487723588943481,
      "learning_rate": 9.983914809676641e-05,
      "loss": 3.8648,
      "step": 292880
    },
    {
      "epoch": 0.6101875,
      "grad_norm": 1.0445611476898193,
      "learning_rate": 9.982985721538595e-05,
      "loss": 4.012,
      "step": 292890
    },
    {
      "epoch": 0.6102083333333334,
      "grad_norm": 0.9906848669052124,
      "learning_rate": 9.982056655072069e-05,
      "loss": 3.9355,
      "step": 292900
    },
    {
      "epoch": 0.6102291666666667,
      "grad_norm": 1.0044126510620117,
      "learning_rate": 9.981127610281064e-05,
      "loss": 3.7432,
      "step": 292910
    },
    {
      "epoch": 0.61025,
      "grad_norm": 1.0056992769241333,
      "learning_rate": 9.980198587169608e-05,
      "loss": 4.0735,
      "step": 292920
    },
    {
      "epoch": 0.6102708333333333,
      "grad_norm": 1.2363682985305786,
      "learning_rate": 9.979269585741705e-05,
      "loss": 3.9424,
      "step": 292930
    },
    {
      "epoch": 0.6102916666666667,
      "grad_norm": 1.2618670463562012,
      "learning_rate": 9.978340606001369e-05,
      "loss": 3.8825,
      "step": 292940
    },
    {
      "epoch": 0.6103125,
      "grad_norm": 1.1749777793884277,
      "learning_rate": 9.977411647952615e-05,
      "loss": 4.0323,
      "step": 292950
    },
    {
      "epoch": 0.6103333333333333,
      "grad_norm": 0.9369199872016907,
      "learning_rate": 9.976482711599455e-05,
      "loss": 3.9053,
      "step": 292960
    },
    {
      "epoch": 0.6103541666666666,
      "grad_norm": 1.0554611682891846,
      "learning_rate": 9.975553796945902e-05,
      "loss": 3.8199,
      "step": 292970
    },
    {
      "epoch": 0.610375,
      "grad_norm": 1.00282621383667,
      "learning_rate": 9.974624903995962e-05,
      "loss": 4.1181,
      "step": 292980
    },
    {
      "epoch": 0.6103958333333334,
      "grad_norm": 1.1462985277175903,
      "learning_rate": 9.97369603275366e-05,
      "loss": 4.0063,
      "step": 292990
    },
    {
      "epoch": 0.6104166666666667,
      "grad_norm": 1.098129391670227,
      "learning_rate": 9.972767183223003e-05,
      "loss": 3.9546,
      "step": 293000
    },
    {
      "epoch": 0.6104166666666667,
      "eval_loss": 3.588686466217041,
      "eval_runtime": 7.5231,
      "eval_samples_per_second": 1.329,
      "eval_steps_per_second": 0.399,
      "step": 293000
    },
    {
      "epoch": 0.6104375,
      "grad_norm": 3.872171401977539,
      "learning_rate": 9.971838355407995e-05,
      "loss": 3.8267,
      "step": 293010
    },
    {
      "epoch": 0.6104583333333333,
      "grad_norm": 1.0319489240646362,
      "learning_rate": 9.970909549312657e-05,
      "loss": 3.909,
      "step": 293020
    },
    {
      "epoch": 0.6104791666666667,
      "grad_norm": 0.9422789812088013,
      "learning_rate": 9.969980764941003e-05,
      "loss": 3.7562,
      "step": 293030
    },
    {
      "epoch": 0.6105,
      "grad_norm": 2.314114570617676,
      "learning_rate": 9.969052002297035e-05,
      "loss": 3.7435,
      "step": 293040
    },
    {
      "epoch": 0.6105208333333333,
      "grad_norm": 1.1978834867477417,
      "learning_rate": 9.968123261384775e-05,
      "loss": 3.8899,
      "step": 293050
    },
    {
      "epoch": 0.6105416666666666,
      "grad_norm": 1.0455693006515503,
      "learning_rate": 9.967194542208231e-05,
      "loss": 3.9056,
      "step": 293060
    },
    {
      "epoch": 0.6105625,
      "grad_norm": 1.0760291814804077,
      "learning_rate": 9.96626584477141e-05,
      "loss": 3.9977,
      "step": 293070
    },
    {
      "epoch": 0.6105833333333334,
      "grad_norm": 1.0096745491027832,
      "learning_rate": 9.965337169078331e-05,
      "loss": 3.8787,
      "step": 293080
    },
    {
      "epoch": 0.6106041666666666,
      "grad_norm": 1.1032735109329224,
      "learning_rate": 9.964408515133008e-05,
      "loss": 3.8887,
      "step": 293090
    },
    {
      "epoch": 0.610625,
      "grad_norm": 1.165377140045166,
      "learning_rate": 9.963479882939437e-05,
      "loss": 3.9317,
      "step": 293100
    },
    {
      "epoch": 0.6106458333333333,
      "grad_norm": 1.109714388847351,
      "learning_rate": 9.962551272501649e-05,
      "loss": 3.9941,
      "step": 293110
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 1.113553762435913,
      "learning_rate": 9.961622683823639e-05,
      "loss": 3.8643,
      "step": 293120
    },
    {
      "epoch": 0.6106875,
      "grad_norm": 1.0420691967010498,
      "learning_rate": 9.960694116909425e-05,
      "loss": 3.8224,
      "step": 293130
    },
    {
      "epoch": 0.6107083333333333,
      "grad_norm": 1.05152428150177,
      "learning_rate": 9.959765571763022e-05,
      "loss": 4.0182,
      "step": 293140
    },
    {
      "epoch": 0.6107291666666667,
      "grad_norm": 0.9789856672286987,
      "learning_rate": 9.958837048388432e-05,
      "loss": 4.0576,
      "step": 293150
    },
    {
      "epoch": 0.61075,
      "grad_norm": 0.9648778438568115,
      "learning_rate": 9.95790854678967e-05,
      "loss": 3.8848,
      "step": 293160
    },
    {
      "epoch": 0.6107708333333334,
      "grad_norm": 1.0381611585617065,
      "learning_rate": 9.956980066970752e-05,
      "loss": 3.9425,
      "step": 293170
    },
    {
      "epoch": 0.6107916666666666,
      "grad_norm": 1.0215643644332886,
      "learning_rate": 9.956051608935681e-05,
      "loss": 3.8198,
      "step": 293180
    },
    {
      "epoch": 0.6108125,
      "grad_norm": 1.0815668106079102,
      "learning_rate": 9.955123172688469e-05,
      "loss": 3.8062,
      "step": 293190
    },
    {
      "epoch": 0.6108333333333333,
      "grad_norm": 1.0501292943954468,
      "learning_rate": 9.954194758233133e-05,
      "loss": 3.8979,
      "step": 293200
    },
    {
      "epoch": 0.6108541666666667,
      "grad_norm": 1.1325585842132568,
      "learning_rate": 9.953266365573675e-05,
      "loss": 3.8826,
      "step": 293210
    },
    {
      "epoch": 0.610875,
      "grad_norm": 1.1814064979553223,
      "learning_rate": 9.952337994714105e-05,
      "loss": 3.8601,
      "step": 293220
    },
    {
      "epoch": 0.6108958333333333,
      "grad_norm": 1.1421188116073608,
      "learning_rate": 9.951409645658446e-05,
      "loss": 3.7154,
      "step": 293230
    },
    {
      "epoch": 0.6109166666666667,
      "grad_norm": 1.0571098327636719,
      "learning_rate": 9.950481318410697e-05,
      "loss": 3.8361,
      "step": 293240
    },
    {
      "epoch": 0.6109375,
      "grad_norm": 0.9611371755599976,
      "learning_rate": 9.949553012974866e-05,
      "loss": 3.9011,
      "step": 293250
    },
    {
      "epoch": 0.6109583333333334,
      "grad_norm": 0.9721484780311584,
      "learning_rate": 9.948624729354964e-05,
      "loss": 3.9767,
      "step": 293260
    },
    {
      "epoch": 0.6109791666666666,
      "grad_norm": 1.0920997858047485,
      "learning_rate": 9.94769646755501e-05,
      "loss": 3.844,
      "step": 293270
    },
    {
      "epoch": 0.611,
      "grad_norm": 1.018148422241211,
      "learning_rate": 9.946768227579005e-05,
      "loss": 4.101,
      "step": 293280
    },
    {
      "epoch": 0.6110208333333333,
      "grad_norm": 0.9931447505950928,
      "learning_rate": 9.945840009430958e-05,
      "loss": 3.8951,
      "step": 293290
    },
    {
      "epoch": 0.6110416666666667,
      "grad_norm": 1.1856145858764648,
      "learning_rate": 9.944911813114888e-05,
      "loss": 3.9404,
      "step": 293300
    },
    {
      "epoch": 0.6110625,
      "grad_norm": 1.006316900253296,
      "learning_rate": 9.943983638634794e-05,
      "loss": 4.0254,
      "step": 293310
    },
    {
      "epoch": 0.6110833333333333,
      "grad_norm": 1.0044234991073608,
      "learning_rate": 9.943055485994688e-05,
      "loss": 3.9746,
      "step": 293320
    },
    {
      "epoch": 0.6111041666666667,
      "grad_norm": 1.0514702796936035,
      "learning_rate": 9.942127355198584e-05,
      "loss": 4.0668,
      "step": 293330
    },
    {
      "epoch": 0.611125,
      "grad_norm": 1.0224004983901978,
      "learning_rate": 9.941199246250485e-05,
      "loss": 3.9434,
      "step": 293340
    },
    {
      "epoch": 0.6111458333333334,
      "grad_norm": 1.0426734685897827,
      "learning_rate": 9.940271159154403e-05,
      "loss": 4.2421,
      "step": 293350
    },
    {
      "epoch": 0.6111666666666666,
      "grad_norm": 1.055330753326416,
      "learning_rate": 9.939343093914349e-05,
      "loss": 3.8351,
      "step": 293360
    },
    {
      "epoch": 0.6111875,
      "grad_norm": 0.9626221060752869,
      "learning_rate": 9.938415050534332e-05,
      "loss": 4.0149,
      "step": 293370
    },
    {
      "epoch": 0.6112083333333334,
      "grad_norm": 0.9932257533073425,
      "learning_rate": 9.937487029018352e-05,
      "loss": 4.08,
      "step": 293380
    },
    {
      "epoch": 0.6112291666666667,
      "grad_norm": 1.1227744817733765,
      "learning_rate": 9.936559029370429e-05,
      "loss": 3.7036,
      "step": 293390
    },
    {
      "epoch": 0.61125,
      "grad_norm": 0.9554316401481628,
      "learning_rate": 9.935631051594567e-05,
      "loss": 3.8311,
      "step": 293400
    },
    {
      "epoch": 0.6112708333333333,
      "grad_norm": 0.9753821492195129,
      "learning_rate": 9.93470309569477e-05,
      "loss": 3.6901,
      "step": 293410
    },
    {
      "epoch": 0.6112916666666667,
      "grad_norm": 0.9349606037139893,
      "learning_rate": 9.933775161675053e-05,
      "loss": 3.75,
      "step": 293420
    },
    {
      "epoch": 0.6113125,
      "grad_norm": 1.0091992616653442,
      "learning_rate": 9.932847249539425e-05,
      "loss": 3.922,
      "step": 293430
    },
    {
      "epoch": 0.6113333333333333,
      "grad_norm": 1.2658954858779907,
      "learning_rate": 9.931919359291884e-05,
      "loss": 4.0705,
      "step": 293440
    },
    {
      "epoch": 0.6113541666666666,
      "grad_norm": 2.4822781085968018,
      "learning_rate": 9.930991490936449e-05,
      "loss": 3.7662,
      "step": 293450
    },
    {
      "epoch": 0.611375,
      "grad_norm": 1.1500270366668701,
      "learning_rate": 9.930063644477126e-05,
      "loss": 3.9525,
      "step": 293460
    },
    {
      "epoch": 0.6113958333333334,
      "grad_norm": 1.0147192478179932,
      "learning_rate": 9.929135819917918e-05,
      "loss": 4.037,
      "step": 293470
    },
    {
      "epoch": 0.6114166666666667,
      "grad_norm": 1.007375717163086,
      "learning_rate": 9.928208017262839e-05,
      "loss": 3.8154,
      "step": 293480
    },
    {
      "epoch": 0.6114375,
      "grad_norm": 1.0131222009658813,
      "learning_rate": 9.927280236515894e-05,
      "loss": 3.9068,
      "step": 293490
    },
    {
      "epoch": 0.6114583333333333,
      "grad_norm": 0.9866501688957214,
      "learning_rate": 9.926352477681087e-05,
      "loss": 4.0344,
      "step": 293500
    },
    {
      "epoch": 0.6114791666666667,
      "grad_norm": 1.1009302139282227,
      "learning_rate": 9.925424740762433e-05,
      "loss": 3.6796,
      "step": 293510
    },
    {
      "epoch": 0.6115,
      "grad_norm": 0.9065597057342529,
      "learning_rate": 9.924497025763934e-05,
      "loss": 3.8533,
      "step": 293520
    },
    {
      "epoch": 0.6115208333333333,
      "grad_norm": 1.1269910335540771,
      "learning_rate": 9.923569332689594e-05,
      "loss": 3.8349,
      "step": 293530
    },
    {
      "epoch": 0.6115416666666667,
      "grad_norm": 1.2446179389953613,
      "learning_rate": 9.922641661543435e-05,
      "loss": 3.9956,
      "step": 293540
    },
    {
      "epoch": 0.6115625,
      "grad_norm": 0.9716536998748779,
      "learning_rate": 9.921714012329447e-05,
      "loss": 3.8468,
      "step": 293550
    },
    {
      "epoch": 0.6115833333333334,
      "grad_norm": 1.0572736263275146,
      "learning_rate": 9.920786385051648e-05,
      "loss": 3.9731,
      "step": 293560
    },
    {
      "epoch": 0.6116041666666666,
      "grad_norm": 1.1634618043899536,
      "learning_rate": 9.919858779714037e-05,
      "loss": 3.8,
      "step": 293570
    },
    {
      "epoch": 0.611625,
      "grad_norm": 1.0111804008483887,
      "learning_rate": 9.918931196320629e-05,
      "loss": 3.658,
      "step": 293580
    },
    {
      "epoch": 0.6116458333333333,
      "grad_norm": 1.147621750831604,
      "learning_rate": 9.918003634875428e-05,
      "loss": 4.03,
      "step": 293590
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 1.043906569480896,
      "learning_rate": 9.917076095382434e-05,
      "loss": 3.9476,
      "step": 293600
    },
    {
      "epoch": 0.6116875,
      "grad_norm": 1.0267517566680908,
      "learning_rate": 9.916148577845667e-05,
      "loss": 3.5859,
      "step": 293610
    },
    {
      "epoch": 0.6117083333333333,
      "grad_norm": 1.1710522174835205,
      "learning_rate": 9.915221082269122e-05,
      "loss": 4.003,
      "step": 293620
    },
    {
      "epoch": 0.6117291666666667,
      "grad_norm": 1.2870277166366577,
      "learning_rate": 9.914293608656804e-05,
      "loss": 4.1705,
      "step": 293630
    },
    {
      "epoch": 0.61175,
      "grad_norm": 1.064220666885376,
      "learning_rate": 9.913366157012734e-05,
      "loss": 3.8344,
      "step": 293640
    },
    {
      "epoch": 0.6117708333333334,
      "grad_norm": 1.045440912246704,
      "learning_rate": 9.912438727340903e-05,
      "loss": 3.9986,
      "step": 293650
    },
    {
      "epoch": 0.6117916666666666,
      "grad_norm": 1.0441309213638306,
      "learning_rate": 9.911511319645322e-05,
      "loss": 3.9816,
      "step": 293660
    },
    {
      "epoch": 0.6118125,
      "grad_norm": 1.1430972814559937,
      "learning_rate": 9.910583933930002e-05,
      "loss": 3.8208,
      "step": 293670
    },
    {
      "epoch": 0.6118333333333333,
      "grad_norm": 1.0179426670074463,
      "learning_rate": 9.909656570198943e-05,
      "loss": 3.9325,
      "step": 293680
    },
    {
      "epoch": 0.6118541666666667,
      "grad_norm": 1.094003438949585,
      "learning_rate": 9.908729228456148e-05,
      "loss": 4.0564,
      "step": 293690
    },
    {
      "epoch": 0.611875,
      "grad_norm": 1.0618478059768677,
      "learning_rate": 9.907801908705636e-05,
      "loss": 3.9788,
      "step": 293700
    },
    {
      "epoch": 0.6118958333333333,
      "grad_norm": 1.0384777784347534,
      "learning_rate": 9.9068746109514e-05,
      "loss": 3.8233,
      "step": 293710
    },
    {
      "epoch": 0.6119166666666667,
      "grad_norm": 1.0625253915786743,
      "learning_rate": 9.905947335197445e-05,
      "loss": 3.8582,
      "step": 293720
    },
    {
      "epoch": 0.6119375,
      "grad_norm": 0.9763949513435364,
      "learning_rate": 9.90502008144779e-05,
      "loss": 3.9197,
      "step": 293730
    },
    {
      "epoch": 0.6119583333333334,
      "grad_norm": 1.0146433115005493,
      "learning_rate": 9.904092849706431e-05,
      "loss": 4.014,
      "step": 293740
    },
    {
      "epoch": 0.6119791666666666,
      "grad_norm": 1.0264484882354736,
      "learning_rate": 9.903165639977367e-05,
      "loss": 3.8461,
      "step": 293750
    },
    {
      "epoch": 0.612,
      "grad_norm": 1.1034303903579712,
      "learning_rate": 9.902238452264612e-05,
      "loss": 3.8042,
      "step": 293760
    },
    {
      "epoch": 0.6120208333333333,
      "grad_norm": 1.0886948108673096,
      "learning_rate": 9.901311286572173e-05,
      "loss": 3.8594,
      "step": 293770
    },
    {
      "epoch": 0.6120416666666667,
      "grad_norm": 1.0401747226715088,
      "learning_rate": 9.900384142904046e-05,
      "loss": 3.8966,
      "step": 293780
    },
    {
      "epoch": 0.6120625,
      "grad_norm": 0.9851616621017456,
      "learning_rate": 9.899457021264242e-05,
      "loss": 3.8124,
      "step": 293790
    },
    {
      "epoch": 0.6120833333333333,
      "grad_norm": 1.1186268329620361,
      "learning_rate": 9.89852992165677e-05,
      "loss": 3.7657,
      "step": 293800
    },
    {
      "epoch": 0.6121041666666667,
      "grad_norm": 1.0594627857208252,
      "learning_rate": 9.897602844085622e-05,
      "loss": 3.94,
      "step": 293810
    },
    {
      "epoch": 0.612125,
      "grad_norm": 1.1030176877975464,
      "learning_rate": 9.896675788554814e-05,
      "loss": 3.8611,
      "step": 293820
    },
    {
      "epoch": 0.6121458333333333,
      "grad_norm": 1.2003552913665771,
      "learning_rate": 9.89574875506835e-05,
      "loss": 3.7129,
      "step": 293830
    },
    {
      "epoch": 0.6121666666666666,
      "grad_norm": 1.0312670469284058,
      "learning_rate": 9.894821743630226e-05,
      "loss": 3.9878,
      "step": 293840
    },
    {
      "epoch": 0.6121875,
      "grad_norm": 0.9929844737052917,
      "learning_rate": 9.893894754244448e-05,
      "loss": 3.8132,
      "step": 293850
    },
    {
      "epoch": 0.6122083333333334,
      "grad_norm": 1.068747878074646,
      "learning_rate": 9.892967786915033e-05,
      "loss": 4.0264,
      "step": 293860
    },
    {
      "epoch": 0.6122291666666667,
      "grad_norm": 0.9810426235198975,
      "learning_rate": 9.89204084164597e-05,
      "loss": 3.7548,
      "step": 293870
    },
    {
      "epoch": 0.61225,
      "grad_norm": 1.1383085250854492,
      "learning_rate": 9.891113918441267e-05,
      "loss": 4.0474,
      "step": 293880
    },
    {
      "epoch": 0.6122708333333333,
      "grad_norm": 0.956804633140564,
      "learning_rate": 9.890187017304932e-05,
      "loss": 3.8197,
      "step": 293890
    },
    {
      "epoch": 0.6122916666666667,
      "grad_norm": 1.0236753225326538,
      "learning_rate": 9.88926013824097e-05,
      "loss": 3.6994,
      "step": 293900
    },
    {
      "epoch": 0.6123125,
      "grad_norm": 1.0257426500320435,
      "learning_rate": 9.888333281253374e-05,
      "loss": 3.9467,
      "step": 293910
    },
    {
      "epoch": 0.6123333333333333,
      "grad_norm": 1.1575238704681396,
      "learning_rate": 9.887406446346159e-05,
      "loss": 4.0602,
      "step": 293920
    },
    {
      "epoch": 0.6123541666666666,
      "grad_norm": 1.0521252155303955,
      "learning_rate": 9.886479633523326e-05,
      "loss": 3.8748,
      "step": 293930
    },
    {
      "epoch": 0.612375,
      "grad_norm": 0.9802554249763489,
      "learning_rate": 9.885552842788871e-05,
      "loss": 3.8286,
      "step": 293940
    },
    {
      "epoch": 0.6123958333333334,
      "grad_norm": 1.0221612453460693,
      "learning_rate": 9.884626074146808e-05,
      "loss": 3.932,
      "step": 293950
    },
    {
      "epoch": 0.6124166666666667,
      "grad_norm": 1.0585050582885742,
      "learning_rate": 9.883699327601138e-05,
      "loss": 3.9835,
      "step": 293960
    },
    {
      "epoch": 0.6124375,
      "grad_norm": 1.0838427543640137,
      "learning_rate": 9.882772603155856e-05,
      "loss": 3.8373,
      "step": 293970
    },
    {
      "epoch": 0.6124583333333333,
      "grad_norm": 0.9630657434463501,
      "learning_rate": 9.881845900814971e-05,
      "loss": 3.9375,
      "step": 293980
    },
    {
      "epoch": 0.6124791666666667,
      "grad_norm": 1.0725486278533936,
      "learning_rate": 9.880919220582491e-05,
      "loss": 3.9804,
      "step": 293990
    },
    {
      "epoch": 0.6125,
      "grad_norm": 1.251849889755249,
      "learning_rate": 9.879992562462408e-05,
      "loss": 3.7679,
      "step": 294000
    },
    {
      "epoch": 0.6125,
      "eval_loss": 3.5775325298309326,
      "eval_runtime": 7.8684,
      "eval_samples_per_second": 1.271,
      "eval_steps_per_second": 0.381,
      "step": 294000
    },
    {
      "epoch": 0.6125208333333333,
      "grad_norm": 1.0360013246536255,
      "learning_rate": 9.879065926458736e-05,
      "loss": 3.8373,
      "step": 294010
    },
    {
      "epoch": 0.6125416666666667,
      "grad_norm": 1.2236554622650146,
      "learning_rate": 9.878139312575469e-05,
      "loss": 3.9637,
      "step": 294020
    },
    {
      "epoch": 0.6125625,
      "grad_norm": 1.2367949485778809,
      "learning_rate": 9.87721272081661e-05,
      "loss": 3.8279,
      "step": 294030
    },
    {
      "epoch": 0.6125833333333334,
      "grad_norm": 1.033852458000183,
      "learning_rate": 9.87628615118617e-05,
      "loss": 3.8308,
      "step": 294040
    },
    {
      "epoch": 0.6126041666666666,
      "grad_norm": 1.0911424160003662,
      "learning_rate": 9.875359603688144e-05,
      "loss": 3.6968,
      "step": 294050
    },
    {
      "epoch": 0.612625,
      "grad_norm": 1.0110929012298584,
      "learning_rate": 9.874433078326531e-05,
      "loss": 3.6672,
      "step": 294060
    },
    {
      "epoch": 0.6126458333333333,
      "grad_norm": 1.028151273727417,
      "learning_rate": 9.873506575105346e-05,
      "loss": 3.7794,
      "step": 294070
    },
    {
      "epoch": 0.6126666666666667,
      "grad_norm": 1.1102570295333862,
      "learning_rate": 9.87258009402858e-05,
      "loss": 4.0857,
      "step": 294080
    },
    {
      "epoch": 0.6126875,
      "grad_norm": 0.9807559847831726,
      "learning_rate": 9.871653635100234e-05,
      "loss": 3.9741,
      "step": 294090
    },
    {
      "epoch": 0.6127083333333333,
      "grad_norm": 1.994128704071045,
      "learning_rate": 9.870727198324322e-05,
      "loss": 3.8525,
      "step": 294100
    },
    {
      "epoch": 0.6127291666666667,
      "grad_norm": 0.9344024062156677,
      "learning_rate": 9.869800783704838e-05,
      "loss": 3.7643,
      "step": 294110
    },
    {
      "epoch": 0.61275,
      "grad_norm": 1.3254868984222412,
      "learning_rate": 9.868874391245777e-05,
      "loss": 3.8156,
      "step": 294120
    },
    {
      "epoch": 0.6127708333333334,
      "grad_norm": 1.2998878955841064,
      "learning_rate": 9.867948020951151e-05,
      "loss": 3.9404,
      "step": 294130
    },
    {
      "epoch": 0.6127916666666666,
      "grad_norm": 1.02912175655365,
      "learning_rate": 9.867021672824963e-05,
      "loss": 3.7208,
      "step": 294140
    },
    {
      "epoch": 0.6128125,
      "grad_norm": 1.0484836101531982,
      "learning_rate": 9.866095346871203e-05,
      "loss": 3.8966,
      "step": 294150
    },
    {
      "epoch": 0.6128333333333333,
      "grad_norm": 1.1223945617675781,
      "learning_rate": 9.865169043093878e-05,
      "loss": 3.8584,
      "step": 294160
    },
    {
      "epoch": 0.6128541666666667,
      "grad_norm": 1.086424469947815,
      "learning_rate": 9.864242761496997e-05,
      "loss": 3.8488,
      "step": 294170
    },
    {
      "epoch": 0.612875,
      "grad_norm": 0.9893364906311035,
      "learning_rate": 9.86331650208455e-05,
      "loss": 3.8072,
      "step": 294180
    },
    {
      "epoch": 0.6128958333333333,
      "grad_norm": 0.9792351722717285,
      "learning_rate": 9.86239026486054e-05,
      "loss": 4.0022,
      "step": 294190
    },
    {
      "epoch": 0.6129166666666667,
      "grad_norm": 1.0465288162231445,
      "learning_rate": 9.861464049828977e-05,
      "loss": 4.0036,
      "step": 294200
    },
    {
      "epoch": 0.6129375,
      "grad_norm": 1.053593397140503,
      "learning_rate": 9.860537856993852e-05,
      "loss": 3.8614,
      "step": 294210
    },
    {
      "epoch": 0.6129583333333334,
      "grad_norm": 1.3197646141052246,
      "learning_rate": 9.859611686359167e-05,
      "loss": 3.7265,
      "step": 294220
    },
    {
      "epoch": 0.6129791666666666,
      "grad_norm": 1.2109769582748413,
      "learning_rate": 9.858685537928929e-05,
      "loss": 3.7934,
      "step": 294230
    },
    {
      "epoch": 0.613,
      "grad_norm": 1.030553936958313,
      "learning_rate": 9.857759411707135e-05,
      "loss": 4.0041,
      "step": 294240
    },
    {
      "epoch": 0.6130208333333333,
      "grad_norm": 0.865797758102417,
      "learning_rate": 9.856833307697778e-05,
      "loss": 3.8055,
      "step": 294250
    },
    {
      "epoch": 0.6130416666666667,
      "grad_norm": 1.0043400526046753,
      "learning_rate": 9.85590722590487e-05,
      "loss": 4.0283,
      "step": 294260
    },
    {
      "epoch": 0.6130625,
      "grad_norm": 1.0556962490081787,
      "learning_rate": 9.854981166332408e-05,
      "loss": 4.0874,
      "step": 294270
    },
    {
      "epoch": 0.6130833333333333,
      "grad_norm": 0.9796094298362732,
      "learning_rate": 9.854055128984387e-05,
      "loss": 3.8445,
      "step": 294280
    },
    {
      "epoch": 0.6131041666666667,
      "grad_norm": 1.1167101860046387,
      "learning_rate": 9.853129113864812e-05,
      "loss": 3.8761,
      "step": 294290
    },
    {
      "epoch": 0.613125,
      "grad_norm": 0.9932559132575989,
      "learning_rate": 9.852203120977686e-05,
      "loss": 3.8518,
      "step": 294300
    },
    {
      "epoch": 0.6131458333333333,
      "grad_norm": 1.0765275955200195,
      "learning_rate": 9.851277150326998e-05,
      "loss": 3.7671,
      "step": 294310
    },
    {
      "epoch": 0.6131666666666666,
      "grad_norm": 1.3709622621536255,
      "learning_rate": 9.850351201916759e-05,
      "loss": 4.0314,
      "step": 294320
    },
    {
      "epoch": 0.6131875,
      "grad_norm": 1.0794709920883179,
      "learning_rate": 9.849425275750966e-05,
      "loss": 3.8669,
      "step": 294330
    },
    {
      "epoch": 0.6132083333333334,
      "grad_norm": 1.1041258573532104,
      "learning_rate": 9.848499371833611e-05,
      "loss": 3.7201,
      "step": 294340
    },
    {
      "epoch": 0.6132291666666667,
      "grad_norm": 0.9553276896476746,
      "learning_rate": 9.847573490168704e-05,
      "loss": 3.9058,
      "step": 294350
    },
    {
      "epoch": 0.61325,
      "grad_norm": 1.2256561517715454,
      "learning_rate": 9.846647630760244e-05,
      "loss": 3.8136,
      "step": 294360
    },
    {
      "epoch": 0.6132708333333333,
      "grad_norm": 1.0846737623214722,
      "learning_rate": 9.845721793612216e-05,
      "loss": 3.8939,
      "step": 294370
    },
    {
      "epoch": 0.6132916666666667,
      "grad_norm": 1.0713510513305664,
      "learning_rate": 9.84479597872864e-05,
      "loss": 3.8377,
      "step": 294380
    },
    {
      "epoch": 0.6133125,
      "grad_norm": 1.246619701385498,
      "learning_rate": 9.8438701861135e-05,
      "loss": 3.822,
      "step": 294390
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 1.2616091966629028,
      "learning_rate": 9.842944415770798e-05,
      "loss": 4.0487,
      "step": 294400
    },
    {
      "epoch": 0.6133541666666666,
      "grad_norm": 1.020342230796814,
      "learning_rate": 9.84201866770454e-05,
      "loss": 3.9008,
      "step": 294410
    },
    {
      "epoch": 0.613375,
      "grad_norm": 0.9766334891319275,
      "learning_rate": 9.841092941918716e-05,
      "loss": 4.0185,
      "step": 294420
    },
    {
      "epoch": 0.6133958333333334,
      "grad_norm": 1.0394234657287598,
      "learning_rate": 9.840167238417332e-05,
      "loss": 3.8999,
      "step": 294430
    },
    {
      "epoch": 0.6134166666666667,
      "grad_norm": 0.9960735440254211,
      "learning_rate": 9.839241557204377e-05,
      "loss": 3.9286,
      "step": 294440
    },
    {
      "epoch": 0.6134375,
      "grad_norm": 1.2356504201889038,
      "learning_rate": 9.83831589828386e-05,
      "loss": 4.1093,
      "step": 294450
    },
    {
      "epoch": 0.6134583333333333,
      "grad_norm": 0.9982720613479614,
      "learning_rate": 9.837390261659777e-05,
      "loss": 3.7639,
      "step": 294460
    },
    {
      "epoch": 0.6134791666666667,
      "grad_norm": 0.9910494685173035,
      "learning_rate": 9.836464647336118e-05,
      "loss": 4.0302,
      "step": 294470
    },
    {
      "epoch": 0.6135,
      "grad_norm": 1.113447666168213,
      "learning_rate": 9.835539055316892e-05,
      "loss": 4.0354,
      "step": 294480
    },
    {
      "epoch": 0.6135208333333333,
      "grad_norm": 0.9757141470909119,
      "learning_rate": 9.834613485606094e-05,
      "loss": 3.7916,
      "step": 294490
    },
    {
      "epoch": 0.6135416666666667,
      "grad_norm": 1.1599870920181274,
      "learning_rate": 9.833687938207718e-05,
      "loss": 3.9255,
      "step": 294500
    },
    {
      "epoch": 0.6135625,
      "grad_norm": 1.0871914625167847,
      "learning_rate": 9.83276241312577e-05,
      "loss": 3.907,
      "step": 294510
    },
    {
      "epoch": 0.6135833333333334,
      "grad_norm": 1.1506270170211792,
      "learning_rate": 9.831836910364239e-05,
      "loss": 3.9458,
      "step": 294520
    },
    {
      "epoch": 0.6136041666666666,
      "grad_norm": 1.1259491443634033,
      "learning_rate": 9.830911429927124e-05,
      "loss": 3.9307,
      "step": 294530
    },
    {
      "epoch": 0.613625,
      "grad_norm": 1.0463441610336304,
      "learning_rate": 9.829985971818433e-05,
      "loss": 3.8646,
      "step": 294540
    },
    {
      "epoch": 0.6136458333333333,
      "grad_norm": 1.0244554281234741,
      "learning_rate": 9.829060536042154e-05,
      "loss": 3.9933,
      "step": 294550
    },
    {
      "epoch": 0.6136666666666667,
      "grad_norm": 1.1976795196533203,
      "learning_rate": 9.82813512260228e-05,
      "loss": 3.9705,
      "step": 294560
    },
    {
      "epoch": 0.6136875,
      "grad_norm": 1.0097731351852417,
      "learning_rate": 9.827209731502824e-05,
      "loss": 4.0429,
      "step": 294570
    },
    {
      "epoch": 0.6137083333333333,
      "grad_norm": 1.0968315601348877,
      "learning_rate": 9.826284362747772e-05,
      "loss": 3.9861,
      "step": 294580
    },
    {
      "epoch": 0.6137291666666667,
      "grad_norm": 1.1191879510879517,
      "learning_rate": 9.825359016341119e-05,
      "loss": 3.8773,
      "step": 294590
    },
    {
      "epoch": 0.61375,
      "grad_norm": 1.0205531120300293,
      "learning_rate": 9.824433692286873e-05,
      "loss": 3.9602,
      "step": 294600
    },
    {
      "epoch": 0.6137708333333334,
      "grad_norm": 1.028873085975647,
      "learning_rate": 9.823508390589024e-05,
      "loss": 3.8725,
      "step": 294610
    },
    {
      "epoch": 0.6137916666666666,
      "grad_norm": 1.0614243745803833,
      "learning_rate": 9.822583111251564e-05,
      "loss": 3.8972,
      "step": 294620
    },
    {
      "epoch": 0.6138125,
      "grad_norm": 1.0035455226898193,
      "learning_rate": 9.8216578542785e-05,
      "loss": 4.1311,
      "step": 294630
    },
    {
      "epoch": 0.6138333333333333,
      "grad_norm": 1.5877325534820557,
      "learning_rate": 9.820732619673827e-05,
      "loss": 3.8787,
      "step": 294640
    },
    {
      "epoch": 0.6138541666666667,
      "grad_norm": 1.1242148876190186,
      "learning_rate": 9.819807407441533e-05,
      "loss": 3.8304,
      "step": 294650
    },
    {
      "epoch": 0.613875,
      "grad_norm": 1.0588383674621582,
      "learning_rate": 9.818882217585622e-05,
      "loss": 3.9693,
      "step": 294660
    },
    {
      "epoch": 0.6138958333333333,
      "grad_norm": 0.9705438017845154,
      "learning_rate": 9.817957050110092e-05,
      "loss": 3.8253,
      "step": 294670
    },
    {
      "epoch": 0.6139166666666667,
      "grad_norm": 1.0609781742095947,
      "learning_rate": 9.817031905018933e-05,
      "loss": 4.049,
      "step": 294680
    },
    {
      "epoch": 0.6139375,
      "grad_norm": 1.1961874961853027,
      "learning_rate": 9.816106782316146e-05,
      "loss": 3.8965,
      "step": 294690
    },
    {
      "epoch": 0.6139583333333334,
      "grad_norm": 1.1321181058883667,
      "learning_rate": 9.815181682005729e-05,
      "loss": 3.894,
      "step": 294700
    },
    {
      "epoch": 0.6139791666666666,
      "grad_norm": 1.135711908340454,
      "learning_rate": 9.814256604091669e-05,
      "loss": 3.8891,
      "step": 294710
    },
    {
      "epoch": 0.614,
      "grad_norm": 0.9807565212249756,
      "learning_rate": 9.813331548577969e-05,
      "loss": 3.8484,
      "step": 294720
    },
    {
      "epoch": 0.6140208333333333,
      "grad_norm": 1.0852137804031372,
      "learning_rate": 9.812406515468628e-05,
      "loss": 3.7781,
      "step": 294730
    },
    {
      "epoch": 0.6140416666666667,
      "grad_norm": 1.0783952474594116,
      "learning_rate": 9.81148150476764e-05,
      "loss": 3.9372,
      "step": 294740
    },
    {
      "epoch": 0.6140625,
      "grad_norm": 1.2328771352767944,
      "learning_rate": 9.810556516478988e-05,
      "loss": 4.0028,
      "step": 294750
    },
    {
      "epoch": 0.6140833333333333,
      "grad_norm": 0.9629223942756653,
      "learning_rate": 9.809631550606682e-05,
      "loss": 3.8338,
      "step": 294760
    },
    {
      "epoch": 0.6141041666666667,
      "grad_norm": 0.9938355684280396,
      "learning_rate": 9.808706607154717e-05,
      "loss": 3.8736,
      "step": 294770
    },
    {
      "epoch": 0.614125,
      "grad_norm": 1.189035177230835,
      "learning_rate": 9.807781686127078e-05,
      "loss": 4.0386,
      "step": 294780
    },
    {
      "epoch": 0.6141458333333333,
      "grad_norm": 1.0384752750396729,
      "learning_rate": 9.806856787527771e-05,
      "loss": 3.8938,
      "step": 294790
    },
    {
      "epoch": 0.6141666666666666,
      "grad_norm": 1.019383430480957,
      "learning_rate": 9.80593191136079e-05,
      "loss": 3.7855,
      "step": 294800
    },
    {
      "epoch": 0.6141875,
      "grad_norm": 1.0512551069259644,
      "learning_rate": 9.805007057630119e-05,
      "loss": 3.7404,
      "step": 294810
    },
    {
      "epoch": 0.6142083333333334,
      "grad_norm": 1.070349931716919,
      "learning_rate": 9.804082226339766e-05,
      "loss": 3.9766,
      "step": 294820
    },
    {
      "epoch": 0.6142291666666667,
      "grad_norm": 1.4189070463180542,
      "learning_rate": 9.803157417493726e-05,
      "loss": 4.0647,
      "step": 294830
    },
    {
      "epoch": 0.61425,
      "grad_norm": 1.0585708618164062,
      "learning_rate": 9.802232631095978e-05,
      "loss": 3.8853,
      "step": 294840
    },
    {
      "epoch": 0.6142708333333333,
      "grad_norm": 0.9643375873565674,
      "learning_rate": 9.801307867150536e-05,
      "loss": 3.7998,
      "step": 294850
    },
    {
      "epoch": 0.6142916666666667,
      "grad_norm": 1.0379652976989746,
      "learning_rate": 9.800383125661385e-05,
      "loss": 3.9881,
      "step": 294860
    },
    {
      "epoch": 0.6143125,
      "grad_norm": 1.0875815153121948,
      "learning_rate": 9.799458406632515e-05,
      "loss": 3.8296,
      "step": 294870
    },
    {
      "epoch": 0.6143333333333333,
      "grad_norm": 1.0348647832870483,
      "learning_rate": 9.798533710067934e-05,
      "loss": 3.9994,
      "step": 294880
    },
    {
      "epoch": 0.6143541666666666,
      "grad_norm": 0.9460172057151794,
      "learning_rate": 9.797609035971626e-05,
      "loss": 3.8578,
      "step": 294890
    },
    {
      "epoch": 0.614375,
      "grad_norm": 1.1947300434112549,
      "learning_rate": 9.796684384347583e-05,
      "loss": 3.8019,
      "step": 294900
    },
    {
      "epoch": 0.6143958333333334,
      "grad_norm": 1.0562092065811157,
      "learning_rate": 9.79575975519981e-05,
      "loss": 3.951,
      "step": 294910
    },
    {
      "epoch": 0.6144166666666667,
      "grad_norm": 1.0474543571472168,
      "learning_rate": 9.794835148532293e-05,
      "loss": 3.8789,
      "step": 294920
    },
    {
      "epoch": 0.6144375,
      "grad_norm": 1.2337485551834106,
      "learning_rate": 9.793910564349025e-05,
      "loss": 3.9061,
      "step": 294930
    },
    {
      "epoch": 0.6144583333333333,
      "grad_norm": 1.1221437454223633,
      "learning_rate": 9.792986002654007e-05,
      "loss": 3.7876,
      "step": 294940
    },
    {
      "epoch": 0.6144791666666667,
      "grad_norm": 1.0411101579666138,
      "learning_rate": 9.792061463451226e-05,
      "loss": 3.9776,
      "step": 294950
    },
    {
      "epoch": 0.6145,
      "grad_norm": 0.9395915865898132,
      "learning_rate": 9.791136946744674e-05,
      "loss": 4.1094,
      "step": 294960
    },
    {
      "epoch": 0.6145208333333333,
      "grad_norm": 1.0097289085388184,
      "learning_rate": 9.790212452538357e-05,
      "loss": 3.8113,
      "step": 294970
    },
    {
      "epoch": 0.6145416666666667,
      "grad_norm": 1.086836814880371,
      "learning_rate": 9.789287980836256e-05,
      "loss": 3.9743,
      "step": 294980
    },
    {
      "epoch": 0.6145625,
      "grad_norm": 0.9940856695175171,
      "learning_rate": 9.788363531642365e-05,
      "loss": 3.7415,
      "step": 294990
    },
    {
      "epoch": 0.6145833333333334,
      "grad_norm": 1.084089994430542,
      "learning_rate": 9.787439104960686e-05,
      "loss": 3.787,
      "step": 295000
    },
    {
      "epoch": 0.6145833333333334,
      "eval_loss": 3.5849251747131348,
      "eval_runtime": 7.7838,
      "eval_samples_per_second": 1.285,
      "eval_steps_per_second": 0.385,
      "step": 295000
    },
    {
      "epoch": 0.6146041666666666,
      "grad_norm": 1.0509312152862549,
      "learning_rate": 9.786514700795209e-05,
      "loss": 3.8905,
      "step": 295010
    },
    {
      "epoch": 0.614625,
      "grad_norm": 1.3727867603302002,
      "learning_rate": 9.78559031914992e-05,
      "loss": 3.9896,
      "step": 295020
    },
    {
      "epoch": 0.6146458333333333,
      "grad_norm": 0.9836087226867676,
      "learning_rate": 9.784665960028814e-05,
      "loss": 4.0869,
      "step": 295030
    },
    {
      "epoch": 0.6146666666666667,
      "grad_norm": 0.995613157749176,
      "learning_rate": 9.783741623435893e-05,
      "loss": 3.8641,
      "step": 295040
    },
    {
      "epoch": 0.6146875,
      "grad_norm": 1.0468553304672241,
      "learning_rate": 9.782817309375141e-05,
      "loss": 3.9561,
      "step": 295050
    },
    {
      "epoch": 0.6147083333333333,
      "grad_norm": 1.055243730545044,
      "learning_rate": 9.781893017850549e-05,
      "loss": 3.8169,
      "step": 295060
    },
    {
      "epoch": 0.6147291666666667,
      "grad_norm": 1.2065595388412476,
      "learning_rate": 9.78096874886612e-05,
      "loss": 3.9419,
      "step": 295070
    },
    {
      "epoch": 0.61475,
      "grad_norm": 1.0117359161376953,
      "learning_rate": 9.780044502425839e-05,
      "loss": 3.8432,
      "step": 295080
    },
    {
      "epoch": 0.6147708333333334,
      "grad_norm": 0.9903172850608826,
      "learning_rate": 9.779120278533694e-05,
      "loss": 3.9001,
      "step": 295090
    },
    {
      "epoch": 0.6147916666666666,
      "grad_norm": 1.0403311252593994,
      "learning_rate": 9.77819607719369e-05,
      "loss": 3.7867,
      "step": 295100
    },
    {
      "epoch": 0.6148125,
      "grad_norm": 0.9686843156814575,
      "learning_rate": 9.777271898409811e-05,
      "loss": 3.6627,
      "step": 295110
    },
    {
      "epoch": 0.6148333333333333,
      "grad_norm": 0.9910567998886108,
      "learning_rate": 9.776347742186045e-05,
      "loss": 3.7172,
      "step": 295120
    },
    {
      "epoch": 0.6148541666666667,
      "grad_norm": 1.031140923500061,
      "learning_rate": 9.775423608526391e-05,
      "loss": 3.8825,
      "step": 295130
    },
    {
      "epoch": 0.614875,
      "grad_norm": 1.0919917821884155,
      "learning_rate": 9.774499497434845e-05,
      "loss": 3.85,
      "step": 295140
    },
    {
      "epoch": 0.6148958333333333,
      "grad_norm": 0.9546778202056885,
      "learning_rate": 9.773575408915384e-05,
      "loss": 3.8813,
      "step": 295150
    },
    {
      "epoch": 0.6149166666666667,
      "grad_norm": 1.1050894260406494,
      "learning_rate": 9.772651342972013e-05,
      "loss": 3.7762,
      "step": 295160
    },
    {
      "epoch": 0.6149375,
      "grad_norm": 1.0931670665740967,
      "learning_rate": 9.77172729960872e-05,
      "loss": 3.9552,
      "step": 295170
    },
    {
      "epoch": 0.6149583333333334,
      "grad_norm": 0.984069287776947,
      "learning_rate": 9.770803278829493e-05,
      "loss": 3.8246,
      "step": 295180
    },
    {
      "epoch": 0.6149791666666666,
      "grad_norm": 1.1386380195617676,
      "learning_rate": 9.769879280638326e-05,
      "loss": 3.8663,
      "step": 295190
    },
    {
      "epoch": 0.615,
      "grad_norm": 1.1151236295700073,
      "learning_rate": 9.768955305039214e-05,
      "loss": 3.8671,
      "step": 295200
    },
    {
      "epoch": 0.6150208333333333,
      "grad_norm": 1.3958312273025513,
      "learning_rate": 9.768031352036138e-05,
      "loss": 3.996,
      "step": 295210
    },
    {
      "epoch": 0.6150416666666667,
      "grad_norm": 1.2272419929504395,
      "learning_rate": 9.767107421633099e-05,
      "loss": 3.868,
      "step": 295220
    },
    {
      "epoch": 0.6150625,
      "grad_norm": 1.3144514560699463,
      "learning_rate": 9.766183513834089e-05,
      "loss": 3.8957,
      "step": 295230
    },
    {
      "epoch": 0.6150833333333333,
      "grad_norm": 1.0470821857452393,
      "learning_rate": 9.765259628643087e-05,
      "loss": 3.9426,
      "step": 295240
    },
    {
      "epoch": 0.6151041666666667,
      "grad_norm": 1.1124547719955444,
      "learning_rate": 9.764335766064099e-05,
      "loss": 3.9211,
      "step": 295250
    },
    {
      "epoch": 0.615125,
      "grad_norm": 1.0641533136367798,
      "learning_rate": 9.763411926101103e-05,
      "loss": 3.8345,
      "step": 295260
    },
    {
      "epoch": 0.6151458333333333,
      "grad_norm": 1.0798275470733643,
      "learning_rate": 9.762488108758092e-05,
      "loss": 3.878,
      "step": 295270
    },
    {
      "epoch": 0.6151666666666666,
      "grad_norm": 1.3523293733596802,
      "learning_rate": 9.761564314039064e-05,
      "loss": 3.8548,
      "step": 295280
    },
    {
      "epoch": 0.6151875,
      "grad_norm": 1.078006625175476,
      "learning_rate": 9.760640541948006e-05,
      "loss": 3.9268,
      "step": 295290
    },
    {
      "epoch": 0.6152083333333334,
      "grad_norm": 1.0683239698410034,
      "learning_rate": 9.759716792488901e-05,
      "loss": 3.9985,
      "step": 295300
    },
    {
      "epoch": 0.6152291666666667,
      "grad_norm": 1.152408480644226,
      "learning_rate": 9.75879306566575e-05,
      "loss": 3.8769,
      "step": 295310
    },
    {
      "epoch": 0.61525,
      "grad_norm": 1.1132378578186035,
      "learning_rate": 9.757869361482536e-05,
      "loss": 3.9794,
      "step": 295320
    },
    {
      "epoch": 0.6152708333333333,
      "grad_norm": 0.990839421749115,
      "learning_rate": 9.756945679943258e-05,
      "loss": 3.9422,
      "step": 295330
    },
    {
      "epoch": 0.6152916666666667,
      "grad_norm": 0.955406665802002,
      "learning_rate": 9.75602202105189e-05,
      "loss": 3.9651,
      "step": 295340
    },
    {
      "epoch": 0.6153125,
      "grad_norm": 1.0792205333709717,
      "learning_rate": 9.755098384812435e-05,
      "loss": 3.9459,
      "step": 295350
    },
    {
      "epoch": 0.6153333333333333,
      "grad_norm": 0.9911618828773499,
      "learning_rate": 9.754174771228879e-05,
      "loss": 3.8625,
      "step": 295360
    },
    {
      "epoch": 0.6153541666666666,
      "grad_norm": 0.9918393492698669,
      "learning_rate": 9.753251180305209e-05,
      "loss": 4.0758,
      "step": 295370
    },
    {
      "epoch": 0.615375,
      "grad_norm": 1.080485463142395,
      "learning_rate": 9.752327612045423e-05,
      "loss": 3.9661,
      "step": 295380
    },
    {
      "epoch": 0.6153958333333334,
      "grad_norm": 1.013850450515747,
      "learning_rate": 9.751404066453501e-05,
      "loss": 3.9682,
      "step": 295390
    },
    {
      "epoch": 0.6154166666666666,
      "grad_norm": 0.9723566174507141,
      "learning_rate": 9.750480543533433e-05,
      "loss": 3.9531,
      "step": 295400
    },
    {
      "epoch": 0.6154375,
      "grad_norm": 1.0447218418121338,
      "learning_rate": 9.749557043289217e-05,
      "loss": 3.8806,
      "step": 295410
    },
    {
      "epoch": 0.6154583333333333,
      "grad_norm": 1.0270874500274658,
      "learning_rate": 9.748633565724831e-05,
      "loss": 4.0555,
      "step": 295420
    },
    {
      "epoch": 0.6154791666666667,
      "grad_norm": 1.010208010673523,
      "learning_rate": 9.74771011084427e-05,
      "loss": 3.9633,
      "step": 295430
    },
    {
      "epoch": 0.6155,
      "grad_norm": 1.0659475326538086,
      "learning_rate": 9.746786678651526e-05,
      "loss": 3.9462,
      "step": 295440
    },
    {
      "epoch": 0.6155208333333333,
      "grad_norm": 1.2123252153396606,
      "learning_rate": 9.745863269150582e-05,
      "loss": 3.8814,
      "step": 295450
    },
    {
      "epoch": 0.6155416666666667,
      "grad_norm": 1.1055189371109009,
      "learning_rate": 9.744939882345428e-05,
      "loss": 3.9255,
      "step": 295460
    },
    {
      "epoch": 0.6155625,
      "grad_norm": 1.0328582525253296,
      "learning_rate": 9.744016518240057e-05,
      "loss": 3.7654,
      "step": 295470
    },
    {
      "epoch": 0.6155833333333334,
      "grad_norm": 0.9969371557235718,
      "learning_rate": 9.74309317683845e-05,
      "loss": 3.9531,
      "step": 295480
    },
    {
      "epoch": 0.6156041666666666,
      "grad_norm": 1.096350908279419,
      "learning_rate": 9.742169858144599e-05,
      "loss": 3.8299,
      "step": 295490
    },
    {
      "epoch": 0.615625,
      "grad_norm": 0.9948712587356567,
      "learning_rate": 9.741246562162499e-05,
      "loss": 3.8309,
      "step": 295500
    },
    {
      "epoch": 0.6156458333333333,
      "grad_norm": 0.998555600643158,
      "learning_rate": 9.740323288896132e-05,
      "loss": 3.7615,
      "step": 295510
    },
    {
      "epoch": 0.6156666666666667,
      "grad_norm": 1.14424729347229,
      "learning_rate": 9.73940003834948e-05,
      "loss": 4.0489,
      "step": 295520
    },
    {
      "epoch": 0.6156875,
      "grad_norm": 1.019838809967041,
      "learning_rate": 9.738476810526541e-05,
      "loss": 4.0626,
      "step": 295530
    },
    {
      "epoch": 0.6157083333333333,
      "grad_norm": 1.042492151260376,
      "learning_rate": 9.737553605431303e-05,
      "loss": 3.7613,
      "step": 295540
    },
    {
      "epoch": 0.6157291666666667,
      "grad_norm": 0.979694664478302,
      "learning_rate": 9.736630423067742e-05,
      "loss": 3.6962,
      "step": 295550
    },
    {
      "epoch": 0.61575,
      "grad_norm": 1.1872498989105225,
      "learning_rate": 9.73570726343986e-05,
      "loss": 4.014,
      "step": 295560
    },
    {
      "epoch": 0.6157708333333334,
      "grad_norm": 1.0152283906936646,
      "learning_rate": 9.734784126551638e-05,
      "loss": 3.9595,
      "step": 295570
    },
    {
      "epoch": 0.6157916666666666,
      "grad_norm": 0.9207424521446228,
      "learning_rate": 9.733861012407063e-05,
      "loss": 3.7016,
      "step": 295580
    },
    {
      "epoch": 0.6158125,
      "grad_norm": 1.0274642705917358,
      "learning_rate": 9.732937921010124e-05,
      "loss": 3.9896,
      "step": 295590
    },
    {
      "epoch": 0.6158333333333333,
      "grad_norm": 0.9324736595153809,
      "learning_rate": 9.732014852364814e-05,
      "loss": 3.6909,
      "step": 295600
    },
    {
      "epoch": 0.6158541666666667,
      "grad_norm": 1.094131588935852,
      "learning_rate": 9.731091806475112e-05,
      "loss": 4.098,
      "step": 295610
    },
    {
      "epoch": 0.615875,
      "grad_norm": 0.9991909861564636,
      "learning_rate": 9.730168783345004e-05,
      "loss": 3.8378,
      "step": 295620
    },
    {
      "epoch": 0.6158958333333333,
      "grad_norm": 1.0150724649429321,
      "learning_rate": 9.729245782978483e-05,
      "loss": 3.9296,
      "step": 295630
    },
    {
      "epoch": 0.6159166666666667,
      "grad_norm": 1.1947481632232666,
      "learning_rate": 9.728322805379537e-05,
      "loss": 3.9203,
      "step": 295640
    },
    {
      "epoch": 0.6159375,
      "grad_norm": 1.2115836143493652,
      "learning_rate": 9.727399850552142e-05,
      "loss": 3.9993,
      "step": 295650
    },
    {
      "epoch": 0.6159583333333334,
      "grad_norm": 1.3431771993637085,
      "learning_rate": 9.726476918500299e-05,
      "loss": 3.8616,
      "step": 295660
    },
    {
      "epoch": 0.6159791666666666,
      "grad_norm": 1.084150791168213,
      "learning_rate": 9.725554009227989e-05,
      "loss": 3.8686,
      "step": 295670
    },
    {
      "epoch": 0.616,
      "grad_norm": 0.9310564398765564,
      "learning_rate": 9.724631122739192e-05,
      "loss": 3.8171,
      "step": 295680
    },
    {
      "epoch": 0.6160208333333334,
      "grad_norm": 1.0418827533721924,
      "learning_rate": 9.723708259037904e-05,
      "loss": 3.8449,
      "step": 295690
    },
    {
      "epoch": 0.6160416666666667,
      "grad_norm": 1.104773759841919,
      "learning_rate": 9.72278541812811e-05,
      "loss": 3.8755,
      "step": 295700
    },
    {
      "epoch": 0.6160625,
      "grad_norm": 1.116538643836975,
      "learning_rate": 9.721862600013789e-05,
      "loss": 3.8788,
      "step": 295710
    },
    {
      "epoch": 0.6160833333333333,
      "grad_norm": 1.063374400138855,
      "learning_rate": 9.720939804698934e-05,
      "loss": 3.8378,
      "step": 295720
    },
    {
      "epoch": 0.6161041666666667,
      "grad_norm": 1.1429895162582397,
      "learning_rate": 9.720017032187534e-05,
      "loss": 4.0564,
      "step": 295730
    },
    {
      "epoch": 0.616125,
      "grad_norm": 1.0869394540786743,
      "learning_rate": 9.719094282483566e-05,
      "loss": 3.9971,
      "step": 295740
    },
    {
      "epoch": 0.6161458333333333,
      "grad_norm": 1.0017930269241333,
      "learning_rate": 9.718171555591022e-05,
      "loss": 3.7566,
      "step": 295750
    },
    {
      "epoch": 0.6161666666666666,
      "grad_norm": 0.9975995421409607,
      "learning_rate": 9.717248851513887e-05,
      "loss": 4.0888,
      "step": 295760
    },
    {
      "epoch": 0.6161875,
      "grad_norm": 1.0715571641921997,
      "learning_rate": 9.71632617025614e-05,
      "loss": 3.8869,
      "step": 295770
    },
    {
      "epoch": 0.6162083333333334,
      "grad_norm": 1.0390245914459229,
      "learning_rate": 9.715403511821781e-05,
      "loss": 3.8555,
      "step": 295780
    },
    {
      "epoch": 0.6162291666666667,
      "grad_norm": 1.0864185094833374,
      "learning_rate": 9.714480876214783e-05,
      "loss": 3.9108,
      "step": 295790
    },
    {
      "epoch": 0.61625,
      "grad_norm": 1.127956748008728,
      "learning_rate": 9.713558263439132e-05,
      "loss": 4.0064,
      "step": 295800
    },
    {
      "epoch": 0.6162708333333333,
      "grad_norm": 1.0512067079544067,
      "learning_rate": 9.712635673498825e-05,
      "loss": 3.8069,
      "step": 295810
    },
    {
      "epoch": 0.6162916666666667,
      "grad_norm": 1.0503835678100586,
      "learning_rate": 9.711713106397833e-05,
      "loss": 3.8758,
      "step": 295820
    },
    {
      "epoch": 0.6163125,
      "grad_norm": 1.0776034593582153,
      "learning_rate": 9.710790562140144e-05,
      "loss": 4.0289,
      "step": 295830
    },
    {
      "epoch": 0.6163333333333333,
      "grad_norm": 1.1461201906204224,
      "learning_rate": 9.709868040729755e-05,
      "loss": 3.9354,
      "step": 295840
    },
    {
      "epoch": 0.6163541666666666,
      "grad_norm": 1.0759292840957642,
      "learning_rate": 9.708945542170636e-05,
      "loss": 3.8825,
      "step": 295850
    },
    {
      "epoch": 0.616375,
      "grad_norm": 1.097425937652588,
      "learning_rate": 9.708023066466776e-05,
      "loss": 3.8676,
      "step": 295860
    },
    {
      "epoch": 0.6163958333333334,
      "grad_norm": 1.073716640472412,
      "learning_rate": 9.707100613622169e-05,
      "loss": 3.9112,
      "step": 295870
    },
    {
      "epoch": 0.6164166666666666,
      "grad_norm": 1.2151894569396973,
      "learning_rate": 9.706178183640791e-05,
      "loss": 3.8167,
      "step": 295880
    },
    {
      "epoch": 0.6164375,
      "grad_norm": 1.0446432828903198,
      "learning_rate": 9.705255776526623e-05,
      "loss": 3.7653,
      "step": 295890
    },
    {
      "epoch": 0.6164583333333333,
      "grad_norm": 1.0270757675170898,
      "learning_rate": 9.704333392283657e-05,
      "loss": 3.9039,
      "step": 295900
    },
    {
      "epoch": 0.6164791666666667,
      "grad_norm": 2.4751386642456055,
      "learning_rate": 9.703411030915876e-05,
      "loss": 3.8768,
      "step": 295910
    },
    {
      "epoch": 0.6165,
      "grad_norm": 1.1028403043746948,
      "learning_rate": 9.702488692427262e-05,
      "loss": 3.6722,
      "step": 295920
    },
    {
      "epoch": 0.6165208333333333,
      "grad_norm": 1.0602322816848755,
      "learning_rate": 9.701566376821795e-05,
      "loss": 3.7515,
      "step": 295930
    },
    {
      "epoch": 0.6165416666666667,
      "grad_norm": 1.0003907680511475,
      "learning_rate": 9.700644084103471e-05,
      "loss": 4.0657,
      "step": 295940
    },
    {
      "epoch": 0.6165625,
      "grad_norm": 1.0837900638580322,
      "learning_rate": 9.699721814276264e-05,
      "loss": 3.741,
      "step": 295950
    },
    {
      "epoch": 0.6165833333333334,
      "grad_norm": 0.9450589418411255,
      "learning_rate": 9.698799567344157e-05,
      "loss": 3.8029,
      "step": 295960
    },
    {
      "epoch": 0.6166041666666666,
      "grad_norm": 1.3498972654342651,
      "learning_rate": 9.697877343311144e-05,
      "loss": 3.7526,
      "step": 295970
    },
    {
      "epoch": 0.616625,
      "grad_norm": 1.0100741386413574,
      "learning_rate": 9.696955142181199e-05,
      "loss": 3.7657,
      "step": 295980
    },
    {
      "epoch": 0.6166458333333333,
      "grad_norm": 1.1188087463378906,
      "learning_rate": 9.696032963958307e-05,
      "loss": 3.7978,
      "step": 295990
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 1.6295852661132812,
      "learning_rate": 9.695110808646456e-05,
      "loss": 3.8935,
      "step": 296000
    },
    {
      "epoch": 0.6166666666666667,
      "eval_loss": 3.5790023803710938,
      "eval_runtime": 7.3726,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 296000
    },
    {
      "epoch": 0.6166875,
      "grad_norm": 1.101854920387268,
      "learning_rate": 9.69418867624963e-05,
      "loss": 3.9448,
      "step": 296010
    },
    {
      "epoch": 0.6167083333333333,
      "grad_norm": 1.11098051071167,
      "learning_rate": 9.6932665667718e-05,
      "loss": 4.1353,
      "step": 296020
    },
    {
      "epoch": 0.6167291666666667,
      "grad_norm": 1.082499623298645,
      "learning_rate": 9.692344480216963e-05,
      "loss": 3.9733,
      "step": 296030
    },
    {
      "epoch": 0.61675,
      "grad_norm": 1.1412252187728882,
      "learning_rate": 9.691422416589098e-05,
      "loss": 3.8985,
      "step": 296040
    },
    {
      "epoch": 0.6167708333333334,
      "grad_norm": 0.9790756702423096,
      "learning_rate": 9.690500375892181e-05,
      "loss": 3.7998,
      "step": 296050
    },
    {
      "epoch": 0.6167916666666666,
      "grad_norm": 1.1618777513504028,
      "learning_rate": 9.689578358130206e-05,
      "loss": 3.968,
      "step": 296060
    },
    {
      "epoch": 0.6168125,
      "grad_norm": 1.0236454010009766,
      "learning_rate": 9.688656363307152e-05,
      "loss": 4.0917,
      "step": 296070
    },
    {
      "epoch": 0.6168333333333333,
      "grad_norm": 1.1238768100738525,
      "learning_rate": 9.687734391426993e-05,
      "loss": 3.9532,
      "step": 296080
    },
    {
      "epoch": 0.6168541666666667,
      "grad_norm": 1.06429922580719,
      "learning_rate": 9.686812442493724e-05,
      "loss": 3.8797,
      "step": 296090
    },
    {
      "epoch": 0.616875,
      "grad_norm": 1.0959069728851318,
      "learning_rate": 9.685890516511323e-05,
      "loss": 3.9167,
      "step": 296100
    },
    {
      "epoch": 0.6168958333333333,
      "grad_norm": 1.2571988105773926,
      "learning_rate": 9.684968613483769e-05,
      "loss": 3.8972,
      "step": 296110
    },
    {
      "epoch": 0.6169166666666667,
      "grad_norm": 1.073430061340332,
      "learning_rate": 9.684046733415049e-05,
      "loss": 3.844,
      "step": 296120
    },
    {
      "epoch": 0.6169375,
      "grad_norm": 1.073643684387207,
      "learning_rate": 9.683124876309142e-05,
      "loss": 4.1377,
      "step": 296130
    },
    {
      "epoch": 0.6169583333333334,
      "grad_norm": 2.195511817932129,
      "learning_rate": 9.682203042170026e-05,
      "loss": 3.8422,
      "step": 296140
    },
    {
      "epoch": 0.6169791666666666,
      "grad_norm": 1.1436307430267334,
      "learning_rate": 9.681281231001695e-05,
      "loss": 4.0581,
      "step": 296150
    },
    {
      "epoch": 0.617,
      "grad_norm": 0.9881112575531006,
      "learning_rate": 9.680359442808122e-05,
      "loss": 3.9094,
      "step": 296160
    },
    {
      "epoch": 0.6170208333333334,
      "grad_norm": 1.0437484979629517,
      "learning_rate": 9.679437677593286e-05,
      "loss": 3.8887,
      "step": 296170
    },
    {
      "epoch": 0.6170416666666667,
      "grad_norm": 1.0021460056304932,
      "learning_rate": 9.67851593536118e-05,
      "loss": 3.8525,
      "step": 296180
    },
    {
      "epoch": 0.6170625,
      "grad_norm": 0.9281309247016907,
      "learning_rate": 9.677594216115775e-05,
      "loss": 3.9088,
      "step": 296190
    },
    {
      "epoch": 0.6170833333333333,
      "grad_norm": 1.1487658023834229,
      "learning_rate": 9.67667251986106e-05,
      "loss": 3.7963,
      "step": 296200
    },
    {
      "epoch": 0.6171041666666667,
      "grad_norm": 1.3820298910140991,
      "learning_rate": 9.675750846601007e-05,
      "loss": 3.9437,
      "step": 296210
    },
    {
      "epoch": 0.617125,
      "grad_norm": 1.0501391887664795,
      "learning_rate": 9.674829196339604e-05,
      "loss": 4.0993,
      "step": 296220
    },
    {
      "epoch": 0.6171458333333333,
      "grad_norm": 1.0824676752090454,
      "learning_rate": 9.673907569080834e-05,
      "loss": 3.8551,
      "step": 296230
    },
    {
      "epoch": 0.6171666666666666,
      "grad_norm": 1.0879850387573242,
      "learning_rate": 9.67298596482867e-05,
      "loss": 3.8242,
      "step": 296240
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 1.3595116138458252,
      "learning_rate": 9.672064383587105e-05,
      "loss": 3.8496,
      "step": 296250
    },
    {
      "epoch": 0.6172083333333334,
      "grad_norm": 1.0065815448760986,
      "learning_rate": 9.671142825360111e-05,
      "loss": 4.0226,
      "step": 296260
    },
    {
      "epoch": 0.6172291666666667,
      "grad_norm": 1.4237498044967651,
      "learning_rate": 9.670221290151664e-05,
      "loss": 4.01,
      "step": 296270
    },
    {
      "epoch": 0.61725,
      "grad_norm": 1.222772479057312,
      "learning_rate": 9.66929977796576e-05,
      "loss": 3.9162,
      "step": 296280
    },
    {
      "epoch": 0.6172708333333333,
      "grad_norm": 1.0746182203292847,
      "learning_rate": 9.668378288806367e-05,
      "loss": 4.0255,
      "step": 296290
    },
    {
      "epoch": 0.6172916666666667,
      "grad_norm": 0.9056865572929382,
      "learning_rate": 9.667456822677466e-05,
      "loss": 3.8034,
      "step": 296300
    },
    {
      "epoch": 0.6173125,
      "grad_norm": 1.0368880033493042,
      "learning_rate": 9.666535379583047e-05,
      "loss": 3.6409,
      "step": 296310
    },
    {
      "epoch": 0.6173333333333333,
      "grad_norm": 1.0695054531097412,
      "learning_rate": 9.665613959527083e-05,
      "loss": 3.7499,
      "step": 296320
    },
    {
      "epoch": 0.6173541666666666,
      "grad_norm": 0.9708759188652039,
      "learning_rate": 9.66469256251355e-05,
      "loss": 3.692,
      "step": 296330
    },
    {
      "epoch": 0.617375,
      "grad_norm": 1.0848639011383057,
      "learning_rate": 9.66377118854644e-05,
      "loss": 3.941,
      "step": 296340
    },
    {
      "epoch": 0.6173958333333334,
      "grad_norm": 1.0203560590744019,
      "learning_rate": 9.662849837629722e-05,
      "loss": 3.7655,
      "step": 296350
    },
    {
      "epoch": 0.6174166666666666,
      "grad_norm": 1.165229082107544,
      "learning_rate": 9.661928509767379e-05,
      "loss": 3.9496,
      "step": 296360
    },
    {
      "epoch": 0.6174375,
      "grad_norm": 1.0702377557754517,
      "learning_rate": 9.661007204963397e-05,
      "loss": 3.8143,
      "step": 296370
    },
    {
      "epoch": 0.6174583333333333,
      "grad_norm": 1.0403445959091187,
      "learning_rate": 9.66008592322175e-05,
      "loss": 3.8361,
      "step": 296380
    },
    {
      "epoch": 0.6174791666666667,
      "grad_norm": 1.0490829944610596,
      "learning_rate": 9.659164664546413e-05,
      "loss": 3.8369,
      "step": 296390
    },
    {
      "epoch": 0.6175,
      "grad_norm": 1.0660735368728638,
      "learning_rate": 9.658243428941372e-05,
      "loss": 3.9509,
      "step": 296400
    },
    {
      "epoch": 0.6175208333333333,
      "grad_norm": 0.9852871298789978,
      "learning_rate": 9.657322216410611e-05,
      "loss": 3.8298,
      "step": 296410
    },
    {
      "epoch": 0.6175416666666667,
      "grad_norm": 0.9866150617599487,
      "learning_rate": 9.656401026958095e-05,
      "loss": 3.8132,
      "step": 296420
    },
    {
      "epoch": 0.6175625,
      "grad_norm": 1.1443215608596802,
      "learning_rate": 9.655479860587815e-05,
      "loss": 3.7858,
      "step": 296430
    },
    {
      "epoch": 0.6175833333333334,
      "grad_norm": 1.0034679174423218,
      "learning_rate": 9.65455871730375e-05,
      "loss": 3.907,
      "step": 296440
    },
    {
      "epoch": 0.6176041666666666,
      "grad_norm": 1.0669176578521729,
      "learning_rate": 9.653637597109868e-05,
      "loss": 4.0354,
      "step": 296450
    },
    {
      "epoch": 0.617625,
      "grad_norm": 1.1830087900161743,
      "learning_rate": 9.65271650001016e-05,
      "loss": 3.8668,
      "step": 296460
    },
    {
      "epoch": 0.6176458333333333,
      "grad_norm": 1.026713490486145,
      "learning_rate": 9.651795426008601e-05,
      "loss": 3.8524,
      "step": 296470
    },
    {
      "epoch": 0.6176666666666667,
      "grad_norm": 1.1145267486572266,
      "learning_rate": 9.650874375109166e-05,
      "loss": 3.8225,
      "step": 296480
    },
    {
      "epoch": 0.6176875,
      "grad_norm": 1.0863683223724365,
      "learning_rate": 9.649953347315836e-05,
      "loss": 3.9491,
      "step": 296490
    },
    {
      "epoch": 0.6177083333333333,
      "grad_norm": 1.0719504356384277,
      "learning_rate": 9.649032342632594e-05,
      "loss": 3.848,
      "step": 296500
    },
    {
      "epoch": 0.6177291666666667,
      "grad_norm": 1.0427559614181519,
      "learning_rate": 9.648111361063417e-05,
      "loss": 3.9216,
      "step": 296510
    },
    {
      "epoch": 0.61775,
      "grad_norm": 1.1450161933898926,
      "learning_rate": 9.647190402612271e-05,
      "loss": 3.8447,
      "step": 296520
    },
    {
      "epoch": 0.6177708333333334,
      "grad_norm": 0.9574061036109924,
      "learning_rate": 9.646269467283148e-05,
      "loss": 3.6796,
      "step": 296530
    },
    {
      "epoch": 0.6177916666666666,
      "grad_norm": 1.04228675365448,
      "learning_rate": 9.645348555080024e-05,
      "loss": 3.9142,
      "step": 296540
    },
    {
      "epoch": 0.6178125,
      "grad_norm": 1.071778655052185,
      "learning_rate": 9.644427666006869e-05,
      "loss": 3.8155,
      "step": 296550
    },
    {
      "epoch": 0.6178333333333333,
      "grad_norm": 1.0693106651306152,
      "learning_rate": 9.64350680006767e-05,
      "loss": 3.9935,
      "step": 296560
    },
    {
      "epoch": 0.6178541666666667,
      "grad_norm": 1.1522858142852783,
      "learning_rate": 9.642585957266405e-05,
      "loss": 3.9632,
      "step": 296570
    },
    {
      "epoch": 0.617875,
      "grad_norm": 1.0050729513168335,
      "learning_rate": 9.641665137607043e-05,
      "loss": 3.9446,
      "step": 296580
    },
    {
      "epoch": 0.6178958333333333,
      "grad_norm": 1.115090012550354,
      "learning_rate": 9.640744341093564e-05,
      "loss": 3.9597,
      "step": 296590
    },
    {
      "epoch": 0.6179166666666667,
      "grad_norm": 1.1163586378097534,
      "learning_rate": 9.639823567729956e-05,
      "loss": 3.7909,
      "step": 296600
    },
    {
      "epoch": 0.6179375,
      "grad_norm": 1.0005823373794556,
      "learning_rate": 9.638902817520184e-05,
      "loss": 3.9157,
      "step": 296610
    },
    {
      "epoch": 0.6179583333333334,
      "grad_norm": 1.2116109132766724,
      "learning_rate": 9.637982090468233e-05,
      "loss": 4.008,
      "step": 296620
    },
    {
      "epoch": 0.6179791666666666,
      "grad_norm": 1.391654372215271,
      "learning_rate": 9.637061386578073e-05,
      "loss": 3.8276,
      "step": 296630
    },
    {
      "epoch": 0.618,
      "grad_norm": 1.0102163553237915,
      "learning_rate": 9.636140705853682e-05,
      "loss": 3.9457,
      "step": 296640
    },
    {
      "epoch": 0.6180208333333334,
      "grad_norm": 1.0971877574920654,
      "learning_rate": 9.63522004829905e-05,
      "loss": 3.936,
      "step": 296650
    },
    {
      "epoch": 0.6180416666666667,
      "grad_norm": 1.0827409029006958,
      "learning_rate": 9.634299413918136e-05,
      "loss": 3.8929,
      "step": 296660
    },
    {
      "epoch": 0.6180625,
      "grad_norm": 1.1413631439208984,
      "learning_rate": 9.633378802714923e-05,
      "loss": 3.8162,
      "step": 296670
    },
    {
      "epoch": 0.6180833333333333,
      "grad_norm": 1.2384485006332397,
      "learning_rate": 9.632458214693397e-05,
      "loss": 3.9348,
      "step": 296680
    },
    {
      "epoch": 0.6181041666666667,
      "grad_norm": 1.0433334112167358,
      "learning_rate": 9.631537649857522e-05,
      "loss": 3.8894,
      "step": 296690
    },
    {
      "epoch": 0.618125,
      "grad_norm": 1.292694091796875,
      "learning_rate": 9.630617108211277e-05,
      "loss": 4.0058,
      "step": 296700
    },
    {
      "epoch": 0.6181458333333333,
      "grad_norm": 1.2194873094558716,
      "learning_rate": 9.629696589758648e-05,
      "loss": 3.91,
      "step": 296710
    },
    {
      "epoch": 0.6181666666666666,
      "grad_norm": 0.9716446995735168,
      "learning_rate": 9.628776094503601e-05,
      "loss": 3.7855,
      "step": 296720
    },
    {
      "epoch": 0.6181875,
      "grad_norm": 1.099263072013855,
      "learning_rate": 9.627855622450108e-05,
      "loss": 3.9293,
      "step": 296730
    },
    {
      "epoch": 0.6182083333333334,
      "grad_norm": 1.0245978832244873,
      "learning_rate": 9.626935173602165e-05,
      "loss": 3.7333,
      "step": 296740
    },
    {
      "epoch": 0.6182291666666667,
      "grad_norm": 1.6869901418685913,
      "learning_rate": 9.626014747963731e-05,
      "loss": 4.0453,
      "step": 296750
    },
    {
      "epoch": 0.61825,
      "grad_norm": 1.0696086883544922,
      "learning_rate": 9.62509434553878e-05,
      "loss": 3.847,
      "step": 296760
    },
    {
      "epoch": 0.6182708333333333,
      "grad_norm": 1.2293757200241089,
      "learning_rate": 9.6241739663313e-05,
      "loss": 3.8584,
      "step": 296770
    },
    {
      "epoch": 0.6182916666666667,
      "grad_norm": 1.101593017578125,
      "learning_rate": 9.62325361034526e-05,
      "loss": 3.8327,
      "step": 296780
    },
    {
      "epoch": 0.6183125,
      "grad_norm": 1.0468276739120483,
      "learning_rate": 9.622333277584635e-05,
      "loss": 4.031,
      "step": 296790
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 1.059730887413025,
      "learning_rate": 9.621412968053395e-05,
      "loss": 4.0031,
      "step": 296800
    },
    {
      "epoch": 0.6183541666666666,
      "grad_norm": 1.071652889251709,
      "learning_rate": 9.620492681755534e-05,
      "loss": 3.7868,
      "step": 296810
    },
    {
      "epoch": 0.618375,
      "grad_norm": 1.0258228778839111,
      "learning_rate": 9.619572418695008e-05,
      "loss": 3.93,
      "step": 296820
    },
    {
      "epoch": 0.6183958333333334,
      "grad_norm": 1.1035559177398682,
      "learning_rate": 9.618652178875798e-05,
      "loss": 4.0139,
      "step": 296830
    },
    {
      "epoch": 0.6184166666666666,
      "grad_norm": 0.9962781667709351,
      "learning_rate": 9.617731962301886e-05,
      "loss": 3.7705,
      "step": 296840
    },
    {
      "epoch": 0.6184375,
      "grad_norm": 1.0691956281661987,
      "learning_rate": 9.616811768977239e-05,
      "loss": 3.9452,
      "step": 296850
    },
    {
      "epoch": 0.6184583333333333,
      "grad_norm": 1.1103061437606812,
      "learning_rate": 9.615891598905832e-05,
      "loss": 3.7993,
      "step": 296860
    },
    {
      "epoch": 0.6184791666666667,
      "grad_norm": 1.0263875722885132,
      "learning_rate": 9.614971452091645e-05,
      "loss": 3.7159,
      "step": 296870
    },
    {
      "epoch": 0.6185,
      "grad_norm": 1.0069987773895264,
      "learning_rate": 9.614051328538652e-05,
      "loss": 3.8293,
      "step": 296880
    },
    {
      "epoch": 0.6185208333333333,
      "grad_norm": 0.982660174369812,
      "learning_rate": 9.613131228250821e-05,
      "loss": 3.9517,
      "step": 296890
    },
    {
      "epoch": 0.6185416666666667,
      "grad_norm": 1.1359199285507202,
      "learning_rate": 9.612211151232132e-05,
      "loss": 3.8854,
      "step": 296900
    },
    {
      "epoch": 0.6185625,
      "grad_norm": 1.348065972328186,
      "learning_rate": 9.611291097486561e-05,
      "loss": 3.8749,
      "step": 296910
    },
    {
      "epoch": 0.6185833333333334,
      "grad_norm": 1.066843867301941,
      "learning_rate": 9.610371067018074e-05,
      "loss": 3.9865,
      "step": 296920
    },
    {
      "epoch": 0.6186041666666666,
      "grad_norm": 0.9641813635826111,
      "learning_rate": 9.609451059830653e-05,
      "loss": 3.866,
      "step": 296930
    },
    {
      "epoch": 0.618625,
      "grad_norm": 1.0578280687332153,
      "learning_rate": 9.608531075928274e-05,
      "loss": 3.7751,
      "step": 296940
    },
    {
      "epoch": 0.6186458333333333,
      "grad_norm": 0.9900249242782593,
      "learning_rate": 9.607611115314899e-05,
      "loss": 3.8445,
      "step": 296950
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 1.0635720491409302,
      "learning_rate": 9.606691177994512e-05,
      "loss": 3.9339,
      "step": 296960
    },
    {
      "epoch": 0.6186875,
      "grad_norm": 1.0896258354187012,
      "learning_rate": 9.605771263971089e-05,
      "loss": 3.7822,
      "step": 296970
    },
    {
      "epoch": 0.6187083333333333,
      "grad_norm": 1.002427101135254,
      "learning_rate": 9.604851373248594e-05,
      "loss": 3.6528,
      "step": 296980
    },
    {
      "epoch": 0.6187291666666667,
      "grad_norm": 1.044937252998352,
      "learning_rate": 9.603931505831007e-05,
      "loss": 3.7541,
      "step": 296990
    },
    {
      "epoch": 0.61875,
      "grad_norm": 1.0792920589447021,
      "learning_rate": 9.603011661722301e-05,
      "loss": 4.0374,
      "step": 297000
    },
    {
      "epoch": 0.61875,
      "eval_loss": 3.577066421508789,
      "eval_runtime": 7.2812,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 297000
    },
    {
      "epoch": 0.6187708333333334,
      "grad_norm": 1.066887378692627,
      "learning_rate": 9.602091840926444e-05,
      "loss": 3.9905,
      "step": 297010
    },
    {
      "epoch": 0.6187916666666666,
      "grad_norm": 1.0979602336883545,
      "learning_rate": 9.601172043447423e-05,
      "loss": 4.0593,
      "step": 297020
    },
    {
      "epoch": 0.6188125,
      "grad_norm": 1.054386854171753,
      "learning_rate": 9.600252269289195e-05,
      "loss": 3.9703,
      "step": 297030
    },
    {
      "epoch": 0.6188333333333333,
      "grad_norm": 1.0697566270828247,
      "learning_rate": 9.599332518455738e-05,
      "loss": 3.7819,
      "step": 297040
    },
    {
      "epoch": 0.6188541666666667,
      "grad_norm": 1.1356371641159058,
      "learning_rate": 9.598412790951032e-05,
      "loss": 3.911,
      "step": 297050
    },
    {
      "epoch": 0.618875,
      "grad_norm": 1.0425962209701538,
      "learning_rate": 9.597493086779043e-05,
      "loss": 4.0027,
      "step": 297060
    },
    {
      "epoch": 0.6188958333333333,
      "grad_norm": 1.1951779127120972,
      "learning_rate": 9.59657340594374e-05,
      "loss": 4.0103,
      "step": 297070
    },
    {
      "epoch": 0.6189166666666667,
      "grad_norm": 0.9416840076446533,
      "learning_rate": 9.595653748449109e-05,
      "loss": 3.7306,
      "step": 297080
    },
    {
      "epoch": 0.6189375,
      "grad_norm": 0.9999350309371948,
      "learning_rate": 9.59473411429911e-05,
      "loss": 3.934,
      "step": 297090
    },
    {
      "epoch": 0.6189583333333334,
      "grad_norm": 1.0201165676116943,
      "learning_rate": 9.593814503497725e-05,
      "loss": 3.7255,
      "step": 297100
    },
    {
      "epoch": 0.6189791666666666,
      "grad_norm": 1.0271815061569214,
      "learning_rate": 9.592894916048914e-05,
      "loss": 3.8847,
      "step": 297110
    },
    {
      "epoch": 0.619,
      "grad_norm": 1.1577835083007812,
      "learning_rate": 9.591975351956664e-05,
      "loss": 3.8497,
      "step": 297120
    },
    {
      "epoch": 0.6190208333333334,
      "grad_norm": 1.0774457454681396,
      "learning_rate": 9.591055811224935e-05,
      "loss": 3.8078,
      "step": 297130
    },
    {
      "epoch": 0.6190416666666667,
      "grad_norm": 1.1121900081634521,
      "learning_rate": 9.590136293857702e-05,
      "loss": 3.8523,
      "step": 297140
    },
    {
      "epoch": 0.6190625,
      "grad_norm": 1.0588340759277344,
      "learning_rate": 9.589216799858946e-05,
      "loss": 3.9371,
      "step": 297150
    },
    {
      "epoch": 0.6190833333333333,
      "grad_norm": 1.1133248805999756,
      "learning_rate": 9.588297329232627e-05,
      "loss": 3.9019,
      "step": 297160
    },
    {
      "epoch": 0.6191041666666667,
      "grad_norm": 1.1047389507293701,
      "learning_rate": 9.587377881982719e-05,
      "loss": 3.8669,
      "step": 297170
    },
    {
      "epoch": 0.619125,
      "grad_norm": 1.0120962858200073,
      "learning_rate": 9.586458458113203e-05,
      "loss": 3.9229,
      "step": 297180
    },
    {
      "epoch": 0.6191458333333333,
      "grad_norm": 1.122941493988037,
      "learning_rate": 9.585539057628038e-05,
      "loss": 3.7708,
      "step": 297190
    },
    {
      "epoch": 0.6191666666666666,
      "grad_norm": 1.294945478439331,
      "learning_rate": 9.584619680531201e-05,
      "loss": 3.7906,
      "step": 297200
    },
    {
      "epoch": 0.6191875,
      "grad_norm": 1.2525964975357056,
      "learning_rate": 9.583700326826666e-05,
      "loss": 3.9143,
      "step": 297210
    },
    {
      "epoch": 0.6192083333333334,
      "grad_norm": 1.305993914604187,
      "learning_rate": 9.582780996518404e-05,
      "loss": 3.934,
      "step": 297220
    },
    {
      "epoch": 0.6192291666666667,
      "grad_norm": 1.107149362564087,
      "learning_rate": 9.581861689610375e-05,
      "loss": 3.7207,
      "step": 297230
    },
    {
      "epoch": 0.61925,
      "grad_norm": 1.0980441570281982,
      "learning_rate": 9.580942406106569e-05,
      "loss": 4.0443,
      "step": 297240
    },
    {
      "epoch": 0.6192708333333333,
      "grad_norm": 0.9815206527709961,
      "learning_rate": 9.580023146010945e-05,
      "loss": 4.0545,
      "step": 297250
    },
    {
      "epoch": 0.6192916666666667,
      "grad_norm": 0.9892334342002869,
      "learning_rate": 9.57910390932747e-05,
      "loss": 3.8686,
      "step": 297260
    },
    {
      "epoch": 0.6193125,
      "grad_norm": 1.112050175666809,
      "learning_rate": 9.578184696060123e-05,
      "loss": 3.8323,
      "step": 297270
    },
    {
      "epoch": 0.6193333333333333,
      "grad_norm": 1.0493210554122925,
      "learning_rate": 9.577265506212876e-05,
      "loss": 3.7437,
      "step": 297280
    },
    {
      "epoch": 0.6193541666666667,
      "grad_norm": 0.9828163385391235,
      "learning_rate": 9.576346339789688e-05,
      "loss": 3.5814,
      "step": 297290
    },
    {
      "epoch": 0.619375,
      "grad_norm": 1.278935432434082,
      "learning_rate": 9.575427196794542e-05,
      "loss": 3.8933,
      "step": 297300
    },
    {
      "epoch": 0.6193958333333334,
      "grad_norm": 1.0261955261230469,
      "learning_rate": 9.574508077231405e-05,
      "loss": 3.678,
      "step": 297310
    },
    {
      "epoch": 0.6194166666666666,
      "grad_norm": 1.032141089439392,
      "learning_rate": 9.573588981104238e-05,
      "loss": 3.7059,
      "step": 297320
    },
    {
      "epoch": 0.6194375,
      "grad_norm": 1.0135339498519897,
      "learning_rate": 9.572669908417023e-05,
      "loss": 3.867,
      "step": 297330
    },
    {
      "epoch": 0.6194583333333333,
      "grad_norm": 1.0634161233901978,
      "learning_rate": 9.57175085917373e-05,
      "loss": 3.9394,
      "step": 297340
    },
    {
      "epoch": 0.6194791666666667,
      "grad_norm": 1.0482113361358643,
      "learning_rate": 9.57083183337832e-05,
      "loss": 4.0943,
      "step": 297350
    },
    {
      "epoch": 0.6195,
      "grad_norm": 1.018744945526123,
      "learning_rate": 9.569912831034766e-05,
      "loss": 4.047,
      "step": 297360
    },
    {
      "epoch": 0.6195208333333333,
      "grad_norm": 1.0418636798858643,
      "learning_rate": 9.568993852147044e-05,
      "loss": 3.8537,
      "step": 297370
    },
    {
      "epoch": 0.6195416666666667,
      "grad_norm": 1.2748786211013794,
      "learning_rate": 9.568074896719121e-05,
      "loss": 3.8936,
      "step": 297380
    },
    {
      "epoch": 0.6195625,
      "grad_norm": 0.9643346071243286,
      "learning_rate": 9.567155964754956e-05,
      "loss": 3.8147,
      "step": 297390
    },
    {
      "epoch": 0.6195833333333334,
      "grad_norm": 1.1003023386001587,
      "learning_rate": 9.566237056258532e-05,
      "loss": 4.1506,
      "step": 297400
    },
    {
      "epoch": 0.6196041666666666,
      "grad_norm": 1.0837552547454834,
      "learning_rate": 9.565318171233813e-05,
      "loss": 3.7719,
      "step": 297410
    },
    {
      "epoch": 0.619625,
      "grad_norm": 1.233731746673584,
      "learning_rate": 9.564399309684763e-05,
      "loss": 3.8636,
      "step": 297420
    },
    {
      "epoch": 0.6196458333333333,
      "grad_norm": 1.0214401483535767,
      "learning_rate": 9.56348047161536e-05,
      "loss": 3.8115,
      "step": 297430
    },
    {
      "epoch": 0.6196666666666667,
      "grad_norm": 1.0648958683013916,
      "learning_rate": 9.562561657029574e-05,
      "loss": 4.1006,
      "step": 297440
    },
    {
      "epoch": 0.6196875,
      "grad_norm": 1.2173138856887817,
      "learning_rate": 9.56164286593136e-05,
      "loss": 3.9214,
      "step": 297450
    },
    {
      "epoch": 0.6197083333333333,
      "grad_norm": 1.0027403831481934,
      "learning_rate": 9.560724098324702e-05,
      "loss": 3.8389,
      "step": 297460
    },
    {
      "epoch": 0.6197291666666667,
      "grad_norm": 1.0328556299209595,
      "learning_rate": 9.559805354213565e-05,
      "loss": 3.9526,
      "step": 297470
    },
    {
      "epoch": 0.61975,
      "grad_norm": 1.120558738708496,
      "learning_rate": 9.55888663360191e-05,
      "loss": 3.9029,
      "step": 297480
    },
    {
      "epoch": 0.6197708333333334,
      "grad_norm": 1.049674153327942,
      "learning_rate": 9.557967936493712e-05,
      "loss": 3.6383,
      "step": 297490
    },
    {
      "epoch": 0.6197916666666666,
      "grad_norm": 1.2786202430725098,
      "learning_rate": 9.557049262892944e-05,
      "loss": 3.9142,
      "step": 297500
    },
    {
      "epoch": 0.6198125,
      "grad_norm": 1.2515900135040283,
      "learning_rate": 9.556130612803562e-05,
      "loss": 3.8089,
      "step": 297510
    },
    {
      "epoch": 0.6198333333333333,
      "grad_norm": 1.0280303955078125,
      "learning_rate": 9.555211986229546e-05,
      "loss": 3.7624,
      "step": 297520
    },
    {
      "epoch": 0.6198541666666667,
      "grad_norm": 1.0335216522216797,
      "learning_rate": 9.554293383174857e-05,
      "loss": 3.89,
      "step": 297530
    },
    {
      "epoch": 0.619875,
      "grad_norm": 1.0871070623397827,
      "learning_rate": 9.553374803643462e-05,
      "loss": 3.8077,
      "step": 297540
    },
    {
      "epoch": 0.6198958333333333,
      "grad_norm": 1.0206019878387451,
      "learning_rate": 9.552456247639337e-05,
      "loss": 3.8535,
      "step": 297550
    },
    {
      "epoch": 0.6199166666666667,
      "grad_norm": 1.0043550729751587,
      "learning_rate": 9.551537715166441e-05,
      "loss": 3.9733,
      "step": 297560
    },
    {
      "epoch": 0.6199375,
      "grad_norm": 1.0020301342010498,
      "learning_rate": 9.550619206228745e-05,
      "loss": 3.8249,
      "step": 297570
    },
    {
      "epoch": 0.6199583333333333,
      "grad_norm": 1.0112495422363281,
      "learning_rate": 9.54970072083022e-05,
      "loss": 4.1748,
      "step": 297580
    },
    {
      "epoch": 0.6199791666666666,
      "grad_norm": 0.9703509211540222,
      "learning_rate": 9.54878225897483e-05,
      "loss": 3.8561,
      "step": 297590
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1055063009262085,
      "learning_rate": 9.547863820666538e-05,
      "loss": 3.7605,
      "step": 297600
    },
    {
      "epoch": 0.6200208333333334,
      "grad_norm": 1.165385365486145,
      "learning_rate": 9.546945405909325e-05,
      "loss": 4.078,
      "step": 297610
    },
    {
      "epoch": 0.6200416666666667,
      "grad_norm": 0.9726396799087524,
      "learning_rate": 9.546027014707149e-05,
      "loss": 3.8533,
      "step": 297620
    },
    {
      "epoch": 0.6200625,
      "grad_norm": 1.1626002788543701,
      "learning_rate": 9.545108647063968e-05,
      "loss": 3.9515,
      "step": 297630
    },
    {
      "epoch": 0.6200833333333333,
      "grad_norm": 0.9937658905982971,
      "learning_rate": 9.544190302983763e-05,
      "loss": 3.9116,
      "step": 297640
    },
    {
      "epoch": 0.6201041666666667,
      "grad_norm": 1.2167143821716309,
      "learning_rate": 9.5432719824705e-05,
      "loss": 3.814,
      "step": 297650
    },
    {
      "epoch": 0.620125,
      "grad_norm": 1.1273291110992432,
      "learning_rate": 9.542353685528139e-05,
      "loss": 3.7497,
      "step": 297660
    },
    {
      "epoch": 0.6201458333333333,
      "grad_norm": 1.0582926273345947,
      "learning_rate": 9.541435412160647e-05,
      "loss": 3.7395,
      "step": 297670
    },
    {
      "epoch": 0.6201666666666666,
      "grad_norm": 0.983168363571167,
      "learning_rate": 9.540517162372e-05,
      "loss": 3.9756,
      "step": 297680
    },
    {
      "epoch": 0.6201875,
      "grad_norm": 1.0779051780700684,
      "learning_rate": 9.539598936166154e-05,
      "loss": 3.6622,
      "step": 297690
    },
    {
      "epoch": 0.6202083333333334,
      "grad_norm": 1.0180450677871704,
      "learning_rate": 9.538680733547076e-05,
      "loss": 3.9383,
      "step": 297700
    },
    {
      "epoch": 0.6202291666666667,
      "grad_norm": 1.2947213649749756,
      "learning_rate": 9.53776255451874e-05,
      "loss": 3.8725,
      "step": 297710
    },
    {
      "epoch": 0.62025,
      "grad_norm": 1.1781065464019775,
      "learning_rate": 9.536844399085108e-05,
      "loss": 3.9084,
      "step": 297720
    },
    {
      "epoch": 0.6202708333333333,
      "grad_norm": 1.151394009590149,
      "learning_rate": 9.53592626725014e-05,
      "loss": 3.9939,
      "step": 297730
    },
    {
      "epoch": 0.6202916666666667,
      "grad_norm": 1.148844838142395,
      "learning_rate": 9.535008159017816e-05,
      "loss": 3.7176,
      "step": 297740
    },
    {
      "epoch": 0.6203125,
      "grad_norm": 1.0887523889541626,
      "learning_rate": 9.534090074392092e-05,
      "loss": 3.7733,
      "step": 297750
    },
    {
      "epoch": 0.6203333333333333,
      "grad_norm": 1.0442527532577515,
      "learning_rate": 9.533172013376929e-05,
      "loss": 3.8606,
      "step": 297760
    },
    {
      "epoch": 0.6203541666666667,
      "grad_norm": 1.1103253364562988,
      "learning_rate": 9.532253975976301e-05,
      "loss": 3.7617,
      "step": 297770
    },
    {
      "epoch": 0.620375,
      "grad_norm": 1.0346800088882446,
      "learning_rate": 9.531335962194178e-05,
      "loss": 3.9811,
      "step": 297780
    },
    {
      "epoch": 0.6203958333333334,
      "grad_norm": 1.011695384979248,
      "learning_rate": 9.530417972034511e-05,
      "loss": 3.7041,
      "step": 297790
    },
    {
      "epoch": 0.6204166666666666,
      "grad_norm": 1.062443494796753,
      "learning_rate": 9.529500005501277e-05,
      "loss": 3.9748,
      "step": 297800
    },
    {
      "epoch": 0.6204375,
      "grad_norm": 1.1435459852218628,
      "learning_rate": 9.528582062598438e-05,
      "loss": 3.7628,
      "step": 297810
    },
    {
      "epoch": 0.6204583333333333,
      "grad_norm": 1.0728120803833008,
      "learning_rate": 9.527664143329957e-05,
      "loss": 3.7488,
      "step": 297820
    },
    {
      "epoch": 0.6204791666666667,
      "grad_norm": 1.0837576389312744,
      "learning_rate": 9.5267462476998e-05,
      "loss": 3.8961,
      "step": 297830
    },
    {
      "epoch": 0.6205,
      "grad_norm": 1.375377893447876,
      "learning_rate": 9.525828375711938e-05,
      "loss": 3.9162,
      "step": 297840
    },
    {
      "epoch": 0.6205208333333333,
      "grad_norm": 1.7892717123031616,
      "learning_rate": 9.524910527370324e-05,
      "loss": 3.8378,
      "step": 297850
    },
    {
      "epoch": 0.6205416666666667,
      "grad_norm": 1.1609424352645874,
      "learning_rate": 9.523992702678932e-05,
      "loss": 3.9494,
      "step": 297860
    },
    {
      "epoch": 0.6205625,
      "grad_norm": 1.0244823694229126,
      "learning_rate": 9.523074901641728e-05,
      "loss": 3.9589,
      "step": 297870
    },
    {
      "epoch": 0.6205833333333334,
      "grad_norm": 1.3606079816818237,
      "learning_rate": 9.522157124262668e-05,
      "loss": 4.2403,
      "step": 297880
    },
    {
      "epoch": 0.6206041666666666,
      "grad_norm": 1.0329864025115967,
      "learning_rate": 9.521239370545723e-05,
      "loss": 3.9192,
      "step": 297890
    },
    {
      "epoch": 0.620625,
      "grad_norm": 1.2400765419006348,
      "learning_rate": 9.520321640494854e-05,
      "loss": 3.7162,
      "step": 297900
    },
    {
      "epoch": 0.6206458333333333,
      "grad_norm": 1.1219539642333984,
      "learning_rate": 9.519403934114023e-05,
      "loss": 3.8464,
      "step": 297910
    },
    {
      "epoch": 0.6206666666666667,
      "grad_norm": 0.9662451148033142,
      "learning_rate": 9.518486251407206e-05,
      "loss": 3.9898,
      "step": 297920
    },
    {
      "epoch": 0.6206875,
      "grad_norm": 1.3540396690368652,
      "learning_rate": 9.517568592378352e-05,
      "loss": 3.9146,
      "step": 297930
    },
    {
      "epoch": 0.6207083333333333,
      "grad_norm": 1.047724723815918,
      "learning_rate": 9.516650957031432e-05,
      "loss": 3.9102,
      "step": 297940
    },
    {
      "epoch": 0.6207291666666667,
      "grad_norm": 1.0177887678146362,
      "learning_rate": 9.515733345370413e-05,
      "loss": 3.9467,
      "step": 297950
    },
    {
      "epoch": 0.62075,
      "grad_norm": 0.9921025037765503,
      "learning_rate": 9.514815757399253e-05,
      "loss": 3.729,
      "step": 297960
    },
    {
      "epoch": 0.6207708333333334,
      "grad_norm": 1.0802875757217407,
      "learning_rate": 9.513898193121919e-05,
      "loss": 3.9203,
      "step": 297970
    },
    {
      "epoch": 0.6207916666666666,
      "grad_norm": 1.1486517190933228,
      "learning_rate": 9.512980652542371e-05,
      "loss": 3.657,
      "step": 297980
    },
    {
      "epoch": 0.6208125,
      "grad_norm": 1.0972990989685059,
      "learning_rate": 9.512063135664575e-05,
      "loss": 3.838,
      "step": 297990
    },
    {
      "epoch": 0.6208333333333333,
      "grad_norm": 1.0372345447540283,
      "learning_rate": 9.511145642492497e-05,
      "loss": 3.962,
      "step": 298000
    },
    {
      "epoch": 0.6208333333333333,
      "eval_loss": 3.5754799842834473,
      "eval_runtime": 6.8951,
      "eval_samples_per_second": 1.45,
      "eval_steps_per_second": 0.435,
      "step": 298000
    },
    {
      "epoch": 0.6208541666666667,
      "grad_norm": 1.0713438987731934,
      "learning_rate": 9.510228173030092e-05,
      "loss": 3.8334,
      "step": 298010
    },
    {
      "epoch": 0.620875,
      "grad_norm": 1.1544876098632812,
      "learning_rate": 9.509310727281335e-05,
      "loss": 3.9026,
      "step": 298020
    },
    {
      "epoch": 0.6208958333333333,
      "grad_norm": 0.9802766442298889,
      "learning_rate": 9.508393305250178e-05,
      "loss": 4.0218,
      "step": 298030
    },
    {
      "epoch": 0.6209166666666667,
      "grad_norm": 1.2970508337020874,
      "learning_rate": 9.507475906940586e-05,
      "loss": 4.2407,
      "step": 298040
    },
    {
      "epoch": 0.6209375,
      "grad_norm": 1.0629128217697144,
      "learning_rate": 9.506558532356529e-05,
      "loss": 3.8996,
      "step": 298050
    },
    {
      "epoch": 0.6209583333333333,
      "grad_norm": 1.428800106048584,
      "learning_rate": 9.505641181501962e-05,
      "loss": 4.1029,
      "step": 298060
    },
    {
      "epoch": 0.6209791666666666,
      "grad_norm": 1.0417487621307373,
      "learning_rate": 9.504723854380847e-05,
      "loss": 3.8598,
      "step": 298070
    },
    {
      "epoch": 0.621,
      "grad_norm": 1.0434284210205078,
      "learning_rate": 9.503806550997157e-05,
      "loss": 3.561,
      "step": 298080
    },
    {
      "epoch": 0.6210208333333334,
      "grad_norm": 0.9935907125473022,
      "learning_rate": 9.502889271354844e-05,
      "loss": 3.9451,
      "step": 298090
    },
    {
      "epoch": 0.6210416666666667,
      "grad_norm": 1.049643635749817,
      "learning_rate": 9.501972015457868e-05,
      "loss": 4.1022,
      "step": 298100
    },
    {
      "epoch": 0.6210625,
      "grad_norm": 1.1034674644470215,
      "learning_rate": 9.501054783310207e-05,
      "loss": 3.9245,
      "step": 298110
    },
    {
      "epoch": 0.6210833333333333,
      "grad_norm": 1.064386010169983,
      "learning_rate": 9.500137574915809e-05,
      "loss": 3.9975,
      "step": 298120
    },
    {
      "epoch": 0.6211041666666667,
      "grad_norm": 1.0463128089904785,
      "learning_rate": 9.499220390278635e-05,
      "loss": 3.7876,
      "step": 298130
    },
    {
      "epoch": 0.621125,
      "grad_norm": 1.00509774684906,
      "learning_rate": 9.498303229402655e-05,
      "loss": 4.042,
      "step": 298140
    },
    {
      "epoch": 0.6211458333333333,
      "grad_norm": 1.1022076606750488,
      "learning_rate": 9.49738609229183e-05,
      "loss": 3.7748,
      "step": 298150
    },
    {
      "epoch": 0.6211666666666666,
      "grad_norm": 1.248037576675415,
      "learning_rate": 9.496468978950112e-05,
      "loss": 3.9682,
      "step": 298160
    },
    {
      "epoch": 0.6211875,
      "grad_norm": 1.0434976816177368,
      "learning_rate": 9.495551889381474e-05,
      "loss": 3.7899,
      "step": 298170
    },
    {
      "epoch": 0.6212083333333334,
      "grad_norm": 0.9967231154441833,
      "learning_rate": 9.494634823589874e-05,
      "loss": 4.0552,
      "step": 298180
    },
    {
      "epoch": 0.6212291666666667,
      "grad_norm": 0.9940873980522156,
      "learning_rate": 9.493717781579268e-05,
      "loss": 4.0527,
      "step": 298190
    },
    {
      "epoch": 0.62125,
      "grad_norm": 1.0456264019012451,
      "learning_rate": 9.492800763353626e-05,
      "loss": 4.0466,
      "step": 298200
    },
    {
      "epoch": 0.6212708333333333,
      "grad_norm": 1.1137250661849976,
      "learning_rate": 9.491883768916905e-05,
      "loss": 3.9618,
      "step": 298210
    },
    {
      "epoch": 0.6212916666666667,
      "grad_norm": 1.021702766418457,
      "learning_rate": 9.490966798273061e-05,
      "loss": 3.8934,
      "step": 298220
    },
    {
      "epoch": 0.6213125,
      "grad_norm": 1.0482516288757324,
      "learning_rate": 9.490049851426062e-05,
      "loss": 3.7144,
      "step": 298230
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 1.0544023513793945,
      "learning_rate": 9.48913292837987e-05,
      "loss": 4.0188,
      "step": 298240
    },
    {
      "epoch": 0.6213541666666667,
      "grad_norm": 0.995509684085846,
      "learning_rate": 9.488216029138444e-05,
      "loss": 3.9264,
      "step": 298250
    },
    {
      "epoch": 0.621375,
      "grad_norm": 1.075095295906067,
      "learning_rate": 9.487299153705736e-05,
      "loss": 4.0549,
      "step": 298260
    },
    {
      "epoch": 0.6213958333333334,
      "grad_norm": 0.9980832934379578,
      "learning_rate": 9.486382302085716e-05,
      "loss": 3.8811,
      "step": 298270
    },
    {
      "epoch": 0.6214166666666666,
      "grad_norm": 0.9817489385604858,
      "learning_rate": 9.485465474282346e-05,
      "loss": 3.9996,
      "step": 298280
    },
    {
      "epoch": 0.6214375,
      "grad_norm": 1.0427831411361694,
      "learning_rate": 9.484548670299575e-05,
      "loss": 3.9105,
      "step": 298290
    },
    {
      "epoch": 0.6214583333333333,
      "grad_norm": 0.9205410480499268,
      "learning_rate": 9.483631890141375e-05,
      "loss": 3.7628,
      "step": 298300
    },
    {
      "epoch": 0.6214791666666667,
      "grad_norm": 1.074809193611145,
      "learning_rate": 9.482715133811704e-05,
      "loss": 3.8821,
      "step": 298310
    },
    {
      "epoch": 0.6215,
      "grad_norm": 1.293439507484436,
      "learning_rate": 9.481798401314513e-05,
      "loss": 3.9659,
      "step": 298320
    },
    {
      "epoch": 0.6215208333333333,
      "grad_norm": 0.9734304547309875,
      "learning_rate": 9.480881692653775e-05,
      "loss": 3.8409,
      "step": 298330
    },
    {
      "epoch": 0.6215416666666667,
      "grad_norm": 0.9627418518066406,
      "learning_rate": 9.479965007833444e-05,
      "loss": 3.9352,
      "step": 298340
    },
    {
      "epoch": 0.6215625,
      "grad_norm": 1.0317935943603516,
      "learning_rate": 9.479048346857472e-05,
      "loss": 3.9772,
      "step": 298350
    },
    {
      "epoch": 0.6215833333333334,
      "grad_norm": 1.1490336656570435,
      "learning_rate": 9.47813170972983e-05,
      "loss": 3.8577,
      "step": 298360
    },
    {
      "epoch": 0.6216041666666666,
      "grad_norm": 1.087639331817627,
      "learning_rate": 9.477215096454476e-05,
      "loss": 3.9129,
      "step": 298370
    },
    {
      "epoch": 0.621625,
      "grad_norm": 1.1366771459579468,
      "learning_rate": 9.476298507035361e-05,
      "loss": 3.9827,
      "step": 298380
    },
    {
      "epoch": 0.6216458333333333,
      "grad_norm": 1.0369857549667358,
      "learning_rate": 9.475381941476456e-05,
      "loss": 3.963,
      "step": 298390
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 1.0387132167816162,
      "learning_rate": 9.474465399781711e-05,
      "loss": 3.817,
      "step": 298400
    },
    {
      "epoch": 0.6216875,
      "grad_norm": 1.8061491250991821,
      "learning_rate": 9.473548881955086e-05,
      "loss": 4.0564,
      "step": 298410
    },
    {
      "epoch": 0.6217083333333333,
      "grad_norm": 0.9610083699226379,
      "learning_rate": 9.472632388000547e-05,
      "loss": 3.8882,
      "step": 298420
    },
    {
      "epoch": 0.6217291666666667,
      "grad_norm": 1.1764521598815918,
      "learning_rate": 9.471715917922047e-05,
      "loss": 3.896,
      "step": 298430
    },
    {
      "epoch": 0.62175,
      "grad_norm": 1.0626049041748047,
      "learning_rate": 9.470799471723542e-05,
      "loss": 3.899,
      "step": 298440
    },
    {
      "epoch": 0.6217708333333334,
      "grad_norm": 0.9982131719589233,
      "learning_rate": 9.469883049409001e-05,
      "loss": 3.8345,
      "step": 298450
    },
    {
      "epoch": 0.6217916666666666,
      "grad_norm": 1.0559794902801514,
      "learning_rate": 9.468966650982372e-05,
      "loss": 3.8417,
      "step": 298460
    },
    {
      "epoch": 0.6218125,
      "grad_norm": 1.0031870603561401,
      "learning_rate": 9.468050276447615e-05,
      "loss": 3.9351,
      "step": 298470
    },
    {
      "epoch": 0.6218333333333333,
      "grad_norm": 1.0215486288070679,
      "learning_rate": 9.467133925808698e-05,
      "loss": 3.8293,
      "step": 298480
    },
    {
      "epoch": 0.6218541666666667,
      "grad_norm": 1.3242210149765015,
      "learning_rate": 9.466217599069569e-05,
      "loss": 3.9098,
      "step": 298490
    },
    {
      "epoch": 0.621875,
      "grad_norm": 1.03474760055542,
      "learning_rate": 9.465301296234188e-05,
      "loss": 3.9504,
      "step": 298500
    },
    {
      "epoch": 0.6218958333333333,
      "grad_norm": 1.1660654544830322,
      "learning_rate": 9.464385017306519e-05,
      "loss": 3.9625,
      "step": 298510
    },
    {
      "epoch": 0.6219166666666667,
      "grad_norm": 1.0793333053588867,
      "learning_rate": 9.463468762290516e-05,
      "loss": 3.873,
      "step": 298520
    },
    {
      "epoch": 0.6219375,
      "grad_norm": 1.0760750770568848,
      "learning_rate": 9.46255253119013e-05,
      "loss": 3.8383,
      "step": 298530
    },
    {
      "epoch": 0.6219583333333333,
      "grad_norm": 1.063081979751587,
      "learning_rate": 9.46163632400933e-05,
      "loss": 3.7818,
      "step": 298540
    },
    {
      "epoch": 0.6219791666666666,
      "grad_norm": 1.0609186887741089,
      "learning_rate": 9.460720140752069e-05,
      "loss": 3.8392,
      "step": 298550
    },
    {
      "epoch": 0.622,
      "grad_norm": 1.0364463329315186,
      "learning_rate": 9.459803981422304e-05,
      "loss": 3.779,
      "step": 298560
    },
    {
      "epoch": 0.6220208333333334,
      "grad_norm": 1.117185354232788,
      "learning_rate": 9.458887846023986e-05,
      "loss": 3.9969,
      "step": 298570
    },
    {
      "epoch": 0.6220416666666667,
      "grad_norm": 1.2075384855270386,
      "learning_rate": 9.457971734561091e-05,
      "loss": 3.9827,
      "step": 298580
    },
    {
      "epoch": 0.6220625,
      "grad_norm": 1.0817625522613525,
      "learning_rate": 9.457055647037557e-05,
      "loss": 3.8135,
      "step": 298590
    },
    {
      "epoch": 0.6220833333333333,
      "grad_norm": 0.9936408996582031,
      "learning_rate": 9.456139583457346e-05,
      "loss": 3.7542,
      "step": 298600
    },
    {
      "epoch": 0.6221041666666667,
      "grad_norm": 1.0676023960113525,
      "learning_rate": 9.455223543824426e-05,
      "loss": 3.7449,
      "step": 298610
    },
    {
      "epoch": 0.622125,
      "grad_norm": 1.1098315715789795,
      "learning_rate": 9.454307528142742e-05,
      "loss": 3.9273,
      "step": 298620
    },
    {
      "epoch": 0.6221458333333333,
      "grad_norm": 1.093586802482605,
      "learning_rate": 9.45339153641625e-05,
      "loss": 4.0113,
      "step": 298630
    },
    {
      "epoch": 0.6221666666666666,
      "grad_norm": 1.0322421789169312,
      "learning_rate": 9.452475568648915e-05,
      "loss": 4.0701,
      "step": 298640
    },
    {
      "epoch": 0.6221875,
      "grad_norm": 1.1963709592819214,
      "learning_rate": 9.451559624844692e-05,
      "loss": 4.002,
      "step": 298650
    },
    {
      "epoch": 0.6222083333333334,
      "grad_norm": 1.1075493097305298,
      "learning_rate": 9.45064370500753e-05,
      "loss": 3.7937,
      "step": 298660
    },
    {
      "epoch": 0.6222291666666667,
      "grad_norm": 1.1235445737838745,
      "learning_rate": 9.449727809141392e-05,
      "loss": 3.8327,
      "step": 298670
    },
    {
      "epoch": 0.62225,
      "grad_norm": 1.1152174472808838,
      "learning_rate": 9.448811937250237e-05,
      "loss": 3.8571,
      "step": 298680
    },
    {
      "epoch": 0.6222708333333333,
      "grad_norm": 1.2211239337921143,
      "learning_rate": 9.44789608933801e-05,
      "loss": 3.8409,
      "step": 298690
    },
    {
      "epoch": 0.6222916666666667,
      "grad_norm": 1.026889681816101,
      "learning_rate": 9.446980265408678e-05,
      "loss": 3.8843,
      "step": 298700
    },
    {
      "epoch": 0.6223125,
      "grad_norm": 1.083827018737793,
      "learning_rate": 9.446064465466197e-05,
      "loss": 4.1259,
      "step": 298710
    },
    {
      "epoch": 0.6223333333333333,
      "grad_norm": 1.0051690340042114,
      "learning_rate": 9.445148689514513e-05,
      "loss": 3.8743,
      "step": 298720
    },
    {
      "epoch": 0.6223541666666667,
      "grad_norm": 0.9819563627243042,
      "learning_rate": 9.444232937557589e-05,
      "loss": 3.7904,
      "step": 298730
    },
    {
      "epoch": 0.622375,
      "grad_norm": 1.3725594282150269,
      "learning_rate": 9.443317209599384e-05,
      "loss": 4.1311,
      "step": 298740
    },
    {
      "epoch": 0.6223958333333334,
      "grad_norm": 1.031113624572754,
      "learning_rate": 9.442401505643844e-05,
      "loss": 3.9321,
      "step": 298750
    },
    {
      "epoch": 0.6224166666666666,
      "grad_norm": 1.1028997898101807,
      "learning_rate": 9.441485825694934e-05,
      "loss": 3.828,
      "step": 298760
    },
    {
      "epoch": 0.6224375,
      "grad_norm": 0.9957293272018433,
      "learning_rate": 9.440570169756602e-05,
      "loss": 3.8857,
      "step": 298770
    },
    {
      "epoch": 0.6224583333333333,
      "grad_norm": 1.0227692127227783,
      "learning_rate": 9.439654537832804e-05,
      "loss": 3.751,
      "step": 298780
    },
    {
      "epoch": 0.6224791666666667,
      "grad_norm": 1.11747145652771,
      "learning_rate": 9.438738929927503e-05,
      "loss": 3.8188,
      "step": 298790
    },
    {
      "epoch": 0.6225,
      "grad_norm": 1.033221960067749,
      "learning_rate": 9.437823346044647e-05,
      "loss": 3.7324,
      "step": 298800
    },
    {
      "epoch": 0.6225208333333333,
      "grad_norm": 1.0739511251449585,
      "learning_rate": 9.436907786188189e-05,
      "loss": 3.9336,
      "step": 298810
    },
    {
      "epoch": 0.6225416666666667,
      "grad_norm": 1.1861028671264648,
      "learning_rate": 9.43599225036209e-05,
      "loss": 3.8808,
      "step": 298820
    },
    {
      "epoch": 0.6225625,
      "grad_norm": 1.1845084428787231,
      "learning_rate": 9.435076738570304e-05,
      "loss": 4.0682,
      "step": 298830
    },
    {
      "epoch": 0.6225833333333334,
      "grad_norm": 1.1103743314743042,
      "learning_rate": 9.434161250816785e-05,
      "loss": 3.5953,
      "step": 298840
    },
    {
      "epoch": 0.6226041666666666,
      "grad_norm": 1.0853458642959595,
      "learning_rate": 9.43324578710548e-05,
      "loss": 3.8922,
      "step": 298850
    },
    {
      "epoch": 0.622625,
      "grad_norm": 1.0171386003494263,
      "learning_rate": 9.432330347440352e-05,
      "loss": 3.7411,
      "step": 298860
    },
    {
      "epoch": 0.6226458333333333,
      "grad_norm": 1.10098135471344,
      "learning_rate": 9.431414931825357e-05,
      "loss": 3.9871,
      "step": 298870
    },
    {
      "epoch": 0.6226666666666667,
      "grad_norm": 1.132067322731018,
      "learning_rate": 9.430499540264438e-05,
      "loss": 3.8034,
      "step": 298880
    },
    {
      "epoch": 0.6226875,
      "grad_norm": 1.1468322277069092,
      "learning_rate": 9.429584172761565e-05,
      "loss": 3.7667,
      "step": 298890
    },
    {
      "epoch": 0.6227083333333333,
      "grad_norm": 1.0120469331741333,
      "learning_rate": 9.428668829320677e-05,
      "loss": 3.78,
      "step": 298900
    },
    {
      "epoch": 0.6227291666666667,
      "grad_norm": 1.1510522365570068,
      "learning_rate": 9.427753509945733e-05,
      "loss": 3.7353,
      "step": 298910
    },
    {
      "epoch": 0.62275,
      "grad_norm": 1.0109994411468506,
      "learning_rate": 9.426838214640694e-05,
      "loss": 3.8469,
      "step": 298920
    },
    {
      "epoch": 0.6227708333333334,
      "grad_norm": 1.039078712463379,
      "learning_rate": 9.425922943409507e-05,
      "loss": 3.8792,
      "step": 298930
    },
    {
      "epoch": 0.6227916666666666,
      "grad_norm": 1.040655493736267,
      "learning_rate": 9.425007696256122e-05,
      "loss": 3.9042,
      "step": 298940
    },
    {
      "epoch": 0.6228125,
      "grad_norm": 1.0973819494247437,
      "learning_rate": 9.424092473184502e-05,
      "loss": 3.884,
      "step": 298950
    },
    {
      "epoch": 0.6228333333333333,
      "grad_norm": 1.0423229932785034,
      "learning_rate": 9.423177274198595e-05,
      "loss": 4.0921,
      "step": 298960
    },
    {
      "epoch": 0.6228541666666667,
      "grad_norm": 1.2239413261413574,
      "learning_rate": 9.422262099302349e-05,
      "loss": 4.0544,
      "step": 298970
    },
    {
      "epoch": 0.622875,
      "grad_norm": 1.0181838274002075,
      "learning_rate": 9.421346948499729e-05,
      "loss": 3.6905,
      "step": 298980
    },
    {
      "epoch": 0.6228958333333333,
      "grad_norm": 1.156538486480713,
      "learning_rate": 9.420431821794679e-05,
      "loss": 3.8589,
      "step": 298990
    },
    {
      "epoch": 0.6229166666666667,
      "grad_norm": 1.2571289539337158,
      "learning_rate": 9.419516719191152e-05,
      "loss": 3.9529,
      "step": 299000
    },
    {
      "epoch": 0.6229166666666667,
      "eval_loss": 3.569810390472412,
      "eval_runtime": 6.8167,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.44,
      "step": 299000
    },
    {
      "epoch": 0.6229375,
      "grad_norm": 1.0290517807006836,
      "learning_rate": 9.418601640693113e-05,
      "loss": 3.8399,
      "step": 299010
    },
    {
      "epoch": 0.6229583333333333,
      "grad_norm": 1.0769643783569336,
      "learning_rate": 9.417686586304503e-05,
      "loss": 3.8404,
      "step": 299020
    },
    {
      "epoch": 0.6229791666666666,
      "grad_norm": 1.0349793434143066,
      "learning_rate": 9.416771556029271e-05,
      "loss": 3.8654,
      "step": 299030
    },
    {
      "epoch": 0.623,
      "grad_norm": 1.454138159751892,
      "learning_rate": 9.415856549871379e-05,
      "loss": 3.8396,
      "step": 299040
    },
    {
      "epoch": 0.6230208333333334,
      "grad_norm": 1.116745948791504,
      "learning_rate": 9.414941567834782e-05,
      "loss": 3.7339,
      "step": 299050
    },
    {
      "epoch": 0.6230416666666667,
      "grad_norm": 1.5430907011032104,
      "learning_rate": 9.414026609923416e-05,
      "loss": 3.8743,
      "step": 299060
    },
    {
      "epoch": 0.6230625,
      "grad_norm": 1.1781368255615234,
      "learning_rate": 9.41311167614125e-05,
      "loss": 3.8368,
      "step": 299070
    },
    {
      "epoch": 0.6230833333333333,
      "grad_norm": 0.9656921625137329,
      "learning_rate": 9.412196766492236e-05,
      "loss": 3.7868,
      "step": 299080
    },
    {
      "epoch": 0.6231041666666667,
      "grad_norm": 1.0709933042526245,
      "learning_rate": 9.411281880980309e-05,
      "loss": 3.7964,
      "step": 299090
    },
    {
      "epoch": 0.623125,
      "grad_norm": 1.1682946681976318,
      "learning_rate": 9.410367019609436e-05,
      "loss": 3.8822,
      "step": 299100
    },
    {
      "epoch": 0.6231458333333333,
      "grad_norm": 1.0201154947280884,
      "learning_rate": 9.409452182383569e-05,
      "loss": 4.0703,
      "step": 299110
    },
    {
      "epoch": 0.6231666666666666,
      "grad_norm": 1.1547694206237793,
      "learning_rate": 9.40853736930665e-05,
      "loss": 3.7892,
      "step": 299120
    },
    {
      "epoch": 0.6231875,
      "grad_norm": 1.122431755065918,
      "learning_rate": 9.407622580382641e-05,
      "loss": 4.0921,
      "step": 299130
    },
    {
      "epoch": 0.6232083333333334,
      "grad_norm": 1.032413363456726,
      "learning_rate": 9.406707815615488e-05,
      "loss": 4.0138,
      "step": 299140
    },
    {
      "epoch": 0.6232291666666666,
      "grad_norm": 1.0238763093948364,
      "learning_rate": 9.405793075009143e-05,
      "loss": 3.8934,
      "step": 299150
    },
    {
      "epoch": 0.62325,
      "grad_norm": 1.1467185020446777,
      "learning_rate": 9.404878358567556e-05,
      "loss": 3.9116,
      "step": 299160
    },
    {
      "epoch": 0.6232708333333333,
      "grad_norm": 1.2051118612289429,
      "learning_rate": 9.403963666294678e-05,
      "loss": 4.0807,
      "step": 299170
    },
    {
      "epoch": 0.6232916666666667,
      "grad_norm": 1.0413331985473633,
      "learning_rate": 9.403048998194467e-05,
      "loss": 3.9666,
      "step": 299180
    },
    {
      "epoch": 0.6233125,
      "grad_norm": 1.109498381614685,
      "learning_rate": 9.402134354270864e-05,
      "loss": 4.0862,
      "step": 299190
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 1.0198853015899658,
      "learning_rate": 9.401219734527828e-05,
      "loss": 3.8355,
      "step": 299200
    },
    {
      "epoch": 0.6233541666666667,
      "grad_norm": 1.0556620359420776,
      "learning_rate": 9.400305138969308e-05,
      "loss": 3.9527,
      "step": 299210
    },
    {
      "epoch": 0.623375,
      "grad_norm": 1.009556770324707,
      "learning_rate": 9.399390567599249e-05,
      "loss": 3.8514,
      "step": 299220
    },
    {
      "epoch": 0.6233958333333334,
      "grad_norm": 1.0699450969696045,
      "learning_rate": 9.398476020421606e-05,
      "loss": 3.8694,
      "step": 299230
    },
    {
      "epoch": 0.6234166666666666,
      "grad_norm": 1.0809141397476196,
      "learning_rate": 9.397561497440334e-05,
      "loss": 3.8219,
      "step": 299240
    },
    {
      "epoch": 0.6234375,
      "grad_norm": 1.1145081520080566,
      "learning_rate": 9.396646998659374e-05,
      "loss": 3.9311,
      "step": 299250
    },
    {
      "epoch": 0.6234583333333333,
      "grad_norm": 0.998493492603302,
      "learning_rate": 9.395732524082685e-05,
      "loss": 3.8029,
      "step": 299260
    },
    {
      "epoch": 0.6234791666666667,
      "grad_norm": 1.100131630897522,
      "learning_rate": 9.39481807371421e-05,
      "loss": 3.9557,
      "step": 299270
    },
    {
      "epoch": 0.6235,
      "grad_norm": 1.125072717666626,
      "learning_rate": 9.393903647557902e-05,
      "loss": 4.1291,
      "step": 299280
    },
    {
      "epoch": 0.6235208333333333,
      "grad_norm": 1.0315780639648438,
      "learning_rate": 9.392989245617716e-05,
      "loss": 3.8903,
      "step": 299290
    },
    {
      "epoch": 0.6235416666666667,
      "grad_norm": 1.132737398147583,
      "learning_rate": 9.392074867897592e-05,
      "loss": 3.8801,
      "step": 299300
    },
    {
      "epoch": 0.6235625,
      "grad_norm": 1.1496341228485107,
      "learning_rate": 9.391160514401484e-05,
      "loss": 3.8449,
      "step": 299310
    },
    {
      "epoch": 0.6235833333333334,
      "grad_norm": 1.0397225618362427,
      "learning_rate": 9.390246185133346e-05,
      "loss": 4.0132,
      "step": 299320
    },
    {
      "epoch": 0.6236041666666666,
      "grad_norm": 1.0057884454727173,
      "learning_rate": 9.389331880097125e-05,
      "loss": 3.89,
      "step": 299330
    },
    {
      "epoch": 0.623625,
      "grad_norm": 1.0272210836410522,
      "learning_rate": 9.388417599296763e-05,
      "loss": 3.6841,
      "step": 299340
    },
    {
      "epoch": 0.6236458333333333,
      "grad_norm": 1.074994683265686,
      "learning_rate": 9.387503342736223e-05,
      "loss": 3.9016,
      "step": 299350
    },
    {
      "epoch": 0.6236666666666667,
      "grad_norm": 1.083606243133545,
      "learning_rate": 9.386589110419445e-05,
      "loss": 3.9559,
      "step": 299360
    },
    {
      "epoch": 0.6236875,
      "grad_norm": 1.0451582670211792,
      "learning_rate": 9.385674902350375e-05,
      "loss": 3.949,
      "step": 299370
    },
    {
      "epoch": 0.6237083333333333,
      "grad_norm": 1.1012818813323975,
      "learning_rate": 9.384760718532974e-05,
      "loss": 3.7687,
      "step": 299380
    },
    {
      "epoch": 0.6237291666666667,
      "grad_norm": 0.9900791645050049,
      "learning_rate": 9.383846558971184e-05,
      "loss": 4.1506,
      "step": 299390
    },
    {
      "epoch": 0.62375,
      "grad_norm": 1.0764973163604736,
      "learning_rate": 9.382932423668947e-05,
      "loss": 3.6931,
      "step": 299400
    },
    {
      "epoch": 0.6237708333333334,
      "grad_norm": 1.0675346851348877,
      "learning_rate": 9.382018312630224e-05,
      "loss": 3.8052,
      "step": 299410
    },
    {
      "epoch": 0.6237916666666666,
      "grad_norm": 1.0129975080490112,
      "learning_rate": 9.381104225858959e-05,
      "loss": 3.7955,
      "step": 299420
    },
    {
      "epoch": 0.6238125,
      "grad_norm": 1.298740029335022,
      "learning_rate": 9.380190163359097e-05,
      "loss": 3.8809,
      "step": 299430
    },
    {
      "epoch": 0.6238333333333334,
      "grad_norm": 1.5721815824508667,
      "learning_rate": 9.379276125134585e-05,
      "loss": 4.0683,
      "step": 299440
    },
    {
      "epoch": 0.6238541666666667,
      "grad_norm": 1.1272238492965698,
      "learning_rate": 9.378362111189383e-05,
      "loss": 3.8075,
      "step": 299450
    },
    {
      "epoch": 0.623875,
      "grad_norm": 1.1892178058624268,
      "learning_rate": 9.377448121527428e-05,
      "loss": 3.9457,
      "step": 299460
    },
    {
      "epoch": 0.6238958333333333,
      "grad_norm": 1.0706120729446411,
      "learning_rate": 9.376534156152668e-05,
      "loss": 3.9118,
      "step": 299470
    },
    {
      "epoch": 0.6239166666666667,
      "grad_norm": 1.050140142440796,
      "learning_rate": 9.375620215069062e-05,
      "loss": 3.9848,
      "step": 299480
    },
    {
      "epoch": 0.6239375,
      "grad_norm": 1.022660255432129,
      "learning_rate": 9.37470629828055e-05,
      "loss": 3.8655,
      "step": 299490
    },
    {
      "epoch": 0.6239583333333333,
      "grad_norm": 1.1254013776779175,
      "learning_rate": 9.37379240579107e-05,
      "loss": 3.8826,
      "step": 299500
    },
    {
      "epoch": 0.6239791666666666,
      "grad_norm": 1.0590558052062988,
      "learning_rate": 9.372878537604589e-05,
      "loss": 3.9015,
      "step": 299510
    },
    {
      "epoch": 0.624,
      "grad_norm": 1.020457148551941,
      "learning_rate": 9.371964693725046e-05,
      "loss": 3.8533,
      "step": 299520
    },
    {
      "epoch": 0.6240208333333334,
      "grad_norm": 1.0779980421066284,
      "learning_rate": 9.371050874156382e-05,
      "loss": 4.0465,
      "step": 299530
    },
    {
      "epoch": 0.6240416666666667,
      "grad_norm": 1.1344778537750244,
      "learning_rate": 9.370137078902552e-05,
      "loss": 3.9307,
      "step": 299540
    },
    {
      "epoch": 0.6240625,
      "grad_norm": 1.0197994709014893,
      "learning_rate": 9.369223307967505e-05,
      "loss": 3.8306,
      "step": 299550
    },
    {
      "epoch": 0.6240833333333333,
      "grad_norm": 1.0692576169967651,
      "learning_rate": 9.368309561355179e-05,
      "loss": 4.0932,
      "step": 299560
    },
    {
      "epoch": 0.6241041666666667,
      "grad_norm": 0.9564883708953857,
      "learning_rate": 9.367395839069529e-05,
      "loss": 3.8523,
      "step": 299570
    },
    {
      "epoch": 0.624125,
      "grad_norm": 1.1222753524780273,
      "learning_rate": 9.366482141114502e-05,
      "loss": 4.0068,
      "step": 299580
    },
    {
      "epoch": 0.6241458333333333,
      "grad_norm": 1.0794856548309326,
      "learning_rate": 9.365568467494038e-05,
      "loss": 3.9019,
      "step": 299590
    },
    {
      "epoch": 0.6241666666666666,
      "grad_norm": 1.2162035703659058,
      "learning_rate": 9.36465481821209e-05,
      "loss": 3.8457,
      "step": 299600
    },
    {
      "epoch": 0.6241875,
      "grad_norm": 1.0066781044006348,
      "learning_rate": 9.363741193272605e-05,
      "loss": 3.852,
      "step": 299610
    },
    {
      "epoch": 0.6242083333333334,
      "grad_norm": 1.1697759628295898,
      "learning_rate": 9.36282759267952e-05,
      "loss": 3.8963,
      "step": 299620
    },
    {
      "epoch": 0.6242291666666666,
      "grad_norm": 1.0360982418060303,
      "learning_rate": 9.361914016436797e-05,
      "loss": 3.9494,
      "step": 299630
    },
    {
      "epoch": 0.62425,
      "grad_norm": 1.0948630571365356,
      "learning_rate": 9.361000464548371e-05,
      "loss": 3.958,
      "step": 299640
    },
    {
      "epoch": 0.6242708333333333,
      "grad_norm": 0.9790087342262268,
      "learning_rate": 9.360086937018185e-05,
      "loss": 3.8056,
      "step": 299650
    },
    {
      "epoch": 0.6242916666666667,
      "grad_norm": 1.0584619045257568,
      "learning_rate": 9.359173433850199e-05,
      "loss": 3.9681,
      "step": 299660
    },
    {
      "epoch": 0.6243125,
      "grad_norm": 1.1391764879226685,
      "learning_rate": 9.358259955048346e-05,
      "loss": 4.0508,
      "step": 299670
    },
    {
      "epoch": 0.6243333333333333,
      "grad_norm": 1.029628872871399,
      "learning_rate": 9.357346500616575e-05,
      "loss": 3.767,
      "step": 299680
    },
    {
      "epoch": 0.6243541666666667,
      "grad_norm": 1.1352958679199219,
      "learning_rate": 9.356433070558842e-05,
      "loss": 3.8262,
      "step": 299690
    },
    {
      "epoch": 0.624375,
      "grad_norm": 0.9815731644630432,
      "learning_rate": 9.355519664879078e-05,
      "loss": 3.8459,
      "step": 299700
    },
    {
      "epoch": 0.6243958333333334,
      "grad_norm": 1.0965920686721802,
      "learning_rate": 9.354606283581232e-05,
      "loss": 3.9503,
      "step": 299710
    },
    {
      "epoch": 0.6244166666666666,
      "grad_norm": 1.0222759246826172,
      "learning_rate": 9.35369292666926e-05,
      "loss": 3.9497,
      "step": 299720
    },
    {
      "epoch": 0.6244375,
      "grad_norm": 1.049843430519104,
      "learning_rate": 9.352779594147096e-05,
      "loss": 3.7683,
      "step": 299730
    },
    {
      "epoch": 0.6244583333333333,
      "grad_norm": 1.0094928741455078,
      "learning_rate": 9.351866286018691e-05,
      "loss": 3.9828,
      "step": 299740
    },
    {
      "epoch": 0.6244791666666667,
      "grad_norm": 1.252485752105713,
      "learning_rate": 9.350953002287984e-05,
      "loss": 3.9501,
      "step": 299750
    },
    {
      "epoch": 0.6245,
      "grad_norm": 1.130332350730896,
      "learning_rate": 9.350039742958927e-05,
      "loss": 4.0417,
      "step": 299760
    },
    {
      "epoch": 0.6245208333333333,
      "grad_norm": 1.0296283960342407,
      "learning_rate": 9.349126508035462e-05,
      "loss": 3.9467,
      "step": 299770
    },
    {
      "epoch": 0.6245416666666667,
      "grad_norm": 1.430730938911438,
      "learning_rate": 9.348213297521527e-05,
      "loss": 3.9237,
      "step": 299780
    },
    {
      "epoch": 0.6245625,
      "grad_norm": 1.096874475479126,
      "learning_rate": 9.347300111421083e-05,
      "loss": 3.7849,
      "step": 299790
    },
    {
      "epoch": 0.6245833333333334,
      "grad_norm": 1.199426531791687,
      "learning_rate": 9.34638694973806e-05,
      "loss": 3.9326,
      "step": 299800
    },
    {
      "epoch": 0.6246041666666666,
      "grad_norm": 1.1280581951141357,
      "learning_rate": 9.345473812476406e-05,
      "loss": 3.8716,
      "step": 299810
    },
    {
      "epoch": 0.624625,
      "grad_norm": 1.2140874862670898,
      "learning_rate": 9.34456069964007e-05,
      "loss": 3.7813,
      "step": 299820
    },
    {
      "epoch": 0.6246458333333333,
      "grad_norm": 1.074461579322815,
      "learning_rate": 9.343647611232993e-05,
      "loss": 3.9209,
      "step": 299830
    },
    {
      "epoch": 0.6246666666666667,
      "grad_norm": 1.0784090757369995,
      "learning_rate": 9.342734547259115e-05,
      "loss": 4.1956,
      "step": 299840
    },
    {
      "epoch": 0.6246875,
      "grad_norm": 1.086907982826233,
      "learning_rate": 9.341821507722391e-05,
      "loss": 3.9655,
      "step": 299850
    },
    {
      "epoch": 0.6247083333333333,
      "grad_norm": 1.1813870668411255,
      "learning_rate": 9.340908492626757e-05,
      "loss": 3.8592,
      "step": 299860
    },
    {
      "epoch": 0.6247291666666667,
      "grad_norm": 1.0536638498306274,
      "learning_rate": 9.339995501976153e-05,
      "loss": 3.7753,
      "step": 299870
    },
    {
      "epoch": 0.62475,
      "grad_norm": 1.1040929555892944,
      "learning_rate": 9.339082535774535e-05,
      "loss": 3.8333,
      "step": 299880
    },
    {
      "epoch": 0.6247708333333334,
      "grad_norm": 1.074380874633789,
      "learning_rate": 9.338169594025839e-05,
      "loss": 3.8491,
      "step": 299890
    },
    {
      "epoch": 0.6247916666666666,
      "grad_norm": 1.1560187339782715,
      "learning_rate": 9.337256676734004e-05,
      "loss": 3.9169,
      "step": 299900
    },
    {
      "epoch": 0.6248125,
      "grad_norm": 1.13740074634552,
      "learning_rate": 9.336343783902982e-05,
      "loss": 3.8172,
      "step": 299910
    },
    {
      "epoch": 0.6248333333333334,
      "grad_norm": 1.0206669569015503,
      "learning_rate": 9.335430915536717e-05,
      "loss": 3.9666,
      "step": 299920
    },
    {
      "epoch": 0.6248541666666667,
      "grad_norm": 1.0574232339859009,
      "learning_rate": 9.334518071639139e-05,
      "loss": 4.0051,
      "step": 299930
    },
    {
      "epoch": 0.624875,
      "grad_norm": 0.9777052998542786,
      "learning_rate": 9.333605252214205e-05,
      "loss": 3.8243,
      "step": 299940
    },
    {
      "epoch": 0.6248958333333333,
      "grad_norm": 1.0780816078186035,
      "learning_rate": 9.332692457265858e-05,
      "loss": 3.9024,
      "step": 299950
    },
    {
      "epoch": 0.6249166666666667,
      "grad_norm": 1.291047215461731,
      "learning_rate": 9.33177968679803e-05,
      "loss": 3.7289,
      "step": 299960
    },
    {
      "epoch": 0.6249375,
      "grad_norm": 1.087539553642273,
      "learning_rate": 9.330866940814671e-05,
      "loss": 3.939,
      "step": 299970
    },
    {
      "epoch": 0.6249583333333333,
      "grad_norm": 1.216496467590332,
      "learning_rate": 9.329954219319726e-05,
      "loss": 3.8023,
      "step": 299980
    },
    {
      "epoch": 0.6249791666666666,
      "grad_norm": 1.080453872680664,
      "learning_rate": 9.329041522317129e-05,
      "loss": 3.8159,
      "step": 299990
    },
    {
      "epoch": 0.625,
      "grad_norm": 1.047838807106018,
      "learning_rate": 9.32812884981083e-05,
      "loss": 3.7928,
      "step": 300000
    },
    {
      "epoch": 0.625,
      "eval_loss": 3.573530673980713,
      "eval_runtime": 7.2766,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 300000
    },
    {
      "epoch": 0.6250208333333334,
      "grad_norm": 1.2100480794906616,
      "learning_rate": 9.327216201804774e-05,
      "loss": 4.0241,
      "step": 300010
    },
    {
      "epoch": 0.6250416666666667,
      "grad_norm": 1.0642166137695312,
      "learning_rate": 9.326303578302897e-05,
      "loss": 3.839,
      "step": 300020
    },
    {
      "epoch": 0.6250625,
      "grad_norm": 0.9781809449195862,
      "learning_rate": 9.325390979309139e-05,
      "loss": 3.8457,
      "step": 300030
    },
    {
      "epoch": 0.6250833333333333,
      "grad_norm": 1.5704751014709473,
      "learning_rate": 9.324478404827448e-05,
      "loss": 3.9885,
      "step": 300040
    },
    {
      "epoch": 0.6251041666666667,
      "grad_norm": 1.0569419860839844,
      "learning_rate": 9.323565854861765e-05,
      "loss": 3.8713,
      "step": 300050
    },
    {
      "epoch": 0.625125,
      "grad_norm": 1.0556389093399048,
      "learning_rate": 9.322653329416026e-05,
      "loss": 3.7731,
      "step": 300060
    },
    {
      "epoch": 0.6251458333333333,
      "grad_norm": 1.822946548461914,
      "learning_rate": 9.32174082849418e-05,
      "loss": 3.9219,
      "step": 300070
    },
    {
      "epoch": 0.6251666666666666,
      "grad_norm": 0.9938767552375793,
      "learning_rate": 9.32082835210017e-05,
      "loss": 3.6386,
      "step": 300080
    },
    {
      "epoch": 0.6251875,
      "grad_norm": 1.103261947631836,
      "learning_rate": 9.319915900237926e-05,
      "loss": 3.8975,
      "step": 300090
    },
    {
      "epoch": 0.6252083333333334,
      "grad_norm": 1.0384007692337036,
      "learning_rate": 9.3190034729114e-05,
      "loss": 4.0191,
      "step": 300100
    },
    {
      "epoch": 0.6252291666666666,
      "grad_norm": 1.2500107288360596,
      "learning_rate": 9.318091070124536e-05,
      "loss": 3.8961,
      "step": 300110
    },
    {
      "epoch": 0.62525,
      "grad_norm": 0.9745586514472961,
      "learning_rate": 9.31717869188126e-05,
      "loss": 3.8049,
      "step": 300120
    },
    {
      "epoch": 0.6252708333333333,
      "grad_norm": 1.1705126762390137,
      "learning_rate": 9.316266338185532e-05,
      "loss": 3.7426,
      "step": 300130
    },
    {
      "epoch": 0.6252916666666667,
      "grad_norm": 1.155015230178833,
      "learning_rate": 9.315354009041278e-05,
      "loss": 3.8467,
      "step": 300140
    },
    {
      "epoch": 0.6253125,
      "grad_norm": 1.1451854705810547,
      "learning_rate": 9.314441704452442e-05,
      "loss": 3.8138,
      "step": 300150
    },
    {
      "epoch": 0.6253333333333333,
      "grad_norm": 0.9883429408073425,
      "learning_rate": 9.313529424422974e-05,
      "loss": 3.7786,
      "step": 300160
    },
    {
      "epoch": 0.6253541666666667,
      "grad_norm": 1.0799474716186523,
      "learning_rate": 9.312617168956804e-05,
      "loss": 3.8879,
      "step": 300170
    },
    {
      "epoch": 0.625375,
      "grad_norm": 1.0643255710601807,
      "learning_rate": 9.311704938057874e-05,
      "loss": 3.8119,
      "step": 300180
    },
    {
      "epoch": 0.6253958333333334,
      "grad_norm": 1.036844253540039,
      "learning_rate": 9.310792731730134e-05,
      "loss": 3.9695,
      "step": 300190
    },
    {
      "epoch": 0.6254166666666666,
      "grad_norm": 1.0061390399932861,
      "learning_rate": 9.309880549977513e-05,
      "loss": 3.9163,
      "step": 300200
    },
    {
      "epoch": 0.6254375,
      "grad_norm": 1.0930448770523071,
      "learning_rate": 9.308968392803954e-05,
      "loss": 3.7379,
      "step": 300210
    },
    {
      "epoch": 0.6254583333333333,
      "grad_norm": 1.0739030838012695,
      "learning_rate": 9.308056260213405e-05,
      "loss": 4.1245,
      "step": 300220
    },
    {
      "epoch": 0.6254791666666667,
      "grad_norm": 1.0410029888153076,
      "learning_rate": 9.307144152209795e-05,
      "loss": 4.0672,
      "step": 300230
    },
    {
      "epoch": 0.6255,
      "grad_norm": 1.0009446144104004,
      "learning_rate": 9.30623206879707e-05,
      "loss": 3.8664,
      "step": 300240
    },
    {
      "epoch": 0.6255208333333333,
      "grad_norm": 1.0596230030059814,
      "learning_rate": 9.305320009979171e-05,
      "loss": 3.7604,
      "step": 300250
    },
    {
      "epoch": 0.6255416666666667,
      "grad_norm": 1.108980417251587,
      "learning_rate": 9.304407975760036e-05,
      "loss": 3.9413,
      "step": 300260
    },
    {
      "epoch": 0.6255625,
      "grad_norm": 1.0039156675338745,
      "learning_rate": 9.303495966143599e-05,
      "loss": 3.8256,
      "step": 300270
    },
    {
      "epoch": 0.6255833333333334,
      "grad_norm": 1.0116465091705322,
      "learning_rate": 9.302583981133808e-05,
      "loss": 3.8362,
      "step": 300280
    },
    {
      "epoch": 0.6256041666666666,
      "grad_norm": 1.2549824714660645,
      "learning_rate": 9.301672020734601e-05,
      "loss": 3.9516,
      "step": 300290
    },
    {
      "epoch": 0.625625,
      "grad_norm": 1.0062792301177979,
      "learning_rate": 9.300760084949907e-05,
      "loss": 3.9436,
      "step": 300300
    },
    {
      "epoch": 0.6256458333333333,
      "grad_norm": 1.0599206686019897,
      "learning_rate": 9.29984817378368e-05,
      "loss": 3.944,
      "step": 300310
    },
    {
      "epoch": 0.6256666666666667,
      "grad_norm": 1.122854471206665,
      "learning_rate": 9.298936287239855e-05,
      "loss": 3.9079,
      "step": 300320
    },
    {
      "epoch": 0.6256875,
      "grad_norm": 0.9964835047721863,
      "learning_rate": 9.298024425322365e-05,
      "loss": 4.0095,
      "step": 300330
    },
    {
      "epoch": 0.6257083333333333,
      "grad_norm": 1.056926965713501,
      "learning_rate": 9.29711258803515e-05,
      "loss": 3.7353,
      "step": 300340
    },
    {
      "epoch": 0.6257291666666667,
      "grad_norm": 1.2229692935943604,
      "learning_rate": 9.296200775382157e-05,
      "loss": 3.8653,
      "step": 300350
    },
    {
      "epoch": 0.62575,
      "grad_norm": 1.220201849937439,
      "learning_rate": 9.295288987367314e-05,
      "loss": 3.9795,
      "step": 300360
    },
    {
      "epoch": 0.6257708333333334,
      "grad_norm": 1.0102547407150269,
      "learning_rate": 9.294377223994566e-05,
      "loss": 3.8223,
      "step": 300370
    },
    {
      "epoch": 0.6257916666666666,
      "grad_norm": 1.030021071434021,
      "learning_rate": 9.293465485267853e-05,
      "loss": 3.8928,
      "step": 300380
    },
    {
      "epoch": 0.6258125,
      "grad_norm": 1.077928900718689,
      "learning_rate": 9.29255377119111e-05,
      "loss": 4.1075,
      "step": 300390
    },
    {
      "epoch": 0.6258333333333334,
      "grad_norm": 0.9946747422218323,
      "learning_rate": 9.291642081768269e-05,
      "loss": 3.8894,
      "step": 300400
    },
    {
      "epoch": 0.6258541666666667,
      "grad_norm": 1.057968258857727,
      "learning_rate": 9.29073041700328e-05,
      "loss": 3.7757,
      "step": 300410
    },
    {
      "epoch": 0.625875,
      "grad_norm": 1.4372469186782837,
      "learning_rate": 9.289818776900076e-05,
      "loss": 4.0644,
      "step": 300420
    },
    {
      "epoch": 0.6258958333333333,
      "grad_norm": 0.9822030067443848,
      "learning_rate": 9.288907161462592e-05,
      "loss": 3.6882,
      "step": 300430
    },
    {
      "epoch": 0.6259166666666667,
      "grad_norm": 0.9730981588363647,
      "learning_rate": 9.287995570694769e-05,
      "loss": 3.8418,
      "step": 300440
    },
    {
      "epoch": 0.6259375,
      "grad_norm": 1.2272754907608032,
      "learning_rate": 9.287084004600548e-05,
      "loss": 3.8274,
      "step": 300450
    },
    {
      "epoch": 0.6259583333333333,
      "grad_norm": 0.9906727075576782,
      "learning_rate": 9.286172463183856e-05,
      "loss": 3.8564,
      "step": 300460
    },
    {
      "epoch": 0.6259791666666666,
      "grad_norm": 1.0131357908248901,
      "learning_rate": 9.285260946448642e-05,
      "loss": 3.8524,
      "step": 300470
    },
    {
      "epoch": 0.626,
      "grad_norm": 1.1336673498153687,
      "learning_rate": 9.284349454398841e-05,
      "loss": 3.9371,
      "step": 300480
    },
    {
      "epoch": 0.6260208333333334,
      "grad_norm": 1.0900695323944092,
      "learning_rate": 9.28343798703838e-05,
      "loss": 3.6303,
      "step": 300490
    },
    {
      "epoch": 0.6260416666666667,
      "grad_norm": 1.0835270881652832,
      "learning_rate": 9.282526544371207e-05,
      "loss": 3.902,
      "step": 300500
    },
    {
      "epoch": 0.6260625,
      "grad_norm": 0.9469926357269287,
      "learning_rate": 9.281615126401261e-05,
      "loss": 3.9971,
      "step": 300510
    },
    {
      "epoch": 0.6260833333333333,
      "grad_norm": 1.0553454160690308,
      "learning_rate": 9.280703733132468e-05,
      "loss": 3.8885,
      "step": 300520
    },
    {
      "epoch": 0.6261041666666667,
      "grad_norm": 1.023593783378601,
      "learning_rate": 9.279792364568778e-05,
      "loss": 3.9438,
      "step": 300530
    },
    {
      "epoch": 0.626125,
      "grad_norm": 1.2060770988464355,
      "learning_rate": 9.278881020714116e-05,
      "loss": 3.8188,
      "step": 300540
    },
    {
      "epoch": 0.6261458333333333,
      "grad_norm": 1.0127263069152832,
      "learning_rate": 9.277969701572422e-05,
      "loss": 3.9565,
      "step": 300550
    },
    {
      "epoch": 0.6261666666666666,
      "grad_norm": 1.1125829219818115,
      "learning_rate": 9.277058407147639e-05,
      "loss": 3.7895,
      "step": 300560
    },
    {
      "epoch": 0.6261875,
      "grad_norm": 1.2119253873825073,
      "learning_rate": 9.276147137443696e-05,
      "loss": 4.0408,
      "step": 300570
    },
    {
      "epoch": 0.6262083333333334,
      "grad_norm": 0.9844139814376831,
      "learning_rate": 9.275235892464528e-05,
      "loss": 4.0295,
      "step": 300580
    },
    {
      "epoch": 0.6262291666666666,
      "grad_norm": 1.5174708366394043,
      "learning_rate": 9.274324672214081e-05,
      "loss": 3.8027,
      "step": 300590
    },
    {
      "epoch": 0.62625,
      "grad_norm": 0.9941247701644897,
      "learning_rate": 9.273413476696282e-05,
      "loss": 4.1082,
      "step": 300600
    },
    {
      "epoch": 0.6262708333333333,
      "grad_norm": 1.1213876008987427,
      "learning_rate": 9.272502305915073e-05,
      "loss": 3.7426,
      "step": 300610
    },
    {
      "epoch": 0.6262916666666667,
      "grad_norm": 1.007555365562439,
      "learning_rate": 9.27159115987438e-05,
      "loss": 3.9234,
      "step": 300620
    },
    {
      "epoch": 0.6263125,
      "grad_norm": 1.0857535600662231,
      "learning_rate": 9.270680038578153e-05,
      "loss": 3.925,
      "step": 300630
    },
    {
      "epoch": 0.6263333333333333,
      "grad_norm": 1.0243475437164307,
      "learning_rate": 9.269768942030316e-05,
      "loss": 4.0112,
      "step": 300640
    },
    {
      "epoch": 0.6263541666666667,
      "grad_norm": 1.0486465692520142,
      "learning_rate": 9.268857870234809e-05,
      "loss": 3.9567,
      "step": 300650
    },
    {
      "epoch": 0.626375,
      "grad_norm": 4.442131519317627,
      "learning_rate": 9.267946823195572e-05,
      "loss": 3.7865,
      "step": 300660
    },
    {
      "epoch": 0.6263958333333334,
      "grad_norm": 1.384218692779541,
      "learning_rate": 9.267035800916533e-05,
      "loss": 3.8484,
      "step": 300670
    },
    {
      "epoch": 0.6264166666666666,
      "grad_norm": 1.0961565971374512,
      "learning_rate": 9.266124803401624e-05,
      "loss": 3.8492,
      "step": 300680
    },
    {
      "epoch": 0.6264375,
      "grad_norm": 0.9970787763595581,
      "learning_rate": 9.265213830654797e-05,
      "loss": 3.8631,
      "step": 300690
    },
    {
      "epoch": 0.6264583333333333,
      "grad_norm": 1.1494437456130981,
      "learning_rate": 9.264302882679971e-05,
      "loss": 3.8357,
      "step": 300700
    },
    {
      "epoch": 0.6264791666666667,
      "grad_norm": 1.0177459716796875,
      "learning_rate": 9.263391959481084e-05,
      "loss": 4.0257,
      "step": 300710
    },
    {
      "epoch": 0.6265,
      "grad_norm": 1.0298371315002441,
      "learning_rate": 9.262481061062077e-05,
      "loss": 3.8947,
      "step": 300720
    },
    {
      "epoch": 0.6265208333333333,
      "grad_norm": 1.1219404935836792,
      "learning_rate": 9.26157018742688e-05,
      "loss": 3.9492,
      "step": 300730
    },
    {
      "epoch": 0.6265416666666667,
      "grad_norm": 1.035178303718567,
      "learning_rate": 9.260659338579422e-05,
      "loss": 3.9986,
      "step": 300740
    },
    {
      "epoch": 0.6265625,
      "grad_norm": 1.1331939697265625,
      "learning_rate": 9.259748514523653e-05,
      "loss": 3.9841,
      "step": 300750
    },
    {
      "epoch": 0.6265833333333334,
      "grad_norm": 1.0739030838012695,
      "learning_rate": 9.258837715263498e-05,
      "loss": 3.8473,
      "step": 300760
    },
    {
      "epoch": 0.6266041666666666,
      "grad_norm": 1.1165797710418701,
      "learning_rate": 9.257926940802885e-05,
      "loss": 3.8467,
      "step": 300770
    },
    {
      "epoch": 0.626625,
      "grad_norm": 1.4608975648880005,
      "learning_rate": 9.257016191145758e-05,
      "loss": 4.1994,
      "step": 300780
    },
    {
      "epoch": 0.6266458333333333,
      "grad_norm": 1.1763176918029785,
      "learning_rate": 9.25610546629605e-05,
      "loss": 3.859,
      "step": 300790
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 0.9689804315567017,
      "learning_rate": 9.255194766257687e-05,
      "loss": 3.8953,
      "step": 300800
    },
    {
      "epoch": 0.6266875,
      "grad_norm": 1.075314998626709,
      "learning_rate": 9.254284091034613e-05,
      "loss": 3.8951,
      "step": 300810
    },
    {
      "epoch": 0.6267083333333333,
      "grad_norm": 1.1451473236083984,
      "learning_rate": 9.25337344063076e-05,
      "loss": 3.7973,
      "step": 300820
    },
    {
      "epoch": 0.6267291666666667,
      "grad_norm": 1.1335018873214722,
      "learning_rate": 9.252462815050054e-05,
      "loss": 3.9275,
      "step": 300830
    },
    {
      "epoch": 0.62675,
      "grad_norm": 1.70933198928833,
      "learning_rate": 9.251552214296433e-05,
      "loss": 4.0103,
      "step": 300840
    },
    {
      "epoch": 0.6267708333333334,
      "grad_norm": 0.9989017248153687,
      "learning_rate": 9.250641638373836e-05,
      "loss": 3.8273,
      "step": 300850
    },
    {
      "epoch": 0.6267916666666666,
      "grad_norm": 1.0866817235946655,
      "learning_rate": 9.249731087286187e-05,
      "loss": 3.8778,
      "step": 300860
    },
    {
      "epoch": 0.6268125,
      "grad_norm": 1.1816226243972778,
      "learning_rate": 9.248820561037424e-05,
      "loss": 3.9262,
      "step": 300870
    },
    {
      "epoch": 0.6268333333333334,
      "grad_norm": 1.1091125011444092,
      "learning_rate": 9.247910059631484e-05,
      "loss": 3.9303,
      "step": 300880
    },
    {
      "epoch": 0.6268541666666667,
      "grad_norm": 1.0834766626358032,
      "learning_rate": 9.246999583072291e-05,
      "loss": 3.6631,
      "step": 300890
    },
    {
      "epoch": 0.626875,
      "grad_norm": 1.029444694519043,
      "learning_rate": 9.246089131363787e-05,
      "loss": 3.8204,
      "step": 300900
    },
    {
      "epoch": 0.6268958333333333,
      "grad_norm": 1.1046030521392822,
      "learning_rate": 9.245178704509897e-05,
      "loss": 3.9333,
      "step": 300910
    },
    {
      "epoch": 0.6269166666666667,
      "grad_norm": 1.043409824371338,
      "learning_rate": 9.24426830251456e-05,
      "loss": 3.732,
      "step": 300920
    },
    {
      "epoch": 0.6269375,
      "grad_norm": 1.1347119808197021,
      "learning_rate": 9.2433579253817e-05,
      "loss": 3.8572,
      "step": 300930
    },
    {
      "epoch": 0.6269583333333333,
      "grad_norm": 0.982785165309906,
      "learning_rate": 9.24244757311526e-05,
      "loss": 3.7748,
      "step": 300940
    },
    {
      "epoch": 0.6269791666666666,
      "grad_norm": 1.3102467060089111,
      "learning_rate": 9.241537245719169e-05,
      "loss": 3.9419,
      "step": 300950
    },
    {
      "epoch": 0.627,
      "grad_norm": 1.1713027954101562,
      "learning_rate": 9.240626943197351e-05,
      "loss": 3.7443,
      "step": 300960
    },
    {
      "epoch": 0.6270208333333334,
      "grad_norm": 1.2285641431808472,
      "learning_rate": 9.239716665553749e-05,
      "loss": 3.7784,
      "step": 300970
    },
    {
      "epoch": 0.6270416666666667,
      "grad_norm": 1.0923527479171753,
      "learning_rate": 9.238806412792294e-05,
      "loss": 4.2291,
      "step": 300980
    },
    {
      "epoch": 0.6270625,
      "grad_norm": 1.5200018882751465,
      "learning_rate": 9.237896184916908e-05,
      "loss": 3.9438,
      "step": 300990
    },
    {
      "epoch": 0.6270833333333333,
      "grad_norm": 1.1024764776229858,
      "learning_rate": 9.236985981931535e-05,
      "loss": 3.9283,
      "step": 301000
    },
    {
      "epoch": 0.6270833333333333,
      "eval_loss": 3.580833911895752,
      "eval_runtime": 6.8402,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 301000
    },
    {
      "epoch": 0.6271041666666667,
      "grad_norm": 1.0355604887008667,
      "learning_rate": 9.2360758038401e-05,
      "loss": 4.0093,
      "step": 301010
    },
    {
      "epoch": 0.627125,
      "grad_norm": 1.0906320810317993,
      "learning_rate": 9.235165650646533e-05,
      "loss": 3.972,
      "step": 301020
    },
    {
      "epoch": 0.6271458333333333,
      "grad_norm": 0.9978018403053284,
      "learning_rate": 9.234255522354773e-05,
      "loss": 3.9208,
      "step": 301030
    },
    {
      "epoch": 0.6271666666666667,
      "grad_norm": 1.061324119567871,
      "learning_rate": 9.233345418968746e-05,
      "loss": 3.9369,
      "step": 301040
    },
    {
      "epoch": 0.6271875,
      "grad_norm": 1.064911127090454,
      "learning_rate": 9.232435340492381e-05,
      "loss": 3.9519,
      "step": 301050
    },
    {
      "epoch": 0.6272083333333334,
      "grad_norm": 1.0728198289871216,
      "learning_rate": 9.231525286929615e-05,
      "loss": 3.8106,
      "step": 301060
    },
    {
      "epoch": 0.6272291666666666,
      "grad_norm": 1.058449149131775,
      "learning_rate": 9.230615258284377e-05,
      "loss": 4.0732,
      "step": 301070
    },
    {
      "epoch": 0.62725,
      "grad_norm": 1.0554484128952026,
      "learning_rate": 9.229705254560593e-05,
      "loss": 3.9914,
      "step": 301080
    },
    {
      "epoch": 0.6272708333333333,
      "grad_norm": 1.1388331651687622,
      "learning_rate": 9.228795275762204e-05,
      "loss": 3.8941,
      "step": 301090
    },
    {
      "epoch": 0.6272916666666667,
      "grad_norm": 1.0088013410568237,
      "learning_rate": 9.227885321893132e-05,
      "loss": 3.8905,
      "step": 301100
    },
    {
      "epoch": 0.6273125,
      "grad_norm": 1.2039432525634766,
      "learning_rate": 9.226975392957309e-05,
      "loss": 4.0021,
      "step": 301110
    },
    {
      "epoch": 0.6273333333333333,
      "grad_norm": 1.099555492401123,
      "learning_rate": 9.226065488958672e-05,
      "loss": 3.6806,
      "step": 301120
    },
    {
      "epoch": 0.6273541666666667,
      "grad_norm": 1.0821924209594727,
      "learning_rate": 9.225155609901147e-05,
      "loss": 3.9077,
      "step": 301130
    },
    {
      "epoch": 0.627375,
      "grad_norm": 1.1123034954071045,
      "learning_rate": 9.224245755788659e-05,
      "loss": 3.8323,
      "step": 301140
    },
    {
      "epoch": 0.6273958333333334,
      "grad_norm": 0.9876864552497864,
      "learning_rate": 9.223335926625144e-05,
      "loss": 3.9069,
      "step": 301150
    },
    {
      "epoch": 0.6274166666666666,
      "grad_norm": 1.0561718940734863,
      "learning_rate": 9.222426122414537e-05,
      "loss": 4.0097,
      "step": 301160
    },
    {
      "epoch": 0.6274375,
      "grad_norm": 1.0895320177078247,
      "learning_rate": 9.221516343160755e-05,
      "loss": 3.8625,
      "step": 301170
    },
    {
      "epoch": 0.6274583333333333,
      "grad_norm": 1.0832065343856812,
      "learning_rate": 9.220606588867734e-05,
      "loss": 3.8298,
      "step": 301180
    },
    {
      "epoch": 0.6274791666666667,
      "grad_norm": 1.184792399406433,
      "learning_rate": 9.219696859539413e-05,
      "loss": 3.8591,
      "step": 301190
    },
    {
      "epoch": 0.6275,
      "grad_norm": 1.3332135677337646,
      "learning_rate": 9.21878715517971e-05,
      "loss": 4.1271,
      "step": 301200
    },
    {
      "epoch": 0.6275208333333333,
      "grad_norm": 1.0299996137619019,
      "learning_rate": 9.217877475792554e-05,
      "loss": 3.8811,
      "step": 301210
    },
    {
      "epoch": 0.6275416666666667,
      "grad_norm": 1.0109903812408447,
      "learning_rate": 9.216967821381884e-05,
      "loss": 3.9312,
      "step": 301220
    },
    {
      "epoch": 0.6275625,
      "grad_norm": 1.0646082162857056,
      "learning_rate": 9.216058191951621e-05,
      "loss": 3.8992,
      "step": 301230
    },
    {
      "epoch": 0.6275833333333334,
      "grad_norm": 1.0596106052398682,
      "learning_rate": 9.215148587505696e-05,
      "loss": 3.9367,
      "step": 301240
    },
    {
      "epoch": 0.6276041666666666,
      "grad_norm": 1.0410001277923584,
      "learning_rate": 9.214239008048044e-05,
      "loss": 4.0391,
      "step": 301250
    },
    {
      "epoch": 0.627625,
      "grad_norm": 1.0401560068130493,
      "learning_rate": 9.213329453582588e-05,
      "loss": 3.9651,
      "step": 301260
    },
    {
      "epoch": 0.6276458333333333,
      "grad_norm": 0.986755907535553,
      "learning_rate": 9.212419924113256e-05,
      "loss": 3.9377,
      "step": 301270
    },
    {
      "epoch": 0.6276666666666667,
      "grad_norm": 1.0138537883758545,
      "learning_rate": 9.211510419643979e-05,
      "loss": 3.8691,
      "step": 301280
    },
    {
      "epoch": 0.6276875,
      "grad_norm": 1.0970348119735718,
      "learning_rate": 9.21060094017869e-05,
      "loss": 4.0911,
      "step": 301290
    },
    {
      "epoch": 0.6277083333333333,
      "grad_norm": 1.1029963493347168,
      "learning_rate": 9.209691485721306e-05,
      "loss": 3.7942,
      "step": 301300
    },
    {
      "epoch": 0.6277291666666667,
      "grad_norm": 1.0616239309310913,
      "learning_rate": 9.208782056275766e-05,
      "loss": 3.8039,
      "step": 301310
    },
    {
      "epoch": 0.62775,
      "grad_norm": 1.0248926877975464,
      "learning_rate": 9.207872651845998e-05,
      "loss": 3.9036,
      "step": 301320
    },
    {
      "epoch": 0.6277708333333333,
      "grad_norm": 1.1243305206298828,
      "learning_rate": 9.206963272435925e-05,
      "loss": 3.8346,
      "step": 301330
    },
    {
      "epoch": 0.6277916666666666,
      "grad_norm": 0.9731279015541077,
      "learning_rate": 9.206053918049476e-05,
      "loss": 3.7795,
      "step": 301340
    },
    {
      "epoch": 0.6278125,
      "grad_norm": 1.0720633268356323,
      "learning_rate": 9.205144588690587e-05,
      "loss": 3.8478,
      "step": 301350
    },
    {
      "epoch": 0.6278333333333334,
      "grad_norm": 1.1435418128967285,
      "learning_rate": 9.204235284363171e-05,
      "loss": 3.8463,
      "step": 301360
    },
    {
      "epoch": 0.6278541666666667,
      "grad_norm": 1.167331576347351,
      "learning_rate": 9.20332600507117e-05,
      "loss": 3.8116,
      "step": 301370
    },
    {
      "epoch": 0.627875,
      "grad_norm": 1.0097591876983643,
      "learning_rate": 9.202416750818507e-05,
      "loss": 3.6016,
      "step": 301380
    },
    {
      "epoch": 0.6278958333333333,
      "grad_norm": 1.7744512557983398,
      "learning_rate": 9.201507521609104e-05,
      "loss": 4.1114,
      "step": 301390
    },
    {
      "epoch": 0.6279166666666667,
      "grad_norm": 1.1548658609390259,
      "learning_rate": 9.200598317446899e-05,
      "loss": 3.8732,
      "step": 301400
    },
    {
      "epoch": 0.6279375,
      "grad_norm": 1.0593299865722656,
      "learning_rate": 9.19968913833581e-05,
      "loss": 3.7802,
      "step": 301410
    },
    {
      "epoch": 0.6279583333333333,
      "grad_norm": 1.1716022491455078,
      "learning_rate": 9.198779984279766e-05,
      "loss": 3.9222,
      "step": 301420
    },
    {
      "epoch": 0.6279791666666666,
      "grad_norm": 1.0669429302215576,
      "learning_rate": 9.197870855282701e-05,
      "loss": 3.8082,
      "step": 301430
    },
    {
      "epoch": 0.628,
      "grad_norm": 1.013085126876831,
      "learning_rate": 9.196961751348536e-05,
      "loss": 3.7803,
      "step": 301440
    },
    {
      "epoch": 0.6280208333333334,
      "grad_norm": 1.0732461214065552,
      "learning_rate": 9.196052672481195e-05,
      "loss": 3.8184,
      "step": 301450
    },
    {
      "epoch": 0.6280416666666667,
      "grad_norm": 0.9465009570121765,
      "learning_rate": 9.195143618684615e-05,
      "loss": 3.881,
      "step": 301460
    },
    {
      "epoch": 0.6280625,
      "grad_norm": 1.210580587387085,
      "learning_rate": 9.194234589962715e-05,
      "loss": 3.8992,
      "step": 301470
    },
    {
      "epoch": 0.6280833333333333,
      "grad_norm": 0.9405800104141235,
      "learning_rate": 9.19332558631942e-05,
      "loss": 3.9233,
      "step": 301480
    },
    {
      "epoch": 0.6281041666666667,
      "grad_norm": 1.0345348119735718,
      "learning_rate": 9.192416607758666e-05,
      "loss": 3.7911,
      "step": 301490
    },
    {
      "epoch": 0.628125,
      "grad_norm": 1.0272870063781738,
      "learning_rate": 9.191507654284372e-05,
      "loss": 4.0188,
      "step": 301500
    },
    {
      "epoch": 0.6281458333333333,
      "grad_norm": 1.142723560333252,
      "learning_rate": 9.190598725900465e-05,
      "loss": 3.94,
      "step": 301510
    },
    {
      "epoch": 0.6281666666666667,
      "grad_norm": 1.114991307258606,
      "learning_rate": 9.189689822610867e-05,
      "loss": 4.0471,
      "step": 301520
    },
    {
      "epoch": 0.6281875,
      "grad_norm": 1.1025149822235107,
      "learning_rate": 9.188780944419518e-05,
      "loss": 3.8574,
      "step": 301530
    },
    {
      "epoch": 0.6282083333333334,
      "grad_norm": 1.05846107006073,
      "learning_rate": 9.187872091330329e-05,
      "loss": 3.8954,
      "step": 301540
    },
    {
      "epoch": 0.6282291666666666,
      "grad_norm": 0.9877426624298096,
      "learning_rate": 9.18696326334723e-05,
      "loss": 3.8026,
      "step": 301550
    },
    {
      "epoch": 0.62825,
      "grad_norm": 1.0317399501800537,
      "learning_rate": 9.186054460474156e-05,
      "loss": 3.9064,
      "step": 301560
    },
    {
      "epoch": 0.6282708333333333,
      "grad_norm": 0.9994455575942993,
      "learning_rate": 9.185145682715022e-05,
      "loss": 3.7364,
      "step": 301570
    },
    {
      "epoch": 0.6282916666666667,
      "grad_norm": 1.24608314037323,
      "learning_rate": 9.184236930073751e-05,
      "loss": 3.9621,
      "step": 301580
    },
    {
      "epoch": 0.6283125,
      "grad_norm": 1.126996397972107,
      "learning_rate": 9.183328202554284e-05,
      "loss": 3.8107,
      "step": 301590
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 1.176392674446106,
      "learning_rate": 9.182419500160532e-05,
      "loss": 4.12,
      "step": 301600
    },
    {
      "epoch": 0.6283541666666667,
      "grad_norm": 1.0828384160995483,
      "learning_rate": 9.181510822896423e-05,
      "loss": 3.9121,
      "step": 301610
    },
    {
      "epoch": 0.628375,
      "grad_norm": 1.119037389755249,
      "learning_rate": 9.180602170765889e-05,
      "loss": 3.8559,
      "step": 301620
    },
    {
      "epoch": 0.6283958333333334,
      "grad_norm": 1.1088706254959106,
      "learning_rate": 9.179693543772851e-05,
      "loss": 4.0242,
      "step": 301630
    },
    {
      "epoch": 0.6284166666666666,
      "grad_norm": 0.9983846545219421,
      "learning_rate": 9.178784941921226e-05,
      "loss": 3.9854,
      "step": 301640
    },
    {
      "epoch": 0.6284375,
      "grad_norm": 0.9957104325294495,
      "learning_rate": 9.177876365214949e-05,
      "loss": 3.8392,
      "step": 301650
    },
    {
      "epoch": 0.6284583333333333,
      "grad_norm": 1.1292929649353027,
      "learning_rate": 9.176967813657946e-05,
      "loss": 3.9199,
      "step": 301660
    },
    {
      "epoch": 0.6284791666666667,
      "grad_norm": 1.031003475189209,
      "learning_rate": 9.17605928725413e-05,
      "loss": 3.9866,
      "step": 301670
    },
    {
      "epoch": 0.6285,
      "grad_norm": 1.3545706272125244,
      "learning_rate": 9.175150786007436e-05,
      "loss": 3.7101,
      "step": 301680
    },
    {
      "epoch": 0.6285208333333333,
      "grad_norm": 1.176931381225586,
      "learning_rate": 9.174242309921788e-05,
      "loss": 3.7355,
      "step": 301690
    },
    {
      "epoch": 0.6285416666666667,
      "grad_norm": 1.1941900253295898,
      "learning_rate": 9.1733338590011e-05,
      "loss": 3.7142,
      "step": 301700
    },
    {
      "epoch": 0.6285625,
      "grad_norm": 1.1491066217422485,
      "learning_rate": 9.172425433249307e-05,
      "loss": 3.8099,
      "step": 301710
    },
    {
      "epoch": 0.6285833333333334,
      "grad_norm": 1.2420512437820435,
      "learning_rate": 9.171517032670334e-05,
      "loss": 3.9739,
      "step": 301720
    },
    {
      "epoch": 0.6286041666666666,
      "grad_norm": 1.1175910234451294,
      "learning_rate": 9.170608657268094e-05,
      "loss": 3.9755,
      "step": 301730
    },
    {
      "epoch": 0.628625,
      "grad_norm": 1.0593931674957275,
      "learning_rate": 9.169700307046517e-05,
      "loss": 3.9539,
      "step": 301740
    },
    {
      "epoch": 0.6286458333333333,
      "grad_norm": 1.0124058723449707,
      "learning_rate": 9.168791982009534e-05,
      "loss": 3.8351,
      "step": 301750
    },
    {
      "epoch": 0.6286666666666667,
      "grad_norm": 1.075852870941162,
      "learning_rate": 9.167883682161054e-05,
      "loss": 3.935,
      "step": 301760
    },
    {
      "epoch": 0.6286875,
      "grad_norm": 1.7945170402526855,
      "learning_rate": 9.166975407505016e-05,
      "loss": 3.9505,
      "step": 301770
    },
    {
      "epoch": 0.6287083333333333,
      "grad_norm": 1.182226538658142,
      "learning_rate": 9.166067158045328e-05,
      "loss": 3.8076,
      "step": 301780
    },
    {
      "epoch": 0.6287291666666667,
      "grad_norm": 1.0254266262054443,
      "learning_rate": 9.165158933785926e-05,
      "loss": 3.9016,
      "step": 301790
    },
    {
      "epoch": 0.62875,
      "grad_norm": 1.1080448627471924,
      "learning_rate": 9.16425073473072e-05,
      "loss": 3.8004,
      "step": 301800
    },
    {
      "epoch": 0.6287708333333333,
      "grad_norm": 1.0807292461395264,
      "learning_rate": 9.163342560883647e-05,
      "loss": 3.843,
      "step": 301810
    },
    {
      "epoch": 0.6287916666666666,
      "grad_norm": 1.0344077348709106,
      "learning_rate": 9.162434412248626e-05,
      "loss": 4.0664,
      "step": 301820
    },
    {
      "epoch": 0.6288125,
      "grad_norm": 1.0397663116455078,
      "learning_rate": 9.16152628882957e-05,
      "loss": 4.0401,
      "step": 301830
    },
    {
      "epoch": 0.6288333333333334,
      "grad_norm": 1.208207607269287,
      "learning_rate": 9.160618190630412e-05,
      "loss": 4.0102,
      "step": 301840
    },
    {
      "epoch": 0.6288541666666667,
      "grad_norm": 1.1625348329544067,
      "learning_rate": 9.159710117655078e-05,
      "loss": 3.7847,
      "step": 301850
    },
    {
      "epoch": 0.628875,
      "grad_norm": 0.9765291810035706,
      "learning_rate": 9.158802069907477e-05,
      "loss": 3.845,
      "step": 301860
    },
    {
      "epoch": 0.6288958333333333,
      "grad_norm": 1.0091543197631836,
      "learning_rate": 9.157894047391542e-05,
      "loss": 3.9123,
      "step": 301870
    },
    {
      "epoch": 0.6289166666666667,
      "grad_norm": 1.1524754762649536,
      "learning_rate": 9.156986050111195e-05,
      "loss": 3.7324,
      "step": 301880
    },
    {
      "epoch": 0.6289375,
      "grad_norm": 1.1022236347198486,
      "learning_rate": 9.156078078070349e-05,
      "loss": 3.8512,
      "step": 301890
    },
    {
      "epoch": 0.6289583333333333,
      "grad_norm": 1.031516432762146,
      "learning_rate": 9.15517013127294e-05,
      "loss": 3.8099,
      "step": 301900
    },
    {
      "epoch": 0.6289791666666666,
      "grad_norm": 0.9756466150283813,
      "learning_rate": 9.154262209722878e-05,
      "loss": 3.9029,
      "step": 301910
    },
    {
      "epoch": 0.629,
      "grad_norm": 1.022884488105774,
      "learning_rate": 9.153354313424088e-05,
      "loss": 4.1126,
      "step": 301920
    },
    {
      "epoch": 0.6290208333333334,
      "grad_norm": 1.1868382692337036,
      "learning_rate": 9.152446442380498e-05,
      "loss": 4.0096,
      "step": 301930
    },
    {
      "epoch": 0.6290416666666667,
      "grad_norm": 1.099928855895996,
      "learning_rate": 9.15153859659602e-05,
      "loss": 3.8898,
      "step": 301940
    },
    {
      "epoch": 0.6290625,
      "grad_norm": 1.0085999965667725,
      "learning_rate": 9.15063077607458e-05,
      "loss": 3.902,
      "step": 301950
    },
    {
      "epoch": 0.6290833333333333,
      "grad_norm": 0.994755744934082,
      "learning_rate": 9.149722980820104e-05,
      "loss": 4.0376,
      "step": 301960
    },
    {
      "epoch": 0.6291041666666667,
      "grad_norm": 0.9898431897163391,
      "learning_rate": 9.148815210836506e-05,
      "loss": 3.7687,
      "step": 301970
    },
    {
      "epoch": 0.629125,
      "grad_norm": 1.0509450435638428,
      "learning_rate": 9.14790746612771e-05,
      "loss": 3.9894,
      "step": 301980
    },
    {
      "epoch": 0.6291458333333333,
      "grad_norm": 1.1220827102661133,
      "learning_rate": 9.146999746697641e-05,
      "loss": 3.8528,
      "step": 301990
    },
    {
      "epoch": 0.6291666666666667,
      "grad_norm": 1.0617973804473877,
      "learning_rate": 9.146092052550217e-05,
      "loss": 3.9167,
      "step": 302000
    },
    {
      "epoch": 0.6291666666666667,
      "eval_loss": 3.5751953125,
      "eval_runtime": 6.8386,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 302000
    },
    {
      "epoch": 0.6291875,
      "grad_norm": 1.0878812074661255,
      "learning_rate": 9.145184383689348e-05,
      "loss": 3.7632,
      "step": 302010
    },
    {
      "epoch": 0.6292083333333334,
      "grad_norm": 1.247553825378418,
      "learning_rate": 9.144276740118975e-05,
      "loss": 3.9142,
      "step": 302020
    },
    {
      "epoch": 0.6292291666666666,
      "grad_norm": 1.101391315460205,
      "learning_rate": 9.14336912184301e-05,
      "loss": 3.8208,
      "step": 302030
    },
    {
      "epoch": 0.62925,
      "grad_norm": 1.1490310430526733,
      "learning_rate": 9.142461528865363e-05,
      "loss": 3.8728,
      "step": 302040
    },
    {
      "epoch": 0.6292708333333333,
      "grad_norm": 1.0763767957687378,
      "learning_rate": 9.141553961189968e-05,
      "loss": 3.9898,
      "step": 302050
    },
    {
      "epoch": 0.6292916666666667,
      "grad_norm": 1.069886565208435,
      "learning_rate": 9.140646418820744e-05,
      "loss": 3.9953,
      "step": 302060
    },
    {
      "epoch": 0.6293125,
      "grad_norm": 1.0745776891708374,
      "learning_rate": 9.139738901761602e-05,
      "loss": 3.8951,
      "step": 302070
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 1.2160921096801758,
      "learning_rate": 9.138831410016471e-05,
      "loss": 3.9624,
      "step": 302080
    },
    {
      "epoch": 0.6293541666666667,
      "grad_norm": 1.000349760055542,
      "learning_rate": 9.137923943589272e-05,
      "loss": 3.8022,
      "step": 302090
    },
    {
      "epoch": 0.629375,
      "grad_norm": 1.0569413900375366,
      "learning_rate": 9.137016502483919e-05,
      "loss": 3.8423,
      "step": 302100
    },
    {
      "epoch": 0.6293958333333334,
      "grad_norm": 1.0974316596984863,
      "learning_rate": 9.13610908670433e-05,
      "loss": 3.8036,
      "step": 302110
    },
    {
      "epoch": 0.6294166666666666,
      "grad_norm": 1.1230854988098145,
      "learning_rate": 9.135201696254435e-05,
      "loss": 3.8837,
      "step": 302120
    },
    {
      "epoch": 0.6294375,
      "grad_norm": 1.1224201917648315,
      "learning_rate": 9.134294331138147e-05,
      "loss": 3.946,
      "step": 302130
    },
    {
      "epoch": 0.6294583333333333,
      "grad_norm": 1.004876971244812,
      "learning_rate": 9.133386991359381e-05,
      "loss": 3.8774,
      "step": 302140
    },
    {
      "epoch": 0.6294791666666667,
      "grad_norm": 1.198421835899353,
      "learning_rate": 9.132479676922062e-05,
      "loss": 3.7649,
      "step": 302150
    },
    {
      "epoch": 0.6295,
      "grad_norm": 1.0258115530014038,
      "learning_rate": 9.131572387830113e-05,
      "loss": 3.8073,
      "step": 302160
    },
    {
      "epoch": 0.6295208333333333,
      "grad_norm": 1.0882271528244019,
      "learning_rate": 9.13066512408744e-05,
      "loss": 3.8654,
      "step": 302170
    },
    {
      "epoch": 0.6295416666666667,
      "grad_norm": 1.1249135732650757,
      "learning_rate": 9.129757885697975e-05,
      "loss": 3.6847,
      "step": 302180
    },
    {
      "epoch": 0.6295625,
      "grad_norm": 1.013749361038208,
      "learning_rate": 9.128850672665635e-05,
      "loss": 3.7722,
      "step": 302190
    },
    {
      "epoch": 0.6295833333333334,
      "grad_norm": 1.0850082635879517,
      "learning_rate": 9.127943484994332e-05,
      "loss": 3.6909,
      "step": 302200
    },
    {
      "epoch": 0.6296041666666666,
      "grad_norm": 1.0697027444839478,
      "learning_rate": 9.127036322687987e-05,
      "loss": 3.9224,
      "step": 302210
    },
    {
      "epoch": 0.629625,
      "grad_norm": 1.0267599821090698,
      "learning_rate": 9.126129185750526e-05,
      "loss": 3.9411,
      "step": 302220
    },
    {
      "epoch": 0.6296458333333333,
      "grad_norm": 1.0818783044815063,
      "learning_rate": 9.125222074185858e-05,
      "loss": 4.1519,
      "step": 302230
    },
    {
      "epoch": 0.6296666666666667,
      "grad_norm": 1.266327142715454,
      "learning_rate": 9.124314987997907e-05,
      "loss": 4.1941,
      "step": 302240
    },
    {
      "epoch": 0.6296875,
      "grad_norm": 0.9616888165473938,
      "learning_rate": 9.123407927190592e-05,
      "loss": 4.0382,
      "step": 302250
    },
    {
      "epoch": 0.6297083333333333,
      "grad_norm": 1.148324728012085,
      "learning_rate": 9.122500891767824e-05,
      "loss": 3.7718,
      "step": 302260
    },
    {
      "epoch": 0.6297291666666667,
      "grad_norm": 1.1378859281539917,
      "learning_rate": 9.121593881733529e-05,
      "loss": 3.8626,
      "step": 302270
    },
    {
      "epoch": 0.62975,
      "grad_norm": 1.0491966009140015,
      "learning_rate": 9.12068689709162e-05,
      "loss": 3.9094,
      "step": 302280
    },
    {
      "epoch": 0.6297708333333333,
      "grad_norm": 1.1761653423309326,
      "learning_rate": 9.119779937846014e-05,
      "loss": 3.8287,
      "step": 302290
    },
    {
      "epoch": 0.6297916666666666,
      "grad_norm": 1.133963942527771,
      "learning_rate": 9.118873004000636e-05,
      "loss": 4.1155,
      "step": 302300
    },
    {
      "epoch": 0.6298125,
      "grad_norm": 1.3025994300842285,
      "learning_rate": 9.117966095559396e-05,
      "loss": 3.8747,
      "step": 302310
    },
    {
      "epoch": 0.6298333333333334,
      "grad_norm": 1.1790645122528076,
      "learning_rate": 9.117059212526212e-05,
      "loss": 3.9071,
      "step": 302320
    },
    {
      "epoch": 0.6298541666666667,
      "grad_norm": 1.1525834798812866,
      "learning_rate": 9.116152354905009e-05,
      "loss": 3.9495,
      "step": 302330
    },
    {
      "epoch": 0.629875,
      "grad_norm": 1.0381709337234497,
      "learning_rate": 9.115245522699695e-05,
      "loss": 3.8143,
      "step": 302340
    },
    {
      "epoch": 0.6298958333333333,
      "grad_norm": 1.092891812324524,
      "learning_rate": 9.11433871591419e-05,
      "loss": 3.7142,
      "step": 302350
    },
    {
      "epoch": 0.6299166666666667,
      "grad_norm": 1.084884524345398,
      "learning_rate": 9.113431934552417e-05,
      "loss": 3.8365,
      "step": 302360
    },
    {
      "epoch": 0.6299375,
      "grad_norm": 1.0922633409500122,
      "learning_rate": 9.112525178618285e-05,
      "loss": 3.8734,
      "step": 302370
    },
    {
      "epoch": 0.6299583333333333,
      "grad_norm": 1.1224344968795776,
      "learning_rate": 9.111618448115716e-05,
      "loss": 3.8115,
      "step": 302380
    },
    {
      "epoch": 0.6299791666666666,
      "grad_norm": 1.0707051753997803,
      "learning_rate": 9.11071174304862e-05,
      "loss": 3.7341,
      "step": 302390
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1033790111541748,
      "learning_rate": 9.109805063420923e-05,
      "loss": 3.8165,
      "step": 302400
    },
    {
      "epoch": 0.6300208333333334,
      "grad_norm": 1.1522855758666992,
      "learning_rate": 9.108898409236534e-05,
      "loss": 3.7591,
      "step": 302410
    },
    {
      "epoch": 0.6300416666666667,
      "grad_norm": 1.0857230424880981,
      "learning_rate": 9.107991780499368e-05,
      "loss": 3.9171,
      "step": 302420
    },
    {
      "epoch": 0.6300625,
      "grad_norm": 1.1195826530456543,
      "learning_rate": 9.107085177213353e-05,
      "loss": 4.0656,
      "step": 302430
    },
    {
      "epoch": 0.6300833333333333,
      "grad_norm": 1.1033895015716553,
      "learning_rate": 9.106178599382394e-05,
      "loss": 3.8432,
      "step": 302440
    },
    {
      "epoch": 0.6301041666666667,
      "grad_norm": 1.042335033416748,
      "learning_rate": 9.105272047010406e-05,
      "loss": 3.8695,
      "step": 302450
    },
    {
      "epoch": 0.630125,
      "grad_norm": 1.0231753587722778,
      "learning_rate": 9.104365520101317e-05,
      "loss": 3.8865,
      "step": 302460
    },
    {
      "epoch": 0.6301458333333333,
      "grad_norm": 1.126916766166687,
      "learning_rate": 9.103459018659032e-05,
      "loss": 3.9401,
      "step": 302470
    },
    {
      "epoch": 0.6301666666666667,
      "grad_norm": 1.105413556098938,
      "learning_rate": 9.102552542687467e-05,
      "loss": 3.8786,
      "step": 302480
    },
    {
      "epoch": 0.6301875,
      "grad_norm": 0.9351267218589783,
      "learning_rate": 9.101646092190547e-05,
      "loss": 3.7856,
      "step": 302490
    },
    {
      "epoch": 0.6302083333333334,
      "grad_norm": 1.0521615743637085,
      "learning_rate": 9.100739667172181e-05,
      "loss": 3.8238,
      "step": 302500
    },
    {
      "epoch": 0.6302291666666666,
      "grad_norm": 1.0518637895584106,
      "learning_rate": 9.099833267636277e-05,
      "loss": 3.7893,
      "step": 302510
    },
    {
      "epoch": 0.63025,
      "grad_norm": 1.1392364501953125,
      "learning_rate": 9.098926893586763e-05,
      "loss": 4.0082,
      "step": 302520
    },
    {
      "epoch": 0.6302708333333333,
      "grad_norm": 1.494073748588562,
      "learning_rate": 9.098020545027553e-05,
      "loss": 3.9594,
      "step": 302530
    },
    {
      "epoch": 0.6302916666666667,
      "grad_norm": 0.983518123626709,
      "learning_rate": 9.097114221962549e-05,
      "loss": 3.8603,
      "step": 302540
    },
    {
      "epoch": 0.6303125,
      "grad_norm": 1.1272162199020386,
      "learning_rate": 9.096207924395679e-05,
      "loss": 4.0552,
      "step": 302550
    },
    {
      "epoch": 0.6303333333333333,
      "grad_norm": 1.0693812370300293,
      "learning_rate": 9.095301652330858e-05,
      "loss": 3.8303,
      "step": 302560
    },
    {
      "epoch": 0.6303541666666667,
      "grad_norm": 1.1141088008880615,
      "learning_rate": 9.094395405771988e-05,
      "loss": 4.0936,
      "step": 302570
    },
    {
      "epoch": 0.630375,
      "grad_norm": 1.1103421449661255,
      "learning_rate": 9.093489184722999e-05,
      "loss": 3.8715,
      "step": 302580
    },
    {
      "epoch": 0.6303958333333334,
      "grad_norm": 1.4993386268615723,
      "learning_rate": 9.092582989187798e-05,
      "loss": 4.0672,
      "step": 302590
    },
    {
      "epoch": 0.6304166666666666,
      "grad_norm": 1.2808887958526611,
      "learning_rate": 9.091676819170297e-05,
      "loss": 3.8886,
      "step": 302600
    },
    {
      "epoch": 0.6304375,
      "grad_norm": 1.0348827838897705,
      "learning_rate": 9.090770674674415e-05,
      "loss": 3.808,
      "step": 302610
    },
    {
      "epoch": 0.6304583333333333,
      "grad_norm": 1.0542937517166138,
      "learning_rate": 9.089864555704068e-05,
      "loss": 3.7827,
      "step": 302620
    },
    {
      "epoch": 0.6304791666666667,
      "grad_norm": 2.404095411300659,
      "learning_rate": 9.08895846226316e-05,
      "loss": 3.9981,
      "step": 302630
    },
    {
      "epoch": 0.6305,
      "grad_norm": 1.0447964668273926,
      "learning_rate": 9.08805239435562e-05,
      "loss": 4.0807,
      "step": 302640
    },
    {
      "epoch": 0.6305208333333333,
      "grad_norm": 1.0447434186935425,
      "learning_rate": 9.087146351985349e-05,
      "loss": 3.8209,
      "step": 302650
    },
    {
      "epoch": 0.6305416666666667,
      "grad_norm": 1.118698000907898,
      "learning_rate": 9.086240335156262e-05,
      "loss": 3.8513,
      "step": 302660
    },
    {
      "epoch": 0.6305625,
      "grad_norm": 1.0640454292297363,
      "learning_rate": 9.085334343872282e-05,
      "loss": 3.6851,
      "step": 302670
    },
    {
      "epoch": 0.6305833333333334,
      "grad_norm": 1.2802672386169434,
      "learning_rate": 9.084428378137314e-05,
      "loss": 3.8898,
      "step": 302680
    },
    {
      "epoch": 0.6306041666666666,
      "grad_norm": 1.0368432998657227,
      "learning_rate": 9.083522437955277e-05,
      "loss": 4.1129,
      "step": 302690
    },
    {
      "epoch": 0.630625,
      "grad_norm": 1.1976255178451538,
      "learning_rate": 9.082616523330074e-05,
      "loss": 3.782,
      "step": 302700
    },
    {
      "epoch": 0.6306458333333333,
      "grad_norm": 0.9857820272445679,
      "learning_rate": 9.081710634265631e-05,
      "loss": 3.9106,
      "step": 302710
    },
    {
      "epoch": 0.6306666666666667,
      "grad_norm": 1.2445584535598755,
      "learning_rate": 9.080804770765856e-05,
      "loss": 3.9829,
      "step": 302720
    },
    {
      "epoch": 0.6306875,
      "grad_norm": 1.1373530626296997,
      "learning_rate": 9.079898932834655e-05,
      "loss": 4.0438,
      "step": 302730
    },
    {
      "epoch": 0.6307083333333333,
      "grad_norm": 1.1167622804641724,
      "learning_rate": 9.078993120475952e-05,
      "loss": 3.7886,
      "step": 302740
    },
    {
      "epoch": 0.6307291666666667,
      "grad_norm": 1.2406713962554932,
      "learning_rate": 9.078087333693658e-05,
      "loss": 3.9854,
      "step": 302750
    },
    {
      "epoch": 0.63075,
      "grad_norm": 1.0722687244415283,
      "learning_rate": 9.077181572491675e-05,
      "loss": 3.7354,
      "step": 302760
    },
    {
      "epoch": 0.6307708333333333,
      "grad_norm": 1.0278089046478271,
      "learning_rate": 9.07627583687393e-05,
      "loss": 3.8899,
      "step": 302770
    },
    {
      "epoch": 0.6307916666666666,
      "grad_norm": 1.0089869499206543,
      "learning_rate": 9.075370126844326e-05,
      "loss": 3.7508,
      "step": 302780
    },
    {
      "epoch": 0.6308125,
      "grad_norm": 1.1522570848464966,
      "learning_rate": 9.074464442406774e-05,
      "loss": 3.7547,
      "step": 302790
    },
    {
      "epoch": 0.6308333333333334,
      "grad_norm": 1.0816413164138794,
      "learning_rate": 9.073558783565199e-05,
      "loss": 3.8886,
      "step": 302800
    },
    {
      "epoch": 0.6308541666666667,
      "grad_norm": 1.1347827911376953,
      "learning_rate": 9.072653150323498e-05,
      "loss": 3.8707,
      "step": 302810
    },
    {
      "epoch": 0.630875,
      "grad_norm": 1.1753311157226562,
      "learning_rate": 9.071747542685586e-05,
      "loss": 4.0282,
      "step": 302820
    },
    {
      "epoch": 0.6308958333333333,
      "grad_norm": 1.0411149263381958,
      "learning_rate": 9.070841960655385e-05,
      "loss": 4.0393,
      "step": 302830
    },
    {
      "epoch": 0.6309166666666667,
      "grad_norm": 0.9778257608413696,
      "learning_rate": 9.069936404236797e-05,
      "loss": 3.7874,
      "step": 302840
    },
    {
      "epoch": 0.6309375,
      "grad_norm": 1.1981223821640015,
      "learning_rate": 9.069030873433734e-05,
      "loss": 4.142,
      "step": 302850
    },
    {
      "epoch": 0.6309583333333333,
      "grad_norm": 1.0900903940200806,
      "learning_rate": 9.068125368250116e-05,
      "loss": 3.9583,
      "step": 302860
    },
    {
      "epoch": 0.6309791666666666,
      "grad_norm": 1.0602012872695923,
      "learning_rate": 9.067219888689845e-05,
      "loss": 4.0518,
      "step": 302870
    },
    {
      "epoch": 0.631,
      "grad_norm": 1.1948623657226562,
      "learning_rate": 9.066314434756832e-05,
      "loss": 3.7384,
      "step": 302880
    },
    {
      "epoch": 0.6310208333333334,
      "grad_norm": 1.2542665004730225,
      "learning_rate": 9.065409006454998e-05,
      "loss": 3.9345,
      "step": 302890
    },
    {
      "epoch": 0.6310416666666666,
      "grad_norm": 1.0137399435043335,
      "learning_rate": 9.064503603788247e-05,
      "loss": 4.0274,
      "step": 302900
    },
    {
      "epoch": 0.6310625,
      "grad_norm": 1.0849781036376953,
      "learning_rate": 9.063598226760489e-05,
      "loss": 4.027,
      "step": 302910
    },
    {
      "epoch": 0.6310833333333333,
      "grad_norm": 1.0033385753631592,
      "learning_rate": 9.062692875375638e-05,
      "loss": 3.8709,
      "step": 302920
    },
    {
      "epoch": 0.6311041666666667,
      "grad_norm": 1.0642764568328857,
      "learning_rate": 9.061787549637604e-05,
      "loss": 3.9801,
      "step": 302930
    },
    {
      "epoch": 0.631125,
      "grad_norm": 1.0070548057556152,
      "learning_rate": 9.060882249550294e-05,
      "loss": 3.9946,
      "step": 302940
    },
    {
      "epoch": 0.6311458333333333,
      "grad_norm": 0.9982381463050842,
      "learning_rate": 9.059976975117623e-05,
      "loss": 3.8517,
      "step": 302950
    },
    {
      "epoch": 0.6311666666666667,
      "grad_norm": 1.0604313611984253,
      "learning_rate": 9.059071726343506e-05,
      "loss": 4.0159,
      "step": 302960
    },
    {
      "epoch": 0.6311875,
      "grad_norm": 1.20579195022583,
      "learning_rate": 9.058166503231843e-05,
      "loss": 3.8446,
      "step": 302970
    },
    {
      "epoch": 0.6312083333333334,
      "grad_norm": 1.2947397232055664,
      "learning_rate": 9.057261305786546e-05,
      "loss": 3.8158,
      "step": 302980
    },
    {
      "epoch": 0.6312291666666666,
      "grad_norm": 1.0892266035079956,
      "learning_rate": 9.056356134011532e-05,
      "loss": 3.6918,
      "step": 302990
    },
    {
      "epoch": 0.63125,
      "grad_norm": 1.3403892517089844,
      "learning_rate": 9.055450987910709e-05,
      "loss": 4.0339,
      "step": 303000
    },
    {
      "epoch": 0.63125,
      "eval_loss": 3.5769050121307373,
      "eval_runtime": 7.2598,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 303000
    },
    {
      "epoch": 0.6312708333333333,
      "grad_norm": 1.0391310453414917,
      "learning_rate": 9.054545867487978e-05,
      "loss": 3.8149,
      "step": 303010
    },
    {
      "epoch": 0.6312916666666667,
      "grad_norm": 1.4199963808059692,
      "learning_rate": 9.053640772747258e-05,
      "loss": 3.8771,
      "step": 303020
    },
    {
      "epoch": 0.6313125,
      "grad_norm": 0.9765125513076782,
      "learning_rate": 9.052735703692462e-05,
      "loss": 3.8054,
      "step": 303030
    },
    {
      "epoch": 0.6313333333333333,
      "grad_norm": 0.9869864583015442,
      "learning_rate": 9.051830660327484e-05,
      "loss": 3.8064,
      "step": 303040
    },
    {
      "epoch": 0.6313541666666667,
      "grad_norm": 1.0307841300964355,
      "learning_rate": 9.050925642656248e-05,
      "loss": 3.8614,
      "step": 303050
    },
    {
      "epoch": 0.631375,
      "grad_norm": 1.0416920185089111,
      "learning_rate": 9.05002065068266e-05,
      "loss": 3.8508,
      "step": 303060
    },
    {
      "epoch": 0.6313958333333334,
      "grad_norm": 1.104701280593872,
      "learning_rate": 9.049115684410622e-05,
      "loss": 3.8648,
      "step": 303070
    },
    {
      "epoch": 0.6314166666666666,
      "grad_norm": 1.2128918170928955,
      "learning_rate": 9.048210743844054e-05,
      "loss": 4.0953,
      "step": 303080
    },
    {
      "epoch": 0.6314375,
      "grad_norm": 1.021026849746704,
      "learning_rate": 9.04730582898686e-05,
      "loss": 3.8334,
      "step": 303090
    },
    {
      "epoch": 0.6314583333333333,
      "grad_norm": 1.203723430633545,
      "learning_rate": 9.046400939842944e-05,
      "loss": 3.936,
      "step": 303100
    },
    {
      "epoch": 0.6314791666666667,
      "grad_norm": 1.1597366333007812,
      "learning_rate": 9.045496076416221e-05,
      "loss": 3.8917,
      "step": 303110
    },
    {
      "epoch": 0.6315,
      "grad_norm": 0.9189853668212891,
      "learning_rate": 9.044591238710602e-05,
      "loss": 3.9389,
      "step": 303120
    },
    {
      "epoch": 0.6315208333333333,
      "grad_norm": 1.016626238822937,
      "learning_rate": 9.043686426729986e-05,
      "loss": 3.8565,
      "step": 303130
    },
    {
      "epoch": 0.6315416666666667,
      "grad_norm": 1.0352566242218018,
      "learning_rate": 9.042781640478291e-05,
      "loss": 4.0401,
      "step": 303140
    },
    {
      "epoch": 0.6315625,
      "grad_norm": 1.0775306224822998,
      "learning_rate": 9.04187687995942e-05,
      "loss": 3.9202,
      "step": 303150
    },
    {
      "epoch": 0.6315833333333334,
      "grad_norm": 1.0399121046066284,
      "learning_rate": 9.040972145177282e-05,
      "loss": 3.8606,
      "step": 303160
    },
    {
      "epoch": 0.6316041666666666,
      "grad_norm": 1.0601940155029297,
      "learning_rate": 9.040067436135787e-05,
      "loss": 3.8313,
      "step": 303170
    },
    {
      "epoch": 0.631625,
      "grad_norm": 1.1320856809616089,
      "learning_rate": 9.039162752838839e-05,
      "loss": 3.9518,
      "step": 303180
    },
    {
      "epoch": 0.6316458333333334,
      "grad_norm": 1.1411659717559814,
      "learning_rate": 9.038258095290348e-05,
      "loss": 3.824,
      "step": 303190
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 1.1263923645019531,
      "learning_rate": 9.037353463494227e-05,
      "loss": 3.8761,
      "step": 303200
    },
    {
      "epoch": 0.6316875,
      "grad_norm": 1.1895792484283447,
      "learning_rate": 9.036448857454374e-05,
      "loss": 3.8775,
      "step": 303210
    },
    {
      "epoch": 0.6317083333333333,
      "grad_norm": 1.2003260850906372,
      "learning_rate": 9.035544277174701e-05,
      "loss": 3.8936,
      "step": 303220
    },
    {
      "epoch": 0.6317291666666667,
      "grad_norm": 1.0359364748001099,
      "learning_rate": 9.034639722659123e-05,
      "loss": 3.6355,
      "step": 303230
    },
    {
      "epoch": 0.63175,
      "grad_norm": 1.688234567642212,
      "learning_rate": 9.033735193911533e-05,
      "loss": 3.8086,
      "step": 303240
    },
    {
      "epoch": 0.6317708333333333,
      "grad_norm": 1.1238199472427368,
      "learning_rate": 9.032830690935845e-05,
      "loss": 3.8965,
      "step": 303250
    },
    {
      "epoch": 0.6317916666666666,
      "grad_norm": 1.0810493230819702,
      "learning_rate": 9.031926213735971e-05,
      "loss": 3.8254,
      "step": 303260
    },
    {
      "epoch": 0.6318125,
      "grad_norm": 1.7605136632919312,
      "learning_rate": 9.031021762315816e-05,
      "loss": 3.8837,
      "step": 303270
    },
    {
      "epoch": 0.6318333333333334,
      "grad_norm": 1.0506513118743896,
      "learning_rate": 9.03011733667928e-05,
      "loss": 4.0869,
      "step": 303280
    },
    {
      "epoch": 0.6318541666666667,
      "grad_norm": 1.1773576736450195,
      "learning_rate": 9.029212936830269e-05,
      "loss": 3.8604,
      "step": 303290
    },
    {
      "epoch": 0.631875,
      "grad_norm": 1.047546148300171,
      "learning_rate": 9.028308562772704e-05,
      "loss": 4.0304,
      "step": 303300
    },
    {
      "epoch": 0.6318958333333333,
      "grad_norm": 1.0365626811981201,
      "learning_rate": 9.027404214510477e-05,
      "loss": 3.7933,
      "step": 303310
    },
    {
      "epoch": 0.6319166666666667,
      "grad_norm": 1.0679597854614258,
      "learning_rate": 9.026499892047497e-05,
      "loss": 3.9458,
      "step": 303320
    },
    {
      "epoch": 0.6319375,
      "grad_norm": 1.3309427499771118,
      "learning_rate": 9.02559559538768e-05,
      "loss": 4.0367,
      "step": 303330
    },
    {
      "epoch": 0.6319583333333333,
      "grad_norm": 1.614737629890442,
      "learning_rate": 9.024691324534923e-05,
      "loss": 3.9025,
      "step": 303340
    },
    {
      "epoch": 0.6319791666666666,
      "grad_norm": 1.1800732612609863,
      "learning_rate": 9.023787079493129e-05,
      "loss": 4.0063,
      "step": 303350
    },
    {
      "epoch": 0.632,
      "grad_norm": 2.626323938369751,
      "learning_rate": 9.022882860266216e-05,
      "loss": 3.7562,
      "step": 303360
    },
    {
      "epoch": 0.6320208333333334,
      "grad_norm": 1.0356236696243286,
      "learning_rate": 9.02197866685808e-05,
      "loss": 4.1146,
      "step": 303370
    },
    {
      "epoch": 0.6320416666666666,
      "grad_norm": 1.154972791671753,
      "learning_rate": 9.021074499272627e-05,
      "loss": 3.7641,
      "step": 303380
    },
    {
      "epoch": 0.6320625,
      "grad_norm": 1.0998460054397583,
      "learning_rate": 9.020170357513772e-05,
      "loss": 3.8778,
      "step": 303390
    },
    {
      "epoch": 0.6320833333333333,
      "grad_norm": 1.0007377862930298,
      "learning_rate": 9.019266241585414e-05,
      "loss": 3.7903,
      "step": 303400
    },
    {
      "epoch": 0.6321041666666667,
      "grad_norm": 1.077634334564209,
      "learning_rate": 9.018362151491453e-05,
      "loss": 3.8422,
      "step": 303410
    },
    {
      "epoch": 0.632125,
      "grad_norm": 1.0479929447174072,
      "learning_rate": 9.0174580872358e-05,
      "loss": 3.9361,
      "step": 303420
    },
    {
      "epoch": 0.6321458333333333,
      "grad_norm": 1.0782294273376465,
      "learning_rate": 9.016554048822366e-05,
      "loss": 3.8397,
      "step": 303430
    },
    {
      "epoch": 0.6321666666666667,
      "grad_norm": 1.0687227249145508,
      "learning_rate": 9.015650036255043e-05,
      "loss": 3.9145,
      "step": 303440
    },
    {
      "epoch": 0.6321875,
      "grad_norm": 1.0239542722702026,
      "learning_rate": 9.014746049537747e-05,
      "loss": 3.8313,
      "step": 303450
    },
    {
      "epoch": 0.6322083333333334,
      "grad_norm": 1.273990273475647,
      "learning_rate": 9.01384208867438e-05,
      "loss": 3.888,
      "step": 303460
    },
    {
      "epoch": 0.6322291666666666,
      "grad_norm": 1.086958408355713,
      "learning_rate": 9.012938153668842e-05,
      "loss": 3.9526,
      "step": 303470
    },
    {
      "epoch": 0.63225,
      "grad_norm": 1.0029428005218506,
      "learning_rate": 9.012034244525043e-05,
      "loss": 3.8238,
      "step": 303480
    },
    {
      "epoch": 0.6322708333333333,
      "grad_norm": 1.0487760305404663,
      "learning_rate": 9.01113036124689e-05,
      "loss": 4.1004,
      "step": 303490
    },
    {
      "epoch": 0.6322916666666667,
      "grad_norm": 1.1095014810562134,
      "learning_rate": 9.010226503838275e-05,
      "loss": 3.9965,
      "step": 303500
    },
    {
      "epoch": 0.6323125,
      "grad_norm": 1.041041374206543,
      "learning_rate": 9.009322672303118e-05,
      "loss": 3.6614,
      "step": 303510
    },
    {
      "epoch": 0.6323333333333333,
      "grad_norm": 1.180922031402588,
      "learning_rate": 9.008418866645313e-05,
      "loss": 3.9068,
      "step": 303520
    },
    {
      "epoch": 0.6323541666666667,
      "grad_norm": 1.2340184450149536,
      "learning_rate": 9.007515086868764e-05,
      "loss": 3.6604,
      "step": 303530
    },
    {
      "epoch": 0.632375,
      "grad_norm": 1.0993678569793701,
      "learning_rate": 9.006611332977384e-05,
      "loss": 3.6242,
      "step": 303540
    },
    {
      "epoch": 0.6323958333333334,
      "grad_norm": 1.1145238876342773,
      "learning_rate": 9.005707604975065e-05,
      "loss": 3.9494,
      "step": 303550
    },
    {
      "epoch": 0.6324166666666666,
      "grad_norm": 1.0608912706375122,
      "learning_rate": 9.004803902865722e-05,
      "loss": 3.7932,
      "step": 303560
    },
    {
      "epoch": 0.6324375,
      "grad_norm": 1.0109562873840332,
      "learning_rate": 9.003900226653247e-05,
      "loss": 3.7541,
      "step": 303570
    },
    {
      "epoch": 0.6324583333333333,
      "grad_norm": 1.1067949533462524,
      "learning_rate": 9.002996576341553e-05,
      "loss": 3.9446,
      "step": 303580
    },
    {
      "epoch": 0.6324791666666667,
      "grad_norm": 1.1102360486984253,
      "learning_rate": 9.002092951934543e-05,
      "loss": 3.996,
      "step": 303590
    },
    {
      "epoch": 0.6325,
      "grad_norm": 1.0094716548919678,
      "learning_rate": 9.00118935343611e-05,
      "loss": 3.8748,
      "step": 303600
    },
    {
      "epoch": 0.6325208333333333,
      "grad_norm": 1.0351907014846802,
      "learning_rate": 9.000285780850168e-05,
      "loss": 3.9924,
      "step": 303610
    },
    {
      "epoch": 0.6325416666666667,
      "grad_norm": 0.9814526438713074,
      "learning_rate": 8.99938223418062e-05,
      "loss": 3.7938,
      "step": 303620
    },
    {
      "epoch": 0.6325625,
      "grad_norm": 1.1646785736083984,
      "learning_rate": 8.998478713431359e-05,
      "loss": 3.8726,
      "step": 303630
    },
    {
      "epoch": 0.6325833333333334,
      "grad_norm": 1.1458810567855835,
      "learning_rate": 8.9975752186063e-05,
      "loss": 3.9066,
      "step": 303640
    },
    {
      "epoch": 0.6326041666666666,
      "grad_norm": 0.9721969962120056,
      "learning_rate": 8.99667174970934e-05,
      "loss": 3.8304,
      "step": 303650
    },
    {
      "epoch": 0.632625,
      "grad_norm": 1.0136768817901611,
      "learning_rate": 8.995768306744373e-05,
      "loss": 3.761,
      "step": 303660
    },
    {
      "epoch": 0.6326458333333334,
      "grad_norm": 0.9902897477149963,
      "learning_rate": 8.994864889715321e-05,
      "loss": 3.7968,
      "step": 303670
    },
    {
      "epoch": 0.6326666666666667,
      "grad_norm": 1.003334403038025,
      "learning_rate": 8.993961498626072e-05,
      "loss": 3.95,
      "step": 303680
    },
    {
      "epoch": 0.6326875,
      "grad_norm": 1.1520353555679321,
      "learning_rate": 8.993058133480527e-05,
      "loss": 3.8759,
      "step": 303690
    },
    {
      "epoch": 0.6327083333333333,
      "grad_norm": 1.1587122678756714,
      "learning_rate": 8.992154794282602e-05,
      "loss": 3.9543,
      "step": 303700
    },
    {
      "epoch": 0.6327291666666667,
      "grad_norm": 1.2839776277542114,
      "learning_rate": 8.991251481036185e-05,
      "loss": 4.0355,
      "step": 303710
    },
    {
      "epoch": 0.63275,
      "grad_norm": 1.0486979484558105,
      "learning_rate": 8.990348193745182e-05,
      "loss": 3.8331,
      "step": 303720
    },
    {
      "epoch": 0.6327708333333333,
      "grad_norm": 1.0127134323120117,
      "learning_rate": 8.9894449324135e-05,
      "loss": 3.7112,
      "step": 303730
    },
    {
      "epoch": 0.6327916666666666,
      "grad_norm": 1.0172703266143799,
      "learning_rate": 8.988541697045035e-05,
      "loss": 3.8147,
      "step": 303740
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 1.0379658937454224,
      "learning_rate": 8.987638487643686e-05,
      "loss": 3.8524,
      "step": 303750
    },
    {
      "epoch": 0.6328333333333334,
      "grad_norm": 1.0870150327682495,
      "learning_rate": 8.986735304213367e-05,
      "loss": 3.802,
      "step": 303760
    },
    {
      "epoch": 0.6328541666666667,
      "grad_norm": 1.0273133516311646,
      "learning_rate": 8.98583214675797e-05,
      "loss": 3.8969,
      "step": 303770
    },
    {
      "epoch": 0.632875,
      "grad_norm": 1.227527141571045,
      "learning_rate": 8.984929015281393e-05,
      "loss": 4.0021,
      "step": 303780
    },
    {
      "epoch": 0.6328958333333333,
      "grad_norm": 1.153023362159729,
      "learning_rate": 8.98402590978754e-05,
      "loss": 3.8192,
      "step": 303790
    },
    {
      "epoch": 0.6329166666666667,
      "grad_norm": 1.1334400177001953,
      "learning_rate": 8.983122830280323e-05,
      "loss": 3.9217,
      "step": 303800
    },
    {
      "epoch": 0.6329375,
      "grad_norm": 1.1208745241165161,
      "learning_rate": 8.982219776763623e-05,
      "loss": 4.0039,
      "step": 303810
    },
    {
      "epoch": 0.6329583333333333,
      "grad_norm": 1.2935078144073486,
      "learning_rate": 8.981316749241359e-05,
      "loss": 3.7906,
      "step": 303820
    },
    {
      "epoch": 0.6329791666666666,
      "grad_norm": 1.2513548135757446,
      "learning_rate": 8.980413747717423e-05,
      "loss": 3.9357,
      "step": 303830
    },
    {
      "epoch": 0.633,
      "grad_norm": 1.157416820526123,
      "learning_rate": 8.979510772195713e-05,
      "loss": 3.7969,
      "step": 303840
    },
    {
      "epoch": 0.6330208333333334,
      "grad_norm": 1.779144287109375,
      "learning_rate": 8.978607822680138e-05,
      "loss": 4.1556,
      "step": 303850
    },
    {
      "epoch": 0.6330416666666666,
      "grad_norm": 1.039568305015564,
      "learning_rate": 8.977704899174594e-05,
      "loss": 3.9502,
      "step": 303860
    },
    {
      "epoch": 0.6330625,
      "grad_norm": 1.0683962106704712,
      "learning_rate": 8.976802001682977e-05,
      "loss": 3.9689,
      "step": 303870
    },
    {
      "epoch": 0.6330833333333333,
      "grad_norm": 0.9805114269256592,
      "learning_rate": 8.975899130209192e-05,
      "loss": 3.8612,
      "step": 303880
    },
    {
      "epoch": 0.6331041666666667,
      "grad_norm": 1.1169979572296143,
      "learning_rate": 8.974996284757143e-05,
      "loss": 3.807,
      "step": 303890
    },
    {
      "epoch": 0.633125,
      "grad_norm": 1.1715441942214966,
      "learning_rate": 8.974093465330723e-05,
      "loss": 4.0289,
      "step": 303900
    },
    {
      "epoch": 0.6331458333333333,
      "grad_norm": 1.1149870157241821,
      "learning_rate": 8.973190671933831e-05,
      "loss": 3.9142,
      "step": 303910
    },
    {
      "epoch": 0.6331666666666667,
      "grad_norm": 1.3411270380020142,
      "learning_rate": 8.97228790457037e-05,
      "loss": 4.0151,
      "step": 303920
    },
    {
      "epoch": 0.6331875,
      "grad_norm": 1.1390997171401978,
      "learning_rate": 8.971385163244244e-05,
      "loss": 3.9811,
      "step": 303930
    },
    {
      "epoch": 0.6332083333333334,
      "grad_norm": 1.2349340915679932,
      "learning_rate": 8.970482447959341e-05,
      "loss": 3.9449,
      "step": 303940
    },
    {
      "epoch": 0.6332291666666666,
      "grad_norm": 1.5155398845672607,
      "learning_rate": 8.969579758719571e-05,
      "loss": 3.6854,
      "step": 303950
    },
    {
      "epoch": 0.63325,
      "grad_norm": 1.0908414125442505,
      "learning_rate": 8.968677095528832e-05,
      "loss": 3.9584,
      "step": 303960
    },
    {
      "epoch": 0.6332708333333333,
      "grad_norm": 1.0618008375167847,
      "learning_rate": 8.967774458391016e-05,
      "loss": 3.9314,
      "step": 303970
    },
    {
      "epoch": 0.6332916666666667,
      "grad_norm": 1.0217177867889404,
      "learning_rate": 8.966871847310028e-05,
      "loss": 4.0308,
      "step": 303980
    },
    {
      "epoch": 0.6333125,
      "grad_norm": 1.102211356163025,
      "learning_rate": 8.965969262289768e-05,
      "loss": 3.9772,
      "step": 303990
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 1.1666874885559082,
      "learning_rate": 8.965066703334128e-05,
      "loss": 3.9226,
      "step": 304000
    },
    {
      "epoch": 0.6333333333333333,
      "eval_loss": 3.5755176544189453,
      "eval_runtime": 6.8637,
      "eval_samples_per_second": 1.457,
      "eval_steps_per_second": 0.437,
      "step": 304000
    },
    {
      "epoch": 0.6333541666666667,
      "grad_norm": 1.055310606956482,
      "learning_rate": 8.964164170447015e-05,
      "loss": 3.859,
      "step": 304010
    },
    {
      "epoch": 0.633375,
      "grad_norm": 1.0340913534164429,
      "learning_rate": 8.963261663632323e-05,
      "loss": 3.8188,
      "step": 304020
    },
    {
      "epoch": 0.6333958333333334,
      "grad_norm": 1.027660608291626,
      "learning_rate": 8.962359182893946e-05,
      "loss": 3.6258,
      "step": 304030
    },
    {
      "epoch": 0.6334166666666666,
      "grad_norm": 1.105634331703186,
      "learning_rate": 8.961456728235794e-05,
      "loss": 3.9162,
      "step": 304040
    },
    {
      "epoch": 0.6334375,
      "grad_norm": 0.966910719871521,
      "learning_rate": 8.960554299661757e-05,
      "loss": 3.909,
      "step": 304050
    },
    {
      "epoch": 0.6334583333333333,
      "grad_norm": 1.2832187414169312,
      "learning_rate": 8.95965189717573e-05,
      "loss": 3.9191,
      "step": 304060
    },
    {
      "epoch": 0.6334791666666667,
      "grad_norm": 1.0878785848617554,
      "learning_rate": 8.958749520781624e-05,
      "loss": 3.9107,
      "step": 304070
    },
    {
      "epoch": 0.6335,
      "grad_norm": 1.2388947010040283,
      "learning_rate": 8.957847170483324e-05,
      "loss": 3.8427,
      "step": 304080
    },
    {
      "epoch": 0.6335208333333333,
      "grad_norm": 1.0432658195495605,
      "learning_rate": 8.95694484628473e-05,
      "loss": 3.8274,
      "step": 304090
    },
    {
      "epoch": 0.6335416666666667,
      "grad_norm": 1.2826917171478271,
      "learning_rate": 8.956042548189748e-05,
      "loss": 3.8619,
      "step": 304100
    },
    {
      "epoch": 0.6335625,
      "grad_norm": 1.0211637020111084,
      "learning_rate": 8.955140276202268e-05,
      "loss": 3.8565,
      "step": 304110
    },
    {
      "epoch": 0.6335833333333334,
      "grad_norm": 0.9882162809371948,
      "learning_rate": 8.954238030326185e-05,
      "loss": 4.0536,
      "step": 304120
    },
    {
      "epoch": 0.6336041666666666,
      "grad_norm": 1.034764051437378,
      "learning_rate": 8.953335810565407e-05,
      "loss": 3.8135,
      "step": 304130
    },
    {
      "epoch": 0.633625,
      "grad_norm": 1.0511059761047363,
      "learning_rate": 8.952433616923826e-05,
      "loss": 3.6435,
      "step": 304140
    },
    {
      "epoch": 0.6336458333333334,
      "grad_norm": 1.0452463626861572,
      "learning_rate": 8.951531449405333e-05,
      "loss": 3.7908,
      "step": 304150
    },
    {
      "epoch": 0.6336666666666667,
      "grad_norm": 1.037654161453247,
      "learning_rate": 8.950629308013829e-05,
      "loss": 3.8579,
      "step": 304160
    },
    {
      "epoch": 0.6336875,
      "grad_norm": 1.0461437702178955,
      "learning_rate": 8.949727192753217e-05,
      "loss": 3.6856,
      "step": 304170
    },
    {
      "epoch": 0.6337083333333333,
      "grad_norm": 1.1317877769470215,
      "learning_rate": 8.948825103627385e-05,
      "loss": 3.8205,
      "step": 304180
    },
    {
      "epoch": 0.6337291666666667,
      "grad_norm": 1.0081008672714233,
      "learning_rate": 8.947923040640232e-05,
      "loss": 3.9048,
      "step": 304190
    },
    {
      "epoch": 0.63375,
      "grad_norm": 1.1280059814453125,
      "learning_rate": 8.947021003795659e-05,
      "loss": 3.9738,
      "step": 304200
    },
    {
      "epoch": 0.6337708333333333,
      "grad_norm": 1.0558522939682007,
      "learning_rate": 8.946118993097559e-05,
      "loss": 3.8877,
      "step": 304210
    },
    {
      "epoch": 0.6337916666666666,
      "grad_norm": 1.0070106983184814,
      "learning_rate": 8.945217008549825e-05,
      "loss": 3.8884,
      "step": 304220
    },
    {
      "epoch": 0.6338125,
      "grad_norm": 1.0572457313537598,
      "learning_rate": 8.944315050156364e-05,
      "loss": 4.0964,
      "step": 304230
    },
    {
      "epoch": 0.6338333333333334,
      "grad_norm": 0.9925550222396851,
      "learning_rate": 8.943413117921059e-05,
      "loss": 3.7121,
      "step": 304240
    },
    {
      "epoch": 0.6338541666666667,
      "grad_norm": 1.1042901277542114,
      "learning_rate": 8.942511211847811e-05,
      "loss": 3.9795,
      "step": 304250
    },
    {
      "epoch": 0.633875,
      "grad_norm": 1.0494695901870728,
      "learning_rate": 8.941609331940521e-05,
      "loss": 3.9616,
      "step": 304260
    },
    {
      "epoch": 0.6338958333333333,
      "grad_norm": 1.0454134941101074,
      "learning_rate": 8.940707478203082e-05,
      "loss": 4.0254,
      "step": 304270
    },
    {
      "epoch": 0.6339166666666667,
      "grad_norm": 1.168440341949463,
      "learning_rate": 8.939805650639382e-05,
      "loss": 3.9648,
      "step": 304280
    },
    {
      "epoch": 0.6339375,
      "grad_norm": 1.081115484237671,
      "learning_rate": 8.938903849253328e-05,
      "loss": 3.75,
      "step": 304290
    },
    {
      "epoch": 0.6339583333333333,
      "grad_norm": 0.9833643436431885,
      "learning_rate": 8.93800207404881e-05,
      "loss": 3.9785,
      "step": 304300
    },
    {
      "epoch": 0.6339791666666666,
      "grad_norm": 1.8692973852157593,
      "learning_rate": 8.93710032502972e-05,
      "loss": 3.7709,
      "step": 304310
    },
    {
      "epoch": 0.634,
      "grad_norm": 1.0911263227462769,
      "learning_rate": 8.936198602199958e-05,
      "loss": 4.051,
      "step": 304320
    },
    {
      "epoch": 0.6340208333333334,
      "grad_norm": 1.0152788162231445,
      "learning_rate": 8.935296905563423e-05,
      "loss": 4.1985,
      "step": 304330
    },
    {
      "epoch": 0.6340416666666666,
      "grad_norm": 1.1351890563964844,
      "learning_rate": 8.934395235123997e-05,
      "loss": 3.8433,
      "step": 304340
    },
    {
      "epoch": 0.6340625,
      "grad_norm": 1.0251461267471313,
      "learning_rate": 8.933493590885585e-05,
      "loss": 3.968,
      "step": 304350
    },
    {
      "epoch": 0.6340833333333333,
      "grad_norm": 1.1408584117889404,
      "learning_rate": 8.932591972852082e-05,
      "loss": 4.0003,
      "step": 304360
    },
    {
      "epoch": 0.6341041666666667,
      "grad_norm": 1.230202555656433,
      "learning_rate": 8.931690381027376e-05,
      "loss": 3.9706,
      "step": 304370
    },
    {
      "epoch": 0.634125,
      "grad_norm": 1.0574475526809692,
      "learning_rate": 8.930788815415369e-05,
      "loss": 3.651,
      "step": 304380
    },
    {
      "epoch": 0.6341458333333333,
      "grad_norm": 1.1075555086135864,
      "learning_rate": 8.929887276019953e-05,
      "loss": 3.9455,
      "step": 304390
    },
    {
      "epoch": 0.6341666666666667,
      "grad_norm": 1.1048433780670166,
      "learning_rate": 8.928985762845017e-05,
      "loss": 3.819,
      "step": 304400
    },
    {
      "epoch": 0.6341875,
      "grad_norm": 1.1426830291748047,
      "learning_rate": 8.928084275894463e-05,
      "loss": 4.0093,
      "step": 304410
    },
    {
      "epoch": 0.6342083333333334,
      "grad_norm": 1.011809229850769,
      "learning_rate": 8.927182815172179e-05,
      "loss": 3.8697,
      "step": 304420
    },
    {
      "epoch": 0.6342291666666666,
      "grad_norm": 1.151428461074829,
      "learning_rate": 8.926281380682067e-05,
      "loss": 3.9337,
      "step": 304430
    },
    {
      "epoch": 0.63425,
      "grad_norm": 1.1016145944595337,
      "learning_rate": 8.925379972428008e-05,
      "loss": 3.9334,
      "step": 304440
    },
    {
      "epoch": 0.6342708333333333,
      "grad_norm": 0.9750325679779053,
      "learning_rate": 8.924478590413905e-05,
      "loss": 3.8872,
      "step": 304450
    },
    {
      "epoch": 0.6342916666666667,
      "grad_norm": 1.2109843492507935,
      "learning_rate": 8.923577234643653e-05,
      "loss": 3.9897,
      "step": 304460
    },
    {
      "epoch": 0.6343125,
      "grad_norm": 1.274112582206726,
      "learning_rate": 8.922675905121136e-05,
      "loss": 3.8715,
      "step": 304470
    },
    {
      "epoch": 0.6343333333333333,
      "grad_norm": 1.2818865776062012,
      "learning_rate": 8.921774601850258e-05,
      "loss": 3.8721,
      "step": 304480
    },
    {
      "epoch": 0.6343541666666667,
      "grad_norm": 1.0596421957015991,
      "learning_rate": 8.920873324834909e-05,
      "loss": 4.0277,
      "step": 304490
    },
    {
      "epoch": 0.634375,
      "grad_norm": 1.077333688735962,
      "learning_rate": 8.919972074078977e-05,
      "loss": 4.0224,
      "step": 304500
    },
    {
      "epoch": 0.6343958333333334,
      "grad_norm": 0.9790151119232178,
      "learning_rate": 8.919070849586364e-05,
      "loss": 3.9092,
      "step": 304510
    },
    {
      "epoch": 0.6344166666666666,
      "grad_norm": 1.1469223499298096,
      "learning_rate": 8.918169651360954e-05,
      "loss": 4.1369,
      "step": 304520
    },
    {
      "epoch": 0.6344375,
      "grad_norm": 1.0692358016967773,
      "learning_rate": 8.917268479406642e-05,
      "loss": 3.6891,
      "step": 304530
    },
    {
      "epoch": 0.6344583333333333,
      "grad_norm": 1.1238375902175903,
      "learning_rate": 8.916367333727327e-05,
      "loss": 3.7593,
      "step": 304540
    },
    {
      "epoch": 0.6344791666666667,
      "grad_norm": 1.1002085208892822,
      "learning_rate": 8.915466214326895e-05,
      "loss": 3.8091,
      "step": 304550
    },
    {
      "epoch": 0.6345,
      "grad_norm": 1.0188812017440796,
      "learning_rate": 8.914565121209239e-05,
      "loss": 3.8585,
      "step": 304560
    },
    {
      "epoch": 0.6345208333333333,
      "grad_norm": 1.0101743936538696,
      "learning_rate": 8.913664054378256e-05,
      "loss": 3.8829,
      "step": 304570
    },
    {
      "epoch": 0.6345416666666667,
      "grad_norm": 1.0500125885009766,
      "learning_rate": 8.912763013837833e-05,
      "loss": 3.8499,
      "step": 304580
    },
    {
      "epoch": 0.6345625,
      "grad_norm": 1.0699223279953003,
      "learning_rate": 8.911861999591863e-05,
      "loss": 3.7672,
      "step": 304590
    },
    {
      "epoch": 0.6345833333333334,
      "grad_norm": 1.1257438659667969,
      "learning_rate": 8.910961011644244e-05,
      "loss": 4.0353,
      "step": 304600
    },
    {
      "epoch": 0.6346041666666666,
      "grad_norm": 1.0923019647598267,
      "learning_rate": 8.910060049998861e-05,
      "loss": 3.7698,
      "step": 304610
    },
    {
      "epoch": 0.634625,
      "grad_norm": 1.0131722688674927,
      "learning_rate": 8.909159114659602e-05,
      "loss": 4.048,
      "step": 304620
    },
    {
      "epoch": 0.6346458333333334,
      "grad_norm": 1.151939034461975,
      "learning_rate": 8.908258205630375e-05,
      "loss": 4.1003,
      "step": 304630
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 1.0674084424972534,
      "learning_rate": 8.907357322915058e-05,
      "loss": 3.6633,
      "step": 304640
    },
    {
      "epoch": 0.6346875,
      "grad_norm": 1.0184143781661987,
      "learning_rate": 8.906456466517542e-05,
      "loss": 3.8913,
      "step": 304650
    },
    {
      "epoch": 0.6347083333333333,
      "grad_norm": 1.5580147504806519,
      "learning_rate": 8.905555636441723e-05,
      "loss": 3.7224,
      "step": 304660
    },
    {
      "epoch": 0.6347291666666667,
      "grad_norm": 1.101218581199646,
      "learning_rate": 8.904654832691496e-05,
      "loss": 3.9623,
      "step": 304670
    },
    {
      "epoch": 0.63475,
      "grad_norm": 1.0993279218673706,
      "learning_rate": 8.903754055270741e-05,
      "loss": 4.025,
      "step": 304680
    },
    {
      "epoch": 0.6347708333333333,
      "grad_norm": 1.1110520362854004,
      "learning_rate": 8.902853304183357e-05,
      "loss": 4.0936,
      "step": 304690
    },
    {
      "epoch": 0.6347916666666666,
      "grad_norm": 1.0851253271102905,
      "learning_rate": 8.901952579433239e-05,
      "loss": 4.0406,
      "step": 304700
    },
    {
      "epoch": 0.6348125,
      "grad_norm": 1.0280958414077759,
      "learning_rate": 8.901051881024265e-05,
      "loss": 3.8228,
      "step": 304710
    },
    {
      "epoch": 0.6348333333333334,
      "grad_norm": 1.1996790170669556,
      "learning_rate": 8.900151208960334e-05,
      "loss": 4.0038,
      "step": 304720
    },
    {
      "epoch": 0.6348541666666667,
      "grad_norm": 1.1187132596969604,
      "learning_rate": 8.89925056324534e-05,
      "loss": 3.7523,
      "step": 304730
    },
    {
      "epoch": 0.634875,
      "grad_norm": 1.2641326189041138,
      "learning_rate": 8.898349943883167e-05,
      "loss": 3.9531,
      "step": 304740
    },
    {
      "epoch": 0.6348958333333333,
      "grad_norm": 1.0485703945159912,
      "learning_rate": 8.897449350877701e-05,
      "loss": 3.8404,
      "step": 304750
    },
    {
      "epoch": 0.6349166666666667,
      "grad_norm": 1.2125420570373535,
      "learning_rate": 8.896548784232845e-05,
      "loss": 3.9344,
      "step": 304760
    },
    {
      "epoch": 0.6349375,
      "grad_norm": 0.9440333843231201,
      "learning_rate": 8.895648243952482e-05,
      "loss": 3.845,
      "step": 304770
    },
    {
      "epoch": 0.6349583333333333,
      "grad_norm": 1.0885008573532104,
      "learning_rate": 8.894747730040498e-05,
      "loss": 3.771,
      "step": 304780
    },
    {
      "epoch": 0.6349791666666667,
      "grad_norm": 1.157301664352417,
      "learning_rate": 8.893847242500791e-05,
      "loss": 3.79,
      "step": 304790
    },
    {
      "epoch": 0.635,
      "grad_norm": 1.0563828945159912,
      "learning_rate": 8.892946781337247e-05,
      "loss": 3.849,
      "step": 304800
    },
    {
      "epoch": 0.6350208333333334,
      "grad_norm": 1.145943284034729,
      "learning_rate": 8.892046346553751e-05,
      "loss": 3.6724,
      "step": 304810
    },
    {
      "epoch": 0.6350416666666666,
      "grad_norm": 1.0746099948883057,
      "learning_rate": 8.8911459381542e-05,
      "loss": 3.9238,
      "step": 304820
    },
    {
      "epoch": 0.6350625,
      "grad_norm": 1.1584270000457764,
      "learning_rate": 8.890245556142484e-05,
      "loss": 3.8115,
      "step": 304830
    },
    {
      "epoch": 0.6350833333333333,
      "grad_norm": 1.0369277000427246,
      "learning_rate": 8.889345200522483e-05,
      "loss": 3.7775,
      "step": 304840
    },
    {
      "epoch": 0.6351041666666667,
      "grad_norm": 1.076704740524292,
      "learning_rate": 8.888444871298094e-05,
      "loss": 4.0056,
      "step": 304850
    },
    {
      "epoch": 0.635125,
      "grad_norm": 1.161773920059204,
      "learning_rate": 8.887544568473209e-05,
      "loss": 3.9772,
      "step": 304860
    },
    {
      "epoch": 0.6351458333333333,
      "grad_norm": 1.0659338235855103,
      "learning_rate": 8.886644292051703e-05,
      "loss": 3.9384,
      "step": 304870
    },
    {
      "epoch": 0.6351666666666667,
      "grad_norm": 1.2113678455352783,
      "learning_rate": 8.885744042037478e-05,
      "loss": 3.824,
      "step": 304880
    },
    {
      "epoch": 0.6351875,
      "grad_norm": 1.1508886814117432,
      "learning_rate": 8.884843818434422e-05,
      "loss": 3.6457,
      "step": 304890
    },
    {
      "epoch": 0.6352083333333334,
      "grad_norm": 1.083292007446289,
      "learning_rate": 8.883943621246415e-05,
      "loss": 3.802,
      "step": 304900
    },
    {
      "epoch": 0.6352291666666666,
      "grad_norm": 1.2057950496673584,
      "learning_rate": 8.883043450477354e-05,
      "loss": 3.8615,
      "step": 304910
    },
    {
      "epoch": 0.63525,
      "grad_norm": 1.07803213596344,
      "learning_rate": 8.882143306131123e-05,
      "loss": 3.9194,
      "step": 304920
    },
    {
      "epoch": 0.6352708333333333,
      "grad_norm": 1.0375874042510986,
      "learning_rate": 8.881243188211609e-05,
      "loss": 3.9607,
      "step": 304930
    },
    {
      "epoch": 0.6352916666666667,
      "grad_norm": 1.0521438121795654,
      "learning_rate": 8.880343096722706e-05,
      "loss": 3.7839,
      "step": 304940
    },
    {
      "epoch": 0.6353125,
      "grad_norm": 1.171297550201416,
      "learning_rate": 8.879443031668297e-05,
      "loss": 3.794,
      "step": 304950
    },
    {
      "epoch": 0.6353333333333333,
      "grad_norm": 1.112407922744751,
      "learning_rate": 8.878542993052269e-05,
      "loss": 3.8269,
      "step": 304960
    },
    {
      "epoch": 0.6353541666666667,
      "grad_norm": 1.0240572690963745,
      "learning_rate": 8.877642980878518e-05,
      "loss": 3.9379,
      "step": 304970
    },
    {
      "epoch": 0.635375,
      "grad_norm": 1.044677734375,
      "learning_rate": 8.876742995150922e-05,
      "loss": 3.7843,
      "step": 304980
    },
    {
      "epoch": 0.6353958333333334,
      "grad_norm": 1.2802371978759766,
      "learning_rate": 8.875843035873368e-05,
      "loss": 3.9469,
      "step": 304990
    },
    {
      "epoch": 0.6354166666666666,
      "grad_norm": 1.1002496480941772,
      "learning_rate": 8.874943103049756e-05,
      "loss": 3.8948,
      "step": 305000
    },
    {
      "epoch": 0.6354166666666666,
      "eval_loss": 3.573498487472534,
      "eval_runtime": 6.8432,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 305000
    },
    {
      "epoch": 0.6354375,
      "grad_norm": 1.529283881187439,
      "learning_rate": 8.874043196683967e-05,
      "loss": 3.7419,
      "step": 305010
    },
    {
      "epoch": 0.6354583333333333,
      "grad_norm": 1.113120436668396,
      "learning_rate": 8.873143316779882e-05,
      "loss": 3.8878,
      "step": 305020
    },
    {
      "epoch": 0.6354791666666667,
      "grad_norm": 1.1477106809616089,
      "learning_rate": 8.872243463341389e-05,
      "loss": 3.8536,
      "step": 305030
    },
    {
      "epoch": 0.6355,
      "grad_norm": 1.071685791015625,
      "learning_rate": 8.871343636372386e-05,
      "loss": 3.8095,
      "step": 305040
    },
    {
      "epoch": 0.6355208333333333,
      "grad_norm": 1.0056267976760864,
      "learning_rate": 8.870443835876745e-05,
      "loss": 3.9397,
      "step": 305050
    },
    {
      "epoch": 0.6355416666666667,
      "grad_norm": 1.0987684726715088,
      "learning_rate": 8.869544061858363e-05,
      "loss": 3.8552,
      "step": 305060
    },
    {
      "epoch": 0.6355625,
      "grad_norm": 1.1191565990447998,
      "learning_rate": 8.868644314321128e-05,
      "loss": 3.845,
      "step": 305070
    },
    {
      "epoch": 0.6355833333333333,
      "grad_norm": 1.0451825857162476,
      "learning_rate": 8.86774459326892e-05,
      "loss": 3.9237,
      "step": 305080
    },
    {
      "epoch": 0.6356041666666666,
      "grad_norm": 1.0739644765853882,
      "learning_rate": 8.866844898705625e-05,
      "loss": 3.737,
      "step": 305090
    },
    {
      "epoch": 0.635625,
      "grad_norm": 1.1125355958938599,
      "learning_rate": 8.865945230635138e-05,
      "loss": 3.8575,
      "step": 305100
    },
    {
      "epoch": 0.6356458333333334,
      "grad_norm": 1.0317752361297607,
      "learning_rate": 8.865045589061339e-05,
      "loss": 3.9499,
      "step": 305110
    },
    {
      "epoch": 0.6356666666666667,
      "grad_norm": 0.9732784032821655,
      "learning_rate": 8.864145973988107e-05,
      "loss": 3.8113,
      "step": 305120
    },
    {
      "epoch": 0.6356875,
      "grad_norm": 1.2836439609527588,
      "learning_rate": 8.863246385419346e-05,
      "loss": 3.8961,
      "step": 305130
    },
    {
      "epoch": 0.6357083333333333,
      "grad_norm": 1.0963159799575806,
      "learning_rate": 8.862346823358928e-05,
      "loss": 3.7692,
      "step": 305140
    },
    {
      "epoch": 0.6357291666666667,
      "grad_norm": 1.0958261489868164,
      "learning_rate": 8.861447287810739e-05,
      "loss": 3.8632,
      "step": 305150
    },
    {
      "epoch": 0.63575,
      "grad_norm": 1.0454705953598022,
      "learning_rate": 8.86054777877867e-05,
      "loss": 3.879,
      "step": 305160
    },
    {
      "epoch": 0.6357708333333333,
      "grad_norm": 1.1226898431777954,
      "learning_rate": 8.859648296266607e-05,
      "loss": 3.9244,
      "step": 305170
    },
    {
      "epoch": 0.6357916666666666,
      "grad_norm": 1.0272923707962036,
      "learning_rate": 8.858748840278425e-05,
      "loss": 3.8708,
      "step": 305180
    },
    {
      "epoch": 0.6358125,
      "grad_norm": 1.024957537651062,
      "learning_rate": 8.857849410818024e-05,
      "loss": 4.0685,
      "step": 305190
    },
    {
      "epoch": 0.6358333333333334,
      "grad_norm": 1.3331416845321655,
      "learning_rate": 8.856950007889283e-05,
      "loss": 3.978,
      "step": 305200
    },
    {
      "epoch": 0.6358541666666667,
      "grad_norm": 1.108123540878296,
      "learning_rate": 8.856050631496082e-05,
      "loss": 3.8189,
      "step": 305210
    },
    {
      "epoch": 0.635875,
      "grad_norm": 1.0764104127883911,
      "learning_rate": 8.855151281642311e-05,
      "loss": 3.801,
      "step": 305220
    },
    {
      "epoch": 0.6358958333333333,
      "grad_norm": 1.0687800645828247,
      "learning_rate": 8.854251958331858e-05,
      "loss": 3.9881,
      "step": 305230
    },
    {
      "epoch": 0.6359166666666667,
      "grad_norm": 1.0991770029067993,
      "learning_rate": 8.8533526615686e-05,
      "loss": 4.018,
      "step": 305240
    },
    {
      "epoch": 0.6359375,
      "grad_norm": 1.0956062078475952,
      "learning_rate": 8.852453391356426e-05,
      "loss": 3.9249,
      "step": 305250
    },
    {
      "epoch": 0.6359583333333333,
      "grad_norm": 1.065713882446289,
      "learning_rate": 8.851554147699225e-05,
      "loss": 3.9155,
      "step": 305260
    },
    {
      "epoch": 0.6359791666666667,
      "grad_norm": 1.033099889755249,
      "learning_rate": 8.850654930600869e-05,
      "loss": 3.7962,
      "step": 305270
    },
    {
      "epoch": 0.636,
      "grad_norm": 1.1060423851013184,
      "learning_rate": 8.849755740065255e-05,
      "loss": 3.8986,
      "step": 305280
    },
    {
      "epoch": 0.6360208333333334,
      "grad_norm": 0.9663740396499634,
      "learning_rate": 8.84885657609626e-05,
      "loss": 3.894,
      "step": 305290
    },
    {
      "epoch": 0.6360416666666666,
      "grad_norm": 1.1962599754333496,
      "learning_rate": 8.847957438697764e-05,
      "loss": 3.8376,
      "step": 305300
    },
    {
      "epoch": 0.6360625,
      "grad_norm": 1.2250746488571167,
      "learning_rate": 8.847058327873667e-05,
      "loss": 3.8852,
      "step": 305310
    },
    {
      "epoch": 0.6360833333333333,
      "grad_norm": 1.1863905191421509,
      "learning_rate": 8.846159243627839e-05,
      "loss": 3.8228,
      "step": 305320
    },
    {
      "epoch": 0.6361041666666667,
      "grad_norm": 1.0432597398757935,
      "learning_rate": 8.845260185964169e-05,
      "loss": 3.8814,
      "step": 305330
    },
    {
      "epoch": 0.636125,
      "grad_norm": 1.1167309284210205,
      "learning_rate": 8.84436115488653e-05,
      "loss": 3.8127,
      "step": 305340
    },
    {
      "epoch": 0.6361458333333333,
      "grad_norm": 1.0709161758422852,
      "learning_rate": 8.843462150398821e-05,
      "loss": 3.8566,
      "step": 305350
    },
    {
      "epoch": 0.6361666666666667,
      "grad_norm": 1.1561776399612427,
      "learning_rate": 8.842563172504918e-05,
      "loss": 3.7749,
      "step": 305360
    },
    {
      "epoch": 0.6361875,
      "grad_norm": 1.4940073490142822,
      "learning_rate": 8.841664221208703e-05,
      "loss": 3.8369,
      "step": 305370
    },
    {
      "epoch": 0.6362083333333334,
      "grad_norm": 1.7218173742294312,
      "learning_rate": 8.840765296514061e-05,
      "loss": 3.7586,
      "step": 305380
    },
    {
      "epoch": 0.6362291666666666,
      "grad_norm": 1.0972936153411865,
      "learning_rate": 8.83986639842488e-05,
      "loss": 3.7759,
      "step": 305390
    },
    {
      "epoch": 0.63625,
      "grad_norm": 1.0396301746368408,
      "learning_rate": 8.83896752694503e-05,
      "loss": 3.8878,
      "step": 305400
    },
    {
      "epoch": 0.6362708333333333,
      "grad_norm": 1.0652357339859009,
      "learning_rate": 8.83806868207841e-05,
      "loss": 3.8679,
      "step": 305410
    },
    {
      "epoch": 0.6362916666666667,
      "grad_norm": 1.362625002861023,
      "learning_rate": 8.837169863828887e-05,
      "loss": 3.7471,
      "step": 305420
    },
    {
      "epoch": 0.6363125,
      "grad_norm": 1.1226450204849243,
      "learning_rate": 8.836271072200351e-05,
      "loss": 3.9674,
      "step": 305430
    },
    {
      "epoch": 0.6363333333333333,
      "grad_norm": 1.18618905544281,
      "learning_rate": 8.835372307196691e-05,
      "loss": 3.9641,
      "step": 305440
    },
    {
      "epoch": 0.6363541666666667,
      "grad_norm": 1.0632156133651733,
      "learning_rate": 8.834473568821778e-05,
      "loss": 3.8748,
      "step": 305450
    },
    {
      "epoch": 0.636375,
      "grad_norm": 1.046196699142456,
      "learning_rate": 8.833574857079495e-05,
      "loss": 3.6278,
      "step": 305460
    },
    {
      "epoch": 0.6363958333333334,
      "grad_norm": 1.0864341259002686,
      "learning_rate": 8.832676171973736e-05,
      "loss": 3.7273,
      "step": 305470
    },
    {
      "epoch": 0.6364166666666666,
      "grad_norm": 1.0753229856491089,
      "learning_rate": 8.831777513508368e-05,
      "loss": 3.817,
      "step": 305480
    },
    {
      "epoch": 0.6364375,
      "grad_norm": 1.1110329627990723,
      "learning_rate": 8.83087888168728e-05,
      "loss": 3.9214,
      "step": 305490
    },
    {
      "epoch": 0.6364583333333333,
      "grad_norm": 1.074723482131958,
      "learning_rate": 8.829980276514357e-05,
      "loss": 3.917,
      "step": 305500
    },
    {
      "epoch": 0.6364791666666667,
      "grad_norm": 1.1214439868927002,
      "learning_rate": 8.82908169799348e-05,
      "loss": 4.0023,
      "step": 305510
    },
    {
      "epoch": 0.6365,
      "grad_norm": 1.2033544778823853,
      "learning_rate": 8.828183146128519e-05,
      "loss": 4.0865,
      "step": 305520
    },
    {
      "epoch": 0.6365208333333333,
      "grad_norm": 1.1239829063415527,
      "learning_rate": 8.827284620923368e-05,
      "loss": 3.7104,
      "step": 305530
    },
    {
      "epoch": 0.6365416666666667,
      "grad_norm": 1.264670729637146,
      "learning_rate": 8.826386122381907e-05,
      "loss": 4.0075,
      "step": 305540
    },
    {
      "epoch": 0.6365625,
      "grad_norm": 1.062057614326477,
      "learning_rate": 8.825487650508008e-05,
      "loss": 3.9495,
      "step": 305550
    },
    {
      "epoch": 0.6365833333333333,
      "grad_norm": 1.1274354457855225,
      "learning_rate": 8.82458920530556e-05,
      "loss": 3.9698,
      "step": 305560
    },
    {
      "epoch": 0.6366041666666666,
      "grad_norm": 1.183394193649292,
      "learning_rate": 8.823690786778448e-05,
      "loss": 3.9129,
      "step": 305570
    },
    {
      "epoch": 0.636625,
      "grad_norm": 1.1038330793380737,
      "learning_rate": 8.822792394930538e-05,
      "loss": 3.8638,
      "step": 305580
    },
    {
      "epoch": 0.6366458333333334,
      "grad_norm": 1.116058111190796,
      "learning_rate": 8.821894029765724e-05,
      "loss": 3.8488,
      "step": 305590
    },
    {
      "epoch": 0.6366666666666667,
      "grad_norm": 0.9785283207893372,
      "learning_rate": 8.820995691287886e-05,
      "loss": 3.7739,
      "step": 305600
    },
    {
      "epoch": 0.6366875,
      "grad_norm": 1.0407313108444214,
      "learning_rate": 8.820097379500896e-05,
      "loss": 4.0675,
      "step": 305610
    },
    {
      "epoch": 0.6367083333333333,
      "grad_norm": 1.095623254776001,
      "learning_rate": 8.81919909440864e-05,
      "loss": 3.9211,
      "step": 305620
    },
    {
      "epoch": 0.6367291666666667,
      "grad_norm": 1.186479926109314,
      "learning_rate": 8.818300836015e-05,
      "loss": 3.7849,
      "step": 305630
    },
    {
      "epoch": 0.63675,
      "grad_norm": 1.071015477180481,
      "learning_rate": 8.817402604323853e-05,
      "loss": 3.7968,
      "step": 305640
    },
    {
      "epoch": 0.6367708333333333,
      "grad_norm": 1.1521415710449219,
      "learning_rate": 8.816504399339075e-05,
      "loss": 4.0173,
      "step": 305650
    },
    {
      "epoch": 0.6367916666666666,
      "grad_norm": 1.0199739933013916,
      "learning_rate": 8.815606221064554e-05,
      "loss": 3.7484,
      "step": 305660
    },
    {
      "epoch": 0.6368125,
      "grad_norm": 1.146296501159668,
      "learning_rate": 8.81470806950417e-05,
      "loss": 3.9557,
      "step": 305670
    },
    {
      "epoch": 0.6368333333333334,
      "grad_norm": 1.1492443084716797,
      "learning_rate": 8.813809944661791e-05,
      "loss": 3.9526,
      "step": 305680
    },
    {
      "epoch": 0.6368541666666667,
      "grad_norm": 1.0125305652618408,
      "learning_rate": 8.812911846541305e-05,
      "loss": 3.8042,
      "step": 305690
    },
    {
      "epoch": 0.636875,
      "grad_norm": 1.0502798557281494,
      "learning_rate": 8.812013775146599e-05,
      "loss": 3.9134,
      "step": 305700
    },
    {
      "epoch": 0.6368958333333333,
      "grad_norm": 1.0919291973114014,
      "learning_rate": 8.811115730481534e-05,
      "loss": 3.8802,
      "step": 305710
    },
    {
      "epoch": 0.6369166666666667,
      "grad_norm": 1.2253246307373047,
      "learning_rate": 8.810217712550002e-05,
      "loss": 3.9883,
      "step": 305720
    },
    {
      "epoch": 0.6369375,
      "grad_norm": 1.0241090059280396,
      "learning_rate": 8.809319721355885e-05,
      "loss": 3.9339,
      "step": 305730
    },
    {
      "epoch": 0.6369583333333333,
      "grad_norm": 1.0714360475540161,
      "learning_rate": 8.80842175690305e-05,
      "loss": 4.0642,
      "step": 305740
    },
    {
      "epoch": 0.6369791666666667,
      "grad_norm": 1.0864734649658203,
      "learning_rate": 8.807523819195384e-05,
      "loss": 3.7378,
      "step": 305750
    },
    {
      "epoch": 0.637,
      "grad_norm": 1.1308479309082031,
      "learning_rate": 8.806625908236768e-05,
      "loss": 3.8385,
      "step": 305760
    },
    {
      "epoch": 0.6370208333333334,
      "grad_norm": 1.190364122390747,
      "learning_rate": 8.805728024031072e-05,
      "loss": 3.9191,
      "step": 305770
    },
    {
      "epoch": 0.6370416666666666,
      "grad_norm": 1.1855884790420532,
      "learning_rate": 8.804830166582183e-05,
      "loss": 3.817,
      "step": 305780
    },
    {
      "epoch": 0.6370625,
      "grad_norm": 1.037540078163147,
      "learning_rate": 8.803932335893974e-05,
      "loss": 3.817,
      "step": 305790
    },
    {
      "epoch": 0.6370833333333333,
      "grad_norm": 1.0785887241363525,
      "learning_rate": 8.80303453197032e-05,
      "loss": 3.7395,
      "step": 305800
    },
    {
      "epoch": 0.6371041666666667,
      "grad_norm": 1.1010550260543823,
      "learning_rate": 8.802136754815111e-05,
      "loss": 4.0414,
      "step": 305810
    },
    {
      "epoch": 0.637125,
      "grad_norm": 1.0697238445281982,
      "learning_rate": 8.801239004432214e-05,
      "loss": 3.8984,
      "step": 305820
    },
    {
      "epoch": 0.6371458333333333,
      "grad_norm": 1.617844581604004,
      "learning_rate": 8.800341280825507e-05,
      "loss": 4.0698,
      "step": 305830
    },
    {
      "epoch": 0.6371666666666667,
      "grad_norm": 1.199110507965088,
      "learning_rate": 8.79944358399888e-05,
      "loss": 4.1824,
      "step": 305840
    },
    {
      "epoch": 0.6371875,
      "grad_norm": 1.1070173978805542,
      "learning_rate": 8.798545913956199e-05,
      "loss": 3.841,
      "step": 305850
    },
    {
      "epoch": 0.6372083333333334,
      "grad_norm": 1.2711838483810425,
      "learning_rate": 8.79764827070134e-05,
      "loss": 3.7707,
      "step": 305860
    },
    {
      "epoch": 0.6372291666666666,
      "grad_norm": 1.146728754043579,
      "learning_rate": 8.796750654238193e-05,
      "loss": 4.0495,
      "step": 305870
    },
    {
      "epoch": 0.63725,
      "grad_norm": 1.1384986639022827,
      "learning_rate": 8.795853064570624e-05,
      "loss": 3.7486,
      "step": 305880
    },
    {
      "epoch": 0.6372708333333333,
      "grad_norm": 1.2677992582321167,
      "learning_rate": 8.794955501702513e-05,
      "loss": 3.8506,
      "step": 305890
    },
    {
      "epoch": 0.6372916666666667,
      "grad_norm": 1.1240928173065186,
      "learning_rate": 8.794057965637741e-05,
      "loss": 3.8076,
      "step": 305900
    },
    {
      "epoch": 0.6373125,
      "grad_norm": 1.0509997606277466,
      "learning_rate": 8.793160456380185e-05,
      "loss": 3.7611,
      "step": 305910
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 1.070207118988037,
      "learning_rate": 8.792262973933714e-05,
      "loss": 3.7849,
      "step": 305920
    },
    {
      "epoch": 0.6373541666666667,
      "grad_norm": 1.0598348379135132,
      "learning_rate": 8.791365518302208e-05,
      "loss": 3.9537,
      "step": 305930
    },
    {
      "epoch": 0.637375,
      "grad_norm": 1.1632782220840454,
      "learning_rate": 8.79046808948955e-05,
      "loss": 4.0245,
      "step": 305940
    },
    {
      "epoch": 0.6373958333333334,
      "grad_norm": 1.0069481134414673,
      "learning_rate": 8.78957068749961e-05,
      "loss": 3.7627,
      "step": 305950
    },
    {
      "epoch": 0.6374166666666666,
      "grad_norm": 1.3964730501174927,
      "learning_rate": 8.788673312336263e-05,
      "loss": 4.0553,
      "step": 305960
    },
    {
      "epoch": 0.6374375,
      "grad_norm": 1.0459789037704468,
      "learning_rate": 8.787775964003394e-05,
      "loss": 3.9152,
      "step": 305970
    },
    {
      "epoch": 0.6374583333333333,
      "grad_norm": 0.9874184131622314,
      "learning_rate": 8.786878642504873e-05,
      "loss": 3.8591,
      "step": 305980
    },
    {
      "epoch": 0.6374791666666667,
      "grad_norm": 1.098376750946045,
      "learning_rate": 8.785981347844572e-05,
      "loss": 3.9889,
      "step": 305990
    },
    {
      "epoch": 0.6375,
      "grad_norm": 1.1864023208618164,
      "learning_rate": 8.785084080026378e-05,
      "loss": 4.0062,
      "step": 306000
    },
    {
      "epoch": 0.6375,
      "eval_loss": 3.5732791423797607,
      "eval_runtime": 6.8208,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 306000
    },
    {
      "epoch": 0.6375208333333333,
      "grad_norm": 1.0020725727081299,
      "learning_rate": 8.784186839054162e-05,
      "loss": 4.0006,
      "step": 306010
    },
    {
      "epoch": 0.6375416666666667,
      "grad_norm": 1.032611608505249,
      "learning_rate": 8.783289624931792e-05,
      "loss": 4.0749,
      "step": 306020
    },
    {
      "epoch": 0.6375625,
      "grad_norm": 1.2799804210662842,
      "learning_rate": 8.782392437663152e-05,
      "loss": 4.0057,
      "step": 306030
    },
    {
      "epoch": 0.6375833333333333,
      "grad_norm": 1.1669772863388062,
      "learning_rate": 8.781495277252118e-05,
      "loss": 3.9994,
      "step": 306040
    },
    {
      "epoch": 0.6376041666666666,
      "grad_norm": 1.2409495115280151,
      "learning_rate": 8.780598143702559e-05,
      "loss": 3.988,
      "step": 306050
    },
    {
      "epoch": 0.637625,
      "grad_norm": 1.1007753610610962,
      "learning_rate": 8.779701037018358e-05,
      "loss": 3.7112,
      "step": 306060
    },
    {
      "epoch": 0.6376458333333334,
      "grad_norm": 1.1887167692184448,
      "learning_rate": 8.778803957203388e-05,
      "loss": 3.8742,
      "step": 306070
    },
    {
      "epoch": 0.6376666666666667,
      "grad_norm": 1.0654311180114746,
      "learning_rate": 8.777906904261515e-05,
      "loss": 3.9143,
      "step": 306080
    },
    {
      "epoch": 0.6376875,
      "grad_norm": 1.1780539751052856,
      "learning_rate": 8.777009878196626e-05,
      "loss": 4.1005,
      "step": 306090
    },
    {
      "epoch": 0.6377083333333333,
      "grad_norm": 1.0476504564285278,
      "learning_rate": 8.776112879012595e-05,
      "loss": 3.9707,
      "step": 306100
    },
    {
      "epoch": 0.6377291666666667,
      "grad_norm": 1.012933373451233,
      "learning_rate": 8.775215906713283e-05,
      "loss": 3.8087,
      "step": 306110
    },
    {
      "epoch": 0.63775,
      "grad_norm": 1.1110799312591553,
      "learning_rate": 8.77431896130258e-05,
      "loss": 3.9604,
      "step": 306120
    },
    {
      "epoch": 0.6377708333333333,
      "grad_norm": 1.248942255973816,
      "learning_rate": 8.773422042784359e-05,
      "loss": 3.653,
      "step": 306130
    },
    {
      "epoch": 0.6377916666666666,
      "grad_norm": 1.3339815139770508,
      "learning_rate": 8.772525151162482e-05,
      "loss": 3.9771,
      "step": 306140
    },
    {
      "epoch": 0.6378125,
      "grad_norm": 1.0736610889434814,
      "learning_rate": 8.77162828644084e-05,
      "loss": 3.8229,
      "step": 306150
    },
    {
      "epoch": 0.6378333333333334,
      "grad_norm": 1.3256129026412964,
      "learning_rate": 8.770731448623293e-05,
      "loss": 4.0637,
      "step": 306160
    },
    {
      "epoch": 0.6378541666666667,
      "grad_norm": 1.211215615272522,
      "learning_rate": 8.769834637713716e-05,
      "loss": 3.8264,
      "step": 306170
    },
    {
      "epoch": 0.637875,
      "grad_norm": 1.191891074180603,
      "learning_rate": 8.768937853715996e-05,
      "loss": 3.9465,
      "step": 306180
    },
    {
      "epoch": 0.6378958333333333,
      "grad_norm": 1.1223317384719849,
      "learning_rate": 8.768041096633994e-05,
      "loss": 3.8659,
      "step": 306190
    },
    {
      "epoch": 0.6379166666666667,
      "grad_norm": 1.0880144834518433,
      "learning_rate": 8.76714436647159e-05,
      "loss": 3.9241,
      "step": 306200
    },
    {
      "epoch": 0.6379375,
      "grad_norm": 1.0719321966171265,
      "learning_rate": 8.766247663232652e-05,
      "loss": 3.98,
      "step": 306210
    },
    {
      "epoch": 0.6379583333333333,
      "grad_norm": 1.1305177211761475,
      "learning_rate": 8.765350986921057e-05,
      "loss": 3.943,
      "step": 306220
    },
    {
      "epoch": 0.6379791666666667,
      "grad_norm": 1.0422598123550415,
      "learning_rate": 8.76445433754068e-05,
      "loss": 3.7738,
      "step": 306230
    },
    {
      "epoch": 0.638,
      "grad_norm": 1.1954516172409058,
      "learning_rate": 8.76355771509539e-05,
      "loss": 3.8326,
      "step": 306240
    },
    {
      "epoch": 0.6380208333333334,
      "grad_norm": 1.1153055429458618,
      "learning_rate": 8.76266111958906e-05,
      "loss": 3.7806,
      "step": 306250
    },
    {
      "epoch": 0.6380416666666666,
      "grad_norm": 1.097731351852417,
      "learning_rate": 8.761764551025573e-05,
      "loss": 4.0581,
      "step": 306260
    },
    {
      "epoch": 0.6380625,
      "grad_norm": 1.028133749961853,
      "learning_rate": 8.760868009408785e-05,
      "loss": 3.9275,
      "step": 306270
    },
    {
      "epoch": 0.6380833333333333,
      "grad_norm": 1.063996434211731,
      "learning_rate": 8.759971494742585e-05,
      "loss": 4.189,
      "step": 306280
    },
    {
      "epoch": 0.6381041666666667,
      "grad_norm": 1.0434083938598633,
      "learning_rate": 8.759075007030833e-05,
      "loss": 3.9149,
      "step": 306290
    },
    {
      "epoch": 0.638125,
      "grad_norm": 1.0455267429351807,
      "learning_rate": 8.758178546277407e-05,
      "loss": 4.0318,
      "step": 306300
    },
    {
      "epoch": 0.6381458333333333,
      "grad_norm": 1.112768292427063,
      "learning_rate": 8.757282112486182e-05,
      "loss": 3.8614,
      "step": 306310
    },
    {
      "epoch": 0.6381666666666667,
      "grad_norm": 1.0303932428359985,
      "learning_rate": 8.756385705661025e-05,
      "loss": 3.9023,
      "step": 306320
    },
    {
      "epoch": 0.6381875,
      "grad_norm": 1.1669235229492188,
      "learning_rate": 8.755489325805812e-05,
      "loss": 3.9889,
      "step": 306330
    },
    {
      "epoch": 0.6382083333333334,
      "grad_norm": 1.0049223899841309,
      "learning_rate": 8.75459297292441e-05,
      "loss": 3.7093,
      "step": 306340
    },
    {
      "epoch": 0.6382291666666666,
      "grad_norm": 1.1203091144561768,
      "learning_rate": 8.753696647020698e-05,
      "loss": 3.9014,
      "step": 306350
    },
    {
      "epoch": 0.63825,
      "grad_norm": 1.0479446649551392,
      "learning_rate": 8.752800348098543e-05,
      "loss": 4.0618,
      "step": 306360
    },
    {
      "epoch": 0.6382708333333333,
      "grad_norm": 1.3090205192565918,
      "learning_rate": 8.751904076161815e-05,
      "loss": 3.7858,
      "step": 306370
    },
    {
      "epoch": 0.6382916666666667,
      "grad_norm": 1.1378834247589111,
      "learning_rate": 8.751007831214391e-05,
      "loss": 3.8416,
      "step": 306380
    },
    {
      "epoch": 0.6383125,
      "grad_norm": 1.0051512718200684,
      "learning_rate": 8.75011161326014e-05,
      "loss": 3.8626,
      "step": 306390
    },
    {
      "epoch": 0.6383333333333333,
      "grad_norm": 1.0822393894195557,
      "learning_rate": 8.749215422302931e-05,
      "loss": 3.8473,
      "step": 306400
    },
    {
      "epoch": 0.6383541666666667,
      "grad_norm": 1.0376875400543213,
      "learning_rate": 8.748319258346637e-05,
      "loss": 3.8214,
      "step": 306410
    },
    {
      "epoch": 0.638375,
      "grad_norm": 1.1373944282531738,
      "learning_rate": 8.747423121395132e-05,
      "loss": 3.96,
      "step": 306420
    },
    {
      "epoch": 0.6383958333333334,
      "grad_norm": 1.0315029621124268,
      "learning_rate": 8.746527011452282e-05,
      "loss": 3.6595,
      "step": 306430
    },
    {
      "epoch": 0.6384166666666666,
      "grad_norm": 1.0730000734329224,
      "learning_rate": 8.74563092852196e-05,
      "loss": 3.8049,
      "step": 306440
    },
    {
      "epoch": 0.6384375,
      "grad_norm": 1.0835129022598267,
      "learning_rate": 8.744734872608038e-05,
      "loss": 3.7643,
      "step": 306450
    },
    {
      "epoch": 0.6384583333333333,
      "grad_norm": 1.2246769666671753,
      "learning_rate": 8.743838843714383e-05,
      "loss": 3.8357,
      "step": 306460
    },
    {
      "epoch": 0.6384791666666667,
      "grad_norm": 1.0850512981414795,
      "learning_rate": 8.74294284184487e-05,
      "loss": 3.7262,
      "step": 306470
    },
    {
      "epoch": 0.6385,
      "grad_norm": 1.3252596855163574,
      "learning_rate": 8.742046867003368e-05,
      "loss": 3.8227,
      "step": 306480
    },
    {
      "epoch": 0.6385208333333333,
      "grad_norm": 1.1139278411865234,
      "learning_rate": 8.741150919193743e-05,
      "loss": 3.9037,
      "step": 306490
    },
    {
      "epoch": 0.6385416666666667,
      "grad_norm": 1.1155658960342407,
      "learning_rate": 8.74025499841987e-05,
      "loss": 4.0351,
      "step": 306500
    },
    {
      "epoch": 0.6385625,
      "grad_norm": 1.1348079442977905,
      "learning_rate": 8.739359104685625e-05,
      "loss": 4.0316,
      "step": 306510
    },
    {
      "epoch": 0.6385833333333333,
      "grad_norm": 1.3503977060317993,
      "learning_rate": 8.738463237994858e-05,
      "loss": 3.8259,
      "step": 306520
    },
    {
      "epoch": 0.6386041666666666,
      "grad_norm": 1.3054530620574951,
      "learning_rate": 8.737567398351462e-05,
      "loss": 4.0388,
      "step": 306530
    },
    {
      "epoch": 0.638625,
      "grad_norm": 1.05510675907135,
      "learning_rate": 8.736671585759292e-05,
      "loss": 3.8423,
      "step": 306540
    },
    {
      "epoch": 0.6386458333333334,
      "grad_norm": 0.9861156940460205,
      "learning_rate": 8.735775800222213e-05,
      "loss": 3.895,
      "step": 306550
    },
    {
      "epoch": 0.6386666666666667,
      "grad_norm": 1.0521208047866821,
      "learning_rate": 8.734880041744118e-05,
      "loss": 3.8385,
      "step": 306560
    },
    {
      "epoch": 0.6386875,
      "grad_norm": 1.2235374450683594,
      "learning_rate": 8.733984310328854e-05,
      "loss": 3.8918,
      "step": 306570
    },
    {
      "epoch": 0.6387083333333333,
      "grad_norm": 1.0136806964874268,
      "learning_rate": 8.733088605980291e-05,
      "loss": 3.7176,
      "step": 306580
    },
    {
      "epoch": 0.6387291666666667,
      "grad_norm": 1.0978306531906128,
      "learning_rate": 8.732192928702317e-05,
      "loss": 3.9603,
      "step": 306590
    },
    {
      "epoch": 0.63875,
      "grad_norm": 1.0619354248046875,
      "learning_rate": 8.731297278498782e-05,
      "loss": 3.9111,
      "step": 306600
    },
    {
      "epoch": 0.6387708333333333,
      "grad_norm": 1.2352540493011475,
      "learning_rate": 8.730401655373557e-05,
      "loss": 3.9543,
      "step": 306610
    },
    {
      "epoch": 0.6387916666666666,
      "grad_norm": 1.0775305032730103,
      "learning_rate": 8.729506059330526e-05,
      "loss": 3.7726,
      "step": 306620
    },
    {
      "epoch": 0.6388125,
      "grad_norm": 1.1167947053909302,
      "learning_rate": 8.728610490373542e-05,
      "loss": 3.8205,
      "step": 306630
    },
    {
      "epoch": 0.6388333333333334,
      "grad_norm": 1.3038489818572998,
      "learning_rate": 8.727714948506472e-05,
      "loss": 3.9083,
      "step": 306640
    },
    {
      "epoch": 0.6388541666666666,
      "grad_norm": 1.1918987035751343,
      "learning_rate": 8.7268194337332e-05,
      "loss": 3.9046,
      "step": 306650
    },
    {
      "epoch": 0.638875,
      "grad_norm": 1.0933653116226196,
      "learning_rate": 8.725923946057582e-05,
      "loss": 3.955,
      "step": 306660
    },
    {
      "epoch": 0.6388958333333333,
      "grad_norm": 1.0726840496063232,
      "learning_rate": 8.725028485483488e-05,
      "loss": 3.7329,
      "step": 306670
    },
    {
      "epoch": 0.6389166666666667,
      "grad_norm": 1.092354655265808,
      "learning_rate": 8.724133052014787e-05,
      "loss": 3.9259,
      "step": 306680
    },
    {
      "epoch": 0.6389375,
      "grad_norm": 1.0571744441986084,
      "learning_rate": 8.723237645655347e-05,
      "loss": 3.8374,
      "step": 306690
    },
    {
      "epoch": 0.6389583333333333,
      "grad_norm": 1.0285801887512207,
      "learning_rate": 8.722342266409036e-05,
      "loss": 3.9365,
      "step": 306700
    },
    {
      "epoch": 0.6389791666666667,
      "grad_norm": 1.0627681016921997,
      "learning_rate": 8.721446914279721e-05,
      "loss": 3.9442,
      "step": 306710
    },
    {
      "epoch": 0.639,
      "grad_norm": 1.140713095664978,
      "learning_rate": 8.720551589271271e-05,
      "loss": 3.9386,
      "step": 306720
    },
    {
      "epoch": 0.6390208333333334,
      "grad_norm": 1.0572447776794434,
      "learning_rate": 8.719656291387553e-05,
      "loss": 3.9985,
      "step": 306730
    },
    {
      "epoch": 0.6390416666666666,
      "grad_norm": 1.0867122411727905,
      "learning_rate": 8.718761020632433e-05,
      "loss": 3.7425,
      "step": 306740
    },
    {
      "epoch": 0.6390625,
      "grad_norm": 1.1522618532180786,
      "learning_rate": 8.717865777009779e-05,
      "loss": 3.9814,
      "step": 306750
    },
    {
      "epoch": 0.6390833333333333,
      "grad_norm": 1.0753151178359985,
      "learning_rate": 8.716970560523458e-05,
      "loss": 3.9223,
      "step": 306760
    },
    {
      "epoch": 0.6391041666666667,
      "grad_norm": 1.0857641696929932,
      "learning_rate": 8.716075371177339e-05,
      "loss": 3.807,
      "step": 306770
    },
    {
      "epoch": 0.639125,
      "grad_norm": 1.5052627325057983,
      "learning_rate": 8.715180208975284e-05,
      "loss": 3.982,
      "step": 306780
    },
    {
      "epoch": 0.6391458333333333,
      "grad_norm": 1.1262506246566772,
      "learning_rate": 8.714285073921172e-05,
      "loss": 3.9084,
      "step": 306790
    },
    {
      "epoch": 0.6391666666666667,
      "grad_norm": 1.1648951768875122,
      "learning_rate": 8.713389966018845e-05,
      "loss": 3.7329,
      "step": 306800
    },
    {
      "epoch": 0.6391875,
      "grad_norm": 1.0135470628738403,
      "learning_rate": 8.712494885272194e-05,
      "loss": 3.736,
      "step": 306810
    },
    {
      "epoch": 0.6392083333333334,
      "grad_norm": 1.2587815523147583,
      "learning_rate": 8.711599831685081e-05,
      "loss": 3.834,
      "step": 306820
    },
    {
      "epoch": 0.6392291666666666,
      "grad_norm": 1.0020122528076172,
      "learning_rate": 8.710704805261356e-05,
      "loss": 3.8918,
      "step": 306830
    },
    {
      "epoch": 0.63925,
      "grad_norm": 1.0807589292526245,
      "learning_rate": 8.709809806004903e-05,
      "loss": 3.8574,
      "step": 306840
    },
    {
      "epoch": 0.6392708333333333,
      "grad_norm": 1.1275371313095093,
      "learning_rate": 8.708914833919589e-05,
      "loss": 3.7073,
      "step": 306850
    },
    {
      "epoch": 0.6392916666666667,
      "grad_norm": 1.1246987581253052,
      "learning_rate": 8.708019889009257e-05,
      "loss": 3.8715,
      "step": 306860
    },
    {
      "epoch": 0.6393125,
      "grad_norm": 1.2847665548324585,
      "learning_rate": 8.707124971277796e-05,
      "loss": 4.1679,
      "step": 306870
    },
    {
      "epoch": 0.6393333333333333,
      "grad_norm": 1.153335452079773,
      "learning_rate": 8.706230080729073e-05,
      "loss": 3.7781,
      "step": 306880
    },
    {
      "epoch": 0.6393541666666667,
      "grad_norm": 1.12169349193573,
      "learning_rate": 8.705335217366929e-05,
      "loss": 3.8996,
      "step": 306890
    },
    {
      "epoch": 0.639375,
      "grad_norm": 1.0030133724212646,
      "learning_rate": 8.70444038119526e-05,
      "loss": 3.7268,
      "step": 306900
    },
    {
      "epoch": 0.6393958333333334,
      "grad_norm": 1.2056666612625122,
      "learning_rate": 8.703545572217909e-05,
      "loss": 3.6796,
      "step": 306910
    },
    {
      "epoch": 0.6394166666666666,
      "grad_norm": 1.0565674304962158,
      "learning_rate": 8.702650790438742e-05,
      "loss": 4.1162,
      "step": 306920
    },
    {
      "epoch": 0.6394375,
      "grad_norm": 1.0836987495422363,
      "learning_rate": 8.701756035861645e-05,
      "loss": 3.7466,
      "step": 306930
    },
    {
      "epoch": 0.6394583333333334,
      "grad_norm": 1.3022311925888062,
      "learning_rate": 8.700861308490464e-05,
      "loss": 4.045,
      "step": 306940
    },
    {
      "epoch": 0.6394791666666667,
      "grad_norm": 1.1000672578811646,
      "learning_rate": 8.699966608329059e-05,
      "loss": 3.7631,
      "step": 306950
    },
    {
      "epoch": 0.6395,
      "grad_norm": 1.0927801132202148,
      "learning_rate": 8.699071935381319e-05,
      "loss": 3.8257,
      "step": 306960
    },
    {
      "epoch": 0.6395208333333333,
      "grad_norm": 1.1625069379806519,
      "learning_rate": 8.698177289651087e-05,
      "loss": 4.0763,
      "step": 306970
    },
    {
      "epoch": 0.6395416666666667,
      "grad_norm": 1.1263706684112549,
      "learning_rate": 8.697282671142231e-05,
      "loss": 3.7845,
      "step": 306980
    },
    {
      "epoch": 0.6395625,
      "grad_norm": 1.0924309492111206,
      "learning_rate": 8.696388079858629e-05,
      "loss": 3.9885,
      "step": 306990
    },
    {
      "epoch": 0.6395833333333333,
      "grad_norm": 1.1043426990509033,
      "learning_rate": 8.695493515804129e-05,
      "loss": 3.6993,
      "step": 307000
    },
    {
      "epoch": 0.6395833333333333,
      "eval_loss": 3.5790724754333496,
      "eval_runtime": 7.3458,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 307000
    },
    {
      "epoch": 0.6396041666666666,
      "grad_norm": 1.131790041923523,
      "learning_rate": 8.694598978982598e-05,
      "loss": 4.1434,
      "step": 307010
    },
    {
      "epoch": 0.639625,
      "grad_norm": 1.1126518249511719,
      "learning_rate": 8.693704469397912e-05,
      "loss": 3.7831,
      "step": 307020
    },
    {
      "epoch": 0.6396458333333334,
      "grad_norm": 1.1048918962478638,
      "learning_rate": 8.692809987053924e-05,
      "loss": 3.7589,
      "step": 307030
    },
    {
      "epoch": 0.6396666666666667,
      "grad_norm": 1.1022510528564453,
      "learning_rate": 8.691915531954496e-05,
      "loss": 3.9168,
      "step": 307040
    },
    {
      "epoch": 0.6396875,
      "grad_norm": 1.0846635103225708,
      "learning_rate": 8.6910211041035e-05,
      "loss": 3.859,
      "step": 307050
    },
    {
      "epoch": 0.6397083333333333,
      "grad_norm": 1.0743999481201172,
      "learning_rate": 8.690126703504792e-05,
      "loss": 3.8836,
      "step": 307060
    },
    {
      "epoch": 0.6397291666666667,
      "grad_norm": 1.0739822387695312,
      "learning_rate": 8.689232330162243e-05,
      "loss": 3.9508,
      "step": 307070
    },
    {
      "epoch": 0.63975,
      "grad_norm": 1.0810142755508423,
      "learning_rate": 8.688337984079712e-05,
      "loss": 3.9713,
      "step": 307080
    },
    {
      "epoch": 0.6397708333333333,
      "grad_norm": 1.2614221572875977,
      "learning_rate": 8.687443665261059e-05,
      "loss": 3.9944,
      "step": 307090
    },
    {
      "epoch": 0.6397916666666666,
      "grad_norm": 1.0265244245529175,
      "learning_rate": 8.686549373710154e-05,
      "loss": 3.7335,
      "step": 307100
    },
    {
      "epoch": 0.6398125,
      "grad_norm": 1.059762954711914,
      "learning_rate": 8.685655109430854e-05,
      "loss": 4.018,
      "step": 307110
    },
    {
      "epoch": 0.6398333333333334,
      "grad_norm": 1.059302568435669,
      "learning_rate": 8.684760872427027e-05,
      "loss": 3.8953,
      "step": 307120
    },
    {
      "epoch": 0.6398541666666666,
      "grad_norm": 1.1560629606246948,
      "learning_rate": 8.683866662702532e-05,
      "loss": 3.733,
      "step": 307130
    },
    {
      "epoch": 0.639875,
      "grad_norm": 1.064067006111145,
      "learning_rate": 8.682972480261234e-05,
      "loss": 3.8236,
      "step": 307140
    },
    {
      "epoch": 0.6398958333333333,
      "grad_norm": 1.0861235857009888,
      "learning_rate": 8.682078325106993e-05,
      "loss": 3.892,
      "step": 307150
    },
    {
      "epoch": 0.6399166666666667,
      "grad_norm": 1.0372488498687744,
      "learning_rate": 8.68118419724368e-05,
      "loss": 3.9094,
      "step": 307160
    },
    {
      "epoch": 0.6399375,
      "grad_norm": 1.2481554746627808,
      "learning_rate": 8.680290096675137e-05,
      "loss": 3.7538,
      "step": 307170
    },
    {
      "epoch": 0.6399583333333333,
      "grad_norm": 1.156662940979004,
      "learning_rate": 8.679396023405245e-05,
      "loss": 3.7279,
      "step": 307180
    },
    {
      "epoch": 0.6399791666666667,
      "grad_norm": 1.0769531726837158,
      "learning_rate": 8.678501977437868e-05,
      "loss": 3.8849,
      "step": 307190
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0424766540527344,
      "learning_rate": 8.677607958776847e-05,
      "loss": 3.9304,
      "step": 307200
    },
    {
      "epoch": 0.6400208333333334,
      "grad_norm": 1.2097432613372803,
      "learning_rate": 8.676713967426063e-05,
      "loss": 3.9338,
      "step": 307210
    },
    {
      "epoch": 0.6400416666666666,
      "grad_norm": 1.1598156690597534,
      "learning_rate": 8.67582000338938e-05,
      "loss": 4.1399,
      "step": 307220
    },
    {
      "epoch": 0.6400625,
      "grad_norm": 1.1421629190444946,
      "learning_rate": 8.674926066670637e-05,
      "loss": 3.9064,
      "step": 307230
    },
    {
      "epoch": 0.6400833333333333,
      "grad_norm": 1.0244722366333008,
      "learning_rate": 8.674032157273715e-05,
      "loss": 3.7923,
      "step": 307240
    },
    {
      "epoch": 0.6401041666666667,
      "grad_norm": 1.1403814554214478,
      "learning_rate": 8.673138275202478e-05,
      "loss": 3.7143,
      "step": 307250
    },
    {
      "epoch": 0.640125,
      "grad_norm": 1.1585705280303955,
      "learning_rate": 8.672244420460768e-05,
      "loss": 4.0575,
      "step": 307260
    },
    {
      "epoch": 0.6401458333333333,
      "grad_norm": 0.9810735583305359,
      "learning_rate": 8.671350593052467e-05,
      "loss": 3.8539,
      "step": 307270
    },
    {
      "epoch": 0.6401666666666667,
      "grad_norm": 1.1914106607437134,
      "learning_rate": 8.670456792981421e-05,
      "loss": 3.9324,
      "step": 307280
    },
    {
      "epoch": 0.6401875,
      "grad_norm": 0.997297465801239,
      "learning_rate": 8.669563020251491e-05,
      "loss": 3.9167,
      "step": 307290
    },
    {
      "epoch": 0.6402083333333334,
      "grad_norm": 1.18279230594635,
      "learning_rate": 8.668669274866554e-05,
      "loss": 3.853,
      "step": 307300
    },
    {
      "epoch": 0.6402291666666666,
      "grad_norm": 1.148706078529358,
      "learning_rate": 8.667775556830455e-05,
      "loss": 3.9638,
      "step": 307310
    },
    {
      "epoch": 0.64025,
      "grad_norm": 0.9535380005836487,
      "learning_rate": 8.66688186614705e-05,
      "loss": 4.1234,
      "step": 307320
    },
    {
      "epoch": 0.6402708333333333,
      "grad_norm": 1.0628384351730347,
      "learning_rate": 8.665988202820224e-05,
      "loss": 3.8483,
      "step": 307330
    },
    {
      "epoch": 0.6402916666666667,
      "grad_norm": 1.2011690139770508,
      "learning_rate": 8.665094566853815e-05,
      "loss": 3.8242,
      "step": 307340
    },
    {
      "epoch": 0.6403125,
      "grad_norm": 1.0228482484817505,
      "learning_rate": 8.664200958251683e-05,
      "loss": 3.7735,
      "step": 307350
    },
    {
      "epoch": 0.6403333333333333,
      "grad_norm": 1.0213205814361572,
      "learning_rate": 8.66330737701771e-05,
      "loss": 3.7675,
      "step": 307360
    },
    {
      "epoch": 0.6403541666666667,
      "grad_norm": 1.084230899810791,
      "learning_rate": 8.662413823155731e-05,
      "loss": 4.1968,
      "step": 307370
    },
    {
      "epoch": 0.640375,
      "grad_norm": 1.2369697093963623,
      "learning_rate": 8.661520296669617e-05,
      "loss": 3.9112,
      "step": 307380
    },
    {
      "epoch": 0.6403958333333334,
      "grad_norm": 1.0276830196380615,
      "learning_rate": 8.660626797563228e-05,
      "loss": 3.8184,
      "step": 307390
    },
    {
      "epoch": 0.6404166666666666,
      "grad_norm": 0.9830074310302734,
      "learning_rate": 8.65973332584042e-05,
      "loss": 3.7202,
      "step": 307400
    },
    {
      "epoch": 0.6404375,
      "grad_norm": 1.157414436340332,
      "learning_rate": 8.658839881505056e-05,
      "loss": 3.9749,
      "step": 307410
    },
    {
      "epoch": 0.6404583333333334,
      "grad_norm": 1.110334038734436,
      "learning_rate": 8.65794646456099e-05,
      "loss": 3.8157,
      "step": 307420
    },
    {
      "epoch": 0.6404791666666667,
      "grad_norm": 1.8857284784317017,
      "learning_rate": 8.657053075012087e-05,
      "loss": 3.9742,
      "step": 307430
    },
    {
      "epoch": 0.6405,
      "grad_norm": 1.299095869064331,
      "learning_rate": 8.656159712862206e-05,
      "loss": 3.904,
      "step": 307440
    },
    {
      "epoch": 0.6405208333333333,
      "grad_norm": 1.136210322380066,
      "learning_rate": 8.655266378115201e-05,
      "loss": 4.0001,
      "step": 307450
    },
    {
      "epoch": 0.6405416666666667,
      "grad_norm": 1.1014620065689087,
      "learning_rate": 8.654373070774937e-05,
      "loss": 3.7559,
      "step": 307460
    },
    {
      "epoch": 0.6405625,
      "grad_norm": 1.0636661052703857,
      "learning_rate": 8.653479790845267e-05,
      "loss": 3.7489,
      "step": 307470
    },
    {
      "epoch": 0.6405833333333333,
      "grad_norm": 1.0871491432189941,
      "learning_rate": 8.652586538330054e-05,
      "loss": 3.8521,
      "step": 307480
    },
    {
      "epoch": 0.6406041666666666,
      "grad_norm": 1.0156747102737427,
      "learning_rate": 8.651693313233153e-05,
      "loss": 3.8337,
      "step": 307490
    },
    {
      "epoch": 0.640625,
      "grad_norm": 1.0747613906860352,
      "learning_rate": 8.650800115558423e-05,
      "loss": 3.6792,
      "step": 307500
    },
    {
      "epoch": 0.6406458333333334,
      "grad_norm": 1.1404026746749878,
      "learning_rate": 8.649906945309726e-05,
      "loss": 4.034,
      "step": 307510
    },
    {
      "epoch": 0.6406666666666667,
      "grad_norm": 0.9944962859153748,
      "learning_rate": 8.649013802490916e-05,
      "loss": 3.9494,
      "step": 307520
    },
    {
      "epoch": 0.6406875,
      "grad_norm": 1.0635051727294922,
      "learning_rate": 8.64812068710586e-05,
      "loss": 3.9441,
      "step": 307530
    },
    {
      "epoch": 0.6407083333333333,
      "grad_norm": 1.0424048900604248,
      "learning_rate": 8.647227599158397e-05,
      "loss": 3.8937,
      "step": 307540
    },
    {
      "epoch": 0.6407291666666667,
      "grad_norm": 1.1373885869979858,
      "learning_rate": 8.6463345386524e-05,
      "loss": 3.8558,
      "step": 307550
    },
    {
      "epoch": 0.64075,
      "grad_norm": 1.148930311203003,
      "learning_rate": 8.64544150559173e-05,
      "loss": 3.8282,
      "step": 307560
    },
    {
      "epoch": 0.6407708333333333,
      "grad_norm": 1.1335700750350952,
      "learning_rate": 8.644548499980223e-05,
      "loss": 3.9655,
      "step": 307570
    },
    {
      "epoch": 0.6407916666666666,
      "grad_norm": 1.0610966682434082,
      "learning_rate": 8.643655521821759e-05,
      "loss": 3.753,
      "step": 307580
    },
    {
      "epoch": 0.6408125,
      "grad_norm": 1.2957154512405396,
      "learning_rate": 8.642762571120193e-05,
      "loss": 3.8437,
      "step": 307590
    },
    {
      "epoch": 0.6408333333333334,
      "grad_norm": 1.2279201745986938,
      "learning_rate": 8.641869647879362e-05,
      "loss": 3.931,
      "step": 307600
    },
    {
      "epoch": 0.6408541666666666,
      "grad_norm": 1.1076761484146118,
      "learning_rate": 8.640976752103148e-05,
      "loss": 3.8804,
      "step": 307610
    },
    {
      "epoch": 0.640875,
      "grad_norm": 1.1135644912719727,
      "learning_rate": 8.6400838837954e-05,
      "loss": 4.1053,
      "step": 307620
    },
    {
      "epoch": 0.6408958333333333,
      "grad_norm": 1.1628769636154175,
      "learning_rate": 8.639191042959962e-05,
      "loss": 3.8647,
      "step": 307630
    },
    {
      "epoch": 0.6409166666666667,
      "grad_norm": 1.37226140499115,
      "learning_rate": 8.638298229600705e-05,
      "loss": 3.9936,
      "step": 307640
    },
    {
      "epoch": 0.6409375,
      "grad_norm": 2.0372045040130615,
      "learning_rate": 8.637405443721488e-05,
      "loss": 3.8254,
      "step": 307650
    },
    {
      "epoch": 0.6409583333333333,
      "grad_norm": 1.1025820970535278,
      "learning_rate": 8.63651268532615e-05,
      "loss": 3.8836,
      "step": 307660
    },
    {
      "epoch": 0.6409791666666667,
      "grad_norm": 1.1742920875549316,
      "learning_rate": 8.635619954418568e-05,
      "loss": 3.7175,
      "step": 307670
    },
    {
      "epoch": 0.641,
      "grad_norm": 0.9639987349510193,
      "learning_rate": 8.634727251002586e-05,
      "loss": 3.6598,
      "step": 307680
    },
    {
      "epoch": 0.6410208333333334,
      "grad_norm": 1.1302058696746826,
      "learning_rate": 8.63383457508206e-05,
      "loss": 3.9306,
      "step": 307690
    },
    {
      "epoch": 0.6410416666666666,
      "grad_norm": 1.1409099102020264,
      "learning_rate": 8.63294192666085e-05,
      "loss": 3.9201,
      "step": 307700
    },
    {
      "epoch": 0.6410625,
      "grad_norm": 1.0841927528381348,
      "learning_rate": 8.632049305742811e-05,
      "loss": 3.8632,
      "step": 307710
    },
    {
      "epoch": 0.6410833333333333,
      "grad_norm": 1.0793335437774658,
      "learning_rate": 8.631156712331799e-05,
      "loss": 3.8658,
      "step": 307720
    },
    {
      "epoch": 0.6411041666666667,
      "grad_norm": 1.2350366115570068,
      "learning_rate": 8.630264146431666e-05,
      "loss": 4.0088,
      "step": 307730
    },
    {
      "epoch": 0.641125,
      "grad_norm": 1.2884572744369507,
      "learning_rate": 8.629371608046273e-05,
      "loss": 3.9761,
      "step": 307740
    },
    {
      "epoch": 0.6411458333333333,
      "grad_norm": 1.0673023462295532,
      "learning_rate": 8.628479097179474e-05,
      "loss": 3.9427,
      "step": 307750
    },
    {
      "epoch": 0.6411666666666667,
      "grad_norm": 1.0198183059692383,
      "learning_rate": 8.627586613835121e-05,
      "loss": 3.9979,
      "step": 307760
    },
    {
      "epoch": 0.6411875,
      "grad_norm": 1.0614548921585083,
      "learning_rate": 8.626694158017073e-05,
      "loss": 3.7663,
      "step": 307770
    },
    {
      "epoch": 0.6412083333333334,
      "grad_norm": 1.0861412286758423,
      "learning_rate": 8.62580172972918e-05,
      "loss": 3.7907,
      "step": 307780
    },
    {
      "epoch": 0.6412291666666666,
      "grad_norm": 1.010095477104187,
      "learning_rate": 8.624909328975303e-05,
      "loss": 3.7197,
      "step": 307790
    },
    {
      "epoch": 0.64125,
      "grad_norm": 1.1569397449493408,
      "learning_rate": 8.624016955759296e-05,
      "loss": 3.7986,
      "step": 307800
    },
    {
      "epoch": 0.6412708333333333,
      "grad_norm": 1.1266709566116333,
      "learning_rate": 8.623124610085009e-05,
      "loss": 3.6401,
      "step": 307810
    },
    {
      "epoch": 0.6412916666666667,
      "grad_norm": 1.1301589012145996,
      "learning_rate": 8.622232291956303e-05,
      "loss": 4.0003,
      "step": 307820
    },
    {
      "epoch": 0.6413125,
      "grad_norm": 1.1267979145050049,
      "learning_rate": 8.621340001377025e-05,
      "loss": 4.0414,
      "step": 307830
    },
    {
      "epoch": 0.6413333333333333,
      "grad_norm": 1.1372435092926025,
      "learning_rate": 8.620447738351037e-05,
      "loss": 3.7226,
      "step": 307840
    },
    {
      "epoch": 0.6413541666666667,
      "grad_norm": 1.1391637325286865,
      "learning_rate": 8.619555502882186e-05,
      "loss": 3.9362,
      "step": 307850
    },
    {
      "epoch": 0.641375,
      "grad_norm": 1.0540772676467896,
      "learning_rate": 8.618663294974332e-05,
      "loss": 3.9274,
      "step": 307860
    },
    {
      "epoch": 0.6413958333333334,
      "grad_norm": 1.1132447719573975,
      "learning_rate": 8.617771114631328e-05,
      "loss": 3.7799,
      "step": 307870
    },
    {
      "epoch": 0.6414166666666666,
      "grad_norm": 1.4002708196640015,
      "learning_rate": 8.616878961857024e-05,
      "loss": 3.9933,
      "step": 307880
    },
    {
      "epoch": 0.6414375,
      "grad_norm": 1.1369391679763794,
      "learning_rate": 8.615986836655275e-05,
      "loss": 3.9321,
      "step": 307890
    },
    {
      "epoch": 0.6414583333333334,
      "grad_norm": 1.1385529041290283,
      "learning_rate": 8.615094739029944e-05,
      "loss": 3.9233,
      "step": 307900
    },
    {
      "epoch": 0.6414791666666667,
      "grad_norm": 1.5608795881271362,
      "learning_rate": 8.614202668984864e-05,
      "loss": 3.8731,
      "step": 307910
    },
    {
      "epoch": 0.6415,
      "grad_norm": 1.0594813823699951,
      "learning_rate": 8.613310626523909e-05,
      "loss": 3.8303,
      "step": 307920
    },
    {
      "epoch": 0.6415208333333333,
      "grad_norm": 1.071027398109436,
      "learning_rate": 8.612418611650927e-05,
      "loss": 3.65,
      "step": 307930
    },
    {
      "epoch": 0.6415416666666667,
      "grad_norm": 1.1156599521636963,
      "learning_rate": 8.611526624369758e-05,
      "loss": 3.7538,
      "step": 307940
    },
    {
      "epoch": 0.6415625,
      "grad_norm": 1.1847705841064453,
      "learning_rate": 8.61063466468427e-05,
      "loss": 3.886,
      "step": 307950
    },
    {
      "epoch": 0.6415833333333333,
      "grad_norm": 1.0425689220428467,
      "learning_rate": 8.609742732598318e-05,
      "loss": 3.8345,
      "step": 307960
    },
    {
      "epoch": 0.6416041666666666,
      "grad_norm": 1.1278105974197388,
      "learning_rate": 8.608850828115742e-05,
      "loss": 3.9784,
      "step": 307970
    },
    {
      "epoch": 0.641625,
      "grad_norm": 1.133454442024231,
      "learning_rate": 8.607958951240394e-05,
      "loss": 3.894,
      "step": 307980
    },
    {
      "epoch": 0.6416458333333334,
      "grad_norm": 1.147598385810852,
      "learning_rate": 8.607067101976146e-05,
      "loss": 4.146,
      "step": 307990
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 1.1428371667861938,
      "learning_rate": 8.60617528032683e-05,
      "loss": 3.9134,
      "step": 308000
    },
    {
      "epoch": 0.6416666666666667,
      "eval_loss": 3.573054790496826,
      "eval_runtime": 7.3227,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 308000
    },
    {
      "epoch": 0.6416875,
      "grad_norm": 1.1410435438156128,
      "learning_rate": 8.605283486296302e-05,
      "loss": 4.0072,
      "step": 308010
    },
    {
      "epoch": 0.6417083333333333,
      "grad_norm": 1.0710740089416504,
      "learning_rate": 8.604391719888428e-05,
      "loss": 3.8442,
      "step": 308020
    },
    {
      "epoch": 0.6417291666666667,
      "grad_norm": 1.0253020524978638,
      "learning_rate": 8.603499981107047e-05,
      "loss": 3.8106,
      "step": 308030
    },
    {
      "epoch": 0.64175,
      "grad_norm": 1.3574661016464233,
      "learning_rate": 8.602608269956012e-05,
      "loss": 4.031,
      "step": 308040
    },
    {
      "epoch": 0.6417708333333333,
      "grad_norm": 1.2327518463134766,
      "learning_rate": 8.601716586439177e-05,
      "loss": 3.8838,
      "step": 308050
    },
    {
      "epoch": 0.6417916666666666,
      "grad_norm": 1.0789459943771362,
      "learning_rate": 8.600824930560395e-05,
      "loss": 3.9171,
      "step": 308060
    },
    {
      "epoch": 0.6418125,
      "grad_norm": 1.0630993843078613,
      "learning_rate": 8.599933302323516e-05,
      "loss": 3.8431,
      "step": 308070
    },
    {
      "epoch": 0.6418333333333334,
      "grad_norm": 1.3016822338104248,
      "learning_rate": 8.59904170173239e-05,
      "loss": 3.8557,
      "step": 308080
    },
    {
      "epoch": 0.6418541666666666,
      "grad_norm": 1.0112767219543457,
      "learning_rate": 8.598150128790873e-05,
      "loss": 3.7638,
      "step": 308090
    },
    {
      "epoch": 0.641875,
      "grad_norm": 1.1231461763381958,
      "learning_rate": 8.597258583502812e-05,
      "loss": 3.8558,
      "step": 308100
    },
    {
      "epoch": 0.6418958333333333,
      "grad_norm": 1.0820046663284302,
      "learning_rate": 8.596367065872059e-05,
      "loss": 3.7495,
      "step": 308110
    },
    {
      "epoch": 0.6419166666666667,
      "grad_norm": 1.1296292543411255,
      "learning_rate": 8.595475575902465e-05,
      "loss": 3.9607,
      "step": 308120
    },
    {
      "epoch": 0.6419375,
      "grad_norm": 1.1302872896194458,
      "learning_rate": 8.594584113597883e-05,
      "loss": 3.782,
      "step": 308130
    },
    {
      "epoch": 0.6419583333333333,
      "grad_norm": 1.0575995445251465,
      "learning_rate": 8.593692678962162e-05,
      "loss": 4.0201,
      "step": 308140
    },
    {
      "epoch": 0.6419791666666667,
      "grad_norm": 1.3179904222488403,
      "learning_rate": 8.592801271999153e-05,
      "loss": 3.9432,
      "step": 308150
    },
    {
      "epoch": 0.642,
      "grad_norm": 1.194321870803833,
      "learning_rate": 8.591909892712706e-05,
      "loss": 3.7883,
      "step": 308160
    },
    {
      "epoch": 0.6420208333333334,
      "grad_norm": 1.041394829750061,
      "learning_rate": 8.591018541106672e-05,
      "loss": 3.8378,
      "step": 308170
    },
    {
      "epoch": 0.6420416666666666,
      "grad_norm": 1.1803876161575317,
      "learning_rate": 8.590127217184899e-05,
      "loss": 3.9127,
      "step": 308180
    },
    {
      "epoch": 0.6420625,
      "grad_norm": 0.9567805528640747,
      "learning_rate": 8.58923592095124e-05,
      "loss": 3.8828,
      "step": 308190
    },
    {
      "epoch": 0.6420833333333333,
      "grad_norm": 1.0974575281143188,
      "learning_rate": 8.588344652409548e-05,
      "loss": 4.1377,
      "step": 308200
    },
    {
      "epoch": 0.6421041666666667,
      "grad_norm": 1.015613079071045,
      "learning_rate": 8.587453411563666e-05,
      "loss": 3.9361,
      "step": 308210
    },
    {
      "epoch": 0.642125,
      "grad_norm": 1.0978188514709473,
      "learning_rate": 8.586562198417446e-05,
      "loss": 3.8279,
      "step": 308220
    },
    {
      "epoch": 0.6421458333333333,
      "grad_norm": 1.0439773797988892,
      "learning_rate": 8.58567101297474e-05,
      "loss": 3.8683,
      "step": 308230
    },
    {
      "epoch": 0.6421666666666667,
      "grad_norm": 1.0542014837265015,
      "learning_rate": 8.584779855239398e-05,
      "loss": 3.7939,
      "step": 308240
    },
    {
      "epoch": 0.6421875,
      "grad_norm": 1.0383130311965942,
      "learning_rate": 8.583888725215266e-05,
      "loss": 4.0186,
      "step": 308250
    },
    {
      "epoch": 0.6422083333333334,
      "grad_norm": 1.265206217765808,
      "learning_rate": 8.582997622906195e-05,
      "loss": 3.8403,
      "step": 308260
    },
    {
      "epoch": 0.6422291666666666,
      "grad_norm": 1.1038517951965332,
      "learning_rate": 8.58210654831604e-05,
      "loss": 3.8282,
      "step": 308270
    },
    {
      "epoch": 0.64225,
      "grad_norm": 1.270920753479004,
      "learning_rate": 8.581215501448639e-05,
      "loss": 4.0334,
      "step": 308280
    },
    {
      "epoch": 0.6422708333333333,
      "grad_norm": 1.049707055091858,
      "learning_rate": 8.58032448230784e-05,
      "loss": 3.7948,
      "step": 308290
    },
    {
      "epoch": 0.6422916666666667,
      "grad_norm": 1.0405422449111938,
      "learning_rate": 8.57943349089751e-05,
      "loss": 3.7714,
      "step": 308300
    },
    {
      "epoch": 0.6423125,
      "grad_norm": 1.0907881259918213,
      "learning_rate": 8.57854252722148e-05,
      "loss": 3.8756,
      "step": 308310
    },
    {
      "epoch": 0.6423333333333333,
      "grad_norm": 1.058670163154602,
      "learning_rate": 8.577651591283598e-05,
      "loss": 3.8023,
      "step": 308320
    },
    {
      "epoch": 0.6423541666666667,
      "grad_norm": 1.0806328058242798,
      "learning_rate": 8.576760683087732e-05,
      "loss": 3.7304,
      "step": 308330
    },
    {
      "epoch": 0.642375,
      "grad_norm": 1.060347318649292,
      "learning_rate": 8.575869802637711e-05,
      "loss": 3.7058,
      "step": 308340
    },
    {
      "epoch": 0.6423958333333334,
      "grad_norm": 1.4863646030426025,
      "learning_rate": 8.574978949937383e-05,
      "loss": 4.0698,
      "step": 308350
    },
    {
      "epoch": 0.6424166666666666,
      "grad_norm": 1.2689440250396729,
      "learning_rate": 8.574088124990615e-05,
      "loss": 3.8628,
      "step": 308360
    },
    {
      "epoch": 0.6424375,
      "grad_norm": 1.0685579776763916,
      "learning_rate": 8.573197327801237e-05,
      "loss": 3.9784,
      "step": 308370
    },
    {
      "epoch": 0.6424583333333334,
      "grad_norm": 1.1057162284851074,
      "learning_rate": 8.572306558373097e-05,
      "loss": 3.7512,
      "step": 308380
    },
    {
      "epoch": 0.6424791666666667,
      "grad_norm": 1.065977692604065,
      "learning_rate": 8.571415816710059e-05,
      "loss": 3.7404,
      "step": 308390
    },
    {
      "epoch": 0.6425,
      "grad_norm": 1.13911771774292,
      "learning_rate": 8.570525102815956e-05,
      "loss": 3.7539,
      "step": 308400
    },
    {
      "epoch": 0.6425208333333333,
      "grad_norm": 1.0210782289505005,
      "learning_rate": 8.569634416694638e-05,
      "loss": 4.0481,
      "step": 308410
    },
    {
      "epoch": 0.6425416666666667,
      "grad_norm": 1.0530471801757812,
      "learning_rate": 8.568743758349954e-05,
      "loss": 3.8064,
      "step": 308420
    },
    {
      "epoch": 0.6425625,
      "grad_norm": 1.1378716230392456,
      "learning_rate": 8.567853127785752e-05,
      "loss": 4.0059,
      "step": 308430
    },
    {
      "epoch": 0.6425833333333333,
      "grad_norm": 1.085985541343689,
      "learning_rate": 8.566962525005881e-05,
      "loss": 4.209,
      "step": 308440
    },
    {
      "epoch": 0.6426041666666666,
      "grad_norm": 1.321706771850586,
      "learning_rate": 8.566071950014181e-05,
      "loss": 3.7539,
      "step": 308450
    },
    {
      "epoch": 0.642625,
      "grad_norm": 1.3253873586654663,
      "learning_rate": 8.565181402814505e-05,
      "loss": 3.7555,
      "step": 308460
    },
    {
      "epoch": 0.6426458333333334,
      "grad_norm": 1.076884150505066,
      "learning_rate": 8.564290883410699e-05,
      "loss": 3.7486,
      "step": 308470
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 1.0617496967315674,
      "learning_rate": 8.563400391806608e-05,
      "loss": 3.9024,
      "step": 308480
    },
    {
      "epoch": 0.6426875,
      "grad_norm": 1.1538074016571045,
      "learning_rate": 8.562509928006081e-05,
      "loss": 3.9365,
      "step": 308490
    },
    {
      "epoch": 0.6427083333333333,
      "grad_norm": 1.4173963069915771,
      "learning_rate": 8.561619492012961e-05,
      "loss": 3.9057,
      "step": 308500
    },
    {
      "epoch": 0.6427291666666667,
      "grad_norm": 1.176655650138855,
      "learning_rate": 8.560729083831098e-05,
      "loss": 3.835,
      "step": 308510
    },
    {
      "epoch": 0.64275,
      "grad_norm": 1.0481295585632324,
      "learning_rate": 8.559838703464336e-05,
      "loss": 3.863,
      "step": 308520
    },
    {
      "epoch": 0.6427708333333333,
      "grad_norm": 1.2645994424819946,
      "learning_rate": 8.558948350916522e-05,
      "loss": 3.8812,
      "step": 308530
    },
    {
      "epoch": 0.6427916666666667,
      "grad_norm": 1.0894358158111572,
      "learning_rate": 8.5580580261915e-05,
      "loss": 3.7729,
      "step": 308540
    },
    {
      "epoch": 0.6428125,
      "grad_norm": 1.5905994176864624,
      "learning_rate": 8.55716772929312e-05,
      "loss": 3.9173,
      "step": 308550
    },
    {
      "epoch": 0.6428333333333334,
      "grad_norm": 1.0230098962783813,
      "learning_rate": 8.556277460225229e-05,
      "loss": 4.0596,
      "step": 308560
    },
    {
      "epoch": 0.6428541666666666,
      "grad_norm": 1.1117299795150757,
      "learning_rate": 8.555387218991658e-05,
      "loss": 3.8839,
      "step": 308570
    },
    {
      "epoch": 0.642875,
      "grad_norm": 1.143866777420044,
      "learning_rate": 8.554497005596269e-05,
      "loss": 3.8852,
      "step": 308580
    },
    {
      "epoch": 0.6428958333333333,
      "grad_norm": 0.958800733089447,
      "learning_rate": 8.553606820042907e-05,
      "loss": 4.001,
      "step": 308590
    },
    {
      "epoch": 0.6429166666666667,
      "grad_norm": 1.0491795539855957,
      "learning_rate": 8.5527166623354e-05,
      "loss": 3.9528,
      "step": 308600
    },
    {
      "epoch": 0.6429375,
      "grad_norm": 1.079789161682129,
      "learning_rate": 8.55182653247761e-05,
      "loss": 3.7405,
      "step": 308610
    },
    {
      "epoch": 0.6429583333333333,
      "grad_norm": 1.0081290006637573,
      "learning_rate": 8.550936430473384e-05,
      "loss": 4.0394,
      "step": 308620
    },
    {
      "epoch": 0.6429791666666667,
      "grad_norm": 1.1139411926269531,
      "learning_rate": 8.55004635632655e-05,
      "loss": 4.0024,
      "step": 308630
    },
    {
      "epoch": 0.643,
      "grad_norm": 1.1354265213012695,
      "learning_rate": 8.549156310040966e-05,
      "loss": 3.8652,
      "step": 308640
    },
    {
      "epoch": 0.6430208333333334,
      "grad_norm": 1.0887880325317383,
      "learning_rate": 8.548266291620482e-05,
      "loss": 3.8381,
      "step": 308650
    },
    {
      "epoch": 0.6430416666666666,
      "grad_norm": 1.5385634899139404,
      "learning_rate": 8.547376301068919e-05,
      "loss": 3.7499,
      "step": 308660
    },
    {
      "epoch": 0.6430625,
      "grad_norm": 1.1812399625778198,
      "learning_rate": 8.546486338390149e-05,
      "loss": 3.8117,
      "step": 308670
    },
    {
      "epoch": 0.6430833333333333,
      "grad_norm": 1.0053154230117798,
      "learning_rate": 8.545596403587996e-05,
      "loss": 3.9109,
      "step": 308680
    },
    {
      "epoch": 0.6431041666666667,
      "grad_norm": 1.1523163318634033,
      "learning_rate": 8.544706496666308e-05,
      "loss": 3.9814,
      "step": 308690
    },
    {
      "epoch": 0.643125,
      "grad_norm": 1.0508302450180054,
      "learning_rate": 8.543816617628946e-05,
      "loss": 3.7254,
      "step": 308700
    },
    {
      "epoch": 0.6431458333333333,
      "grad_norm": 1.165452480316162,
      "learning_rate": 8.542926766479733e-05,
      "loss": 3.8285,
      "step": 308710
    },
    {
      "epoch": 0.6431666666666667,
      "grad_norm": 1.0624053478240967,
      "learning_rate": 8.542036943222512e-05,
      "loss": 3.9427,
      "step": 308720
    },
    {
      "epoch": 0.6431875,
      "grad_norm": 1.0355414152145386,
      "learning_rate": 8.541147147861151e-05,
      "loss": 3.9935,
      "step": 308730
    },
    {
      "epoch": 0.6432083333333334,
      "grad_norm": 1.1857044696807861,
      "learning_rate": 8.540257380399471e-05,
      "loss": 3.7825,
      "step": 308740
    },
    {
      "epoch": 0.6432291666666666,
      "grad_norm": 1.0957821607589722,
      "learning_rate": 8.539367640841315e-05,
      "loss": 3.731,
      "step": 308750
    },
    {
      "epoch": 0.64325,
      "grad_norm": 1.1673163175582886,
      "learning_rate": 8.538477929190544e-05,
      "loss": 3.9235,
      "step": 308760
    },
    {
      "epoch": 0.6432708333333333,
      "grad_norm": 1.4032071828842163,
      "learning_rate": 8.537588245450988e-05,
      "loss": 3.9235,
      "step": 308770
    },
    {
      "epoch": 0.6432916666666667,
      "grad_norm": 1.052098274230957,
      "learning_rate": 8.536698589626492e-05,
      "loss": 3.8571,
      "step": 308780
    },
    {
      "epoch": 0.6433125,
      "grad_norm": 1.1107274293899536,
      "learning_rate": 8.535808961720899e-05,
      "loss": 3.8759,
      "step": 308790
    },
    {
      "epoch": 0.6433333333333333,
      "grad_norm": 1.2549844980239868,
      "learning_rate": 8.534919361738052e-05,
      "loss": 3.9757,
      "step": 308800
    },
    {
      "epoch": 0.6433541666666667,
      "grad_norm": 1.1646051406860352,
      "learning_rate": 8.534029789681796e-05,
      "loss": 3.9039,
      "step": 308810
    },
    {
      "epoch": 0.643375,
      "grad_norm": 1.1592869758605957,
      "learning_rate": 8.533140245555971e-05,
      "loss": 3.9503,
      "step": 308820
    },
    {
      "epoch": 0.6433958333333333,
      "grad_norm": 1.1126056909561157,
      "learning_rate": 8.532250729364419e-05,
      "loss": 4.0548,
      "step": 308830
    },
    {
      "epoch": 0.6434166666666666,
      "grad_norm": 0.9885843396186829,
      "learning_rate": 8.531361241110986e-05,
      "loss": 3.8381,
      "step": 308840
    },
    {
      "epoch": 0.6434375,
      "grad_norm": 1.1509275436401367,
      "learning_rate": 8.530471780799511e-05,
      "loss": 3.8655,
      "step": 308850
    },
    {
      "epoch": 0.6434583333333334,
      "grad_norm": 1.1678953170776367,
      "learning_rate": 8.529582348433838e-05,
      "loss": 3.8213,
      "step": 308860
    },
    {
      "epoch": 0.6434791666666667,
      "grad_norm": 1.2638626098632812,
      "learning_rate": 8.528692944017806e-05,
      "loss": 3.8323,
      "step": 308870
    },
    {
      "epoch": 0.6435,
      "grad_norm": 1.1769325733184814,
      "learning_rate": 8.52780356755526e-05,
      "loss": 3.8651,
      "step": 308880
    },
    {
      "epoch": 0.6435208333333333,
      "grad_norm": 1.0490834712982178,
      "learning_rate": 8.526914219050042e-05,
      "loss": 3.8847,
      "step": 308890
    },
    {
      "epoch": 0.6435416666666667,
      "grad_norm": 1.4642481803894043,
      "learning_rate": 8.526024898505997e-05,
      "loss": 3.8505,
      "step": 308900
    },
    {
      "epoch": 0.6435625,
      "grad_norm": 1.07279634475708,
      "learning_rate": 8.52513560592695e-05,
      "loss": 3.945,
      "step": 308910
    },
    {
      "epoch": 0.6435833333333333,
      "grad_norm": 1.1440261602401733,
      "learning_rate": 8.52424634131676e-05,
      "loss": 3.9004,
      "step": 308920
    },
    {
      "epoch": 0.6436041666666666,
      "grad_norm": 1.074689507484436,
      "learning_rate": 8.52335710467927e-05,
      "loss": 3.8225,
      "step": 308930
    },
    {
      "epoch": 0.643625,
      "grad_norm": 1.0545660257339478,
      "learning_rate": 8.522467896018301e-05,
      "loss": 3.808,
      "step": 308940
    },
    {
      "epoch": 0.6436458333333334,
      "grad_norm": 1.1994094848632812,
      "learning_rate": 8.521578715337711e-05,
      "loss": 3.9967,
      "step": 308950
    },
    {
      "epoch": 0.6436666666666667,
      "grad_norm": 1.0675854682922363,
      "learning_rate": 8.520689562641344e-05,
      "loss": 3.6813,
      "step": 308960
    },
    {
      "epoch": 0.6436875,
      "grad_norm": 1.1071979999542236,
      "learning_rate": 8.519800437933022e-05,
      "loss": 3.452,
      "step": 308970
    },
    {
      "epoch": 0.6437083333333333,
      "grad_norm": 1.104103446006775,
      "learning_rate": 8.518911341216602e-05,
      "loss": 3.9034,
      "step": 308980
    },
    {
      "epoch": 0.6437291666666667,
      "grad_norm": 1.2832268476486206,
      "learning_rate": 8.518022272495925e-05,
      "loss": 4.0174,
      "step": 308990
    },
    {
      "epoch": 0.64375,
      "grad_norm": 1.6459095478057861,
      "learning_rate": 8.517133231774816e-05,
      "loss": 3.7685,
      "step": 309000
    },
    {
      "epoch": 0.64375,
      "eval_loss": 3.565880537033081,
      "eval_runtime": 6.9762,
      "eval_samples_per_second": 1.433,
      "eval_steps_per_second": 0.43,
      "step": 309000
    },
    {
      "epoch": 0.6437708333333333,
      "grad_norm": 1.0822688341140747,
      "learning_rate": 8.516244219057129e-05,
      "loss": 3.8312,
      "step": 309010
    },
    {
      "epoch": 0.6437916666666667,
      "grad_norm": 1.1058930158615112,
      "learning_rate": 8.51535523434671e-05,
      "loss": 3.9161,
      "step": 309020
    },
    {
      "epoch": 0.6438125,
      "grad_norm": 1.34614896774292,
      "learning_rate": 8.514466277647374e-05,
      "loss": 3.9904,
      "step": 309030
    },
    {
      "epoch": 0.6438333333333334,
      "grad_norm": 1.204384684562683,
      "learning_rate": 8.51357734896299e-05,
      "loss": 3.7474,
      "step": 309040
    },
    {
      "epoch": 0.6438541666666666,
      "grad_norm": 1.0948550701141357,
      "learning_rate": 8.512688448297378e-05,
      "loss": 3.9833,
      "step": 309050
    },
    {
      "epoch": 0.643875,
      "grad_norm": 1.1778128147125244,
      "learning_rate": 8.511799575654378e-05,
      "loss": 3.7261,
      "step": 309060
    },
    {
      "epoch": 0.6438958333333333,
      "grad_norm": 1.0401872396469116,
      "learning_rate": 8.51091073103785e-05,
      "loss": 3.8594,
      "step": 309070
    },
    {
      "epoch": 0.6439166666666667,
      "grad_norm": 1.069205641746521,
      "learning_rate": 8.51002191445161e-05,
      "loss": 3.974,
      "step": 309080
    },
    {
      "epoch": 0.6439375,
      "grad_norm": 1.0293344259262085,
      "learning_rate": 8.509133125899502e-05,
      "loss": 3.7057,
      "step": 309090
    },
    {
      "epoch": 0.6439583333333333,
      "grad_norm": 1.1501978635787964,
      "learning_rate": 8.508244365385382e-05,
      "loss": 3.7998,
      "step": 309100
    },
    {
      "epoch": 0.6439791666666667,
      "grad_norm": 1.0949307680130005,
      "learning_rate": 8.507355632913069e-05,
      "loss": 4.0095,
      "step": 309110
    },
    {
      "epoch": 0.644,
      "grad_norm": 1.1070938110351562,
      "learning_rate": 8.506466928486405e-05,
      "loss": 4.0024,
      "step": 309120
    },
    {
      "epoch": 0.6440208333333334,
      "grad_norm": 1.142553687095642,
      "learning_rate": 8.505578252109244e-05,
      "loss": 3.7623,
      "step": 309130
    },
    {
      "epoch": 0.6440416666666666,
      "grad_norm": 1.134014368057251,
      "learning_rate": 8.504689603785409e-05,
      "loss": 3.8963,
      "step": 309140
    },
    {
      "epoch": 0.6440625,
      "grad_norm": 1.175342082977295,
      "learning_rate": 8.503800983518744e-05,
      "loss": 3.8981,
      "step": 309150
    },
    {
      "epoch": 0.6440833333333333,
      "grad_norm": 1.084369421005249,
      "learning_rate": 8.502912391313087e-05,
      "loss": 3.7272,
      "step": 309160
    },
    {
      "epoch": 0.6441041666666667,
      "grad_norm": 1.0936267375946045,
      "learning_rate": 8.502023827172277e-05,
      "loss": 3.9482,
      "step": 309170
    },
    {
      "epoch": 0.644125,
      "grad_norm": 2.0446834564208984,
      "learning_rate": 8.501135291100155e-05,
      "loss": 3.9365,
      "step": 309180
    },
    {
      "epoch": 0.6441458333333333,
      "grad_norm": 1.2874702215194702,
      "learning_rate": 8.500246783100553e-05,
      "loss": 3.7339,
      "step": 309190
    },
    {
      "epoch": 0.6441666666666667,
      "grad_norm": 1.0873762369155884,
      "learning_rate": 8.499358303177312e-05,
      "loss": 3.8619,
      "step": 309200
    },
    {
      "epoch": 0.6441875,
      "grad_norm": 1.099056601524353,
      "learning_rate": 8.498469851334272e-05,
      "loss": 3.8766,
      "step": 309210
    },
    {
      "epoch": 0.6442083333333334,
      "grad_norm": 1.1442217826843262,
      "learning_rate": 8.497581427575265e-05,
      "loss": 3.7932,
      "step": 309220
    },
    {
      "epoch": 0.6442291666666666,
      "grad_norm": 1.078020453453064,
      "learning_rate": 8.496693031904137e-05,
      "loss": 3.7941,
      "step": 309230
    },
    {
      "epoch": 0.64425,
      "grad_norm": 1.0521756410598755,
      "learning_rate": 8.495804664324718e-05,
      "loss": 3.8642,
      "step": 309240
    },
    {
      "epoch": 0.6442708333333333,
      "grad_norm": 1.0370514392852783,
      "learning_rate": 8.494916324840849e-05,
      "loss": 4.1437,
      "step": 309250
    },
    {
      "epoch": 0.6442916666666667,
      "grad_norm": 1.3909376859664917,
      "learning_rate": 8.494028013456365e-05,
      "loss": 3.7187,
      "step": 309260
    },
    {
      "epoch": 0.6443125,
      "grad_norm": 1.1933484077453613,
      "learning_rate": 8.493139730175114e-05,
      "loss": 4.0444,
      "step": 309270
    },
    {
      "epoch": 0.6443333333333333,
      "grad_norm": 1.004830241203308,
      "learning_rate": 8.49225147500091e-05,
      "loss": 3.7967,
      "step": 309280
    },
    {
      "epoch": 0.6443541666666667,
      "grad_norm": 1.6304627656936646,
      "learning_rate": 8.491363247937609e-05,
      "loss": 3.8364,
      "step": 309290
    },
    {
      "epoch": 0.644375,
      "grad_norm": 1.5932401418685913,
      "learning_rate": 8.490475048989049e-05,
      "loss": 3.7624,
      "step": 309300
    },
    {
      "epoch": 0.6443958333333333,
      "grad_norm": 1.0675400495529175,
      "learning_rate": 8.489586878159048e-05,
      "loss": 3.9039,
      "step": 309310
    },
    {
      "epoch": 0.6444166666666666,
      "grad_norm": 1.2408840656280518,
      "learning_rate": 8.488698735451462e-05,
      "loss": 3.9667,
      "step": 309320
    },
    {
      "epoch": 0.6444375,
      "grad_norm": 1.131505012512207,
      "learning_rate": 8.487810620870125e-05,
      "loss": 3.9761,
      "step": 309330
    },
    {
      "epoch": 0.6444583333333334,
      "grad_norm": 1.0252867937088013,
      "learning_rate": 8.486922534418857e-05,
      "loss": 3.8268,
      "step": 309340
    },
    {
      "epoch": 0.6444791666666667,
      "grad_norm": 1.264602541923523,
      "learning_rate": 8.48603447610151e-05,
      "loss": 3.8356,
      "step": 309350
    },
    {
      "epoch": 0.6445,
      "grad_norm": 1.1139497756958008,
      "learning_rate": 8.485146445921923e-05,
      "loss": 3.9094,
      "step": 309360
    },
    {
      "epoch": 0.6445208333333333,
      "grad_norm": 1.0802624225616455,
      "learning_rate": 8.484258443883913e-05,
      "loss": 3.7101,
      "step": 309370
    },
    {
      "epoch": 0.6445416666666667,
      "grad_norm": 1.0683398246765137,
      "learning_rate": 8.483370469991332e-05,
      "loss": 3.9087,
      "step": 309380
    },
    {
      "epoch": 0.6445625,
      "grad_norm": 1.094194769859314,
      "learning_rate": 8.482482524248019e-05,
      "loss": 3.9388,
      "step": 309390
    },
    {
      "epoch": 0.6445833333333333,
      "grad_norm": 1.0831549167633057,
      "learning_rate": 8.48159460665779e-05,
      "loss": 3.8985,
      "step": 309400
    },
    {
      "epoch": 0.6446041666666666,
      "grad_norm": 1.120434284210205,
      "learning_rate": 8.480706717224502e-05,
      "loss": 3.8406,
      "step": 309410
    },
    {
      "epoch": 0.644625,
      "grad_norm": 1.2659235000610352,
      "learning_rate": 8.479818855951975e-05,
      "loss": 3.7605,
      "step": 309420
    },
    {
      "epoch": 0.6446458333333334,
      "grad_norm": 1.1535359621047974,
      "learning_rate": 8.478931022844045e-05,
      "loss": 4.0716,
      "step": 309430
    },
    {
      "epoch": 0.6446666666666667,
      "grad_norm": 1.0859931707382202,
      "learning_rate": 8.478043217904561e-05,
      "loss": 3.8665,
      "step": 309440
    },
    {
      "epoch": 0.6446875,
      "grad_norm": 1.0324658155441284,
      "learning_rate": 8.477155441137345e-05,
      "loss": 3.8317,
      "step": 309450
    },
    {
      "epoch": 0.6447083333333333,
      "grad_norm": 0.9975939989089966,
      "learning_rate": 8.476267692546235e-05,
      "loss": 3.802,
      "step": 309460
    },
    {
      "epoch": 0.6447291666666667,
      "grad_norm": 1.135718584060669,
      "learning_rate": 8.475379972135066e-05,
      "loss": 4.057,
      "step": 309470
    },
    {
      "epoch": 0.64475,
      "grad_norm": 1.0311444997787476,
      "learning_rate": 8.474492279907674e-05,
      "loss": 3.8321,
      "step": 309480
    },
    {
      "epoch": 0.6447708333333333,
      "grad_norm": 1.0743663311004639,
      "learning_rate": 8.47360461586789e-05,
      "loss": 3.8059,
      "step": 309490
    },
    {
      "epoch": 0.6447916666666667,
      "grad_norm": 0.988898754119873,
      "learning_rate": 8.472716980019554e-05,
      "loss": 4.0153,
      "step": 309500
    },
    {
      "epoch": 0.6448125,
      "grad_norm": 1.080246090888977,
      "learning_rate": 8.471829372366494e-05,
      "loss": 3.6882,
      "step": 309510
    },
    {
      "epoch": 0.6448333333333334,
      "grad_norm": 1.0755856037139893,
      "learning_rate": 8.470941792912549e-05,
      "loss": 3.813,
      "step": 309520
    },
    {
      "epoch": 0.6448541666666666,
      "grad_norm": 1.32808256149292,
      "learning_rate": 8.47005424166155e-05,
      "loss": 3.8701,
      "step": 309530
    },
    {
      "epoch": 0.644875,
      "grad_norm": 1.1132134199142456,
      "learning_rate": 8.469166718617333e-05,
      "loss": 3.9209,
      "step": 309540
    },
    {
      "epoch": 0.6448958333333333,
      "grad_norm": 1.0240802764892578,
      "learning_rate": 8.46827922378373e-05,
      "loss": 3.7943,
      "step": 309550
    },
    {
      "epoch": 0.6449166666666667,
      "grad_norm": 1.1927844285964966,
      "learning_rate": 8.467391757164575e-05,
      "loss": 3.9101,
      "step": 309560
    },
    {
      "epoch": 0.6449375,
      "grad_norm": 1.2427253723144531,
      "learning_rate": 8.466504318763702e-05,
      "loss": 4.0615,
      "step": 309570
    },
    {
      "epoch": 0.6449583333333333,
      "grad_norm": 1.1146371364593506,
      "learning_rate": 8.465616908584945e-05,
      "loss": 3.7778,
      "step": 309580
    },
    {
      "epoch": 0.6449791666666667,
      "grad_norm": 1.2194432020187378,
      "learning_rate": 8.464729526632135e-05,
      "loss": 3.7307,
      "step": 309590
    },
    {
      "epoch": 0.645,
      "grad_norm": 1.1630347967147827,
      "learning_rate": 8.463842172909106e-05,
      "loss": 3.7672,
      "step": 309600
    },
    {
      "epoch": 0.6450208333333334,
      "grad_norm": 1.1292046308517456,
      "learning_rate": 8.462954847419695e-05,
      "loss": 3.7055,
      "step": 309610
    },
    {
      "epoch": 0.6450416666666666,
      "grad_norm": 1.1602199077606201,
      "learning_rate": 8.46206755016773e-05,
      "loss": 3.9302,
      "step": 309620
    },
    {
      "epoch": 0.6450625,
      "grad_norm": 1.2348569631576538,
      "learning_rate": 8.461180281157044e-05,
      "loss": 3.879,
      "step": 309630
    },
    {
      "epoch": 0.6450833333333333,
      "grad_norm": 1.1413456201553345,
      "learning_rate": 8.460293040391477e-05,
      "loss": 3.8325,
      "step": 309640
    },
    {
      "epoch": 0.6451041666666667,
      "grad_norm": 1.0582298040390015,
      "learning_rate": 8.459405827874846e-05,
      "loss": 3.9752,
      "step": 309650
    },
    {
      "epoch": 0.645125,
      "grad_norm": 1.1647998094558716,
      "learning_rate": 8.458518643610995e-05,
      "loss": 3.7725,
      "step": 309660
    },
    {
      "epoch": 0.6451458333333333,
      "grad_norm": 0.9954255819320679,
      "learning_rate": 8.457631487603764e-05,
      "loss": 3.8418,
      "step": 309670
    },
    {
      "epoch": 0.6451666666666667,
      "grad_norm": 1.3724323511123657,
      "learning_rate": 8.456744359856961e-05,
      "loss": 3.9836,
      "step": 309680
    },
    {
      "epoch": 0.6451875,
      "grad_norm": 1.12290358543396,
      "learning_rate": 8.45585726037444e-05,
      "loss": 3.8505,
      "step": 309690
    },
    {
      "epoch": 0.6452083333333334,
      "grad_norm": 1.0950852632522583,
      "learning_rate": 8.454970189160031e-05,
      "loss": 3.942,
      "step": 309700
    },
    {
      "epoch": 0.6452291666666666,
      "grad_norm": 1.067955732345581,
      "learning_rate": 8.454083146217545e-05,
      "loss": 3.7565,
      "step": 309710
    },
    {
      "epoch": 0.64525,
      "grad_norm": 1.2457438707351685,
      "learning_rate": 8.453196131550838e-05,
      "loss": 3.6751,
      "step": 309720
    },
    {
      "epoch": 0.6452708333333333,
      "grad_norm": 1.2111507654190063,
      "learning_rate": 8.452309145163738e-05,
      "loss": 3.8965,
      "step": 309730
    },
    {
      "epoch": 0.6452916666666667,
      "grad_norm": 1.061367154121399,
      "learning_rate": 8.451422187060062e-05,
      "loss": 3.7475,
      "step": 309740
    },
    {
      "epoch": 0.6453125,
      "grad_norm": 1.0703678131103516,
      "learning_rate": 8.450535257243649e-05,
      "loss": 3.8896,
      "step": 309750
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 1.1094250679016113,
      "learning_rate": 8.44964835571834e-05,
      "loss": 3.6844,
      "step": 309760
    },
    {
      "epoch": 0.6453541666666667,
      "grad_norm": 1.1312791109085083,
      "learning_rate": 8.448761482487952e-05,
      "loss": 3.7885,
      "step": 309770
    },
    {
      "epoch": 0.645375,
      "grad_norm": 1.0892008543014526,
      "learning_rate": 8.44787463755632e-05,
      "loss": 3.9266,
      "step": 309780
    },
    {
      "epoch": 0.6453958333333333,
      "grad_norm": 1.0707610845565796,
      "learning_rate": 8.446987820927278e-05,
      "loss": 3.7123,
      "step": 309790
    },
    {
      "epoch": 0.6454166666666666,
      "grad_norm": 1.0485714673995972,
      "learning_rate": 8.446101032604654e-05,
      "loss": 3.7575,
      "step": 309800
    },
    {
      "epoch": 0.6454375,
      "grad_norm": 1.2778332233428955,
      "learning_rate": 8.445214272592278e-05,
      "loss": 3.9103,
      "step": 309810
    },
    {
      "epoch": 0.6454583333333334,
      "grad_norm": 1.0335500240325928,
      "learning_rate": 8.444327540893983e-05,
      "loss": 3.8482,
      "step": 309820
    },
    {
      "epoch": 0.6454791666666667,
      "grad_norm": 1.1986653804779053,
      "learning_rate": 8.443440837513599e-05,
      "loss": 3.7924,
      "step": 309830
    },
    {
      "epoch": 0.6455,
      "grad_norm": 1.1035150289535522,
      "learning_rate": 8.442554162454954e-05,
      "loss": 3.838,
      "step": 309840
    },
    {
      "epoch": 0.6455208333333333,
      "grad_norm": 1.0323776006698608,
      "learning_rate": 8.441667515721879e-05,
      "loss": 3.9015,
      "step": 309850
    },
    {
      "epoch": 0.6455416666666667,
      "grad_norm": 1.083095669746399,
      "learning_rate": 8.440780897318204e-05,
      "loss": 3.83,
      "step": 309860
    },
    {
      "epoch": 0.6455625,
      "grad_norm": 1.085483193397522,
      "learning_rate": 8.439894307247761e-05,
      "loss": 3.8496,
      "step": 309870
    },
    {
      "epoch": 0.6455833333333333,
      "grad_norm": 1.0624799728393555,
      "learning_rate": 8.439007745514379e-05,
      "loss": 3.8638,
      "step": 309880
    },
    {
      "epoch": 0.6456041666666666,
      "grad_norm": 1.1631883382797241,
      "learning_rate": 8.438121212121884e-05,
      "loss": 3.8951,
      "step": 309890
    },
    {
      "epoch": 0.645625,
      "grad_norm": 1.1232829093933105,
      "learning_rate": 8.437234707074108e-05,
      "loss": 3.7476,
      "step": 309900
    },
    {
      "epoch": 0.6456458333333334,
      "grad_norm": 1.243774175643921,
      "learning_rate": 8.436348230374882e-05,
      "loss": 3.997,
      "step": 309910
    },
    {
      "epoch": 0.6456666666666667,
      "grad_norm": 1.1846412420272827,
      "learning_rate": 8.435461782028033e-05,
      "loss": 3.9725,
      "step": 309920
    },
    {
      "epoch": 0.6456875,
      "grad_norm": 1.0675145387649536,
      "learning_rate": 8.43457536203739e-05,
      "loss": 3.9803,
      "step": 309930
    },
    {
      "epoch": 0.6457083333333333,
      "grad_norm": 1.026930570602417,
      "learning_rate": 8.433688970406782e-05,
      "loss": 4.0337,
      "step": 309940
    },
    {
      "epoch": 0.6457291666666667,
      "grad_norm": 1.121330738067627,
      "learning_rate": 8.432802607140039e-05,
      "loss": 4.0096,
      "step": 309950
    },
    {
      "epoch": 0.64575,
      "grad_norm": 1.0345638990402222,
      "learning_rate": 8.43191627224099e-05,
      "loss": 3.9214,
      "step": 309960
    },
    {
      "epoch": 0.6457708333333333,
      "grad_norm": 0.9543351531028748,
      "learning_rate": 8.431029965713463e-05,
      "loss": 3.6395,
      "step": 309970
    },
    {
      "epoch": 0.6457916666666667,
      "grad_norm": 1.0373321771621704,
      "learning_rate": 8.430143687561287e-05,
      "loss": 3.8694,
      "step": 309980
    },
    {
      "epoch": 0.6458125,
      "grad_norm": 1.0896683931350708,
      "learning_rate": 8.429257437788287e-05,
      "loss": 3.7125,
      "step": 309990
    },
    {
      "epoch": 0.6458333333333334,
      "grad_norm": 1.0348039865493774,
      "learning_rate": 8.428371216398297e-05,
      "loss": 3.8434,
      "step": 310000
    },
    {
      "epoch": 0.6458333333333334,
      "eval_loss": 3.5666794776916504,
      "eval_runtime": 6.8514,
      "eval_samples_per_second": 1.46,
      "eval_steps_per_second": 0.438,
      "step": 310000
    },
    {
      "epoch": 0.6458541666666666,
      "grad_norm": 1.3085459470748901,
      "learning_rate": 8.427485023395141e-05,
      "loss": 3.8275,
      "step": 310010
    },
    {
      "epoch": 0.645875,
      "grad_norm": 1.1481225490570068,
      "learning_rate": 8.426598858782648e-05,
      "loss": 3.9824,
      "step": 310020
    },
    {
      "epoch": 0.6458958333333333,
      "grad_norm": 1.0918302536010742,
      "learning_rate": 8.425712722564647e-05,
      "loss": 3.8245,
      "step": 310030
    },
    {
      "epoch": 0.6459166666666667,
      "grad_norm": 1.3181228637695312,
      "learning_rate": 8.424826614744968e-05,
      "loss": 3.8166,
      "step": 310040
    },
    {
      "epoch": 0.6459375,
      "grad_norm": 1.047745704650879,
      "learning_rate": 8.423940535327432e-05,
      "loss": 3.9666,
      "step": 310050
    },
    {
      "epoch": 0.6459583333333333,
      "grad_norm": 1.1451942920684814,
      "learning_rate": 8.423054484315863e-05,
      "loss": 3.7733,
      "step": 310060
    },
    {
      "epoch": 0.6459791666666667,
      "grad_norm": 1.0743858814239502,
      "learning_rate": 8.422168461714106e-05,
      "loss": 3.9037,
      "step": 310070
    },
    {
      "epoch": 0.646,
      "grad_norm": 1.7817906141281128,
      "learning_rate": 8.421282467525973e-05,
      "loss": 3.8744,
      "step": 310080
    },
    {
      "epoch": 0.6460208333333334,
      "grad_norm": 1.1834717988967896,
      "learning_rate": 8.42039650175529e-05,
      "loss": 3.8105,
      "step": 310090
    },
    {
      "epoch": 0.6460416666666666,
      "grad_norm": 2.1163265705108643,
      "learning_rate": 8.419510564405901e-05,
      "loss": 3.8801,
      "step": 310100
    },
    {
      "epoch": 0.6460625,
      "grad_norm": 1.2509357929229736,
      "learning_rate": 8.418624655481617e-05,
      "loss": 3.9983,
      "step": 310110
    },
    {
      "epoch": 0.6460833333333333,
      "grad_norm": 1.315040946006775,
      "learning_rate": 8.417738774986262e-05,
      "loss": 3.7281,
      "step": 310120
    },
    {
      "epoch": 0.6461041666666667,
      "grad_norm": 1.2885944843292236,
      "learning_rate": 8.416852922923682e-05,
      "loss": 3.7785,
      "step": 310130
    },
    {
      "epoch": 0.646125,
      "grad_norm": 1.1442357301712036,
      "learning_rate": 8.415967099297686e-05,
      "loss": 4.0225,
      "step": 310140
    },
    {
      "epoch": 0.6461458333333333,
      "grad_norm": 1.0843122005462646,
      "learning_rate": 8.415081304112101e-05,
      "loss": 3.7911,
      "step": 310150
    },
    {
      "epoch": 0.6461666666666667,
      "grad_norm": 1.266781210899353,
      "learning_rate": 8.414195537370768e-05,
      "loss": 3.7029,
      "step": 310160
    },
    {
      "epoch": 0.6461875,
      "grad_norm": 1.0507676601409912,
      "learning_rate": 8.4133097990775e-05,
      "loss": 3.6857,
      "step": 310170
    },
    {
      "epoch": 0.6462083333333334,
      "grad_norm": 1.0721324682235718,
      "learning_rate": 8.412424089236124e-05,
      "loss": 3.8828,
      "step": 310180
    },
    {
      "epoch": 0.6462291666666666,
      "grad_norm": 1.1265863180160522,
      "learning_rate": 8.41153840785047e-05,
      "loss": 3.9758,
      "step": 310190
    },
    {
      "epoch": 0.64625,
      "grad_norm": 1.0730994939804077,
      "learning_rate": 8.410652754924361e-05,
      "loss": 4.1456,
      "step": 310200
    },
    {
      "epoch": 0.6462708333333333,
      "grad_norm": 1.1457754373550415,
      "learning_rate": 8.409767130461624e-05,
      "loss": 3.8432,
      "step": 310210
    },
    {
      "epoch": 0.6462916666666667,
      "grad_norm": 1.1376943588256836,
      "learning_rate": 8.408881534466086e-05,
      "loss": 3.7156,
      "step": 310220
    },
    {
      "epoch": 0.6463125,
      "grad_norm": 1.8341026306152344,
      "learning_rate": 8.407995966941569e-05,
      "loss": 3.9338,
      "step": 310230
    },
    {
      "epoch": 0.6463333333333333,
      "grad_norm": 1.003000020980835,
      "learning_rate": 8.407110427891901e-05,
      "loss": 3.9768,
      "step": 310240
    },
    {
      "epoch": 0.6463541666666667,
      "grad_norm": 1.062016248703003,
      "learning_rate": 8.406224917320907e-05,
      "loss": 3.9732,
      "step": 310250
    },
    {
      "epoch": 0.646375,
      "grad_norm": 1.0917448997497559,
      "learning_rate": 8.405339435232411e-05,
      "loss": 3.909,
      "step": 310260
    },
    {
      "epoch": 0.6463958333333333,
      "grad_norm": 1.1992247104644775,
      "learning_rate": 8.404453981630239e-05,
      "loss": 3.8858,
      "step": 310270
    },
    {
      "epoch": 0.6464166666666666,
      "grad_norm": 1.0473066568374634,
      "learning_rate": 8.403568556518212e-05,
      "loss": 3.9371,
      "step": 310280
    },
    {
      "epoch": 0.6464375,
      "grad_norm": 1.2302838563919067,
      "learning_rate": 8.40268315990016e-05,
      "loss": 3.9235,
      "step": 310290
    },
    {
      "epoch": 0.6464583333333334,
      "grad_norm": 1.1066092252731323,
      "learning_rate": 8.401797791779904e-05,
      "loss": 4.0278,
      "step": 310300
    },
    {
      "epoch": 0.6464791666666667,
      "grad_norm": 1.1556607484817505,
      "learning_rate": 8.400912452161271e-05,
      "loss": 3.8464,
      "step": 310310
    },
    {
      "epoch": 0.6465,
      "grad_norm": 1.0647493600845337,
      "learning_rate": 8.400027141048086e-05,
      "loss": 3.7474,
      "step": 310320
    },
    {
      "epoch": 0.6465208333333333,
      "grad_norm": 1.2448112964630127,
      "learning_rate": 8.399141858444176e-05,
      "loss": 3.8461,
      "step": 310330
    },
    {
      "epoch": 0.6465416666666667,
      "grad_norm": 1.111798644065857,
      "learning_rate": 8.398256604353347e-05,
      "loss": 3.686,
      "step": 310340
    },
    {
      "epoch": 0.6465625,
      "grad_norm": 1.1053500175476074,
      "learning_rate": 8.397371378779443e-05,
      "loss": 3.8736,
      "step": 310350
    },
    {
      "epoch": 0.6465833333333333,
      "grad_norm": 1.0489230155944824,
      "learning_rate": 8.396486181726286e-05,
      "loss": 3.9963,
      "step": 310360
    },
    {
      "epoch": 0.6466041666666666,
      "grad_norm": 1.0372788906097412,
      "learning_rate": 8.395601013197683e-05,
      "loss": 3.8254,
      "step": 310370
    },
    {
      "epoch": 0.646625,
      "grad_norm": 1.1247402429580688,
      "learning_rate": 8.394715873197479e-05,
      "loss": 3.8481,
      "step": 310380
    },
    {
      "epoch": 0.6466458333333334,
      "grad_norm": 1.131255865097046,
      "learning_rate": 8.39383076172949e-05,
      "loss": 3.8314,
      "step": 310390
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 1.0432947874069214,
      "learning_rate": 8.392945678797526e-05,
      "loss": 3.7537,
      "step": 310400
    },
    {
      "epoch": 0.6466875,
      "grad_norm": 1.203352928161621,
      "learning_rate": 8.392060624405433e-05,
      "loss": 3.6756,
      "step": 310410
    },
    {
      "epoch": 0.6467083333333333,
      "grad_norm": 1.158955693244934,
      "learning_rate": 8.39117559855702e-05,
      "loss": 3.9554,
      "step": 310420
    },
    {
      "epoch": 0.6467291666666667,
      "grad_norm": 1.1108238697052002,
      "learning_rate": 8.390290601256103e-05,
      "loss": 3.8678,
      "step": 310430
    },
    {
      "epoch": 0.64675,
      "grad_norm": 1.1286864280700684,
      "learning_rate": 8.389405632506526e-05,
      "loss": 3.8426,
      "step": 310440
    },
    {
      "epoch": 0.6467708333333333,
      "grad_norm": 1.1781419515609741,
      "learning_rate": 8.388520692312095e-05,
      "loss": 4.0328,
      "step": 310450
    },
    {
      "epoch": 0.6467916666666667,
      "grad_norm": 1.026921033859253,
      "learning_rate": 8.387635780676632e-05,
      "loss": 3.8375,
      "step": 310460
    },
    {
      "epoch": 0.6468125,
      "grad_norm": 1.1759212017059326,
      "learning_rate": 8.386750897603978e-05,
      "loss": 3.8591,
      "step": 310470
    },
    {
      "epoch": 0.6468333333333334,
      "grad_norm": 1.048359990119934,
      "learning_rate": 8.385866043097934e-05,
      "loss": 3.9557,
      "step": 310480
    },
    {
      "epoch": 0.6468541666666666,
      "grad_norm": 1.0549534559249878,
      "learning_rate": 8.384981217162327e-05,
      "loss": 3.9179,
      "step": 310490
    },
    {
      "epoch": 0.646875,
      "grad_norm": 1.1495463848114014,
      "learning_rate": 8.384096419800992e-05,
      "loss": 3.8469,
      "step": 310500
    },
    {
      "epoch": 0.6468958333333333,
      "grad_norm": 1.1492180824279785,
      "learning_rate": 8.383211651017737e-05,
      "loss": 3.8372,
      "step": 310510
    },
    {
      "epoch": 0.6469166666666667,
      "grad_norm": 1.0558841228485107,
      "learning_rate": 8.382326910816384e-05,
      "loss": 3.8875,
      "step": 310520
    },
    {
      "epoch": 0.6469375,
      "grad_norm": 1.1841421127319336,
      "learning_rate": 8.38144219920077e-05,
      "loss": 3.7016,
      "step": 310530
    },
    {
      "epoch": 0.6469583333333333,
      "grad_norm": 1.1619863510131836,
      "learning_rate": 8.380557516174701e-05,
      "loss": 3.8427,
      "step": 310540
    },
    {
      "epoch": 0.6469791666666667,
      "grad_norm": 1.059657335281372,
      "learning_rate": 8.379672861742003e-05,
      "loss": 3.9744,
      "step": 310550
    },
    {
      "epoch": 0.647,
      "grad_norm": 1.2407184839248657,
      "learning_rate": 8.378788235906495e-05,
      "loss": 3.9901,
      "step": 310560
    },
    {
      "epoch": 0.6470208333333334,
      "grad_norm": 1.0989627838134766,
      "learning_rate": 8.377903638672004e-05,
      "loss": 3.9103,
      "step": 310570
    },
    {
      "epoch": 0.6470416666666666,
      "grad_norm": 1.0565599203109741,
      "learning_rate": 8.377019070042348e-05,
      "loss": 3.9397,
      "step": 310580
    },
    {
      "epoch": 0.6470625,
      "grad_norm": 1.5779873132705688,
      "learning_rate": 8.376134530021346e-05,
      "loss": 3.9477,
      "step": 310590
    },
    {
      "epoch": 0.6470833333333333,
      "grad_norm": 1.123478651046753,
      "learning_rate": 8.375250018612823e-05,
      "loss": 4.0304,
      "step": 310600
    },
    {
      "epoch": 0.6471041666666667,
      "grad_norm": 1.0312588214874268,
      "learning_rate": 8.374365535820596e-05,
      "loss": 3.7816,
      "step": 310610
    },
    {
      "epoch": 0.647125,
      "grad_norm": 1.1077827215194702,
      "learning_rate": 8.373481081648487e-05,
      "loss": 3.9529,
      "step": 310620
    },
    {
      "epoch": 0.6471458333333333,
      "grad_norm": 1.1404783725738525,
      "learning_rate": 8.37259665610032e-05,
      "loss": 3.9102,
      "step": 310630
    },
    {
      "epoch": 0.6471666666666667,
      "grad_norm": 1.380388855934143,
      "learning_rate": 8.371712259179915e-05,
      "loss": 3.7732,
      "step": 310640
    },
    {
      "epoch": 0.6471875,
      "grad_norm": 1.142056941986084,
      "learning_rate": 8.370827890891078e-05,
      "loss": 3.6797,
      "step": 310650
    },
    {
      "epoch": 0.6472083333333334,
      "grad_norm": 1.1679059267044067,
      "learning_rate": 8.369943551237649e-05,
      "loss": 3.7759,
      "step": 310660
    },
    {
      "epoch": 0.6472291666666666,
      "grad_norm": 1.1076698303222656,
      "learning_rate": 8.369059240223444e-05,
      "loss": 3.7347,
      "step": 310670
    },
    {
      "epoch": 0.64725,
      "grad_norm": 1.0151898860931396,
      "learning_rate": 8.368174957852264e-05,
      "loss": 3.9609,
      "step": 310680
    },
    {
      "epoch": 0.6472708333333334,
      "grad_norm": 1.074455976486206,
      "learning_rate": 8.36729070412795e-05,
      "loss": 3.9184,
      "step": 310690
    },
    {
      "epoch": 0.6472916666666667,
      "grad_norm": 1.07919442653656,
      "learning_rate": 8.366406479054323e-05,
      "loss": 3.9296,
      "step": 310700
    },
    {
      "epoch": 0.6473125,
      "grad_norm": 1.0522472858428955,
      "learning_rate": 8.365522282635181e-05,
      "loss": 3.8905,
      "step": 310710
    },
    {
      "epoch": 0.6473333333333333,
      "grad_norm": 1.0466982126235962,
      "learning_rate": 8.364638114874361e-05,
      "loss": 3.612,
      "step": 310720
    },
    {
      "epoch": 0.6473541666666667,
      "grad_norm": 1.0491300821304321,
      "learning_rate": 8.363753975775688e-05,
      "loss": 3.9294,
      "step": 310730
    },
    {
      "epoch": 0.647375,
      "grad_norm": 1.1414810419082642,
      "learning_rate": 8.362869865342955e-05,
      "loss": 3.9792,
      "step": 310740
    },
    {
      "epoch": 0.6473958333333333,
      "grad_norm": 1.2040252685546875,
      "learning_rate": 8.361985783580005e-05,
      "loss": 3.6141,
      "step": 310750
    },
    {
      "epoch": 0.6474166666666666,
      "grad_norm": 1.5921906232833862,
      "learning_rate": 8.361101730490654e-05,
      "loss": 3.7797,
      "step": 310760
    },
    {
      "epoch": 0.6474375,
      "grad_norm": 1.23417329788208,
      "learning_rate": 8.360217706078704e-05,
      "loss": 3.8119,
      "step": 310770
    },
    {
      "epoch": 0.6474583333333334,
      "grad_norm": 1.1418510675430298,
      "learning_rate": 8.359333710347997e-05,
      "loss": 3.9783,
      "step": 310780
    },
    {
      "epoch": 0.6474791666666667,
      "grad_norm": 1.0733038187026978,
      "learning_rate": 8.358449743302334e-05,
      "loss": 3.9923,
      "step": 310790
    },
    {
      "epoch": 0.6475,
      "grad_norm": 1.5471081733703613,
      "learning_rate": 8.357565804945534e-05,
      "loss": 3.9051,
      "step": 310800
    },
    {
      "epoch": 0.6475208333333333,
      "grad_norm": 1.3028615713119507,
      "learning_rate": 8.356681895281431e-05,
      "loss": 3.8733,
      "step": 310810
    },
    {
      "epoch": 0.6475416666666667,
      "grad_norm": 1.155397653579712,
      "learning_rate": 8.355798014313828e-05,
      "loss": 3.8307,
      "step": 310820
    },
    {
      "epoch": 0.6475625,
      "grad_norm": 1.2900187969207764,
      "learning_rate": 8.354914162046542e-05,
      "loss": 3.9393,
      "step": 310830
    },
    {
      "epoch": 0.6475833333333333,
      "grad_norm": 1.0495685338974,
      "learning_rate": 8.354030338483408e-05,
      "loss": 3.7948,
      "step": 310840
    },
    {
      "epoch": 0.6476041666666666,
      "grad_norm": 1.0570158958435059,
      "learning_rate": 8.353146543628225e-05,
      "loss": 3.8656,
      "step": 310850
    },
    {
      "epoch": 0.647625,
      "grad_norm": 1.1404945850372314,
      "learning_rate": 8.352262777484814e-05,
      "loss": 3.753,
      "step": 310860
    },
    {
      "epoch": 0.6476458333333334,
      "grad_norm": 1.1031347513198853,
      "learning_rate": 8.351379040057007e-05,
      "loss": 3.9841,
      "step": 310870
    },
    {
      "epoch": 0.6476666666666666,
      "grad_norm": 1.1312973499298096,
      "learning_rate": 8.350495331348603e-05,
      "loss": 3.979,
      "step": 310880
    },
    {
      "epoch": 0.6476875,
      "grad_norm": 1.0315970182418823,
      "learning_rate": 8.349611651363423e-05,
      "loss": 3.7637,
      "step": 310890
    },
    {
      "epoch": 0.6477083333333333,
      "grad_norm": 1.103147268295288,
      "learning_rate": 8.348728000105302e-05,
      "loss": 3.9776,
      "step": 310900
    },
    {
      "epoch": 0.6477291666666667,
      "grad_norm": 1.1374567747116089,
      "learning_rate": 8.347844377578035e-05,
      "loss": 3.8394,
      "step": 310910
    },
    {
      "epoch": 0.64775,
      "grad_norm": 1.068061113357544,
      "learning_rate": 8.346960783785447e-05,
      "loss": 3.9204,
      "step": 310920
    },
    {
      "epoch": 0.6477708333333333,
      "grad_norm": 1.1277894973754883,
      "learning_rate": 8.346077218731357e-05,
      "loss": 4.0667,
      "step": 310930
    },
    {
      "epoch": 0.6477916666666667,
      "grad_norm": 1.097883701324463,
      "learning_rate": 8.345193682419579e-05,
      "loss": 3.94,
      "step": 310940
    },
    {
      "epoch": 0.6478125,
      "grad_norm": 1.807279348373413,
      "learning_rate": 8.344310174853929e-05,
      "loss": 3.6818,
      "step": 310950
    },
    {
      "epoch": 0.6478333333333334,
      "grad_norm": 1.0835286378860474,
      "learning_rate": 8.343426696038225e-05,
      "loss": 4.0457,
      "step": 310960
    },
    {
      "epoch": 0.6478541666666666,
      "grad_norm": 1.1842328310012817,
      "learning_rate": 8.342543245976283e-05,
      "loss": 3.8574,
      "step": 310970
    },
    {
      "epoch": 0.647875,
      "grad_norm": 0.9611896276473999,
      "learning_rate": 8.34165982467192e-05,
      "loss": 3.7563,
      "step": 310980
    },
    {
      "epoch": 0.6478958333333333,
      "grad_norm": 1.2412070035934448,
      "learning_rate": 8.340776432128948e-05,
      "loss": 3.6766,
      "step": 310990
    },
    {
      "epoch": 0.6479166666666667,
      "grad_norm": 1.127205491065979,
      "learning_rate": 8.339893068351188e-05,
      "loss": 3.9332,
      "step": 311000
    },
    {
      "epoch": 0.6479166666666667,
      "eval_loss": 3.563856601715088,
      "eval_runtime": 7.3102,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 311000
    },
    {
      "epoch": 0.6479375,
      "grad_norm": 1.0453317165374756,
      "learning_rate": 8.339009733342455e-05,
      "loss": 4.001,
      "step": 311010
    },
    {
      "epoch": 0.6479583333333333,
      "grad_norm": 1.2143065929412842,
      "learning_rate": 8.338126427106561e-05,
      "loss": 3.7075,
      "step": 311020
    },
    {
      "epoch": 0.6479791666666667,
      "grad_norm": 1.0552194118499756,
      "learning_rate": 8.337243149647325e-05,
      "loss": 3.873,
      "step": 311030
    },
    {
      "epoch": 0.648,
      "grad_norm": 1.0688389539718628,
      "learning_rate": 8.336359900968568e-05,
      "loss": 4.0134,
      "step": 311040
    },
    {
      "epoch": 0.6480208333333334,
      "grad_norm": 1.5571372509002686,
      "learning_rate": 8.335476681074084e-05,
      "loss": 3.8909,
      "step": 311050
    },
    {
      "epoch": 0.6480416666666666,
      "grad_norm": 1.0276832580566406,
      "learning_rate": 8.334593489967712e-05,
      "loss": 3.8888,
      "step": 311060
    },
    {
      "epoch": 0.6480625,
      "grad_norm": 1.729248285293579,
      "learning_rate": 8.333710327653261e-05,
      "loss": 3.8615,
      "step": 311070
    },
    {
      "epoch": 0.6480833333333333,
      "grad_norm": 1.1494461297988892,
      "learning_rate": 8.332827194134532e-05,
      "loss": 4.0039,
      "step": 311080
    },
    {
      "epoch": 0.6481041666666667,
      "grad_norm": 1.1750332117080688,
      "learning_rate": 8.331944089415355e-05,
      "loss": 3.8421,
      "step": 311090
    },
    {
      "epoch": 0.648125,
      "grad_norm": 1.2229909896850586,
      "learning_rate": 8.331061013499549e-05,
      "loss": 3.6646,
      "step": 311100
    },
    {
      "epoch": 0.6481458333333333,
      "grad_norm": 1.347806692123413,
      "learning_rate": 8.330177966390906e-05,
      "loss": 3.7698,
      "step": 311110
    },
    {
      "epoch": 0.6481666666666667,
      "grad_norm": 1.1144691705703735,
      "learning_rate": 8.32929494809326e-05,
      "loss": 3.9746,
      "step": 311120
    },
    {
      "epoch": 0.6481875,
      "grad_norm": 1.075532078742981,
      "learning_rate": 8.328411958610425e-05,
      "loss": 3.7591,
      "step": 311130
    },
    {
      "epoch": 0.6482083333333334,
      "grad_norm": 1.1626266241073608,
      "learning_rate": 8.327528997946198e-05,
      "loss": 3.7933,
      "step": 311140
    },
    {
      "epoch": 0.6482291666666666,
      "grad_norm": 1.203580617904663,
      "learning_rate": 8.326646066104417e-05,
      "loss": 3.9179,
      "step": 311150
    },
    {
      "epoch": 0.64825,
      "grad_norm": 1.0427114963531494,
      "learning_rate": 8.325763163088877e-05,
      "loss": 3.9662,
      "step": 311160
    },
    {
      "epoch": 0.6482708333333334,
      "grad_norm": 1.158150315284729,
      "learning_rate": 8.324880288903393e-05,
      "loss": 3.9235,
      "step": 311170
    },
    {
      "epoch": 0.6482916666666667,
      "grad_norm": 1.1901530027389526,
      "learning_rate": 8.323997443551796e-05,
      "loss": 3.8969,
      "step": 311180
    },
    {
      "epoch": 0.6483125,
      "grad_norm": 1.1418999433517456,
      "learning_rate": 8.32311462703788e-05,
      "loss": 3.8751,
      "step": 311190
    },
    {
      "epoch": 0.6483333333333333,
      "grad_norm": 1.1531367301940918,
      "learning_rate": 8.322231839365467e-05,
      "loss": 4.0796,
      "step": 311200
    },
    {
      "epoch": 0.6483541666666667,
      "grad_norm": 1.416971206665039,
      "learning_rate": 8.32134908053837e-05,
      "loss": 3.8023,
      "step": 311210
    },
    {
      "epoch": 0.648375,
      "grad_norm": 1.179817795753479,
      "learning_rate": 8.320466350560401e-05,
      "loss": 3.8146,
      "step": 311220
    },
    {
      "epoch": 0.6483958333333333,
      "grad_norm": 1.243375301361084,
      "learning_rate": 8.31958364943537e-05,
      "loss": 3.8337,
      "step": 311230
    },
    {
      "epoch": 0.6484166666666666,
      "grad_norm": 1.2095783948898315,
      "learning_rate": 8.318700977167098e-05,
      "loss": 3.9453,
      "step": 311240
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 0.9711889624595642,
      "learning_rate": 8.317818333759392e-05,
      "loss": 3.8889,
      "step": 311250
    },
    {
      "epoch": 0.6484583333333334,
      "grad_norm": 1.0211303234100342,
      "learning_rate": 8.316935719216063e-05,
      "loss": 3.8646,
      "step": 311260
    },
    {
      "epoch": 0.6484791666666667,
      "grad_norm": 1.0807390213012695,
      "learning_rate": 8.31605313354093e-05,
      "loss": 3.8604,
      "step": 311270
    },
    {
      "epoch": 0.6485,
      "grad_norm": 1.1300475597381592,
      "learning_rate": 8.3151705767378e-05,
      "loss": 3.8105,
      "step": 311280
    },
    {
      "epoch": 0.6485208333333333,
      "grad_norm": 1.0947422981262207,
      "learning_rate": 8.314288048810487e-05,
      "loss": 3.8191,
      "step": 311290
    },
    {
      "epoch": 0.6485416666666667,
      "grad_norm": 1.1860469579696655,
      "learning_rate": 8.313405549762805e-05,
      "loss": 3.7034,
      "step": 311300
    },
    {
      "epoch": 0.6485625,
      "grad_norm": 1.0985349416732788,
      "learning_rate": 8.312523079598562e-05,
      "loss": 3.7346,
      "step": 311310
    },
    {
      "epoch": 0.6485833333333333,
      "grad_norm": 1.1544932126998901,
      "learning_rate": 8.311640638321572e-05,
      "loss": 3.791,
      "step": 311320
    },
    {
      "epoch": 0.6486041666666666,
      "grad_norm": 1.0918769836425781,
      "learning_rate": 8.31075822593565e-05,
      "loss": 3.8786,
      "step": 311330
    },
    {
      "epoch": 0.648625,
      "grad_norm": 1.1326251029968262,
      "learning_rate": 8.309875842444602e-05,
      "loss": 3.7465,
      "step": 311340
    },
    {
      "epoch": 0.6486458333333334,
      "grad_norm": 1.2227486371994019,
      "learning_rate": 8.308993487852242e-05,
      "loss": 3.9414,
      "step": 311350
    },
    {
      "epoch": 0.6486666666666666,
      "grad_norm": 1.1659287214279175,
      "learning_rate": 8.308111162162384e-05,
      "loss": 4.0879,
      "step": 311360
    },
    {
      "epoch": 0.6486875,
      "grad_norm": 1.1441203355789185,
      "learning_rate": 8.307228865378835e-05,
      "loss": 4.1101,
      "step": 311370
    },
    {
      "epoch": 0.6487083333333333,
      "grad_norm": 1.0757707357406616,
      "learning_rate": 8.306346597505409e-05,
      "loss": 3.9234,
      "step": 311380
    },
    {
      "epoch": 0.6487291666666667,
      "grad_norm": 1.2251200675964355,
      "learning_rate": 8.305464358545916e-05,
      "loss": 3.9058,
      "step": 311390
    },
    {
      "epoch": 0.64875,
      "grad_norm": 1.0786057710647583,
      "learning_rate": 8.304582148504167e-05,
      "loss": 4.1335,
      "step": 311400
    },
    {
      "epoch": 0.6487708333333333,
      "grad_norm": 1.0723272562026978,
      "learning_rate": 8.303699967383978e-05,
      "loss": 3.8698,
      "step": 311410
    },
    {
      "epoch": 0.6487916666666667,
      "grad_norm": 1.0721839666366577,
      "learning_rate": 8.302817815189144e-05,
      "loss": 3.6771,
      "step": 311420
    },
    {
      "epoch": 0.6488125,
      "grad_norm": 1.1379663944244385,
      "learning_rate": 8.30193569192349e-05,
      "loss": 3.8511,
      "step": 311430
    },
    {
      "epoch": 0.6488333333333334,
      "grad_norm": 1.1304863691329956,
      "learning_rate": 8.301053597590832e-05,
      "loss": 3.8625,
      "step": 311440
    },
    {
      "epoch": 0.6488541666666666,
      "grad_norm": 1.1059694290161133,
      "learning_rate": 8.300171532194956e-05,
      "loss": 3.6666,
      "step": 311450
    },
    {
      "epoch": 0.648875,
      "grad_norm": 1.0962542295455933,
      "learning_rate": 8.299289495739695e-05,
      "loss": 3.9248,
      "step": 311460
    },
    {
      "epoch": 0.6488958333333333,
      "grad_norm": 1.2678306102752686,
      "learning_rate": 8.298407488228854e-05,
      "loss": 3.9545,
      "step": 311470
    },
    {
      "epoch": 0.6489166666666667,
      "grad_norm": 1.130169153213501,
      "learning_rate": 8.297525509666231e-05,
      "loss": 3.7572,
      "step": 311480
    },
    {
      "epoch": 0.6489375,
      "grad_norm": 1.166020154953003,
      "learning_rate": 8.29664356005565e-05,
      "loss": 3.9431,
      "step": 311490
    },
    {
      "epoch": 0.6489583333333333,
      "grad_norm": 1.076912760734558,
      "learning_rate": 8.29576163940092e-05,
      "loss": 3.879,
      "step": 311500
    },
    {
      "epoch": 0.6489791666666667,
      "grad_norm": 1.157038927078247,
      "learning_rate": 8.294879747705842e-05,
      "loss": 3.8822,
      "step": 311510
    },
    {
      "epoch": 0.649,
      "grad_norm": 1.1601489782333374,
      "learning_rate": 8.293997884974223e-05,
      "loss": 3.9436,
      "step": 311520
    },
    {
      "epoch": 0.6490208333333334,
      "grad_norm": 1.0636225938796997,
      "learning_rate": 8.29311605120989e-05,
      "loss": 3.899,
      "step": 311530
    },
    {
      "epoch": 0.6490416666666666,
      "grad_norm": 1.0299972295761108,
      "learning_rate": 8.292234246416636e-05,
      "loss": 3.9046,
      "step": 311540
    },
    {
      "epoch": 0.6490625,
      "grad_norm": 1.1111403703689575,
      "learning_rate": 8.291352470598273e-05,
      "loss": 3.8973,
      "step": 311550
    },
    {
      "epoch": 0.6490833333333333,
      "grad_norm": 1.2377651929855347,
      "learning_rate": 8.290470723758613e-05,
      "loss": 3.8959,
      "step": 311560
    },
    {
      "epoch": 0.6491041666666667,
      "grad_norm": 1.13260018825531,
      "learning_rate": 8.289589005901463e-05,
      "loss": 3.8381,
      "step": 311570
    },
    {
      "epoch": 0.649125,
      "grad_norm": 1.0273785591125488,
      "learning_rate": 8.288707317030633e-05,
      "loss": 3.8745,
      "step": 311580
    },
    {
      "epoch": 0.6491458333333333,
      "grad_norm": 1.3114973306655884,
      "learning_rate": 8.28782565714993e-05,
      "loss": 3.9299,
      "step": 311590
    },
    {
      "epoch": 0.6491666666666667,
      "grad_norm": 1.0518587827682495,
      "learning_rate": 8.286944026263166e-05,
      "loss": 3.8085,
      "step": 311600
    },
    {
      "epoch": 0.6491875,
      "grad_norm": 1.1757467985153198,
      "learning_rate": 8.286062424374145e-05,
      "loss": 3.9604,
      "step": 311610
    },
    {
      "epoch": 0.6492083333333334,
      "grad_norm": 1.094569206237793,
      "learning_rate": 8.285180851486676e-05,
      "loss": 3.9667,
      "step": 311620
    },
    {
      "epoch": 0.6492291666666666,
      "grad_norm": 1.158927083015442,
      "learning_rate": 8.284299307604568e-05,
      "loss": 3.7836,
      "step": 311630
    },
    {
      "epoch": 0.64925,
      "grad_norm": 1.1811710596084595,
      "learning_rate": 8.283417792731629e-05,
      "loss": 4.0663,
      "step": 311640
    },
    {
      "epoch": 0.6492708333333334,
      "grad_norm": 1.099186658859253,
      "learning_rate": 8.282536306871666e-05,
      "loss": 3.9197,
      "step": 311650
    },
    {
      "epoch": 0.6492916666666667,
      "grad_norm": 1.1715292930603027,
      "learning_rate": 8.281654850028488e-05,
      "loss": 3.9379,
      "step": 311660
    },
    {
      "epoch": 0.6493125,
      "grad_norm": 1.1216121912002563,
      "learning_rate": 8.280773422205901e-05,
      "loss": 3.6011,
      "step": 311670
    },
    {
      "epoch": 0.6493333333333333,
      "grad_norm": 2.4205026626586914,
      "learning_rate": 8.279892023407715e-05,
      "loss": 3.9211,
      "step": 311680
    },
    {
      "epoch": 0.6493541666666667,
      "grad_norm": 1.1383757591247559,
      "learning_rate": 8.279010653637732e-05,
      "loss": 3.8976,
      "step": 311690
    },
    {
      "epoch": 0.649375,
      "grad_norm": 1.1244364976882935,
      "learning_rate": 8.278129312899764e-05,
      "loss": 3.7747,
      "step": 311700
    },
    {
      "epoch": 0.6493958333333333,
      "grad_norm": 1.1327450275421143,
      "learning_rate": 8.277248001197618e-05,
      "loss": 3.7819,
      "step": 311710
    },
    {
      "epoch": 0.6494166666666666,
      "grad_norm": 1.1920689344406128,
      "learning_rate": 8.2763667185351e-05,
      "loss": 3.8129,
      "step": 311720
    },
    {
      "epoch": 0.6494375,
      "grad_norm": 1.0903881788253784,
      "learning_rate": 8.275485464916016e-05,
      "loss": 3.6698,
      "step": 311730
    },
    {
      "epoch": 0.6494583333333334,
      "grad_norm": 1.1736022233963013,
      "learning_rate": 8.274604240344172e-05,
      "loss": 3.7556,
      "step": 311740
    },
    {
      "epoch": 0.6494791666666667,
      "grad_norm": 1.1478725671768188,
      "learning_rate": 8.273723044823376e-05,
      "loss": 3.8341,
      "step": 311750
    },
    {
      "epoch": 0.6495,
      "grad_norm": 1.0917390584945679,
      "learning_rate": 8.272841878357434e-05,
      "loss": 3.7928,
      "step": 311760
    },
    {
      "epoch": 0.6495208333333333,
      "grad_norm": 1.162864089012146,
      "learning_rate": 8.271960740950153e-05,
      "loss": 3.9231,
      "step": 311770
    },
    {
      "epoch": 0.6495416666666667,
      "grad_norm": 1.0135071277618408,
      "learning_rate": 8.271079632605344e-05,
      "loss": 3.856,
      "step": 311780
    },
    {
      "epoch": 0.6495625,
      "grad_norm": 1.279451608657837,
      "learning_rate": 8.270198553326801e-05,
      "loss": 3.7917,
      "step": 311790
    },
    {
      "epoch": 0.6495833333333333,
      "grad_norm": 1.2416713237762451,
      "learning_rate": 8.269317503118332e-05,
      "loss": 4.1012,
      "step": 311800
    },
    {
      "epoch": 0.6496041666666666,
      "grad_norm": 1.2487006187438965,
      "learning_rate": 8.268436481983754e-05,
      "loss": 3.9125,
      "step": 311810
    },
    {
      "epoch": 0.649625,
      "grad_norm": 1.0988543033599854,
      "learning_rate": 8.267555489926864e-05,
      "loss": 3.8919,
      "step": 311820
    },
    {
      "epoch": 0.6496458333333334,
      "grad_norm": 1.0684760808944702,
      "learning_rate": 8.266674526951465e-05,
      "loss": 3.9614,
      "step": 311830
    },
    {
      "epoch": 0.6496666666666666,
      "grad_norm": 1.320349097251892,
      "learning_rate": 8.265793593061378e-05,
      "loss": 3.9446,
      "step": 311840
    },
    {
      "epoch": 0.6496875,
      "grad_norm": 1.0833996534347534,
      "learning_rate": 8.264912688260388e-05,
      "loss": 3.9483,
      "step": 311850
    },
    {
      "epoch": 0.6497083333333333,
      "grad_norm": 1.0731669664382935,
      "learning_rate": 8.264031812552306e-05,
      "loss": 3.7999,
      "step": 311860
    },
    {
      "epoch": 0.6497291666666667,
      "grad_norm": 1.1904699802398682,
      "learning_rate": 8.26315096594095e-05,
      "loss": 3.8053,
      "step": 311870
    },
    {
      "epoch": 0.64975,
      "grad_norm": 1.267398715019226,
      "learning_rate": 8.262270148430112e-05,
      "loss": 3.885,
      "step": 311880
    },
    {
      "epoch": 0.6497708333333333,
      "grad_norm": 1.1409224271774292,
      "learning_rate": 8.261389360023592e-05,
      "loss": 3.901,
      "step": 311890
    },
    {
      "epoch": 0.6497916666666667,
      "grad_norm": 1.2151905298233032,
      "learning_rate": 8.260508600725216e-05,
      "loss": 3.9163,
      "step": 311900
    },
    {
      "epoch": 0.6498125,
      "grad_norm": 1.1755121946334839,
      "learning_rate": 8.25962787053877e-05,
      "loss": 3.8739,
      "step": 311910
    },
    {
      "epoch": 0.6498333333333334,
      "grad_norm": 1.0615166425704956,
      "learning_rate": 8.258747169468062e-05,
      "loss": 3.8806,
      "step": 311920
    },
    {
      "epoch": 0.6498541666666666,
      "grad_norm": 1.0916438102722168,
      "learning_rate": 8.257866497516897e-05,
      "loss": 3.6549,
      "step": 311930
    },
    {
      "epoch": 0.649875,
      "grad_norm": 1.0932493209838867,
      "learning_rate": 8.25698585468908e-05,
      "loss": 3.9259,
      "step": 311940
    },
    {
      "epoch": 0.6498958333333333,
      "grad_norm": 1.2433356046676636,
      "learning_rate": 8.256105240988417e-05,
      "loss": 3.9433,
      "step": 311950
    },
    {
      "epoch": 0.6499166666666667,
      "grad_norm": 1.0943195819854736,
      "learning_rate": 8.255224656418707e-05,
      "loss": 3.7855,
      "step": 311960
    },
    {
      "epoch": 0.6499375,
      "grad_norm": 1.176963448524475,
      "learning_rate": 8.25434410098376e-05,
      "loss": 3.8528,
      "step": 311970
    },
    {
      "epoch": 0.6499583333333333,
      "grad_norm": 1.0830894708633423,
      "learning_rate": 8.253463574687374e-05,
      "loss": 3.9745,
      "step": 311980
    },
    {
      "epoch": 0.6499791666666667,
      "grad_norm": 1.023132562637329,
      "learning_rate": 8.252583077533358e-05,
      "loss": 3.7833,
      "step": 311990
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2286776304244995,
      "learning_rate": 8.25170260952551e-05,
      "loss": 3.9069,
      "step": 312000
    },
    {
      "epoch": 0.65,
      "eval_loss": 3.5630569458007812,
      "eval_runtime": 7.2602,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 312000
    },
    {
      "epoch": 0.6500208333333334,
      "grad_norm": 1.1619266271591187,
      "learning_rate": 8.250822170667635e-05,
      "loss": 3.8818,
      "step": 312010
    },
    {
      "epoch": 0.6500416666666666,
      "grad_norm": 1.0273168087005615,
      "learning_rate": 8.249941760963536e-05,
      "loss": 3.7213,
      "step": 312020
    },
    {
      "epoch": 0.6500625,
      "grad_norm": 1.0718868970870972,
      "learning_rate": 8.249061380417019e-05,
      "loss": 3.9488,
      "step": 312030
    },
    {
      "epoch": 0.6500833333333333,
      "grad_norm": 1.1210507154464722,
      "learning_rate": 8.248181029031885e-05,
      "loss": 3.7316,
      "step": 312040
    },
    {
      "epoch": 0.6501041666666667,
      "grad_norm": 1.2308119535446167,
      "learning_rate": 8.247300706811935e-05,
      "loss": 3.6416,
      "step": 312050
    },
    {
      "epoch": 0.650125,
      "grad_norm": 1.0606366395950317,
      "learning_rate": 8.246420413760973e-05,
      "loss": 3.8482,
      "step": 312060
    },
    {
      "epoch": 0.6501458333333333,
      "grad_norm": 1.242234706878662,
      "learning_rate": 8.245540149882802e-05,
      "loss": 4.0557,
      "step": 312070
    },
    {
      "epoch": 0.6501666666666667,
      "grad_norm": 1.3396624326705933,
      "learning_rate": 8.244659915181225e-05,
      "loss": 3.7437,
      "step": 312080
    },
    {
      "epoch": 0.6501875,
      "grad_norm": 1.2039846181869507,
      "learning_rate": 8.24377970966004e-05,
      "loss": 3.9282,
      "step": 312090
    },
    {
      "epoch": 0.6502083333333334,
      "grad_norm": 1.1260077953338623,
      "learning_rate": 8.242899533323061e-05,
      "loss": 3.8862,
      "step": 312100
    },
    {
      "epoch": 0.6502291666666666,
      "grad_norm": 1.382904052734375,
      "learning_rate": 8.242019386174068e-05,
      "loss": 3.9222,
      "step": 312110
    },
    {
      "epoch": 0.65025,
      "grad_norm": 1.1865241527557373,
      "learning_rate": 8.241139268216883e-05,
      "loss": 3.7934,
      "step": 312120
    },
    {
      "epoch": 0.6502708333333334,
      "grad_norm": 1.1905635595321655,
      "learning_rate": 8.240259179455309e-05,
      "loss": 3.7953,
      "step": 312130
    },
    {
      "epoch": 0.6502916666666667,
      "grad_norm": 1.5152714252471924,
      "learning_rate": 8.239379119893124e-05,
      "loss": 3.8474,
      "step": 312140
    },
    {
      "epoch": 0.6503125,
      "grad_norm": 1.0601462125778198,
      "learning_rate": 8.238499089534159e-05,
      "loss": 3.8404,
      "step": 312150
    },
    {
      "epoch": 0.6503333333333333,
      "grad_norm": 1.0379983186721802,
      "learning_rate": 8.237619088382197e-05,
      "loss": 3.779,
      "step": 312160
    },
    {
      "epoch": 0.6503541666666667,
      "grad_norm": 1.1587412357330322,
      "learning_rate": 8.236739116441036e-05,
      "loss": 3.8847,
      "step": 312170
    },
    {
      "epoch": 0.650375,
      "grad_norm": 1.2604167461395264,
      "learning_rate": 8.235859173714495e-05,
      "loss": 4.0491,
      "step": 312180
    },
    {
      "epoch": 0.6503958333333333,
      "grad_norm": 1.3541855812072754,
      "learning_rate": 8.234979260206362e-05,
      "loss": 3.8878,
      "step": 312190
    },
    {
      "epoch": 0.6504166666666666,
      "grad_norm": 1.1192184686660767,
      "learning_rate": 8.234099375920435e-05,
      "loss": 3.8914,
      "step": 312200
    },
    {
      "epoch": 0.6504375,
      "grad_norm": 1.0575494766235352,
      "learning_rate": 8.233219520860531e-05,
      "loss": 3.9386,
      "step": 312210
    },
    {
      "epoch": 0.6504583333333334,
      "grad_norm": 1.3426132202148438,
      "learning_rate": 8.232339695030434e-05,
      "loss": 3.8217,
      "step": 312220
    },
    {
      "epoch": 0.6504791666666667,
      "grad_norm": 1.040184736251831,
      "learning_rate": 8.231459898433946e-05,
      "loss": 3.8398,
      "step": 312230
    },
    {
      "epoch": 0.6505,
      "grad_norm": 1.1832472085952759,
      "learning_rate": 8.230580131074883e-05,
      "loss": 3.8049,
      "step": 312240
    },
    {
      "epoch": 0.6505208333333333,
      "grad_norm": 1.1300650835037231,
      "learning_rate": 8.22970039295703e-05,
      "loss": 3.8687,
      "step": 312250
    },
    {
      "epoch": 0.6505416666666667,
      "grad_norm": 0.9987406134605408,
      "learning_rate": 8.228820684084183e-05,
      "loss": 3.7397,
      "step": 312260
    },
    {
      "epoch": 0.6505625,
      "grad_norm": 1.056257963180542,
      "learning_rate": 8.227941004460163e-05,
      "loss": 3.9005,
      "step": 312270
    },
    {
      "epoch": 0.6505833333333333,
      "grad_norm": 1.0275593996047974,
      "learning_rate": 8.227061354088753e-05,
      "loss": 3.8886,
      "step": 312280
    },
    {
      "epoch": 0.6506041666666667,
      "grad_norm": 1.1392078399658203,
      "learning_rate": 8.226181732973756e-05,
      "loss": 3.6132,
      "step": 312290
    },
    {
      "epoch": 0.650625,
      "grad_norm": 1.3159849643707275,
      "learning_rate": 8.225302141118972e-05,
      "loss": 3.9106,
      "step": 312300
    },
    {
      "epoch": 0.6506458333333334,
      "grad_norm": 1.1571388244628906,
      "learning_rate": 8.224422578528201e-05,
      "loss": 3.9207,
      "step": 312310
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 1.1559478044509888,
      "learning_rate": 8.223543045205244e-05,
      "loss": 3.7934,
      "step": 312320
    },
    {
      "epoch": 0.6506875,
      "grad_norm": 1.1851333379745483,
      "learning_rate": 8.222663541153897e-05,
      "loss": 3.9917,
      "step": 312330
    },
    {
      "epoch": 0.6507083333333333,
      "grad_norm": 1.2310223579406738,
      "learning_rate": 8.221784066377961e-05,
      "loss": 3.8772,
      "step": 312340
    },
    {
      "epoch": 0.6507291666666667,
      "grad_norm": 1.1567869186401367,
      "learning_rate": 8.220904620881237e-05,
      "loss": 3.838,
      "step": 312350
    },
    {
      "epoch": 0.65075,
      "grad_norm": 1.175087332725525,
      "learning_rate": 8.22002520466752e-05,
      "loss": 3.8027,
      "step": 312360
    },
    {
      "epoch": 0.6507708333333333,
      "grad_norm": 1.1389034986495972,
      "learning_rate": 8.21914581774061e-05,
      "loss": 3.6876,
      "step": 312370
    },
    {
      "epoch": 0.6507916666666667,
      "grad_norm": 1.1417148113250732,
      "learning_rate": 8.218266460104308e-05,
      "loss": 3.8493,
      "step": 312380
    },
    {
      "epoch": 0.6508125,
      "grad_norm": 1.1712228059768677,
      "learning_rate": 8.217387131762408e-05,
      "loss": 3.6699,
      "step": 312390
    },
    {
      "epoch": 0.6508333333333334,
      "grad_norm": 1.1846284866333008,
      "learning_rate": 8.216507832718713e-05,
      "loss": 3.8122,
      "step": 312400
    },
    {
      "epoch": 0.6508541666666666,
      "grad_norm": 1.1273319721221924,
      "learning_rate": 8.215628562977025e-05,
      "loss": 3.8332,
      "step": 312410
    },
    {
      "epoch": 0.650875,
      "grad_norm": 1.0682920217514038,
      "learning_rate": 8.214749322541121e-05,
      "loss": 3.8531,
      "step": 312420
    },
    {
      "epoch": 0.6508958333333333,
      "grad_norm": 1.0885608196258545,
      "learning_rate": 8.213870111414823e-05,
      "loss": 3.9202,
      "step": 312430
    },
    {
      "epoch": 0.6509166666666667,
      "grad_norm": 1.268851399421692,
      "learning_rate": 8.212990929601924e-05,
      "loss": 3.7707,
      "step": 312440
    },
    {
      "epoch": 0.6509375,
      "grad_norm": 1.161468505859375,
      "learning_rate": 8.212111777106209e-05,
      "loss": 3.8149,
      "step": 312450
    },
    {
      "epoch": 0.6509583333333333,
      "grad_norm": 1.2826707363128662,
      "learning_rate": 8.211232653931488e-05,
      "loss": 3.7897,
      "step": 312460
    },
    {
      "epoch": 0.6509791666666667,
      "grad_norm": 1.195378065109253,
      "learning_rate": 8.210353560081561e-05,
      "loss": 3.8775,
      "step": 312470
    },
    {
      "epoch": 0.651,
      "grad_norm": 1.2259634733200073,
      "learning_rate": 8.209474495560208e-05,
      "loss": 3.8019,
      "step": 312480
    },
    {
      "epoch": 0.6510208333333334,
      "grad_norm": 1.3420583009719849,
      "learning_rate": 8.208595460371243e-05,
      "loss": 3.7821,
      "step": 312490
    },
    {
      "epoch": 0.6510416666666666,
      "grad_norm": 1.138205647468567,
      "learning_rate": 8.207716454518461e-05,
      "loss": 3.8167,
      "step": 312500
    },
    {
      "epoch": 0.6510625,
      "grad_norm": 1.3162983655929565,
      "learning_rate": 8.206837478005645e-05,
      "loss": 3.9495,
      "step": 312510
    },
    {
      "epoch": 0.6510833333333333,
      "grad_norm": 1.1632953882217407,
      "learning_rate": 8.20595853083661e-05,
      "loss": 4.0302,
      "step": 312520
    },
    {
      "epoch": 0.6511041666666667,
      "grad_norm": 1.0913251638412476,
      "learning_rate": 8.205079613015148e-05,
      "loss": 3.9393,
      "step": 312530
    },
    {
      "epoch": 0.651125,
      "grad_norm": 1.1111156940460205,
      "learning_rate": 8.204200724545044e-05,
      "loss": 3.8198,
      "step": 312540
    },
    {
      "epoch": 0.6511458333333333,
      "grad_norm": 1.1048548221588135,
      "learning_rate": 8.20332186543011e-05,
      "loss": 4.021,
      "step": 312550
    },
    {
      "epoch": 0.6511666666666667,
      "grad_norm": 1.2011481523513794,
      "learning_rate": 8.202443035674132e-05,
      "loss": 3.8972,
      "step": 312560
    },
    {
      "epoch": 0.6511875,
      "grad_norm": 1.1015982627868652,
      "learning_rate": 8.201564235280905e-05,
      "loss": 3.8251,
      "step": 312570
    },
    {
      "epoch": 0.6512083333333333,
      "grad_norm": 1.2562427520751953,
      "learning_rate": 8.200685464254239e-05,
      "loss": 3.9244,
      "step": 312580
    },
    {
      "epoch": 0.6512291666666666,
      "grad_norm": 1.1984963417053223,
      "learning_rate": 8.199806722597916e-05,
      "loss": 3.9137,
      "step": 312590
    },
    {
      "epoch": 0.65125,
      "grad_norm": 1.1474498510360718,
      "learning_rate": 8.198928010315728e-05,
      "loss": 4.0124,
      "step": 312600
    },
    {
      "epoch": 0.6512708333333334,
      "grad_norm": 1.069161295890808,
      "learning_rate": 8.198049327411494e-05,
      "loss": 3.813,
      "step": 312610
    },
    {
      "epoch": 0.6512916666666667,
      "grad_norm": 1.0260512828826904,
      "learning_rate": 8.197170673888987e-05,
      "loss": 3.7774,
      "step": 312620
    },
    {
      "epoch": 0.6513125,
      "grad_norm": 1.0409457683563232,
      "learning_rate": 8.196292049752004e-05,
      "loss": 3.8582,
      "step": 312630
    },
    {
      "epoch": 0.6513333333333333,
      "grad_norm": 1.1837760210037231,
      "learning_rate": 8.195413455004357e-05,
      "loss": 3.9836,
      "step": 312640
    },
    {
      "epoch": 0.6513541666666667,
      "grad_norm": 1.1619728803634644,
      "learning_rate": 8.194534889649826e-05,
      "loss": 3.8517,
      "step": 312650
    },
    {
      "epoch": 0.651375,
      "grad_norm": 1.43386709690094,
      "learning_rate": 8.193656353692209e-05,
      "loss": 3.8262,
      "step": 312660
    },
    {
      "epoch": 0.6513958333333333,
      "grad_norm": 1.103765845298767,
      "learning_rate": 8.192777847135306e-05,
      "loss": 4.042,
      "step": 312670
    },
    {
      "epoch": 0.6514166666666666,
      "grad_norm": 1.0663015842437744,
      "learning_rate": 8.191899369982904e-05,
      "loss": 4.0171,
      "step": 312680
    },
    {
      "epoch": 0.6514375,
      "grad_norm": 1.0848324298858643,
      "learning_rate": 8.191020922238805e-05,
      "loss": 3.756,
      "step": 312690
    },
    {
      "epoch": 0.6514583333333334,
      "grad_norm": 1.0855165719985962,
      "learning_rate": 8.190142503906798e-05,
      "loss": 3.9487,
      "step": 312700
    },
    {
      "epoch": 0.6514791666666667,
      "grad_norm": 1.1113078594207764,
      "learning_rate": 8.189264114990682e-05,
      "loss": 3.9144,
      "step": 312710
    },
    {
      "epoch": 0.6515,
      "grad_norm": 1.1165335178375244,
      "learning_rate": 8.188385755494248e-05,
      "loss": 3.9534,
      "step": 312720
    },
    {
      "epoch": 0.6515208333333333,
      "grad_norm": 1.0946292877197266,
      "learning_rate": 8.187507425421291e-05,
      "loss": 4.0264,
      "step": 312730
    },
    {
      "epoch": 0.6515416666666667,
      "grad_norm": 1.2145898342132568,
      "learning_rate": 8.186629124775606e-05,
      "loss": 3.9588,
      "step": 312740
    },
    {
      "epoch": 0.6515625,
      "grad_norm": 1.4214301109313965,
      "learning_rate": 8.185750853560986e-05,
      "loss": 3.7924,
      "step": 312750
    },
    {
      "epoch": 0.6515833333333333,
      "grad_norm": 1.2110462188720703,
      "learning_rate": 8.184872611781223e-05,
      "loss": 3.936,
      "step": 312760
    },
    {
      "epoch": 0.6516041666666667,
      "grad_norm": 1.1354892253875732,
      "learning_rate": 8.183994399440116e-05,
      "loss": 3.8409,
      "step": 312770
    },
    {
      "epoch": 0.651625,
      "grad_norm": 1.0190218687057495,
      "learning_rate": 8.183116216541461e-05,
      "loss": 3.7847,
      "step": 312780
    },
    {
      "epoch": 0.6516458333333334,
      "grad_norm": 1.1822868585586548,
      "learning_rate": 8.182238063089032e-05,
      "loss": 3.7259,
      "step": 312790
    },
    {
      "epoch": 0.6516666666666666,
      "grad_norm": 1.0937293767929077,
      "learning_rate": 8.181359939086642e-05,
      "loss": 3.9327,
      "step": 312800
    },
    {
      "epoch": 0.6516875,
      "grad_norm": 1.217239499092102,
      "learning_rate": 8.180481844538084e-05,
      "loss": 4.018,
      "step": 312810
    },
    {
      "epoch": 0.6517083333333333,
      "grad_norm": 1.1299725770950317,
      "learning_rate": 8.179603779447134e-05,
      "loss": 3.8687,
      "step": 312820
    },
    {
      "epoch": 0.6517291666666667,
      "grad_norm": 1.143973469734192,
      "learning_rate": 8.178725743817602e-05,
      "loss": 3.8959,
      "step": 312830
    },
    {
      "epoch": 0.65175,
      "grad_norm": 1.0426608324050903,
      "learning_rate": 8.17784773765328e-05,
      "loss": 3.869,
      "step": 312840
    },
    {
      "epoch": 0.6517708333333333,
      "grad_norm": 1.2602665424346924,
      "learning_rate": 8.176969760957945e-05,
      "loss": 3.7548,
      "step": 312850
    },
    {
      "epoch": 0.6517916666666667,
      "grad_norm": 1.2668660879135132,
      "learning_rate": 8.176091813735403e-05,
      "loss": 4.0816,
      "step": 312860
    },
    {
      "epoch": 0.6518125,
      "grad_norm": 1.1294355392456055,
      "learning_rate": 8.175213895989452e-05,
      "loss": 3.9107,
      "step": 312870
    },
    {
      "epoch": 0.6518333333333334,
      "grad_norm": 1.04005765914917,
      "learning_rate": 8.174336007723864e-05,
      "loss": 3.7754,
      "step": 312880
    },
    {
      "epoch": 0.6518541666666666,
      "grad_norm": 1.1646355390548706,
      "learning_rate": 8.173458148942446e-05,
      "loss": 3.912,
      "step": 312890
    },
    {
      "epoch": 0.651875,
      "grad_norm": 1.2304301261901855,
      "learning_rate": 8.172580319648993e-05,
      "loss": 3.9599,
      "step": 312900
    },
    {
      "epoch": 0.6518958333333333,
      "grad_norm": 1.086921215057373,
      "learning_rate": 8.171702519847279e-05,
      "loss": 3.825,
      "step": 312910
    },
    {
      "epoch": 0.6519166666666667,
      "grad_norm": 1.1287795305252075,
      "learning_rate": 8.170824749541121e-05,
      "loss": 3.9574,
      "step": 312920
    },
    {
      "epoch": 0.6519375,
      "grad_norm": 1.1930140256881714,
      "learning_rate": 8.169947008734288e-05,
      "loss": 3.743,
      "step": 312930
    },
    {
      "epoch": 0.6519583333333333,
      "grad_norm": 1.1011574268341064,
      "learning_rate": 8.169069297430576e-05,
      "loss": 4.0799,
      "step": 312940
    },
    {
      "epoch": 0.6519791666666667,
      "grad_norm": 1.2627817392349243,
      "learning_rate": 8.168191615633792e-05,
      "loss": 3.977,
      "step": 312950
    },
    {
      "epoch": 0.652,
      "grad_norm": 1.119648814201355,
      "learning_rate": 8.16731396334771e-05,
      "loss": 3.8955,
      "step": 312960
    },
    {
      "epoch": 0.6520208333333334,
      "grad_norm": 1.0664355754852295,
      "learning_rate": 8.16643634057613e-05,
      "loss": 3.7719,
      "step": 312970
    },
    {
      "epoch": 0.6520416666666666,
      "grad_norm": 1.1132158041000366,
      "learning_rate": 8.165558747322835e-05,
      "loss": 3.8458,
      "step": 312980
    },
    {
      "epoch": 0.6520625,
      "grad_norm": 1.116967797279358,
      "learning_rate": 8.164681183591627e-05,
      "loss": 3.8939,
      "step": 312990
    },
    {
      "epoch": 0.6520833333333333,
      "grad_norm": 1.0241787433624268,
      "learning_rate": 8.163803649386286e-05,
      "loss": 3.7402,
      "step": 313000
    },
    {
      "epoch": 0.6520833333333333,
      "eval_loss": 3.5589687824249268,
      "eval_runtime": 6.8292,
      "eval_samples_per_second": 1.464,
      "eval_steps_per_second": 0.439,
      "step": 313000
    },
    {
      "epoch": 0.6521041666666667,
      "grad_norm": 1.0713367462158203,
      "learning_rate": 8.162926144710608e-05,
      "loss": 3.9065,
      "step": 313010
    },
    {
      "epoch": 0.652125,
      "grad_norm": 1.1595667600631714,
      "learning_rate": 8.162048669568386e-05,
      "loss": 3.758,
      "step": 313020
    },
    {
      "epoch": 0.6521458333333333,
      "grad_norm": 1.15201735496521,
      "learning_rate": 8.161171223963404e-05,
      "loss": 4.0577,
      "step": 313030
    },
    {
      "epoch": 0.6521666666666667,
      "grad_norm": 1.0734949111938477,
      "learning_rate": 8.160293807899457e-05,
      "loss": 4.046,
      "step": 313040
    },
    {
      "epoch": 0.6521875,
      "grad_norm": 1.0705134868621826,
      "learning_rate": 8.159416421380331e-05,
      "loss": 4.0901,
      "step": 313050
    },
    {
      "epoch": 0.6522083333333333,
      "grad_norm": 1.0885847806930542,
      "learning_rate": 8.158539064409819e-05,
      "loss": 3.9478,
      "step": 313060
    },
    {
      "epoch": 0.6522291666666666,
      "grad_norm": 1.1020268201828003,
      "learning_rate": 8.157661736991709e-05,
      "loss": 3.9441,
      "step": 313070
    },
    {
      "epoch": 0.65225,
      "grad_norm": 5.366723537445068,
      "learning_rate": 8.156784439129797e-05,
      "loss": 4.0354,
      "step": 313080
    },
    {
      "epoch": 0.6522708333333334,
      "grad_norm": 1.0298585891723633,
      "learning_rate": 8.155907170827863e-05,
      "loss": 3.8867,
      "step": 313090
    },
    {
      "epoch": 0.6522916666666667,
      "grad_norm": 1.1369117498397827,
      "learning_rate": 8.155029932089702e-05,
      "loss": 3.8435,
      "step": 313100
    },
    {
      "epoch": 0.6523125,
      "grad_norm": 1.1014678478240967,
      "learning_rate": 8.154152722919102e-05,
      "loss": 3.9973,
      "step": 313110
    },
    {
      "epoch": 0.6523333333333333,
      "grad_norm": 1.1653021574020386,
      "learning_rate": 8.153275543319854e-05,
      "loss": 4.0295,
      "step": 313120
    },
    {
      "epoch": 0.6523541666666667,
      "grad_norm": 1.1485542058944702,
      "learning_rate": 8.152398393295743e-05,
      "loss": 3.8142,
      "step": 313130
    },
    {
      "epoch": 0.652375,
      "grad_norm": 1.1542373895645142,
      "learning_rate": 8.151521272850564e-05,
      "loss": 3.7051,
      "step": 313140
    },
    {
      "epoch": 0.6523958333333333,
      "grad_norm": 1.1545919179916382,
      "learning_rate": 8.150644181988106e-05,
      "loss": 3.8348,
      "step": 313150
    },
    {
      "epoch": 0.6524166666666666,
      "grad_norm": 1.10884690284729,
      "learning_rate": 8.14976712071214e-05,
      "loss": 3.8749,
      "step": 313160
    },
    {
      "epoch": 0.6524375,
      "grad_norm": 1.0859419107437134,
      "learning_rate": 8.148890089026479e-05,
      "loss": 3.8805,
      "step": 313170
    },
    {
      "epoch": 0.6524583333333334,
      "grad_norm": 1.096239686012268,
      "learning_rate": 8.148013086934903e-05,
      "loss": 3.8192,
      "step": 313180
    },
    {
      "epoch": 0.6524791666666667,
      "grad_norm": 1.1215400695800781,
      "learning_rate": 8.14713611444119e-05,
      "loss": 3.9013,
      "step": 313190
    },
    {
      "epoch": 0.6525,
      "grad_norm": 1.108026385307312,
      "learning_rate": 8.14625917154914e-05,
      "loss": 3.9282,
      "step": 313200
    },
    {
      "epoch": 0.6525208333333333,
      "grad_norm": 1.0951389074325562,
      "learning_rate": 8.145382258262544e-05,
      "loss": 3.7255,
      "step": 313210
    },
    {
      "epoch": 0.6525416666666667,
      "grad_norm": 1.070758581161499,
      "learning_rate": 8.144505374585171e-05,
      "loss": 3.9383,
      "step": 313220
    },
    {
      "epoch": 0.6525625,
      "grad_norm": 1.1650489568710327,
      "learning_rate": 8.143628520520827e-05,
      "loss": 3.7957,
      "step": 313230
    },
    {
      "epoch": 0.6525833333333333,
      "grad_norm": 1.2575606107711792,
      "learning_rate": 8.1427516960733e-05,
      "loss": 3.9469,
      "step": 313240
    },
    {
      "epoch": 0.6526041666666667,
      "grad_norm": 1.0562959909439087,
      "learning_rate": 8.141874901246361e-05,
      "loss": 3.9505,
      "step": 313250
    },
    {
      "epoch": 0.652625,
      "grad_norm": 1.15549898147583,
      "learning_rate": 8.140998136043812e-05,
      "loss": 3.7881,
      "step": 313260
    },
    {
      "epoch": 0.6526458333333334,
      "grad_norm": 6.276023864746094,
      "learning_rate": 8.140121400469442e-05,
      "loss": 3.9191,
      "step": 313270
    },
    {
      "epoch": 0.6526666666666666,
      "grad_norm": 1.0743390321731567,
      "learning_rate": 8.139244694527026e-05,
      "loss": 3.7279,
      "step": 313280
    },
    {
      "epoch": 0.6526875,
      "grad_norm": 1.071524977684021,
      "learning_rate": 8.13836801822036e-05,
      "loss": 3.8111,
      "step": 313290
    },
    {
      "epoch": 0.6527083333333333,
      "grad_norm": 1.207869529724121,
      "learning_rate": 8.137491371553226e-05,
      "loss": 4.013,
      "step": 313300
    },
    {
      "epoch": 0.6527291666666667,
      "grad_norm": 1.367296576499939,
      "learning_rate": 8.136614754529413e-05,
      "loss": 3.9515,
      "step": 313310
    },
    {
      "epoch": 0.65275,
      "grad_norm": 1.3085987567901611,
      "learning_rate": 8.135738167152707e-05,
      "loss": 3.7731,
      "step": 313320
    },
    {
      "epoch": 0.6527708333333333,
      "grad_norm": 1.0890445709228516,
      "learning_rate": 8.134861609426895e-05,
      "loss": 3.7189,
      "step": 313330
    },
    {
      "epoch": 0.6527916666666667,
      "grad_norm": 1.1003087759017944,
      "learning_rate": 8.133985081355766e-05,
      "loss": 3.6017,
      "step": 313340
    },
    {
      "epoch": 0.6528125,
      "grad_norm": 1.0783917903900146,
      "learning_rate": 8.1331085829431e-05,
      "loss": 3.9703,
      "step": 313350
    },
    {
      "epoch": 0.6528333333333334,
      "grad_norm": 1.0884521007537842,
      "learning_rate": 8.13223211419269e-05,
      "loss": 3.7873,
      "step": 313360
    },
    {
      "epoch": 0.6528541666666666,
      "grad_norm": 1.0638630390167236,
      "learning_rate": 8.131355675108317e-05,
      "loss": 3.9999,
      "step": 313370
    },
    {
      "epoch": 0.652875,
      "grad_norm": 1.040253758430481,
      "learning_rate": 8.130479265693769e-05,
      "loss": 3.8408,
      "step": 313380
    },
    {
      "epoch": 0.6528958333333333,
      "grad_norm": 1.162488341331482,
      "learning_rate": 8.129602885952831e-05,
      "loss": 3.8129,
      "step": 313390
    },
    {
      "epoch": 0.6529166666666667,
      "grad_norm": 1.1988673210144043,
      "learning_rate": 8.128726535889291e-05,
      "loss": 3.8226,
      "step": 313400
    },
    {
      "epoch": 0.6529375,
      "grad_norm": 1.154849886894226,
      "learning_rate": 8.127850215506932e-05,
      "loss": 3.7371,
      "step": 313410
    },
    {
      "epoch": 0.6529583333333333,
      "grad_norm": 1.1599866151809692,
      "learning_rate": 8.126973924809537e-05,
      "loss": 3.8238,
      "step": 313420
    },
    {
      "epoch": 0.6529791666666667,
      "grad_norm": 1.2045280933380127,
      "learning_rate": 8.126097663800897e-05,
      "loss": 3.9352,
      "step": 313430
    },
    {
      "epoch": 0.653,
      "grad_norm": 1.184116005897522,
      "learning_rate": 8.125221432484792e-05,
      "loss": 4.0368,
      "step": 313440
    },
    {
      "epoch": 0.6530208333333334,
      "grad_norm": 1.1841270923614502,
      "learning_rate": 8.124345230865012e-05,
      "loss": 3.9611,
      "step": 313450
    },
    {
      "epoch": 0.6530416666666666,
      "grad_norm": 1.1031216382980347,
      "learning_rate": 8.123469058945337e-05,
      "loss": 3.9437,
      "step": 313460
    },
    {
      "epoch": 0.6530625,
      "grad_norm": 1.2876944541931152,
      "learning_rate": 8.122592916729555e-05,
      "loss": 3.6867,
      "step": 313470
    },
    {
      "epoch": 0.6530833333333333,
      "grad_norm": 1.0983976125717163,
      "learning_rate": 8.121716804221448e-05,
      "loss": 3.7228,
      "step": 313480
    },
    {
      "epoch": 0.6531041666666667,
      "grad_norm": 1.134424090385437,
      "learning_rate": 8.120840721424801e-05,
      "loss": 3.6414,
      "step": 313490
    },
    {
      "epoch": 0.653125,
      "grad_norm": 1.0455403327941895,
      "learning_rate": 8.119964668343402e-05,
      "loss": 3.7129,
      "step": 313500
    },
    {
      "epoch": 0.6531458333333333,
      "grad_norm": 1.1636521816253662,
      "learning_rate": 8.11908864498103e-05,
      "loss": 3.88,
      "step": 313510
    },
    {
      "epoch": 0.6531666666666667,
      "grad_norm": 1.1652886867523193,
      "learning_rate": 8.118212651341473e-05,
      "loss": 3.7429,
      "step": 313520
    },
    {
      "epoch": 0.6531875,
      "grad_norm": 1.233634352684021,
      "learning_rate": 8.117336687428512e-05,
      "loss": 3.6036,
      "step": 313530
    },
    {
      "epoch": 0.6532083333333333,
      "grad_norm": 1.1216450929641724,
      "learning_rate": 8.116460753245934e-05,
      "loss": 3.8201,
      "step": 313540
    },
    {
      "epoch": 0.6532291666666666,
      "grad_norm": 1.1041876077651978,
      "learning_rate": 8.115584848797527e-05,
      "loss": 3.7967,
      "step": 313550
    },
    {
      "epoch": 0.65325,
      "grad_norm": 1.2393317222595215,
      "learning_rate": 8.114708974087059e-05,
      "loss": 3.9431,
      "step": 313560
    },
    {
      "epoch": 0.6532708333333334,
      "grad_norm": 1.8506790399551392,
      "learning_rate": 8.113833129118319e-05,
      "loss": 3.9266,
      "step": 313570
    },
    {
      "epoch": 0.6532916666666667,
      "grad_norm": 1.0830354690551758,
      "learning_rate": 8.112957313895106e-05,
      "loss": 3.8248,
      "step": 313580
    },
    {
      "epoch": 0.6533125,
      "grad_norm": 1.078538417816162,
      "learning_rate": 8.112081528421185e-05,
      "loss": 3.7609,
      "step": 313590
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 1.0333001613616943,
      "learning_rate": 8.111205772700341e-05,
      "loss": 3.8252,
      "step": 313600
    },
    {
      "epoch": 0.6533541666666667,
      "grad_norm": 1.1951491832733154,
      "learning_rate": 8.110330046736372e-05,
      "loss": 3.8083,
      "step": 313610
    },
    {
      "epoch": 0.653375,
      "grad_norm": 1.1863723993301392,
      "learning_rate": 8.109454350533043e-05,
      "loss": 3.947,
      "step": 313620
    },
    {
      "epoch": 0.6533958333333333,
      "grad_norm": 1.2279378175735474,
      "learning_rate": 8.108578684094139e-05,
      "loss": 3.7607,
      "step": 313630
    },
    {
      "epoch": 0.6534166666666666,
      "grad_norm": 1.1258832216262817,
      "learning_rate": 8.107703047423458e-05,
      "loss": 4.0241,
      "step": 313640
    },
    {
      "epoch": 0.6534375,
      "grad_norm": 1.091971516609192,
      "learning_rate": 8.106827440524767e-05,
      "loss": 3.837,
      "step": 313650
    },
    {
      "epoch": 0.6534583333333334,
      "grad_norm": 1.086421012878418,
      "learning_rate": 8.105951863401856e-05,
      "loss": 3.9047,
      "step": 313660
    },
    {
      "epoch": 0.6534791666666667,
      "grad_norm": 1.0737311840057373,
      "learning_rate": 8.105076316058498e-05,
      "loss": 3.5946,
      "step": 313670
    },
    {
      "epoch": 0.6535,
      "grad_norm": 1.0240631103515625,
      "learning_rate": 8.104200798498485e-05,
      "loss": 4.1347,
      "step": 313680
    },
    {
      "epoch": 0.6535208333333333,
      "grad_norm": 1.0897300243377686,
      "learning_rate": 8.103325310725593e-05,
      "loss": 3.8238,
      "step": 313690
    },
    {
      "epoch": 0.6535416666666667,
      "grad_norm": 1.0994800329208374,
      "learning_rate": 8.102449852743608e-05,
      "loss": 3.7428,
      "step": 313700
    },
    {
      "epoch": 0.6535625,
      "grad_norm": 1.06195068359375,
      "learning_rate": 8.101574424556307e-05,
      "loss": 3.8751,
      "step": 313710
    },
    {
      "epoch": 0.6535833333333333,
      "grad_norm": 1.0808870792388916,
      "learning_rate": 8.100699026167476e-05,
      "loss": 3.953,
      "step": 313720
    },
    {
      "epoch": 0.6536041666666667,
      "grad_norm": 1.07963228225708,
      "learning_rate": 8.099823657580892e-05,
      "loss": 3.7807,
      "step": 313730
    },
    {
      "epoch": 0.653625,
      "grad_norm": 1.4849263429641724,
      "learning_rate": 8.09894831880034e-05,
      "loss": 4.0108,
      "step": 313740
    },
    {
      "epoch": 0.6536458333333334,
      "grad_norm": 1.1386840343475342,
      "learning_rate": 8.098073009829599e-05,
      "loss": 3.8972,
      "step": 313750
    },
    {
      "epoch": 0.6536666666666666,
      "grad_norm": 1.1844165325164795,
      "learning_rate": 8.097197730672453e-05,
      "loss": 3.8287,
      "step": 313760
    },
    {
      "epoch": 0.6536875,
      "grad_norm": 1.1220860481262207,
      "learning_rate": 8.096322481332677e-05,
      "loss": 3.8029,
      "step": 313770
    },
    {
      "epoch": 0.6537083333333333,
      "grad_norm": 1.0730750560760498,
      "learning_rate": 8.095447261814057e-05,
      "loss": 4.0015,
      "step": 313780
    },
    {
      "epoch": 0.6537291666666667,
      "grad_norm": 1.066820502281189,
      "learning_rate": 8.094572072120372e-05,
      "loss": 3.8032,
      "step": 313790
    },
    {
      "epoch": 0.65375,
      "grad_norm": 1.0920283794403076,
      "learning_rate": 8.093696912255402e-05,
      "loss": 3.8486,
      "step": 313800
    },
    {
      "epoch": 0.6537708333333333,
      "grad_norm": 1.158321499824524,
      "learning_rate": 8.092821782222928e-05,
      "loss": 4.0138,
      "step": 313810
    },
    {
      "epoch": 0.6537916666666667,
      "grad_norm": 1.1248859167099,
      "learning_rate": 8.091946682026727e-05,
      "loss": 3.8529,
      "step": 313820
    },
    {
      "epoch": 0.6538125,
      "grad_norm": 1.0585002899169922,
      "learning_rate": 8.091071611670586e-05,
      "loss": 3.9962,
      "step": 313830
    },
    {
      "epoch": 0.6538333333333334,
      "grad_norm": 1.119856595993042,
      "learning_rate": 8.090196571158278e-05,
      "loss": 3.8972,
      "step": 313840
    },
    {
      "epoch": 0.6538541666666666,
      "grad_norm": 1.0990098714828491,
      "learning_rate": 8.089321560493587e-05,
      "loss": 4.0021,
      "step": 313850
    },
    {
      "epoch": 0.653875,
      "grad_norm": 1.2098369598388672,
      "learning_rate": 8.088446579680294e-05,
      "loss": 3.9728,
      "step": 313860
    },
    {
      "epoch": 0.6538958333333333,
      "grad_norm": 1.1242495775222778,
      "learning_rate": 8.087571628722178e-05,
      "loss": 3.6608,
      "step": 313870
    },
    {
      "epoch": 0.6539166666666667,
      "grad_norm": 1.1185179948806763,
      "learning_rate": 8.086696707623004e-05,
      "loss": 3.9757,
      "step": 313880
    },
    {
      "epoch": 0.6539375,
      "grad_norm": 1.0839674472808838,
      "learning_rate": 8.085821816386573e-05,
      "loss": 3.6306,
      "step": 313890
    },
    {
      "epoch": 0.6539583333333333,
      "grad_norm": 1.0827127695083618,
      "learning_rate": 8.08494695501666e-05,
      "loss": 3.8673,
      "step": 313900
    },
    {
      "epoch": 0.6539791666666667,
      "grad_norm": 1.0917240381240845,
      "learning_rate": 8.084072123517027e-05,
      "loss": 3.9247,
      "step": 313910
    },
    {
      "epoch": 0.654,
      "grad_norm": 1.3830713033676147,
      "learning_rate": 8.083197321891474e-05,
      "loss": 3.8339,
      "step": 313920
    },
    {
      "epoch": 0.6540208333333334,
      "grad_norm": 1.3181027173995972,
      "learning_rate": 8.082322550143768e-05,
      "loss": 3.7921,
      "step": 313930
    },
    {
      "epoch": 0.6540416666666666,
      "grad_norm": 1.0527983903884888,
      "learning_rate": 8.081447808277685e-05,
      "loss": 3.9212,
      "step": 313940
    },
    {
      "epoch": 0.6540625,
      "grad_norm": 1.141129970550537,
      "learning_rate": 8.080573096297018e-05,
      "loss": 3.7478,
      "step": 313950
    },
    {
      "epoch": 0.6540833333333333,
      "grad_norm": 1.0550888776779175,
      "learning_rate": 8.079698414205531e-05,
      "loss": 3.9777,
      "step": 313960
    },
    {
      "epoch": 0.6541041666666667,
      "grad_norm": 1.0740821361541748,
      "learning_rate": 8.078823762007002e-05,
      "loss": 3.7588,
      "step": 313970
    },
    {
      "epoch": 0.654125,
      "grad_norm": 1.1484336853027344,
      "learning_rate": 8.077949139705226e-05,
      "loss": 3.7323,
      "step": 313980
    },
    {
      "epoch": 0.6541458333333333,
      "grad_norm": 1.1811373233795166,
      "learning_rate": 8.077074547303965e-05,
      "loss": 3.8437,
      "step": 313990
    },
    {
      "epoch": 0.6541666666666667,
      "grad_norm": 1.380913257598877,
      "learning_rate": 8.076199984806997e-05,
      "loss": 3.8388,
      "step": 314000
    },
    {
      "epoch": 0.6541666666666667,
      "eval_loss": 3.5599753856658936,
      "eval_runtime": 6.8217,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 314000
    },
    {
      "epoch": 0.6541875,
      "grad_norm": 1.070591688156128,
      "learning_rate": 8.075325452218114e-05,
      "loss": 3.843,
      "step": 314010
    },
    {
      "epoch": 0.6542083333333333,
      "grad_norm": 1.1691557168960571,
      "learning_rate": 8.07445094954108e-05,
      "loss": 3.7189,
      "step": 314020
    },
    {
      "epoch": 0.6542291666666666,
      "grad_norm": 1.390017032623291,
      "learning_rate": 8.073576476779669e-05,
      "loss": 3.9357,
      "step": 314030
    },
    {
      "epoch": 0.65425,
      "grad_norm": 1.130311131477356,
      "learning_rate": 8.072702033937679e-05,
      "loss": 3.8235,
      "step": 314040
    },
    {
      "epoch": 0.6542708333333334,
      "grad_norm": 1.0783480405807495,
      "learning_rate": 8.071827621018867e-05,
      "loss": 4.0098,
      "step": 314050
    },
    {
      "epoch": 0.6542916666666667,
      "grad_norm": 1.2975634336471558,
      "learning_rate": 8.070953238027019e-05,
      "loss": 3.6741,
      "step": 314060
    },
    {
      "epoch": 0.6543125,
      "grad_norm": 1.1806745529174805,
      "learning_rate": 8.07007888496591e-05,
      "loss": 3.7959,
      "step": 314070
    },
    {
      "epoch": 0.6543333333333333,
      "grad_norm": 1.1471071243286133,
      "learning_rate": 8.069204561839316e-05,
      "loss": 3.7729,
      "step": 314080
    },
    {
      "epoch": 0.6543541666666667,
      "grad_norm": 1.0596623420715332,
      "learning_rate": 8.068330268651015e-05,
      "loss": 3.7136,
      "step": 314090
    },
    {
      "epoch": 0.654375,
      "grad_norm": 1.1140494346618652,
      "learning_rate": 8.067456005404784e-05,
      "loss": 3.8664,
      "step": 314100
    },
    {
      "epoch": 0.6543958333333333,
      "grad_norm": 0.9847890138626099,
      "learning_rate": 8.066581772104398e-05,
      "loss": 3.8117,
      "step": 314110
    },
    {
      "epoch": 0.6544166666666666,
      "grad_norm": 2.215364456176758,
      "learning_rate": 8.065707568753635e-05,
      "loss": 3.8975,
      "step": 314120
    },
    {
      "epoch": 0.6544375,
      "grad_norm": 1.2291793823242188,
      "learning_rate": 8.064833395356271e-05,
      "loss": 3.9859,
      "step": 314130
    },
    {
      "epoch": 0.6544583333333334,
      "grad_norm": 1.0417932271957397,
      "learning_rate": 8.063959251916082e-05,
      "loss": 3.991,
      "step": 314140
    },
    {
      "epoch": 0.6544791666666666,
      "grad_norm": 1.3603589534759521,
      "learning_rate": 8.063085138436847e-05,
      "loss": 3.9212,
      "step": 314150
    },
    {
      "epoch": 0.6545,
      "grad_norm": 1.085031509399414,
      "learning_rate": 8.06221105492233e-05,
      "loss": 3.8694,
      "step": 314160
    },
    {
      "epoch": 0.6545208333333333,
      "grad_norm": 1.102006196975708,
      "learning_rate": 8.06133700137632e-05,
      "loss": 3.6779,
      "step": 314170
    },
    {
      "epoch": 0.6545416666666667,
      "grad_norm": 1.4607715606689453,
      "learning_rate": 8.060462977802593e-05,
      "loss": 3.7212,
      "step": 314180
    },
    {
      "epoch": 0.6545625,
      "grad_norm": 5.13161039352417,
      "learning_rate": 8.059588984204905e-05,
      "loss": 3.8105,
      "step": 314190
    },
    {
      "epoch": 0.6545833333333333,
      "grad_norm": 1.0794564485549927,
      "learning_rate": 8.058715020587053e-05,
      "loss": 3.8252,
      "step": 314200
    },
    {
      "epoch": 0.6546041666666667,
      "grad_norm": 1.082971215248108,
      "learning_rate": 8.057841086952814e-05,
      "loss": 3.8415,
      "step": 314210
    },
    {
      "epoch": 0.654625,
      "grad_norm": 1.0881683826446533,
      "learning_rate": 8.056967183305935e-05,
      "loss": 3.9693,
      "step": 314220
    },
    {
      "epoch": 0.6546458333333334,
      "grad_norm": 1.0378003120422363,
      "learning_rate": 8.05609330965022e-05,
      "loss": 3.8561,
      "step": 314230
    },
    {
      "epoch": 0.6546666666666666,
      "grad_norm": 1.1191561222076416,
      "learning_rate": 8.05521946598944e-05,
      "loss": 3.7756,
      "step": 314240
    },
    {
      "epoch": 0.6546875,
      "grad_norm": 1.068925142288208,
      "learning_rate": 8.054345652327348e-05,
      "loss": 3.8312,
      "step": 314250
    },
    {
      "epoch": 0.6547083333333333,
      "grad_norm": 1.1123954057693481,
      "learning_rate": 8.053471868667742e-05,
      "loss": 3.8829,
      "step": 314260
    },
    {
      "epoch": 0.6547291666666667,
      "grad_norm": 1.2039058208465576,
      "learning_rate": 8.052598115014391e-05,
      "loss": 3.86,
      "step": 314270
    },
    {
      "epoch": 0.65475,
      "grad_norm": 1.2302830219268799,
      "learning_rate": 8.051724391371056e-05,
      "loss": 3.8704,
      "step": 314280
    },
    {
      "epoch": 0.6547708333333333,
      "grad_norm": 1.1501096487045288,
      "learning_rate": 8.050850697741535e-05,
      "loss": 3.8908,
      "step": 314290
    },
    {
      "epoch": 0.6547916666666667,
      "grad_norm": 1.2566505670547485,
      "learning_rate": 8.04997703412958e-05,
      "loss": 3.7417,
      "step": 314300
    },
    {
      "epoch": 0.6548125,
      "grad_norm": 1.324475884437561,
      "learning_rate": 8.049103400538968e-05,
      "loss": 3.9301,
      "step": 314310
    },
    {
      "epoch": 0.6548333333333334,
      "grad_norm": 1.1274210214614868,
      "learning_rate": 8.048229796973488e-05,
      "loss": 3.8846,
      "step": 314320
    },
    {
      "epoch": 0.6548541666666666,
      "grad_norm": 1.156765103340149,
      "learning_rate": 8.0473562234369e-05,
      "loss": 3.8583,
      "step": 314330
    },
    {
      "epoch": 0.654875,
      "grad_norm": 1.0852916240692139,
      "learning_rate": 8.046482679932975e-05,
      "loss": 3.8786,
      "step": 314340
    },
    {
      "epoch": 0.6548958333333333,
      "grad_norm": 1.1663013696670532,
      "learning_rate": 8.045609166465504e-05,
      "loss": 3.917,
      "step": 314350
    },
    {
      "epoch": 0.6549166666666667,
      "grad_norm": 1.0087112188339233,
      "learning_rate": 8.044735683038242e-05,
      "loss": 3.7871,
      "step": 314360
    },
    {
      "epoch": 0.6549375,
      "grad_norm": 1.0606377124786377,
      "learning_rate": 8.043862229654964e-05,
      "loss": 4.0267,
      "step": 314370
    },
    {
      "epoch": 0.6549583333333333,
      "grad_norm": 1.1440132856369019,
      "learning_rate": 8.042988806319458e-05,
      "loss": 3.9251,
      "step": 314380
    },
    {
      "epoch": 0.6549791666666667,
      "grad_norm": 1.037446141242981,
      "learning_rate": 8.042115413035481e-05,
      "loss": 3.8325,
      "step": 314390
    },
    {
      "epoch": 0.655,
      "grad_norm": 1.8858942985534668,
      "learning_rate": 8.041242049806808e-05,
      "loss": 4.0955,
      "step": 314400
    },
    {
      "epoch": 0.6550208333333334,
      "grad_norm": 1.3326677083969116,
      "learning_rate": 8.040368716637223e-05,
      "loss": 3.8312,
      "step": 314410
    },
    {
      "epoch": 0.6550416666666666,
      "grad_norm": 1.1121195554733276,
      "learning_rate": 8.039495413530485e-05,
      "loss": 3.913,
      "step": 314420
    },
    {
      "epoch": 0.6550625,
      "grad_norm": 1.3582162857055664,
      "learning_rate": 8.038622140490376e-05,
      "loss": 3.794,
      "step": 314430
    },
    {
      "epoch": 0.6550833333333334,
      "grad_norm": 1.1632804870605469,
      "learning_rate": 8.037748897520659e-05,
      "loss": 3.949,
      "step": 314440
    },
    {
      "epoch": 0.6551041666666667,
      "grad_norm": 1.1539946794509888,
      "learning_rate": 8.036875684625113e-05,
      "loss": 3.8535,
      "step": 314450
    },
    {
      "epoch": 0.655125,
      "grad_norm": 1.807938814163208,
      "learning_rate": 8.036002501807506e-05,
      "loss": 3.8063,
      "step": 314460
    },
    {
      "epoch": 0.6551458333333333,
      "grad_norm": 1.1687979698181152,
      "learning_rate": 8.035129349071614e-05,
      "loss": 3.7414,
      "step": 314470
    },
    {
      "epoch": 0.6551666666666667,
      "grad_norm": 1.0868899822235107,
      "learning_rate": 8.034256226421203e-05,
      "loss": 3.9285,
      "step": 314480
    },
    {
      "epoch": 0.6551875,
      "grad_norm": 1.2465503215789795,
      "learning_rate": 8.033383133860052e-05,
      "loss": 3.9967,
      "step": 314490
    },
    {
      "epoch": 0.6552083333333333,
      "grad_norm": 1.3079546689987183,
      "learning_rate": 8.032510071391926e-05,
      "loss": 3.9443,
      "step": 314500
    },
    {
      "epoch": 0.6552291666666666,
      "grad_norm": 1.1268447637557983,
      "learning_rate": 8.031637039020598e-05,
      "loss": 3.7644,
      "step": 314510
    },
    {
      "epoch": 0.65525,
      "grad_norm": 1.13862943649292,
      "learning_rate": 8.030764036749841e-05,
      "loss": 3.9639,
      "step": 314520
    },
    {
      "epoch": 0.6552708333333334,
      "grad_norm": 1.0833488702774048,
      "learning_rate": 8.029891064583425e-05,
      "loss": 3.9503,
      "step": 314530
    },
    {
      "epoch": 0.6552916666666667,
      "grad_norm": 1.129747986793518,
      "learning_rate": 8.029018122525121e-05,
      "loss": 3.7631,
      "step": 314540
    },
    {
      "epoch": 0.6553125,
      "grad_norm": 1.0976824760437012,
      "learning_rate": 8.028145210578704e-05,
      "loss": 3.7848,
      "step": 314550
    },
    {
      "epoch": 0.6553333333333333,
      "grad_norm": 1.1797049045562744,
      "learning_rate": 8.027272328747929e-05,
      "loss": 3.9892,
      "step": 314560
    },
    {
      "epoch": 0.6553541666666667,
      "grad_norm": 1.3007668256759644,
      "learning_rate": 8.026399477036583e-05,
      "loss": 3.8031,
      "step": 314570
    },
    {
      "epoch": 0.655375,
      "grad_norm": 1.1246733665466309,
      "learning_rate": 8.025526655448436e-05,
      "loss": 3.7611,
      "step": 314580
    },
    {
      "epoch": 0.6553958333333333,
      "grad_norm": 1.3701099157333374,
      "learning_rate": 8.024653863987243e-05,
      "loss": 3.7381,
      "step": 314590
    },
    {
      "epoch": 0.6554166666666666,
      "grad_norm": 1.0672030448913574,
      "learning_rate": 8.02378110265679e-05,
      "loss": 3.7997,
      "step": 314600
    },
    {
      "epoch": 0.6554375,
      "grad_norm": 1.1037614345550537,
      "learning_rate": 8.022908371460845e-05,
      "loss": 3.8426,
      "step": 314610
    },
    {
      "epoch": 0.6554583333333334,
      "grad_norm": 1.0807809829711914,
      "learning_rate": 8.022035670403164e-05,
      "loss": 3.7075,
      "step": 314620
    },
    {
      "epoch": 0.6554791666666666,
      "grad_norm": 1.284247875213623,
      "learning_rate": 8.021162999487533e-05,
      "loss": 3.9835,
      "step": 314630
    },
    {
      "epoch": 0.6555,
      "grad_norm": 1.0877381563186646,
      "learning_rate": 8.020290358717721e-05,
      "loss": 3.9176,
      "step": 314640
    },
    {
      "epoch": 0.6555208333333333,
      "grad_norm": 1.1617172956466675,
      "learning_rate": 8.01941774809748e-05,
      "loss": 3.8758,
      "step": 314650
    },
    {
      "epoch": 0.6555416666666667,
      "grad_norm": 1.2523351907730103,
      "learning_rate": 8.018545167630605e-05,
      "loss": 3.6762,
      "step": 314660
    },
    {
      "epoch": 0.6555625,
      "grad_norm": 1.0889058113098145,
      "learning_rate": 8.017672617320842e-05,
      "loss": 3.9023,
      "step": 314670
    },
    {
      "epoch": 0.6555833333333333,
      "grad_norm": 1.1688932180404663,
      "learning_rate": 8.016800097171965e-05,
      "loss": 3.923,
      "step": 314680
    },
    {
      "epoch": 0.6556041666666667,
      "grad_norm": 1.1015865802764893,
      "learning_rate": 8.015927607187761e-05,
      "loss": 3.8718,
      "step": 314690
    },
    {
      "epoch": 0.655625,
      "grad_norm": 1.2621655464172363,
      "learning_rate": 8.015055147371977e-05,
      "loss": 3.686,
      "step": 314700
    },
    {
      "epoch": 0.6556458333333334,
      "grad_norm": 1.091862678527832,
      "learning_rate": 8.014182717728384e-05,
      "loss": 4.1202,
      "step": 314710
    },
    {
      "epoch": 0.6556666666666666,
      "grad_norm": 1.096575140953064,
      "learning_rate": 8.013310318260771e-05,
      "loss": 3.8791,
      "step": 314720
    },
    {
      "epoch": 0.6556875,
      "grad_norm": 1.235275149345398,
      "learning_rate": 8.012437948972883e-05,
      "loss": 3.9142,
      "step": 314730
    },
    {
      "epoch": 0.6557083333333333,
      "grad_norm": 0.990861713886261,
      "learning_rate": 8.011565609868497e-05,
      "loss": 3.8531,
      "step": 314740
    },
    {
      "epoch": 0.6557291666666667,
      "grad_norm": 1.1462405920028687,
      "learning_rate": 8.010693300951384e-05,
      "loss": 4.0106,
      "step": 314750
    },
    {
      "epoch": 0.65575,
      "grad_norm": 1.1401002407073975,
      "learning_rate": 8.009821022225308e-05,
      "loss": 3.9361,
      "step": 314760
    },
    {
      "epoch": 0.6557708333333333,
      "grad_norm": 1.228610873222351,
      "learning_rate": 8.008948773694038e-05,
      "loss": 3.8643,
      "step": 314770
    },
    {
      "epoch": 0.6557916666666667,
      "grad_norm": 1.1678519248962402,
      "learning_rate": 8.008076555361344e-05,
      "loss": 3.9625,
      "step": 314780
    },
    {
      "epoch": 0.6558125,
      "grad_norm": 1.2195311784744263,
      "learning_rate": 8.007204367230988e-05,
      "loss": 3.8742,
      "step": 314790
    },
    {
      "epoch": 0.6558333333333334,
      "grad_norm": 1.1797133684158325,
      "learning_rate": 8.006332209306744e-05,
      "loss": 3.8751,
      "step": 314800
    },
    {
      "epoch": 0.6558541666666666,
      "grad_norm": 1.281816840171814,
      "learning_rate": 8.005460081592374e-05,
      "loss": 4.0019,
      "step": 314810
    },
    {
      "epoch": 0.655875,
      "grad_norm": 1.2376816272735596,
      "learning_rate": 8.004587984091651e-05,
      "loss": 3.6796,
      "step": 314820
    },
    {
      "epoch": 0.6558958333333333,
      "grad_norm": 1.3194448947906494,
      "learning_rate": 8.003715916808337e-05,
      "loss": 4.0458,
      "step": 314830
    },
    {
      "epoch": 0.6559166666666667,
      "grad_norm": 1.0488536357879639,
      "learning_rate": 8.002843879746203e-05,
      "loss": 3.7976,
      "step": 314840
    },
    {
      "epoch": 0.6559375,
      "grad_norm": 1.2664976119995117,
      "learning_rate": 8.001971872909011e-05,
      "loss": 3.6495,
      "step": 314850
    },
    {
      "epoch": 0.6559583333333333,
      "grad_norm": 1.2115187644958496,
      "learning_rate": 8.001099896300532e-05,
      "loss": 3.8319,
      "step": 314860
    },
    {
      "epoch": 0.6559791666666667,
      "grad_norm": 1.2631654739379883,
      "learning_rate": 8.00022794992453e-05,
      "loss": 4.0077,
      "step": 314870
    },
    {
      "epoch": 0.656,
      "grad_norm": 1.0644510984420776,
      "learning_rate": 7.999356033784775e-05,
      "loss": 3.8203,
      "step": 314880
    },
    {
      "epoch": 0.6560208333333334,
      "grad_norm": 1.160452127456665,
      "learning_rate": 7.998484147885029e-05,
      "loss": 3.9851,
      "step": 314890
    },
    {
      "epoch": 0.6560416666666666,
      "grad_norm": 1.0786832571029663,
      "learning_rate": 7.99761229222906e-05,
      "loss": 3.8314,
      "step": 314900
    },
    {
      "epoch": 0.6560625,
      "grad_norm": 1.0441265106201172,
      "learning_rate": 7.996740466820634e-05,
      "loss": 3.8699,
      "step": 314910
    },
    {
      "epoch": 0.6560833333333334,
      "grad_norm": 1.1457035541534424,
      "learning_rate": 7.995868671663524e-05,
      "loss": 3.9151,
      "step": 314920
    },
    {
      "epoch": 0.6561041666666667,
      "grad_norm": 1.2235567569732666,
      "learning_rate": 7.994996906761476e-05,
      "loss": 3.6514,
      "step": 314930
    },
    {
      "epoch": 0.656125,
      "grad_norm": 1.292278528213501,
      "learning_rate": 7.994125172118276e-05,
      "loss": 3.9218,
      "step": 314940
    },
    {
      "epoch": 0.6561458333333333,
      "grad_norm": 1.065894365310669,
      "learning_rate": 7.993253467737687e-05,
      "loss": 3.9204,
      "step": 314950
    },
    {
      "epoch": 0.6561666666666667,
      "grad_norm": 1.1220557689666748,
      "learning_rate": 7.992381793623459e-05,
      "loss": 4.0374,
      "step": 314960
    },
    {
      "epoch": 0.6561875,
      "grad_norm": 1.152549147605896,
      "learning_rate": 7.991510149779373e-05,
      "loss": 3.8488,
      "step": 314970
    },
    {
      "epoch": 0.6562083333333333,
      "grad_norm": 1.1309609413146973,
      "learning_rate": 7.990638536209193e-05,
      "loss": 4.0319,
      "step": 314980
    },
    {
      "epoch": 0.6562291666666666,
      "grad_norm": 1.17534601688385,
      "learning_rate": 7.989766952916671e-05,
      "loss": 3.884,
      "step": 314990
    },
    {
      "epoch": 0.65625,
      "grad_norm": 1.1233291625976562,
      "learning_rate": 7.988895399905584e-05,
      "loss": 3.8083,
      "step": 315000
    },
    {
      "epoch": 0.65625,
      "eval_loss": 3.5653584003448486,
      "eval_runtime": 6.8145,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.44,
      "step": 315000
    },
    {
      "epoch": 0.6562708333333334,
      "grad_norm": 1.2532471418380737,
      "learning_rate": 7.988023877179703e-05,
      "loss": 3.8125,
      "step": 315010
    },
    {
      "epoch": 0.6562916666666667,
      "grad_norm": 1.2354872226715088,
      "learning_rate": 7.987152384742768e-05,
      "loss": 3.792,
      "step": 315020
    },
    {
      "epoch": 0.6563125,
      "grad_norm": 1.1171107292175293,
      "learning_rate": 7.986280922598566e-05,
      "loss": 3.7374,
      "step": 315030
    },
    {
      "epoch": 0.6563333333333333,
      "grad_norm": 1.1167635917663574,
      "learning_rate": 7.985409490750861e-05,
      "loss": 3.6961,
      "step": 315040
    },
    {
      "epoch": 0.6563541666666667,
      "grad_norm": 1.188336968421936,
      "learning_rate": 7.984538089203404e-05,
      "loss": 3.8402,
      "step": 315050
    },
    {
      "epoch": 0.656375,
      "grad_norm": 1.2192355394363403,
      "learning_rate": 7.983666717959967e-05,
      "loss": 3.9385,
      "step": 315060
    },
    {
      "epoch": 0.6563958333333333,
      "grad_norm": 1.0795701742172241,
      "learning_rate": 7.982795377024309e-05,
      "loss": 3.893,
      "step": 315070
    },
    {
      "epoch": 0.6564166666666666,
      "grad_norm": 1.206648349761963,
      "learning_rate": 7.981924066400202e-05,
      "loss": 3.8377,
      "step": 315080
    },
    {
      "epoch": 0.6564375,
      "grad_norm": 1.2420018911361694,
      "learning_rate": 7.9810527860914e-05,
      "loss": 4.0613,
      "step": 315090
    },
    {
      "epoch": 0.6564583333333334,
      "grad_norm": 1.1694920063018799,
      "learning_rate": 7.980181536101674e-05,
      "loss": 4.0098,
      "step": 315100
    },
    {
      "epoch": 0.6564791666666666,
      "grad_norm": 1.1083468198776245,
      "learning_rate": 7.979310316434786e-05,
      "loss": 3.8909,
      "step": 315110
    },
    {
      "epoch": 0.6565,
      "grad_norm": 1.0916502475738525,
      "learning_rate": 7.978439127094499e-05,
      "loss": 3.9652,
      "step": 315120
    },
    {
      "epoch": 0.6565208333333333,
      "grad_norm": 1.2294787168502808,
      "learning_rate": 7.977567968084575e-05,
      "loss": 3.8851,
      "step": 315130
    },
    {
      "epoch": 0.6565416666666667,
      "grad_norm": 1.0678759813308716,
      "learning_rate": 7.976696839408776e-05,
      "loss": 3.9412,
      "step": 315140
    },
    {
      "epoch": 0.6565625,
      "grad_norm": 1.0896697044372559,
      "learning_rate": 7.975825741070867e-05,
      "loss": 3.8547,
      "step": 315150
    },
    {
      "epoch": 0.6565833333333333,
      "grad_norm": 1.0919060707092285,
      "learning_rate": 7.974954673074612e-05,
      "loss": 3.8235,
      "step": 315160
    },
    {
      "epoch": 0.6566041666666667,
      "grad_norm": 1.3265084028244019,
      "learning_rate": 7.97408363542377e-05,
      "loss": 3.8346,
      "step": 315170
    },
    {
      "epoch": 0.656625,
      "grad_norm": 1.0479589700698853,
      "learning_rate": 7.973212628122108e-05,
      "loss": 3.9152,
      "step": 315180
    },
    {
      "epoch": 0.6566458333333334,
      "grad_norm": 1.132623314857483,
      "learning_rate": 7.972341651173386e-05,
      "loss": 3.6654,
      "step": 315190
    },
    {
      "epoch": 0.6566666666666666,
      "grad_norm": 1.0393719673156738,
      "learning_rate": 7.971470704581365e-05,
      "loss": 3.8392,
      "step": 315200
    },
    {
      "epoch": 0.6566875,
      "grad_norm": 1.1571177244186401,
      "learning_rate": 7.970599788349808e-05,
      "loss": 4.1046,
      "step": 315210
    },
    {
      "epoch": 0.6567083333333333,
      "grad_norm": 1.1540800333023071,
      "learning_rate": 7.969728902482479e-05,
      "loss": 3.8222,
      "step": 315220
    },
    {
      "epoch": 0.6567291666666667,
      "grad_norm": 1.0480700731277466,
      "learning_rate": 7.968858046983137e-05,
      "loss": 3.9864,
      "step": 315230
    },
    {
      "epoch": 0.65675,
      "grad_norm": 1.1375163793563843,
      "learning_rate": 7.967987221855545e-05,
      "loss": 3.802,
      "step": 315240
    },
    {
      "epoch": 0.6567708333333333,
      "grad_norm": 1.5691553354263306,
      "learning_rate": 7.967116427103466e-05,
      "loss": 3.7906,
      "step": 315250
    },
    {
      "epoch": 0.6567916666666667,
      "grad_norm": 1.237945556640625,
      "learning_rate": 7.966245662730662e-05,
      "loss": 3.78,
      "step": 315260
    },
    {
      "epoch": 0.6568125,
      "grad_norm": 1.1068730354309082,
      "learning_rate": 7.965374928740888e-05,
      "loss": 3.8916,
      "step": 315270
    },
    {
      "epoch": 0.6568333333333334,
      "grad_norm": 1.2190306186676025,
      "learning_rate": 7.964504225137914e-05,
      "loss": 3.7276,
      "step": 315280
    },
    {
      "epoch": 0.6568541666666666,
      "grad_norm": 1.2674611806869507,
      "learning_rate": 7.9636335519255e-05,
      "loss": 3.8876,
      "step": 315290
    },
    {
      "epoch": 0.656875,
      "grad_norm": 1.097394585609436,
      "learning_rate": 7.962762909107393e-05,
      "loss": 4.0268,
      "step": 315300
    },
    {
      "epoch": 0.6568958333333333,
      "grad_norm": 1.097184419631958,
      "learning_rate": 7.96189229668737e-05,
      "loss": 3.7678,
      "step": 315310
    },
    {
      "epoch": 0.6569166666666667,
      "grad_norm": 1.2421783208847046,
      "learning_rate": 7.961021714669195e-05,
      "loss": 3.8007,
      "step": 315320
    },
    {
      "epoch": 0.6569375,
      "grad_norm": 1.1346148252487183,
      "learning_rate": 7.96015116305661e-05,
      "loss": 3.8203,
      "step": 315330
    },
    {
      "epoch": 0.6569583333333333,
      "grad_norm": 2.1381685733795166,
      "learning_rate": 7.959280641853382e-05,
      "loss": 3.9061,
      "step": 315340
    },
    {
      "epoch": 0.6569791666666667,
      "grad_norm": 1.1504666805267334,
      "learning_rate": 7.958410151063287e-05,
      "loss": 3.895,
      "step": 315350
    },
    {
      "epoch": 0.657,
      "grad_norm": 1.2081984281539917,
      "learning_rate": 7.957539690690065e-05,
      "loss": 3.8414,
      "step": 315360
    },
    {
      "epoch": 0.6570208333333334,
      "grad_norm": 0.9849648475646973,
      "learning_rate": 7.95666926073748e-05,
      "loss": 3.9257,
      "step": 315370
    },
    {
      "epoch": 0.6570416666666666,
      "grad_norm": 1.052101492881775,
      "learning_rate": 7.955798861209307e-05,
      "loss": 3.9089,
      "step": 315380
    },
    {
      "epoch": 0.6570625,
      "grad_norm": 1.139838695526123,
      "learning_rate": 7.954928492109287e-05,
      "loss": 3.8191,
      "step": 315390
    },
    {
      "epoch": 0.6570833333333334,
      "grad_norm": 1.1565247774124146,
      "learning_rate": 7.954058153441184e-05,
      "loss": 3.8991,
      "step": 315400
    },
    {
      "epoch": 0.6571041666666667,
      "grad_norm": 1.101203203201294,
      "learning_rate": 7.95318784520877e-05,
      "loss": 4.0514,
      "step": 315410
    },
    {
      "epoch": 0.657125,
      "grad_norm": 1.1925790309906006,
      "learning_rate": 7.952317567415792e-05,
      "loss": 3.9143,
      "step": 315420
    },
    {
      "epoch": 0.6571458333333333,
      "grad_norm": 1.1831326484680176,
      "learning_rate": 7.95144732006601e-05,
      "loss": 3.835,
      "step": 315430
    },
    {
      "epoch": 0.6571666666666667,
      "grad_norm": 1.0405802726745605,
      "learning_rate": 7.950577103163187e-05,
      "loss": 3.7884,
      "step": 315440
    },
    {
      "epoch": 0.6571875,
      "grad_norm": 1.1570407152175903,
      "learning_rate": 7.949706916711082e-05,
      "loss": 3.9218,
      "step": 315450
    },
    {
      "epoch": 0.6572083333333333,
      "grad_norm": 1.1252052783966064,
      "learning_rate": 7.948836760713448e-05,
      "loss": 3.7548,
      "step": 315460
    },
    {
      "epoch": 0.6572291666666666,
      "grad_norm": 1.0554977655410767,
      "learning_rate": 7.947966635174051e-05,
      "loss": 3.6907,
      "step": 315470
    },
    {
      "epoch": 0.65725,
      "grad_norm": 1.030479073524475,
      "learning_rate": 7.947096540096647e-05,
      "loss": 3.9187,
      "step": 315480
    },
    {
      "epoch": 0.6572708333333334,
      "grad_norm": 1.2033754587173462,
      "learning_rate": 7.946226475484995e-05,
      "loss": 3.8659,
      "step": 315490
    },
    {
      "epoch": 0.6572916666666667,
      "grad_norm": 1.0900132656097412,
      "learning_rate": 7.945356441342851e-05,
      "loss": 3.9448,
      "step": 315500
    },
    {
      "epoch": 0.6573125,
      "grad_norm": 1.1596776247024536,
      "learning_rate": 7.944486437673975e-05,
      "loss": 4.0099,
      "step": 315510
    },
    {
      "epoch": 0.6573333333333333,
      "grad_norm": 1.00645112991333,
      "learning_rate": 7.943616464482126e-05,
      "loss": 3.9016,
      "step": 315520
    },
    {
      "epoch": 0.6573541666666667,
      "grad_norm": 1.0905132293701172,
      "learning_rate": 7.942746521771058e-05,
      "loss": 3.8007,
      "step": 315530
    },
    {
      "epoch": 0.657375,
      "grad_norm": 1.141600251197815,
      "learning_rate": 7.941876609544535e-05,
      "loss": 4.0109,
      "step": 315540
    },
    {
      "epoch": 0.6573958333333333,
      "grad_norm": 1.1441279649734497,
      "learning_rate": 7.94100672780631e-05,
      "loss": 3.7327,
      "step": 315550
    },
    {
      "epoch": 0.6574166666666666,
      "grad_norm": 1.1043107509613037,
      "learning_rate": 7.940136876560141e-05,
      "loss": 3.7965,
      "step": 315560
    },
    {
      "epoch": 0.6574375,
      "grad_norm": 1.2579922676086426,
      "learning_rate": 7.939267055809786e-05,
      "loss": 4.1159,
      "step": 315570
    },
    {
      "epoch": 0.6574583333333334,
      "grad_norm": 1.0856114625930786,
      "learning_rate": 7.938397265559003e-05,
      "loss": 3.9235,
      "step": 315580
    },
    {
      "epoch": 0.6574791666666666,
      "grad_norm": 1.0094050168991089,
      "learning_rate": 7.937527505811548e-05,
      "loss": 3.9878,
      "step": 315590
    },
    {
      "epoch": 0.6575,
      "grad_norm": 1.1378928422927856,
      "learning_rate": 7.936657776571179e-05,
      "loss": 3.8618,
      "step": 315600
    },
    {
      "epoch": 0.6575208333333333,
      "grad_norm": 1.0366742610931396,
      "learning_rate": 7.935788077841653e-05,
      "loss": 3.7611,
      "step": 315610
    },
    {
      "epoch": 0.6575416666666667,
      "grad_norm": 1.2278809547424316,
      "learning_rate": 7.934918409626727e-05,
      "loss": 3.8365,
      "step": 315620
    },
    {
      "epoch": 0.6575625,
      "grad_norm": 1.2660572528839111,
      "learning_rate": 7.934048771930156e-05,
      "loss": 3.828,
      "step": 315630
    },
    {
      "epoch": 0.6575833333333333,
      "grad_norm": 1.0708985328674316,
      "learning_rate": 7.933179164755703e-05,
      "loss": 3.7391,
      "step": 315640
    },
    {
      "epoch": 0.6576041666666667,
      "grad_norm": 1.1549650430679321,
      "learning_rate": 7.932309588107107e-05,
      "loss": 3.8713,
      "step": 315650
    },
    {
      "epoch": 0.657625,
      "grad_norm": 1.228272795677185,
      "learning_rate": 7.931440041988148e-05,
      "loss": 3.9218,
      "step": 315660
    },
    {
      "epoch": 0.6576458333333334,
      "grad_norm": 1.0475106239318848,
      "learning_rate": 7.930570526402565e-05,
      "loss": 3.8258,
      "step": 315670
    },
    {
      "epoch": 0.6576666666666666,
      "grad_norm": 1.2845230102539062,
      "learning_rate": 7.929701041354113e-05,
      "loss": 3.7632,
      "step": 315680
    },
    {
      "epoch": 0.6576875,
      "grad_norm": 1.1948908567428589,
      "learning_rate": 7.928831586846564e-05,
      "loss": 3.9758,
      "step": 315690
    },
    {
      "epoch": 0.6577083333333333,
      "grad_norm": 1.14453125,
      "learning_rate": 7.927962162883659e-05,
      "loss": 3.8758,
      "step": 315700
    },
    {
      "epoch": 0.6577291666666667,
      "grad_norm": 1.1303998231887817,
      "learning_rate": 7.927092769469152e-05,
      "loss": 3.8914,
      "step": 315710
    },
    {
      "epoch": 0.65775,
      "grad_norm": 1.1371614933013916,
      "learning_rate": 7.926223406606816e-05,
      "loss": 3.9696,
      "step": 315720
    },
    {
      "epoch": 0.6577708333333333,
      "grad_norm": 1.5439000129699707,
      "learning_rate": 7.92535407430039e-05,
      "loss": 3.7296,
      "step": 315730
    },
    {
      "epoch": 0.6577916666666667,
      "grad_norm": 1.2162758111953735,
      "learning_rate": 7.924484772553628e-05,
      "loss": 4.0095,
      "step": 315740
    },
    {
      "epoch": 0.6578125,
      "grad_norm": 1.042921781539917,
      "learning_rate": 7.923615501370302e-05,
      "loss": 3.8304,
      "step": 315750
    },
    {
      "epoch": 0.6578333333333334,
      "grad_norm": 1.2565566301345825,
      "learning_rate": 7.922746260754151e-05,
      "loss": 3.9521,
      "step": 315760
    },
    {
      "epoch": 0.6578541666666666,
      "grad_norm": 1.1121150255203247,
      "learning_rate": 7.921877050708928e-05,
      "loss": 3.9459,
      "step": 315770
    },
    {
      "epoch": 0.657875,
      "grad_norm": 1.125846266746521,
      "learning_rate": 7.921007871238407e-05,
      "loss": 3.7033,
      "step": 315780
    },
    {
      "epoch": 0.6578958333333333,
      "grad_norm": 1.295528769493103,
      "learning_rate": 7.920138722346323e-05,
      "loss": 3.9363,
      "step": 315790
    },
    {
      "epoch": 0.6579166666666667,
      "grad_norm": 1.1405621767044067,
      "learning_rate": 7.91926960403644e-05,
      "loss": 4.0045,
      "step": 315800
    },
    {
      "epoch": 0.6579375,
      "grad_norm": 1.0626007318496704,
      "learning_rate": 7.918400516312505e-05,
      "loss": 3.9264,
      "step": 315810
    },
    {
      "epoch": 0.6579583333333333,
      "grad_norm": 1.0567023754119873,
      "learning_rate": 7.917531459178281e-05,
      "loss": 3.7328,
      "step": 315820
    },
    {
      "epoch": 0.6579791666666667,
      "grad_norm": 1.1790889501571655,
      "learning_rate": 7.916662432637515e-05,
      "loss": 3.8502,
      "step": 315830
    },
    {
      "epoch": 0.658,
      "grad_norm": 1.3393722772598267,
      "learning_rate": 7.915793436693966e-05,
      "loss": 3.9485,
      "step": 315840
    },
    {
      "epoch": 0.6580208333333334,
      "grad_norm": 1.1013928651809692,
      "learning_rate": 7.914924471351383e-05,
      "loss": 3.8013,
      "step": 315850
    },
    {
      "epoch": 0.6580416666666666,
      "grad_norm": 1.1414783000946045,
      "learning_rate": 7.914055536613522e-05,
      "loss": 3.6808,
      "step": 315860
    },
    {
      "epoch": 0.6580625,
      "grad_norm": 1.2100014686584473,
      "learning_rate": 7.913186632484137e-05,
      "loss": 4.0389,
      "step": 315870
    },
    {
      "epoch": 0.6580833333333334,
      "grad_norm": 1.1210243701934814,
      "learning_rate": 7.91231775896698e-05,
      "loss": 3.8165,
      "step": 315880
    },
    {
      "epoch": 0.6581041666666667,
      "grad_norm": 1.15228271484375,
      "learning_rate": 7.911448916065804e-05,
      "loss": 3.903,
      "step": 315890
    },
    {
      "epoch": 0.658125,
      "grad_norm": 1.2921756505966187,
      "learning_rate": 7.910580103784366e-05,
      "loss": 3.7477,
      "step": 315900
    },
    {
      "epoch": 0.6581458333333333,
      "grad_norm": 1.0155494213104248,
      "learning_rate": 7.909711322126413e-05,
      "loss": 3.8644,
      "step": 315910
    },
    {
      "epoch": 0.6581666666666667,
      "grad_norm": 1.0234535932540894,
      "learning_rate": 7.908842571095709e-05,
      "loss": 3.8993,
      "step": 315920
    },
    {
      "epoch": 0.6581875,
      "grad_norm": 1.0832767486572266,
      "learning_rate": 7.907973850695983e-05,
      "loss": 3.7347,
      "step": 315930
    },
    {
      "epoch": 0.6582083333333333,
      "grad_norm": 1.0837053060531616,
      "learning_rate": 7.90710516093101e-05,
      "loss": 3.9404,
      "step": 315940
    },
    {
      "epoch": 0.6582291666666666,
      "grad_norm": 1.0596227645874023,
      "learning_rate": 7.906236501804541e-05,
      "loss": 3.8078,
      "step": 315950
    },
    {
      "epoch": 0.65825,
      "grad_norm": 1.1792598962783813,
      "learning_rate": 7.905367873320312e-05,
      "loss": 3.9356,
      "step": 315960
    },
    {
      "epoch": 0.6582708333333334,
      "grad_norm": 1.1217519044876099,
      "learning_rate": 7.90449927548209e-05,
      "loss": 3.8455,
      "step": 315970
    },
    {
      "epoch": 0.6582916666666667,
      "grad_norm": 1.116723656654358,
      "learning_rate": 7.90363070829363e-05,
      "loss": 3.8375,
      "step": 315980
    },
    {
      "epoch": 0.6583125,
      "grad_norm": 1.1239243745803833,
      "learning_rate": 7.902762171758662e-05,
      "loss": 3.9688,
      "step": 315990
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 1.0980294942855835,
      "learning_rate": 7.90189366588096e-05,
      "loss": 3.8502,
      "step": 316000
    },
    {
      "epoch": 0.6583333333333333,
      "eval_loss": 3.5590147972106934,
      "eval_runtime": 6.8576,
      "eval_samples_per_second": 1.458,
      "eval_steps_per_second": 0.437,
      "step": 316000
    },
    {
      "epoch": 0.6583541666666667,
      "grad_norm": 1.051774024963379,
      "learning_rate": 7.901025190664273e-05,
      "loss": 3.9166,
      "step": 316010
    },
    {
      "epoch": 0.658375,
      "grad_norm": 1.2566946744918823,
      "learning_rate": 7.900156746112335e-05,
      "loss": 3.856,
      "step": 316020
    },
    {
      "epoch": 0.6583958333333333,
      "grad_norm": 1.086236834526062,
      "learning_rate": 7.899288332228917e-05,
      "loss": 3.7346,
      "step": 316030
    },
    {
      "epoch": 0.6584166666666667,
      "grad_norm": 1.1035070419311523,
      "learning_rate": 7.898419949017767e-05,
      "loss": 3.9445,
      "step": 316040
    },
    {
      "epoch": 0.6584375,
      "grad_norm": 1.1091477870941162,
      "learning_rate": 7.897551596482623e-05,
      "loss": 3.6343,
      "step": 316050
    },
    {
      "epoch": 0.6584583333333334,
      "grad_norm": 1.1889208555221558,
      "learning_rate": 7.896683274627252e-05,
      "loss": 3.8649,
      "step": 316060
    },
    {
      "epoch": 0.6584791666666666,
      "grad_norm": 1.1012284755706787,
      "learning_rate": 7.895814983455394e-05,
      "loss": 3.6761,
      "step": 316070
    },
    {
      "epoch": 0.6585,
      "grad_norm": 1.1914434432983398,
      "learning_rate": 7.894946722970797e-05,
      "loss": 3.8855,
      "step": 316080
    },
    {
      "epoch": 0.6585208333333333,
      "grad_norm": 1.1656520366668701,
      "learning_rate": 7.89407849317723e-05,
      "loss": 3.9157,
      "step": 316090
    },
    {
      "epoch": 0.6585416666666667,
      "grad_norm": 1.0550439357757568,
      "learning_rate": 7.893210294078424e-05,
      "loss": 4.0686,
      "step": 316100
    },
    {
      "epoch": 0.6585625,
      "grad_norm": 1.258670449256897,
      "learning_rate": 7.892342125678132e-05,
      "loss": 3.9343,
      "step": 316110
    },
    {
      "epoch": 0.6585833333333333,
      "grad_norm": 1.2697596549987793,
      "learning_rate": 7.891473987980121e-05,
      "loss": 3.9134,
      "step": 316120
    },
    {
      "epoch": 0.6586041666666667,
      "grad_norm": 1.1101651191711426,
      "learning_rate": 7.89060588098812e-05,
      "loss": 3.7631,
      "step": 316130
    },
    {
      "epoch": 0.658625,
      "grad_norm": 1.2604154348373413,
      "learning_rate": 7.889737804705884e-05,
      "loss": 3.8286,
      "step": 316140
    },
    {
      "epoch": 0.6586458333333334,
      "grad_norm": 1.229454517364502,
      "learning_rate": 7.888869759137179e-05,
      "loss": 3.8562,
      "step": 316150
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 1.12766695022583,
      "learning_rate": 7.888001744285733e-05,
      "loss": 3.7491,
      "step": 316160
    },
    {
      "epoch": 0.6586875,
      "grad_norm": 1.0837079286575317,
      "learning_rate": 7.887133760155305e-05,
      "loss": 3.9062,
      "step": 316170
    },
    {
      "epoch": 0.6587083333333333,
      "grad_norm": 1.0664981603622437,
      "learning_rate": 7.886265806749644e-05,
      "loss": 3.8631,
      "step": 316180
    },
    {
      "epoch": 0.6587291666666667,
      "grad_norm": 1.1781078577041626,
      "learning_rate": 7.8853978840725e-05,
      "loss": 3.8014,
      "step": 316190
    },
    {
      "epoch": 0.65875,
      "grad_norm": 1.339065670967102,
      "learning_rate": 7.884529992127622e-05,
      "loss": 3.771,
      "step": 316200
    },
    {
      "epoch": 0.6587708333333333,
      "grad_norm": 1.085800051689148,
      "learning_rate": 7.883662130918755e-05,
      "loss": 3.9567,
      "step": 316210
    },
    {
      "epoch": 0.6587916666666667,
      "grad_norm": 1.1102969646453857,
      "learning_rate": 7.882794300449652e-05,
      "loss": 3.826,
      "step": 316220
    },
    {
      "epoch": 0.6588125,
      "grad_norm": 1.4387911558151245,
      "learning_rate": 7.881926500724062e-05,
      "loss": 3.9628,
      "step": 316230
    },
    {
      "epoch": 0.6588333333333334,
      "grad_norm": 1.132883071899414,
      "learning_rate": 7.88105873174573e-05,
      "loss": 3.8866,
      "step": 316240
    },
    {
      "epoch": 0.6588541666666666,
      "grad_norm": 1.1832947731018066,
      "learning_rate": 7.880190993518405e-05,
      "loss": 3.7251,
      "step": 316250
    },
    {
      "epoch": 0.658875,
      "grad_norm": 1.1037932634353638,
      "learning_rate": 7.879323286045839e-05,
      "loss": 3.7882,
      "step": 316260
    },
    {
      "epoch": 0.6588958333333333,
      "grad_norm": 1.3032134771347046,
      "learning_rate": 7.878455609331777e-05,
      "loss": 3.8636,
      "step": 316270
    },
    {
      "epoch": 0.6589166666666667,
      "grad_norm": 1.1461485624313354,
      "learning_rate": 7.877587963379968e-05,
      "loss": 3.8187,
      "step": 316280
    },
    {
      "epoch": 0.6589375,
      "grad_norm": 1.0132439136505127,
      "learning_rate": 7.876720348194165e-05,
      "loss": 3.8401,
      "step": 316290
    },
    {
      "epoch": 0.6589583333333333,
      "grad_norm": 1.098872423171997,
      "learning_rate": 7.8758527637781e-05,
      "loss": 4.0307,
      "step": 316300
    },
    {
      "epoch": 0.6589791666666667,
      "grad_norm": 1.0877456665039062,
      "learning_rate": 7.874985210135538e-05,
      "loss": 3.8343,
      "step": 316310
    },
    {
      "epoch": 0.659,
      "grad_norm": 1.0828804969787598,
      "learning_rate": 7.874117687270223e-05,
      "loss": 3.7585,
      "step": 316320
    },
    {
      "epoch": 0.6590208333333333,
      "grad_norm": 1.1805036067962646,
      "learning_rate": 7.87325019518589e-05,
      "loss": 3.9333,
      "step": 316330
    },
    {
      "epoch": 0.6590416666666666,
      "grad_norm": 1.0286723375320435,
      "learning_rate": 7.872382733886298e-05,
      "loss": 3.8582,
      "step": 316340
    },
    {
      "epoch": 0.6590625,
      "grad_norm": 1.3978731632232666,
      "learning_rate": 7.871515303375199e-05,
      "loss": 3.9347,
      "step": 316350
    },
    {
      "epoch": 0.6590833333333334,
      "grad_norm": 1.3264089822769165,
      "learning_rate": 7.870647903656321e-05,
      "loss": 3.8401,
      "step": 316360
    },
    {
      "epoch": 0.6591041666666667,
      "grad_norm": 1.1327855587005615,
      "learning_rate": 7.869780534733425e-05,
      "loss": 3.8216,
      "step": 316370
    },
    {
      "epoch": 0.659125,
      "grad_norm": 1.0831363201141357,
      "learning_rate": 7.868913196610263e-05,
      "loss": 3.8049,
      "step": 316380
    },
    {
      "epoch": 0.6591458333333333,
      "grad_norm": 1.1148236989974976,
      "learning_rate": 7.868045889290561e-05,
      "loss": 3.7006,
      "step": 316390
    },
    {
      "epoch": 0.6591666666666667,
      "grad_norm": 1.112665057182312,
      "learning_rate": 7.867178612778084e-05,
      "loss": 3.8583,
      "step": 316400
    },
    {
      "epoch": 0.6591875,
      "grad_norm": 1.238301157951355,
      "learning_rate": 7.866311367076578e-05,
      "loss": 3.8798,
      "step": 316410
    },
    {
      "epoch": 0.6592083333333333,
      "grad_norm": 1.214261770248413,
      "learning_rate": 7.86544415218977e-05,
      "loss": 3.7371,
      "step": 316420
    },
    {
      "epoch": 0.6592291666666666,
      "grad_norm": 1.142289161682129,
      "learning_rate": 7.864576968121432e-05,
      "loss": 4.0317,
      "step": 316430
    },
    {
      "epoch": 0.65925,
      "grad_norm": 1.2836132049560547,
      "learning_rate": 7.863709814875293e-05,
      "loss": 3.8591,
      "step": 316440
    },
    {
      "epoch": 0.6592708333333334,
      "grad_norm": 1.1474679708480835,
      "learning_rate": 7.862842692455096e-05,
      "loss": 3.9248,
      "step": 316450
    },
    {
      "epoch": 0.6592916666666667,
      "grad_norm": 1.2716819047927856,
      "learning_rate": 7.861975600864604e-05,
      "loss": 3.974,
      "step": 316460
    },
    {
      "epoch": 0.6593125,
      "grad_norm": 1.1121731996536255,
      "learning_rate": 7.861108540107545e-05,
      "loss": 3.839,
      "step": 316470
    },
    {
      "epoch": 0.6593333333333333,
      "grad_norm": 1.1989006996154785,
      "learning_rate": 7.860241510187668e-05,
      "loss": 3.9843,
      "step": 316480
    },
    {
      "epoch": 0.6593541666666667,
      "grad_norm": 1.0903428792953491,
      "learning_rate": 7.859374511108732e-05,
      "loss": 3.7107,
      "step": 316490
    },
    {
      "epoch": 0.659375,
      "grad_norm": 1.0970603227615356,
      "learning_rate": 7.858507542874466e-05,
      "loss": 3.8936,
      "step": 316500
    },
    {
      "epoch": 0.6593958333333333,
      "grad_norm": 1.1730509996414185,
      "learning_rate": 7.857640605488622e-05,
      "loss": 3.8542,
      "step": 316510
    },
    {
      "epoch": 0.6594166666666667,
      "grad_norm": 1.3445278406143188,
      "learning_rate": 7.856773698954941e-05,
      "loss": 3.9545,
      "step": 316520
    },
    {
      "epoch": 0.6594375,
      "grad_norm": 1.1717671155929565,
      "learning_rate": 7.855906823277173e-05,
      "loss": 3.6707,
      "step": 316530
    },
    {
      "epoch": 0.6594583333333334,
      "grad_norm": 1.2756282091140747,
      "learning_rate": 7.855039978459056e-05,
      "loss": 3.9336,
      "step": 316540
    },
    {
      "epoch": 0.6594791666666666,
      "grad_norm": 1.1919219493865967,
      "learning_rate": 7.854173164504341e-05,
      "loss": 3.7629,
      "step": 316550
    },
    {
      "epoch": 0.6595,
      "grad_norm": 1.1293307542800903,
      "learning_rate": 7.853306381416767e-05,
      "loss": 3.8207,
      "step": 316560
    },
    {
      "epoch": 0.6595208333333333,
      "grad_norm": 1.0287644863128662,
      "learning_rate": 7.852439629200082e-05,
      "loss": 3.9803,
      "step": 316570
    },
    {
      "epoch": 0.6595416666666667,
      "grad_norm": 1.162313461303711,
      "learning_rate": 7.85157290785803e-05,
      "loss": 3.8955,
      "step": 316580
    },
    {
      "epoch": 0.6595625,
      "grad_norm": 1.1052430868148804,
      "learning_rate": 7.850706217394351e-05,
      "loss": 3.857,
      "step": 316590
    },
    {
      "epoch": 0.6595833333333333,
      "grad_norm": 1.324277639389038,
      "learning_rate": 7.849839557812795e-05,
      "loss": 4.0695,
      "step": 316600
    },
    {
      "epoch": 0.6596041666666667,
      "grad_norm": 1.2905954122543335,
      "learning_rate": 7.848972929117099e-05,
      "loss": 3.7763,
      "step": 316610
    },
    {
      "epoch": 0.659625,
      "grad_norm": 1.2783695459365845,
      "learning_rate": 7.848106331311008e-05,
      "loss": 3.8032,
      "step": 316620
    },
    {
      "epoch": 0.6596458333333334,
      "grad_norm": 1.0664668083190918,
      "learning_rate": 7.84723976439827e-05,
      "loss": 3.9074,
      "step": 316630
    },
    {
      "epoch": 0.6596666666666666,
      "grad_norm": 1.2052721977233887,
      "learning_rate": 7.846373228382623e-05,
      "loss": 3.7612,
      "step": 316640
    },
    {
      "epoch": 0.6596875,
      "grad_norm": 1.0640102624893188,
      "learning_rate": 7.845506723267812e-05,
      "loss": 3.75,
      "step": 316650
    },
    {
      "epoch": 0.6597083333333333,
      "grad_norm": 1.111135482788086,
      "learning_rate": 7.844640249057585e-05,
      "loss": 4.0577,
      "step": 316660
    },
    {
      "epoch": 0.6597291666666667,
      "grad_norm": 1.2634339332580566,
      "learning_rate": 7.843773805755672e-05,
      "loss": 3.8407,
      "step": 316670
    },
    {
      "epoch": 0.65975,
      "grad_norm": 1.2404931783676147,
      "learning_rate": 7.842907393365827e-05,
      "loss": 3.8902,
      "step": 316680
    },
    {
      "epoch": 0.6597708333333333,
      "grad_norm": 1.084700107574463,
      "learning_rate": 7.842041011891794e-05,
      "loss": 3.9149,
      "step": 316690
    },
    {
      "epoch": 0.6597916666666667,
      "grad_norm": 1.1343835592269897,
      "learning_rate": 7.841174661337298e-05,
      "loss": 3.8522,
      "step": 316700
    },
    {
      "epoch": 0.6598125,
      "grad_norm": 1.127799153327942,
      "learning_rate": 7.840308341706103e-05,
      "loss": 3.9644,
      "step": 316710
    },
    {
      "epoch": 0.6598333333333334,
      "grad_norm": 1.2399595975875854,
      "learning_rate": 7.839442053001945e-05,
      "loss": 3.8795,
      "step": 316720
    },
    {
      "epoch": 0.6598541666666666,
      "grad_norm": 1.118579387664795,
      "learning_rate": 7.838575795228552e-05,
      "loss": 3.7995,
      "step": 316730
    },
    {
      "epoch": 0.659875,
      "grad_norm": 1.1325081586837769,
      "learning_rate": 7.837709568389684e-05,
      "loss": 3.6533,
      "step": 316740
    },
    {
      "epoch": 0.6598958333333333,
      "grad_norm": 1.0613682270050049,
      "learning_rate": 7.83684337248908e-05,
      "loss": 3.7431,
      "step": 316750
    },
    {
      "epoch": 0.6599166666666667,
      "grad_norm": 1.2338064908981323,
      "learning_rate": 7.835977207530468e-05,
      "loss": 3.6127,
      "step": 316760
    },
    {
      "epoch": 0.6599375,
      "grad_norm": 1.1408367156982422,
      "learning_rate": 7.835111073517603e-05,
      "loss": 3.7407,
      "step": 316770
    },
    {
      "epoch": 0.6599583333333333,
      "grad_norm": 1.049614667892456,
      "learning_rate": 7.834244970454226e-05,
      "loss": 3.8347,
      "step": 316780
    },
    {
      "epoch": 0.6599791666666667,
      "grad_norm": 1.2983468770980835,
      "learning_rate": 7.833378898344064e-05,
      "loss": 3.788,
      "step": 316790
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1394448280334473,
      "learning_rate": 7.832512857190881e-05,
      "loss": 3.9058,
      "step": 316800
    },
    {
      "epoch": 0.6600208333333333,
      "grad_norm": 1.0764799118041992,
      "learning_rate": 7.831646846998398e-05,
      "loss": 3.903,
      "step": 316810
    },
    {
      "epoch": 0.6600416666666666,
      "grad_norm": 1.0586625337600708,
      "learning_rate": 7.830780867770364e-05,
      "loss": 3.9849,
      "step": 316820
    },
    {
      "epoch": 0.6600625,
      "grad_norm": 1.0546551942825317,
      "learning_rate": 7.82991491951052e-05,
      "loss": 3.7622,
      "step": 316830
    },
    {
      "epoch": 0.6600833333333334,
      "grad_norm": 1.01658034324646,
      "learning_rate": 7.829049002222604e-05,
      "loss": 3.9597,
      "step": 316840
    },
    {
      "epoch": 0.6601041666666667,
      "grad_norm": 1.1884515285491943,
      "learning_rate": 7.828183115910358e-05,
      "loss": 3.9089,
      "step": 316850
    },
    {
      "epoch": 0.660125,
      "grad_norm": 1.1909695863723755,
      "learning_rate": 7.827317260577523e-05,
      "loss": 3.8999,
      "step": 316860
    },
    {
      "epoch": 0.6601458333333333,
      "grad_norm": 1.1313049793243408,
      "learning_rate": 7.826451436227838e-05,
      "loss": 3.5782,
      "step": 316870
    },
    {
      "epoch": 0.6601666666666667,
      "grad_norm": 1.1312731504440308,
      "learning_rate": 7.825585642865043e-05,
      "loss": 3.8299,
      "step": 316880
    },
    {
      "epoch": 0.6601875,
      "grad_norm": 1.0353562831878662,
      "learning_rate": 7.824719880492879e-05,
      "loss": 3.8287,
      "step": 316890
    },
    {
      "epoch": 0.6602083333333333,
      "grad_norm": 1.262008786201477,
      "learning_rate": 7.823854149115085e-05,
      "loss": 4.0216,
      "step": 316900
    },
    {
      "epoch": 0.6602291666666666,
      "grad_norm": 1.0432274341583252,
      "learning_rate": 7.822988448735399e-05,
      "loss": 3.7616,
      "step": 316910
    },
    {
      "epoch": 0.66025,
      "grad_norm": 1.0632933378219604,
      "learning_rate": 7.822122779357561e-05,
      "loss": 3.8164,
      "step": 316920
    },
    {
      "epoch": 0.6602708333333334,
      "grad_norm": 1.0369030237197876,
      "learning_rate": 7.821257140985314e-05,
      "loss": 3.9917,
      "step": 316930
    },
    {
      "epoch": 0.6602916666666667,
      "grad_norm": 1.08987557888031,
      "learning_rate": 7.820391533622394e-05,
      "loss": 3.8642,
      "step": 316940
    },
    {
      "epoch": 0.6603125,
      "grad_norm": 1.031435251235962,
      "learning_rate": 7.819525957272541e-05,
      "loss": 3.7182,
      "step": 316950
    },
    {
      "epoch": 0.6603333333333333,
      "grad_norm": 1.0409549474716187,
      "learning_rate": 7.818660411939493e-05,
      "loss": 3.8439,
      "step": 316960
    },
    {
      "epoch": 0.6603541666666667,
      "grad_norm": 1.0425364971160889,
      "learning_rate": 7.817794897626989e-05,
      "loss": 3.8241,
      "step": 316970
    },
    {
      "epoch": 0.660375,
      "grad_norm": 1.1264207363128662,
      "learning_rate": 7.816929414338768e-05,
      "loss": 3.8545,
      "step": 316980
    },
    {
      "epoch": 0.6603958333333333,
      "grad_norm": 1.2849419116973877,
      "learning_rate": 7.81606396207857e-05,
      "loss": 4.0259,
      "step": 316990
    },
    {
      "epoch": 0.6604166666666667,
      "grad_norm": 1.4737584590911865,
      "learning_rate": 7.815198540850132e-05,
      "loss": 3.8549,
      "step": 317000
    },
    {
      "epoch": 0.6604166666666667,
      "eval_loss": 3.5587258338928223,
      "eval_runtime": 7.3245,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 317000
    },
    {
      "epoch": 0.6604375,
      "grad_norm": 1.0520532131195068,
      "learning_rate": 7.814333150657191e-05,
      "loss": 3.7627,
      "step": 317010
    },
    {
      "epoch": 0.6604583333333334,
      "grad_norm": 1.0731208324432373,
      "learning_rate": 7.813467791503488e-05,
      "loss": 3.9389,
      "step": 317020
    },
    {
      "epoch": 0.6604791666666666,
      "grad_norm": 1.1239101886749268,
      "learning_rate": 7.812602463392763e-05,
      "loss": 3.8493,
      "step": 317030
    },
    {
      "epoch": 0.6605,
      "grad_norm": 1.0402528047561646,
      "learning_rate": 7.811737166328741e-05,
      "loss": 3.9468,
      "step": 317040
    },
    {
      "epoch": 0.6605208333333333,
      "grad_norm": 1.1710069179534912,
      "learning_rate": 7.810871900315175e-05,
      "loss": 3.8708,
      "step": 317050
    },
    {
      "epoch": 0.6605416666666667,
      "grad_norm": 1.0776081085205078,
      "learning_rate": 7.810006665355803e-05,
      "loss": 3.8253,
      "step": 317060
    },
    {
      "epoch": 0.6605625,
      "grad_norm": 1.1363669633865356,
      "learning_rate": 7.809141461454342e-05,
      "loss": 3.8196,
      "step": 317070
    },
    {
      "epoch": 0.6605833333333333,
      "grad_norm": 1.1131614446640015,
      "learning_rate": 7.80827628861455e-05,
      "loss": 3.7489,
      "step": 317080
    },
    {
      "epoch": 0.6606041666666667,
      "grad_norm": 1.2767001390457153,
      "learning_rate": 7.807411146840166e-05,
      "loss": 3.8227,
      "step": 317090
    },
    {
      "epoch": 0.660625,
      "grad_norm": 1.2131917476654053,
      "learning_rate": 7.806546036134909e-05,
      "loss": 3.7595,
      "step": 317100
    },
    {
      "epoch": 0.6606458333333334,
      "grad_norm": 1.125380516052246,
      "learning_rate": 7.805680956502525e-05,
      "loss": 3.8422,
      "step": 317110
    },
    {
      "epoch": 0.6606666666666666,
      "grad_norm": 1.2037523984909058,
      "learning_rate": 7.80481590794676e-05,
      "loss": 4.0383,
      "step": 317120
    },
    {
      "epoch": 0.6606875,
      "grad_norm": 1.067555546760559,
      "learning_rate": 7.803950890471335e-05,
      "loss": 3.9416,
      "step": 317130
    },
    {
      "epoch": 0.6607083333333333,
      "grad_norm": 1.0075905323028564,
      "learning_rate": 7.803085904079992e-05,
      "loss": 4.0558,
      "step": 317140
    },
    {
      "epoch": 0.6607291666666667,
      "grad_norm": 1.0988447666168213,
      "learning_rate": 7.802220948776477e-05,
      "loss": 3.868,
      "step": 317150
    },
    {
      "epoch": 0.66075,
      "grad_norm": 1.3310989141464233,
      "learning_rate": 7.801356024564515e-05,
      "loss": 3.6833,
      "step": 317160
    },
    {
      "epoch": 0.6607708333333333,
      "grad_norm": 4.512236595153809,
      "learning_rate": 7.800491131447844e-05,
      "loss": 3.9288,
      "step": 317170
    },
    {
      "epoch": 0.6607916666666667,
      "grad_norm": 1.0497769117355347,
      "learning_rate": 7.799626269430202e-05,
      "loss": 3.9415,
      "step": 317180
    },
    {
      "epoch": 0.6608125,
      "grad_norm": 1.2086387872695923,
      "learning_rate": 7.798761438515326e-05,
      "loss": 3.8561,
      "step": 317190
    },
    {
      "epoch": 0.6608333333333334,
      "grad_norm": 1.2283467054367065,
      "learning_rate": 7.797896638706948e-05,
      "loss": 3.8767,
      "step": 317200
    },
    {
      "epoch": 0.6608541666666666,
      "grad_norm": 1.3607326745986938,
      "learning_rate": 7.797031870008806e-05,
      "loss": 3.7764,
      "step": 317210
    },
    {
      "epoch": 0.660875,
      "grad_norm": 1.1488839387893677,
      "learning_rate": 7.796167132424636e-05,
      "loss": 3.7872,
      "step": 317220
    },
    {
      "epoch": 0.6608958333333333,
      "grad_norm": 1.1569310426712036,
      "learning_rate": 7.795302425958173e-05,
      "loss": 3.7956,
      "step": 317230
    },
    {
      "epoch": 0.6609166666666667,
      "grad_norm": 1.0448474884033203,
      "learning_rate": 7.794437750613152e-05,
      "loss": 4.0735,
      "step": 317240
    },
    {
      "epoch": 0.6609375,
      "grad_norm": 1.1059330701828003,
      "learning_rate": 7.793573106393306e-05,
      "loss": 3.7623,
      "step": 317250
    },
    {
      "epoch": 0.6609583333333333,
      "grad_norm": 1.0058754682540894,
      "learning_rate": 7.792708493302374e-05,
      "loss": 3.8153,
      "step": 317260
    },
    {
      "epoch": 0.6609791666666667,
      "grad_norm": 1.1560132503509521,
      "learning_rate": 7.791843911344086e-05,
      "loss": 3.9585,
      "step": 317270
    },
    {
      "epoch": 0.661,
      "grad_norm": 1.0622336864471436,
      "learning_rate": 7.790979360522181e-05,
      "loss": 3.8098,
      "step": 317280
    },
    {
      "epoch": 0.6610208333333333,
      "grad_norm": 1.069777011871338,
      "learning_rate": 7.790114840840389e-05,
      "loss": 3.8463,
      "step": 317290
    },
    {
      "epoch": 0.6610416666666666,
      "grad_norm": 1.1239396333694458,
      "learning_rate": 7.78925035230245e-05,
      "loss": 3.9022,
      "step": 317300
    },
    {
      "epoch": 0.6610625,
      "grad_norm": 1.1127513647079468,
      "learning_rate": 7.788385894912092e-05,
      "loss": 3.8594,
      "step": 317310
    },
    {
      "epoch": 0.6610833333333334,
      "grad_norm": 1.1570888757705688,
      "learning_rate": 7.787521468673055e-05,
      "loss": 3.9759,
      "step": 317320
    },
    {
      "epoch": 0.6611041666666667,
      "grad_norm": 1.1252340078353882,
      "learning_rate": 7.78665707358907e-05,
      "loss": 4.0739,
      "step": 317330
    },
    {
      "epoch": 0.661125,
      "grad_norm": 1.029306411743164,
      "learning_rate": 7.785792709663871e-05,
      "loss": 4.0072,
      "step": 317340
    },
    {
      "epoch": 0.6611458333333333,
      "grad_norm": 1.0669666528701782,
      "learning_rate": 7.784928376901193e-05,
      "loss": 3.9343,
      "step": 317350
    },
    {
      "epoch": 0.6611666666666667,
      "grad_norm": 1.0502537488937378,
      "learning_rate": 7.784064075304767e-05,
      "loss": 3.7986,
      "step": 317360
    },
    {
      "epoch": 0.6611875,
      "grad_norm": 1.0981202125549316,
      "learning_rate": 7.783199804878327e-05,
      "loss": 3.9733,
      "step": 317370
    },
    {
      "epoch": 0.6612083333333333,
      "grad_norm": 1.1269680261611938,
      "learning_rate": 7.782335565625614e-05,
      "loss": 3.8209,
      "step": 317380
    },
    {
      "epoch": 0.6612291666666666,
      "grad_norm": 1.3655835390090942,
      "learning_rate": 7.781471357550343e-05,
      "loss": 3.9137,
      "step": 317390
    },
    {
      "epoch": 0.66125,
      "grad_norm": 1.059807538986206,
      "learning_rate": 7.780607180656266e-05,
      "loss": 3.9277,
      "step": 317400
    },
    {
      "epoch": 0.6612708333333334,
      "grad_norm": 1.0601292848587036,
      "learning_rate": 7.779743034947112e-05,
      "loss": 3.9735,
      "step": 317410
    },
    {
      "epoch": 0.6612916666666667,
      "grad_norm": 1.2688082456588745,
      "learning_rate": 7.778878920426598e-05,
      "loss": 3.9399,
      "step": 317420
    },
    {
      "epoch": 0.6613125,
      "grad_norm": 1.1157355308532715,
      "learning_rate": 7.778014837098481e-05,
      "loss": 3.8405,
      "step": 317430
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 1.1568831205368042,
      "learning_rate": 7.777150784966477e-05,
      "loss": 3.8445,
      "step": 317440
    },
    {
      "epoch": 0.6613541666666667,
      "grad_norm": 1.1394767761230469,
      "learning_rate": 7.776286764034316e-05,
      "loss": 3.8879,
      "step": 317450
    },
    {
      "epoch": 0.661375,
      "grad_norm": 1.1200346946716309,
      "learning_rate": 7.775422774305746e-05,
      "loss": 3.7273,
      "step": 317460
    },
    {
      "epoch": 0.6613958333333333,
      "grad_norm": 1.1414560079574585,
      "learning_rate": 7.774558815784488e-05,
      "loss": 3.8804,
      "step": 317470
    },
    {
      "epoch": 0.6614166666666667,
      "grad_norm": 1.0432742834091187,
      "learning_rate": 7.773694888474267e-05,
      "loss": 3.9086,
      "step": 317480
    },
    {
      "epoch": 0.6614375,
      "grad_norm": 1.2553895711898804,
      "learning_rate": 7.772830992378837e-05,
      "loss": 3.7978,
      "step": 317490
    },
    {
      "epoch": 0.6614583333333334,
      "grad_norm": 1.2045767307281494,
      "learning_rate": 7.771967127501911e-05,
      "loss": 3.8767,
      "step": 317500
    },
    {
      "epoch": 0.6614791666666666,
      "grad_norm": 1.117138147354126,
      "learning_rate": 7.771103293847218e-05,
      "loss": 3.8775,
      "step": 317510
    },
    {
      "epoch": 0.6615,
      "grad_norm": 1.1174730062484741,
      "learning_rate": 7.770239491418512e-05,
      "loss": 3.8591,
      "step": 317520
    },
    {
      "epoch": 0.6615208333333333,
      "grad_norm": 1.0682172775268555,
      "learning_rate": 7.7693757202195e-05,
      "loss": 3.803,
      "step": 317530
    },
    {
      "epoch": 0.6615416666666667,
      "grad_norm": 1.214371919631958,
      "learning_rate": 7.76851198025392e-05,
      "loss": 3.7765,
      "step": 317540
    },
    {
      "epoch": 0.6615625,
      "grad_norm": 1.1649025678634644,
      "learning_rate": 7.767648271525517e-05,
      "loss": 3.7,
      "step": 317550
    },
    {
      "epoch": 0.6615833333333333,
      "grad_norm": 1.3963069915771484,
      "learning_rate": 7.766784594038004e-05,
      "loss": 3.7734,
      "step": 317560
    },
    {
      "epoch": 0.6616041666666667,
      "grad_norm": 1.2784199714660645,
      "learning_rate": 7.765920947795119e-05,
      "loss": 4.0094,
      "step": 317570
    },
    {
      "epoch": 0.661625,
      "grad_norm": 1.3164360523223877,
      "learning_rate": 7.765057332800592e-05,
      "loss": 3.7908,
      "step": 317580
    },
    {
      "epoch": 0.6616458333333334,
      "grad_norm": 1.4145618677139282,
      "learning_rate": 7.764193749058154e-05,
      "loss": 3.8219,
      "step": 317590
    },
    {
      "epoch": 0.6616666666666666,
      "grad_norm": 1.05376398563385,
      "learning_rate": 7.763330196571534e-05,
      "loss": 3.9309,
      "step": 317600
    },
    {
      "epoch": 0.6616875,
      "grad_norm": 1.078184723854065,
      "learning_rate": 7.762466675344464e-05,
      "loss": 3.8016,
      "step": 317610
    },
    {
      "epoch": 0.6617083333333333,
      "grad_norm": 1.2412035465240479,
      "learning_rate": 7.761603185380673e-05,
      "loss": 3.9232,
      "step": 317620
    },
    {
      "epoch": 0.6617291666666667,
      "grad_norm": 1.3097952604293823,
      "learning_rate": 7.760739726683891e-05,
      "loss": 4.0088,
      "step": 317630
    },
    {
      "epoch": 0.66175,
      "grad_norm": 1.4672297239303589,
      "learning_rate": 7.759876299257846e-05,
      "loss": 4.0123,
      "step": 317640
    },
    {
      "epoch": 0.6617708333333333,
      "grad_norm": 1.4089645147323608,
      "learning_rate": 7.759012903106271e-05,
      "loss": 3.8469,
      "step": 317650
    },
    {
      "epoch": 0.6617916666666667,
      "grad_norm": 3.0228660106658936,
      "learning_rate": 7.758149538232894e-05,
      "loss": 3.8564,
      "step": 317660
    },
    {
      "epoch": 0.6618125,
      "grad_norm": 1.064856767654419,
      "learning_rate": 7.757286204641446e-05,
      "loss": 3.8079,
      "step": 317670
    },
    {
      "epoch": 0.6618333333333334,
      "grad_norm": 1.1085530519485474,
      "learning_rate": 7.756422902335653e-05,
      "loss": 3.9715,
      "step": 317680
    },
    {
      "epoch": 0.6618541666666666,
      "grad_norm": 1.1510335206985474,
      "learning_rate": 7.755559631319252e-05,
      "loss": 3.8607,
      "step": 317690
    },
    {
      "epoch": 0.661875,
      "grad_norm": 1.1614607572555542,
      "learning_rate": 7.754696391595954e-05,
      "loss": 3.7716,
      "step": 317700
    },
    {
      "epoch": 0.6618958333333333,
      "grad_norm": 1.2200608253479004,
      "learning_rate": 7.753833183169506e-05,
      "loss": 3.7978,
      "step": 317710
    },
    {
      "epoch": 0.6619166666666667,
      "grad_norm": 1.0613514184951782,
      "learning_rate": 7.752970006043636e-05,
      "loss": 3.8351,
      "step": 317720
    },
    {
      "epoch": 0.6619375,
      "grad_norm": 1.1825950145721436,
      "learning_rate": 7.752106860222056e-05,
      "loss": 3.6299,
      "step": 317730
    },
    {
      "epoch": 0.6619583333333333,
      "grad_norm": 1.0667282342910767,
      "learning_rate": 7.751243745708511e-05,
      "loss": 3.949,
      "step": 317740
    },
    {
      "epoch": 0.6619791666666667,
      "grad_norm": 1.1080142259597778,
      "learning_rate": 7.750380662506728e-05,
      "loss": 3.9053,
      "step": 317750
    },
    {
      "epoch": 0.662,
      "grad_norm": 1.1304008960723877,
      "learning_rate": 7.749517610620421e-05,
      "loss": 3.7388,
      "step": 317760
    },
    {
      "epoch": 0.6620208333333333,
      "grad_norm": 1.0893621444702148,
      "learning_rate": 7.748654590053334e-05,
      "loss": 3.7202,
      "step": 317770
    },
    {
      "epoch": 0.6620416666666666,
      "grad_norm": 1.1321924924850464,
      "learning_rate": 7.747791600809195e-05,
      "loss": 3.9931,
      "step": 317780
    },
    {
      "epoch": 0.6620625,
      "grad_norm": 1.232322335243225,
      "learning_rate": 7.746928642891711e-05,
      "loss": 3.945,
      "step": 317790
    },
    {
      "epoch": 0.6620833333333334,
      "grad_norm": 1.1360023021697998,
      "learning_rate": 7.746065716304639e-05,
      "loss": 3.8331,
      "step": 317800
    },
    {
      "epoch": 0.6621041666666667,
      "grad_norm": 1.0888007879257202,
      "learning_rate": 7.745202821051684e-05,
      "loss": 3.8888,
      "step": 317810
    },
    {
      "epoch": 0.662125,
      "grad_norm": 1.112059235572815,
      "learning_rate": 7.744339957136578e-05,
      "loss": 3.8411,
      "step": 317820
    },
    {
      "epoch": 0.6621458333333333,
      "grad_norm": 1.138393759727478,
      "learning_rate": 7.743477124563061e-05,
      "loss": 3.9316,
      "step": 317830
    },
    {
      "epoch": 0.6621666666666667,
      "grad_norm": 1.1506681442260742,
      "learning_rate": 7.742614323334845e-05,
      "loss": 4.0497,
      "step": 317840
    },
    {
      "epoch": 0.6621875,
      "grad_norm": 1.1655839681625366,
      "learning_rate": 7.741751553455655e-05,
      "loss": 3.8282,
      "step": 317850
    },
    {
      "epoch": 0.6622083333333333,
      "grad_norm": 1.2732487916946411,
      "learning_rate": 7.74088881492924e-05,
      "loss": 3.8927,
      "step": 317860
    },
    {
      "epoch": 0.6622291666666666,
      "grad_norm": 1.2282427549362183,
      "learning_rate": 7.740026107759304e-05,
      "loss": 3.7147,
      "step": 317870
    },
    {
      "epoch": 0.66225,
      "grad_norm": 1.1228400468826294,
      "learning_rate": 7.739163431949576e-05,
      "loss": 3.9896,
      "step": 317880
    },
    {
      "epoch": 0.6622708333333334,
      "grad_norm": 1.2159984111785889,
      "learning_rate": 7.738300787503801e-05,
      "loss": 3.8511,
      "step": 317890
    },
    {
      "epoch": 0.6622916666666666,
      "grad_norm": 1.1471023559570312,
      "learning_rate": 7.737438174425685e-05,
      "loss": 3.7141,
      "step": 317900
    },
    {
      "epoch": 0.6623125,
      "grad_norm": 1.0572336912155151,
      "learning_rate": 7.736575592718957e-05,
      "loss": 3.8549,
      "step": 317910
    },
    {
      "epoch": 0.6623333333333333,
      "grad_norm": 1.1273943185806274,
      "learning_rate": 7.735713042387358e-05,
      "loss": 3.9592,
      "step": 317920
    },
    {
      "epoch": 0.6623541666666667,
      "grad_norm": 1.0675408840179443,
      "learning_rate": 7.734850523434597e-05,
      "loss": 3.751,
      "step": 317930
    },
    {
      "epoch": 0.662375,
      "grad_norm": 1.4365116357803345,
      "learning_rate": 7.733988035864404e-05,
      "loss": 3.6892,
      "step": 317940
    },
    {
      "epoch": 0.6623958333333333,
      "grad_norm": 1.1443896293640137,
      "learning_rate": 7.733125579680512e-05,
      "loss": 3.9054,
      "step": 317950
    },
    {
      "epoch": 0.6624166666666667,
      "grad_norm": 1.1302441358566284,
      "learning_rate": 7.732263154886637e-05,
      "loss": 3.9617,
      "step": 317960
    },
    {
      "epoch": 0.6624375,
      "grad_norm": 1.1385509967803955,
      "learning_rate": 7.73140076148651e-05,
      "loss": 3.8258,
      "step": 317970
    },
    {
      "epoch": 0.6624583333333334,
      "grad_norm": 1.1512625217437744,
      "learning_rate": 7.730538399483854e-05,
      "loss": 3.8003,
      "step": 317980
    },
    {
      "epoch": 0.6624791666666666,
      "grad_norm": 1.1080080270767212,
      "learning_rate": 7.729676068882394e-05,
      "loss": 3.8132,
      "step": 317990
    },
    {
      "epoch": 0.6625,
      "grad_norm": 1.095333456993103,
      "learning_rate": 7.728813769685858e-05,
      "loss": 3.7756,
      "step": 318000
    },
    {
      "epoch": 0.6625,
      "eval_loss": 3.5481796264648438,
      "eval_runtime": 7.3138,
      "eval_samples_per_second": 1.367,
      "eval_steps_per_second": 0.41,
      "step": 318000
    },
    {
      "epoch": 0.6625208333333333,
      "grad_norm": 1.1982395648956299,
      "learning_rate": 7.727951501897964e-05,
      "loss": 3.8113,
      "step": 318010
    },
    {
      "epoch": 0.6625416666666667,
      "grad_norm": 1.1731328964233398,
      "learning_rate": 7.727089265522445e-05,
      "loss": 3.773,
      "step": 318020
    },
    {
      "epoch": 0.6625625,
      "grad_norm": 1.1722910404205322,
      "learning_rate": 7.726227060563026e-05,
      "loss": 3.9138,
      "step": 318030
    },
    {
      "epoch": 0.6625833333333333,
      "grad_norm": 1.1482696533203125,
      "learning_rate": 7.725364887023414e-05,
      "loss": 3.8594,
      "step": 318040
    },
    {
      "epoch": 0.6626041666666667,
      "grad_norm": 1.1777747869491577,
      "learning_rate": 7.724502744907354e-05,
      "loss": 3.9028,
      "step": 318050
    },
    {
      "epoch": 0.662625,
      "grad_norm": 1.1447970867156982,
      "learning_rate": 7.723640634218569e-05,
      "loss": 3.9322,
      "step": 318060
    },
    {
      "epoch": 0.6626458333333334,
      "grad_norm": 1.1882774829864502,
      "learning_rate": 7.722778554960762e-05,
      "loss": 3.9926,
      "step": 318070
    },
    {
      "epoch": 0.6626666666666666,
      "grad_norm": 1.0980876684188843,
      "learning_rate": 7.721916507137678e-05,
      "loss": 3.7644,
      "step": 318080
    },
    {
      "epoch": 0.6626875,
      "grad_norm": 1.1877228021621704,
      "learning_rate": 7.721054490753041e-05,
      "loss": 3.7766,
      "step": 318090
    },
    {
      "epoch": 0.6627083333333333,
      "grad_norm": 1.239322304725647,
      "learning_rate": 7.720192505810554e-05,
      "loss": 3.7772,
      "step": 318100
    },
    {
      "epoch": 0.6627291666666667,
      "grad_norm": 1.1512879133224487,
      "learning_rate": 7.719330552313959e-05,
      "loss": 3.8183,
      "step": 318110
    },
    {
      "epoch": 0.66275,
      "grad_norm": 1.1540758609771729,
      "learning_rate": 7.718468630266982e-05,
      "loss": 3.9318,
      "step": 318120
    },
    {
      "epoch": 0.6627708333333333,
      "grad_norm": 1.232952356338501,
      "learning_rate": 7.717606739673325e-05,
      "loss": 3.9097,
      "step": 318130
    },
    {
      "epoch": 0.6627916666666667,
      "grad_norm": 1.1710745096206665,
      "learning_rate": 7.71674488053673e-05,
      "loss": 3.8079,
      "step": 318140
    },
    {
      "epoch": 0.6628125,
      "grad_norm": 1.4058175086975098,
      "learning_rate": 7.715883052860923e-05,
      "loss": 3.8348,
      "step": 318150
    },
    {
      "epoch": 0.6628333333333334,
      "grad_norm": 1.1927762031555176,
      "learning_rate": 7.715021256649603e-05,
      "loss": 3.74,
      "step": 318160
    },
    {
      "epoch": 0.6628541666666666,
      "grad_norm": 1.3758410215377808,
      "learning_rate": 7.714159491906521e-05,
      "loss": 3.7602,
      "step": 318170
    },
    {
      "epoch": 0.662875,
      "grad_norm": 1.0908950567245483,
      "learning_rate": 7.71329775863538e-05,
      "loss": 3.8246,
      "step": 318180
    },
    {
      "epoch": 0.6628958333333334,
      "grad_norm": 1.5559628009796143,
      "learning_rate": 7.712436056839902e-05,
      "loss": 3.9759,
      "step": 318190
    },
    {
      "epoch": 0.6629166666666667,
      "grad_norm": 1.0497421026229858,
      "learning_rate": 7.711574386523827e-05,
      "loss": 3.7342,
      "step": 318200
    },
    {
      "epoch": 0.6629375,
      "grad_norm": 1.1092913150787354,
      "learning_rate": 7.71071274769086e-05,
      "loss": 3.8985,
      "step": 318210
    },
    {
      "epoch": 0.6629583333333333,
      "grad_norm": 1.1406782865524292,
      "learning_rate": 7.709851140344724e-05,
      "loss": 3.8655,
      "step": 318220
    },
    {
      "epoch": 0.6629791666666667,
      "grad_norm": 1.2192134857177734,
      "learning_rate": 7.708989564489158e-05,
      "loss": 4.0704,
      "step": 318230
    },
    {
      "epoch": 0.663,
      "grad_norm": 1.0520844459533691,
      "learning_rate": 7.708128020127862e-05,
      "loss": 3.902,
      "step": 318240
    },
    {
      "epoch": 0.6630208333333333,
      "grad_norm": 1.1408452987670898,
      "learning_rate": 7.707266507264563e-05,
      "loss": 3.8371,
      "step": 318250
    },
    {
      "epoch": 0.6630416666666666,
      "grad_norm": 1.1156179904937744,
      "learning_rate": 7.706405025902996e-05,
      "loss": 3.6917,
      "step": 318260
    },
    {
      "epoch": 0.6630625,
      "grad_norm": 1.1515611410140991,
      "learning_rate": 7.705543576046867e-05,
      "loss": 3.8735,
      "step": 318270
    },
    {
      "epoch": 0.6630833333333334,
      "grad_norm": 1.3336358070373535,
      "learning_rate": 7.704682157699904e-05,
      "loss": 4.0955,
      "step": 318280
    },
    {
      "epoch": 0.6631041666666667,
      "grad_norm": 1.1279855966567993,
      "learning_rate": 7.703820770865826e-05,
      "loss": 3.7699,
      "step": 318290
    },
    {
      "epoch": 0.663125,
      "grad_norm": 1.0922268629074097,
      "learning_rate": 7.702959415548353e-05,
      "loss": 3.8758,
      "step": 318300
    },
    {
      "epoch": 0.6631458333333333,
      "grad_norm": 1.1833713054656982,
      "learning_rate": 7.702098091751207e-05,
      "loss": 3.9254,
      "step": 318310
    },
    {
      "epoch": 0.6631666666666667,
      "grad_norm": 1.0791122913360596,
      "learning_rate": 7.70123679947811e-05,
      "loss": 4.0217,
      "step": 318320
    },
    {
      "epoch": 0.6631875,
      "grad_norm": 1.1287906169891357,
      "learning_rate": 7.700375538732778e-05,
      "loss": 3.8718,
      "step": 318330
    },
    {
      "epoch": 0.6632083333333333,
      "grad_norm": 1.2339857816696167,
      "learning_rate": 7.699514309518937e-05,
      "loss": 3.8366,
      "step": 318340
    },
    {
      "epoch": 0.6632291666666666,
      "grad_norm": 1.1698029041290283,
      "learning_rate": 7.698653111840304e-05,
      "loss": 3.7873,
      "step": 318350
    },
    {
      "epoch": 0.66325,
      "grad_norm": 1.1289639472961426,
      "learning_rate": 7.6977919457006e-05,
      "loss": 3.8323,
      "step": 318360
    },
    {
      "epoch": 0.6632708333333334,
      "grad_norm": 1.1531363725662231,
      "learning_rate": 7.696930811103543e-05,
      "loss": 3.8062,
      "step": 318370
    },
    {
      "epoch": 0.6632916666666666,
      "grad_norm": 1.1345793008804321,
      "learning_rate": 7.696069708052855e-05,
      "loss": 3.7988,
      "step": 318380
    },
    {
      "epoch": 0.6633125,
      "grad_norm": 3.139214515686035,
      "learning_rate": 7.695208636552254e-05,
      "loss": 3.8291,
      "step": 318390
    },
    {
      "epoch": 0.6633333333333333,
      "grad_norm": 1.1348416805267334,
      "learning_rate": 7.69434759660546e-05,
      "loss": 3.748,
      "step": 318400
    },
    {
      "epoch": 0.6633541666666667,
      "grad_norm": 1.1469453573226929,
      "learning_rate": 7.693486588216194e-05,
      "loss": 3.8567,
      "step": 318410
    },
    {
      "epoch": 0.663375,
      "grad_norm": 1.101486325263977,
      "learning_rate": 7.692625611388172e-05,
      "loss": 3.8371,
      "step": 318420
    },
    {
      "epoch": 0.6633958333333333,
      "grad_norm": 1.0879852771759033,
      "learning_rate": 7.691764666125122e-05,
      "loss": 3.7574,
      "step": 318430
    },
    {
      "epoch": 0.6634166666666667,
      "grad_norm": 1.0950870513916016,
      "learning_rate": 7.690903752430745e-05,
      "loss": 3.794,
      "step": 318440
    },
    {
      "epoch": 0.6634375,
      "grad_norm": 1.1209428310394287,
      "learning_rate": 7.690042870308774e-05,
      "loss": 3.7366,
      "step": 318450
    },
    {
      "epoch": 0.6634583333333334,
      "grad_norm": 1.081961750984192,
      "learning_rate": 7.689182019762934e-05,
      "loss": 3.7654,
      "step": 318460
    },
    {
      "epoch": 0.6634791666666666,
      "grad_norm": 1.153153896331787,
      "learning_rate": 7.688321200796918e-05,
      "loss": 3.9415,
      "step": 318470
    },
    {
      "epoch": 0.6635,
      "grad_norm": 1.089574933052063,
      "learning_rate": 7.687460413414468e-05,
      "loss": 3.8105,
      "step": 318480
    },
    {
      "epoch": 0.6635208333333333,
      "grad_norm": 1.0464534759521484,
      "learning_rate": 7.686599657619302e-05,
      "loss": 3.7886,
      "step": 318490
    },
    {
      "epoch": 0.6635416666666667,
      "grad_norm": 1.0755091905593872,
      "learning_rate": 7.685738933415117e-05,
      "loss": 3.7736,
      "step": 318500
    },
    {
      "epoch": 0.6635625,
      "grad_norm": 1.0794572830200195,
      "learning_rate": 7.684878240805651e-05,
      "loss": 4.0196,
      "step": 318510
    },
    {
      "epoch": 0.6635833333333333,
      "grad_norm": 1.2284051179885864,
      "learning_rate": 7.68401757979462e-05,
      "loss": 3.8066,
      "step": 318520
    },
    {
      "epoch": 0.6636041666666667,
      "grad_norm": 1.0904544591903687,
      "learning_rate": 7.683156950385728e-05,
      "loss": 3.9006,
      "step": 318530
    },
    {
      "epoch": 0.663625,
      "grad_norm": 1.3108837604522705,
      "learning_rate": 7.682296352582711e-05,
      "loss": 4.0209,
      "step": 318540
    },
    {
      "epoch": 0.6636458333333334,
      "grad_norm": 1.151921033859253,
      "learning_rate": 7.681435786389272e-05,
      "loss": 3.7187,
      "step": 318550
    },
    {
      "epoch": 0.6636666666666666,
      "grad_norm": 1.1551538705825806,
      "learning_rate": 7.680575251809133e-05,
      "loss": 3.7029,
      "step": 318560
    },
    {
      "epoch": 0.6636875,
      "grad_norm": 1.1030226945877075,
      "learning_rate": 7.679714748846014e-05,
      "loss": 3.8447,
      "step": 318570
    },
    {
      "epoch": 0.6637083333333333,
      "grad_norm": 1.2033653259277344,
      "learning_rate": 7.678854277503629e-05,
      "loss": 3.9189,
      "step": 318580
    },
    {
      "epoch": 0.6637291666666667,
      "grad_norm": 1.1918007135391235,
      "learning_rate": 7.677993837785694e-05,
      "loss": 3.9525,
      "step": 318590
    },
    {
      "epoch": 0.66375,
      "grad_norm": 1.2644853591918945,
      "learning_rate": 7.677133429695928e-05,
      "loss": 3.9321,
      "step": 318600
    },
    {
      "epoch": 0.6637708333333333,
      "grad_norm": 1.0913864374160767,
      "learning_rate": 7.676273053238047e-05,
      "loss": 3.9495,
      "step": 318610
    },
    {
      "epoch": 0.6637916666666667,
      "grad_norm": 1.18496835231781,
      "learning_rate": 7.67541270841577e-05,
      "loss": 3.9272,
      "step": 318620
    },
    {
      "epoch": 0.6638125,
      "grad_norm": 1.057226300239563,
      "learning_rate": 7.674552395232806e-05,
      "loss": 3.8044,
      "step": 318630
    },
    {
      "epoch": 0.6638333333333334,
      "grad_norm": 1.187616229057312,
      "learning_rate": 7.67369211369288e-05,
      "loss": 3.7742,
      "step": 318640
    },
    {
      "epoch": 0.6638541666666666,
      "grad_norm": 1.0905293226242065,
      "learning_rate": 7.672831863799701e-05,
      "loss": 3.7623,
      "step": 318650
    },
    {
      "epoch": 0.663875,
      "grad_norm": 0.9691930413246155,
      "learning_rate": 7.67197164555699e-05,
      "loss": 3.8204,
      "step": 318660
    },
    {
      "epoch": 0.6638958333333334,
      "grad_norm": 1.15043044090271,
      "learning_rate": 7.671111458968462e-05,
      "loss": 3.8278,
      "step": 318670
    },
    {
      "epoch": 0.6639166666666667,
      "grad_norm": 1.1379318237304688,
      "learning_rate": 7.67025130403783e-05,
      "loss": 4.0574,
      "step": 318680
    },
    {
      "epoch": 0.6639375,
      "grad_norm": 1.2071964740753174,
      "learning_rate": 7.669391180768812e-05,
      "loss": 3.9499,
      "step": 318690
    },
    {
      "epoch": 0.6639583333333333,
      "grad_norm": 1.0913033485412598,
      "learning_rate": 7.66853108916512e-05,
      "loss": 3.6795,
      "step": 318700
    },
    {
      "epoch": 0.6639791666666667,
      "grad_norm": 1.0885133743286133,
      "learning_rate": 7.667671029230473e-05,
      "loss": 3.5662,
      "step": 318710
    },
    {
      "epoch": 0.664,
      "grad_norm": 1.0604438781738281,
      "learning_rate": 7.666811000968586e-05,
      "loss": 3.9683,
      "step": 318720
    },
    {
      "epoch": 0.6640208333333333,
      "grad_norm": 1.0343965291976929,
      "learning_rate": 7.665951004383173e-05,
      "loss": 3.9352,
      "step": 318730
    },
    {
      "epoch": 0.6640416666666666,
      "grad_norm": 1.1918878555297852,
      "learning_rate": 7.665091039477948e-05,
      "loss": 3.939,
      "step": 318740
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 1.0866109132766724,
      "learning_rate": 7.664231106256625e-05,
      "loss": 3.8591,
      "step": 318750
    },
    {
      "epoch": 0.6640833333333334,
      "grad_norm": 1.573353886604309,
      "learning_rate": 7.663371204722921e-05,
      "loss": 3.8902,
      "step": 318760
    },
    {
      "epoch": 0.6641041666666667,
      "grad_norm": 1.123181939125061,
      "learning_rate": 7.662511334880549e-05,
      "loss": 3.7739,
      "step": 318770
    },
    {
      "epoch": 0.664125,
      "grad_norm": 1.1427431106567383,
      "learning_rate": 7.661651496733223e-05,
      "loss": 3.8893,
      "step": 318780
    },
    {
      "epoch": 0.6641458333333333,
      "grad_norm": 1.3448079824447632,
      "learning_rate": 7.66079169028466e-05,
      "loss": 3.7185,
      "step": 318790
    },
    {
      "epoch": 0.6641666666666667,
      "grad_norm": 1.249908208847046,
      "learning_rate": 7.659931915538576e-05,
      "loss": 3.7744,
      "step": 318800
    },
    {
      "epoch": 0.6641875,
      "grad_norm": 1.1332470178604126,
      "learning_rate": 7.65907217249867e-05,
      "loss": 3.7406,
      "step": 318810
    },
    {
      "epoch": 0.6642083333333333,
      "grad_norm": 1.1201727390289307,
      "learning_rate": 7.65821246116867e-05,
      "loss": 3.8422,
      "step": 318820
    },
    {
      "epoch": 0.6642291666666666,
      "grad_norm": 1.4702402353286743,
      "learning_rate": 7.657352781552295e-05,
      "loss": 3.8424,
      "step": 318830
    },
    {
      "epoch": 0.66425,
      "grad_norm": 1.0907323360443115,
      "learning_rate": 7.656493133653236e-05,
      "loss": 3.6671,
      "step": 318840
    },
    {
      "epoch": 0.6642708333333334,
      "grad_norm": 1.0911520719528198,
      "learning_rate": 7.655633517475227e-05,
      "loss": 3.8614,
      "step": 318850
    },
    {
      "epoch": 0.6642916666666666,
      "grad_norm": 1.129701852798462,
      "learning_rate": 7.654773933021978e-05,
      "loss": 4.04,
      "step": 318860
    },
    {
      "epoch": 0.6643125,
      "grad_norm": 1.467202067375183,
      "learning_rate": 7.653914380297195e-05,
      "loss": 3.6317,
      "step": 318870
    },
    {
      "epoch": 0.6643333333333333,
      "grad_norm": 1.1895508766174316,
      "learning_rate": 7.653054859304584e-05,
      "loss": 3.7932,
      "step": 318880
    },
    {
      "epoch": 0.6643541666666667,
      "grad_norm": 1.1444967985153198,
      "learning_rate": 7.652195370047884e-05,
      "loss": 3.7454,
      "step": 318890
    },
    {
      "epoch": 0.664375,
      "grad_norm": 1.3917930126190186,
      "learning_rate": 7.651335912530784e-05,
      "loss": 3.8843,
      "step": 318900
    },
    {
      "epoch": 0.6643958333333333,
      "grad_norm": 1.4137533903121948,
      "learning_rate": 7.650476486756998e-05,
      "loss": 3.9321,
      "step": 318910
    },
    {
      "epoch": 0.6644166666666667,
      "grad_norm": 1.2778960466384888,
      "learning_rate": 7.649617092730257e-05,
      "loss": 3.7529,
      "step": 318920
    },
    {
      "epoch": 0.6644375,
      "grad_norm": 1.1889050006866455,
      "learning_rate": 7.648757730454255e-05,
      "loss": 3.9273,
      "step": 318930
    },
    {
      "epoch": 0.6644583333333334,
      "grad_norm": 1.1767224073410034,
      "learning_rate": 7.647898399932707e-05,
      "loss": 3.9168,
      "step": 318940
    },
    {
      "epoch": 0.6644791666666666,
      "grad_norm": 1.0422078371047974,
      "learning_rate": 7.647039101169331e-05,
      "loss": 3.9735,
      "step": 318950
    },
    {
      "epoch": 0.6645,
      "grad_norm": 1.1046855449676514,
      "learning_rate": 7.646179834167834e-05,
      "loss": 3.804,
      "step": 318960
    },
    {
      "epoch": 0.6645208333333333,
      "grad_norm": 1.1064952611923218,
      "learning_rate": 7.645320598931929e-05,
      "loss": 3.759,
      "step": 318970
    },
    {
      "epoch": 0.6645416666666667,
      "grad_norm": 1.0690653324127197,
      "learning_rate": 7.64446139546533e-05,
      "loss": 3.876,
      "step": 318980
    },
    {
      "epoch": 0.6645625,
      "grad_norm": 1.3149560689926147,
      "learning_rate": 7.643602223771744e-05,
      "loss": 3.8037,
      "step": 318990
    },
    {
      "epoch": 0.6645833333333333,
      "grad_norm": 1.1184920072555542,
      "learning_rate": 7.642743083854886e-05,
      "loss": 3.8913,
      "step": 319000
    },
    {
      "epoch": 0.6645833333333333,
      "eval_loss": 3.550703525543213,
      "eval_runtime": 7.2793,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 319000
    },
    {
      "epoch": 0.6646041666666667,
      "grad_norm": 1.5294373035430908,
      "learning_rate": 7.641883975718465e-05,
      "loss": 3.7692,
      "step": 319010
    },
    {
      "epoch": 0.664625,
      "grad_norm": 1.1214828491210938,
      "learning_rate": 7.64102489936619e-05,
      "loss": 3.9464,
      "step": 319020
    },
    {
      "epoch": 0.6646458333333334,
      "grad_norm": 1.113473653793335,
      "learning_rate": 7.64016585480178e-05,
      "loss": 3.7889,
      "step": 319030
    },
    {
      "epoch": 0.6646666666666666,
      "grad_norm": 1.8658560514450073,
      "learning_rate": 7.639306842028936e-05,
      "loss": 3.8969,
      "step": 319040
    },
    {
      "epoch": 0.6646875,
      "grad_norm": 1.164604663848877,
      "learning_rate": 7.638447861051374e-05,
      "loss": 3.9475,
      "step": 319050
    },
    {
      "epoch": 0.6647083333333333,
      "grad_norm": 1.1365050077438354,
      "learning_rate": 7.637588911872804e-05,
      "loss": 3.8228,
      "step": 319060
    },
    {
      "epoch": 0.6647291666666667,
      "grad_norm": 1.0360181331634521,
      "learning_rate": 7.636729994496936e-05,
      "loss": 3.7733,
      "step": 319070
    },
    {
      "epoch": 0.66475,
      "grad_norm": 1.1638649702072144,
      "learning_rate": 7.635871108927479e-05,
      "loss": 3.9367,
      "step": 319080
    },
    {
      "epoch": 0.6647708333333333,
      "grad_norm": 1.172560691833496,
      "learning_rate": 7.635012255168143e-05,
      "loss": 3.9108,
      "step": 319090
    },
    {
      "epoch": 0.6647916666666667,
      "grad_norm": 1.3582172393798828,
      "learning_rate": 7.634153433222641e-05,
      "loss": 3.9262,
      "step": 319100
    },
    {
      "epoch": 0.6648125,
      "grad_norm": 1.101190209388733,
      "learning_rate": 7.633294643094677e-05,
      "loss": 3.6456,
      "step": 319110
    },
    {
      "epoch": 0.6648333333333334,
      "grad_norm": 1.0559924840927124,
      "learning_rate": 7.632435884787968e-05,
      "loss": 3.9392,
      "step": 319120
    },
    {
      "epoch": 0.6648541666666666,
      "grad_norm": 1.0992155075073242,
      "learning_rate": 7.631577158306219e-05,
      "loss": 3.8337,
      "step": 319130
    },
    {
      "epoch": 0.664875,
      "grad_norm": 1.394748568534851,
      "learning_rate": 7.630718463653139e-05,
      "loss": 3.8587,
      "step": 319140
    },
    {
      "epoch": 0.6648958333333334,
      "grad_norm": 1.1180408000946045,
      "learning_rate": 7.629859800832443e-05,
      "loss": 3.7398,
      "step": 319150
    },
    {
      "epoch": 0.6649166666666667,
      "grad_norm": 1.174970269203186,
      "learning_rate": 7.629001169847828e-05,
      "loss": 3.9935,
      "step": 319160
    },
    {
      "epoch": 0.6649375,
      "grad_norm": 1.0740151405334473,
      "learning_rate": 7.628142570703017e-05,
      "loss": 3.9199,
      "step": 319170
    },
    {
      "epoch": 0.6649583333333333,
      "grad_norm": 1.0691282749176025,
      "learning_rate": 7.627284003401708e-05,
      "loss": 3.8168,
      "step": 319180
    },
    {
      "epoch": 0.6649791666666667,
      "grad_norm": 1.1381586790084839,
      "learning_rate": 7.626425467947609e-05,
      "loss": 3.9785,
      "step": 319190
    },
    {
      "epoch": 0.665,
      "grad_norm": 1.0626554489135742,
      "learning_rate": 7.625566964344444e-05,
      "loss": 3.8434,
      "step": 319200
    },
    {
      "epoch": 0.6650208333333333,
      "grad_norm": 1.1686707735061646,
      "learning_rate": 7.624708492595905e-05,
      "loss": 3.8062,
      "step": 319210
    },
    {
      "epoch": 0.6650416666666666,
      "grad_norm": 1.1405012607574463,
      "learning_rate": 7.623850052705701e-05,
      "loss": 3.7925,
      "step": 319220
    },
    {
      "epoch": 0.6650625,
      "grad_norm": 1.1454285383224487,
      "learning_rate": 7.622991644677556e-05,
      "loss": 3.7967,
      "step": 319230
    },
    {
      "epoch": 0.6650833333333334,
      "grad_norm": 1.0853703022003174,
      "learning_rate": 7.622133268515159e-05,
      "loss": 3.9002,
      "step": 319240
    },
    {
      "epoch": 0.6651041666666667,
      "grad_norm": 1.0966600179672241,
      "learning_rate": 7.621274924222224e-05,
      "loss": 3.8322,
      "step": 319250
    },
    {
      "epoch": 0.665125,
      "grad_norm": 1.0874171257019043,
      "learning_rate": 7.620416611802471e-05,
      "loss": 3.7701,
      "step": 319260
    },
    {
      "epoch": 0.6651458333333333,
      "grad_norm": 1.0726027488708496,
      "learning_rate": 7.619558331259591e-05,
      "loss": 3.9303,
      "step": 319270
    },
    {
      "epoch": 0.6651666666666667,
      "grad_norm": 1.0975443124771118,
      "learning_rate": 7.618700082597291e-05,
      "loss": 3.8341,
      "step": 319280
    },
    {
      "epoch": 0.6651875,
      "grad_norm": 1.1439615488052368,
      "learning_rate": 7.617841865819298e-05,
      "loss": 3.851,
      "step": 319290
    },
    {
      "epoch": 0.6652083333333333,
      "grad_norm": 1.1934281587600708,
      "learning_rate": 7.616983680929298e-05,
      "loss": 3.9238,
      "step": 319300
    },
    {
      "epoch": 0.6652291666666666,
      "grad_norm": 1.1616672277450562,
      "learning_rate": 7.616125527931009e-05,
      "loss": 3.8907,
      "step": 319310
    },
    {
      "epoch": 0.66525,
      "grad_norm": 1.0292540788650513,
      "learning_rate": 7.615267406828133e-05,
      "loss": 3.7389,
      "step": 319320
    },
    {
      "epoch": 0.6652708333333334,
      "grad_norm": 1.3188836574554443,
      "learning_rate": 7.614409317624381e-05,
      "loss": 3.7642,
      "step": 319330
    },
    {
      "epoch": 0.6652916666666666,
      "grad_norm": 1.1677422523498535,
      "learning_rate": 7.613551260323456e-05,
      "loss": 3.8405,
      "step": 319340
    },
    {
      "epoch": 0.6653125,
      "grad_norm": 1.1400648355484009,
      "learning_rate": 7.612693234929065e-05,
      "loss": 3.6708,
      "step": 319350
    },
    {
      "epoch": 0.6653333333333333,
      "grad_norm": 1.0990326404571533,
      "learning_rate": 7.611835241444915e-05,
      "loss": 3.7069,
      "step": 319360
    },
    {
      "epoch": 0.6653541666666667,
      "grad_norm": 1.1719409227371216,
      "learning_rate": 7.610977279874713e-05,
      "loss": 3.7492,
      "step": 319370
    },
    {
      "epoch": 0.665375,
      "grad_norm": 1.0728952884674072,
      "learning_rate": 7.610119350222166e-05,
      "loss": 3.7269,
      "step": 319380
    },
    {
      "epoch": 0.6653958333333333,
      "grad_norm": 1.1771849393844604,
      "learning_rate": 7.609261452490975e-05,
      "loss": 3.8501,
      "step": 319390
    },
    {
      "epoch": 0.6654166666666667,
      "grad_norm": 2.0452382564544678,
      "learning_rate": 7.608403586684851e-05,
      "loss": 4.0044,
      "step": 319400
    },
    {
      "epoch": 0.6654375,
      "grad_norm": 1.0926750898361206,
      "learning_rate": 7.607545752807496e-05,
      "loss": 3.7692,
      "step": 319410
    },
    {
      "epoch": 0.6654583333333334,
      "grad_norm": 1.203354835510254,
      "learning_rate": 7.60668795086262e-05,
      "loss": 3.9259,
      "step": 319420
    },
    {
      "epoch": 0.6654791666666666,
      "grad_norm": 1.3197121620178223,
      "learning_rate": 7.605830180853924e-05,
      "loss": 3.8777,
      "step": 319430
    },
    {
      "epoch": 0.6655,
      "grad_norm": 1.715717077255249,
      "learning_rate": 7.604972442785114e-05,
      "loss": 3.9981,
      "step": 319440
    },
    {
      "epoch": 0.6655208333333333,
      "grad_norm": 1.1115378141403198,
      "learning_rate": 7.604114736659897e-05,
      "loss": 3.9191,
      "step": 319450
    },
    {
      "epoch": 0.6655416666666667,
      "grad_norm": 1.030026912689209,
      "learning_rate": 7.603257062481984e-05,
      "loss": 3.9323,
      "step": 319460
    },
    {
      "epoch": 0.6655625,
      "grad_norm": 1.2058402299880981,
      "learning_rate": 7.602399420255058e-05,
      "loss": 3.8948,
      "step": 319470
    },
    {
      "epoch": 0.6655833333333333,
      "grad_norm": 1.1841316223144531,
      "learning_rate": 7.601541809982848e-05,
      "loss": 3.7817,
      "step": 319480
    },
    {
      "epoch": 0.6656041666666667,
      "grad_norm": 1.3178319931030273,
      "learning_rate": 7.600684231669052e-05,
      "loss": 3.9293,
      "step": 319490
    },
    {
      "epoch": 0.665625,
      "grad_norm": 1.1113333702087402,
      "learning_rate": 7.599826685317359e-05,
      "loss": 3.8613,
      "step": 319500
    },
    {
      "epoch": 0.6656458333333334,
      "grad_norm": 1.102528691291809,
      "learning_rate": 7.598969170931494e-05,
      "loss": 3.7663,
      "step": 319510
    },
    {
      "epoch": 0.6656666666666666,
      "grad_norm": 1.1660410165786743,
      "learning_rate": 7.598111688515154e-05,
      "loss": 3.7223,
      "step": 319520
    },
    {
      "epoch": 0.6656875,
      "grad_norm": 1.3865138292312622,
      "learning_rate": 7.597254238072036e-05,
      "loss": 3.7075,
      "step": 319530
    },
    {
      "epoch": 0.6657083333333333,
      "grad_norm": 1.1485967636108398,
      "learning_rate": 7.596396819605857e-05,
      "loss": 3.9598,
      "step": 319540
    },
    {
      "epoch": 0.6657291666666667,
      "grad_norm": 1.1152480840682983,
      "learning_rate": 7.595539433120308e-05,
      "loss": 3.7916,
      "step": 319550
    },
    {
      "epoch": 0.66575,
      "grad_norm": 1.158148169517517,
      "learning_rate": 7.594682078619092e-05,
      "loss": 3.7474,
      "step": 319560
    },
    {
      "epoch": 0.6657708333333333,
      "grad_norm": 1.1046767234802246,
      "learning_rate": 7.593824756105929e-05,
      "loss": 3.8102,
      "step": 319570
    },
    {
      "epoch": 0.6657916666666667,
      "grad_norm": 1.1057560443878174,
      "learning_rate": 7.592967465584508e-05,
      "loss": 3.8618,
      "step": 319580
    },
    {
      "epoch": 0.6658125,
      "grad_norm": 1.1345126628875732,
      "learning_rate": 7.592110207058528e-05,
      "loss": 4.045,
      "step": 319590
    },
    {
      "epoch": 0.6658333333333334,
      "grad_norm": 1.2461351156234741,
      "learning_rate": 7.591252980531712e-05,
      "loss": 3.789,
      "step": 319600
    },
    {
      "epoch": 0.6658541666666666,
      "grad_norm": 1.2179393768310547,
      "learning_rate": 7.590395786007746e-05,
      "loss": 3.8776,
      "step": 319610
    },
    {
      "epoch": 0.665875,
      "grad_norm": 1.20947265625,
      "learning_rate": 7.589538623490329e-05,
      "loss": 3.9181,
      "step": 319620
    },
    {
      "epoch": 0.6658958333333334,
      "grad_norm": 1.2994296550750732,
      "learning_rate": 7.588681492983185e-05,
      "loss": 3.8579,
      "step": 319630
    },
    {
      "epoch": 0.6659166666666667,
      "grad_norm": 1.2170437574386597,
      "learning_rate": 7.587824394489999e-05,
      "loss": 3.8342,
      "step": 319640
    },
    {
      "epoch": 0.6659375,
      "grad_norm": 1.105664610862732,
      "learning_rate": 7.586967328014469e-05,
      "loss": 3.9259,
      "step": 319650
    },
    {
      "epoch": 0.6659583333333333,
      "grad_norm": 1.2720059156417847,
      "learning_rate": 7.586110293560318e-05,
      "loss": 3.9138,
      "step": 319660
    },
    {
      "epoch": 0.6659791666666667,
      "grad_norm": 1.4473081827163696,
      "learning_rate": 7.58525329113123e-05,
      "loss": 4.0151,
      "step": 319670
    },
    {
      "epoch": 0.666,
      "grad_norm": 1.1898506879806519,
      "learning_rate": 7.584396320730913e-05,
      "loss": 3.8266,
      "step": 319680
    },
    {
      "epoch": 0.6660208333333333,
      "grad_norm": 1.1238124370574951,
      "learning_rate": 7.583539382363071e-05,
      "loss": 3.8568,
      "step": 319690
    },
    {
      "epoch": 0.6660416666666666,
      "grad_norm": 1.2650580406188965,
      "learning_rate": 7.5826824760314e-05,
      "loss": 3.8742,
      "step": 319700
    },
    {
      "epoch": 0.6660625,
      "grad_norm": 1.12810480594635,
      "learning_rate": 7.581825601739607e-05,
      "loss": 3.7685,
      "step": 319710
    },
    {
      "epoch": 0.6660833333333334,
      "grad_norm": 1.1241708993911743,
      "learning_rate": 7.58096875949139e-05,
      "loss": 3.8057,
      "step": 319720
    },
    {
      "epoch": 0.6661041666666667,
      "grad_norm": 1.1235666275024414,
      "learning_rate": 7.580111949290452e-05,
      "loss": 3.9106,
      "step": 319730
    },
    {
      "epoch": 0.666125,
      "grad_norm": 1.1521108150482178,
      "learning_rate": 7.579255171140491e-05,
      "loss": 3.8381,
      "step": 319740
    },
    {
      "epoch": 0.6661458333333333,
      "grad_norm": 1.1373814344406128,
      "learning_rate": 7.578398425045214e-05,
      "loss": 3.9105,
      "step": 319750
    },
    {
      "epoch": 0.6661666666666667,
      "grad_norm": 1.0901223421096802,
      "learning_rate": 7.577541711008315e-05,
      "loss": 3.6841,
      "step": 319760
    },
    {
      "epoch": 0.6661875,
      "grad_norm": 1.1529077291488647,
      "learning_rate": 7.576685029033499e-05,
      "loss": 3.7211,
      "step": 319770
    },
    {
      "epoch": 0.6662083333333333,
      "grad_norm": 1.1087568998336792,
      "learning_rate": 7.575828379124466e-05,
      "loss": 3.814,
      "step": 319780
    },
    {
      "epoch": 0.6662291666666667,
      "grad_norm": 1.1196006536483765,
      "learning_rate": 7.574971761284914e-05,
      "loss": 3.7309,
      "step": 319790
    },
    {
      "epoch": 0.66625,
      "grad_norm": 1.0721156597137451,
      "learning_rate": 7.574115175518552e-05,
      "loss": 3.9054,
      "step": 319800
    },
    {
      "epoch": 0.6662708333333334,
      "grad_norm": 1.0686153173446655,
      "learning_rate": 7.57325862182906e-05,
      "loss": 3.9719,
      "step": 319810
    },
    {
      "epoch": 0.6662916666666666,
      "grad_norm": 1.075067400932312,
      "learning_rate": 7.572402100220159e-05,
      "loss": 3.8967,
      "step": 319820
    },
    {
      "epoch": 0.6663125,
      "grad_norm": 1.0751161575317383,
      "learning_rate": 7.571545610695546e-05,
      "loss": 3.8516,
      "step": 319830
    },
    {
      "epoch": 0.6663333333333333,
      "grad_norm": 1.293532133102417,
      "learning_rate": 7.570689153258904e-05,
      "loss": 3.7154,
      "step": 319840
    },
    {
      "epoch": 0.6663541666666667,
      "grad_norm": 1.148161768913269,
      "learning_rate": 7.569832727913949e-05,
      "loss": 3.6892,
      "step": 319850
    },
    {
      "epoch": 0.666375,
      "grad_norm": 1.0406932830810547,
      "learning_rate": 7.568976334664384e-05,
      "loss": 3.7481,
      "step": 319860
    },
    {
      "epoch": 0.6663958333333333,
      "grad_norm": 1.091461181640625,
      "learning_rate": 7.568119973513885e-05,
      "loss": 3.8362,
      "step": 319870
    },
    {
      "epoch": 0.6664166666666667,
      "grad_norm": 5.480971336364746,
      "learning_rate": 7.567263644466173e-05,
      "loss": 3.7627,
      "step": 319880
    },
    {
      "epoch": 0.6664375,
      "grad_norm": 1.1088476181030273,
      "learning_rate": 7.566407347524947e-05,
      "loss": 3.8243,
      "step": 319890
    },
    {
      "epoch": 0.6664583333333334,
      "grad_norm": 1.142080307006836,
      "learning_rate": 7.565551082693885e-05,
      "loss": 3.9138,
      "step": 319900
    },
    {
      "epoch": 0.6664791666666666,
      "grad_norm": 1.088242769241333,
      "learning_rate": 7.564694849976705e-05,
      "loss": 4.0222,
      "step": 319910
    },
    {
      "epoch": 0.6665,
      "grad_norm": 1.1910691261291504,
      "learning_rate": 7.563838649377109e-05,
      "loss": 3.7539,
      "step": 319920
    },
    {
      "epoch": 0.6665208333333333,
      "grad_norm": 1.2761982679367065,
      "learning_rate": 7.562982480898773e-05,
      "loss": 3.8921,
      "step": 319930
    },
    {
      "epoch": 0.6665416666666667,
      "grad_norm": 1.6734771728515625,
      "learning_rate": 7.562126344545421e-05,
      "loss": 3.8986,
      "step": 319940
    },
    {
      "epoch": 0.6665625,
      "grad_norm": 1.282934546470642,
      "learning_rate": 7.561270240320734e-05,
      "loss": 3.9414,
      "step": 319950
    },
    {
      "epoch": 0.6665833333333333,
      "grad_norm": 1.0888980627059937,
      "learning_rate": 7.560414168228407e-05,
      "loss": 3.643,
      "step": 319960
    },
    {
      "epoch": 0.6666041666666667,
      "grad_norm": 1.0848262310028076,
      "learning_rate": 7.559558128272158e-05,
      "loss": 3.7378,
      "step": 319970
    },
    {
      "epoch": 0.666625,
      "grad_norm": 1.1151494979858398,
      "learning_rate": 7.558702120455669e-05,
      "loss": 3.6571,
      "step": 319980
    },
    {
      "epoch": 0.6666458333333334,
      "grad_norm": 1.4116578102111816,
      "learning_rate": 7.557846144782635e-05,
      "loss": 3.759,
      "step": 319990
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.0713523626327515,
      "learning_rate": 7.556990201256771e-05,
      "loss": 3.955,
      "step": 320000
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 3.553813934326172,
      "eval_runtime": 6.8462,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 320000
    },
    {
      "epoch": 0.6666875,
      "grad_norm": 1.8310834169387817,
      "learning_rate": 7.556134289881758e-05,
      "loss": 3.7459,
      "step": 320010
    },
    {
      "epoch": 0.6667083333333333,
      "grad_norm": 1.2474900484085083,
      "learning_rate": 7.555278410661292e-05,
      "loss": 3.7495,
      "step": 320020
    },
    {
      "epoch": 0.6667291666666667,
      "grad_norm": 1.1200116872787476,
      "learning_rate": 7.554422563599088e-05,
      "loss": 3.8363,
      "step": 320030
    },
    {
      "epoch": 0.66675,
      "grad_norm": 1.392534613609314,
      "learning_rate": 7.553566748698825e-05,
      "loss": 3.7144,
      "step": 320040
    },
    {
      "epoch": 0.6667708333333333,
      "grad_norm": 1.1248385906219482,
      "learning_rate": 7.552710965964208e-05,
      "loss": 3.8618,
      "step": 320050
    },
    {
      "epoch": 0.6667916666666667,
      "grad_norm": 1.146794319152832,
      "learning_rate": 7.551855215398928e-05,
      "loss": 3.879,
      "step": 320060
    },
    {
      "epoch": 0.6668125,
      "grad_norm": 1.1248822212219238,
      "learning_rate": 7.55099949700669e-05,
      "loss": 3.7588,
      "step": 320070
    },
    {
      "epoch": 0.6668333333333333,
      "grad_norm": 1.1302286386489868,
      "learning_rate": 7.550143810791183e-05,
      "loss": 3.7588,
      "step": 320080
    },
    {
      "epoch": 0.6668541666666666,
      "grad_norm": 1.0785871744155884,
      "learning_rate": 7.549288156756107e-05,
      "loss": 3.6797,
      "step": 320090
    },
    {
      "epoch": 0.666875,
      "grad_norm": 1.226745843887329,
      "learning_rate": 7.548432534905157e-05,
      "loss": 3.7236,
      "step": 320100
    },
    {
      "epoch": 0.6668958333333334,
      "grad_norm": 1.2143510580062866,
      "learning_rate": 7.547576945242027e-05,
      "loss": 3.7835,
      "step": 320110
    },
    {
      "epoch": 0.6669166666666667,
      "grad_norm": 1.1892668008804321,
      "learning_rate": 7.546721387770416e-05,
      "loss": 3.8834,
      "step": 320120
    },
    {
      "epoch": 0.6669375,
      "grad_norm": 1.1391494274139404,
      "learning_rate": 7.545865862494018e-05,
      "loss": 3.8235,
      "step": 320130
    },
    {
      "epoch": 0.6669583333333333,
      "grad_norm": 1.2742106914520264,
      "learning_rate": 7.545010369416529e-05,
      "loss": 3.7688,
      "step": 320140
    },
    {
      "epoch": 0.6669791666666667,
      "grad_norm": 1.1509485244750977,
      "learning_rate": 7.544154908541646e-05,
      "loss": 3.8177,
      "step": 320150
    },
    {
      "epoch": 0.667,
      "grad_norm": 1.2145683765411377,
      "learning_rate": 7.54329947987306e-05,
      "loss": 3.8404,
      "step": 320160
    },
    {
      "epoch": 0.6670208333333333,
      "grad_norm": 1.0429290533065796,
      "learning_rate": 7.542444083414476e-05,
      "loss": 3.7483,
      "step": 320170
    },
    {
      "epoch": 0.6670416666666666,
      "grad_norm": 1.044272541999817,
      "learning_rate": 7.541588719169569e-05,
      "loss": 3.7053,
      "step": 320180
    },
    {
      "epoch": 0.6670625,
      "grad_norm": 1.046321153640747,
      "learning_rate": 7.540733387142053e-05,
      "loss": 3.917,
      "step": 320190
    },
    {
      "epoch": 0.6670833333333334,
      "grad_norm": 1.1702346801757812,
      "learning_rate": 7.539878087335621e-05,
      "loss": 4.083,
      "step": 320200
    },
    {
      "epoch": 0.6671041666666667,
      "grad_norm": 1.2483407258987427,
      "learning_rate": 7.539022819753953e-05,
      "loss": 3.756,
      "step": 320210
    },
    {
      "epoch": 0.667125,
      "grad_norm": 1.2090318202972412,
      "learning_rate": 7.538167584400758e-05,
      "loss": 3.7913,
      "step": 320220
    },
    {
      "epoch": 0.6671458333333333,
      "grad_norm": 1.1423683166503906,
      "learning_rate": 7.537312381279732e-05,
      "loss": 3.7855,
      "step": 320230
    },
    {
      "epoch": 0.6671666666666667,
      "grad_norm": 1.1501420736312866,
      "learning_rate": 7.53645721039455e-05,
      "loss": 3.6839,
      "step": 320240
    },
    {
      "epoch": 0.6671875,
      "grad_norm": 1.167649745941162,
      "learning_rate": 7.535602071748925e-05,
      "loss": 3.806,
      "step": 320250
    },
    {
      "epoch": 0.6672083333333333,
      "grad_norm": 1.079444169998169,
      "learning_rate": 7.534746965346549e-05,
      "loss": 3.8166,
      "step": 320260
    },
    {
      "epoch": 0.6672291666666667,
      "grad_norm": 1.2867270708084106,
      "learning_rate": 7.5338918911911e-05,
      "loss": 3.875,
      "step": 320270
    },
    {
      "epoch": 0.66725,
      "grad_norm": 1.0592645406723022,
      "learning_rate": 7.533036849286289e-05,
      "loss": 3.7478,
      "step": 320280
    },
    {
      "epoch": 0.6672708333333334,
      "grad_norm": 1.0828685760498047,
      "learning_rate": 7.53218183963581e-05,
      "loss": 3.7528,
      "step": 320290
    },
    {
      "epoch": 0.6672916666666666,
      "grad_norm": 1.3075072765350342,
      "learning_rate": 7.531326862243338e-05,
      "loss": 3.7829,
      "step": 320300
    },
    {
      "epoch": 0.6673125,
      "grad_norm": 1.0773651599884033,
      "learning_rate": 7.530471917112587e-05,
      "loss": 3.7155,
      "step": 320310
    },
    {
      "epoch": 0.6673333333333333,
      "grad_norm": 1.100770115852356,
      "learning_rate": 7.529617004247236e-05,
      "loss": 3.9287,
      "step": 320320
    },
    {
      "epoch": 0.6673541666666667,
      "grad_norm": 3.7835752964019775,
      "learning_rate": 7.528762123650983e-05,
      "loss": 3.9657,
      "step": 320330
    },
    {
      "epoch": 0.667375,
      "grad_norm": 1.1664090156555176,
      "learning_rate": 7.527907275327519e-05,
      "loss": 3.8037,
      "step": 320340
    },
    {
      "epoch": 0.6673958333333333,
      "grad_norm": 1.2792178392410278,
      "learning_rate": 7.52705245928054e-05,
      "loss": 3.7152,
      "step": 320350
    },
    {
      "epoch": 0.6674166666666667,
      "grad_norm": 1.2224080562591553,
      "learning_rate": 7.526197675513734e-05,
      "loss": 3.9119,
      "step": 320360
    },
    {
      "epoch": 0.6674375,
      "grad_norm": 1.177732229232788,
      "learning_rate": 7.525342924030796e-05,
      "loss": 3.8276,
      "step": 320370
    },
    {
      "epoch": 0.6674583333333334,
      "grad_norm": 1.1315125226974487,
      "learning_rate": 7.52448820483542e-05,
      "loss": 3.6936,
      "step": 320380
    },
    {
      "epoch": 0.6674791666666666,
      "grad_norm": 1.2324135303497314,
      "learning_rate": 7.523633517931294e-05,
      "loss": 3.87,
      "step": 320390
    },
    {
      "epoch": 0.6675,
      "grad_norm": 1.113904595375061,
      "learning_rate": 7.522778863322112e-05,
      "loss": 3.9034,
      "step": 320400
    },
    {
      "epoch": 0.6675208333333333,
      "grad_norm": 1.115034818649292,
      "learning_rate": 7.521924241011568e-05,
      "loss": 3.8564,
      "step": 320410
    },
    {
      "epoch": 0.6675416666666667,
      "grad_norm": 1.1681352853775024,
      "learning_rate": 7.521069651003348e-05,
      "loss": 3.8211,
      "step": 320420
    },
    {
      "epoch": 0.6675625,
      "grad_norm": 1.0520412921905518,
      "learning_rate": 7.520215093301148e-05,
      "loss": 3.8406,
      "step": 320430
    },
    {
      "epoch": 0.6675833333333333,
      "grad_norm": 1.1433501243591309,
      "learning_rate": 7.519360567908658e-05,
      "loss": 4.0134,
      "step": 320440
    },
    {
      "epoch": 0.6676041666666667,
      "grad_norm": 1.1397653818130493,
      "learning_rate": 7.51850607482957e-05,
      "loss": 3.8895,
      "step": 320450
    },
    {
      "epoch": 0.667625,
      "grad_norm": 1.3632131814956665,
      "learning_rate": 7.517651614067574e-05,
      "loss": 3.8554,
      "step": 320460
    },
    {
      "epoch": 0.6676458333333334,
      "grad_norm": 1.1873263120651245,
      "learning_rate": 7.516797185626362e-05,
      "loss": 3.7187,
      "step": 320470
    },
    {
      "epoch": 0.6676666666666666,
      "grad_norm": 1.171615719795227,
      "learning_rate": 7.515942789509623e-05,
      "loss": 3.6888,
      "step": 320480
    },
    {
      "epoch": 0.6676875,
      "grad_norm": 1.0801115036010742,
      "learning_rate": 7.51508842572105e-05,
      "loss": 3.8892,
      "step": 320490
    },
    {
      "epoch": 0.6677083333333333,
      "grad_norm": 1.2762658596038818,
      "learning_rate": 7.51423409426433e-05,
      "loss": 3.8654,
      "step": 320500
    },
    {
      "epoch": 0.6677291666666667,
      "grad_norm": 1.1429156064987183,
      "learning_rate": 7.513379795143156e-05,
      "loss": 3.8322,
      "step": 320510
    },
    {
      "epoch": 0.66775,
      "grad_norm": 1.1463160514831543,
      "learning_rate": 7.51252552836122e-05,
      "loss": 3.926,
      "step": 320520
    },
    {
      "epoch": 0.6677708333333333,
      "grad_norm": 1.1322977542877197,
      "learning_rate": 7.511671293922208e-05,
      "loss": 3.6718,
      "step": 320530
    },
    {
      "epoch": 0.6677916666666667,
      "grad_norm": 1.1019392013549805,
      "learning_rate": 7.510817091829818e-05,
      "loss": 3.9207,
      "step": 320540
    },
    {
      "epoch": 0.6678125,
      "grad_norm": 1.2763203382492065,
      "learning_rate": 7.509962922087725e-05,
      "loss": 3.7994,
      "step": 320550
    },
    {
      "epoch": 0.6678333333333333,
      "grad_norm": 1.0983775854110718,
      "learning_rate": 7.50910878469963e-05,
      "loss": 3.8679,
      "step": 320560
    },
    {
      "epoch": 0.6678541666666666,
      "grad_norm": 1.1112223863601685,
      "learning_rate": 7.508254679669226e-05,
      "loss": 3.7115,
      "step": 320570
    },
    {
      "epoch": 0.667875,
      "grad_norm": 1.0796781778335571,
      "learning_rate": 7.507400607000185e-05,
      "loss": 3.6903,
      "step": 320580
    },
    {
      "epoch": 0.6678958333333334,
      "grad_norm": 1.2082021236419678,
      "learning_rate": 7.506546566696214e-05,
      "loss": 3.8691,
      "step": 320590
    },
    {
      "epoch": 0.6679166666666667,
      "grad_norm": 1.1919828653335571,
      "learning_rate": 7.505692558761002e-05,
      "loss": 3.8574,
      "step": 320600
    },
    {
      "epoch": 0.6679375,
      "grad_norm": 1.0814313888549805,
      "learning_rate": 7.50483858319822e-05,
      "loss": 3.7782,
      "step": 320610
    },
    {
      "epoch": 0.6679583333333333,
      "grad_norm": 1.2770782709121704,
      "learning_rate": 7.503984640011572e-05,
      "loss": 4.0456,
      "step": 320620
    },
    {
      "epoch": 0.6679791666666667,
      "grad_norm": 1.3686469793319702,
      "learning_rate": 7.503130729204753e-05,
      "loss": 3.7977,
      "step": 320630
    },
    {
      "epoch": 0.668,
      "grad_norm": 1.0386557579040527,
      "learning_rate": 7.502276850781433e-05,
      "loss": 3.8665,
      "step": 320640
    },
    {
      "epoch": 0.6680208333333333,
      "grad_norm": 1.2170103788375854,
      "learning_rate": 7.501423004745303e-05,
      "loss": 3.9898,
      "step": 320650
    },
    {
      "epoch": 0.6680416666666666,
      "grad_norm": 1.1921583414077759,
      "learning_rate": 7.500569191100072e-05,
      "loss": 3.6916,
      "step": 320660
    },
    {
      "epoch": 0.6680625,
      "grad_norm": 1.207385778427124,
      "learning_rate": 7.499715409849406e-05,
      "loss": 4.0373,
      "step": 320670
    },
    {
      "epoch": 0.6680833333333334,
      "grad_norm": 1.1096800565719604,
      "learning_rate": 7.498861660997e-05,
      "loss": 3.6632,
      "step": 320680
    },
    {
      "epoch": 0.6681041666666667,
      "grad_norm": 1.0896830558776855,
      "learning_rate": 7.498007944546544e-05,
      "loss": 3.7789,
      "step": 320690
    },
    {
      "epoch": 0.668125,
      "grad_norm": 1.2308539152145386,
      "learning_rate": 7.497154260501722e-05,
      "loss": 3.769,
      "step": 320700
    },
    {
      "epoch": 0.6681458333333333,
      "grad_norm": 1.58046555519104,
      "learning_rate": 7.496300608866226e-05,
      "loss": 3.9403,
      "step": 320710
    },
    {
      "epoch": 0.6681666666666667,
      "grad_norm": 1.2614330053329468,
      "learning_rate": 7.495446989643738e-05,
      "loss": 4.0247,
      "step": 320720
    },
    {
      "epoch": 0.6681875,
      "grad_norm": 1.19499671459198,
      "learning_rate": 7.494593402837952e-05,
      "loss": 3.7846,
      "step": 320730
    },
    {
      "epoch": 0.6682083333333333,
      "grad_norm": 1.1130619049072266,
      "learning_rate": 7.49373984845255e-05,
      "loss": 3.972,
      "step": 320740
    },
    {
      "epoch": 0.6682291666666667,
      "grad_norm": 1.1545919179916382,
      "learning_rate": 7.49288632649122e-05,
      "loss": 3.7264,
      "step": 320750
    },
    {
      "epoch": 0.66825,
      "grad_norm": 1.110539197921753,
      "learning_rate": 7.492032836957652e-05,
      "loss": 3.9116,
      "step": 320760
    },
    {
      "epoch": 0.6682708333333334,
      "grad_norm": 1.140058159828186,
      "learning_rate": 7.491179379855529e-05,
      "loss": 3.7919,
      "step": 320770
    },
    {
      "epoch": 0.6682916666666666,
      "grad_norm": 1.162125825881958,
      "learning_rate": 7.49032595518854e-05,
      "loss": 3.7618,
      "step": 320780
    },
    {
      "epoch": 0.6683125,
      "grad_norm": 1.108655333518982,
      "learning_rate": 7.489472562960369e-05,
      "loss": 3.8594,
      "step": 320790
    },
    {
      "epoch": 0.6683333333333333,
      "grad_norm": 1.3698701858520508,
      "learning_rate": 7.488619203174703e-05,
      "loss": 3.8849,
      "step": 320800
    },
    {
      "epoch": 0.6683541666666667,
      "grad_norm": 1.2400709390640259,
      "learning_rate": 7.487765875835229e-05,
      "loss": 3.8252,
      "step": 320810
    },
    {
      "epoch": 0.668375,
      "grad_norm": 1.2130125761032104,
      "learning_rate": 7.486912580945634e-05,
      "loss": 3.9953,
      "step": 320820
    },
    {
      "epoch": 0.6683958333333333,
      "grad_norm": 1.1199487447738647,
      "learning_rate": 7.486059318509601e-05,
      "loss": 3.9214,
      "step": 320830
    },
    {
      "epoch": 0.6684166666666667,
      "grad_norm": 1.1785634756088257,
      "learning_rate": 7.48520608853082e-05,
      "loss": 3.4954,
      "step": 320840
    },
    {
      "epoch": 0.6684375,
      "grad_norm": 1.1403965950012207,
      "learning_rate": 7.484352891012972e-05,
      "loss": 3.774,
      "step": 320850
    },
    {
      "epoch": 0.6684583333333334,
      "grad_norm": 1.3128533363342285,
      "learning_rate": 7.483499725959746e-05,
      "loss": 3.915,
      "step": 320860
    },
    {
      "epoch": 0.6684791666666666,
      "grad_norm": 1.171497106552124,
      "learning_rate": 7.482646593374825e-05,
      "loss": 3.7093,
      "step": 320870
    },
    {
      "epoch": 0.6685,
      "grad_norm": 1.1383413076400757,
      "learning_rate": 7.481793493261897e-05,
      "loss": 3.8293,
      "step": 320880
    },
    {
      "epoch": 0.6685208333333333,
      "grad_norm": 1.062324047088623,
      "learning_rate": 7.480940425624643e-05,
      "loss": 3.846,
      "step": 320890
    },
    {
      "epoch": 0.6685416666666667,
      "grad_norm": 2.1982760429382324,
      "learning_rate": 7.480087390466752e-05,
      "loss": 3.9478,
      "step": 320900
    },
    {
      "epoch": 0.6685625,
      "grad_norm": 1.1032590866088867,
      "learning_rate": 7.479234387791906e-05,
      "loss": 3.9503,
      "step": 320910
    },
    {
      "epoch": 0.6685833333333333,
      "grad_norm": 1.1992285251617432,
      "learning_rate": 7.478381417603794e-05,
      "loss": 3.7754,
      "step": 320920
    },
    {
      "epoch": 0.6686041666666667,
      "grad_norm": 1.0771565437316895,
      "learning_rate": 7.477528479906088e-05,
      "loss": 3.8346,
      "step": 320930
    },
    {
      "epoch": 0.668625,
      "grad_norm": 1.0891162157058716,
      "learning_rate": 7.476675574702493e-05,
      "loss": 3.8669,
      "step": 320940
    },
    {
      "epoch": 0.6686458333333334,
      "grad_norm": 3.1468539237976074,
      "learning_rate": 7.475822701996675e-05,
      "loss": 3.8481,
      "step": 320950
    },
    {
      "epoch": 0.6686666666666666,
      "grad_norm": 1.2408801317214966,
      "learning_rate": 7.47496986179232e-05,
      "loss": 3.8341,
      "step": 320960
    },
    {
      "epoch": 0.6686875,
      "grad_norm": 1.229251742362976,
      "learning_rate": 7.474117054093127e-05,
      "loss": 3.9156,
      "step": 320970
    },
    {
      "epoch": 0.6687083333333333,
      "grad_norm": 1.1043485403060913,
      "learning_rate": 7.473264278902764e-05,
      "loss": 3.6866,
      "step": 320980
    },
    {
      "epoch": 0.6687291666666667,
      "grad_norm": 1.1935958862304688,
      "learning_rate": 7.472411536224914e-05,
      "loss": 3.6862,
      "step": 320990
    },
    {
      "epoch": 0.66875,
      "grad_norm": 1.2342617511749268,
      "learning_rate": 7.471558826063278e-05,
      "loss": 3.8394,
      "step": 321000
    },
    {
      "epoch": 0.66875,
      "eval_loss": 3.562176465988159,
      "eval_runtime": 7.2943,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.411,
      "step": 321000
    },
    {
      "epoch": 0.6687708333333333,
      "grad_norm": 1.182055115699768,
      "learning_rate": 7.470706148421522e-05,
      "loss": 3.7057,
      "step": 321010
    },
    {
      "epoch": 0.6687916666666667,
      "grad_norm": 1.0520488023757935,
      "learning_rate": 7.46985350330333e-05,
      "loss": 3.8066,
      "step": 321020
    },
    {
      "epoch": 0.6688125,
      "grad_norm": 1.26885187625885,
      "learning_rate": 7.469000890712401e-05,
      "loss": 3.8831,
      "step": 321030
    },
    {
      "epoch": 0.6688333333333333,
      "grad_norm": 1.062943696975708,
      "learning_rate": 7.468148310652402e-05,
      "loss": 3.972,
      "step": 321040
    },
    {
      "epoch": 0.6688541666666666,
      "grad_norm": 1.0979070663452148,
      "learning_rate": 7.467295763127021e-05,
      "loss": 3.7453,
      "step": 321050
    },
    {
      "epoch": 0.668875,
      "grad_norm": 1.2185068130493164,
      "learning_rate": 7.46644324813994e-05,
      "loss": 3.8027,
      "step": 321060
    },
    {
      "epoch": 0.6688958333333334,
      "grad_norm": 1.083333969116211,
      "learning_rate": 7.465590765694843e-05,
      "loss": 3.914,
      "step": 321070
    },
    {
      "epoch": 0.6689166666666667,
      "grad_norm": 1.217244029045105,
      "learning_rate": 7.464738315795411e-05,
      "loss": 3.8461,
      "step": 321080
    },
    {
      "epoch": 0.6689375,
      "grad_norm": 1.1421232223510742,
      "learning_rate": 7.463885898445327e-05,
      "loss": 3.777,
      "step": 321090
    },
    {
      "epoch": 0.6689583333333333,
      "grad_norm": 1.1797703504562378,
      "learning_rate": 7.463033513648273e-05,
      "loss": 3.7306,
      "step": 321100
    },
    {
      "epoch": 0.6689791666666667,
      "grad_norm": 1.1011241674423218,
      "learning_rate": 7.462181161407932e-05,
      "loss": 3.8337,
      "step": 321110
    },
    {
      "epoch": 0.669,
      "grad_norm": 1.040366768836975,
      "learning_rate": 7.461328841727983e-05,
      "loss": 3.7758,
      "step": 321120
    },
    {
      "epoch": 0.6690208333333333,
      "grad_norm": 1.1609634160995483,
      "learning_rate": 7.460476554612109e-05,
      "loss": 3.9447,
      "step": 321130
    },
    {
      "epoch": 0.6690416666666666,
      "grad_norm": 1.1941962242126465,
      "learning_rate": 7.459624300063994e-05,
      "loss": 3.8628,
      "step": 321140
    },
    {
      "epoch": 0.6690625,
      "grad_norm": 1.18722403049469,
      "learning_rate": 7.458772078087316e-05,
      "loss": 3.7403,
      "step": 321150
    },
    {
      "epoch": 0.6690833333333334,
      "grad_norm": 1.322989583015442,
      "learning_rate": 7.457919888685758e-05,
      "loss": 3.7877,
      "step": 321160
    },
    {
      "epoch": 0.6691041666666667,
      "grad_norm": 1.1905479431152344,
      "learning_rate": 7.457067731863e-05,
      "loss": 3.7168,
      "step": 321170
    },
    {
      "epoch": 0.669125,
      "grad_norm": 1.1708813905715942,
      "learning_rate": 7.456215607622724e-05,
      "loss": 3.7426,
      "step": 321180
    },
    {
      "epoch": 0.6691458333333333,
      "grad_norm": 1.1809014081954956,
      "learning_rate": 7.45536351596861e-05,
      "loss": 3.9399,
      "step": 321190
    },
    {
      "epoch": 0.6691666666666667,
      "grad_norm": 1.2131388187408447,
      "learning_rate": 7.454511456904342e-05,
      "loss": 3.9101,
      "step": 321200
    },
    {
      "epoch": 0.6691875,
      "grad_norm": 1.2718349695205688,
      "learning_rate": 7.453659430433596e-05,
      "loss": 3.7354,
      "step": 321210
    },
    {
      "epoch": 0.6692083333333333,
      "grad_norm": 1.196428894996643,
      "learning_rate": 7.452807436560054e-05,
      "loss": 3.7338,
      "step": 321220
    },
    {
      "epoch": 0.6692291666666667,
      "grad_norm": 1.2113676071166992,
      "learning_rate": 7.4519554752874e-05,
      "loss": 3.6857,
      "step": 321230
    },
    {
      "epoch": 0.66925,
      "grad_norm": 1.0477787256240845,
      "learning_rate": 7.451103546619303e-05,
      "loss": 3.7701,
      "step": 321240
    },
    {
      "epoch": 0.6692708333333334,
      "grad_norm": 1.2374629974365234,
      "learning_rate": 7.450251650559456e-05,
      "loss": 3.5955,
      "step": 321250
    },
    {
      "epoch": 0.6692916666666666,
      "grad_norm": 1.1620250940322876,
      "learning_rate": 7.449399787111538e-05,
      "loss": 3.9329,
      "step": 321260
    },
    {
      "epoch": 0.6693125,
      "grad_norm": 1.2057573795318604,
      "learning_rate": 7.448547956279211e-05,
      "loss": 3.7321,
      "step": 321270
    },
    {
      "epoch": 0.6693333333333333,
      "grad_norm": 1.2373536825180054,
      "learning_rate": 7.447696158066176e-05,
      "loss": 3.8909,
      "step": 321280
    },
    {
      "epoch": 0.6693541666666667,
      "grad_norm": 1.198137640953064,
      "learning_rate": 7.446844392476109e-05,
      "loss": 3.9861,
      "step": 321290
    },
    {
      "epoch": 0.669375,
      "grad_norm": 1.317529559135437,
      "learning_rate": 7.445992659512672e-05,
      "loss": 3.7263,
      "step": 321300
    },
    {
      "epoch": 0.6693958333333333,
      "grad_norm": 1.0457247495651245,
      "learning_rate": 7.445140959179571e-05,
      "loss": 3.9561,
      "step": 321310
    },
    {
      "epoch": 0.6694166666666667,
      "grad_norm": 1.102824091911316,
      "learning_rate": 7.444289291480463e-05,
      "loss": 3.904,
      "step": 321320
    },
    {
      "epoch": 0.6694375,
      "grad_norm": 1.0682172775268555,
      "learning_rate": 7.443437656419028e-05,
      "loss": 3.9132,
      "step": 321330
    },
    {
      "epoch": 0.6694583333333334,
      "grad_norm": 1.0361367464065552,
      "learning_rate": 7.442586053998964e-05,
      "loss": 3.6103,
      "step": 321340
    },
    {
      "epoch": 0.6694791666666666,
      "grad_norm": 1.139908790588379,
      "learning_rate": 7.441734484223931e-05,
      "loss": 3.8334,
      "step": 321350
    },
    {
      "epoch": 0.6695,
      "grad_norm": 1.1226019859313965,
      "learning_rate": 7.440882947097607e-05,
      "loss": 3.88,
      "step": 321360
    },
    {
      "epoch": 0.6695208333333333,
      "grad_norm": 1.1762504577636719,
      "learning_rate": 7.440031442623687e-05,
      "loss": 3.7796,
      "step": 321370
    },
    {
      "epoch": 0.6695416666666667,
      "grad_norm": 1.0586684942245483,
      "learning_rate": 7.439179970805836e-05,
      "loss": 3.8491,
      "step": 321380
    },
    {
      "epoch": 0.6695625,
      "grad_norm": 1.129542350769043,
      "learning_rate": 7.438328531647725e-05,
      "loss": 3.8881,
      "step": 321390
    },
    {
      "epoch": 0.6695833333333333,
      "grad_norm": 1.11997389793396,
      "learning_rate": 7.437477125153057e-05,
      "loss": 3.6333,
      "step": 321400
    },
    {
      "epoch": 0.6696041666666667,
      "grad_norm": 1.1747084856033325,
      "learning_rate": 7.436625751325487e-05,
      "loss": 4.0795,
      "step": 321410
    },
    {
      "epoch": 0.669625,
      "grad_norm": 1.1281906366348267,
      "learning_rate": 7.435774410168694e-05,
      "loss": 3.8468,
      "step": 321420
    },
    {
      "epoch": 0.6696458333333334,
      "grad_norm": 1.3072125911712646,
      "learning_rate": 7.434923101686374e-05,
      "loss": 3.9731,
      "step": 321430
    },
    {
      "epoch": 0.6696666666666666,
      "grad_norm": 1.3013567924499512,
      "learning_rate": 7.434071825882184e-05,
      "loss": 3.7651,
      "step": 321440
    },
    {
      "epoch": 0.6696875,
      "grad_norm": 1.1533050537109375,
      "learning_rate": 7.43322058275981e-05,
      "loss": 3.6204,
      "step": 321450
    },
    {
      "epoch": 0.6697083333333333,
      "grad_norm": 1.1650817394256592,
      "learning_rate": 7.432369372322928e-05,
      "loss": 3.6993,
      "step": 321460
    },
    {
      "epoch": 0.6697291666666667,
      "grad_norm": 1.0957515239715576,
      "learning_rate": 7.431518194575215e-05,
      "loss": 3.946,
      "step": 321470
    },
    {
      "epoch": 0.66975,
      "grad_norm": 1.1462628841400146,
      "learning_rate": 7.430667049520347e-05,
      "loss": 3.898,
      "step": 321480
    },
    {
      "epoch": 0.6697708333333333,
      "grad_norm": 1.0886619091033936,
      "learning_rate": 7.429815937162001e-05,
      "loss": 3.8414,
      "step": 321490
    },
    {
      "epoch": 0.6697916666666667,
      "grad_norm": 1.2814147472381592,
      "learning_rate": 7.428964857503854e-05,
      "loss": 3.7855,
      "step": 321500
    },
    {
      "epoch": 0.6698125,
      "grad_norm": 1.136672019958496,
      "learning_rate": 7.428113810549583e-05,
      "loss": 3.7782,
      "step": 321510
    },
    {
      "epoch": 0.6698333333333333,
      "grad_norm": 1.1978100538253784,
      "learning_rate": 7.427262796302862e-05,
      "loss": 3.8839,
      "step": 321520
    },
    {
      "epoch": 0.6698541666666666,
      "grad_norm": 1.1673710346221924,
      "learning_rate": 7.42641181476737e-05,
      "loss": 3.9277,
      "step": 321530
    },
    {
      "epoch": 0.669875,
      "grad_norm": 1.1031914949417114,
      "learning_rate": 7.425560865946784e-05,
      "loss": 3.8708,
      "step": 321540
    },
    {
      "epoch": 0.6698958333333334,
      "grad_norm": 1.1530389785766602,
      "learning_rate": 7.424709949844767e-05,
      "loss": 3.9447,
      "step": 321550
    },
    {
      "epoch": 0.6699166666666667,
      "grad_norm": 1.1029815673828125,
      "learning_rate": 7.42385906646501e-05,
      "loss": 3.7403,
      "step": 321560
    },
    {
      "epoch": 0.6699375,
      "grad_norm": 1.1628260612487793,
      "learning_rate": 7.42300821581119e-05,
      "loss": 3.8622,
      "step": 321570
    },
    {
      "epoch": 0.6699583333333333,
      "grad_norm": 1.1501569747924805,
      "learning_rate": 7.422157397886962e-05,
      "loss": 3.759,
      "step": 321580
    },
    {
      "epoch": 0.6699791666666667,
      "grad_norm": 1.0780831575393677,
      "learning_rate": 7.42130661269602e-05,
      "loss": 3.8015,
      "step": 321590
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.220290184020996,
      "learning_rate": 7.42045586024204e-05,
      "loss": 3.8491,
      "step": 321600
    },
    {
      "epoch": 0.6700208333333333,
      "grad_norm": 1.1668559312820435,
      "learning_rate": 7.41960514052868e-05,
      "loss": 4.0075,
      "step": 321610
    },
    {
      "epoch": 0.6700416666666666,
      "grad_norm": 1.1563693284988403,
      "learning_rate": 7.418754453559631e-05,
      "loss": 3.8492,
      "step": 321620
    },
    {
      "epoch": 0.6700625,
      "grad_norm": 1.4137310981750488,
      "learning_rate": 7.417903799338567e-05,
      "loss": 3.7169,
      "step": 321630
    },
    {
      "epoch": 0.6700833333333334,
      "grad_norm": 1.3355112075805664,
      "learning_rate": 7.417053177869145e-05,
      "loss": 3.7138,
      "step": 321640
    },
    {
      "epoch": 0.6701041666666666,
      "grad_norm": 1.2782561779022217,
      "learning_rate": 7.416202589155058e-05,
      "loss": 3.9044,
      "step": 321650
    },
    {
      "epoch": 0.670125,
      "grad_norm": 1.0305242538452148,
      "learning_rate": 7.415352033199981e-05,
      "loss": 3.695,
      "step": 321660
    },
    {
      "epoch": 0.6701458333333333,
      "grad_norm": 1.1052478551864624,
      "learning_rate": 7.414501510007568e-05,
      "loss": 3.9773,
      "step": 321670
    },
    {
      "epoch": 0.6701666666666667,
      "grad_norm": 1.0837697982788086,
      "learning_rate": 7.413651019581517e-05,
      "loss": 3.8594,
      "step": 321680
    },
    {
      "epoch": 0.6701875,
      "grad_norm": 1.2423020601272583,
      "learning_rate": 7.412800561925488e-05,
      "loss": 3.6879,
      "step": 321690
    },
    {
      "epoch": 0.6702083333333333,
      "grad_norm": 1.1078091859817505,
      "learning_rate": 7.411950137043149e-05,
      "loss": 3.4996,
      "step": 321700
    },
    {
      "epoch": 0.6702291666666667,
      "grad_norm": 1.0912370681762695,
      "learning_rate": 7.411099744938193e-05,
      "loss": 3.8707,
      "step": 321710
    },
    {
      "epoch": 0.67025,
      "grad_norm": 1.0663371086120605,
      "learning_rate": 7.410249385614276e-05,
      "loss": 3.8494,
      "step": 321720
    },
    {
      "epoch": 0.6702708333333334,
      "grad_norm": 1.127975583076477,
      "learning_rate": 7.409399059075074e-05,
      "loss": 3.7734,
      "step": 321730
    },
    {
      "epoch": 0.6702916666666666,
      "grad_norm": 1.1552472114562988,
      "learning_rate": 7.408548765324274e-05,
      "loss": 3.7063,
      "step": 321740
    },
    {
      "epoch": 0.6703125,
      "grad_norm": 1.2105340957641602,
      "learning_rate": 7.407698504365533e-05,
      "loss": 3.889,
      "step": 321750
    },
    {
      "epoch": 0.6703333333333333,
      "grad_norm": 1.198261022567749,
      "learning_rate": 7.406848276202522e-05,
      "loss": 3.7654,
      "step": 321760
    },
    {
      "epoch": 0.6703541666666667,
      "grad_norm": 1.1905856132507324,
      "learning_rate": 7.405998080838934e-05,
      "loss": 3.6623,
      "step": 321770
    },
    {
      "epoch": 0.670375,
      "grad_norm": 1.1949563026428223,
      "learning_rate": 7.405147918278422e-05,
      "loss": 3.6798,
      "step": 321780
    },
    {
      "epoch": 0.6703958333333333,
      "grad_norm": 1.027703046798706,
      "learning_rate": 7.40429778852466e-05,
      "loss": 3.7086,
      "step": 321790
    },
    {
      "epoch": 0.6704166666666667,
      "grad_norm": 1.1627846956253052,
      "learning_rate": 7.403447691581335e-05,
      "loss": 3.709,
      "step": 321800
    },
    {
      "epoch": 0.6704375,
      "grad_norm": 1.0619900226593018,
      "learning_rate": 7.402597627452105e-05,
      "loss": 3.7128,
      "step": 321810
    },
    {
      "epoch": 0.6704583333333334,
      "grad_norm": 1.134675145149231,
      "learning_rate": 7.401747596140643e-05,
      "loss": 3.5275,
      "step": 321820
    },
    {
      "epoch": 0.6704791666666666,
      "grad_norm": 1.2740895748138428,
      "learning_rate": 7.400897597650626e-05,
      "loss": 3.7872,
      "step": 321830
    },
    {
      "epoch": 0.6705,
      "grad_norm": 1.2361948490142822,
      "learning_rate": 7.400047631985724e-05,
      "loss": 3.8804,
      "step": 321840
    },
    {
      "epoch": 0.6705208333333333,
      "grad_norm": 1.1089850664138794,
      "learning_rate": 7.399197699149606e-05,
      "loss": 3.812,
      "step": 321850
    },
    {
      "epoch": 0.6705416666666667,
      "grad_norm": 1.069718360900879,
      "learning_rate": 7.398347799145947e-05,
      "loss": 3.8407,
      "step": 321860
    },
    {
      "epoch": 0.6705625,
      "grad_norm": 1.1564303636550903,
      "learning_rate": 7.397497931978417e-05,
      "loss": 3.7931,
      "step": 321870
    },
    {
      "epoch": 0.6705833333333333,
      "grad_norm": 1.2182010412216187,
      "learning_rate": 7.396648097650684e-05,
      "loss": 3.832,
      "step": 321880
    },
    {
      "epoch": 0.6706041666666667,
      "grad_norm": 1.2034614086151123,
      "learning_rate": 7.395798296166424e-05,
      "loss": 3.9935,
      "step": 321890
    },
    {
      "epoch": 0.670625,
      "grad_norm": 1.0557613372802734,
      "learning_rate": 7.394948527529303e-05,
      "loss": 3.8256,
      "step": 321900
    },
    {
      "epoch": 0.6706458333333334,
      "grad_norm": 1.0912619829177856,
      "learning_rate": 7.394098791742998e-05,
      "loss": 3.7943,
      "step": 321910
    },
    {
      "epoch": 0.6706666666666666,
      "grad_norm": 1.1666455268859863,
      "learning_rate": 7.393249088811172e-05,
      "loss": 3.8306,
      "step": 321920
    },
    {
      "epoch": 0.6706875,
      "grad_norm": 1.0834698677062988,
      "learning_rate": 7.392399418737501e-05,
      "loss": 3.8546,
      "step": 321930
    },
    {
      "epoch": 0.6707083333333334,
      "grad_norm": 1.0865485668182373,
      "learning_rate": 7.391549781525659e-05,
      "loss": 3.8266,
      "step": 321940
    },
    {
      "epoch": 0.6707291666666667,
      "grad_norm": 1.106468677520752,
      "learning_rate": 7.390700177179297e-05,
      "loss": 3.8802,
      "step": 321950
    },
    {
      "epoch": 0.67075,
      "grad_norm": 1.2094964981079102,
      "learning_rate": 7.389850605702104e-05,
      "loss": 3.8913,
      "step": 321960
    },
    {
      "epoch": 0.6707708333333333,
      "grad_norm": 1.2715752124786377,
      "learning_rate": 7.389001067097751e-05,
      "loss": 4.0042,
      "step": 321970
    },
    {
      "epoch": 0.6707916666666667,
      "grad_norm": 1.1777523756027222,
      "learning_rate": 7.388151561369889e-05,
      "loss": 3.7623,
      "step": 321980
    },
    {
      "epoch": 0.6708125,
      "grad_norm": 1.1884678602218628,
      "learning_rate": 7.387302088522206e-05,
      "loss": 3.8486,
      "step": 321990
    },
    {
      "epoch": 0.6708333333333333,
      "grad_norm": 1.1658896207809448,
      "learning_rate": 7.38645264855837e-05,
      "loss": 3.8598,
      "step": 322000
    },
    {
      "epoch": 0.6708333333333333,
      "eval_loss": 3.556993007659912,
      "eval_runtime": 7.4264,
      "eval_samples_per_second": 1.347,
      "eval_steps_per_second": 0.404,
      "step": 322000
    },
    {
      "epoch": 0.6708541666666666,
      "grad_norm": 1.399204134941101,
      "learning_rate": 7.385603241482032e-05,
      "loss": 3.719,
      "step": 322010
    },
    {
      "epoch": 0.670875,
      "grad_norm": 1.174773931503296,
      "learning_rate": 7.384753867296882e-05,
      "loss": 3.8235,
      "step": 322020
    },
    {
      "epoch": 0.6708958333333334,
      "grad_norm": 1.3237439393997192,
      "learning_rate": 7.383904526006585e-05,
      "loss": 3.6266,
      "step": 322030
    },
    {
      "epoch": 0.6709166666666667,
      "grad_norm": 1.19850754737854,
      "learning_rate": 7.383055217614795e-05,
      "loss": 3.6076,
      "step": 322040
    },
    {
      "epoch": 0.6709375,
      "grad_norm": 1.062179446220398,
      "learning_rate": 7.382205942125202e-05,
      "loss": 3.8018,
      "step": 322050
    },
    {
      "epoch": 0.6709583333333333,
      "grad_norm": 1.2509928941726685,
      "learning_rate": 7.381356699541457e-05,
      "loss": 3.7429,
      "step": 322060
    },
    {
      "epoch": 0.6709791666666667,
      "grad_norm": 1.121877908706665,
      "learning_rate": 7.380507489867234e-05,
      "loss": 3.8282,
      "step": 322070
    },
    {
      "epoch": 0.671,
      "grad_norm": 1.1868579387664795,
      "learning_rate": 7.379658313106211e-05,
      "loss": 3.8066,
      "step": 322080
    },
    {
      "epoch": 0.6710208333333333,
      "grad_norm": 1.1902728080749512,
      "learning_rate": 7.378809169262042e-05,
      "loss": 3.8748,
      "step": 322090
    },
    {
      "epoch": 0.6710416666666666,
      "grad_norm": 1.1134830713272095,
      "learning_rate": 7.377960058338401e-05,
      "loss": 3.8898,
      "step": 322100
    },
    {
      "epoch": 0.6710625,
      "grad_norm": 1.103224277496338,
      "learning_rate": 7.377110980338956e-05,
      "loss": 3.7385,
      "step": 322110
    },
    {
      "epoch": 0.6710833333333334,
      "grad_norm": 1.149624228477478,
      "learning_rate": 7.376261935267375e-05,
      "loss": 3.9223,
      "step": 322120
    },
    {
      "epoch": 0.6711041666666666,
      "grad_norm": 1.1363872289657593,
      "learning_rate": 7.375412923127324e-05,
      "loss": 3.9355,
      "step": 322130
    },
    {
      "epoch": 0.671125,
      "grad_norm": 1.2025716304779053,
      "learning_rate": 7.374563943922472e-05,
      "loss": 3.6722,
      "step": 322140
    },
    {
      "epoch": 0.6711458333333333,
      "grad_norm": 1.148591160774231,
      "learning_rate": 7.373714997656483e-05,
      "loss": 3.6935,
      "step": 322150
    },
    {
      "epoch": 0.6711666666666667,
      "grad_norm": 1.2313777208328247,
      "learning_rate": 7.372866084333028e-05,
      "loss": 3.7451,
      "step": 322160
    },
    {
      "epoch": 0.6711875,
      "grad_norm": 1.133102297782898,
      "learning_rate": 7.372017203955774e-05,
      "loss": 3.9333,
      "step": 322170
    },
    {
      "epoch": 0.6712083333333333,
      "grad_norm": 1.0675036907196045,
      "learning_rate": 7.371168356528383e-05,
      "loss": 3.7386,
      "step": 322180
    },
    {
      "epoch": 0.6712291666666667,
      "grad_norm": 1.0894578695297241,
      "learning_rate": 7.370319542054527e-05,
      "loss": 3.5464,
      "step": 322190
    },
    {
      "epoch": 0.67125,
      "grad_norm": 1.0598711967468262,
      "learning_rate": 7.36947076053787e-05,
      "loss": 3.8706,
      "step": 322200
    },
    {
      "epoch": 0.6712708333333334,
      "grad_norm": 1.1410421133041382,
      "learning_rate": 7.36862201198208e-05,
      "loss": 3.7009,
      "step": 322210
    },
    {
      "epoch": 0.6712916666666666,
      "grad_norm": 1.453881025314331,
      "learning_rate": 7.367773296390822e-05,
      "loss": 3.907,
      "step": 322220
    },
    {
      "epoch": 0.6713125,
      "grad_norm": 1.1083347797393799,
      "learning_rate": 7.366924613767762e-05,
      "loss": 3.6842,
      "step": 322230
    },
    {
      "epoch": 0.6713333333333333,
      "grad_norm": 1.05295991897583,
      "learning_rate": 7.366075964116567e-05,
      "loss": 3.7862,
      "step": 322240
    },
    {
      "epoch": 0.6713541666666667,
      "grad_norm": 1.1769044399261475,
      "learning_rate": 7.365227347440899e-05,
      "loss": 3.7993,
      "step": 322250
    },
    {
      "epoch": 0.671375,
      "grad_norm": 1.1406117677688599,
      "learning_rate": 7.364378763744429e-05,
      "loss": 3.8906,
      "step": 322260
    },
    {
      "epoch": 0.6713958333333333,
      "grad_norm": 1.2271552085876465,
      "learning_rate": 7.363530213030822e-05,
      "loss": 3.9643,
      "step": 322270
    },
    {
      "epoch": 0.6714166666666667,
      "grad_norm": 1.1970701217651367,
      "learning_rate": 7.362681695303738e-05,
      "loss": 3.6867,
      "step": 322280
    },
    {
      "epoch": 0.6714375,
      "grad_norm": 1.2160768508911133,
      "learning_rate": 7.36183321056685e-05,
      "loss": 3.539,
      "step": 322290
    },
    {
      "epoch": 0.6714583333333334,
      "grad_norm": 1.1406813859939575,
      "learning_rate": 7.360984758823817e-05,
      "loss": 3.7247,
      "step": 322300
    },
    {
      "epoch": 0.6714791666666666,
      "grad_norm": 1.3555883169174194,
      "learning_rate": 7.360136340078311e-05,
      "loss": 3.7246,
      "step": 322310
    },
    {
      "epoch": 0.6715,
      "grad_norm": 1.1468151807785034,
      "learning_rate": 7.359287954333982e-05,
      "loss": 3.961,
      "step": 322320
    },
    {
      "epoch": 0.6715208333333333,
      "grad_norm": 1.0595024824142456,
      "learning_rate": 7.35843960159451e-05,
      "loss": 3.7132,
      "step": 322330
    },
    {
      "epoch": 0.6715416666666667,
      "grad_norm": 1.1244360208511353,
      "learning_rate": 7.357591281863559e-05,
      "loss": 3.7161,
      "step": 322340
    },
    {
      "epoch": 0.6715625,
      "grad_norm": 1.1000185012817383,
      "learning_rate": 7.35674299514478e-05,
      "loss": 3.6579,
      "step": 322350
    },
    {
      "epoch": 0.6715833333333333,
      "grad_norm": 1.2545133829116821,
      "learning_rate": 7.355894741441849e-05,
      "loss": 3.5364,
      "step": 322360
    },
    {
      "epoch": 0.6716041666666667,
      "grad_norm": 1.143391728401184,
      "learning_rate": 7.355046520758433e-05,
      "loss": 3.5688,
      "step": 322370
    },
    {
      "epoch": 0.671625,
      "grad_norm": 1.1396300792694092,
      "learning_rate": 7.354198333098179e-05,
      "loss": 4.0591,
      "step": 322380
    },
    {
      "epoch": 0.6716458333333334,
      "grad_norm": 1.1179264783859253,
      "learning_rate": 7.353350178464768e-05,
      "loss": 3.693,
      "step": 322390
    },
    {
      "epoch": 0.6716666666666666,
      "grad_norm": 1.1459940671920776,
      "learning_rate": 7.352502056861861e-05,
      "loss": 3.763,
      "step": 322400
    },
    {
      "epoch": 0.6716875,
      "grad_norm": 0.984028160572052,
      "learning_rate": 7.351653968293114e-05,
      "loss": 3.541,
      "step": 322410
    },
    {
      "epoch": 0.6717083333333334,
      "grad_norm": 1.2013063430786133,
      "learning_rate": 7.35080591276219e-05,
      "loss": 3.9484,
      "step": 322420
    },
    {
      "epoch": 0.6717291666666667,
      "grad_norm": 1.0758639574050903,
      "learning_rate": 7.349957890272766e-05,
      "loss": 3.6822,
      "step": 322430
    },
    {
      "epoch": 0.67175,
      "grad_norm": 1.1770339012145996,
      "learning_rate": 7.34910990082849e-05,
      "loss": 3.8703,
      "step": 322440
    },
    {
      "epoch": 0.6717708333333333,
      "grad_norm": 1.135499358177185,
      "learning_rate": 7.348261944433031e-05,
      "loss": 3.9093,
      "step": 322450
    },
    {
      "epoch": 0.6717916666666667,
      "grad_norm": 1.2211096286773682,
      "learning_rate": 7.347414021090053e-05,
      "loss": 3.7764,
      "step": 322460
    },
    {
      "epoch": 0.6718125,
      "grad_norm": 1.1564149856567383,
      "learning_rate": 7.346566130803217e-05,
      "loss": 3.6437,
      "step": 322470
    },
    {
      "epoch": 0.6718333333333333,
      "grad_norm": 1.0663609504699707,
      "learning_rate": 7.345718273576185e-05,
      "loss": 3.6875,
      "step": 322480
    },
    {
      "epoch": 0.6718541666666666,
      "grad_norm": 1.360910415649414,
      "learning_rate": 7.344870449412621e-05,
      "loss": 3.5002,
      "step": 322490
    },
    {
      "epoch": 0.671875,
      "grad_norm": 1.117850661277771,
      "learning_rate": 7.344022658316185e-05,
      "loss": 3.646,
      "step": 322500
    },
    {
      "epoch": 0.6718958333333334,
      "grad_norm": 1.1144134998321533,
      "learning_rate": 7.343174900290542e-05,
      "loss": 3.6787,
      "step": 322510
    },
    {
      "epoch": 0.6719166666666667,
      "grad_norm": 1.345183253288269,
      "learning_rate": 7.342327175339353e-05,
      "loss": 3.7719,
      "step": 322520
    },
    {
      "epoch": 0.6719375,
      "grad_norm": 1.2400016784667969,
      "learning_rate": 7.341479483466278e-05,
      "loss": 3.7647,
      "step": 322530
    },
    {
      "epoch": 0.6719583333333333,
      "grad_norm": 1.0529247522354126,
      "learning_rate": 7.340631824674982e-05,
      "loss": 3.7113,
      "step": 322540
    },
    {
      "epoch": 0.6719791666666667,
      "grad_norm": 1.2309658527374268,
      "learning_rate": 7.339784198969124e-05,
      "loss": 3.6411,
      "step": 322550
    },
    {
      "epoch": 0.672,
      "grad_norm": 1.129997968673706,
      "learning_rate": 7.338936606352366e-05,
      "loss": 3.9348,
      "step": 322560
    },
    {
      "epoch": 0.6720208333333333,
      "grad_norm": 1.2159349918365479,
      "learning_rate": 7.338089046828368e-05,
      "loss": 3.5502,
      "step": 322570
    },
    {
      "epoch": 0.6720416666666666,
      "grad_norm": 1.087815284729004,
      "learning_rate": 7.337241520400795e-05,
      "loss": 3.6477,
      "step": 322580
    },
    {
      "epoch": 0.6720625,
      "grad_norm": 1.342877745628357,
      "learning_rate": 7.336394027073304e-05,
      "loss": 3.9056,
      "step": 322590
    },
    {
      "epoch": 0.6720833333333334,
      "grad_norm": 1.1468846797943115,
      "learning_rate": 7.335546566849558e-05,
      "loss": 3.6793,
      "step": 322600
    },
    {
      "epoch": 0.6721041666666666,
      "grad_norm": 1.3223390579223633,
      "learning_rate": 7.334699139733216e-05,
      "loss": 3.8839,
      "step": 322610
    },
    {
      "epoch": 0.672125,
      "grad_norm": 1.164818525314331,
      "learning_rate": 7.33385174572794e-05,
      "loss": 3.7978,
      "step": 322620
    },
    {
      "epoch": 0.6721458333333333,
      "grad_norm": 1.0201694965362549,
      "learning_rate": 7.333004384837391e-05,
      "loss": 3.6094,
      "step": 322630
    },
    {
      "epoch": 0.6721666666666667,
      "grad_norm": 1.4989216327667236,
      "learning_rate": 7.332157057065227e-05,
      "loss": 3.881,
      "step": 322640
    },
    {
      "epoch": 0.6721875,
      "grad_norm": 1.241364598274231,
      "learning_rate": 7.331309762415111e-05,
      "loss": 3.6338,
      "step": 322650
    },
    {
      "epoch": 0.6722083333333333,
      "grad_norm": 1.109959602355957,
      "learning_rate": 7.3304625008907e-05,
      "loss": 3.6381,
      "step": 322660
    },
    {
      "epoch": 0.6722291666666667,
      "grad_norm": 2.6563146114349365,
      "learning_rate": 7.329615272495655e-05,
      "loss": 3.723,
      "step": 322670
    },
    {
      "epoch": 0.67225,
      "grad_norm": 1.085113525390625,
      "learning_rate": 7.328768077233643e-05,
      "loss": 3.7484,
      "step": 322680
    },
    {
      "epoch": 0.6722708333333334,
      "grad_norm": 1.1590383052825928,
      "learning_rate": 7.327920915108309e-05,
      "loss": 3.6439,
      "step": 322690
    },
    {
      "epoch": 0.6722916666666666,
      "grad_norm": 1.2450616359710693,
      "learning_rate": 7.327073786123317e-05,
      "loss": 3.8258,
      "step": 322700
    },
    {
      "epoch": 0.6723125,
      "grad_norm": 1.3683364391326904,
      "learning_rate": 7.326226690282337e-05,
      "loss": 3.8478,
      "step": 322710
    },
    {
      "epoch": 0.6723333333333333,
      "grad_norm": 1.1762723922729492,
      "learning_rate": 7.325379627589017e-05,
      "loss": 3.9114,
      "step": 322720
    },
    {
      "epoch": 0.6723541666666667,
      "grad_norm": 1.070418119430542,
      "learning_rate": 7.324532598047012e-05,
      "loss": 3.7948,
      "step": 322730
    },
    {
      "epoch": 0.672375,
      "grad_norm": 1.211722493171692,
      "learning_rate": 7.32368560166e-05,
      "loss": 3.7259,
      "step": 322740
    },
    {
      "epoch": 0.6723958333333333,
      "grad_norm": 1.2715673446655273,
      "learning_rate": 7.322838638431622e-05,
      "loss": 3.779,
      "step": 322750
    },
    {
      "epoch": 0.6724166666666667,
      "grad_norm": 1.179149866104126,
      "learning_rate": 7.321991708365535e-05,
      "loss": 3.6803,
      "step": 322760
    },
    {
      "epoch": 0.6724375,
      "grad_norm": 1.3195446729660034,
      "learning_rate": 7.321144811465418e-05,
      "loss": 3.5745,
      "step": 322770
    },
    {
      "epoch": 0.6724583333333334,
      "grad_norm": 1.2100211381912231,
      "learning_rate": 7.32029794773491e-05,
      "loss": 3.798,
      "step": 322780
    },
    {
      "epoch": 0.6724791666666666,
      "grad_norm": 1.2178547382354736,
      "learning_rate": 7.319451117177669e-05,
      "loss": 3.7452,
      "step": 322790
    },
    {
      "epoch": 0.6725,
      "grad_norm": 1.1614022254943848,
      "learning_rate": 7.31860431979737e-05,
      "loss": 3.5733,
      "step": 322800
    },
    {
      "epoch": 0.6725208333333333,
      "grad_norm": 1.2652537822723389,
      "learning_rate": 7.317757555597656e-05,
      "loss": 3.7774,
      "step": 322810
    },
    {
      "epoch": 0.6725416666666667,
      "grad_norm": 1.2217084169387817,
      "learning_rate": 7.316910824582186e-05,
      "loss": 3.9452,
      "step": 322820
    },
    {
      "epoch": 0.6725625,
      "grad_norm": 1.1841003894805908,
      "learning_rate": 7.316064126754621e-05,
      "loss": 3.7825,
      "step": 322830
    },
    {
      "epoch": 0.6725833333333333,
      "grad_norm": 1.0947245359420776,
      "learning_rate": 7.315217462118617e-05,
      "loss": 3.8602,
      "step": 322840
    },
    {
      "epoch": 0.6726041666666667,
      "grad_norm": 1.1954187154769897,
      "learning_rate": 7.314370830677833e-05,
      "loss": 3.7781,
      "step": 322850
    },
    {
      "epoch": 0.672625,
      "grad_norm": 1.2808245420455933,
      "learning_rate": 7.313524232435924e-05,
      "loss": 3.6692,
      "step": 322860
    },
    {
      "epoch": 0.6726458333333334,
      "grad_norm": 1.2140424251556396,
      "learning_rate": 7.312677667396547e-05,
      "loss": 3.7425,
      "step": 322870
    },
    {
      "epoch": 0.6726666666666666,
      "grad_norm": 1.1328092813491821,
      "learning_rate": 7.311831135563362e-05,
      "loss": 3.6249,
      "step": 322880
    },
    {
      "epoch": 0.6726875,
      "grad_norm": 1.1650949716567993,
      "learning_rate": 7.31098463694002e-05,
      "loss": 3.6966,
      "step": 322890
    },
    {
      "epoch": 0.6727083333333334,
      "grad_norm": 1.2698423862457275,
      "learning_rate": 7.310138171530184e-05,
      "loss": 3.697,
      "step": 322900
    },
    {
      "epoch": 0.6727291666666667,
      "grad_norm": 1.440324306488037,
      "learning_rate": 7.309291739337505e-05,
      "loss": 3.779,
      "step": 322910
    },
    {
      "epoch": 0.67275,
      "grad_norm": 1.2871267795562744,
      "learning_rate": 7.308445340365644e-05,
      "loss": 3.7544,
      "step": 322920
    },
    {
      "epoch": 0.6727708333333333,
      "grad_norm": 1.1720643043518066,
      "learning_rate": 7.307598974618251e-05,
      "loss": 3.6326,
      "step": 322930
    },
    {
      "epoch": 0.6727916666666667,
      "grad_norm": 1.457791805267334,
      "learning_rate": 7.306752642098989e-05,
      "loss": 3.7836,
      "step": 322940
    },
    {
      "epoch": 0.6728125,
      "grad_norm": 1.1001745462417603,
      "learning_rate": 7.305906342811508e-05,
      "loss": 3.7608,
      "step": 322950
    },
    {
      "epoch": 0.6728333333333333,
      "grad_norm": 1.2900139093399048,
      "learning_rate": 7.305060076759468e-05,
      "loss": 3.9437,
      "step": 322960
    },
    {
      "epoch": 0.6728541666666666,
      "grad_norm": 1.058354377746582,
      "learning_rate": 7.304213843946521e-05,
      "loss": 3.6288,
      "step": 322970
    },
    {
      "epoch": 0.672875,
      "grad_norm": 1.1121900081634521,
      "learning_rate": 7.303367644376324e-05,
      "loss": 3.7503,
      "step": 322980
    },
    {
      "epoch": 0.6728958333333334,
      "grad_norm": 1.1749296188354492,
      "learning_rate": 7.302521478052534e-05,
      "loss": 3.8198,
      "step": 322990
    },
    {
      "epoch": 0.6729166666666667,
      "grad_norm": 1.1622846126556396,
      "learning_rate": 7.301675344978808e-05,
      "loss": 3.5586,
      "step": 323000
    },
    {
      "epoch": 0.6729166666666667,
      "eval_loss": 3.5576820373535156,
      "eval_runtime": 6.8745,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.436,
      "step": 323000
    },
    {
      "epoch": 0.6729375,
      "grad_norm": 1.1088945865631104,
      "learning_rate": 7.300829245158788e-05,
      "loss": 3.6057,
      "step": 323010
    },
    {
      "epoch": 0.6729583333333333,
      "grad_norm": 1.134373426437378,
      "learning_rate": 7.299983178596142e-05,
      "loss": 3.6694,
      "step": 323020
    },
    {
      "epoch": 0.6729791666666667,
      "grad_norm": 1.3236905336380005,
      "learning_rate": 7.299137145294527e-05,
      "loss": 3.7196,
      "step": 323030
    },
    {
      "epoch": 0.673,
      "grad_norm": 1.0997259616851807,
      "learning_rate": 7.29829114525758e-05,
      "loss": 3.8573,
      "step": 323040
    },
    {
      "epoch": 0.6730208333333333,
      "grad_norm": 1.1766542196273804,
      "learning_rate": 7.297445178488978e-05,
      "loss": 3.7283,
      "step": 323050
    },
    {
      "epoch": 0.6730416666666666,
      "grad_norm": 1.4097603559494019,
      "learning_rate": 7.296599244992358e-05,
      "loss": 3.9601,
      "step": 323060
    },
    {
      "epoch": 0.6730625,
      "grad_norm": 1.1783638000488281,
      "learning_rate": 7.295753344771375e-05,
      "loss": 3.76,
      "step": 323070
    },
    {
      "epoch": 0.6730833333333334,
      "grad_norm": 1.1449240446090698,
      "learning_rate": 7.2949074778297e-05,
      "loss": 3.6482,
      "step": 323080
    },
    {
      "epoch": 0.6731041666666666,
      "grad_norm": 1.189347267150879,
      "learning_rate": 7.294061644170968e-05,
      "loss": 3.7815,
      "step": 323090
    },
    {
      "epoch": 0.673125,
      "grad_norm": 1.1842844486236572,
      "learning_rate": 7.293215843798833e-05,
      "loss": 3.7196,
      "step": 323100
    },
    {
      "epoch": 0.6731458333333333,
      "grad_norm": 1.2266724109649658,
      "learning_rate": 7.292370076716968e-05,
      "loss": 3.7385,
      "step": 323110
    },
    {
      "epoch": 0.6731666666666667,
      "grad_norm": 1.331928014755249,
      "learning_rate": 7.291524342929006e-05,
      "loss": 3.8973,
      "step": 323120
    },
    {
      "epoch": 0.6731875,
      "grad_norm": 1.0933887958526611,
      "learning_rate": 7.290678642438604e-05,
      "loss": 3.7257,
      "step": 323130
    },
    {
      "epoch": 0.6732083333333333,
      "grad_norm": 1.1487171649932861,
      "learning_rate": 7.289832975249429e-05,
      "loss": 3.8043,
      "step": 323140
    },
    {
      "epoch": 0.6732291666666667,
      "grad_norm": 1.1917033195495605,
      "learning_rate": 7.288987341365118e-05,
      "loss": 3.5943,
      "step": 323150
    },
    {
      "epoch": 0.67325,
      "grad_norm": 1.2594345808029175,
      "learning_rate": 7.288141740789324e-05,
      "loss": 3.7283,
      "step": 323160
    },
    {
      "epoch": 0.6732708333333334,
      "grad_norm": 1.7028048038482666,
      "learning_rate": 7.287296173525716e-05,
      "loss": 3.6094,
      "step": 323170
    },
    {
      "epoch": 0.6732916666666666,
      "grad_norm": 1.1989004611968994,
      "learning_rate": 7.28645063957793e-05,
      "loss": 3.9359,
      "step": 323180
    },
    {
      "epoch": 0.6733125,
      "grad_norm": 1.0620726346969604,
      "learning_rate": 7.285605138949625e-05,
      "loss": 3.5731,
      "step": 323190
    },
    {
      "epoch": 0.6733333333333333,
      "grad_norm": 1.18141770362854,
      "learning_rate": 7.284759671644452e-05,
      "loss": 3.6587,
      "step": 323200
    },
    {
      "epoch": 0.6733541666666667,
      "grad_norm": 1.185231328010559,
      "learning_rate": 7.283914237666062e-05,
      "loss": 3.735,
      "step": 323210
    },
    {
      "epoch": 0.673375,
      "grad_norm": 1.1194404363632202,
      "learning_rate": 7.28306883701811e-05,
      "loss": 3.6832,
      "step": 323220
    },
    {
      "epoch": 0.6733958333333333,
      "grad_norm": 1.1600035429000854,
      "learning_rate": 7.282223469704244e-05,
      "loss": 3.6848,
      "step": 323230
    },
    {
      "epoch": 0.6734166666666667,
      "grad_norm": 1.1323120594024658,
      "learning_rate": 7.281378135728119e-05,
      "loss": 3.9956,
      "step": 323240
    },
    {
      "epoch": 0.6734375,
      "grad_norm": 1.125003457069397,
      "learning_rate": 7.280532835093385e-05,
      "loss": 3.8059,
      "step": 323250
    },
    {
      "epoch": 0.6734583333333334,
      "grad_norm": 1.1744297742843628,
      "learning_rate": 7.279687567803694e-05,
      "loss": 3.7117,
      "step": 323260
    },
    {
      "epoch": 0.6734791666666666,
      "grad_norm": 1.1571670770645142,
      "learning_rate": 7.278842333862697e-05,
      "loss": 3.7444,
      "step": 323270
    },
    {
      "epoch": 0.6735,
      "grad_norm": 1.0253524780273438,
      "learning_rate": 7.277997133274043e-05,
      "loss": 3.6658,
      "step": 323280
    },
    {
      "epoch": 0.6735208333333333,
      "grad_norm": 1.1038330793380737,
      "learning_rate": 7.277151966041386e-05,
      "loss": 3.6622,
      "step": 323290
    },
    {
      "epoch": 0.6735416666666667,
      "grad_norm": 1.106547236442566,
      "learning_rate": 7.276306832168375e-05,
      "loss": 3.6614,
      "step": 323300
    },
    {
      "epoch": 0.6735625,
      "grad_norm": 1.0665256977081299,
      "learning_rate": 7.275461731658668e-05,
      "loss": 3.7926,
      "step": 323310
    },
    {
      "epoch": 0.6735833333333333,
      "grad_norm": 1.2418012619018555,
      "learning_rate": 7.274616664515897e-05,
      "loss": 3.659,
      "step": 323320
    },
    {
      "epoch": 0.6736041666666667,
      "grad_norm": 1.1733043193817139,
      "learning_rate": 7.273771630743731e-05,
      "loss": 3.9439,
      "step": 323330
    },
    {
      "epoch": 0.673625,
      "grad_norm": 1.1982605457305908,
      "learning_rate": 7.272926630345817e-05,
      "loss": 3.6815,
      "step": 323340
    },
    {
      "epoch": 0.6736458333333334,
      "grad_norm": 1.1255788803100586,
      "learning_rate": 7.272081663325789e-05,
      "loss": 3.6568,
      "step": 323350
    },
    {
      "epoch": 0.6736666666666666,
      "grad_norm": 1.1767246723175049,
      "learning_rate": 7.271236729687318e-05,
      "loss": 3.5933,
      "step": 323360
    },
    {
      "epoch": 0.6736875,
      "grad_norm": 1.208716630935669,
      "learning_rate": 7.27039182943405e-05,
      "loss": 3.6959,
      "step": 323370
    },
    {
      "epoch": 0.6737083333333334,
      "grad_norm": 1.1518959999084473,
      "learning_rate": 7.269546962569618e-05,
      "loss": 3.6154,
      "step": 323380
    },
    {
      "epoch": 0.6737291666666667,
      "grad_norm": 1.4219961166381836,
      "learning_rate": 7.268702129097688e-05,
      "loss": 3.5267,
      "step": 323390
    },
    {
      "epoch": 0.67375,
      "grad_norm": 1.1206763982772827,
      "learning_rate": 7.26785732902191e-05,
      "loss": 3.7503,
      "step": 323400
    },
    {
      "epoch": 0.6737708333333333,
      "grad_norm": 1.2252812385559082,
      "learning_rate": 7.267012562345918e-05,
      "loss": 3.8309,
      "step": 323410
    },
    {
      "epoch": 0.6737916666666667,
      "grad_norm": 1.3900202512741089,
      "learning_rate": 7.266167829073375e-05,
      "loss": 3.5291,
      "step": 323420
    },
    {
      "epoch": 0.6738125,
      "grad_norm": 1.1911884546279907,
      "learning_rate": 7.265323129207933e-05,
      "loss": 3.7286,
      "step": 323430
    },
    {
      "epoch": 0.6738333333333333,
      "grad_norm": 1.138161063194275,
      "learning_rate": 7.264478462753221e-05,
      "loss": 3.688,
      "step": 323440
    },
    {
      "epoch": 0.6738541666666666,
      "grad_norm": 1.2019256353378296,
      "learning_rate": 7.263633829712912e-05,
      "loss": 3.7401,
      "step": 323450
    },
    {
      "epoch": 0.673875,
      "grad_norm": 1.083611011505127,
      "learning_rate": 7.262789230090636e-05,
      "loss": 3.5545,
      "step": 323460
    },
    {
      "epoch": 0.6738958333333334,
      "grad_norm": 1.2302557229995728,
      "learning_rate": 7.261944663890043e-05,
      "loss": 3.792,
      "step": 323470
    },
    {
      "epoch": 0.6739166666666667,
      "grad_norm": 1.147310495376587,
      "learning_rate": 7.261100131114797e-05,
      "loss": 3.6089,
      "step": 323480
    },
    {
      "epoch": 0.6739375,
      "grad_norm": 1.2407100200653076,
      "learning_rate": 7.260255631768531e-05,
      "loss": 3.8675,
      "step": 323490
    },
    {
      "epoch": 0.6739583333333333,
      "grad_norm": 1.2691749334335327,
      "learning_rate": 7.259411165854889e-05,
      "loss": 3.7108,
      "step": 323500
    },
    {
      "epoch": 0.6739791666666667,
      "grad_norm": 1.2850959300994873,
      "learning_rate": 7.25856673337754e-05,
      "loss": 3.6913,
      "step": 323510
    },
    {
      "epoch": 0.674,
      "grad_norm": 1.4119799137115479,
      "learning_rate": 7.257722334340111e-05,
      "loss": 3.6771,
      "step": 323520
    },
    {
      "epoch": 0.6740208333333333,
      "grad_norm": 1.0545982122421265,
      "learning_rate": 7.256877968746254e-05,
      "loss": 3.8972,
      "step": 323530
    },
    {
      "epoch": 0.6740416666666667,
      "grad_norm": 1.17594575881958,
      "learning_rate": 7.256033636599629e-05,
      "loss": 3.6958,
      "step": 323540
    },
    {
      "epoch": 0.6740625,
      "grad_norm": 1.151771068572998,
      "learning_rate": 7.255189337903867e-05,
      "loss": 3.6617,
      "step": 323550
    },
    {
      "epoch": 0.6740833333333334,
      "grad_norm": 1.3219114542007446,
      "learning_rate": 7.254345072662623e-05,
      "loss": 3.6568,
      "step": 323560
    },
    {
      "epoch": 0.6741041666666666,
      "grad_norm": 1.1095256805419922,
      "learning_rate": 7.253500840879541e-05,
      "loss": 3.7854,
      "step": 323570
    },
    {
      "epoch": 0.674125,
      "grad_norm": 1.2922253608703613,
      "learning_rate": 7.25265664255827e-05,
      "loss": 3.8122,
      "step": 323580
    },
    {
      "epoch": 0.6741458333333333,
      "grad_norm": 1.6423075199127197,
      "learning_rate": 7.251812477702455e-05,
      "loss": 3.7232,
      "step": 323590
    },
    {
      "epoch": 0.6741666666666667,
      "grad_norm": 1.1222245693206787,
      "learning_rate": 7.250968346315743e-05,
      "loss": 3.6813,
      "step": 323600
    },
    {
      "epoch": 0.6741875,
      "grad_norm": 1.2476069927215576,
      "learning_rate": 7.250124248401781e-05,
      "loss": 3.566,
      "step": 323610
    },
    {
      "epoch": 0.6742083333333333,
      "grad_norm": 1.2759976387023926,
      "learning_rate": 7.249280183964215e-05,
      "loss": 3.5154,
      "step": 323620
    },
    {
      "epoch": 0.6742291666666667,
      "grad_norm": 1.1415772438049316,
      "learning_rate": 7.24843615300669e-05,
      "loss": 3.6527,
      "step": 323630
    },
    {
      "epoch": 0.67425,
      "grad_norm": 1.2213935852050781,
      "learning_rate": 7.247592155532852e-05,
      "loss": 3.8421,
      "step": 323640
    },
    {
      "epoch": 0.6742708333333334,
      "grad_norm": 1.1387056112289429,
      "learning_rate": 7.246748191546349e-05,
      "loss": 3.5996,
      "step": 323650
    },
    {
      "epoch": 0.6742916666666666,
      "grad_norm": 1.1609374284744263,
      "learning_rate": 7.245904261050824e-05,
      "loss": 3.5308,
      "step": 323660
    },
    {
      "epoch": 0.6743125,
      "grad_norm": 1.1722365617752075,
      "learning_rate": 7.245060364049923e-05,
      "loss": 3.6945,
      "step": 323670
    },
    {
      "epoch": 0.6743333333333333,
      "grad_norm": 1.2967394590377808,
      "learning_rate": 7.244216500547297e-05,
      "loss": 3.7136,
      "step": 323680
    },
    {
      "epoch": 0.6743541666666667,
      "grad_norm": 1.1843266487121582,
      "learning_rate": 7.243372670546574e-05,
      "loss": 3.7432,
      "step": 323690
    },
    {
      "epoch": 0.674375,
      "grad_norm": 1.262569546699524,
      "learning_rate": 7.242528874051418e-05,
      "loss": 3.7753,
      "step": 323700
    },
    {
      "epoch": 0.6743958333333333,
      "grad_norm": 1.085720181465149,
      "learning_rate": 7.241685111065472e-05,
      "loss": 3.5681,
      "step": 323710
    },
    {
      "epoch": 0.6744166666666667,
      "grad_norm": 1.131266474723816,
      "learning_rate": 7.240841381592364e-05,
      "loss": 3.7377,
      "step": 323720
    },
    {
      "epoch": 0.6744375,
      "grad_norm": 1.228195071220398,
      "learning_rate": 7.239997685635755e-05,
      "loss": 3.7465,
      "step": 323730
    },
    {
      "epoch": 0.6744583333333334,
      "grad_norm": 1.2067286968231201,
      "learning_rate": 7.23915402319929e-05,
      "loss": 3.7519,
      "step": 323740
    },
    {
      "epoch": 0.6744791666666666,
      "grad_norm": 1.1129941940307617,
      "learning_rate": 7.238310394286597e-05,
      "loss": 3.7908,
      "step": 323750
    },
    {
      "epoch": 0.6745,
      "grad_norm": 1.1695576906204224,
      "learning_rate": 7.237466798901337e-05,
      "loss": 3.7558,
      "step": 323760
    },
    {
      "epoch": 0.6745208333333333,
      "grad_norm": 1.3462008237838745,
      "learning_rate": 7.236623237047152e-05,
      "loss": 3.6179,
      "step": 323770
    },
    {
      "epoch": 0.6745416666666667,
      "grad_norm": 1.0900465250015259,
      "learning_rate": 7.23577970872767e-05,
      "loss": 3.7126,
      "step": 323780
    },
    {
      "epoch": 0.6745625,
      "grad_norm": 1.2569224834442139,
      "learning_rate": 7.234936213946553e-05,
      "loss": 3.5886,
      "step": 323790
    },
    {
      "epoch": 0.6745833333333333,
      "grad_norm": 1.140352487564087,
      "learning_rate": 7.234092752707445e-05,
      "loss": 3.7811,
      "step": 323800
    },
    {
      "epoch": 0.6746041666666667,
      "grad_norm": 1.1856005191802979,
      "learning_rate": 7.233249325013968e-05,
      "loss": 3.8084,
      "step": 323810
    },
    {
      "epoch": 0.674625,
      "grad_norm": 1.1512774229049683,
      "learning_rate": 7.232405930869793e-05,
      "loss": 3.8614,
      "step": 323820
    },
    {
      "epoch": 0.6746458333333333,
      "grad_norm": 1.1595244407653809,
      "learning_rate": 7.231562570278544e-05,
      "loss": 3.6899,
      "step": 323830
    },
    {
      "epoch": 0.6746666666666666,
      "grad_norm": 1.1581331491470337,
      "learning_rate": 7.230719243243863e-05,
      "loss": 3.6387,
      "step": 323840
    },
    {
      "epoch": 0.6746875,
      "grad_norm": 1.110403060913086,
      "learning_rate": 7.229875949769411e-05,
      "loss": 3.5295,
      "step": 323850
    },
    {
      "epoch": 0.6747083333333334,
      "grad_norm": 1.1269031763076782,
      "learning_rate": 7.229032689858816e-05,
      "loss": 3.4334,
      "step": 323860
    },
    {
      "epoch": 0.6747291666666667,
      "grad_norm": 1.1514781713485718,
      "learning_rate": 7.228189463515721e-05,
      "loss": 3.6663,
      "step": 323870
    },
    {
      "epoch": 0.67475,
      "grad_norm": 1.1628763675689697,
      "learning_rate": 7.227346270743773e-05,
      "loss": 3.6749,
      "step": 323880
    },
    {
      "epoch": 0.6747708333333333,
      "grad_norm": 1.291263222694397,
      "learning_rate": 7.226503111546612e-05,
      "loss": 3.5612,
      "step": 323890
    },
    {
      "epoch": 0.6747916666666667,
      "grad_norm": 1.2342993021011353,
      "learning_rate": 7.22565998592788e-05,
      "loss": 3.7105,
      "step": 323900
    },
    {
      "epoch": 0.6748125,
      "grad_norm": 1.1796244382858276,
      "learning_rate": 7.224816893891219e-05,
      "loss": 3.7114,
      "step": 323910
    },
    {
      "epoch": 0.6748333333333333,
      "grad_norm": 1.1847548484802246,
      "learning_rate": 7.223973835440272e-05,
      "loss": 3.6225,
      "step": 323920
    },
    {
      "epoch": 0.6748541666666666,
      "grad_norm": 1.1424431800842285,
      "learning_rate": 7.223130810578681e-05,
      "loss": 3.6595,
      "step": 323930
    },
    {
      "epoch": 0.674875,
      "grad_norm": 1.2453017234802246,
      "learning_rate": 7.222287819310085e-05,
      "loss": 3.5901,
      "step": 323940
    },
    {
      "epoch": 0.6748958333333334,
      "grad_norm": 1.0921694040298462,
      "learning_rate": 7.221444861638129e-05,
      "loss": 3.6853,
      "step": 323950
    },
    {
      "epoch": 0.6749166666666667,
      "grad_norm": 1.0734742879867554,
      "learning_rate": 7.220601937566452e-05,
      "loss": 3.6863,
      "step": 323960
    },
    {
      "epoch": 0.6749375,
      "grad_norm": 1.137601375579834,
      "learning_rate": 7.219759047098694e-05,
      "loss": 3.6606,
      "step": 323970
    },
    {
      "epoch": 0.6749583333333333,
      "grad_norm": 1.175675392150879,
      "learning_rate": 7.218916190238498e-05,
      "loss": 3.5791,
      "step": 323980
    },
    {
      "epoch": 0.6749791666666667,
      "grad_norm": 1.1929707527160645,
      "learning_rate": 7.218073366989502e-05,
      "loss": 3.6068,
      "step": 323990
    },
    {
      "epoch": 0.675,
      "grad_norm": 1.1316311359405518,
      "learning_rate": 7.217230577355352e-05,
      "loss": 3.924,
      "step": 324000
    },
    {
      "epoch": 0.675,
      "eval_loss": 3.5535807609558105,
      "eval_runtime": 6.9775,
      "eval_samples_per_second": 1.433,
      "eval_steps_per_second": 0.43,
      "step": 324000
    },
    {
      "epoch": 0.6750208333333333,
      "grad_norm": 1.2191503047943115,
      "learning_rate": 7.216387821339683e-05,
      "loss": 3.6683,
      "step": 324010
    },
    {
      "epoch": 0.6750416666666667,
      "grad_norm": 1.1358883380889893,
      "learning_rate": 7.215545098946138e-05,
      "loss": 3.5946,
      "step": 324020
    },
    {
      "epoch": 0.6750625,
      "grad_norm": 1.1283149719238281,
      "learning_rate": 7.21470241017836e-05,
      "loss": 3.6281,
      "step": 324030
    },
    {
      "epoch": 0.6750833333333334,
      "grad_norm": 1.1949462890625,
      "learning_rate": 7.213859755039982e-05,
      "loss": 3.749,
      "step": 324040
    },
    {
      "epoch": 0.6751041666666666,
      "grad_norm": 1.0717945098876953,
      "learning_rate": 7.213017133534655e-05,
      "loss": 3.8448,
      "step": 324050
    },
    {
      "epoch": 0.675125,
      "grad_norm": 1.104409098625183,
      "learning_rate": 7.212174545666e-05,
      "loss": 3.8027,
      "step": 324060
    },
    {
      "epoch": 0.6751458333333333,
      "grad_norm": 1.2494256496429443,
      "learning_rate": 7.211331991437673e-05,
      "loss": 3.6554,
      "step": 324070
    },
    {
      "epoch": 0.6751666666666667,
      "grad_norm": 1.3974891901016235,
      "learning_rate": 7.210489470853317e-05,
      "loss": 3.7329,
      "step": 324080
    },
    {
      "epoch": 0.6751875,
      "grad_norm": 1.183336615562439,
      "learning_rate": 7.209646983916551e-05,
      "loss": 3.7656,
      "step": 324090
    },
    {
      "epoch": 0.6752083333333333,
      "grad_norm": 1.2057523727416992,
      "learning_rate": 7.20880453063103e-05,
      "loss": 3.6347,
      "step": 324100
    },
    {
      "epoch": 0.6752291666666667,
      "grad_norm": 1.157472848892212,
      "learning_rate": 7.207962111000398e-05,
      "loss": 3.5201,
      "step": 324110
    },
    {
      "epoch": 0.67525,
      "grad_norm": 1.1518396139144897,
      "learning_rate": 7.207119725028273e-05,
      "loss": 3.8802,
      "step": 324120
    },
    {
      "epoch": 0.6752708333333334,
      "grad_norm": 1.082916498184204,
      "learning_rate": 7.206277372718311e-05,
      "loss": 3.7049,
      "step": 324130
    },
    {
      "epoch": 0.6752916666666666,
      "grad_norm": 1.0590875148773193,
      "learning_rate": 7.205435054074153e-05,
      "loss": 3.4769,
      "step": 324140
    },
    {
      "epoch": 0.6753125,
      "grad_norm": 1.0699583292007446,
      "learning_rate": 7.204592769099422e-05,
      "loss": 3.5512,
      "step": 324150
    },
    {
      "epoch": 0.6753333333333333,
      "grad_norm": 1.157548427581787,
      "learning_rate": 7.203750517797762e-05,
      "loss": 3.897,
      "step": 324160
    },
    {
      "epoch": 0.6753541666666667,
      "grad_norm": 2.748300075531006,
      "learning_rate": 7.202908300172824e-05,
      "loss": 3.8307,
      "step": 324170
    },
    {
      "epoch": 0.675375,
      "grad_norm": 1.095535159111023,
      "learning_rate": 7.202066116228229e-05,
      "loss": 3.6172,
      "step": 324180
    },
    {
      "epoch": 0.6753958333333333,
      "grad_norm": 1.3172268867492676,
      "learning_rate": 7.201223965967622e-05,
      "loss": 3.6554,
      "step": 324190
    },
    {
      "epoch": 0.6754166666666667,
      "grad_norm": 1.204314947128296,
      "learning_rate": 7.200381849394642e-05,
      "loss": 3.7418,
      "step": 324200
    },
    {
      "epoch": 0.6754375,
      "grad_norm": 1.1798715591430664,
      "learning_rate": 7.199539766512925e-05,
      "loss": 3.698,
      "step": 324210
    },
    {
      "epoch": 0.6754583333333334,
      "grad_norm": 1.0478534698486328,
      "learning_rate": 7.198697717326107e-05,
      "loss": 3.6244,
      "step": 324220
    },
    {
      "epoch": 0.6754791666666666,
      "grad_norm": 1.2616511583328247,
      "learning_rate": 7.197855701837829e-05,
      "loss": 3.6406,
      "step": 324230
    },
    {
      "epoch": 0.6755,
      "grad_norm": 1.0960510969161987,
      "learning_rate": 7.197013720051724e-05,
      "loss": 3.6067,
      "step": 324240
    },
    {
      "epoch": 0.6755208333333333,
      "grad_norm": 1.4316576719284058,
      "learning_rate": 7.19617177197143e-05,
      "loss": 3.7077,
      "step": 324250
    },
    {
      "epoch": 0.6755416666666667,
      "grad_norm": 1.370072841644287,
      "learning_rate": 7.195329857600589e-05,
      "loss": 3.8196,
      "step": 324260
    },
    {
      "epoch": 0.6755625,
      "grad_norm": 1.136350154876709,
      "learning_rate": 7.194487976942832e-05,
      "loss": 3.8136,
      "step": 324270
    },
    {
      "epoch": 0.6755833333333333,
      "grad_norm": 1.1229828596115112,
      "learning_rate": 7.193646130001796e-05,
      "loss": 3.6813,
      "step": 324280
    },
    {
      "epoch": 0.6756041666666667,
      "grad_norm": 1.019986867904663,
      "learning_rate": 7.19280431678112e-05,
      "loss": 3.6427,
      "step": 324290
    },
    {
      "epoch": 0.675625,
      "grad_norm": 1.1851791143417358,
      "learning_rate": 7.191962537284438e-05,
      "loss": 3.6889,
      "step": 324300
    },
    {
      "epoch": 0.6756458333333333,
      "grad_norm": 1.1177552938461304,
      "learning_rate": 7.191120791515388e-05,
      "loss": 3.749,
      "step": 324310
    },
    {
      "epoch": 0.6756666666666666,
      "grad_norm": 1.2212494611740112,
      "learning_rate": 7.190279079477605e-05,
      "loss": 3.7285,
      "step": 324320
    },
    {
      "epoch": 0.6756875,
      "grad_norm": 1.5220355987548828,
      "learning_rate": 7.189437401174726e-05,
      "loss": 3.7111,
      "step": 324330
    },
    {
      "epoch": 0.6757083333333334,
      "grad_norm": 1.2672643661499023,
      "learning_rate": 7.188595756610385e-05,
      "loss": 3.7819,
      "step": 324340
    },
    {
      "epoch": 0.6757291666666667,
      "grad_norm": 1.1688542366027832,
      "learning_rate": 7.187754145788218e-05,
      "loss": 3.7484,
      "step": 324350
    },
    {
      "epoch": 0.67575,
      "grad_norm": 1.2753044366836548,
      "learning_rate": 7.186912568711862e-05,
      "loss": 3.5512,
      "step": 324360
    },
    {
      "epoch": 0.6757708333333333,
      "grad_norm": 1.1677403450012207,
      "learning_rate": 7.186071025384949e-05,
      "loss": 3.7801,
      "step": 324370
    },
    {
      "epoch": 0.6757916666666667,
      "grad_norm": 1.0908448696136475,
      "learning_rate": 7.185229515811117e-05,
      "loss": 3.6743,
      "step": 324380
    },
    {
      "epoch": 0.6758125,
      "grad_norm": 1.1391197443008423,
      "learning_rate": 7.184388039994001e-05,
      "loss": 3.5668,
      "step": 324390
    },
    {
      "epoch": 0.6758333333333333,
      "grad_norm": 1.1202150583267212,
      "learning_rate": 7.183546597937235e-05,
      "loss": 3.6063,
      "step": 324400
    },
    {
      "epoch": 0.6758541666666666,
      "grad_norm": 1.1203231811523438,
      "learning_rate": 7.182705189644453e-05,
      "loss": 3.6001,
      "step": 324410
    },
    {
      "epoch": 0.675875,
      "grad_norm": 1.1990984678268433,
      "learning_rate": 7.181863815119291e-05,
      "loss": 3.7166,
      "step": 324420
    },
    {
      "epoch": 0.6758958333333334,
      "grad_norm": 1.1384609937667847,
      "learning_rate": 7.181022474365381e-05,
      "loss": 3.6115,
      "step": 324430
    },
    {
      "epoch": 0.6759166666666667,
      "grad_norm": 1.1016677618026733,
      "learning_rate": 7.18018116738636e-05,
      "loss": 3.4704,
      "step": 324440
    },
    {
      "epoch": 0.6759375,
      "grad_norm": 1.3121470212936401,
      "learning_rate": 7.179339894185868e-05,
      "loss": 3.9123,
      "step": 324450
    },
    {
      "epoch": 0.6759583333333333,
      "grad_norm": 1.1588337421417236,
      "learning_rate": 7.178498654767525e-05,
      "loss": 3.533,
      "step": 324460
    },
    {
      "epoch": 0.6759791666666667,
      "grad_norm": 1.1591182947158813,
      "learning_rate": 7.177657449134966e-05,
      "loss": 3.4947,
      "step": 324470
    },
    {
      "epoch": 0.676,
      "grad_norm": 1.137677788734436,
      "learning_rate": 7.176816277291843e-05,
      "loss": 3.7351,
      "step": 324480
    },
    {
      "epoch": 0.6760208333333333,
      "grad_norm": 1.1142187118530273,
      "learning_rate": 7.175975139241772e-05,
      "loss": 3.609,
      "step": 324490
    },
    {
      "epoch": 0.6760416666666667,
      "grad_norm": 1.1242704391479492,
      "learning_rate": 7.175134034988384e-05,
      "loss": 3.5823,
      "step": 324500
    },
    {
      "epoch": 0.6760625,
      "grad_norm": 1.0816292762756348,
      "learning_rate": 7.174292964535331e-05,
      "loss": 3.6927,
      "step": 324510
    },
    {
      "epoch": 0.6760833333333334,
      "grad_norm": 1.1582343578338623,
      "learning_rate": 7.173451927886229e-05,
      "loss": 3.6211,
      "step": 324520
    },
    {
      "epoch": 0.6761041666666666,
      "grad_norm": 1.190883755683899,
      "learning_rate": 7.172610925044712e-05,
      "loss": 3.4426,
      "step": 324530
    },
    {
      "epoch": 0.676125,
      "grad_norm": 1.2143771648406982,
      "learning_rate": 7.171769956014429e-05,
      "loss": 3.6233,
      "step": 324540
    },
    {
      "epoch": 0.6761458333333333,
      "grad_norm": 1.171712040901184,
      "learning_rate": 7.170929020798994e-05,
      "loss": 3.7324,
      "step": 324550
    },
    {
      "epoch": 0.6761666666666667,
      "grad_norm": 1.1450717449188232,
      "learning_rate": 7.170088119402047e-05,
      "loss": 3.7314,
      "step": 324560
    },
    {
      "epoch": 0.6761875,
      "grad_norm": 1.1199071407318115,
      "learning_rate": 7.169247251827221e-05,
      "loss": 3.6713,
      "step": 324570
    },
    {
      "epoch": 0.6762083333333333,
      "grad_norm": 1.1074076890945435,
      "learning_rate": 7.168406418078147e-05,
      "loss": 3.7017,
      "step": 324580
    },
    {
      "epoch": 0.6762291666666667,
      "grad_norm": 1.1379376649856567,
      "learning_rate": 7.167565618158458e-05,
      "loss": 3.8372,
      "step": 324590
    },
    {
      "epoch": 0.67625,
      "grad_norm": 1.09297513961792,
      "learning_rate": 7.166724852071784e-05,
      "loss": 3.6198,
      "step": 324600
    },
    {
      "epoch": 0.6762708333333334,
      "grad_norm": 1.3015406131744385,
      "learning_rate": 7.165884119821758e-05,
      "loss": 3.7047,
      "step": 324610
    },
    {
      "epoch": 0.6762916666666666,
      "grad_norm": 1.2471568584442139,
      "learning_rate": 7.165043421412012e-05,
      "loss": 3.4985,
      "step": 324620
    },
    {
      "epoch": 0.6763125,
      "grad_norm": 1.0858360528945923,
      "learning_rate": 7.164202756846178e-05,
      "loss": 3.7268,
      "step": 324630
    },
    {
      "epoch": 0.6763333333333333,
      "grad_norm": 1.243905782699585,
      "learning_rate": 7.163362126127885e-05,
      "loss": 3.5931,
      "step": 324640
    },
    {
      "epoch": 0.6763541666666667,
      "grad_norm": 1.3605297803878784,
      "learning_rate": 7.162521529260767e-05,
      "loss": 3.8756,
      "step": 324650
    },
    {
      "epoch": 0.676375,
      "grad_norm": 1.1460189819335938,
      "learning_rate": 7.161680966248453e-05,
      "loss": 3.7066,
      "step": 324660
    },
    {
      "epoch": 0.6763958333333333,
      "grad_norm": 1.0616698265075684,
      "learning_rate": 7.160840437094575e-05,
      "loss": 3.6526,
      "step": 324670
    },
    {
      "epoch": 0.6764166666666667,
      "grad_norm": 1.1254709959030151,
      "learning_rate": 7.159999941802763e-05,
      "loss": 3.5736,
      "step": 324680
    },
    {
      "epoch": 0.6764375,
      "grad_norm": 1.148942470550537,
      "learning_rate": 7.159159480376649e-05,
      "loss": 3.8137,
      "step": 324690
    },
    {
      "epoch": 0.6764583333333334,
      "grad_norm": 1.2315466403961182,
      "learning_rate": 7.158319052819861e-05,
      "loss": 3.5093,
      "step": 324700
    },
    {
      "epoch": 0.6764791666666666,
      "grad_norm": 1.2219024896621704,
      "learning_rate": 7.157478659136031e-05,
      "loss": 3.7051,
      "step": 324710
    },
    {
      "epoch": 0.6765,
      "grad_norm": 1.097926378250122,
      "learning_rate": 7.15663829932879e-05,
      "loss": 3.76,
      "step": 324720
    },
    {
      "epoch": 0.6765208333333333,
      "grad_norm": 1.1099356412887573,
      "learning_rate": 7.155797973401765e-05,
      "loss": 3.743,
      "step": 324730
    },
    {
      "epoch": 0.6765416666666667,
      "grad_norm": 1.1621222496032715,
      "learning_rate": 7.154957681358595e-05,
      "loss": 3.836,
      "step": 324740
    },
    {
      "epoch": 0.6765625,
      "grad_norm": 1.1476696729660034,
      "learning_rate": 7.154117423202891e-05,
      "loss": 3.6427,
      "step": 324750
    },
    {
      "epoch": 0.6765833333333333,
      "grad_norm": 1.139153242111206,
      "learning_rate": 7.153277198938299e-05,
      "loss": 3.4457,
      "step": 324760
    },
    {
      "epoch": 0.6766041666666667,
      "grad_norm": 1.1726791858673096,
      "learning_rate": 7.15243700856845e-05,
      "loss": 3.5594,
      "step": 324770
    },
    {
      "epoch": 0.676625,
      "grad_norm": 1.1345607042312622,
      "learning_rate": 7.151596852096956e-05,
      "loss": 3.5458,
      "step": 324780
    },
    {
      "epoch": 0.6766458333333333,
      "grad_norm": 1.1645166873931885,
      "learning_rate": 7.15075672952746e-05,
      "loss": 3.7181,
      "step": 324790
    },
    {
      "epoch": 0.6766666666666666,
      "grad_norm": 1.1329349279403687,
      "learning_rate": 7.149916640863596e-05,
      "loss": 3.7458,
      "step": 324800
    },
    {
      "epoch": 0.6766875,
      "grad_norm": 1.1018962860107422,
      "learning_rate": 7.149076586108972e-05,
      "loss": 3.7393,
      "step": 324810
    },
    {
      "epoch": 0.6767083333333334,
      "grad_norm": 1.0792820453643799,
      "learning_rate": 7.148236565267244e-05,
      "loss": 3.6183,
      "step": 324820
    },
    {
      "epoch": 0.6767291666666667,
      "grad_norm": 1.2499123811721802,
      "learning_rate": 7.147396578342017e-05,
      "loss": 3.6766,
      "step": 324830
    },
    {
      "epoch": 0.67675,
      "grad_norm": 1.252022385597229,
      "learning_rate": 7.146556625336925e-05,
      "loss": 3.7601,
      "step": 324840
    },
    {
      "epoch": 0.6767708333333333,
      "grad_norm": 1.3628804683685303,
      "learning_rate": 7.145716706255611e-05,
      "loss": 3.5908,
      "step": 324850
    },
    {
      "epoch": 0.6767916666666667,
      "grad_norm": 1.0959455966949463,
      "learning_rate": 7.144876821101684e-05,
      "loss": 3.579,
      "step": 324860
    },
    {
      "epoch": 0.6768125,
      "grad_norm": 1.344853162765503,
      "learning_rate": 7.144036969878776e-05,
      "loss": 3.572,
      "step": 324870
    },
    {
      "epoch": 0.6768333333333333,
      "grad_norm": 1.1672464609146118,
      "learning_rate": 7.143197152590528e-05,
      "loss": 3.4506,
      "step": 324880
    },
    {
      "epoch": 0.6768541666666666,
      "grad_norm": 1.1128050088882446,
      "learning_rate": 7.142357369240555e-05,
      "loss": 3.6072,
      "step": 324890
    },
    {
      "epoch": 0.676875,
      "grad_norm": 1.192702054977417,
      "learning_rate": 7.141517619832482e-05,
      "loss": 3.6418,
      "step": 324900
    },
    {
      "epoch": 0.6768958333333334,
      "grad_norm": 1.1041467189788818,
      "learning_rate": 7.140677904369953e-05,
      "loss": 3.8138,
      "step": 324910
    },
    {
      "epoch": 0.6769166666666667,
      "grad_norm": 1.150380253791809,
      "learning_rate": 7.13983822285658e-05,
      "loss": 3.7165,
      "step": 324920
    },
    {
      "epoch": 0.6769375,
      "grad_norm": 1.1513352394104004,
      "learning_rate": 7.138998575295988e-05,
      "loss": 3.6595,
      "step": 324930
    },
    {
      "epoch": 0.6769583333333333,
      "grad_norm": 1.237768292427063,
      "learning_rate": 7.138158961691821e-05,
      "loss": 3.751,
      "step": 324940
    },
    {
      "epoch": 0.6769791666666667,
      "grad_norm": 1.2696247100830078,
      "learning_rate": 7.137319382047692e-05,
      "loss": 3.6079,
      "step": 324950
    },
    {
      "epoch": 0.677,
      "grad_norm": 1.139907956123352,
      "learning_rate": 7.13647983636723e-05,
      "loss": 3.4928,
      "step": 324960
    },
    {
      "epoch": 0.6770208333333333,
      "grad_norm": 1.0836783647537231,
      "learning_rate": 7.135640324654061e-05,
      "loss": 3.619,
      "step": 324970
    },
    {
      "epoch": 0.6770416666666667,
      "grad_norm": 1.1054315567016602,
      "learning_rate": 7.134800846911814e-05,
      "loss": 3.7016,
      "step": 324980
    },
    {
      "epoch": 0.6770625,
      "grad_norm": 1.147365689277649,
      "learning_rate": 7.133961403144113e-05,
      "loss": 3.4483,
      "step": 324990
    },
    {
      "epoch": 0.6770833333333334,
      "grad_norm": 1.1706138849258423,
      "learning_rate": 7.133121993354586e-05,
      "loss": 3.6527,
      "step": 325000
    },
    {
      "epoch": 0.6770833333333334,
      "eval_loss": 3.544694423675537,
      "eval_runtime": 7.434,
      "eval_samples_per_second": 1.345,
      "eval_steps_per_second": 0.404,
      "step": 325000
    },
    {
      "epoch": 0.6771041666666666,
      "grad_norm": 1.1939582824707031,
      "learning_rate": 7.132282617546858e-05,
      "loss": 3.6831,
      "step": 325010
    },
    {
      "epoch": 0.677125,
      "grad_norm": 1.076086163520813,
      "learning_rate": 7.131443275724557e-05,
      "loss": 3.4431,
      "step": 325020
    },
    {
      "epoch": 0.6771458333333333,
      "grad_norm": 1.1607590913772583,
      "learning_rate": 7.130603967891303e-05,
      "loss": 3.3358,
      "step": 325030
    },
    {
      "epoch": 0.6771666666666667,
      "grad_norm": 1.1544913053512573,
      "learning_rate": 7.129764694050726e-05,
      "loss": 3.5879,
      "step": 325040
    },
    {
      "epoch": 0.6771875,
      "grad_norm": 1.1569403409957886,
      "learning_rate": 7.128925454206458e-05,
      "loss": 3.6535,
      "step": 325050
    },
    {
      "epoch": 0.6772083333333333,
      "grad_norm": 1.1178721189498901,
      "learning_rate": 7.128086248362103e-05,
      "loss": 3.6213,
      "step": 325060
    },
    {
      "epoch": 0.6772291666666667,
      "grad_norm": 1.120891809463501,
      "learning_rate": 7.127247076521306e-05,
      "loss": 3.5386,
      "step": 325070
    },
    {
      "epoch": 0.67725,
      "grad_norm": 1.2441973686218262,
      "learning_rate": 7.12640793868769e-05,
      "loss": 3.5954,
      "step": 325080
    },
    {
      "epoch": 0.6772708333333334,
      "grad_norm": 1.1519893407821655,
      "learning_rate": 7.125568834864865e-05,
      "loss": 3.4774,
      "step": 325090
    },
    {
      "epoch": 0.6772916666666666,
      "grad_norm": 1.1058719158172607,
      "learning_rate": 7.12472976505647e-05,
      "loss": 3.6917,
      "step": 325100
    },
    {
      "epoch": 0.6773125,
      "grad_norm": 1.119956135749817,
      "learning_rate": 7.123890729266133e-05,
      "loss": 3.5776,
      "step": 325110
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 1.4440414905548096,
      "learning_rate": 7.123051727497458e-05,
      "loss": 3.59,
      "step": 325120
    },
    {
      "epoch": 0.6773541666666667,
      "grad_norm": 1.1759759187698364,
      "learning_rate": 7.122212759754085e-05,
      "loss": 3.628,
      "step": 325130
    },
    {
      "epoch": 0.677375,
      "grad_norm": 1.2252697944641113,
      "learning_rate": 7.121373826039644e-05,
      "loss": 3.7371,
      "step": 325140
    },
    {
      "epoch": 0.6773958333333333,
      "grad_norm": 1.2197068929672241,
      "learning_rate": 7.120534926357738e-05,
      "loss": 3.5265,
      "step": 325150
    },
    {
      "epoch": 0.6774166666666667,
      "grad_norm": 1.2929213047027588,
      "learning_rate": 7.119696060712005e-05,
      "loss": 3.4607,
      "step": 325160
    },
    {
      "epoch": 0.6774375,
      "grad_norm": 1.1433746814727783,
      "learning_rate": 7.118857229106073e-05,
      "loss": 3.4659,
      "step": 325170
    },
    {
      "epoch": 0.6774583333333334,
      "grad_norm": 1.2616486549377441,
      "learning_rate": 7.118018431543547e-05,
      "loss": 3.6369,
      "step": 325180
    },
    {
      "epoch": 0.6774791666666666,
      "grad_norm": 1.134708285331726,
      "learning_rate": 7.117179668028072e-05,
      "loss": 3.6142,
      "step": 325190
    },
    {
      "epoch": 0.6775,
      "grad_norm": 1.2825936079025269,
      "learning_rate": 7.116340938563257e-05,
      "loss": 3.5564,
      "step": 325200
    },
    {
      "epoch": 0.6775208333333333,
      "grad_norm": 1.4286534786224365,
      "learning_rate": 7.115502243152721e-05,
      "loss": 3.8261,
      "step": 325210
    },
    {
      "epoch": 0.6775416666666667,
      "grad_norm": 1.2275502681732178,
      "learning_rate": 7.114663581800106e-05,
      "loss": 3.5006,
      "step": 325220
    },
    {
      "epoch": 0.6775625,
      "grad_norm": 1.1345505714416504,
      "learning_rate": 7.113824954509017e-05,
      "loss": 3.5513,
      "step": 325230
    },
    {
      "epoch": 0.6775833333333333,
      "grad_norm": 1.1560935974121094,
      "learning_rate": 7.112986361283077e-05,
      "loss": 3.6073,
      "step": 325240
    },
    {
      "epoch": 0.6776041666666667,
      "grad_norm": 1.2335820198059082,
      "learning_rate": 7.112147802125927e-05,
      "loss": 3.5981,
      "step": 325250
    },
    {
      "epoch": 0.677625,
      "grad_norm": 1.0887879133224487,
      "learning_rate": 7.11130927704117e-05,
      "loss": 3.548,
      "step": 325260
    },
    {
      "epoch": 0.6776458333333333,
      "grad_norm": 1.195944905281067,
      "learning_rate": 7.110470786032427e-05,
      "loss": 3.6004,
      "step": 325270
    },
    {
      "epoch": 0.6776666666666666,
      "grad_norm": 1.2035013437271118,
      "learning_rate": 7.109632329103341e-05,
      "loss": 3.5426,
      "step": 325280
    },
    {
      "epoch": 0.6776875,
      "grad_norm": 1.118849515914917,
      "learning_rate": 7.108793906257512e-05,
      "loss": 3.6003,
      "step": 325290
    },
    {
      "epoch": 0.6777083333333334,
      "grad_norm": 1.133315920829773,
      "learning_rate": 7.107955517498566e-05,
      "loss": 3.574,
      "step": 325300
    },
    {
      "epoch": 0.6777291666666667,
      "grad_norm": 1.250677227973938,
      "learning_rate": 7.107117162830139e-05,
      "loss": 3.5834,
      "step": 325310
    },
    {
      "epoch": 0.67775,
      "grad_norm": 1.2140551805496216,
      "learning_rate": 7.106278842255836e-05,
      "loss": 3.7067,
      "step": 325320
    },
    {
      "epoch": 0.6777708333333333,
      "grad_norm": 1.0795886516571045,
      "learning_rate": 7.105440555779283e-05,
      "loss": 3.5922,
      "step": 325330
    },
    {
      "epoch": 0.6777916666666667,
      "grad_norm": 1.0532422065734863,
      "learning_rate": 7.104602303404102e-05,
      "loss": 3.6277,
      "step": 325340
    },
    {
      "epoch": 0.6778125,
      "grad_norm": 1.1554994583129883,
      "learning_rate": 7.103764085133915e-05,
      "loss": 3.5939,
      "step": 325350
    },
    {
      "epoch": 0.6778333333333333,
      "grad_norm": 1.285826563835144,
      "learning_rate": 7.102925900972343e-05,
      "loss": 3.6548,
      "step": 325360
    },
    {
      "epoch": 0.6778541666666666,
      "grad_norm": 1.3234070539474487,
      "learning_rate": 7.102087750923003e-05,
      "loss": 3.6016,
      "step": 325370
    },
    {
      "epoch": 0.677875,
      "grad_norm": 1.1644757986068726,
      "learning_rate": 7.101249634989518e-05,
      "loss": 3.4437,
      "step": 325380
    },
    {
      "epoch": 0.6778958333333334,
      "grad_norm": 1.5582685470581055,
      "learning_rate": 7.100411553175507e-05,
      "loss": 3.6795,
      "step": 325390
    },
    {
      "epoch": 0.6779166666666666,
      "grad_norm": 1.1514872312545776,
      "learning_rate": 7.099573505484594e-05,
      "loss": 3.5134,
      "step": 325400
    },
    {
      "epoch": 0.6779375,
      "grad_norm": 1.140913963317871,
      "learning_rate": 7.098735491920395e-05,
      "loss": 3.6077,
      "step": 325410
    },
    {
      "epoch": 0.6779583333333333,
      "grad_norm": 1.0950268507003784,
      "learning_rate": 7.097897512486536e-05,
      "loss": 3.519,
      "step": 325420
    },
    {
      "epoch": 0.6779791666666667,
      "grad_norm": 1.2627407312393188,
      "learning_rate": 7.097059567186621e-05,
      "loss": 3.9273,
      "step": 325430
    },
    {
      "epoch": 0.678,
      "grad_norm": 1.2333729267120361,
      "learning_rate": 7.096221656024286e-05,
      "loss": 3.5115,
      "step": 325440
    },
    {
      "epoch": 0.6780208333333333,
      "grad_norm": 1.1481579542160034,
      "learning_rate": 7.09538377900315e-05,
      "loss": 3.7374,
      "step": 325450
    },
    {
      "epoch": 0.6780416666666667,
      "grad_norm": 1.3751156330108643,
      "learning_rate": 7.094545936126816e-05,
      "loss": 3.6116,
      "step": 325460
    },
    {
      "epoch": 0.6780625,
      "grad_norm": 1.4089879989624023,
      "learning_rate": 7.093708127398921e-05,
      "loss": 3.8735,
      "step": 325470
    },
    {
      "epoch": 0.6780833333333334,
      "grad_norm": 1.1593493223190308,
      "learning_rate": 7.092870352823084e-05,
      "loss": 3.3817,
      "step": 325480
    },
    {
      "epoch": 0.6781041666666666,
      "grad_norm": 1.1330819129943848,
      "learning_rate": 7.092032612402905e-05,
      "loss": 3.6803,
      "step": 325490
    },
    {
      "epoch": 0.678125,
      "grad_norm": 1.2345887422561646,
      "learning_rate": 7.091194906142019e-05,
      "loss": 3.7917,
      "step": 325500
    },
    {
      "epoch": 0.6781458333333333,
      "grad_norm": 1.511379599571228,
      "learning_rate": 7.090357234044047e-05,
      "loss": 3.6251,
      "step": 325510
    },
    {
      "epoch": 0.6781666666666667,
      "grad_norm": 1.1374223232269287,
      "learning_rate": 7.089519596112591e-05,
      "loss": 3.5972,
      "step": 325520
    },
    {
      "epoch": 0.6781875,
      "grad_norm": 1.1836754083633423,
      "learning_rate": 7.088681992351282e-05,
      "loss": 3.5856,
      "step": 325530
    },
    {
      "epoch": 0.6782083333333333,
      "grad_norm": 1.1844717264175415,
      "learning_rate": 7.087844422763743e-05,
      "loss": 3.6831,
      "step": 325540
    },
    {
      "epoch": 0.6782291666666667,
      "grad_norm": 1.1541861295700073,
      "learning_rate": 7.087006887353572e-05,
      "loss": 3.6107,
      "step": 325550
    },
    {
      "epoch": 0.67825,
      "grad_norm": 1.09639573097229,
      "learning_rate": 7.086169386124412e-05,
      "loss": 3.6015,
      "step": 325560
    },
    {
      "epoch": 0.6782708333333334,
      "grad_norm": 1.1942819356918335,
      "learning_rate": 7.08533191907986e-05,
      "loss": 3.5747,
      "step": 325570
    },
    {
      "epoch": 0.6782916666666666,
      "grad_norm": 1.149689793586731,
      "learning_rate": 7.084494486223537e-05,
      "loss": 3.6353,
      "step": 325580
    },
    {
      "epoch": 0.6783125,
      "grad_norm": 1.2620970010757446,
      "learning_rate": 7.083657087559076e-05,
      "loss": 3.6548,
      "step": 325590
    },
    {
      "epoch": 0.6783333333333333,
      "grad_norm": 1.165126085281372,
      "learning_rate": 7.082819723090077e-05,
      "loss": 3.5911,
      "step": 325600
    },
    {
      "epoch": 0.6783541666666667,
      "grad_norm": 1.1178290843963623,
      "learning_rate": 7.081982392820156e-05,
      "loss": 3.6447,
      "step": 325610
    },
    {
      "epoch": 0.678375,
      "grad_norm": 1.1899185180664062,
      "learning_rate": 7.08114509675295e-05,
      "loss": 3.5753,
      "step": 325620
    },
    {
      "epoch": 0.6783958333333333,
      "grad_norm": 1.349792718887329,
      "learning_rate": 7.080307834892057e-05,
      "loss": 3.699,
      "step": 325630
    },
    {
      "epoch": 0.6784166666666667,
      "grad_norm": 1.225209355354309,
      "learning_rate": 7.079470607241097e-05,
      "loss": 3.7136,
      "step": 325640
    },
    {
      "epoch": 0.6784375,
      "grad_norm": 1.2331459522247314,
      "learning_rate": 7.078633413803691e-05,
      "loss": 3.6089,
      "step": 325650
    },
    {
      "epoch": 0.6784583333333334,
      "grad_norm": 1.260680913925171,
      "learning_rate": 7.077796254583453e-05,
      "loss": 3.4138,
      "step": 325660
    },
    {
      "epoch": 0.6784791666666666,
      "grad_norm": 1.1732182502746582,
      "learning_rate": 7.076959129583998e-05,
      "loss": 3.5967,
      "step": 325670
    },
    {
      "epoch": 0.6785,
      "grad_norm": 1.1844223737716675,
      "learning_rate": 7.076122038808945e-05,
      "loss": 3.7371,
      "step": 325680
    },
    {
      "epoch": 0.6785208333333334,
      "grad_norm": 1.1117165088653564,
      "learning_rate": 7.075284982261907e-05,
      "loss": 3.6345,
      "step": 325690
    },
    {
      "epoch": 0.6785416666666667,
      "grad_norm": 1.1139003038406372,
      "learning_rate": 7.074447959946501e-05,
      "loss": 3.5828,
      "step": 325700
    },
    {
      "epoch": 0.6785625,
      "grad_norm": 1.0901000499725342,
      "learning_rate": 7.073610971866344e-05,
      "loss": 3.4086,
      "step": 325710
    },
    {
      "epoch": 0.6785833333333333,
      "grad_norm": 1.1655288934707642,
      "learning_rate": 7.072774018025051e-05,
      "loss": 3.4115,
      "step": 325720
    },
    {
      "epoch": 0.6786041666666667,
      "grad_norm": 1.4050978422164917,
      "learning_rate": 7.071937098426234e-05,
      "loss": 3.5546,
      "step": 325730
    },
    {
      "epoch": 0.678625,
      "grad_norm": 1.2340359687805176,
      "learning_rate": 7.071100213073512e-05,
      "loss": 3.4802,
      "step": 325740
    },
    {
      "epoch": 0.6786458333333333,
      "grad_norm": 2.2054357528686523,
      "learning_rate": 7.070263361970496e-05,
      "loss": 3.5835,
      "step": 325750
    },
    {
      "epoch": 0.6786666666666666,
      "grad_norm": 1.081561803817749,
      "learning_rate": 7.069426545120808e-05,
      "loss": 3.6657,
      "step": 325760
    },
    {
      "epoch": 0.6786875,
      "grad_norm": 1.229970932006836,
      "learning_rate": 7.068589762528055e-05,
      "loss": 3.7115,
      "step": 325770
    },
    {
      "epoch": 0.6787083333333334,
      "grad_norm": 0.9660065770149231,
      "learning_rate": 7.067753014195855e-05,
      "loss": 3.3356,
      "step": 325780
    },
    {
      "epoch": 0.6787291666666667,
      "grad_norm": 1.2330182790756226,
      "learning_rate": 7.066916300127822e-05,
      "loss": 3.5324,
      "step": 325790
    },
    {
      "epoch": 0.67875,
      "grad_norm": 1.071720004081726,
      "learning_rate": 7.066079620327572e-05,
      "loss": 3.5365,
      "step": 325800
    },
    {
      "epoch": 0.6787708333333333,
      "grad_norm": 1.3766696453094482,
      "learning_rate": 7.065242974798717e-05,
      "loss": 3.5956,
      "step": 325810
    },
    {
      "epoch": 0.6787916666666667,
      "grad_norm": 1.2373838424682617,
      "learning_rate": 7.064406363544875e-05,
      "loss": 3.5844,
      "step": 325820
    },
    {
      "epoch": 0.6788125,
      "grad_norm": 1.2553141117095947,
      "learning_rate": 7.06356978656965e-05,
      "loss": 3.6272,
      "step": 325830
    },
    {
      "epoch": 0.6788333333333333,
      "grad_norm": 1.172985315322876,
      "learning_rate": 7.062733243876663e-05,
      "loss": 3.5731,
      "step": 325840
    },
    {
      "epoch": 0.6788541666666666,
      "grad_norm": 1.1435014009475708,
      "learning_rate": 7.061896735469535e-05,
      "loss": 3.5099,
      "step": 325850
    },
    {
      "epoch": 0.678875,
      "grad_norm": 1.181382656097412,
      "learning_rate": 7.061060261351858e-05,
      "loss": 3.6311,
      "step": 325860
    },
    {
      "epoch": 0.6788958333333334,
      "grad_norm": 1.216699242591858,
      "learning_rate": 7.060223821527265e-05,
      "loss": 3.7065,
      "step": 325870
    },
    {
      "epoch": 0.6789166666666666,
      "grad_norm": 1.158773422241211,
      "learning_rate": 7.059387415999368e-05,
      "loss": 3.6492,
      "step": 325880
    },
    {
      "epoch": 0.6789375,
      "grad_norm": 1.2728124856948853,
      "learning_rate": 7.058551044771761e-05,
      "loss": 3.6486,
      "step": 325890
    },
    {
      "epoch": 0.6789583333333333,
      "grad_norm": 1.2594730854034424,
      "learning_rate": 7.057714707848077e-05,
      "loss": 3.5508,
      "step": 325900
    },
    {
      "epoch": 0.6789791666666667,
      "grad_norm": 1.5984854698181152,
      "learning_rate": 7.056878405231929e-05,
      "loss": 3.6231,
      "step": 325910
    },
    {
      "epoch": 0.679,
      "grad_norm": 1.337692379951477,
      "learning_rate": 7.056042136926915e-05,
      "loss": 3.6432,
      "step": 325920
    },
    {
      "epoch": 0.6790208333333333,
      "grad_norm": 1.1836798191070557,
      "learning_rate": 7.055205902936648e-05,
      "loss": 3.7073,
      "step": 325930
    },
    {
      "epoch": 0.6790416666666667,
      "grad_norm": 1.138427495956421,
      "learning_rate": 7.054369703264759e-05,
      "loss": 3.6101,
      "step": 325940
    },
    {
      "epoch": 0.6790625,
      "grad_norm": 1.068511962890625,
      "learning_rate": 7.053533537914842e-05,
      "loss": 3.4764,
      "step": 325950
    },
    {
      "epoch": 0.6790833333333334,
      "grad_norm": 1.4257538318634033,
      "learning_rate": 7.052697406890515e-05,
      "loss": 3.6872,
      "step": 325960
    },
    {
      "epoch": 0.6791041666666666,
      "grad_norm": 1.159003496170044,
      "learning_rate": 7.051861310195388e-05,
      "loss": 3.5565,
      "step": 325970
    },
    {
      "epoch": 0.679125,
      "grad_norm": 1.1467034816741943,
      "learning_rate": 7.051025247833076e-05,
      "loss": 3.6982,
      "step": 325980
    },
    {
      "epoch": 0.6791458333333333,
      "grad_norm": 1.1280195713043213,
      "learning_rate": 7.050189219807189e-05,
      "loss": 3.6689,
      "step": 325990
    },
    {
      "epoch": 0.6791666666666667,
      "grad_norm": 1.104879379272461,
      "learning_rate": 7.049353226121335e-05,
      "loss": 3.4882,
      "step": 326000
    },
    {
      "epoch": 0.6791666666666667,
      "eval_loss": 3.5492031574249268,
      "eval_runtime": 7.3237,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 326000
    },
    {
      "epoch": 0.6791875,
      "grad_norm": 1.18100905418396,
      "learning_rate": 7.04851726677913e-05,
      "loss": 3.6284,
      "step": 326010
    },
    {
      "epoch": 0.6792083333333333,
      "grad_norm": 1.2266348600387573,
      "learning_rate": 7.047681341784181e-05,
      "loss": 3.6542,
      "step": 326020
    },
    {
      "epoch": 0.6792291666666667,
      "grad_norm": 1.170709252357483,
      "learning_rate": 7.046845451140103e-05,
      "loss": 3.602,
      "step": 326030
    },
    {
      "epoch": 0.67925,
      "grad_norm": 1.0991679430007935,
      "learning_rate": 7.046009594850505e-05,
      "loss": 3.5157,
      "step": 326040
    },
    {
      "epoch": 0.6792708333333334,
      "grad_norm": 1.2507328987121582,
      "learning_rate": 7.045173772918996e-05,
      "loss": 3.5369,
      "step": 326050
    },
    {
      "epoch": 0.6792916666666666,
      "grad_norm": 1.1810156106948853,
      "learning_rate": 7.044337985349187e-05,
      "loss": 3.6706,
      "step": 326060
    },
    {
      "epoch": 0.6793125,
      "grad_norm": 1.2380582094192505,
      "learning_rate": 7.043502232144691e-05,
      "loss": 3.4792,
      "step": 326070
    },
    {
      "epoch": 0.6793333333333333,
      "grad_norm": 1.1379523277282715,
      "learning_rate": 7.042666513309112e-05,
      "loss": 3.5414,
      "step": 326080
    },
    {
      "epoch": 0.6793541666666667,
      "grad_norm": 1.170225739479065,
      "learning_rate": 7.041830828846068e-05,
      "loss": 3.592,
      "step": 326090
    },
    {
      "epoch": 0.679375,
      "grad_norm": 1.205685019493103,
      "learning_rate": 7.040995178759164e-05,
      "loss": 3.5624,
      "step": 326100
    },
    {
      "epoch": 0.6793958333333333,
      "grad_norm": 1.1392571926116943,
      "learning_rate": 7.040159563052008e-05,
      "loss": 3.381,
      "step": 326110
    },
    {
      "epoch": 0.6794166666666667,
      "grad_norm": 1.4087209701538086,
      "learning_rate": 7.039323981728214e-05,
      "loss": 3.7073,
      "step": 326120
    },
    {
      "epoch": 0.6794375,
      "grad_norm": 1.0880376100540161,
      "learning_rate": 7.038488434791389e-05,
      "loss": 3.5792,
      "step": 326130
    },
    {
      "epoch": 0.6794583333333334,
      "grad_norm": 1.2222353219985962,
      "learning_rate": 7.037652922245142e-05,
      "loss": 3.6255,
      "step": 326140
    },
    {
      "epoch": 0.6794791666666666,
      "grad_norm": 1.218795895576477,
      "learning_rate": 7.036817444093084e-05,
      "loss": 3.505,
      "step": 326150
    },
    {
      "epoch": 0.6795,
      "grad_norm": 1.1193480491638184,
      "learning_rate": 7.035982000338821e-05,
      "loss": 3.5337,
      "step": 326160
    },
    {
      "epoch": 0.6795208333333334,
      "grad_norm": 1.144629716873169,
      "learning_rate": 7.035146590985963e-05,
      "loss": 3.5215,
      "step": 326170
    },
    {
      "epoch": 0.6795416666666667,
      "grad_norm": 1.1386445760726929,
      "learning_rate": 7.034311216038122e-05,
      "loss": 3.7961,
      "step": 326180
    },
    {
      "epoch": 0.6795625,
      "grad_norm": 1.1635042428970337,
      "learning_rate": 7.033475875498906e-05,
      "loss": 3.5017,
      "step": 326190
    },
    {
      "epoch": 0.6795833333333333,
      "grad_norm": 1.0955077409744263,
      "learning_rate": 7.032640569371911e-05,
      "loss": 3.4777,
      "step": 326200
    },
    {
      "epoch": 0.6796041666666667,
      "grad_norm": 1.2114193439483643,
      "learning_rate": 7.031805297660761e-05,
      "loss": 3.5021,
      "step": 326210
    },
    {
      "epoch": 0.679625,
      "grad_norm": 1.1003224849700928,
      "learning_rate": 7.030970060369063e-05,
      "loss": 3.569,
      "step": 326220
    },
    {
      "epoch": 0.6796458333333333,
      "grad_norm": 1.422441840171814,
      "learning_rate": 7.030134857500415e-05,
      "loss": 3.5991,
      "step": 326230
    },
    {
      "epoch": 0.6796666666666666,
      "grad_norm": 1.188105821609497,
      "learning_rate": 7.029299689058423e-05,
      "loss": 3.6532,
      "step": 326240
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 1.1696568727493286,
      "learning_rate": 7.028464555046713e-05,
      "loss": 3.5842,
      "step": 326250
    },
    {
      "epoch": 0.6797083333333334,
      "grad_norm": 1.0616028308868408,
      "learning_rate": 7.027629455468876e-05,
      "loss": 3.3289,
      "step": 326260
    },
    {
      "epoch": 0.6797291666666667,
      "grad_norm": 1.158169150352478,
      "learning_rate": 7.026794390328517e-05,
      "loss": 3.5136,
      "step": 326270
    },
    {
      "epoch": 0.67975,
      "grad_norm": 1.1394505500793457,
      "learning_rate": 7.025959359629262e-05,
      "loss": 3.7838,
      "step": 326280
    },
    {
      "epoch": 0.6797708333333333,
      "grad_norm": 1.0973976850509644,
      "learning_rate": 7.025124363374702e-05,
      "loss": 3.6183,
      "step": 326290
    },
    {
      "epoch": 0.6797916666666667,
      "grad_norm": 1.1677948236465454,
      "learning_rate": 7.024289401568441e-05,
      "loss": 3.6345,
      "step": 326300
    },
    {
      "epoch": 0.6798125,
      "grad_norm": 1.2253118753433228,
      "learning_rate": 7.023454474214104e-05,
      "loss": 3.5852,
      "step": 326310
    },
    {
      "epoch": 0.6798333333333333,
      "grad_norm": 1.2852329015731812,
      "learning_rate": 7.022619581315282e-05,
      "loss": 3.6237,
      "step": 326320
    },
    {
      "epoch": 0.6798541666666666,
      "grad_norm": 1.153822898864746,
      "learning_rate": 7.021784722875584e-05,
      "loss": 3.6883,
      "step": 326330
    },
    {
      "epoch": 0.679875,
      "grad_norm": 1.1719833612442017,
      "learning_rate": 7.020949898898619e-05,
      "loss": 3.6153,
      "step": 326340
    },
    {
      "epoch": 0.6798958333333334,
      "grad_norm": 1.096004843711853,
      "learning_rate": 7.020115109387992e-05,
      "loss": 3.377,
      "step": 326350
    },
    {
      "epoch": 0.6799166666666666,
      "grad_norm": 1.15775465965271,
      "learning_rate": 7.01928035434731e-05,
      "loss": 3.4055,
      "step": 326360
    },
    {
      "epoch": 0.6799375,
      "grad_norm": 1.159004807472229,
      "learning_rate": 7.018445633780177e-05,
      "loss": 3.5927,
      "step": 326370
    },
    {
      "epoch": 0.6799583333333333,
      "grad_norm": 1.1723709106445312,
      "learning_rate": 7.017610947690198e-05,
      "loss": 3.4498,
      "step": 326380
    },
    {
      "epoch": 0.6799791666666667,
      "grad_norm": 1.1868577003479004,
      "learning_rate": 7.016776296080983e-05,
      "loss": 3.6693,
      "step": 326390
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1833035945892334,
      "learning_rate": 7.015941678956132e-05,
      "loss": 3.512,
      "step": 326400
    },
    {
      "epoch": 0.6800208333333333,
      "grad_norm": 1.2512481212615967,
      "learning_rate": 7.015107096319254e-05,
      "loss": 3.4826,
      "step": 326410
    },
    {
      "epoch": 0.6800416666666667,
      "grad_norm": 1.1420656442642212,
      "learning_rate": 7.014272548173951e-05,
      "loss": 3.5994,
      "step": 326420
    },
    {
      "epoch": 0.6800625,
      "grad_norm": 1.6199828386306763,
      "learning_rate": 7.013438034523831e-05,
      "loss": 3.5711,
      "step": 326430
    },
    {
      "epoch": 0.6800833333333334,
      "grad_norm": 1.3200613260269165,
      "learning_rate": 7.012603555372499e-05,
      "loss": 3.7789,
      "step": 326440
    },
    {
      "epoch": 0.6801041666666666,
      "grad_norm": 1.137648582458496,
      "learning_rate": 7.011769110723555e-05,
      "loss": 3.5578,
      "step": 326450
    },
    {
      "epoch": 0.680125,
      "grad_norm": 1.0776374340057373,
      "learning_rate": 7.010934700580608e-05,
      "loss": 3.5752,
      "step": 326460
    },
    {
      "epoch": 0.6801458333333333,
      "grad_norm": 1.1863336563110352,
      "learning_rate": 7.01010032494726e-05,
      "loss": 3.5856,
      "step": 326470
    },
    {
      "epoch": 0.6801666666666667,
      "grad_norm": 1.14661705493927,
      "learning_rate": 7.009265983827117e-05,
      "loss": 3.5614,
      "step": 326480
    },
    {
      "epoch": 0.6801875,
      "grad_norm": 1.1872172355651855,
      "learning_rate": 7.008431677223782e-05,
      "loss": 3.6864,
      "step": 326490
    },
    {
      "epoch": 0.6802083333333333,
      "grad_norm": 1.267946481704712,
      "learning_rate": 7.007597405140858e-05,
      "loss": 3.5306,
      "step": 326500
    },
    {
      "epoch": 0.6802291666666667,
      "grad_norm": 1.3457908630371094,
      "learning_rate": 7.006763167581955e-05,
      "loss": 3.5689,
      "step": 326510
    },
    {
      "epoch": 0.68025,
      "grad_norm": 1.2955288887023926,
      "learning_rate": 7.005928964550661e-05,
      "loss": 3.5649,
      "step": 326520
    },
    {
      "epoch": 0.6802708333333334,
      "grad_norm": 1.1300722360610962,
      "learning_rate": 7.005094796050595e-05,
      "loss": 3.5678,
      "step": 326530
    },
    {
      "epoch": 0.6802916666666666,
      "grad_norm": 1.184463381767273,
      "learning_rate": 7.00426066208536e-05,
      "loss": 3.5043,
      "step": 326540
    },
    {
      "epoch": 0.6803125,
      "grad_norm": 1.2258700132369995,
      "learning_rate": 7.003426562658543e-05,
      "loss": 3.6138,
      "step": 326550
    },
    {
      "epoch": 0.6803333333333333,
      "grad_norm": 1.0710774660110474,
      "learning_rate": 7.00259249777377e-05,
      "loss": 3.712,
      "step": 326560
    },
    {
      "epoch": 0.6803541666666667,
      "grad_norm": 1.2872425317764282,
      "learning_rate": 7.001758467434624e-05,
      "loss": 3.7216,
      "step": 326570
    },
    {
      "epoch": 0.680375,
      "grad_norm": 1.2668286561965942,
      "learning_rate": 7.000924471644713e-05,
      "loss": 3.5595,
      "step": 326580
    },
    {
      "epoch": 0.6803958333333333,
      "grad_norm": 1.2395356893539429,
      "learning_rate": 7.000090510407649e-05,
      "loss": 3.5148,
      "step": 326590
    },
    {
      "epoch": 0.6804166666666667,
      "grad_norm": 1.0756460428237915,
      "learning_rate": 6.999256583727027e-05,
      "loss": 3.6874,
      "step": 326600
    },
    {
      "epoch": 0.6804375,
      "grad_norm": 1.0842938423156738,
      "learning_rate": 6.998422691606439e-05,
      "loss": 3.5607,
      "step": 326610
    },
    {
      "epoch": 0.6804583333333334,
      "grad_norm": 1.1494495868682861,
      "learning_rate": 6.997588834049512e-05,
      "loss": 3.5592,
      "step": 326620
    },
    {
      "epoch": 0.6804791666666666,
      "grad_norm": 1.2448769807815552,
      "learning_rate": 6.996755011059829e-05,
      "loss": 3.8397,
      "step": 326630
    },
    {
      "epoch": 0.6805,
      "grad_norm": 1.2685219049453735,
      "learning_rate": 6.995921222640989e-05,
      "loss": 3.499,
      "step": 326640
    },
    {
      "epoch": 0.6805208333333334,
      "grad_norm": 1.2949212789535522,
      "learning_rate": 6.995087468796612e-05,
      "loss": 3.8477,
      "step": 326650
    },
    {
      "epoch": 0.6805416666666667,
      "grad_norm": 1.2154446840286255,
      "learning_rate": 6.994253749530283e-05,
      "loss": 3.6417,
      "step": 326660
    },
    {
      "epoch": 0.6805625,
      "grad_norm": 1.1431071758270264,
      "learning_rate": 6.993420064845605e-05,
      "loss": 3.6549,
      "step": 326670
    },
    {
      "epoch": 0.6805833333333333,
      "grad_norm": 1.16737699508667,
      "learning_rate": 6.992586414746193e-05,
      "loss": 3.5415,
      "step": 326680
    },
    {
      "epoch": 0.6806041666666667,
      "grad_norm": 2.1111888885498047,
      "learning_rate": 6.991752799235633e-05,
      "loss": 3.8065,
      "step": 326690
    },
    {
      "epoch": 0.680625,
      "grad_norm": 1.197036862373352,
      "learning_rate": 6.990919218317531e-05,
      "loss": 3.5572,
      "step": 326700
    },
    {
      "epoch": 0.6806458333333333,
      "grad_norm": 1.1529138088226318,
      "learning_rate": 6.990085671995487e-05,
      "loss": 3.4684,
      "step": 326710
    },
    {
      "epoch": 0.6806666666666666,
      "grad_norm": 1.3174278736114502,
      "learning_rate": 6.989252160273103e-05,
      "loss": 3.673,
      "step": 326720
    },
    {
      "epoch": 0.6806875,
      "grad_norm": 1.082105278968811,
      "learning_rate": 6.988418683153978e-05,
      "loss": 3.4384,
      "step": 326730
    },
    {
      "epoch": 0.6807083333333334,
      "grad_norm": 1.2733299732208252,
      "learning_rate": 6.987585240641713e-05,
      "loss": 3.5341,
      "step": 326740
    },
    {
      "epoch": 0.6807291666666667,
      "grad_norm": 1.2585924863815308,
      "learning_rate": 6.98675183273991e-05,
      "loss": 3.4482,
      "step": 326750
    },
    {
      "epoch": 0.68075,
      "grad_norm": 1.092800498008728,
      "learning_rate": 6.985918459452166e-05,
      "loss": 3.6108,
      "step": 326760
    },
    {
      "epoch": 0.6807708333333333,
      "grad_norm": 1.220187783241272,
      "learning_rate": 6.985085120782081e-05,
      "loss": 3.5883,
      "step": 326770
    },
    {
      "epoch": 0.6807916666666667,
      "grad_norm": 1.1815253496170044,
      "learning_rate": 6.984251816733257e-05,
      "loss": 3.5269,
      "step": 326780
    },
    {
      "epoch": 0.6808125,
      "grad_norm": 1.1269769668579102,
      "learning_rate": 6.983418547309292e-05,
      "loss": 3.6184,
      "step": 326790
    },
    {
      "epoch": 0.6808333333333333,
      "grad_norm": 1.1790506839752197,
      "learning_rate": 6.982585312513787e-05,
      "loss": 3.7528,
      "step": 326800
    },
    {
      "epoch": 0.6808541666666666,
      "grad_norm": 1.3225841522216797,
      "learning_rate": 6.981752112350338e-05,
      "loss": 3.5135,
      "step": 326810
    },
    {
      "epoch": 0.680875,
      "grad_norm": 1.2037841081619263,
      "learning_rate": 6.980918946822554e-05,
      "loss": 3.6207,
      "step": 326820
    },
    {
      "epoch": 0.6808958333333334,
      "grad_norm": 1.2173751592636108,
      "learning_rate": 6.980085815934013e-05,
      "loss": 3.449,
      "step": 326830
    },
    {
      "epoch": 0.6809166666666666,
      "grad_norm": 1.2987830638885498,
      "learning_rate": 6.979252719688332e-05,
      "loss": 3.3977,
      "step": 326840
    },
    {
      "epoch": 0.6809375,
      "grad_norm": 1.1298413276672363,
      "learning_rate": 6.978419658089111e-05,
      "loss": 3.6191,
      "step": 326850
    },
    {
      "epoch": 0.6809583333333333,
      "grad_norm": 1.134810209274292,
      "learning_rate": 6.97758663113993e-05,
      "loss": 3.5544,
      "step": 326860
    },
    {
      "epoch": 0.6809791666666667,
      "grad_norm": 1.1524759531021118,
      "learning_rate": 6.976753638844405e-05,
      "loss": 3.4667,
      "step": 326870
    },
    {
      "epoch": 0.681,
      "grad_norm": 1.2512948513031006,
      "learning_rate": 6.975920681206134e-05,
      "loss": 3.553,
      "step": 326880
    },
    {
      "epoch": 0.6810208333333333,
      "grad_norm": 1.251389503479004,
      "learning_rate": 6.975087758228699e-05,
      "loss": 3.4968,
      "step": 326890
    },
    {
      "epoch": 0.6810416666666667,
      "grad_norm": 1.1483368873596191,
      "learning_rate": 6.974254869915713e-05,
      "loss": 3.7437,
      "step": 326900
    },
    {
      "epoch": 0.6810625,
      "grad_norm": 1.1606720685958862,
      "learning_rate": 6.973422016270776e-05,
      "loss": 3.8068,
      "step": 326910
    },
    {
      "epoch": 0.6810833333333334,
      "grad_norm": 1.1317851543426514,
      "learning_rate": 6.972589197297468e-05,
      "loss": 3.5953,
      "step": 326920
    },
    {
      "epoch": 0.6811041666666666,
      "grad_norm": 1.2003337144851685,
      "learning_rate": 6.971756412999406e-05,
      "loss": 3.4802,
      "step": 326930
    },
    {
      "epoch": 0.681125,
      "grad_norm": 1.2278058528900146,
      "learning_rate": 6.970923663380174e-05,
      "loss": 3.6208,
      "step": 326940
    },
    {
      "epoch": 0.6811458333333333,
      "grad_norm": 1.226901650428772,
      "learning_rate": 6.970090948443369e-05,
      "loss": 3.5598,
      "step": 326950
    },
    {
      "epoch": 0.6811666666666667,
      "grad_norm": 1.1255114078521729,
      "learning_rate": 6.969258268192603e-05,
      "loss": 3.6147,
      "step": 326960
    },
    {
      "epoch": 0.6811875,
      "grad_norm": 1.2336264848709106,
      "learning_rate": 6.968425622631457e-05,
      "loss": 3.6299,
      "step": 326970
    },
    {
      "epoch": 0.6812083333333333,
      "grad_norm": 1.1106239557266235,
      "learning_rate": 6.967593011763528e-05,
      "loss": 3.5915,
      "step": 326980
    },
    {
      "epoch": 0.6812291666666667,
      "grad_norm": 1.080695390701294,
      "learning_rate": 6.966760435592428e-05,
      "loss": 3.6616,
      "step": 326990
    },
    {
      "epoch": 0.68125,
      "grad_norm": 1.1527212858200073,
      "learning_rate": 6.965927894121738e-05,
      "loss": 3.5716,
      "step": 327000
    },
    {
      "epoch": 0.68125,
      "eval_loss": 3.5459113121032715,
      "eval_runtime": 7.2699,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 327000
    },
    {
      "epoch": 0.6812708333333334,
      "grad_norm": 1.2801927328109741,
      "learning_rate": 6.965095387355053e-05,
      "loss": 3.7317,
      "step": 327010
    },
    {
      "epoch": 0.6812916666666666,
      "grad_norm": 1.2198076248168945,
      "learning_rate": 6.964262915295988e-05,
      "loss": 3.6015,
      "step": 327020
    },
    {
      "epoch": 0.6813125,
      "grad_norm": 1.146004557609558,
      "learning_rate": 6.963430477948121e-05,
      "loss": 3.6023,
      "step": 327030
    },
    {
      "epoch": 0.6813333333333333,
      "grad_norm": 1.1652331352233887,
      "learning_rate": 6.962598075315046e-05,
      "loss": 3.5773,
      "step": 327040
    },
    {
      "epoch": 0.6813541666666667,
      "grad_norm": 1.1854968070983887,
      "learning_rate": 6.961765707400379e-05,
      "loss": 3.6693,
      "step": 327050
    },
    {
      "epoch": 0.681375,
      "grad_norm": 2.803879499435425,
      "learning_rate": 6.960933374207696e-05,
      "loss": 3.6341,
      "step": 327060
    },
    {
      "epoch": 0.6813958333333333,
      "grad_norm": 1.2544381618499756,
      "learning_rate": 6.960101075740598e-05,
      "loss": 3.584,
      "step": 327070
    },
    {
      "epoch": 0.6814166666666667,
      "grad_norm": 1.2012649774551392,
      "learning_rate": 6.959268812002681e-05,
      "loss": 3.4888,
      "step": 327080
    },
    {
      "epoch": 0.6814375,
      "grad_norm": 1.2755621671676636,
      "learning_rate": 6.958436582997542e-05,
      "loss": 3.4178,
      "step": 327090
    },
    {
      "epoch": 0.6814583333333334,
      "grad_norm": 1.2169870138168335,
      "learning_rate": 6.957604388728772e-05,
      "loss": 3.6736,
      "step": 327100
    },
    {
      "epoch": 0.6814791666666666,
      "grad_norm": 1.0510002374649048,
      "learning_rate": 6.956772229199968e-05,
      "loss": 3.6221,
      "step": 327110
    },
    {
      "epoch": 0.6815,
      "grad_norm": 1.1420048475265503,
      "learning_rate": 6.955940104414725e-05,
      "loss": 3.526,
      "step": 327120
    },
    {
      "epoch": 0.6815208333333334,
      "grad_norm": 1.1274808645248413,
      "learning_rate": 6.955108014376636e-05,
      "loss": 3.6257,
      "step": 327130
    },
    {
      "epoch": 0.6815416666666667,
      "grad_norm": 1.0985281467437744,
      "learning_rate": 6.954275959089296e-05,
      "loss": 3.4742,
      "step": 327140
    },
    {
      "epoch": 0.6815625,
      "grad_norm": 1.1839481592178345,
      "learning_rate": 6.953443938556298e-05,
      "loss": 3.5176,
      "step": 327150
    },
    {
      "epoch": 0.6815833333333333,
      "grad_norm": 1.1634140014648438,
      "learning_rate": 6.952611952781238e-05,
      "loss": 3.5716,
      "step": 327160
    },
    {
      "epoch": 0.6816041666666667,
      "grad_norm": 1.140615701675415,
      "learning_rate": 6.95178000176771e-05,
      "loss": 3.6638,
      "step": 327170
    },
    {
      "epoch": 0.681625,
      "grad_norm": 1.0989503860473633,
      "learning_rate": 6.950948085519305e-05,
      "loss": 3.4813,
      "step": 327180
    },
    {
      "epoch": 0.6816458333333333,
      "grad_norm": 1.2322280406951904,
      "learning_rate": 6.950116204039626e-05,
      "loss": 3.5477,
      "step": 327190
    },
    {
      "epoch": 0.6816666666666666,
      "grad_norm": 1.203498363494873,
      "learning_rate": 6.949284357332246e-05,
      "loss": 3.5227,
      "step": 327200
    },
    {
      "epoch": 0.6816875,
      "grad_norm": 1.3115638494491577,
      "learning_rate": 6.948452545400777e-05,
      "loss": 3.4783,
      "step": 327210
    },
    {
      "epoch": 0.6817083333333334,
      "grad_norm": 1.1143302917480469,
      "learning_rate": 6.947620768248812e-05,
      "loss": 3.4715,
      "step": 327220
    },
    {
      "epoch": 0.6817291666666667,
      "grad_norm": 1.1083147525787354,
      "learning_rate": 6.946789025879925e-05,
      "loss": 3.4709,
      "step": 327230
    },
    {
      "epoch": 0.68175,
      "grad_norm": 1.2456297874450684,
      "learning_rate": 6.945957318297728e-05,
      "loss": 3.5367,
      "step": 327240
    },
    {
      "epoch": 0.6817708333333333,
      "grad_norm": 1.173110842704773,
      "learning_rate": 6.945125645505814e-05,
      "loss": 3.643,
      "step": 327250
    },
    {
      "epoch": 0.6817916666666667,
      "grad_norm": 1.3264927864074707,
      "learning_rate": 6.944294007507757e-05,
      "loss": 3.5558,
      "step": 327260
    },
    {
      "epoch": 0.6818125,
      "grad_norm": 1.2078778743743896,
      "learning_rate": 6.943462404307167e-05,
      "loss": 3.5363,
      "step": 327270
    },
    {
      "epoch": 0.6818333333333333,
      "grad_norm": 1.2685344219207764,
      "learning_rate": 6.942630835907636e-05,
      "loss": 3.5526,
      "step": 327280
    },
    {
      "epoch": 0.6818541666666667,
      "grad_norm": 1.2938202619552612,
      "learning_rate": 6.941799302312738e-05,
      "loss": 3.5322,
      "step": 327290
    },
    {
      "epoch": 0.681875,
      "grad_norm": 1.200844407081604,
      "learning_rate": 6.940967803526084e-05,
      "loss": 3.5654,
      "step": 327300
    },
    {
      "epoch": 0.6818958333333334,
      "grad_norm": 1.2382452487945557,
      "learning_rate": 6.940136339551265e-05,
      "loss": 3.5022,
      "step": 327310
    },
    {
      "epoch": 0.6819166666666666,
      "grad_norm": 1.1354875564575195,
      "learning_rate": 6.939304910391857e-05,
      "loss": 3.5171,
      "step": 327320
    },
    {
      "epoch": 0.6819375,
      "grad_norm": 1.2246652841567993,
      "learning_rate": 6.938473516051468e-05,
      "loss": 3.6435,
      "step": 327330
    },
    {
      "epoch": 0.6819583333333333,
      "grad_norm": 1.2139776945114136,
      "learning_rate": 6.93764215653368e-05,
      "loss": 3.4688,
      "step": 327340
    },
    {
      "epoch": 0.6819791666666667,
      "grad_norm": 1.9503017663955688,
      "learning_rate": 6.936810831842082e-05,
      "loss": 3.4707,
      "step": 327350
    },
    {
      "epoch": 0.682,
      "grad_norm": 1.1191163063049316,
      "learning_rate": 6.935979541980279e-05,
      "loss": 3.724,
      "step": 327360
    },
    {
      "epoch": 0.6820208333333333,
      "grad_norm": 1.1337443590164185,
      "learning_rate": 6.935148286951847e-05,
      "loss": 3.6559,
      "step": 327370
    },
    {
      "epoch": 0.6820416666666667,
      "grad_norm": 1.138140320777893,
      "learning_rate": 6.934317066760375e-05,
      "loss": 3.6459,
      "step": 327380
    },
    {
      "epoch": 0.6820625,
      "grad_norm": 1.1210743188858032,
      "learning_rate": 6.933485881409473e-05,
      "loss": 3.6677,
      "step": 327390
    },
    {
      "epoch": 0.6820833333333334,
      "grad_norm": 1.2363592386245728,
      "learning_rate": 6.932654730902714e-05,
      "loss": 3.6561,
      "step": 327400
    },
    {
      "epoch": 0.6821041666666666,
      "grad_norm": 1.2106720209121704,
      "learning_rate": 6.931823615243695e-05,
      "loss": 3.6325,
      "step": 327410
    },
    {
      "epoch": 0.682125,
      "grad_norm": 1.231241226196289,
      "learning_rate": 6.930992534436001e-05,
      "loss": 3.6482,
      "step": 327420
    },
    {
      "epoch": 0.6821458333333333,
      "grad_norm": 1.2649325132369995,
      "learning_rate": 6.930161488483228e-05,
      "loss": 3.4168,
      "step": 327430
    },
    {
      "epoch": 0.6821666666666667,
      "grad_norm": 1.2996318340301514,
      "learning_rate": 6.929330477388961e-05,
      "loss": 3.7419,
      "step": 327440
    },
    {
      "epoch": 0.6821875,
      "grad_norm": 1.1300387382507324,
      "learning_rate": 6.928499501156793e-05,
      "loss": 3.5569,
      "step": 327450
    },
    {
      "epoch": 0.6822083333333333,
      "grad_norm": 1.2100775241851807,
      "learning_rate": 6.927668559790311e-05,
      "loss": 3.4969,
      "step": 327460
    },
    {
      "epoch": 0.6822291666666667,
      "grad_norm": 1.1222844123840332,
      "learning_rate": 6.926837653293107e-05,
      "loss": 3.5886,
      "step": 327470
    },
    {
      "epoch": 0.68225,
      "grad_norm": 1.3217726945877075,
      "learning_rate": 6.926006781668767e-05,
      "loss": 3.6512,
      "step": 327480
    },
    {
      "epoch": 0.6822708333333334,
      "grad_norm": 1.1285266876220703,
      "learning_rate": 6.925175944920883e-05,
      "loss": 3.4775,
      "step": 327490
    },
    {
      "epoch": 0.6822916666666666,
      "grad_norm": 1.3447859287261963,
      "learning_rate": 6.924345143053044e-05,
      "loss": 3.8011,
      "step": 327500
    },
    {
      "epoch": 0.6823125,
      "grad_norm": 1.085321307182312,
      "learning_rate": 6.923514376068837e-05,
      "loss": 3.5449,
      "step": 327510
    },
    {
      "epoch": 0.6823333333333333,
      "grad_norm": 1.0961445569992065,
      "learning_rate": 6.922683643971849e-05,
      "loss": 3.6104,
      "step": 327520
    },
    {
      "epoch": 0.6823541666666667,
      "grad_norm": 1.354989767074585,
      "learning_rate": 6.921852946765672e-05,
      "loss": 3.568,
      "step": 327530
    },
    {
      "epoch": 0.682375,
      "grad_norm": 1.2325628995895386,
      "learning_rate": 6.921022284453892e-05,
      "loss": 3.5849,
      "step": 327540
    },
    {
      "epoch": 0.6823958333333333,
      "grad_norm": 1.1506060361862183,
      "learning_rate": 6.920191657040099e-05,
      "loss": 3.578,
      "step": 327550
    },
    {
      "epoch": 0.6824166666666667,
      "grad_norm": 1.2304785251617432,
      "learning_rate": 6.919361064527884e-05,
      "loss": 3.5872,
      "step": 327560
    },
    {
      "epoch": 0.6824375,
      "grad_norm": 1.2193793058395386,
      "learning_rate": 6.91853050692082e-05,
      "loss": 3.558,
      "step": 327570
    },
    {
      "epoch": 0.6824583333333333,
      "grad_norm": 1.1732816696166992,
      "learning_rate": 6.91769998422251e-05,
      "loss": 3.4149,
      "step": 327580
    },
    {
      "epoch": 0.6824791666666666,
      "grad_norm": 1.2888137102127075,
      "learning_rate": 6.916869496436545e-05,
      "loss": 3.4859,
      "step": 327590
    },
    {
      "epoch": 0.6825,
      "grad_norm": 1.1763224601745605,
      "learning_rate": 6.91603904356649e-05,
      "loss": 3.6044,
      "step": 327600
    },
    {
      "epoch": 0.6825208333333334,
      "grad_norm": 1.1254826784133911,
      "learning_rate": 6.915208625615953e-05,
      "loss": 3.5815,
      "step": 327610
    },
    {
      "epoch": 0.6825416666666667,
      "grad_norm": 1.2246484756469727,
      "learning_rate": 6.91437824258852e-05,
      "loss": 3.6509,
      "step": 327620
    },
    {
      "epoch": 0.6825625,
      "grad_norm": 1.2322779893875122,
      "learning_rate": 6.913547894487764e-05,
      "loss": 3.7138,
      "step": 327630
    },
    {
      "epoch": 0.6825833333333333,
      "grad_norm": 1.148267388343811,
      "learning_rate": 6.912717581317282e-05,
      "loss": 3.3145,
      "step": 327640
    },
    {
      "epoch": 0.6826041666666667,
      "grad_norm": 1.2712064981460571,
      "learning_rate": 6.911887303080668e-05,
      "loss": 3.6635,
      "step": 327650
    },
    {
      "epoch": 0.682625,
      "grad_norm": 1.2942081689834595,
      "learning_rate": 6.911057059781485e-05,
      "loss": 3.6134,
      "step": 327660
    },
    {
      "epoch": 0.6826458333333333,
      "grad_norm": 1.1518126726150513,
      "learning_rate": 6.910226851423342e-05,
      "loss": 3.6226,
      "step": 327670
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 1.1792888641357422,
      "learning_rate": 6.909396678009821e-05,
      "loss": 3.4239,
      "step": 327680
    },
    {
      "epoch": 0.6826875,
      "grad_norm": 1.1349821090698242,
      "learning_rate": 6.9085665395445e-05,
      "loss": 3.6452,
      "step": 327690
    },
    {
      "epoch": 0.6827083333333334,
      "grad_norm": 1.2939592599868774,
      "learning_rate": 6.907736436030965e-05,
      "loss": 3.5897,
      "step": 327700
    },
    {
      "epoch": 0.6827291666666667,
      "grad_norm": 1.3404911756515503,
      "learning_rate": 6.906906367472809e-05,
      "loss": 3.6183,
      "step": 327710
    },
    {
      "epoch": 0.68275,
      "grad_norm": 1.1866040229797363,
      "learning_rate": 6.906076333873611e-05,
      "loss": 3.627,
      "step": 327720
    },
    {
      "epoch": 0.6827708333333333,
      "grad_norm": 1.1464005708694458,
      "learning_rate": 6.905246335236962e-05,
      "loss": 3.5996,
      "step": 327730
    },
    {
      "epoch": 0.6827916666666667,
      "grad_norm": 1.1756963729858398,
      "learning_rate": 6.904416371566444e-05,
      "loss": 3.4112,
      "step": 327740
    },
    {
      "epoch": 0.6828125,
      "grad_norm": 1.203013300895691,
      "learning_rate": 6.903586442865643e-05,
      "loss": 3.4731,
      "step": 327750
    },
    {
      "epoch": 0.6828333333333333,
      "grad_norm": 1.140884518623352,
      "learning_rate": 6.902756549138142e-05,
      "loss": 3.5621,
      "step": 327760
    },
    {
      "epoch": 0.6828541666666667,
      "grad_norm": 1.2805525064468384,
      "learning_rate": 6.90192669038753e-05,
      "loss": 3.5782,
      "step": 327770
    },
    {
      "epoch": 0.682875,
      "grad_norm": 1.1833077669143677,
      "learning_rate": 6.901096866617388e-05,
      "loss": 3.6325,
      "step": 327780
    },
    {
      "epoch": 0.6828958333333334,
      "grad_norm": 1.1765410900115967,
      "learning_rate": 6.900267077831301e-05,
      "loss": 3.4679,
      "step": 327790
    },
    {
      "epoch": 0.6829166666666666,
      "grad_norm": 1.1231070756912231,
      "learning_rate": 6.899437324032856e-05,
      "loss": 3.5786,
      "step": 327800
    },
    {
      "epoch": 0.6829375,
      "grad_norm": 1.0859694480895996,
      "learning_rate": 6.898607605225634e-05,
      "loss": 3.4893,
      "step": 327810
    },
    {
      "epoch": 0.6829583333333333,
      "grad_norm": 1.2195188999176025,
      "learning_rate": 6.897777921413222e-05,
      "loss": 3.7019,
      "step": 327820
    },
    {
      "epoch": 0.6829791666666667,
      "grad_norm": 1.2776137590408325,
      "learning_rate": 6.896948272599202e-05,
      "loss": 3.6128,
      "step": 327830
    },
    {
      "epoch": 0.683,
      "grad_norm": 1.1449013948440552,
      "learning_rate": 6.896118658787156e-05,
      "loss": 3.5921,
      "step": 327840
    },
    {
      "epoch": 0.6830208333333333,
      "grad_norm": 1.1691185235977173,
      "learning_rate": 6.895289079980671e-05,
      "loss": 3.5307,
      "step": 327850
    },
    {
      "epoch": 0.6830416666666667,
      "grad_norm": 1.1866168975830078,
      "learning_rate": 6.894459536183329e-05,
      "loss": 3.6737,
      "step": 327860
    },
    {
      "epoch": 0.6830625,
      "grad_norm": 1.1725565195083618,
      "learning_rate": 6.893630027398713e-05,
      "loss": 3.7692,
      "step": 327870
    },
    {
      "epoch": 0.6830833333333334,
      "grad_norm": 1.281922459602356,
      "learning_rate": 6.892800553630407e-05,
      "loss": 3.6184,
      "step": 327880
    },
    {
      "epoch": 0.6831041666666666,
      "grad_norm": 1.1142840385437012,
      "learning_rate": 6.891971114881994e-05,
      "loss": 3.5998,
      "step": 327890
    },
    {
      "epoch": 0.683125,
      "grad_norm": 1.207040786743164,
      "learning_rate": 6.891141711157055e-05,
      "loss": 3.627,
      "step": 327900
    },
    {
      "epoch": 0.6831458333333333,
      "grad_norm": 1.1500334739685059,
      "learning_rate": 6.890312342459176e-05,
      "loss": 3.5094,
      "step": 327910
    },
    {
      "epoch": 0.6831666666666667,
      "grad_norm": 1.1761541366577148,
      "learning_rate": 6.889483008791936e-05,
      "loss": 3.5573,
      "step": 327920
    },
    {
      "epoch": 0.6831875,
      "grad_norm": 1.0995928049087524,
      "learning_rate": 6.888653710158926e-05,
      "loss": 3.5314,
      "step": 327930
    },
    {
      "epoch": 0.6832083333333333,
      "grad_norm": 1.2231305837631226,
      "learning_rate": 6.887824446563709e-05,
      "loss": 3.4278,
      "step": 327940
    },
    {
      "epoch": 0.6832291666666667,
      "grad_norm": 1.2132525444030762,
      "learning_rate": 6.886995218009885e-05,
      "loss": 3.4922,
      "step": 327950
    },
    {
      "epoch": 0.68325,
      "grad_norm": 1.1426708698272705,
      "learning_rate": 6.886166024501037e-05,
      "loss": 3.4979,
      "step": 327960
    },
    {
      "epoch": 0.6832708333333334,
      "grad_norm": 1.1451172828674316,
      "learning_rate": 6.885336866040728e-05,
      "loss": 3.6017,
      "step": 327970
    },
    {
      "epoch": 0.6832916666666666,
      "grad_norm": 1.1969516277313232,
      "learning_rate": 6.884507742632557e-05,
      "loss": 3.4373,
      "step": 327980
    },
    {
      "epoch": 0.6833125,
      "grad_norm": 1.1438112258911133,
      "learning_rate": 6.883678654280107e-05,
      "loss": 3.3916,
      "step": 327990
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 1.2821637392044067,
      "learning_rate": 6.882849600986946e-05,
      "loss": 3.5226,
      "step": 328000
    },
    {
      "epoch": 0.6833333333333333,
      "eval_loss": 3.548551082611084,
      "eval_runtime": 7.3397,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 328000
    },
    {
      "epoch": 0.6833541666666667,
      "grad_norm": 1.3840410709381104,
      "learning_rate": 6.882020582756656e-05,
      "loss": 3.483,
      "step": 328010
    },
    {
      "epoch": 0.683375,
      "grad_norm": 1.2517673969268799,
      "learning_rate": 6.881191599592836e-05,
      "loss": 3.528,
      "step": 328020
    },
    {
      "epoch": 0.6833958333333333,
      "grad_norm": 1.2157368659973145,
      "learning_rate": 6.880362651499048e-05,
      "loss": 3.5256,
      "step": 328030
    },
    {
      "epoch": 0.6834166666666667,
      "grad_norm": 1.1880592107772827,
      "learning_rate": 6.879533738478873e-05,
      "loss": 3.4946,
      "step": 328040
    },
    {
      "epoch": 0.6834375,
      "grad_norm": 1.284712553024292,
      "learning_rate": 6.878704860535911e-05,
      "loss": 3.6734,
      "step": 328050
    },
    {
      "epoch": 0.6834583333333333,
      "grad_norm": 1.1848143339157104,
      "learning_rate": 6.877876017673724e-05,
      "loss": 3.5256,
      "step": 328060
    },
    {
      "epoch": 0.6834791666666666,
      "grad_norm": 1.1848320960998535,
      "learning_rate": 6.877047209895896e-05,
      "loss": 3.5336,
      "step": 328070
    },
    {
      "epoch": 0.6835,
      "grad_norm": 1.2086995840072632,
      "learning_rate": 6.87621843720601e-05,
      "loss": 3.5276,
      "step": 328080
    },
    {
      "epoch": 0.6835208333333334,
      "grad_norm": 1.1992297172546387,
      "learning_rate": 6.875389699607644e-05,
      "loss": 3.5004,
      "step": 328090
    },
    {
      "epoch": 0.6835416666666667,
      "grad_norm": 1.1493968963623047,
      "learning_rate": 6.874560997104379e-05,
      "loss": 3.6558,
      "step": 328100
    },
    {
      "epoch": 0.6835625,
      "grad_norm": 1.238005518913269,
      "learning_rate": 6.873732329699794e-05,
      "loss": 3.4691,
      "step": 328110
    },
    {
      "epoch": 0.6835833333333333,
      "grad_norm": 1.7294732332229614,
      "learning_rate": 6.872903697397468e-05,
      "loss": 3.8522,
      "step": 328120
    },
    {
      "epoch": 0.6836041666666667,
      "grad_norm": 1.0978180170059204,
      "learning_rate": 6.872075100200981e-05,
      "loss": 3.557,
      "step": 328130
    },
    {
      "epoch": 0.683625,
      "grad_norm": 1.2381178140640259,
      "learning_rate": 6.871246538113915e-05,
      "loss": 3.6902,
      "step": 328140
    },
    {
      "epoch": 0.6836458333333333,
      "grad_norm": 1.1654038429260254,
      "learning_rate": 6.870418011139845e-05,
      "loss": 3.5979,
      "step": 328150
    },
    {
      "epoch": 0.6836666666666666,
      "grad_norm": 1.1693531274795532,
      "learning_rate": 6.86958951928235e-05,
      "loss": 3.6004,
      "step": 328160
    },
    {
      "epoch": 0.6836875,
      "grad_norm": 1.2632791996002197,
      "learning_rate": 6.868761062545011e-05,
      "loss": 3.7237,
      "step": 328170
    },
    {
      "epoch": 0.6837083333333334,
      "grad_norm": 1.2665035724639893,
      "learning_rate": 6.867932640931404e-05,
      "loss": 3.6871,
      "step": 328180
    },
    {
      "epoch": 0.6837291666666667,
      "grad_norm": 1.1309963464736938,
      "learning_rate": 6.867104254445111e-05,
      "loss": 3.6243,
      "step": 328190
    },
    {
      "epoch": 0.68375,
      "grad_norm": 1.209476351737976,
      "learning_rate": 6.86627590308971e-05,
      "loss": 3.6565,
      "step": 328200
    },
    {
      "epoch": 0.6837708333333333,
      "grad_norm": 1.341943621635437,
      "learning_rate": 6.865447586868774e-05,
      "loss": 3.5523,
      "step": 328210
    },
    {
      "epoch": 0.6837916666666667,
      "grad_norm": 1.479174256324768,
      "learning_rate": 6.864619305785886e-05,
      "loss": 3.3614,
      "step": 328220
    },
    {
      "epoch": 0.6838125,
      "grad_norm": 1.1378672122955322,
      "learning_rate": 6.863791059844622e-05,
      "loss": 3.5139,
      "step": 328230
    },
    {
      "epoch": 0.6838333333333333,
      "grad_norm": 1.1685611009597778,
      "learning_rate": 6.862962849048562e-05,
      "loss": 3.5947,
      "step": 328240
    },
    {
      "epoch": 0.6838541666666667,
      "grad_norm": 1.1968615055084229,
      "learning_rate": 6.862134673401279e-05,
      "loss": 3.5384,
      "step": 328250
    },
    {
      "epoch": 0.683875,
      "grad_norm": 1.1298564672470093,
      "learning_rate": 6.861306532906354e-05,
      "loss": 3.4986,
      "step": 328260
    },
    {
      "epoch": 0.6838958333333334,
      "grad_norm": 1.2240713834762573,
      "learning_rate": 6.860478427567364e-05,
      "loss": 3.5838,
      "step": 328270
    },
    {
      "epoch": 0.6839166666666666,
      "grad_norm": 1.164821982383728,
      "learning_rate": 6.85965035738789e-05,
      "loss": 3.5545,
      "step": 328280
    },
    {
      "epoch": 0.6839375,
      "grad_norm": 1.1401386260986328,
      "learning_rate": 6.858822322371493e-05,
      "loss": 3.4495,
      "step": 328290
    },
    {
      "epoch": 0.6839583333333333,
      "grad_norm": 1.2926100492477417,
      "learning_rate": 6.857994322521768e-05,
      "loss": 3.5416,
      "step": 328300
    },
    {
      "epoch": 0.6839791666666667,
      "grad_norm": 1.3002992868423462,
      "learning_rate": 6.857166357842289e-05,
      "loss": 3.3553,
      "step": 328310
    },
    {
      "epoch": 0.684,
      "grad_norm": 1.1078946590423584,
      "learning_rate": 6.856338428336618e-05,
      "loss": 3.6058,
      "step": 328320
    },
    {
      "epoch": 0.6840208333333333,
      "grad_norm": 1.296813726425171,
      "learning_rate": 6.855510534008351e-05,
      "loss": 3.5927,
      "step": 328330
    },
    {
      "epoch": 0.6840416666666667,
      "grad_norm": 1.2184514999389648,
      "learning_rate": 6.854682674861052e-05,
      "loss": 3.526,
      "step": 328340
    },
    {
      "epoch": 0.6840625,
      "grad_norm": 1.130537509918213,
      "learning_rate": 6.85385485089829e-05,
      "loss": 3.6459,
      "step": 328350
    },
    {
      "epoch": 0.6840833333333334,
      "grad_norm": 1.1977416276931763,
      "learning_rate": 6.853027062123667e-05,
      "loss": 3.4242,
      "step": 328360
    },
    {
      "epoch": 0.6841041666666666,
      "grad_norm": 1.1087504625320435,
      "learning_rate": 6.852199308540733e-05,
      "loss": 3.6866,
      "step": 328370
    },
    {
      "epoch": 0.684125,
      "grad_norm": 1.1590845584869385,
      "learning_rate": 6.851371590153067e-05,
      "loss": 3.5508,
      "step": 328380
    },
    {
      "epoch": 0.6841458333333333,
      "grad_norm": 1.1682417392730713,
      "learning_rate": 6.850543906964262e-05,
      "loss": 3.5453,
      "step": 328390
    },
    {
      "epoch": 0.6841666666666667,
      "grad_norm": 1.2911509275436401,
      "learning_rate": 6.849716258977876e-05,
      "loss": 3.5582,
      "step": 328400
    },
    {
      "epoch": 0.6841875,
      "grad_norm": 1.2159525156021118,
      "learning_rate": 6.848888646197486e-05,
      "loss": 3.441,
      "step": 328410
    },
    {
      "epoch": 0.6842083333333333,
      "grad_norm": 1.1775904893875122,
      "learning_rate": 6.84806106862668e-05,
      "loss": 3.535,
      "step": 328420
    },
    {
      "epoch": 0.6842291666666667,
      "grad_norm": 1.1848505735397339,
      "learning_rate": 6.847233526269019e-05,
      "loss": 3.3969,
      "step": 328430
    },
    {
      "epoch": 0.68425,
      "grad_norm": 1.1305103302001953,
      "learning_rate": 6.84640601912808e-05,
      "loss": 3.5008,
      "step": 328440
    },
    {
      "epoch": 0.6842708333333334,
      "grad_norm": 1.1561585664749146,
      "learning_rate": 6.845578547207442e-05,
      "loss": 3.5007,
      "step": 328450
    },
    {
      "epoch": 0.6842916666666666,
      "grad_norm": 1.1093884706497192,
      "learning_rate": 6.844751110510675e-05,
      "loss": 3.3927,
      "step": 328460
    },
    {
      "epoch": 0.6843125,
      "grad_norm": 1.1366589069366455,
      "learning_rate": 6.843923709041356e-05,
      "loss": 3.5318,
      "step": 328470
    },
    {
      "epoch": 0.6843333333333333,
      "grad_norm": 1.1696151494979858,
      "learning_rate": 6.843096342803057e-05,
      "loss": 3.6882,
      "step": 328480
    },
    {
      "epoch": 0.6843541666666667,
      "grad_norm": 1.4250534772872925,
      "learning_rate": 6.842269011799356e-05,
      "loss": 3.6401,
      "step": 328490
    },
    {
      "epoch": 0.684375,
      "grad_norm": 1.3266984224319458,
      "learning_rate": 6.84144171603382e-05,
      "loss": 3.5037,
      "step": 328500
    },
    {
      "epoch": 0.6843958333333333,
      "grad_norm": 1.1681123971939087,
      "learning_rate": 6.840614455510028e-05,
      "loss": 3.7309,
      "step": 328510
    },
    {
      "epoch": 0.6844166666666667,
      "grad_norm": 1.1820130348205566,
      "learning_rate": 6.839787230231553e-05,
      "loss": 3.4701,
      "step": 328520
    },
    {
      "epoch": 0.6844375,
      "grad_norm": 1.5656808614730835,
      "learning_rate": 6.838960040201967e-05,
      "loss": 3.4813,
      "step": 328530
    },
    {
      "epoch": 0.6844583333333333,
      "grad_norm": 1.2672022581100464,
      "learning_rate": 6.838132885424843e-05,
      "loss": 3.6632,
      "step": 328540
    },
    {
      "epoch": 0.6844791666666666,
      "grad_norm": 1.1154330968856812,
      "learning_rate": 6.837305765903753e-05,
      "loss": 3.5403,
      "step": 328550
    },
    {
      "epoch": 0.6845,
      "grad_norm": 1.1422733068466187,
      "learning_rate": 6.836478681642272e-05,
      "loss": 3.7055,
      "step": 328560
    },
    {
      "epoch": 0.6845208333333334,
      "grad_norm": 1.4517326354980469,
      "learning_rate": 6.835651632643971e-05,
      "loss": 3.5949,
      "step": 328570
    },
    {
      "epoch": 0.6845416666666667,
      "grad_norm": 1.4373210668563843,
      "learning_rate": 6.834824618912425e-05,
      "loss": 3.5361,
      "step": 328580
    },
    {
      "epoch": 0.6845625,
      "grad_norm": 1.1406636238098145,
      "learning_rate": 6.833997640451208e-05,
      "loss": 3.483,
      "step": 328590
    },
    {
      "epoch": 0.6845833333333333,
      "grad_norm": 1.2148088216781616,
      "learning_rate": 6.83317069726388e-05,
      "loss": 3.6262,
      "step": 328600
    },
    {
      "epoch": 0.6846041666666667,
      "grad_norm": 1.2609065771102905,
      "learning_rate": 6.832343789354027e-05,
      "loss": 3.5214,
      "step": 328610
    },
    {
      "epoch": 0.684625,
      "grad_norm": 1.1050814390182495,
      "learning_rate": 6.83151691672522e-05,
      "loss": 3.4971,
      "step": 328620
    },
    {
      "epoch": 0.6846458333333333,
      "grad_norm": 1.2314542531967163,
      "learning_rate": 6.830690079381017e-05,
      "loss": 3.5085,
      "step": 328630
    },
    {
      "epoch": 0.6846666666666666,
      "grad_norm": 1.2080833911895752,
      "learning_rate": 6.829863277325003e-05,
      "loss": 3.4331,
      "step": 328640
    },
    {
      "epoch": 0.6846875,
      "grad_norm": 1.1859948635101318,
      "learning_rate": 6.829036510560752e-05,
      "loss": 3.4564,
      "step": 328650
    },
    {
      "epoch": 0.6847083333333334,
      "grad_norm": 1.1641472578048706,
      "learning_rate": 6.828209779091818e-05,
      "loss": 3.6615,
      "step": 328660
    },
    {
      "epoch": 0.6847291666666667,
      "grad_norm": 1.1864508390426636,
      "learning_rate": 6.82738308292179e-05,
      "loss": 3.6291,
      "step": 328670
    },
    {
      "epoch": 0.68475,
      "grad_norm": 1.1689648628234863,
      "learning_rate": 6.826556422054236e-05,
      "loss": 3.6301,
      "step": 328680
    },
    {
      "epoch": 0.6847708333333333,
      "grad_norm": 1.213152527809143,
      "learning_rate": 6.825729796492711e-05,
      "loss": 3.5913,
      "step": 328690
    },
    {
      "epoch": 0.6847916666666667,
      "grad_norm": 1.129933476448059,
      "learning_rate": 6.824903206240811e-05,
      "loss": 3.4963,
      "step": 328700
    },
    {
      "epoch": 0.6848125,
      "grad_norm": 1.3526898622512817,
      "learning_rate": 6.824076651302087e-05,
      "loss": 3.4673,
      "step": 328710
    },
    {
      "epoch": 0.6848333333333333,
      "grad_norm": 1.1565682888031006,
      "learning_rate": 6.82325013168011e-05,
      "loss": 3.3853,
      "step": 328720
    },
    {
      "epoch": 0.6848541666666667,
      "grad_norm": 1.165644645690918,
      "learning_rate": 6.822423647378468e-05,
      "loss": 3.5826,
      "step": 328730
    },
    {
      "epoch": 0.684875,
      "grad_norm": 1.2741680145263672,
      "learning_rate": 6.821597198400711e-05,
      "loss": 3.5213,
      "step": 328740
    },
    {
      "epoch": 0.6848958333333334,
      "grad_norm": 1.1214450597763062,
      "learning_rate": 6.820770784750413e-05,
      "loss": 3.6257,
      "step": 328750
    },
    {
      "epoch": 0.6849166666666666,
      "grad_norm": 1.3735557794570923,
      "learning_rate": 6.819944406431157e-05,
      "loss": 3.4957,
      "step": 328760
    },
    {
      "epoch": 0.6849375,
      "grad_norm": 1.1627142429351807,
      "learning_rate": 6.8191180634465e-05,
      "loss": 3.4863,
      "step": 328770
    },
    {
      "epoch": 0.6849583333333333,
      "grad_norm": 1.0602320432662964,
      "learning_rate": 6.818291755800008e-05,
      "loss": 3.5934,
      "step": 328780
    },
    {
      "epoch": 0.6849791666666667,
      "grad_norm": 1.0667756795883179,
      "learning_rate": 6.817465483495269e-05,
      "loss": 3.714,
      "step": 328790
    },
    {
      "epoch": 0.685,
      "grad_norm": 1.2353031635284424,
      "learning_rate": 6.816639246535833e-05,
      "loss": 3.6098,
      "step": 328800
    },
    {
      "epoch": 0.6850208333333333,
      "grad_norm": 1.1688882112503052,
      "learning_rate": 6.815813044925271e-05,
      "loss": 3.5245,
      "step": 328810
    },
    {
      "epoch": 0.6850416666666667,
      "grad_norm": 1.2109872102737427,
      "learning_rate": 6.81498687866717e-05,
      "loss": 3.6204,
      "step": 328820
    },
    {
      "epoch": 0.6850625,
      "grad_norm": 1.2670440673828125,
      "learning_rate": 6.81416074776508e-05,
      "loss": 3.4646,
      "step": 328830
    },
    {
      "epoch": 0.6850833333333334,
      "grad_norm": 1.289015531539917,
      "learning_rate": 6.813334652222576e-05,
      "loss": 3.4507,
      "step": 328840
    },
    {
      "epoch": 0.6851041666666666,
      "grad_norm": 1.155129075050354,
      "learning_rate": 6.812508592043222e-05,
      "loss": 3.7171,
      "step": 328850
    },
    {
      "epoch": 0.685125,
      "grad_norm": 1.6398789882659912,
      "learning_rate": 6.811682567230594e-05,
      "loss": 3.6273,
      "step": 328860
    },
    {
      "epoch": 0.6851458333333333,
      "grad_norm": 1.2208508253097534,
      "learning_rate": 6.810856577788253e-05,
      "loss": 3.4925,
      "step": 328870
    },
    {
      "epoch": 0.6851666666666667,
      "grad_norm": 1.2269492149353027,
      "learning_rate": 6.810030623719773e-05,
      "loss": 3.5491,
      "step": 328880
    },
    {
      "epoch": 0.6851875,
      "grad_norm": 1.17629873752594,
      "learning_rate": 6.809204705028717e-05,
      "loss": 3.4657,
      "step": 328890
    },
    {
      "epoch": 0.6852083333333333,
      "grad_norm": 1.1464579105377197,
      "learning_rate": 6.808378821718657e-05,
      "loss": 3.5961,
      "step": 328900
    },
    {
      "epoch": 0.6852291666666667,
      "grad_norm": 1.0972201824188232,
      "learning_rate": 6.807552973793154e-05,
      "loss": 3.5385,
      "step": 328910
    },
    {
      "epoch": 0.68525,
      "grad_norm": 1.215698003768921,
      "learning_rate": 6.806727161255781e-05,
      "loss": 3.5926,
      "step": 328920
    },
    {
      "epoch": 0.6852708333333334,
      "grad_norm": 1.2139679193496704,
      "learning_rate": 6.805901384110112e-05,
      "loss": 3.6764,
      "step": 328930
    },
    {
      "epoch": 0.6852916666666666,
      "grad_norm": 1.1044282913208008,
      "learning_rate": 6.805075642359692e-05,
      "loss": 3.5617,
      "step": 328940
    },
    {
      "epoch": 0.6853125,
      "grad_norm": 1.3471522331237793,
      "learning_rate": 6.804249936008106e-05,
      "loss": 3.5809,
      "step": 328950
    },
    {
      "epoch": 0.6853333333333333,
      "grad_norm": 1.1345884799957275,
      "learning_rate": 6.803424265058923e-05,
      "loss": 3.5435,
      "step": 328960
    },
    {
      "epoch": 0.6853541666666667,
      "grad_norm": 1.085387110710144,
      "learning_rate": 6.802598629515693e-05,
      "loss": 3.5562,
      "step": 328970
    },
    {
      "epoch": 0.685375,
      "grad_norm": 1.6202696561813354,
      "learning_rate": 6.801773029381995e-05,
      "loss": 3.4712,
      "step": 328980
    },
    {
      "epoch": 0.6853958333333333,
      "grad_norm": 1.0847727060317993,
      "learning_rate": 6.800947464661398e-05,
      "loss": 3.6346,
      "step": 328990
    },
    {
      "epoch": 0.6854166666666667,
      "grad_norm": 1.1395010948181152,
      "learning_rate": 6.800121935357454e-05,
      "loss": 3.6025,
      "step": 329000
    },
    {
      "epoch": 0.6854166666666667,
      "eval_loss": 3.5482773780822754,
      "eval_runtime": 7.3123,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 329000
    },
    {
      "epoch": 0.6854375,
      "grad_norm": 1.1697860956192017,
      "learning_rate": 6.799296441473741e-05,
      "loss": 3.537,
      "step": 329010
    },
    {
      "epoch": 0.6854583333333333,
      "grad_norm": 2.037241220474243,
      "learning_rate": 6.798470983013828e-05,
      "loss": 3.5773,
      "step": 329020
    },
    {
      "epoch": 0.6854791666666666,
      "grad_norm": 1.1502808332443237,
      "learning_rate": 6.797645559981262e-05,
      "loss": 3.6699,
      "step": 329030
    },
    {
      "epoch": 0.6855,
      "grad_norm": 1.262644648551941,
      "learning_rate": 6.796820172379627e-05,
      "loss": 3.4354,
      "step": 329040
    },
    {
      "epoch": 0.6855208333333334,
      "grad_norm": 1.4232832193374634,
      "learning_rate": 6.795994820212487e-05,
      "loss": 3.6499,
      "step": 329050
    },
    {
      "epoch": 0.6855416666666667,
      "grad_norm": 1.2101922035217285,
      "learning_rate": 6.79516950348339e-05,
      "loss": 3.4901,
      "step": 329060
    },
    {
      "epoch": 0.6855625,
      "grad_norm": 1.3860396146774292,
      "learning_rate": 6.794344222195924e-05,
      "loss": 3.5766,
      "step": 329070
    },
    {
      "epoch": 0.6855833333333333,
      "grad_norm": 1.2743828296661377,
      "learning_rate": 6.793518976353639e-05,
      "loss": 3.5946,
      "step": 329080
    },
    {
      "epoch": 0.6856041666666667,
      "grad_norm": 1.2609084844589233,
      "learning_rate": 6.792693765960098e-05,
      "loss": 3.3662,
      "step": 329090
    },
    {
      "epoch": 0.685625,
      "grad_norm": 1.2087740898132324,
      "learning_rate": 6.79186859101888e-05,
      "loss": 3.5526,
      "step": 329100
    },
    {
      "epoch": 0.6856458333333333,
      "grad_norm": 1.3722498416900635,
      "learning_rate": 6.791043451533539e-05,
      "loss": 3.532,
      "step": 329110
    },
    {
      "epoch": 0.6856666666666666,
      "grad_norm": 1.212447166442871,
      "learning_rate": 6.790218347507632e-05,
      "loss": 3.5282,
      "step": 329120
    },
    {
      "epoch": 0.6856875,
      "grad_norm": 1.2751166820526123,
      "learning_rate": 6.789393278944744e-05,
      "loss": 3.496,
      "step": 329130
    },
    {
      "epoch": 0.6857083333333334,
      "grad_norm": 1.211641788482666,
      "learning_rate": 6.788568245848423e-05,
      "loss": 3.5802,
      "step": 329140
    },
    {
      "epoch": 0.6857291666666666,
      "grad_norm": 1.139714002609253,
      "learning_rate": 6.787743248222229e-05,
      "loss": 3.6288,
      "step": 329150
    },
    {
      "epoch": 0.68575,
      "grad_norm": 1.176387071609497,
      "learning_rate": 6.786918286069747e-05,
      "loss": 3.4342,
      "step": 329160
    },
    {
      "epoch": 0.6857708333333333,
      "grad_norm": 1.3027440309524536,
      "learning_rate": 6.78609335939452e-05,
      "loss": 3.6721,
      "step": 329170
    },
    {
      "epoch": 0.6857916666666667,
      "grad_norm": 1.2174512147903442,
      "learning_rate": 6.785268468200119e-05,
      "loss": 3.58,
      "step": 329180
    },
    {
      "epoch": 0.6858125,
      "grad_norm": 1.1613705158233643,
      "learning_rate": 6.784443612490107e-05,
      "loss": 3.4289,
      "step": 329190
    },
    {
      "epoch": 0.6858333333333333,
      "grad_norm": 1.1465486288070679,
      "learning_rate": 6.783618792268046e-05,
      "loss": 3.7045,
      "step": 329200
    },
    {
      "epoch": 0.6858541666666667,
      "grad_norm": 1.2464593648910522,
      "learning_rate": 6.782794007537499e-05,
      "loss": 3.6337,
      "step": 329210
    },
    {
      "epoch": 0.685875,
      "grad_norm": 1.1300126314163208,
      "learning_rate": 6.78196925830203e-05,
      "loss": 3.4752,
      "step": 329220
    },
    {
      "epoch": 0.6858958333333334,
      "grad_norm": 1.1451255083084106,
      "learning_rate": 6.781144544565201e-05,
      "loss": 3.5202,
      "step": 329230
    },
    {
      "epoch": 0.6859166666666666,
      "grad_norm": 1.0822910070419312,
      "learning_rate": 6.780319866330572e-05,
      "loss": 3.5434,
      "step": 329240
    },
    {
      "epoch": 0.6859375,
      "grad_norm": 1.2054752111434937,
      "learning_rate": 6.779495223601712e-05,
      "loss": 3.3956,
      "step": 329250
    },
    {
      "epoch": 0.6859583333333333,
      "grad_norm": 1.1688951253890991,
      "learning_rate": 6.778670616382176e-05,
      "loss": 3.5174,
      "step": 329260
    },
    {
      "epoch": 0.6859791666666667,
      "grad_norm": 1.138772964477539,
      "learning_rate": 6.777846044675528e-05,
      "loss": 3.5173,
      "step": 329270
    },
    {
      "epoch": 0.686,
      "grad_norm": 1.2082350254058838,
      "learning_rate": 6.777021508485331e-05,
      "loss": 3.5522,
      "step": 329280
    },
    {
      "epoch": 0.6860208333333333,
      "grad_norm": 1.1419248580932617,
      "learning_rate": 6.776197007815149e-05,
      "loss": 3.4948,
      "step": 329290
    },
    {
      "epoch": 0.6860416666666667,
      "grad_norm": 1.2178895473480225,
      "learning_rate": 6.775372542668538e-05,
      "loss": 3.5178,
      "step": 329300
    },
    {
      "epoch": 0.6860625,
      "grad_norm": 1.159708857536316,
      "learning_rate": 6.774548113049063e-05,
      "loss": 3.4125,
      "step": 329310
    },
    {
      "epoch": 0.6860833333333334,
      "grad_norm": 1.2451070547103882,
      "learning_rate": 6.773723718960283e-05,
      "loss": 3.5092,
      "step": 329320
    },
    {
      "epoch": 0.6861041666666666,
      "grad_norm": 1.2092643976211548,
      "learning_rate": 6.772899360405766e-05,
      "loss": 3.543,
      "step": 329330
    },
    {
      "epoch": 0.686125,
      "grad_norm": 1.1849758625030518,
      "learning_rate": 6.772075037389058e-05,
      "loss": 3.4622,
      "step": 329340
    },
    {
      "epoch": 0.6861458333333333,
      "grad_norm": 1.2774513959884644,
      "learning_rate": 6.771250749913734e-05,
      "loss": 3.518,
      "step": 329350
    },
    {
      "epoch": 0.6861666666666667,
      "grad_norm": 1.1331696510314941,
      "learning_rate": 6.770426497983355e-05,
      "loss": 3.3907,
      "step": 329360
    },
    {
      "epoch": 0.6861875,
      "grad_norm": 1.2210628986358643,
      "learning_rate": 6.769602281601463e-05,
      "loss": 3.5894,
      "step": 329370
    },
    {
      "epoch": 0.6862083333333333,
      "grad_norm": 1.2267712354660034,
      "learning_rate": 6.768778100771639e-05,
      "loss": 3.4735,
      "step": 329380
    },
    {
      "epoch": 0.6862291666666667,
      "grad_norm": 1.2150051593780518,
      "learning_rate": 6.767953955497442e-05,
      "loss": 3.6009,
      "step": 329390
    },
    {
      "epoch": 0.68625,
      "grad_norm": 1.1539344787597656,
      "learning_rate": 6.767129845782411e-05,
      "loss": 3.6198,
      "step": 329400
    },
    {
      "epoch": 0.6862708333333334,
      "grad_norm": 1.107851505279541,
      "learning_rate": 6.766305771630128e-05,
      "loss": 3.5844,
      "step": 329410
    },
    {
      "epoch": 0.6862916666666666,
      "grad_norm": 1.1670743227005005,
      "learning_rate": 6.765481733044151e-05,
      "loss": 3.546,
      "step": 329420
    },
    {
      "epoch": 0.6863125,
      "grad_norm": 1.2136716842651367,
      "learning_rate": 6.764657730028021e-05,
      "loss": 3.4554,
      "step": 329430
    },
    {
      "epoch": 0.6863333333333334,
      "grad_norm": 1.2196606397628784,
      "learning_rate": 6.763833762585321e-05,
      "loss": 3.5997,
      "step": 329440
    },
    {
      "epoch": 0.6863541666666667,
      "grad_norm": 1.3095777034759521,
      "learning_rate": 6.763009830719594e-05,
      "loss": 3.5241,
      "step": 329450
    },
    {
      "epoch": 0.686375,
      "grad_norm": 1.210955023765564,
      "learning_rate": 6.762185934434405e-05,
      "loss": 3.4587,
      "step": 329460
    },
    {
      "epoch": 0.6863958333333333,
      "grad_norm": 1.216267466545105,
      "learning_rate": 6.76136207373331e-05,
      "loss": 3.4761,
      "step": 329470
    },
    {
      "epoch": 0.6864166666666667,
      "grad_norm": 1.2205010652542114,
      "learning_rate": 6.76053824861987e-05,
      "loss": 3.6679,
      "step": 329480
    },
    {
      "epoch": 0.6864375,
      "grad_norm": 1.1889230012893677,
      "learning_rate": 6.759714459097645e-05,
      "loss": 3.5118,
      "step": 329490
    },
    {
      "epoch": 0.6864583333333333,
      "grad_norm": 1.1497604846954346,
      "learning_rate": 6.758890705170191e-05,
      "loss": 3.5666,
      "step": 329500
    },
    {
      "epoch": 0.6864791666666666,
      "grad_norm": 1.2197321653366089,
      "learning_rate": 6.758066986841067e-05,
      "loss": 3.6661,
      "step": 329510
    },
    {
      "epoch": 0.6865,
      "grad_norm": 1.1897634267807007,
      "learning_rate": 6.757243304113832e-05,
      "loss": 3.5224,
      "step": 329520
    },
    {
      "epoch": 0.6865208333333334,
      "grad_norm": 1.2668392658233643,
      "learning_rate": 6.756419656992044e-05,
      "loss": 3.4432,
      "step": 329530
    },
    {
      "epoch": 0.6865416666666667,
      "grad_norm": 1.1607296466827393,
      "learning_rate": 6.755596045479256e-05,
      "loss": 3.4816,
      "step": 329540
    },
    {
      "epoch": 0.6865625,
      "grad_norm": 1.3170686960220337,
      "learning_rate": 6.754772469579034e-05,
      "loss": 3.6615,
      "step": 329550
    },
    {
      "epoch": 0.6865833333333333,
      "grad_norm": 1.2001522779464722,
      "learning_rate": 6.753948929294929e-05,
      "loss": 3.4922,
      "step": 329560
    },
    {
      "epoch": 0.6866041666666667,
      "grad_norm": 1.2047520875930786,
      "learning_rate": 6.753125424630501e-05,
      "loss": 3.5389,
      "step": 329570
    },
    {
      "epoch": 0.686625,
      "grad_norm": 1.089689016342163,
      "learning_rate": 6.752301955589308e-05,
      "loss": 3.773,
      "step": 329580
    },
    {
      "epoch": 0.6866458333333333,
      "grad_norm": 1.2103989124298096,
      "learning_rate": 6.751478522174904e-05,
      "loss": 3.6236,
      "step": 329590
    },
    {
      "epoch": 0.6866666666666666,
      "grad_norm": 1.3217544555664062,
      "learning_rate": 6.750655124390848e-05,
      "loss": 3.4193,
      "step": 329600
    },
    {
      "epoch": 0.6866875,
      "grad_norm": 1.1769452095031738,
      "learning_rate": 6.749831762240698e-05,
      "loss": 3.4026,
      "step": 329610
    },
    {
      "epoch": 0.6867083333333334,
      "grad_norm": 1.1453614234924316,
      "learning_rate": 6.749008435728008e-05,
      "loss": 3.5971,
      "step": 329620
    },
    {
      "epoch": 0.6867291666666666,
      "grad_norm": 1.1120895147323608,
      "learning_rate": 6.748185144856335e-05,
      "loss": 3.6021,
      "step": 329630
    },
    {
      "epoch": 0.68675,
      "grad_norm": 1.2411020994186401,
      "learning_rate": 6.747361889629238e-05,
      "loss": 3.4364,
      "step": 329640
    },
    {
      "epoch": 0.6867708333333333,
      "grad_norm": 1.306796908378601,
      "learning_rate": 6.746538670050269e-05,
      "loss": 3.5881,
      "step": 329650
    },
    {
      "epoch": 0.6867916666666667,
      "grad_norm": 1.1131702661514282,
      "learning_rate": 6.745715486122988e-05,
      "loss": 3.54,
      "step": 329660
    },
    {
      "epoch": 0.6868125,
      "grad_norm": 1.1182681322097778,
      "learning_rate": 6.744892337850947e-05,
      "loss": 3.4951,
      "step": 329670
    },
    {
      "epoch": 0.6868333333333333,
      "grad_norm": 1.3534003496170044,
      "learning_rate": 6.744069225237705e-05,
      "loss": 3.5742,
      "step": 329680
    },
    {
      "epoch": 0.6868541666666667,
      "grad_norm": 1.2267929315567017,
      "learning_rate": 6.743246148286814e-05,
      "loss": 3.4481,
      "step": 329690
    },
    {
      "epoch": 0.686875,
      "grad_norm": 1.2111543416976929,
      "learning_rate": 6.74242310700184e-05,
      "loss": 3.5395,
      "step": 329700
    },
    {
      "epoch": 0.6868958333333334,
      "grad_norm": 1.0855263471603394,
      "learning_rate": 6.741600101386315e-05,
      "loss": 3.5343,
      "step": 329710
    },
    {
      "epoch": 0.6869166666666666,
      "grad_norm": 1.3165345191955566,
      "learning_rate": 6.740777131443817e-05,
      "loss": 3.6495,
      "step": 329720
    },
    {
      "epoch": 0.6869375,
      "grad_norm": 1.1936697959899902,
      "learning_rate": 6.739954197177896e-05,
      "loss": 3.5346,
      "step": 329730
    },
    {
      "epoch": 0.6869583333333333,
      "grad_norm": 1.3798578977584839,
      "learning_rate": 6.739131298592093e-05,
      "loss": 3.518,
      "step": 329740
    },
    {
      "epoch": 0.6869791666666667,
      "grad_norm": 1.505198359489441,
      "learning_rate": 6.738308435689979e-05,
      "loss": 3.5699,
      "step": 329750
    },
    {
      "epoch": 0.687,
      "grad_norm": 1.3407683372497559,
      "learning_rate": 6.737485608475107e-05,
      "loss": 3.5726,
      "step": 329760
    },
    {
      "epoch": 0.6870208333333333,
      "grad_norm": 1.1937748193740845,
      "learning_rate": 6.736662816951022e-05,
      "loss": 3.5747,
      "step": 329770
    },
    {
      "epoch": 0.6870416666666667,
      "grad_norm": 1.218576431274414,
      "learning_rate": 6.735840061121276e-05,
      "loss": 3.5061,
      "step": 329780
    },
    {
      "epoch": 0.6870625,
      "grad_norm": 1.1838353872299194,
      "learning_rate": 6.735017340989442e-05,
      "loss": 3.3809,
      "step": 329790
    },
    {
      "epoch": 0.6870833333333334,
      "grad_norm": 1.1221380233764648,
      "learning_rate": 6.734194656559055e-05,
      "loss": 3.4119,
      "step": 329800
    },
    {
      "epoch": 0.6871041666666666,
      "grad_norm": 1.291031837463379,
      "learning_rate": 6.733372007833672e-05,
      "loss": 3.4485,
      "step": 329810
    },
    {
      "epoch": 0.687125,
      "grad_norm": 1.1978739500045776,
      "learning_rate": 6.732549394816859e-05,
      "loss": 3.534,
      "step": 329820
    },
    {
      "epoch": 0.6871458333333333,
      "grad_norm": 1.2087081670761108,
      "learning_rate": 6.731726817512155e-05,
      "loss": 3.5676,
      "step": 329830
    },
    {
      "epoch": 0.6871666666666667,
      "grad_norm": 1.1582666635513306,
      "learning_rate": 6.730904275923118e-05,
      "loss": 3.449,
      "step": 329840
    },
    {
      "epoch": 0.6871875,
      "grad_norm": 1.1620155572891235,
      "learning_rate": 6.730081770053301e-05,
      "loss": 3.4625,
      "step": 329850
    },
    {
      "epoch": 0.6872083333333333,
      "grad_norm": 1.2524104118347168,
      "learning_rate": 6.729259299906258e-05,
      "loss": 3.4334,
      "step": 329860
    },
    {
      "epoch": 0.6872291666666667,
      "grad_norm": 1.1127426624298096,
      "learning_rate": 6.728436865485541e-05,
      "loss": 3.6101,
      "step": 329870
    },
    {
      "epoch": 0.68725,
      "grad_norm": 1.2393510341644287,
      "learning_rate": 6.727614466794703e-05,
      "loss": 3.5854,
      "step": 329880
    },
    {
      "epoch": 0.6872708333333334,
      "grad_norm": 1.2108395099639893,
      "learning_rate": 6.726792103837295e-05,
      "loss": 3.5499,
      "step": 329890
    },
    {
      "epoch": 0.6872916666666666,
      "grad_norm": 1.262092113494873,
      "learning_rate": 6.725969776616873e-05,
      "loss": 3.5245,
      "step": 329900
    },
    {
      "epoch": 0.6873125,
      "grad_norm": 1.1510663032531738,
      "learning_rate": 6.725147485136982e-05,
      "loss": 3.5311,
      "step": 329910
    },
    {
      "epoch": 0.6873333333333334,
      "grad_norm": 1.1529209613800049,
      "learning_rate": 6.724325229401182e-05,
      "loss": 3.4969,
      "step": 329920
    },
    {
      "epoch": 0.6873541666666667,
      "grad_norm": 1.2653639316558838,
      "learning_rate": 6.723503009413021e-05,
      "loss": 3.4848,
      "step": 329930
    },
    {
      "epoch": 0.687375,
      "grad_norm": 1.1576350927352905,
      "learning_rate": 6.722680825176049e-05,
      "loss": 3.5985,
      "step": 329940
    },
    {
      "epoch": 0.6873958333333333,
      "grad_norm": 1.1940256357192993,
      "learning_rate": 6.721858676693821e-05,
      "loss": 3.5139,
      "step": 329950
    },
    {
      "epoch": 0.6874166666666667,
      "grad_norm": 1.1911990642547607,
      "learning_rate": 6.721036563969886e-05,
      "loss": 3.4872,
      "step": 329960
    },
    {
      "epoch": 0.6874375,
      "grad_norm": 1.2582478523254395,
      "learning_rate": 6.720214487007797e-05,
      "loss": 3.5631,
      "step": 329970
    },
    {
      "epoch": 0.6874583333333333,
      "grad_norm": 1.314943790435791,
      "learning_rate": 6.719392445811102e-05,
      "loss": 3.5541,
      "step": 329980
    },
    {
      "epoch": 0.6874791666666666,
      "grad_norm": 1.1935756206512451,
      "learning_rate": 6.718570440383355e-05,
      "loss": 3.5384,
      "step": 329990
    },
    {
      "epoch": 0.6875,
      "grad_norm": 1.2483856678009033,
      "learning_rate": 6.717748470728106e-05,
      "loss": 3.5451,
      "step": 330000
    },
    {
      "epoch": 0.6875,
      "eval_loss": 3.550187349319458,
      "eval_runtime": 7.381,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.406,
      "step": 330000
    },
    {
      "epoch": 0.6875208333333334,
      "grad_norm": 1.1971110105514526,
      "learning_rate": 6.716926536848907e-05,
      "loss": 3.3669,
      "step": 330010
    },
    {
      "epoch": 0.6875416666666667,
      "grad_norm": 1.3232718706130981,
      "learning_rate": 6.716104638749304e-05,
      "loss": 3.4107,
      "step": 330020
    },
    {
      "epoch": 0.6875625,
      "grad_norm": 4.6172380447387695,
      "learning_rate": 6.71528277643285e-05,
      "loss": 3.6104,
      "step": 330030
    },
    {
      "epoch": 0.6875833333333333,
      "grad_norm": 1.3111597299575806,
      "learning_rate": 6.714460949903096e-05,
      "loss": 3.5549,
      "step": 330040
    },
    {
      "epoch": 0.6876041666666667,
      "grad_norm": 1.2081193923950195,
      "learning_rate": 6.713639159163599e-05,
      "loss": 3.5083,
      "step": 330050
    },
    {
      "epoch": 0.687625,
      "grad_norm": 1.2173089981079102,
      "learning_rate": 6.712817404217886e-05,
      "loss": 3.5848,
      "step": 330060
    },
    {
      "epoch": 0.6876458333333333,
      "grad_norm": 1.1950784921646118,
      "learning_rate": 6.711995685069535e-05,
      "loss": 3.5632,
      "step": 330070
    },
    {
      "epoch": 0.6876666666666666,
      "grad_norm": 1.182743787765503,
      "learning_rate": 6.711174001722076e-05,
      "loss": 3.5095,
      "step": 330080
    },
    {
      "epoch": 0.6876875,
      "grad_norm": 1.2443510293960571,
      "learning_rate": 6.710352354179057e-05,
      "loss": 3.4906,
      "step": 330090
    },
    {
      "epoch": 0.6877083333333334,
      "grad_norm": 1.1724401712417603,
      "learning_rate": 6.709530742444047e-05,
      "loss": 3.548,
      "step": 330100
    },
    {
      "epoch": 0.6877291666666666,
      "grad_norm": 1.290880560874939,
      "learning_rate": 6.708709166520577e-05,
      "loss": 3.543,
      "step": 330110
    },
    {
      "epoch": 0.68775,
      "grad_norm": 1.252140760421753,
      "learning_rate": 6.707887626412197e-05,
      "loss": 3.5031,
      "step": 330120
    },
    {
      "epoch": 0.6877708333333333,
      "grad_norm": 1.1557812690734863,
      "learning_rate": 6.707066122122469e-05,
      "loss": 3.4503,
      "step": 330130
    },
    {
      "epoch": 0.6877916666666667,
      "grad_norm": 1.1638083457946777,
      "learning_rate": 6.706244653654929e-05,
      "loss": 3.5642,
      "step": 330140
    },
    {
      "epoch": 0.6878125,
      "grad_norm": 1.2136213779449463,
      "learning_rate": 6.705423221013124e-05,
      "loss": 3.4481,
      "step": 330150
    },
    {
      "epoch": 0.6878333333333333,
      "grad_norm": 1.1108733415603638,
      "learning_rate": 6.704601824200617e-05,
      "loss": 3.4534,
      "step": 330160
    },
    {
      "epoch": 0.6878541666666667,
      "grad_norm": 1.1938579082489014,
      "learning_rate": 6.703780463220941e-05,
      "loss": 3.4823,
      "step": 330170
    },
    {
      "epoch": 0.687875,
      "grad_norm": 1.1731693744659424,
      "learning_rate": 6.702959138077645e-05,
      "loss": 3.4287,
      "step": 330180
    },
    {
      "epoch": 0.6878958333333334,
      "grad_norm": 1.2133076190948486,
      "learning_rate": 6.702137848774293e-05,
      "loss": 3.558,
      "step": 330190
    },
    {
      "epoch": 0.6879166666666666,
      "grad_norm": 1.2526935338974,
      "learning_rate": 6.701316595314413e-05,
      "loss": 3.6446,
      "step": 330200
    },
    {
      "epoch": 0.6879375,
      "grad_norm": 1.2001214027404785,
      "learning_rate": 6.700495377701562e-05,
      "loss": 3.5302,
      "step": 330210
    },
    {
      "epoch": 0.6879583333333333,
      "grad_norm": 1.1154758930206299,
      "learning_rate": 6.699674195939286e-05,
      "loss": 3.4922,
      "step": 330220
    },
    {
      "epoch": 0.6879791666666667,
      "grad_norm": 1.1997933387756348,
      "learning_rate": 6.698853050031133e-05,
      "loss": 3.5116,
      "step": 330230
    },
    {
      "epoch": 0.688,
      "grad_norm": 1.2807743549346924,
      "learning_rate": 6.698031939980646e-05,
      "loss": 3.5531,
      "step": 330240
    },
    {
      "epoch": 0.6880208333333333,
      "grad_norm": 1.3885260820388794,
      "learning_rate": 6.697210865791377e-05,
      "loss": 3.4438,
      "step": 330250
    },
    {
      "epoch": 0.6880416666666667,
      "grad_norm": 1.217680811882019,
      "learning_rate": 6.696389827466872e-05,
      "loss": 3.5336,
      "step": 330260
    },
    {
      "epoch": 0.6880625,
      "grad_norm": 1.2670485973358154,
      "learning_rate": 6.695568825010674e-05,
      "loss": 3.4201,
      "step": 330270
    },
    {
      "epoch": 0.6880833333333334,
      "grad_norm": 1.1262972354888916,
      "learning_rate": 6.694747858426332e-05,
      "loss": 3.504,
      "step": 330280
    },
    {
      "epoch": 0.6881041666666666,
      "grad_norm": 1.232095718383789,
      "learning_rate": 6.693926927717391e-05,
      "loss": 3.5459,
      "step": 330290
    },
    {
      "epoch": 0.688125,
      "grad_norm": 1.2210590839385986,
      "learning_rate": 6.693106032887399e-05,
      "loss": 3.673,
      "step": 330300
    },
    {
      "epoch": 0.6881458333333333,
      "grad_norm": 1.2867127656936646,
      "learning_rate": 6.6922851739399e-05,
      "loss": 3.608,
      "step": 330310
    },
    {
      "epoch": 0.6881666666666667,
      "grad_norm": 1.1706066131591797,
      "learning_rate": 6.69146435087844e-05,
      "loss": 3.4648,
      "step": 330320
    },
    {
      "epoch": 0.6881875,
      "grad_norm": 1.187875747680664,
      "learning_rate": 6.690643563706569e-05,
      "loss": 3.5995,
      "step": 330330
    },
    {
      "epoch": 0.6882083333333333,
      "grad_norm": 1.126017451286316,
      "learning_rate": 6.689822812427824e-05,
      "loss": 3.5938,
      "step": 330340
    },
    {
      "epoch": 0.6882291666666667,
      "grad_norm": 1.6113511323928833,
      "learning_rate": 6.689002097045758e-05,
      "loss": 3.5896,
      "step": 330350
    },
    {
      "epoch": 0.68825,
      "grad_norm": 1.1417430639266968,
      "learning_rate": 6.688181417563917e-05,
      "loss": 3.5657,
      "step": 330360
    },
    {
      "epoch": 0.6882708333333334,
      "grad_norm": 1.104378342628479,
      "learning_rate": 6.687360773985834e-05,
      "loss": 3.5711,
      "step": 330370
    },
    {
      "epoch": 0.6882916666666666,
      "grad_norm": 1.2006077766418457,
      "learning_rate": 6.686540166315065e-05,
      "loss": 3.609,
      "step": 330380
    },
    {
      "epoch": 0.6883125,
      "grad_norm": 2.020838737487793,
      "learning_rate": 6.685719594555157e-05,
      "loss": 3.4635,
      "step": 330390
    },
    {
      "epoch": 0.6883333333333334,
      "grad_norm": 1.3564964532852173,
      "learning_rate": 6.68489905870964e-05,
      "loss": 3.6974,
      "step": 330400
    },
    {
      "epoch": 0.6883541666666667,
      "grad_norm": 1.1394356489181519,
      "learning_rate": 6.684078558782072e-05,
      "loss": 3.4299,
      "step": 330410
    },
    {
      "epoch": 0.688375,
      "grad_norm": 1.2522705793380737,
      "learning_rate": 6.683258094775999e-05,
      "loss": 3.5607,
      "step": 330420
    },
    {
      "epoch": 0.6883958333333333,
      "grad_norm": 1.1731289625167847,
      "learning_rate": 6.682437666694948e-05,
      "loss": 3.4449,
      "step": 330430
    },
    {
      "epoch": 0.6884166666666667,
      "grad_norm": 1.2365652322769165,
      "learning_rate": 6.681617274542485e-05,
      "loss": 3.5275,
      "step": 330440
    },
    {
      "epoch": 0.6884375,
      "grad_norm": 1.3103842735290527,
      "learning_rate": 6.680796918322137e-05,
      "loss": 3.4366,
      "step": 330450
    },
    {
      "epoch": 0.6884583333333333,
      "grad_norm": 1.2751708030700684,
      "learning_rate": 6.679976598037449e-05,
      "loss": 3.5712,
      "step": 330460
    },
    {
      "epoch": 0.6884791666666666,
      "grad_norm": 1.255782961845398,
      "learning_rate": 6.679156313691979e-05,
      "loss": 3.5737,
      "step": 330470
    },
    {
      "epoch": 0.6885,
      "grad_norm": 1.5741959810256958,
      "learning_rate": 6.678336065289253e-05,
      "loss": 3.5165,
      "step": 330480
    },
    {
      "epoch": 0.6885208333333334,
      "grad_norm": 1.1701580286026,
      "learning_rate": 6.677515852832818e-05,
      "loss": 3.644,
      "step": 330490
    },
    {
      "epoch": 0.6885416666666667,
      "grad_norm": 1.3209630250930786,
      "learning_rate": 6.67669567632623e-05,
      "loss": 3.6227,
      "step": 330500
    },
    {
      "epoch": 0.6885625,
      "grad_norm": 1.1908059120178223,
      "learning_rate": 6.675875535773017e-05,
      "loss": 3.5512,
      "step": 330510
    },
    {
      "epoch": 0.6885833333333333,
      "grad_norm": 1.1463210582733154,
      "learning_rate": 6.675055431176722e-05,
      "loss": 3.4773,
      "step": 330520
    },
    {
      "epoch": 0.6886041666666667,
      "grad_norm": 1.122776985168457,
      "learning_rate": 6.674235362540902e-05,
      "loss": 3.5388,
      "step": 330530
    },
    {
      "epoch": 0.688625,
      "grad_norm": 1.2036428451538086,
      "learning_rate": 6.673415329869085e-05,
      "loss": 3.5616,
      "step": 330540
    },
    {
      "epoch": 0.6886458333333333,
      "grad_norm": 1.3699113130569458,
      "learning_rate": 6.672595333164813e-05,
      "loss": 3.4324,
      "step": 330550
    },
    {
      "epoch": 0.6886666666666666,
      "grad_norm": 2.0283167362213135,
      "learning_rate": 6.671775372431643e-05,
      "loss": 3.5821,
      "step": 330560
    },
    {
      "epoch": 0.6886875,
      "grad_norm": 1.2855900526046753,
      "learning_rate": 6.670955447673101e-05,
      "loss": 3.4049,
      "step": 330570
    },
    {
      "epoch": 0.6887083333333334,
      "grad_norm": 1.2071861028671265,
      "learning_rate": 6.670135558892735e-05,
      "loss": 3.5593,
      "step": 330580
    },
    {
      "epoch": 0.6887291666666666,
      "grad_norm": 1.203635573387146,
      "learning_rate": 6.669315706094087e-05,
      "loss": 3.5639,
      "step": 330590
    },
    {
      "epoch": 0.68875,
      "grad_norm": 1.2043582201004028,
      "learning_rate": 6.668495889280695e-05,
      "loss": 3.4941,
      "step": 330600
    },
    {
      "epoch": 0.6887708333333333,
      "grad_norm": 1.124429702758789,
      "learning_rate": 6.667676108456105e-05,
      "loss": 3.4984,
      "step": 330610
    },
    {
      "epoch": 0.6887916666666667,
      "grad_norm": 1.2096927165985107,
      "learning_rate": 6.666856363623856e-05,
      "loss": 3.4069,
      "step": 330620
    },
    {
      "epoch": 0.6888125,
      "grad_norm": 1.2090117931365967,
      "learning_rate": 6.66603665478749e-05,
      "loss": 3.503,
      "step": 330630
    },
    {
      "epoch": 0.6888333333333333,
      "grad_norm": 1.2144168615341187,
      "learning_rate": 6.665216981950545e-05,
      "loss": 3.4667,
      "step": 330640
    },
    {
      "epoch": 0.6888541666666667,
      "grad_norm": 1.1541566848754883,
      "learning_rate": 6.664397345116564e-05,
      "loss": 3.5196,
      "step": 330650
    },
    {
      "epoch": 0.688875,
      "grad_norm": 1.466610074043274,
      "learning_rate": 6.663577744289088e-05,
      "loss": 3.4869,
      "step": 330660
    },
    {
      "epoch": 0.6888958333333334,
      "grad_norm": 1.2314130067825317,
      "learning_rate": 6.662758179471657e-05,
      "loss": 3.4179,
      "step": 330670
    },
    {
      "epoch": 0.6889166666666666,
      "grad_norm": 1.360991358757019,
      "learning_rate": 6.661938650667807e-05,
      "loss": 3.4464,
      "step": 330680
    },
    {
      "epoch": 0.6889375,
      "grad_norm": 1.3256053924560547,
      "learning_rate": 6.661119157881084e-05,
      "loss": 3.575,
      "step": 330690
    },
    {
      "epoch": 0.6889583333333333,
      "grad_norm": 1.1826801300048828,
      "learning_rate": 6.660299701115033e-05,
      "loss": 3.4104,
      "step": 330700
    },
    {
      "epoch": 0.6889791666666667,
      "grad_norm": 1.141422152519226,
      "learning_rate": 6.659480280373173e-05,
      "loss": 3.5491,
      "step": 330710
    },
    {
      "epoch": 0.689,
      "grad_norm": 1.0992300510406494,
      "learning_rate": 6.658660895659061e-05,
      "loss": 3.4344,
      "step": 330720
    },
    {
      "epoch": 0.6890208333333333,
      "grad_norm": 1.1228032112121582,
      "learning_rate": 6.657841546976239e-05,
      "loss": 3.6459,
      "step": 330730
    },
    {
      "epoch": 0.6890416666666667,
      "grad_norm": 1.180254578590393,
      "learning_rate": 6.657022234328228e-05,
      "loss": 3.4232,
      "step": 330740
    },
    {
      "epoch": 0.6890625,
      "grad_norm": 1.1907364130020142,
      "learning_rate": 6.656202957718584e-05,
      "loss": 3.6916,
      "step": 330750
    },
    {
      "epoch": 0.6890833333333334,
      "grad_norm": 1.1752841472625732,
      "learning_rate": 6.655383717150847e-05,
      "loss": 3.3987,
      "step": 330760
    },
    {
      "epoch": 0.6891041666666666,
      "grad_norm": 1.1029168367385864,
      "learning_rate": 6.654564512628538e-05,
      "loss": 3.5314,
      "step": 330770
    },
    {
      "epoch": 0.689125,
      "grad_norm": 1.2614502906799316,
      "learning_rate": 6.653745344155212e-05,
      "loss": 3.4976,
      "step": 330780
    },
    {
      "epoch": 0.6891458333333333,
      "grad_norm": 1.2015039920806885,
      "learning_rate": 6.652926211734408e-05,
      "loss": 3.4591,
      "step": 330790
    },
    {
      "epoch": 0.6891666666666667,
      "grad_norm": 1.154801845550537,
      "learning_rate": 6.652107115369648e-05,
      "loss": 3.5396,
      "step": 330800
    },
    {
      "epoch": 0.6891875,
      "grad_norm": 1.2944380044937134,
      "learning_rate": 6.651288055064485e-05,
      "loss": 3.6008,
      "step": 330810
    },
    {
      "epoch": 0.6892083333333333,
      "grad_norm": 1.1779416799545288,
      "learning_rate": 6.65046903082246e-05,
      "loss": 3.5505,
      "step": 330820
    },
    {
      "epoch": 0.6892291666666667,
      "grad_norm": 1.1947269439697266,
      "learning_rate": 6.649650042647093e-05,
      "loss": 3.3729,
      "step": 330830
    },
    {
      "epoch": 0.68925,
      "grad_norm": 1.2668722867965698,
      "learning_rate": 6.648831090541944e-05,
      "loss": 3.5044,
      "step": 330840
    },
    {
      "epoch": 0.6892708333333334,
      "grad_norm": 1.119503140449524,
      "learning_rate": 6.648012174510533e-05,
      "loss": 3.5335,
      "step": 330850
    },
    {
      "epoch": 0.6892916666666666,
      "grad_norm": 1.425263524055481,
      "learning_rate": 6.647193294556398e-05,
      "loss": 3.4374,
      "step": 330860
    },
    {
      "epoch": 0.6893125,
      "grad_norm": 1.2176462411880493,
      "learning_rate": 6.646374450683092e-05,
      "loss": 3.6201,
      "step": 330870
    },
    {
      "epoch": 0.6893333333333334,
      "grad_norm": 1.216318130493164,
      "learning_rate": 6.645555642894136e-05,
      "loss": 3.4971,
      "step": 330880
    },
    {
      "epoch": 0.6893541666666667,
      "grad_norm": 1.1640312671661377,
      "learning_rate": 6.64473687119307e-05,
      "loss": 3.5656,
      "step": 330890
    },
    {
      "epoch": 0.689375,
      "grad_norm": 1.4489800930023193,
      "learning_rate": 6.643918135583441e-05,
      "loss": 3.4874,
      "step": 330900
    },
    {
      "epoch": 0.6893958333333333,
      "grad_norm": 1.2212578058242798,
      "learning_rate": 6.643099436068773e-05,
      "loss": 3.4093,
      "step": 330910
    },
    {
      "epoch": 0.6894166666666667,
      "grad_norm": 1.2425769567489624,
      "learning_rate": 6.642280772652608e-05,
      "loss": 3.5007,
      "step": 330920
    },
    {
      "epoch": 0.6894375,
      "grad_norm": 1.2621527910232544,
      "learning_rate": 6.641462145338484e-05,
      "loss": 3.5763,
      "step": 330930
    },
    {
      "epoch": 0.6894583333333333,
      "grad_norm": 2.049015522003174,
      "learning_rate": 6.640643554129933e-05,
      "loss": 3.393,
      "step": 330940
    },
    {
      "epoch": 0.6894791666666666,
      "grad_norm": 1.2053862810134888,
      "learning_rate": 6.639824999030493e-05,
      "loss": 3.5191,
      "step": 330950
    },
    {
      "epoch": 0.6895,
      "grad_norm": 1.2646487951278687,
      "learning_rate": 6.6390064800437e-05,
      "loss": 3.6641,
      "step": 330960
    },
    {
      "epoch": 0.6895208333333334,
      "grad_norm": 1.5094490051269531,
      "learning_rate": 6.63818799717309e-05,
      "loss": 3.6131,
      "step": 330970
    },
    {
      "epoch": 0.6895416666666667,
      "grad_norm": 1.1710327863693237,
      "learning_rate": 6.637369550422197e-05,
      "loss": 3.4515,
      "step": 330980
    },
    {
      "epoch": 0.6895625,
      "grad_norm": 1.2677820920944214,
      "learning_rate": 6.636551139794559e-05,
      "loss": 3.7207,
      "step": 330990
    },
    {
      "epoch": 0.6895833333333333,
      "grad_norm": 1.2796934843063354,
      "learning_rate": 6.635732765293708e-05,
      "loss": 3.5571,
      "step": 331000
    },
    {
      "epoch": 0.6895833333333333,
      "eval_loss": 3.546452760696411,
      "eval_runtime": 7.3345,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 331000
    },
    {
      "epoch": 0.6896041666666667,
      "grad_norm": 1.245627999305725,
      "learning_rate": 6.634914426923181e-05,
      "loss": 3.5409,
      "step": 331010
    },
    {
      "epoch": 0.689625,
      "grad_norm": 1.7835100889205933,
      "learning_rate": 6.634096124686514e-05,
      "loss": 3.5209,
      "step": 331020
    },
    {
      "epoch": 0.6896458333333333,
      "grad_norm": 1.1998019218444824,
      "learning_rate": 6.633277858587238e-05,
      "loss": 3.4818,
      "step": 331030
    },
    {
      "epoch": 0.6896666666666667,
      "grad_norm": 1.1593904495239258,
      "learning_rate": 6.632459628628891e-05,
      "loss": 3.364,
      "step": 331040
    },
    {
      "epoch": 0.6896875,
      "grad_norm": 1.160751223564148,
      "learning_rate": 6.631641434815006e-05,
      "loss": 3.5067,
      "step": 331050
    },
    {
      "epoch": 0.6897083333333334,
      "grad_norm": 1.126752257347107,
      "learning_rate": 6.630823277149119e-05,
      "loss": 3.7116,
      "step": 331060
    },
    {
      "epoch": 0.6897291666666666,
      "grad_norm": 1.1930773258209229,
      "learning_rate": 6.630005155634766e-05,
      "loss": 3.5402,
      "step": 331070
    },
    {
      "epoch": 0.68975,
      "grad_norm": 1.236448884010315,
      "learning_rate": 6.629187070275467e-05,
      "loss": 3.4185,
      "step": 331080
    },
    {
      "epoch": 0.6897708333333333,
      "grad_norm": 1.2014046907424927,
      "learning_rate": 6.628369021074773e-05,
      "loss": 3.3945,
      "step": 331090
    },
    {
      "epoch": 0.6897916666666667,
      "grad_norm": 1.1111994981765747,
      "learning_rate": 6.627551008036217e-05,
      "loss": 3.3926,
      "step": 331100
    },
    {
      "epoch": 0.6898125,
      "grad_norm": 1.1625032424926758,
      "learning_rate": 6.626733031163314e-05,
      "loss": 3.5875,
      "step": 331110
    },
    {
      "epoch": 0.6898333333333333,
      "grad_norm": 1.2420620918273926,
      "learning_rate": 6.625915090459617e-05,
      "loss": 3.3986,
      "step": 331120
    },
    {
      "epoch": 0.6898541666666667,
      "grad_norm": 1.1825690269470215,
      "learning_rate": 6.625097185928657e-05,
      "loss": 3.4792,
      "step": 331130
    },
    {
      "epoch": 0.689875,
      "grad_norm": 1.1265920400619507,
      "learning_rate": 6.62427931757395e-05,
      "loss": 3.5184,
      "step": 331140
    },
    {
      "epoch": 0.6898958333333334,
      "grad_norm": 1.358234167098999,
      "learning_rate": 6.623461485399048e-05,
      "loss": 3.548,
      "step": 331150
    },
    {
      "epoch": 0.6899166666666666,
      "grad_norm": 1.198167085647583,
      "learning_rate": 6.622643689407482e-05,
      "loss": 3.5135,
      "step": 331160
    },
    {
      "epoch": 0.6899375,
      "grad_norm": 1.1620935201644897,
      "learning_rate": 6.621825929602768e-05,
      "loss": 3.4243,
      "step": 331170
    },
    {
      "epoch": 0.6899583333333333,
      "grad_norm": 5.672237396240234,
      "learning_rate": 6.621008205988455e-05,
      "loss": 3.5672,
      "step": 331180
    },
    {
      "epoch": 0.6899791666666667,
      "grad_norm": 1.1679986715316772,
      "learning_rate": 6.620190518568076e-05,
      "loss": 3.3483,
      "step": 331190
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1906405687332153,
      "learning_rate": 6.619372867345145e-05,
      "loss": 3.5047,
      "step": 331200
    },
    {
      "epoch": 0.6900208333333333,
      "grad_norm": 1.2918554544448853,
      "learning_rate": 6.618555252323218e-05,
      "loss": 3.5929,
      "step": 331210
    },
    {
      "epoch": 0.6900416666666667,
      "grad_norm": 1.0878323316574097,
      "learning_rate": 6.617737673505808e-05,
      "loss": 3.5182,
      "step": 331220
    },
    {
      "epoch": 0.6900625,
      "grad_norm": 1.2860037088394165,
      "learning_rate": 6.616920130896454e-05,
      "loss": 3.3635,
      "step": 331230
    },
    {
      "epoch": 0.6900833333333334,
      "grad_norm": 1.1624399423599243,
      "learning_rate": 6.616102624498688e-05,
      "loss": 3.631,
      "step": 331240
    },
    {
      "epoch": 0.6901041666666666,
      "grad_norm": 1.2882083654403687,
      "learning_rate": 6.615285154316038e-05,
      "loss": 3.459,
      "step": 331250
    },
    {
      "epoch": 0.690125,
      "grad_norm": 1.1742722988128662,
      "learning_rate": 6.614467720352039e-05,
      "loss": 3.4725,
      "step": 331260
    },
    {
      "epoch": 0.6901458333333333,
      "grad_norm": 1.2298341989517212,
      "learning_rate": 6.613650322610218e-05,
      "loss": 3.3848,
      "step": 331270
    },
    {
      "epoch": 0.6901666666666667,
      "grad_norm": 1.3028373718261719,
      "learning_rate": 6.61283296109411e-05,
      "loss": 3.4402,
      "step": 331280
    },
    {
      "epoch": 0.6901875,
      "grad_norm": 1.1361380815505981,
      "learning_rate": 6.612015635807244e-05,
      "loss": 3.5824,
      "step": 331290
    },
    {
      "epoch": 0.6902083333333333,
      "grad_norm": 1.2229470014572144,
      "learning_rate": 6.61119834675315e-05,
      "loss": 3.5214,
      "step": 331300
    },
    {
      "epoch": 0.6902291666666667,
      "grad_norm": 1.234775185585022,
      "learning_rate": 6.610381093935358e-05,
      "loss": 3.7045,
      "step": 331310
    },
    {
      "epoch": 0.69025,
      "grad_norm": 1.1329201459884644,
      "learning_rate": 6.609563877357398e-05,
      "loss": 3.5823,
      "step": 331320
    },
    {
      "epoch": 0.6902708333333333,
      "grad_norm": 1.18764328956604,
      "learning_rate": 6.608746697022802e-05,
      "loss": 3.4044,
      "step": 331330
    },
    {
      "epoch": 0.6902916666666666,
      "grad_norm": 1.3056135177612305,
      "learning_rate": 6.607929552935098e-05,
      "loss": 3.5135,
      "step": 331340
    },
    {
      "epoch": 0.6903125,
      "grad_norm": 1.179565191268921,
      "learning_rate": 6.607112445097818e-05,
      "loss": 3.4508,
      "step": 331350
    },
    {
      "epoch": 0.6903333333333334,
      "grad_norm": 1.228921890258789,
      "learning_rate": 6.606295373514489e-05,
      "loss": 3.3365,
      "step": 331360
    },
    {
      "epoch": 0.6903541666666667,
      "grad_norm": 1.140051245689392,
      "learning_rate": 6.605478338188642e-05,
      "loss": 3.6152,
      "step": 331370
    },
    {
      "epoch": 0.690375,
      "grad_norm": 1.268196940422058,
      "learning_rate": 6.604661339123805e-05,
      "loss": 3.4291,
      "step": 331380
    },
    {
      "epoch": 0.6903958333333333,
      "grad_norm": 1.2915881872177124,
      "learning_rate": 6.603844376323508e-05,
      "loss": 3.4196,
      "step": 331390
    },
    {
      "epoch": 0.6904166666666667,
      "grad_norm": 1.2154159545898438,
      "learning_rate": 6.603027449791282e-05,
      "loss": 3.4327,
      "step": 331400
    },
    {
      "epoch": 0.6904375,
      "grad_norm": 1.105998158454895,
      "learning_rate": 6.602210559530652e-05,
      "loss": 3.6508,
      "step": 331410
    },
    {
      "epoch": 0.6904583333333333,
      "grad_norm": 1.2437034845352173,
      "learning_rate": 6.601393705545147e-05,
      "loss": 3.4639,
      "step": 331420
    },
    {
      "epoch": 0.6904791666666666,
      "grad_norm": 1.2147912979125977,
      "learning_rate": 6.600576887838297e-05,
      "loss": 3.3801,
      "step": 331430
    },
    {
      "epoch": 0.6905,
      "grad_norm": 1.2219476699829102,
      "learning_rate": 6.599760106413638e-05,
      "loss": 3.4564,
      "step": 331440
    },
    {
      "epoch": 0.6905208333333334,
      "grad_norm": 1.308342695236206,
      "learning_rate": 6.598943361274678e-05,
      "loss": 3.4401,
      "step": 331450
    },
    {
      "epoch": 0.6905416666666667,
      "grad_norm": 1.392662525177002,
      "learning_rate": 6.598126652424963e-05,
      "loss": 3.5086,
      "step": 331460
    },
    {
      "epoch": 0.6905625,
      "grad_norm": 1.250421404838562,
      "learning_rate": 6.59730997986802e-05,
      "loss": 3.4737,
      "step": 331470
    },
    {
      "epoch": 0.6905833333333333,
      "grad_norm": 1.216992735862732,
      "learning_rate": 6.596493343607361e-05,
      "loss": 3.4894,
      "step": 331480
    },
    {
      "epoch": 0.6906041666666667,
      "grad_norm": 1.2636194229125977,
      "learning_rate": 6.59567674364653e-05,
      "loss": 3.5104,
      "step": 331490
    },
    {
      "epoch": 0.690625,
      "grad_norm": 1.1977133750915527,
      "learning_rate": 6.594860179989055e-05,
      "loss": 3.5359,
      "step": 331500
    },
    {
      "epoch": 0.6906458333333333,
      "grad_norm": 1.2006127834320068,
      "learning_rate": 6.594043652638452e-05,
      "loss": 3.6346,
      "step": 331510
    },
    {
      "epoch": 0.6906666666666667,
      "grad_norm": 1.1906315088272095,
      "learning_rate": 6.593227161598246e-05,
      "loss": 3.5677,
      "step": 331520
    },
    {
      "epoch": 0.6906875,
      "grad_norm": 1.2209665775299072,
      "learning_rate": 6.592410706871983e-05,
      "loss": 3.4545,
      "step": 331530
    },
    {
      "epoch": 0.6907083333333334,
      "grad_norm": 1.3038501739501953,
      "learning_rate": 6.591594288463172e-05,
      "loss": 3.4023,
      "step": 331540
    },
    {
      "epoch": 0.6907291666666666,
      "grad_norm": 1.160959243774414,
      "learning_rate": 6.59077790637534e-05,
      "loss": 3.5532,
      "step": 331550
    },
    {
      "epoch": 0.69075,
      "grad_norm": 1.147896409034729,
      "learning_rate": 6.589961560612029e-05,
      "loss": 3.6827,
      "step": 331560
    },
    {
      "epoch": 0.6907708333333333,
      "grad_norm": 1.4324591159820557,
      "learning_rate": 6.589145251176751e-05,
      "loss": 3.5906,
      "step": 331570
    },
    {
      "epoch": 0.6907916666666667,
      "grad_norm": 1.2891128063201904,
      "learning_rate": 6.588328978073034e-05,
      "loss": 3.5172,
      "step": 331580
    },
    {
      "epoch": 0.6908125,
      "grad_norm": 1.2839362621307373,
      "learning_rate": 6.587512741304409e-05,
      "loss": 3.4236,
      "step": 331590
    },
    {
      "epoch": 0.6908333333333333,
      "grad_norm": 1.262414574623108,
      "learning_rate": 6.586696540874399e-05,
      "loss": 3.3882,
      "step": 331600
    },
    {
      "epoch": 0.6908541666666667,
      "grad_norm": 1.1851061582565308,
      "learning_rate": 6.585880376786529e-05,
      "loss": 3.545,
      "step": 331610
    },
    {
      "epoch": 0.690875,
      "grad_norm": 1.1197524070739746,
      "learning_rate": 6.585064249044323e-05,
      "loss": 3.4381,
      "step": 331620
    },
    {
      "epoch": 0.6908958333333334,
      "grad_norm": 1.1388760805130005,
      "learning_rate": 6.584248157651312e-05,
      "loss": 3.5966,
      "step": 331630
    },
    {
      "epoch": 0.6909166666666666,
      "grad_norm": 1.1915910243988037,
      "learning_rate": 6.583432102611016e-05,
      "loss": 3.4163,
      "step": 331640
    },
    {
      "epoch": 0.6909375,
      "grad_norm": 1.4412155151367188,
      "learning_rate": 6.582616083926961e-05,
      "loss": 3.4598,
      "step": 331650
    },
    {
      "epoch": 0.6909583333333333,
      "grad_norm": 1.1615132093429565,
      "learning_rate": 6.581800101602674e-05,
      "loss": 3.4952,
      "step": 331660
    },
    {
      "epoch": 0.6909791666666667,
      "grad_norm": 1.1360417604446411,
      "learning_rate": 6.580984155641679e-05,
      "loss": 3.3655,
      "step": 331670
    },
    {
      "epoch": 0.691,
      "grad_norm": 1.1789889335632324,
      "learning_rate": 6.580168246047498e-05,
      "loss": 3.5126,
      "step": 331680
    },
    {
      "epoch": 0.6910208333333333,
      "grad_norm": 1.2636692523956299,
      "learning_rate": 6.579352372823659e-05,
      "loss": 3.4457,
      "step": 331690
    },
    {
      "epoch": 0.6910416666666667,
      "grad_norm": 1.2624332904815674,
      "learning_rate": 6.578536535973684e-05,
      "loss": 3.5678,
      "step": 331700
    },
    {
      "epoch": 0.6910625,
      "grad_norm": 1.2486162185668945,
      "learning_rate": 6.577720735501099e-05,
      "loss": 3.7675,
      "step": 331710
    },
    {
      "epoch": 0.6910833333333334,
      "grad_norm": 1.239210844039917,
      "learning_rate": 6.576904971409425e-05,
      "loss": 3.4225,
      "step": 331720
    },
    {
      "epoch": 0.6911041666666666,
      "grad_norm": 1.1002508401870728,
      "learning_rate": 6.576089243702187e-05,
      "loss": 3.529,
      "step": 331730
    },
    {
      "epoch": 0.691125,
      "grad_norm": 1.2176569700241089,
      "learning_rate": 6.57527355238291e-05,
      "loss": 3.4887,
      "step": 331740
    },
    {
      "epoch": 0.6911458333333333,
      "grad_norm": 1.1662155389785767,
      "learning_rate": 6.574457897455118e-05,
      "loss": 3.4245,
      "step": 331750
    },
    {
      "epoch": 0.6911666666666667,
      "grad_norm": 1.0897064208984375,
      "learning_rate": 6.57364227892233e-05,
      "loss": 3.536,
      "step": 331760
    },
    {
      "epoch": 0.6911875,
      "grad_norm": 1.1602132320404053,
      "learning_rate": 6.572826696788074e-05,
      "loss": 3.4406,
      "step": 331770
    },
    {
      "epoch": 0.6912083333333333,
      "grad_norm": 1.2175081968307495,
      "learning_rate": 6.572011151055871e-05,
      "loss": 3.424,
      "step": 331780
    },
    {
      "epoch": 0.6912291666666667,
      "grad_norm": 1.2183996438980103,
      "learning_rate": 6.571195641729242e-05,
      "loss": 3.5965,
      "step": 331790
    },
    {
      "epoch": 0.69125,
      "grad_norm": 1.2052278518676758,
      "learning_rate": 6.570380168811713e-05,
      "loss": 3.4778,
      "step": 331800
    },
    {
      "epoch": 0.6912708333333333,
      "grad_norm": 1.3117711544036865,
      "learning_rate": 6.569564732306805e-05,
      "loss": 3.6678,
      "step": 331810
    },
    {
      "epoch": 0.6912916666666666,
      "grad_norm": 1.2684369087219238,
      "learning_rate": 6.568749332218044e-05,
      "loss": 3.6666,
      "step": 331820
    },
    {
      "epoch": 0.6913125,
      "grad_norm": 1.1763280630111694,
      "learning_rate": 6.56793396854894e-05,
      "loss": 3.4674,
      "step": 331830
    },
    {
      "epoch": 0.6913333333333334,
      "grad_norm": 1.1530011892318726,
      "learning_rate": 6.567118641303035e-05,
      "loss": 3.473,
      "step": 331840
    },
    {
      "epoch": 0.6913541666666667,
      "grad_norm": 1.3161917924880981,
      "learning_rate": 6.566303350483832e-05,
      "loss": 3.5831,
      "step": 331850
    },
    {
      "epoch": 0.691375,
      "grad_norm": 1.143964409828186,
      "learning_rate": 6.565488096094854e-05,
      "loss": 3.5807,
      "step": 331860
    },
    {
      "epoch": 0.6913958333333333,
      "grad_norm": 1.1519869565963745,
      "learning_rate": 6.564672878139641e-05,
      "loss": 3.5398,
      "step": 331870
    },
    {
      "epoch": 0.6914166666666667,
      "grad_norm": 1.2485493421554565,
      "learning_rate": 6.563857696621696e-05,
      "loss": 3.4035,
      "step": 331880
    },
    {
      "epoch": 0.6914375,
      "grad_norm": 1.1286773681640625,
      "learning_rate": 6.563042551544542e-05,
      "loss": 3.6136,
      "step": 331890
    },
    {
      "epoch": 0.6914583333333333,
      "grad_norm": 1.1643606424331665,
      "learning_rate": 6.562227442911717e-05,
      "loss": 3.4225,
      "step": 331900
    },
    {
      "epoch": 0.6914791666666666,
      "grad_norm": 1.149617314338684,
      "learning_rate": 6.561412370726722e-05,
      "loss": 3.587,
      "step": 331910
    },
    {
      "epoch": 0.6915,
      "grad_norm": 1.229629635810852,
      "learning_rate": 6.56059733499308e-05,
      "loss": 3.6157,
      "step": 331920
    },
    {
      "epoch": 0.6915208333333334,
      "grad_norm": 1.1766911745071411,
      "learning_rate": 6.559782335714329e-05,
      "loss": 3.3838,
      "step": 331930
    },
    {
      "epoch": 0.6915416666666667,
      "grad_norm": 1.2230122089385986,
      "learning_rate": 6.558967372893971e-05,
      "loss": 3.5261,
      "step": 331940
    },
    {
      "epoch": 0.6915625,
      "grad_norm": 1.2616184949874878,
      "learning_rate": 6.558152446535534e-05,
      "loss": 3.5496,
      "step": 331950
    },
    {
      "epoch": 0.6915833333333333,
      "grad_norm": 1.4697754383087158,
      "learning_rate": 6.557337556642535e-05,
      "loss": 3.4268,
      "step": 331960
    },
    {
      "epoch": 0.6916041666666667,
      "grad_norm": 1.1873797178268433,
      "learning_rate": 6.556522703218498e-05,
      "loss": 3.433,
      "step": 331970
    },
    {
      "epoch": 0.691625,
      "grad_norm": 2.0555386543273926,
      "learning_rate": 6.555707886266937e-05,
      "loss": 3.5147,
      "step": 331980
    },
    {
      "epoch": 0.6916458333333333,
      "grad_norm": 1.1522488594055176,
      "learning_rate": 6.55489310579138e-05,
      "loss": 3.5313,
      "step": 331990
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 1.203036904335022,
      "learning_rate": 6.55407836179534e-05,
      "loss": 3.3876,
      "step": 332000
    },
    {
      "epoch": 0.6916666666666667,
      "eval_loss": 3.544538974761963,
      "eval_runtime": 6.9853,
      "eval_samples_per_second": 1.432,
      "eval_steps_per_second": 0.429,
      "step": 332000
    },
    {
      "epoch": 0.6916875,
      "grad_norm": 1.2264777421951294,
      "learning_rate": 6.553263654282337e-05,
      "loss": 3.4813,
      "step": 332010
    },
    {
      "epoch": 0.6917083333333334,
      "grad_norm": 1.1909090280532837,
      "learning_rate": 6.552448983255893e-05,
      "loss": 3.3962,
      "step": 332020
    },
    {
      "epoch": 0.6917291666666666,
      "grad_norm": 1.136224627494812,
      "learning_rate": 6.551634348719527e-05,
      "loss": 3.3988,
      "step": 332030
    },
    {
      "epoch": 0.69175,
      "grad_norm": 1.2841678857803345,
      "learning_rate": 6.550819750676753e-05,
      "loss": 3.5785,
      "step": 332040
    },
    {
      "epoch": 0.6917708333333333,
      "grad_norm": 1.1980891227722168,
      "learning_rate": 6.550005189131097e-05,
      "loss": 3.555,
      "step": 332050
    },
    {
      "epoch": 0.6917916666666667,
      "grad_norm": 1.1736325025558472,
      "learning_rate": 6.549190664086072e-05,
      "loss": 3.6061,
      "step": 332060
    },
    {
      "epoch": 0.6918125,
      "grad_norm": 1.25928795337677,
      "learning_rate": 6.548376175545198e-05,
      "loss": 3.5074,
      "step": 332070
    },
    {
      "epoch": 0.6918333333333333,
      "grad_norm": 1.2902817726135254,
      "learning_rate": 6.547561723511994e-05,
      "loss": 3.4376,
      "step": 332080
    },
    {
      "epoch": 0.6918541666666667,
      "grad_norm": 1.28460693359375,
      "learning_rate": 6.546747307989977e-05,
      "loss": 3.5129,
      "step": 332090
    },
    {
      "epoch": 0.691875,
      "grad_norm": 1.113831639289856,
      "learning_rate": 6.545932928982673e-05,
      "loss": 3.5542,
      "step": 332100
    },
    {
      "epoch": 0.6918958333333334,
      "grad_norm": 1.2700035572052002,
      "learning_rate": 6.54511858649358e-05,
      "loss": 3.3742,
      "step": 332110
    },
    {
      "epoch": 0.6919166666666666,
      "grad_norm": 1.1314365863800049,
      "learning_rate": 6.544304280526234e-05,
      "loss": 3.5137,
      "step": 332120
    },
    {
      "epoch": 0.6919375,
      "grad_norm": 1.1469935178756714,
      "learning_rate": 6.54349001108415e-05,
      "loss": 3.5193,
      "step": 332130
    },
    {
      "epoch": 0.6919583333333333,
      "grad_norm": 1.2002612352371216,
      "learning_rate": 6.542675778170833e-05,
      "loss": 3.4247,
      "step": 332140
    },
    {
      "epoch": 0.6919791666666667,
      "grad_norm": 1.252945899963379,
      "learning_rate": 6.541861581789814e-05,
      "loss": 3.5334,
      "step": 332150
    },
    {
      "epoch": 0.692,
      "grad_norm": 1.1852879524230957,
      "learning_rate": 6.541047421944611e-05,
      "loss": 3.4949,
      "step": 332160
    },
    {
      "epoch": 0.6920208333333333,
      "grad_norm": 1.440281867980957,
      "learning_rate": 6.540233298638722e-05,
      "loss": 3.5714,
      "step": 332170
    },
    {
      "epoch": 0.6920416666666667,
      "grad_norm": 1.3761636018753052,
      "learning_rate": 6.539419211875685e-05,
      "loss": 3.6043,
      "step": 332180
    },
    {
      "epoch": 0.6920625,
      "grad_norm": 1.3666139841079712,
      "learning_rate": 6.538605161659011e-05,
      "loss": 3.5241,
      "step": 332190
    },
    {
      "epoch": 0.6920833333333334,
      "grad_norm": 1.3608075380325317,
      "learning_rate": 6.537791147992204e-05,
      "loss": 3.5044,
      "step": 332200
    },
    {
      "epoch": 0.6921041666666666,
      "grad_norm": 1.2624984979629517,
      "learning_rate": 6.536977170878801e-05,
      "loss": 3.5789,
      "step": 332210
    },
    {
      "epoch": 0.692125,
      "grad_norm": 1.147896647453308,
      "learning_rate": 6.536163230322299e-05,
      "loss": 3.6684,
      "step": 332220
    },
    {
      "epoch": 0.6921458333333333,
      "grad_norm": 1.7390180826187134,
      "learning_rate": 6.535349326326218e-05,
      "loss": 3.2726,
      "step": 332230
    },
    {
      "epoch": 0.6921666666666667,
      "grad_norm": 1.163450002670288,
      "learning_rate": 6.534535458894087e-05,
      "loss": 3.5665,
      "step": 332240
    },
    {
      "epoch": 0.6921875,
      "grad_norm": 1.2658567428588867,
      "learning_rate": 6.533721628029408e-05,
      "loss": 3.4756,
      "step": 332250
    },
    {
      "epoch": 0.6922083333333333,
      "grad_norm": 1.1891809701919556,
      "learning_rate": 6.532907833735694e-05,
      "loss": 3.434,
      "step": 332260
    },
    {
      "epoch": 0.6922291666666667,
      "grad_norm": 1.1820513010025024,
      "learning_rate": 6.532094076016477e-05,
      "loss": 3.6173,
      "step": 332270
    },
    {
      "epoch": 0.69225,
      "grad_norm": 1.254810094833374,
      "learning_rate": 6.531280354875258e-05,
      "loss": 3.4488,
      "step": 332280
    },
    {
      "epoch": 0.6922708333333333,
      "grad_norm": 1.1611398458480835,
      "learning_rate": 6.530466670315549e-05,
      "loss": 3.549,
      "step": 332290
    },
    {
      "epoch": 0.6922916666666666,
      "grad_norm": 1.2220141887664795,
      "learning_rate": 6.529653022340883e-05,
      "loss": 3.537,
      "step": 332300
    },
    {
      "epoch": 0.6923125,
      "grad_norm": 1.1383825540542603,
      "learning_rate": 6.528839410954757e-05,
      "loss": 3.5829,
      "step": 332310
    },
    {
      "epoch": 0.6923333333333334,
      "grad_norm": 1.2181346416473389,
      "learning_rate": 6.528025836160687e-05,
      "loss": 3.5551,
      "step": 332320
    },
    {
      "epoch": 0.6923541666666667,
      "grad_norm": 1.233840823173523,
      "learning_rate": 6.527212297962202e-05,
      "loss": 3.586,
      "step": 332330
    },
    {
      "epoch": 0.692375,
      "grad_norm": 1.116585373878479,
      "learning_rate": 6.526398796362801e-05,
      "loss": 3.4866,
      "step": 332340
    },
    {
      "epoch": 0.6923958333333333,
      "grad_norm": 1.176954746246338,
      "learning_rate": 6.525585331366003e-05,
      "loss": 3.5316,
      "step": 332350
    },
    {
      "epoch": 0.6924166666666667,
      "grad_norm": 1.1226991415023804,
      "learning_rate": 6.524771902975323e-05,
      "loss": 3.4441,
      "step": 332360
    },
    {
      "epoch": 0.6924375,
      "grad_norm": 1.176805019378662,
      "learning_rate": 6.523958511194273e-05,
      "loss": 3.5226,
      "step": 332370
    },
    {
      "epoch": 0.6924583333333333,
      "grad_norm": 1.2097265720367432,
      "learning_rate": 6.523145156026365e-05,
      "loss": 3.4938,
      "step": 332380
    },
    {
      "epoch": 0.6924791666666666,
      "grad_norm": 1.1929742097854614,
      "learning_rate": 6.522331837475119e-05,
      "loss": 3.4032,
      "step": 332390
    },
    {
      "epoch": 0.6925,
      "grad_norm": 2.567025661468506,
      "learning_rate": 6.52151855554404e-05,
      "loss": 3.6745,
      "step": 332400
    },
    {
      "epoch": 0.6925208333333334,
      "grad_norm": 1.2115017175674438,
      "learning_rate": 6.520705310236646e-05,
      "loss": 3.4766,
      "step": 332410
    },
    {
      "epoch": 0.6925416666666667,
      "grad_norm": 1.1939518451690674,
      "learning_rate": 6.51989210155645e-05,
      "loss": 3.5108,
      "step": 332420
    },
    {
      "epoch": 0.6925625,
      "grad_norm": 1.202048897743225,
      "learning_rate": 6.519078929506962e-05,
      "loss": 3.5745,
      "step": 332430
    },
    {
      "epoch": 0.6925833333333333,
      "grad_norm": 1.1040078401565552,
      "learning_rate": 6.518265794091703e-05,
      "loss": 3.4545,
      "step": 332440
    },
    {
      "epoch": 0.6926041666666667,
      "grad_norm": 1.1062393188476562,
      "learning_rate": 6.517452695314164e-05,
      "loss": 3.5985,
      "step": 332450
    },
    {
      "epoch": 0.692625,
      "grad_norm": 1.28441321849823,
      "learning_rate": 6.51663963317788e-05,
      "loss": 3.6376,
      "step": 332460
    },
    {
      "epoch": 0.6926458333333333,
      "grad_norm": 1.0924556255340576,
      "learning_rate": 6.51582660768636e-05,
      "loss": 3.4711,
      "step": 332470
    },
    {
      "epoch": 0.6926666666666667,
      "grad_norm": 1.273170828819275,
      "learning_rate": 6.5150136188431e-05,
      "loss": 3.5326,
      "step": 332480
    },
    {
      "epoch": 0.6926875,
      "grad_norm": 1.390440583229065,
      "learning_rate": 6.514200666651628e-05,
      "loss": 3.7256,
      "step": 332490
    },
    {
      "epoch": 0.6927083333333334,
      "grad_norm": 1.2461799383163452,
      "learning_rate": 6.513387751115456e-05,
      "loss": 3.5455,
      "step": 332500
    },
    {
      "epoch": 0.6927291666666666,
      "grad_norm": 1.1066169738769531,
      "learning_rate": 6.512574872238078e-05,
      "loss": 3.4541,
      "step": 332510
    },
    {
      "epoch": 0.69275,
      "grad_norm": 1.1472370624542236,
      "learning_rate": 6.511762030023023e-05,
      "loss": 3.4579,
      "step": 332520
    },
    {
      "epoch": 0.6927708333333333,
      "grad_norm": 1.216668725013733,
      "learning_rate": 6.5109492244738e-05,
      "loss": 3.4969,
      "step": 332530
    },
    {
      "epoch": 0.6927916666666667,
      "grad_norm": 1.3442670106887817,
      "learning_rate": 6.510136455593906e-05,
      "loss": 3.5763,
      "step": 332540
    },
    {
      "epoch": 0.6928125,
      "grad_norm": 1.172122597694397,
      "learning_rate": 6.50932372338687e-05,
      "loss": 3.444,
      "step": 332550
    },
    {
      "epoch": 0.6928333333333333,
      "grad_norm": 1.285996437072754,
      "learning_rate": 6.508511027856198e-05,
      "loss": 3.4046,
      "step": 332560
    },
    {
      "epoch": 0.6928541666666667,
      "grad_norm": 1.2061264514923096,
      "learning_rate": 6.507698369005386e-05,
      "loss": 3.5277,
      "step": 332570
    },
    {
      "epoch": 0.692875,
      "grad_norm": 1.1807537078857422,
      "learning_rate": 6.506885746837966e-05,
      "loss": 3.6006,
      "step": 332580
    },
    {
      "epoch": 0.6928958333333334,
      "grad_norm": 1.3919551372528076,
      "learning_rate": 6.506073161357433e-05,
      "loss": 3.548,
      "step": 332590
    },
    {
      "epoch": 0.6929166666666666,
      "grad_norm": 1.155006766319275,
      "learning_rate": 6.505260612567297e-05,
      "loss": 3.5343,
      "step": 332600
    },
    {
      "epoch": 0.6929375,
      "grad_norm": 1.1131583452224731,
      "learning_rate": 6.504448100471083e-05,
      "loss": 3.4312,
      "step": 332610
    },
    {
      "epoch": 0.6929583333333333,
      "grad_norm": 1.2169172763824463,
      "learning_rate": 6.503635625072286e-05,
      "loss": 3.4195,
      "step": 332620
    },
    {
      "epoch": 0.6929791666666667,
      "grad_norm": 1.1909524202346802,
      "learning_rate": 6.502823186374413e-05,
      "loss": 3.4581,
      "step": 332630
    },
    {
      "epoch": 0.693,
      "grad_norm": 1.2041311264038086,
      "learning_rate": 6.502010784380992e-05,
      "loss": 3.6171,
      "step": 332640
    },
    {
      "epoch": 0.6930208333333333,
      "grad_norm": 1.146264910697937,
      "learning_rate": 6.501198419095515e-05,
      "loss": 3.5188,
      "step": 332650
    },
    {
      "epoch": 0.6930416666666667,
      "grad_norm": 1.191640019416809,
      "learning_rate": 6.500386090521492e-05,
      "loss": 3.5386,
      "step": 332660
    },
    {
      "epoch": 0.6930625,
      "grad_norm": 1.1061073541641235,
      "learning_rate": 6.499573798662446e-05,
      "loss": 3.4106,
      "step": 332670
    },
    {
      "epoch": 0.6930833333333334,
      "grad_norm": 1.1547033786773682,
      "learning_rate": 6.498761543521873e-05,
      "loss": 3.4789,
      "step": 332680
    },
    {
      "epoch": 0.6931041666666666,
      "grad_norm": 1.1997699737548828,
      "learning_rate": 6.497949325103285e-05,
      "loss": 3.4977,
      "step": 332690
    },
    {
      "epoch": 0.693125,
      "grad_norm": 1.2136602401733398,
      "learning_rate": 6.497137143410189e-05,
      "loss": 3.5718,
      "step": 332700
    },
    {
      "epoch": 0.6931458333333333,
      "grad_norm": 1.2695305347442627,
      "learning_rate": 6.496324998446096e-05,
      "loss": 3.4165,
      "step": 332710
    },
    {
      "epoch": 0.6931666666666667,
      "grad_norm": 1.176855206489563,
      "learning_rate": 6.495512890214512e-05,
      "loss": 3.5062,
      "step": 332720
    },
    {
      "epoch": 0.6931875,
      "grad_norm": 1.2038938999176025,
      "learning_rate": 6.494700818718948e-05,
      "loss": 3.5021,
      "step": 332730
    },
    {
      "epoch": 0.6932083333333333,
      "grad_norm": 1.186292290687561,
      "learning_rate": 6.493888783962907e-05,
      "loss": 3.5565,
      "step": 332740
    },
    {
      "epoch": 0.6932291666666667,
      "grad_norm": 1.1655175685882568,
      "learning_rate": 6.493076785949902e-05,
      "loss": 3.5939,
      "step": 332750
    },
    {
      "epoch": 0.69325,
      "grad_norm": 1.1182317733764648,
      "learning_rate": 6.492264824683436e-05,
      "loss": 3.5063,
      "step": 332760
    },
    {
      "epoch": 0.6932708333333333,
      "grad_norm": 1.259277105331421,
      "learning_rate": 6.49145290016702e-05,
      "loss": 3.502,
      "step": 332770
    },
    {
      "epoch": 0.6932916666666666,
      "grad_norm": 1.1652159690856934,
      "learning_rate": 6.490641012404158e-05,
      "loss": 3.5509,
      "step": 332780
    },
    {
      "epoch": 0.6933125,
      "grad_norm": 1.1997795104980469,
      "learning_rate": 6.48982916139836e-05,
      "loss": 3.5025,
      "step": 332790
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 1.1692646741867065,
      "learning_rate": 6.489017347153131e-05,
      "loss": 3.6034,
      "step": 332800
    },
    {
      "epoch": 0.6933541666666667,
      "grad_norm": 1.1531219482421875,
      "learning_rate": 6.48820556967198e-05,
      "loss": 3.5751,
      "step": 332810
    },
    {
      "epoch": 0.693375,
      "grad_norm": 1.266528844833374,
      "learning_rate": 6.487393828958409e-05,
      "loss": 3.5189,
      "step": 332820
    },
    {
      "epoch": 0.6933958333333333,
      "grad_norm": 1.1856060028076172,
      "learning_rate": 6.486582125015928e-05,
      "loss": 3.4589,
      "step": 332830
    },
    {
      "epoch": 0.6934166666666667,
      "grad_norm": 1.1978249549865723,
      "learning_rate": 6.485770457848049e-05,
      "loss": 3.3942,
      "step": 332840
    },
    {
      "epoch": 0.6934375,
      "grad_norm": 1.2790520191192627,
      "learning_rate": 6.484958827458259e-05,
      "loss": 3.3795,
      "step": 332850
    },
    {
      "epoch": 0.6934583333333333,
      "grad_norm": 1.2331165075302124,
      "learning_rate": 6.484147233850082e-05,
      "loss": 3.3473,
      "step": 332860
    },
    {
      "epoch": 0.6934791666666666,
      "grad_norm": 1.2938376665115356,
      "learning_rate": 6.483335677027025e-05,
      "loss": 3.627,
      "step": 332870
    },
    {
      "epoch": 0.6935,
      "grad_norm": 1.1814157962799072,
      "learning_rate": 6.482524156992573e-05,
      "loss": 3.535,
      "step": 332880
    },
    {
      "epoch": 0.6935208333333334,
      "grad_norm": 1.2627633810043335,
      "learning_rate": 6.481712673750252e-05,
      "loss": 3.5341,
      "step": 332890
    },
    {
      "epoch": 0.6935416666666666,
      "grad_norm": 1.3942203521728516,
      "learning_rate": 6.480901227303566e-05,
      "loss": 3.5492,
      "step": 332900
    },
    {
      "epoch": 0.6935625,
      "grad_norm": 1.2671043872833252,
      "learning_rate": 6.480089817656004e-05,
      "loss": 3.3281,
      "step": 332910
    },
    {
      "epoch": 0.6935833333333333,
      "grad_norm": 1.1297931671142578,
      "learning_rate": 6.479278444811088e-05,
      "loss": 3.3883,
      "step": 332920
    },
    {
      "epoch": 0.6936041666666667,
      "grad_norm": 1.1359401941299438,
      "learning_rate": 6.47846710877232e-05,
      "loss": 3.5652,
      "step": 332930
    },
    {
      "epoch": 0.693625,
      "grad_norm": 1.2566696405410767,
      "learning_rate": 6.47765580954319e-05,
      "loss": 3.519,
      "step": 332940
    },
    {
      "epoch": 0.6936458333333333,
      "grad_norm": 1.1745573282241821,
      "learning_rate": 6.476844547127228e-05,
      "loss": 3.5101,
      "step": 332950
    },
    {
      "epoch": 0.6936666666666667,
      "grad_norm": 1.172202706336975,
      "learning_rate": 6.476033321527916e-05,
      "loss": 3.4932,
      "step": 332960
    },
    {
      "epoch": 0.6936875,
      "grad_norm": 1.1568903923034668,
      "learning_rate": 6.47522213274876e-05,
      "loss": 3.4153,
      "step": 332970
    },
    {
      "epoch": 0.6937083333333334,
      "grad_norm": 1.2761719226837158,
      "learning_rate": 6.474410980793281e-05,
      "loss": 3.375,
      "step": 332980
    },
    {
      "epoch": 0.6937291666666666,
      "grad_norm": 1.1845295429229736,
      "learning_rate": 6.473599865664967e-05,
      "loss": 3.5377,
      "step": 332990
    },
    {
      "epoch": 0.69375,
      "grad_norm": 1.1610068082809448,
      "learning_rate": 6.472788787367326e-05,
      "loss": 3.5703,
      "step": 333000
    },
    {
      "epoch": 0.69375,
      "eval_loss": 3.5494751930236816,
      "eval_runtime": 7.9867,
      "eval_samples_per_second": 1.252,
      "eval_steps_per_second": 0.376,
      "step": 333000
    },
    {
      "epoch": 0.6937708333333333,
      "grad_norm": 1.383986234664917,
      "learning_rate": 6.471977745903864e-05,
      "loss": 3.4517,
      "step": 333010
    },
    {
      "epoch": 0.6937916666666667,
      "grad_norm": 1.2692030668258667,
      "learning_rate": 6.471166741278079e-05,
      "loss": 3.5232,
      "step": 333020
    },
    {
      "epoch": 0.6938125,
      "grad_norm": 1.2975314855575562,
      "learning_rate": 6.470355773493481e-05,
      "loss": 3.626,
      "step": 333030
    },
    {
      "epoch": 0.6938333333333333,
      "grad_norm": 1.1613906621932983,
      "learning_rate": 6.469544842553568e-05,
      "loss": 3.5435,
      "step": 333040
    },
    {
      "epoch": 0.6938541666666667,
      "grad_norm": 1.2623302936553955,
      "learning_rate": 6.468733948461846e-05,
      "loss": 3.6175,
      "step": 333050
    },
    {
      "epoch": 0.693875,
      "grad_norm": 1.145954966545105,
      "learning_rate": 6.467923091221816e-05,
      "loss": 3.3542,
      "step": 333060
    },
    {
      "epoch": 0.6938958333333334,
      "grad_norm": 1.2316218614578247,
      "learning_rate": 6.467112270836981e-05,
      "loss": 3.4322,
      "step": 333070
    },
    {
      "epoch": 0.6939166666666666,
      "grad_norm": 1.174155354499817,
      "learning_rate": 6.466301487310842e-05,
      "loss": 3.4061,
      "step": 333080
    },
    {
      "epoch": 0.6939375,
      "grad_norm": 1.3492141962051392,
      "learning_rate": 6.465490740646904e-05,
      "loss": 3.4869,
      "step": 333090
    },
    {
      "epoch": 0.6939583333333333,
      "grad_norm": 1.1634293794631958,
      "learning_rate": 6.464680030848667e-05,
      "loss": 3.591,
      "step": 333100
    },
    {
      "epoch": 0.6939791666666667,
      "grad_norm": 1.305141568183899,
      "learning_rate": 6.463869357919635e-05,
      "loss": 3.5146,
      "step": 333110
    },
    {
      "epoch": 0.694,
      "grad_norm": 1.182634949684143,
      "learning_rate": 6.463058721863308e-05,
      "loss": 3.3894,
      "step": 333120
    },
    {
      "epoch": 0.6940208333333333,
      "grad_norm": 1.2088226079940796,
      "learning_rate": 6.462248122683188e-05,
      "loss": 3.3881,
      "step": 333130
    },
    {
      "epoch": 0.6940416666666667,
      "grad_norm": 1.1538077592849731,
      "learning_rate": 6.461437560382777e-05,
      "loss": 3.5137,
      "step": 333140
    },
    {
      "epoch": 0.6940625,
      "grad_norm": 1.1802005767822266,
      "learning_rate": 6.460627034965576e-05,
      "loss": 3.4832,
      "step": 333150
    },
    {
      "epoch": 0.6940833333333334,
      "grad_norm": 1.2720946073532104,
      "learning_rate": 6.459816546435085e-05,
      "loss": 3.5158,
      "step": 333160
    },
    {
      "epoch": 0.6941041666666666,
      "grad_norm": 1.1971205472946167,
      "learning_rate": 6.459006094794808e-05,
      "loss": 3.4715,
      "step": 333170
    },
    {
      "epoch": 0.694125,
      "grad_norm": 1.1466045379638672,
      "learning_rate": 6.458195680048243e-05,
      "loss": 3.479,
      "step": 333180
    },
    {
      "epoch": 0.6941458333333334,
      "grad_norm": 1.1923960447311401,
      "learning_rate": 6.457385302198891e-05,
      "loss": 3.4764,
      "step": 333190
    },
    {
      "epoch": 0.6941666666666667,
      "grad_norm": 1.3042337894439697,
      "learning_rate": 6.456574961250253e-05,
      "loss": 3.5065,
      "step": 333200
    },
    {
      "epoch": 0.6941875,
      "grad_norm": 1.1643251180648804,
      "learning_rate": 6.455764657205836e-05,
      "loss": 3.6341,
      "step": 333210
    },
    {
      "epoch": 0.6942083333333333,
      "grad_norm": 1.1261606216430664,
      "learning_rate": 6.45495439006912e-05,
      "loss": 3.4719,
      "step": 333220
    },
    {
      "epoch": 0.6942291666666667,
      "grad_norm": 1.357204794883728,
      "learning_rate": 6.454144159843628e-05,
      "loss": 3.3567,
      "step": 333230
    },
    {
      "epoch": 0.69425,
      "grad_norm": 1.4315404891967773,
      "learning_rate": 6.453333966532854e-05,
      "loss": 3.4809,
      "step": 333240
    },
    {
      "epoch": 0.6942708333333333,
      "grad_norm": 1.1797380447387695,
      "learning_rate": 6.452523810140282e-05,
      "loss": 3.563,
      "step": 333250
    },
    {
      "epoch": 0.6942916666666666,
      "grad_norm": 2.497123956680298,
      "learning_rate": 6.451713690669433e-05,
      "loss": 3.537,
      "step": 333260
    },
    {
      "epoch": 0.6943125,
      "grad_norm": 1.2728112936019897,
      "learning_rate": 6.450903608123799e-05,
      "loss": 3.4791,
      "step": 333270
    },
    {
      "epoch": 0.6943333333333334,
      "grad_norm": 1.1295461654663086,
      "learning_rate": 6.450093562506874e-05,
      "loss": 3.3998,
      "step": 333280
    },
    {
      "epoch": 0.6943541666666667,
      "grad_norm": 1.2089061737060547,
      "learning_rate": 6.449283553822154e-05,
      "loss": 3.6114,
      "step": 333290
    },
    {
      "epoch": 0.694375,
      "grad_norm": 1.1410034894943237,
      "learning_rate": 6.448473582073156e-05,
      "loss": 3.4821,
      "step": 333300
    },
    {
      "epoch": 0.6943958333333333,
      "grad_norm": 1.2769792079925537,
      "learning_rate": 6.447663647263363e-05,
      "loss": 3.5588,
      "step": 333310
    },
    {
      "epoch": 0.6944166666666667,
      "grad_norm": 1.1887218952178955,
      "learning_rate": 6.44685374939627e-05,
      "loss": 3.498,
      "step": 333320
    },
    {
      "epoch": 0.6944375,
      "grad_norm": 1.216454029083252,
      "learning_rate": 6.446043888475394e-05,
      "loss": 3.5215,
      "step": 333330
    },
    {
      "epoch": 0.6944583333333333,
      "grad_norm": 1.2008756399154663,
      "learning_rate": 6.445234064504219e-05,
      "loss": 3.4773,
      "step": 333340
    },
    {
      "epoch": 0.6944791666666666,
      "grad_norm": 1.239096999168396,
      "learning_rate": 6.444424277486246e-05,
      "loss": 3.622,
      "step": 333350
    },
    {
      "epoch": 0.6945,
      "grad_norm": 1.2395107746124268,
      "learning_rate": 6.443614527424973e-05,
      "loss": 3.584,
      "step": 333360
    },
    {
      "epoch": 0.6945208333333334,
      "grad_norm": 1.3524746894836426,
      "learning_rate": 6.442804814323899e-05,
      "loss": 3.5435,
      "step": 333370
    },
    {
      "epoch": 0.6945416666666666,
      "grad_norm": 1.3486011028289795,
      "learning_rate": 6.441995138186521e-05,
      "loss": 3.6447,
      "step": 333380
    },
    {
      "epoch": 0.6945625,
      "grad_norm": 1.3232263326644897,
      "learning_rate": 6.441185499016338e-05,
      "loss": 3.4383,
      "step": 333390
    },
    {
      "epoch": 0.6945833333333333,
      "grad_norm": 1.2127130031585693,
      "learning_rate": 6.440375896816842e-05,
      "loss": 3.5793,
      "step": 333400
    },
    {
      "epoch": 0.6946041666666667,
      "grad_norm": 1.144670009613037,
      "learning_rate": 6.439566331591537e-05,
      "loss": 3.3923,
      "step": 333410
    },
    {
      "epoch": 0.694625,
      "grad_norm": 1.0672436952590942,
      "learning_rate": 6.438756803343917e-05,
      "loss": 3.4237,
      "step": 333420
    },
    {
      "epoch": 0.6946458333333333,
      "grad_norm": 1.2476110458374023,
      "learning_rate": 6.437947312077476e-05,
      "loss": 3.4487,
      "step": 333430
    },
    {
      "epoch": 0.6946666666666667,
      "grad_norm": 1.4046095609664917,
      "learning_rate": 6.437137857795717e-05,
      "loss": 3.4621,
      "step": 333440
    },
    {
      "epoch": 0.6946875,
      "grad_norm": 1.2129764556884766,
      "learning_rate": 6.436328440502131e-05,
      "loss": 3.5031,
      "step": 333450
    },
    {
      "epoch": 0.6947083333333334,
      "grad_norm": 1.238526701927185,
      "learning_rate": 6.435519060200216e-05,
      "loss": 3.4359,
      "step": 333460
    },
    {
      "epoch": 0.6947291666666666,
      "grad_norm": 1.192272424697876,
      "learning_rate": 6.43470971689347e-05,
      "loss": 3.3523,
      "step": 333470
    },
    {
      "epoch": 0.69475,
      "grad_norm": 1.2557603120803833,
      "learning_rate": 6.433900410585388e-05,
      "loss": 3.5012,
      "step": 333480
    },
    {
      "epoch": 0.6947708333333333,
      "grad_norm": 1.5766457319259644,
      "learning_rate": 6.433091141279464e-05,
      "loss": 3.5778,
      "step": 333490
    },
    {
      "epoch": 0.6947916666666667,
      "grad_norm": 1.358551025390625,
      "learning_rate": 6.432281908979196e-05,
      "loss": 3.4391,
      "step": 333500
    },
    {
      "epoch": 0.6948125,
      "grad_norm": 1.1313564777374268,
      "learning_rate": 6.431472713688079e-05,
      "loss": 3.4433,
      "step": 333510
    },
    {
      "epoch": 0.6948333333333333,
      "grad_norm": 1.2611764669418335,
      "learning_rate": 6.430663555409608e-05,
      "loss": 3.3088,
      "step": 333520
    },
    {
      "epoch": 0.6948541666666667,
      "grad_norm": 1.1668148040771484,
      "learning_rate": 6.429854434147279e-05,
      "loss": 3.6154,
      "step": 333530
    },
    {
      "epoch": 0.694875,
      "grad_norm": 1.1058967113494873,
      "learning_rate": 6.429045349904586e-05,
      "loss": 3.4744,
      "step": 333540
    },
    {
      "epoch": 0.6948958333333334,
      "grad_norm": 1.2528518438339233,
      "learning_rate": 6.428236302685023e-05,
      "loss": 3.4609,
      "step": 333550
    },
    {
      "epoch": 0.6949166666666666,
      "grad_norm": 1.2642418146133423,
      "learning_rate": 6.427427292492088e-05,
      "loss": 3.3506,
      "step": 333560
    },
    {
      "epoch": 0.6949375,
      "grad_norm": 1.3143513202667236,
      "learning_rate": 6.426618319329274e-05,
      "loss": 3.4887,
      "step": 333570
    },
    {
      "epoch": 0.6949583333333333,
      "grad_norm": 1.2602754831314087,
      "learning_rate": 6.42580938320008e-05,
      "loss": 3.5291,
      "step": 333580
    },
    {
      "epoch": 0.6949791666666667,
      "grad_norm": 1.2384262084960938,
      "learning_rate": 6.42500048410799e-05,
      "loss": 3.55,
      "step": 333590
    },
    {
      "epoch": 0.695,
      "grad_norm": 1.238391399383545,
      "learning_rate": 6.424191622056499e-05,
      "loss": 3.5099,
      "step": 333600
    },
    {
      "epoch": 0.6950208333333333,
      "grad_norm": 1.3622058629989624,
      "learning_rate": 6.423382797049117e-05,
      "loss": 3.303,
      "step": 333610
    },
    {
      "epoch": 0.6950416666666667,
      "grad_norm": 1.1563714742660522,
      "learning_rate": 6.422574009089321e-05,
      "loss": 3.4126,
      "step": 333620
    },
    {
      "epoch": 0.6950625,
      "grad_norm": 1.5662288665771484,
      "learning_rate": 6.421765258180603e-05,
      "loss": 3.5291,
      "step": 333630
    },
    {
      "epoch": 0.6950833333333334,
      "grad_norm": 2.7621917724609375,
      "learning_rate": 6.420956544326476e-05,
      "loss": 3.4725,
      "step": 333640
    },
    {
      "epoch": 0.6951041666666666,
      "grad_norm": 1.2255867719650269,
      "learning_rate": 6.420147867530414e-05,
      "loss": 3.4966,
      "step": 333650
    },
    {
      "epoch": 0.695125,
      "grad_norm": 1.2409989833831787,
      "learning_rate": 6.419339227795913e-05,
      "loss": 3.5244,
      "step": 333660
    },
    {
      "epoch": 0.6951458333333334,
      "grad_norm": 1.1860793828964233,
      "learning_rate": 6.41853062512648e-05,
      "loss": 3.3798,
      "step": 333670
    },
    {
      "epoch": 0.6951666666666667,
      "grad_norm": 1.1743693351745605,
      "learning_rate": 6.417722059525593e-05,
      "loss": 3.4638,
      "step": 333680
    },
    {
      "epoch": 0.6951875,
      "grad_norm": 1.235659122467041,
      "learning_rate": 6.416913530996743e-05,
      "loss": 3.6737,
      "step": 333690
    },
    {
      "epoch": 0.6952083333333333,
      "grad_norm": 1.1920744180679321,
      "learning_rate": 6.41610503954344e-05,
      "loss": 3.4198,
      "step": 333700
    },
    {
      "epoch": 0.6952291666666667,
      "grad_norm": 1.171217918395996,
      "learning_rate": 6.415296585169163e-05,
      "loss": 3.5965,
      "step": 333710
    },
    {
      "epoch": 0.69525,
      "grad_norm": 1.2512503862380981,
      "learning_rate": 6.414488167877404e-05,
      "loss": 3.5731,
      "step": 333720
    },
    {
      "epoch": 0.6952708333333333,
      "grad_norm": 1.2784380912780762,
      "learning_rate": 6.413679787671658e-05,
      "loss": 3.5449,
      "step": 333730
    },
    {
      "epoch": 0.6952916666666666,
      "grad_norm": 1.2939002513885498,
      "learning_rate": 6.412871444555418e-05,
      "loss": 3.3491,
      "step": 333740
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 1.2834526300430298,
      "learning_rate": 6.412063138532174e-05,
      "loss": 3.5209,
      "step": 333750
    },
    {
      "epoch": 0.6953333333333334,
      "grad_norm": 1.3760286569595337,
      "learning_rate": 6.411254869605417e-05,
      "loss": 3.6004,
      "step": 333760
    },
    {
      "epoch": 0.6953541666666667,
      "grad_norm": 1.4205225706100464,
      "learning_rate": 6.41044663777864e-05,
      "loss": 3.5372,
      "step": 333770
    },
    {
      "epoch": 0.695375,
      "grad_norm": 1.1970798969268799,
      "learning_rate": 6.409638443055333e-05,
      "loss": 3.4856,
      "step": 333780
    },
    {
      "epoch": 0.6953958333333333,
      "grad_norm": 1.1712733507156372,
      "learning_rate": 6.408830285438987e-05,
      "loss": 3.4973,
      "step": 333790
    },
    {
      "epoch": 0.6954166666666667,
      "grad_norm": 1.2146986722946167,
      "learning_rate": 6.408022164933094e-05,
      "loss": 3.4376,
      "step": 333800
    },
    {
      "epoch": 0.6954375,
      "grad_norm": 1.2568281888961792,
      "learning_rate": 6.407214081541145e-05,
      "loss": 3.3553,
      "step": 333810
    },
    {
      "epoch": 0.6954583333333333,
      "grad_norm": 1.1995513439178467,
      "learning_rate": 6.40640603526663e-05,
      "loss": 3.6417,
      "step": 333820
    },
    {
      "epoch": 0.6954791666666666,
      "grad_norm": 1.4411500692367554,
      "learning_rate": 6.405598026113039e-05,
      "loss": 3.5525,
      "step": 333830
    },
    {
      "epoch": 0.6955,
      "grad_norm": 1.150754690170288,
      "learning_rate": 6.404790054083861e-05,
      "loss": 3.5585,
      "step": 333840
    },
    {
      "epoch": 0.6955208333333334,
      "grad_norm": 1.6952061653137207,
      "learning_rate": 6.40398211918259e-05,
      "loss": 3.4919,
      "step": 333850
    },
    {
      "epoch": 0.6955416666666666,
      "grad_norm": 1.230922818183899,
      "learning_rate": 6.403174221412714e-05,
      "loss": 3.5469,
      "step": 333860
    },
    {
      "epoch": 0.6955625,
      "grad_norm": 1.231821894645691,
      "learning_rate": 6.402366360777726e-05,
      "loss": 3.4329,
      "step": 333870
    },
    {
      "epoch": 0.6955833333333333,
      "grad_norm": 1.303966999053955,
      "learning_rate": 6.401558537281102e-05,
      "loss": 3.4737,
      "step": 333880
    },
    {
      "epoch": 0.6956041666666667,
      "grad_norm": 1.2459213733673096,
      "learning_rate": 6.400750750926347e-05,
      "loss": 3.5163,
      "step": 333890
    },
    {
      "epoch": 0.695625,
      "grad_norm": 1.1416465044021606,
      "learning_rate": 6.39994300171695e-05,
      "loss": 3.4728,
      "step": 333900
    },
    {
      "epoch": 0.6956458333333333,
      "grad_norm": 1.260463833808899,
      "learning_rate": 6.399135289656385e-05,
      "loss": 3.522,
      "step": 333910
    },
    {
      "epoch": 0.6956666666666667,
      "grad_norm": 1.2477936744689941,
      "learning_rate": 6.398327614748158e-05,
      "loss": 3.4147,
      "step": 333920
    },
    {
      "epoch": 0.6956875,
      "grad_norm": 1.1755880117416382,
      "learning_rate": 6.397519976995753e-05,
      "loss": 3.3883,
      "step": 333930
    },
    {
      "epoch": 0.6957083333333334,
      "grad_norm": 1.3849302530288696,
      "learning_rate": 6.396712376402649e-05,
      "loss": 3.5213,
      "step": 333940
    },
    {
      "epoch": 0.6957291666666666,
      "grad_norm": 1.1688249111175537,
      "learning_rate": 6.395904812972352e-05,
      "loss": 3.4374,
      "step": 333950
    },
    {
      "epoch": 0.69575,
      "grad_norm": 1.2791357040405273,
      "learning_rate": 6.395097286708334e-05,
      "loss": 3.519,
      "step": 333960
    },
    {
      "epoch": 0.6957708333333333,
      "grad_norm": 1.1116762161254883,
      "learning_rate": 6.394289797614084e-05,
      "loss": 3.6933,
      "step": 333970
    },
    {
      "epoch": 0.6957916666666667,
      "grad_norm": 1.3671149015426636,
      "learning_rate": 6.393482345693106e-05,
      "loss": 3.455,
      "step": 333980
    },
    {
      "epoch": 0.6958125,
      "grad_norm": 1.489891767501831,
      "learning_rate": 6.392674930948875e-05,
      "loss": 3.6118,
      "step": 333990
    },
    {
      "epoch": 0.6958333333333333,
      "grad_norm": 1.1622358560562134,
      "learning_rate": 6.391867553384874e-05,
      "loss": 3.4847,
      "step": 334000
    },
    {
      "epoch": 0.6958333333333333,
      "eval_loss": 3.548894166946411,
      "eval_runtime": 7.7641,
      "eval_samples_per_second": 1.288,
      "eval_steps_per_second": 0.386,
      "step": 334000
    },
    {
      "epoch": 0.6958541666666667,
      "grad_norm": 1.3020548820495605,
      "learning_rate": 6.391060213004609e-05,
      "loss": 3.5373,
      "step": 334010
    },
    {
      "epoch": 0.695875,
      "grad_norm": 1.1678941249847412,
      "learning_rate": 6.39025290981155e-05,
      "loss": 3.4587,
      "step": 334020
    },
    {
      "epoch": 0.6958958333333334,
      "grad_norm": 1.1802003383636475,
      "learning_rate": 6.389445643809187e-05,
      "loss": 3.5228,
      "step": 334030
    },
    {
      "epoch": 0.6959166666666666,
      "grad_norm": 1.2003886699676514,
      "learning_rate": 6.38863841500102e-05,
      "loss": 3.661,
      "step": 334040
    },
    {
      "epoch": 0.6959375,
      "grad_norm": 1.2032604217529297,
      "learning_rate": 6.387831223390521e-05,
      "loss": 3.6237,
      "step": 334050
    },
    {
      "epoch": 0.6959583333333333,
      "grad_norm": 1.2664984464645386,
      "learning_rate": 6.387024068981177e-05,
      "loss": 3.452,
      "step": 334060
    },
    {
      "epoch": 0.6959791666666667,
      "grad_norm": 1.1606926918029785,
      "learning_rate": 6.386216951776489e-05,
      "loss": 3.3978,
      "step": 334070
    },
    {
      "epoch": 0.696,
      "grad_norm": 1.2593553066253662,
      "learning_rate": 6.385409871779932e-05,
      "loss": 3.6283,
      "step": 334080
    },
    {
      "epoch": 0.6960208333333333,
      "grad_norm": 1.2185128927230835,
      "learning_rate": 6.384602828994993e-05,
      "loss": 3.4489,
      "step": 334090
    },
    {
      "epoch": 0.6960416666666667,
      "grad_norm": 1.1412150859832764,
      "learning_rate": 6.383795823425158e-05,
      "loss": 3.4712,
      "step": 334100
    },
    {
      "epoch": 0.6960625,
      "grad_norm": 1.3219391107559204,
      "learning_rate": 6.382988855073916e-05,
      "loss": 3.5029,
      "step": 334110
    },
    {
      "epoch": 0.6960833333333334,
      "grad_norm": 1.25962495803833,
      "learning_rate": 6.382181923944752e-05,
      "loss": 3.4725,
      "step": 334120
    },
    {
      "epoch": 0.6961041666666666,
      "grad_norm": 1.1922554969787598,
      "learning_rate": 6.38137503004115e-05,
      "loss": 3.3638,
      "step": 334130
    },
    {
      "epoch": 0.696125,
      "grad_norm": 1.1695789098739624,
      "learning_rate": 6.380568173366597e-05,
      "loss": 3.4115,
      "step": 334140
    },
    {
      "epoch": 0.6961458333333334,
      "grad_norm": 1.4186924695968628,
      "learning_rate": 6.379761353924576e-05,
      "loss": 3.4648,
      "step": 334150
    },
    {
      "epoch": 0.6961666666666667,
      "grad_norm": 1.1195777654647827,
      "learning_rate": 6.378954571718575e-05,
      "loss": 3.3768,
      "step": 334160
    },
    {
      "epoch": 0.6961875,
      "grad_norm": 1.4154999256134033,
      "learning_rate": 6.378147826752078e-05,
      "loss": 3.5293,
      "step": 334170
    },
    {
      "epoch": 0.6962083333333333,
      "grad_norm": 1.194286823272705,
      "learning_rate": 6.377341119028569e-05,
      "loss": 3.4715,
      "step": 334180
    },
    {
      "epoch": 0.6962291666666667,
      "grad_norm": 1.2717782258987427,
      "learning_rate": 6.376534448551535e-05,
      "loss": 3.5019,
      "step": 334190
    },
    {
      "epoch": 0.69625,
      "grad_norm": 1.3343449831008911,
      "learning_rate": 6.375727815324457e-05,
      "loss": 3.4649,
      "step": 334200
    },
    {
      "epoch": 0.6962708333333333,
      "grad_norm": 1.2067822217941284,
      "learning_rate": 6.374921219350826e-05,
      "loss": 3.6912,
      "step": 334210
    },
    {
      "epoch": 0.6962916666666666,
      "grad_norm": 1.1479074954986572,
      "learning_rate": 6.374114660634112e-05,
      "loss": 3.5255,
      "step": 334220
    },
    {
      "epoch": 0.6963125,
      "grad_norm": 1.154064416885376,
      "learning_rate": 6.373308139177812e-05,
      "loss": 3.472,
      "step": 334230
    },
    {
      "epoch": 0.6963333333333334,
      "grad_norm": 1.1665681600570679,
      "learning_rate": 6.372501654985414e-05,
      "loss": 3.4465,
      "step": 334240
    },
    {
      "epoch": 0.6963541666666667,
      "grad_norm": 1.332297682762146,
      "learning_rate": 6.371695208060382e-05,
      "loss": 3.6079,
      "step": 334250
    },
    {
      "epoch": 0.696375,
      "grad_norm": 1.2601217031478882,
      "learning_rate": 6.370888798406216e-05,
      "loss": 3.4711,
      "step": 334260
    },
    {
      "epoch": 0.6963958333333333,
      "grad_norm": 1.1566131114959717,
      "learning_rate": 6.3700824260264e-05,
      "loss": 3.4964,
      "step": 334270
    },
    {
      "epoch": 0.6964166666666667,
      "grad_norm": 1.1908674240112305,
      "learning_rate": 6.369276090924402e-05,
      "loss": 3.5266,
      "step": 334280
    },
    {
      "epoch": 0.6964375,
      "grad_norm": 1.3520958423614502,
      "learning_rate": 6.36846979310372e-05,
      "loss": 3.5372,
      "step": 334290
    },
    {
      "epoch": 0.6964583333333333,
      "grad_norm": 1.1508346796035767,
      "learning_rate": 6.367663532567838e-05,
      "loss": 3.4988,
      "step": 334300
    },
    {
      "epoch": 0.6964791666666666,
      "grad_norm": 1.2271580696105957,
      "learning_rate": 6.366857309320222e-05,
      "loss": 3.5641,
      "step": 334310
    },
    {
      "epoch": 0.6965,
      "grad_norm": 1.1038464307785034,
      "learning_rate": 6.36605112336437e-05,
      "loss": 3.544,
      "step": 334320
    },
    {
      "epoch": 0.6965208333333334,
      "grad_norm": 1.2427374124526978,
      "learning_rate": 6.365244974703766e-05,
      "loss": 3.4976,
      "step": 334330
    },
    {
      "epoch": 0.6965416666666666,
      "grad_norm": 1.209827184677124,
      "learning_rate": 6.364438863341872e-05,
      "loss": 3.3744,
      "step": 334340
    },
    {
      "epoch": 0.6965625,
      "grad_norm": 1.3760547637939453,
      "learning_rate": 6.363632789282197e-05,
      "loss": 3.6555,
      "step": 334350
    },
    {
      "epoch": 0.6965833333333333,
      "grad_norm": 1.2008153200149536,
      "learning_rate": 6.362826752528205e-05,
      "loss": 3.5171,
      "step": 334360
    },
    {
      "epoch": 0.6966041666666667,
      "grad_norm": 1.3702267408370972,
      "learning_rate": 6.362020753083375e-05,
      "loss": 3.513,
      "step": 334370
    },
    {
      "epoch": 0.696625,
      "grad_norm": 1.533564805984497,
      "learning_rate": 6.361214790951209e-05,
      "loss": 3.5665,
      "step": 334380
    },
    {
      "epoch": 0.6966458333333333,
      "grad_norm": 1.1896719932556152,
      "learning_rate": 6.360408866135171e-05,
      "loss": 3.4052,
      "step": 334390
    },
    {
      "epoch": 0.6966666666666667,
      "grad_norm": 1.086593508720398,
      "learning_rate": 6.359602978638738e-05,
      "loss": 3.4184,
      "step": 334400
    },
    {
      "epoch": 0.6966875,
      "grad_norm": 1.1625245809555054,
      "learning_rate": 6.358797128465413e-05,
      "loss": 3.5313,
      "step": 334410
    },
    {
      "epoch": 0.6967083333333334,
      "grad_norm": 1.2216156721115112,
      "learning_rate": 6.35799131561866e-05,
      "loss": 3.4679,
      "step": 334420
    },
    {
      "epoch": 0.6967291666666666,
      "grad_norm": 1.163212537765503,
      "learning_rate": 6.357185540101957e-05,
      "loss": 3.4896,
      "step": 334430
    },
    {
      "epoch": 0.69675,
      "grad_norm": 1.204484462738037,
      "learning_rate": 6.3563798019188e-05,
      "loss": 3.4815,
      "step": 334440
    },
    {
      "epoch": 0.6967708333333333,
      "grad_norm": 1.1851080656051636,
      "learning_rate": 6.355574101072659e-05,
      "loss": 3.5548,
      "step": 334450
    },
    {
      "epoch": 0.6967916666666667,
      "grad_norm": 1.2070189714431763,
      "learning_rate": 6.354768437567014e-05,
      "loss": 3.5176,
      "step": 334460
    },
    {
      "epoch": 0.6968125,
      "grad_norm": 1.2655274868011475,
      "learning_rate": 6.353962811405349e-05,
      "loss": 3.4999,
      "step": 334470
    },
    {
      "epoch": 0.6968333333333333,
      "grad_norm": 1.2392077445983887,
      "learning_rate": 6.35315722259114e-05,
      "loss": 3.4425,
      "step": 334480
    },
    {
      "epoch": 0.6968541666666667,
      "grad_norm": 1.1253870725631714,
      "learning_rate": 6.352351671127871e-05,
      "loss": 3.3926,
      "step": 334490
    },
    {
      "epoch": 0.696875,
      "grad_norm": 1.1306264400482178,
      "learning_rate": 6.35154615701902e-05,
      "loss": 3.6191,
      "step": 334500
    },
    {
      "epoch": 0.6968958333333334,
      "grad_norm": 1.186327576637268,
      "learning_rate": 6.350740680268065e-05,
      "loss": 3.4106,
      "step": 334510
    },
    {
      "epoch": 0.6969166666666666,
      "grad_norm": 1.5754961967468262,
      "learning_rate": 6.349935240878488e-05,
      "loss": 3.4862,
      "step": 334520
    },
    {
      "epoch": 0.6969375,
      "grad_norm": 1.2056171894073486,
      "learning_rate": 6.349129838853767e-05,
      "loss": 3.4504,
      "step": 334530
    },
    {
      "epoch": 0.6969583333333333,
      "grad_norm": 1.1518197059631348,
      "learning_rate": 6.348324474197379e-05,
      "loss": 3.4243,
      "step": 334540
    },
    {
      "epoch": 0.6969791666666667,
      "grad_norm": 1.280159592628479,
      "learning_rate": 6.347519146912805e-05,
      "loss": 3.5534,
      "step": 334550
    },
    {
      "epoch": 0.697,
      "grad_norm": 1.2453056573867798,
      "learning_rate": 6.346713857003524e-05,
      "loss": 3.5449,
      "step": 334560
    },
    {
      "epoch": 0.6970208333333333,
      "grad_norm": 1.1646796464920044,
      "learning_rate": 6.345908604473013e-05,
      "loss": 3.5327,
      "step": 334570
    },
    {
      "epoch": 0.6970416666666667,
      "grad_norm": 1.285275936126709,
      "learning_rate": 6.345103389324758e-05,
      "loss": 3.5647,
      "step": 334580
    },
    {
      "epoch": 0.6970625,
      "grad_norm": 1.3096927404403687,
      "learning_rate": 6.34429821156222e-05,
      "loss": 3.5166,
      "step": 334590
    },
    {
      "epoch": 0.6970833333333334,
      "grad_norm": 1.3096473217010498,
      "learning_rate": 6.343493071188892e-05,
      "loss": 3.588,
      "step": 334600
    },
    {
      "epoch": 0.6971041666666666,
      "grad_norm": 1.133831262588501,
      "learning_rate": 6.342687968208253e-05,
      "loss": 3.5644,
      "step": 334610
    },
    {
      "epoch": 0.697125,
      "grad_norm": 1.4479140043258667,
      "learning_rate": 6.341882902623765e-05,
      "loss": 3.4808,
      "step": 334620
    },
    {
      "epoch": 0.6971458333333334,
      "grad_norm": 1.2073003053665161,
      "learning_rate": 6.341077874438921e-05,
      "loss": 3.5825,
      "step": 334630
    },
    {
      "epoch": 0.6971666666666667,
      "grad_norm": 1.1411466598510742,
      "learning_rate": 6.340272883657199e-05,
      "loss": 3.5501,
      "step": 334640
    },
    {
      "epoch": 0.6971875,
      "grad_norm": 1.1978838443756104,
      "learning_rate": 6.339467930282057e-05,
      "loss": 3.3327,
      "step": 334650
    },
    {
      "epoch": 0.6972083333333333,
      "grad_norm": 1.1840516328811646,
      "learning_rate": 6.338663014316994e-05,
      "loss": 3.4938,
      "step": 334660
    },
    {
      "epoch": 0.6972291666666667,
      "grad_norm": 1.1596623659133911,
      "learning_rate": 6.337858135765484e-05,
      "loss": 3.3274,
      "step": 334670
    },
    {
      "epoch": 0.69725,
      "grad_norm": 1.3194719552993774,
      "learning_rate": 6.337053294630984e-05,
      "loss": 3.5384,
      "step": 334680
    },
    {
      "epoch": 0.6972708333333333,
      "grad_norm": 1.2845691442489624,
      "learning_rate": 6.336248490916993e-05,
      "loss": 3.4529,
      "step": 334690
    },
    {
      "epoch": 0.6972916666666666,
      "grad_norm": 1.218961238861084,
      "learning_rate": 6.335443724626983e-05,
      "loss": 3.4763,
      "step": 334700
    },
    {
      "epoch": 0.6973125,
      "grad_norm": 1.3210103511810303,
      "learning_rate": 6.334638995764416e-05,
      "loss": 3.4758,
      "step": 334710
    },
    {
      "epoch": 0.6973333333333334,
      "grad_norm": 1.1786144971847534,
      "learning_rate": 6.33383430433279e-05,
      "loss": 3.4377,
      "step": 334720
    },
    {
      "epoch": 0.6973541666666667,
      "grad_norm": 1.5095477104187012,
      "learning_rate": 6.333029650335563e-05,
      "loss": 3.4868,
      "step": 334730
    },
    {
      "epoch": 0.697375,
      "grad_norm": 1.270466685295105,
      "learning_rate": 6.332225033776213e-05,
      "loss": 3.4227,
      "step": 334740
    },
    {
      "epoch": 0.6973958333333333,
      "grad_norm": 1.1461730003356934,
      "learning_rate": 6.331420454658229e-05,
      "loss": 3.5515,
      "step": 334750
    },
    {
      "epoch": 0.6974166666666667,
      "grad_norm": 1.1802644729614258,
      "learning_rate": 6.330615912985074e-05,
      "loss": 3.4896,
      "step": 334760
    },
    {
      "epoch": 0.6974375,
      "grad_norm": 1.4150874614715576,
      "learning_rate": 6.329811408760226e-05,
      "loss": 3.4145,
      "step": 334770
    },
    {
      "epoch": 0.6974583333333333,
      "grad_norm": 1.2076518535614014,
      "learning_rate": 6.32900694198716e-05,
      "loss": 3.572,
      "step": 334780
    },
    {
      "epoch": 0.6974791666666667,
      "grad_norm": 1.331038475036621,
      "learning_rate": 6.328202512669353e-05,
      "loss": 3.387,
      "step": 334790
    },
    {
      "epoch": 0.6975,
      "grad_norm": 1.2843883037567139,
      "learning_rate": 6.327398120810278e-05,
      "loss": 3.6614,
      "step": 334800
    },
    {
      "epoch": 0.6975208333333334,
      "grad_norm": 1.284315586090088,
      "learning_rate": 6.326593766413411e-05,
      "loss": 3.5254,
      "step": 334810
    },
    {
      "epoch": 0.6975416666666666,
      "grad_norm": 1.185203194618225,
      "learning_rate": 6.325789449482224e-05,
      "loss": 3.4563,
      "step": 334820
    },
    {
      "epoch": 0.6975625,
      "grad_norm": 1.3021717071533203,
      "learning_rate": 6.324985170020195e-05,
      "loss": 3.4725,
      "step": 334830
    },
    {
      "epoch": 0.6975833333333333,
      "grad_norm": 1.2191334962844849,
      "learning_rate": 6.324180928030794e-05,
      "loss": 3.4499,
      "step": 334840
    },
    {
      "epoch": 0.6976041666666667,
      "grad_norm": 1.2761672735214233,
      "learning_rate": 6.3233767235175e-05,
      "loss": 3.4953,
      "step": 334850
    },
    {
      "epoch": 0.697625,
      "grad_norm": 1.2046558856964111,
      "learning_rate": 6.322572556483782e-05,
      "loss": 3.5567,
      "step": 334860
    },
    {
      "epoch": 0.6976458333333333,
      "grad_norm": 1.2516640424728394,
      "learning_rate": 6.321768426933117e-05,
      "loss": 3.4396,
      "step": 334870
    },
    {
      "epoch": 0.6976666666666667,
      "grad_norm": 1.3030145168304443,
      "learning_rate": 6.320964334868978e-05,
      "loss": 3.6168,
      "step": 334880
    },
    {
      "epoch": 0.6976875,
      "grad_norm": 1.1361709833145142,
      "learning_rate": 6.320160280294837e-05,
      "loss": 3.3935,
      "step": 334890
    },
    {
      "epoch": 0.6977083333333334,
      "grad_norm": 1.2612464427947998,
      "learning_rate": 6.319356263214166e-05,
      "loss": 3.5584,
      "step": 334900
    },
    {
      "epoch": 0.6977291666666666,
      "grad_norm": 1.228685736656189,
      "learning_rate": 6.318552283630441e-05,
      "loss": 3.5182,
      "step": 334910
    },
    {
      "epoch": 0.69775,
      "grad_norm": 1.1931756734848022,
      "learning_rate": 6.317748341547134e-05,
      "loss": 3.3802,
      "step": 334920
    },
    {
      "epoch": 0.6977708333333333,
      "grad_norm": 1.1667653322219849,
      "learning_rate": 6.316944436967718e-05,
      "loss": 3.5581,
      "step": 334930
    },
    {
      "epoch": 0.6977916666666667,
      "grad_norm": 1.1774107217788696,
      "learning_rate": 6.316140569895665e-05,
      "loss": 3.4437,
      "step": 334940
    },
    {
      "epoch": 0.6978125,
      "grad_norm": 1.2673282623291016,
      "learning_rate": 6.315336740334452e-05,
      "loss": 3.4475,
      "step": 334950
    },
    {
      "epoch": 0.6978333333333333,
      "grad_norm": 1.3113157749176025,
      "learning_rate": 6.314532948287537e-05,
      "loss": 3.4584,
      "step": 334960
    },
    {
      "epoch": 0.6978541666666667,
      "grad_norm": 1.2402859926223755,
      "learning_rate": 6.313729193758405e-05,
      "loss": 3.396,
      "step": 334970
    },
    {
      "epoch": 0.697875,
      "grad_norm": 1.1660192012786865,
      "learning_rate": 6.312925476750532e-05,
      "loss": 3.5457,
      "step": 334980
    },
    {
      "epoch": 0.6978958333333334,
      "grad_norm": 1.1195815801620483,
      "learning_rate": 6.312121797267372e-05,
      "loss": 3.4524,
      "step": 334990
    },
    {
      "epoch": 0.6979166666666666,
      "grad_norm": 1.231292486190796,
      "learning_rate": 6.311318155312411e-05,
      "loss": 3.4541,
      "step": 335000
    },
    {
      "epoch": 0.6979166666666666,
      "eval_loss": 3.553267002105713,
      "eval_runtime": 7.49,
      "eval_samples_per_second": 1.335,
      "eval_steps_per_second": 0.401,
      "step": 335000
    },
    {
      "epoch": 0.6979375,
      "grad_norm": 1.1924127340316772,
      "learning_rate": 6.310514550889123e-05,
      "loss": 3.5515,
      "step": 335010
    },
    {
      "epoch": 0.6979583333333333,
      "grad_norm": 1.233811616897583,
      "learning_rate": 6.30971098400096e-05,
      "loss": 3.6052,
      "step": 335020
    },
    {
      "epoch": 0.6979791666666667,
      "grad_norm": 1.3388100862503052,
      "learning_rate": 6.308907454651414e-05,
      "loss": 3.4377,
      "step": 335030
    },
    {
      "epoch": 0.698,
      "grad_norm": 1.2042464017868042,
      "learning_rate": 6.30810396284395e-05,
      "loss": 3.5247,
      "step": 335040
    },
    {
      "epoch": 0.6980208333333333,
      "grad_norm": 1.2455124855041504,
      "learning_rate": 6.307300508582031e-05,
      "loss": 3.4103,
      "step": 335050
    },
    {
      "epoch": 0.6980416666666667,
      "grad_norm": 1.1923129558563232,
      "learning_rate": 6.306497091869129e-05,
      "loss": 3.4978,
      "step": 335060
    },
    {
      "epoch": 0.6980625,
      "grad_norm": 1.2383477687835693,
      "learning_rate": 6.305693712708728e-05,
      "loss": 3.5105,
      "step": 335070
    },
    {
      "epoch": 0.6980833333333333,
      "grad_norm": 1.2046263217926025,
      "learning_rate": 6.304890371104284e-05,
      "loss": 3.4699,
      "step": 335080
    },
    {
      "epoch": 0.6981041666666666,
      "grad_norm": 1.2675226926803589,
      "learning_rate": 6.304087067059273e-05,
      "loss": 3.4296,
      "step": 335090
    },
    {
      "epoch": 0.698125,
      "grad_norm": 1.198142647743225,
      "learning_rate": 6.303283800577163e-05,
      "loss": 3.5338,
      "step": 335100
    },
    {
      "epoch": 0.6981458333333334,
      "grad_norm": 1.273058295249939,
      "learning_rate": 6.302480571661423e-05,
      "loss": 3.4669,
      "step": 335110
    },
    {
      "epoch": 0.6981666666666667,
      "grad_norm": 1.2073590755462646,
      "learning_rate": 6.301677380315527e-05,
      "loss": 3.3494,
      "step": 335120
    },
    {
      "epoch": 0.6981875,
      "grad_norm": 1.1501173973083496,
      "learning_rate": 6.300874226542941e-05,
      "loss": 3.3981,
      "step": 335130
    },
    {
      "epoch": 0.6982083333333333,
      "grad_norm": 1.2347615957260132,
      "learning_rate": 6.300071110347134e-05,
      "loss": 3.6774,
      "step": 335140
    },
    {
      "epoch": 0.6982291666666667,
      "grad_norm": 1.185036063194275,
      "learning_rate": 6.299268031731577e-05,
      "loss": 3.5017,
      "step": 335150
    },
    {
      "epoch": 0.69825,
      "grad_norm": 1.2273818254470825,
      "learning_rate": 6.298464990699736e-05,
      "loss": 3.4363,
      "step": 335160
    },
    {
      "epoch": 0.6982708333333333,
      "grad_norm": 1.1812721490859985,
      "learning_rate": 6.297661987255083e-05,
      "loss": 3.4131,
      "step": 335170
    },
    {
      "epoch": 0.6982916666666666,
      "grad_norm": 1.2446719408035278,
      "learning_rate": 6.296859021401087e-05,
      "loss": 3.4021,
      "step": 335180
    },
    {
      "epoch": 0.6983125,
      "grad_norm": 1.400815725326538,
      "learning_rate": 6.296056093141214e-05,
      "loss": 3.4695,
      "step": 335190
    },
    {
      "epoch": 0.6983333333333334,
      "grad_norm": 1.1766021251678467,
      "learning_rate": 6.295253202478933e-05,
      "loss": 3.4556,
      "step": 335200
    },
    {
      "epoch": 0.6983541666666667,
      "grad_norm": 1.2496634721755981,
      "learning_rate": 6.294450349417714e-05,
      "loss": 3.4032,
      "step": 335210
    },
    {
      "epoch": 0.698375,
      "grad_norm": 1.3469960689544678,
      "learning_rate": 6.293647533961022e-05,
      "loss": 3.3547,
      "step": 335220
    },
    {
      "epoch": 0.6983958333333333,
      "grad_norm": 1.3944716453552246,
      "learning_rate": 6.292844756112327e-05,
      "loss": 3.4737,
      "step": 335230
    },
    {
      "epoch": 0.6984166666666667,
      "grad_norm": 1.3190398216247559,
      "learning_rate": 6.292042015875097e-05,
      "loss": 3.4544,
      "step": 335240
    },
    {
      "epoch": 0.6984375,
      "grad_norm": 1.333594560623169,
      "learning_rate": 6.291239313252797e-05,
      "loss": 3.3839,
      "step": 335250
    },
    {
      "epoch": 0.6984583333333333,
      "grad_norm": 1.2329906225204468,
      "learning_rate": 6.290436648248897e-05,
      "loss": 3.486,
      "step": 335260
    },
    {
      "epoch": 0.6984791666666667,
      "grad_norm": 1.3660181760787964,
      "learning_rate": 6.289634020866864e-05,
      "loss": 3.4902,
      "step": 335270
    },
    {
      "epoch": 0.6985,
      "grad_norm": 1.3124744892120361,
      "learning_rate": 6.288831431110163e-05,
      "loss": 3.4874,
      "step": 335280
    },
    {
      "epoch": 0.6985208333333334,
      "grad_norm": 1.3457943201065063,
      "learning_rate": 6.288028878982262e-05,
      "loss": 3.4989,
      "step": 335290
    },
    {
      "epoch": 0.6985416666666666,
      "grad_norm": 1.1318753957748413,
      "learning_rate": 6.287226364486628e-05,
      "loss": 3.3929,
      "step": 335300
    },
    {
      "epoch": 0.6985625,
      "grad_norm": 1.2701635360717773,
      "learning_rate": 6.286423887626729e-05,
      "loss": 3.6348,
      "step": 335310
    },
    {
      "epoch": 0.6985833333333333,
      "grad_norm": 1.2628220319747925,
      "learning_rate": 6.285621448406034e-05,
      "loss": 3.461,
      "step": 335320
    },
    {
      "epoch": 0.6986041666666667,
      "grad_norm": 1.3442567586898804,
      "learning_rate": 6.284819046827993e-05,
      "loss": 3.4373,
      "step": 335330
    },
    {
      "epoch": 0.698625,
      "grad_norm": 1.1140915155410767,
      "learning_rate": 6.28401668289609e-05,
      "loss": 3.4489,
      "step": 335340
    },
    {
      "epoch": 0.6986458333333333,
      "grad_norm": 1.218799352645874,
      "learning_rate": 6.283214356613791e-05,
      "loss": 3.5169,
      "step": 335350
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 1.2752784490585327,
      "learning_rate": 6.282412067984549e-05,
      "loss": 3.4004,
      "step": 335360
    },
    {
      "epoch": 0.6986875,
      "grad_norm": 1.3525596857070923,
      "learning_rate": 6.281609817011833e-05,
      "loss": 3.4656,
      "step": 335370
    },
    {
      "epoch": 0.6987083333333334,
      "grad_norm": 1.2895952463150024,
      "learning_rate": 6.280807603699121e-05,
      "loss": 3.3787,
      "step": 335380
    },
    {
      "epoch": 0.6987291666666666,
      "grad_norm": 1.0710786581039429,
      "learning_rate": 6.280005428049863e-05,
      "loss": 3.5203,
      "step": 335390
    },
    {
      "epoch": 0.69875,
      "grad_norm": 1.2640091180801392,
      "learning_rate": 6.279203290067526e-05,
      "loss": 3.5206,
      "step": 335400
    },
    {
      "epoch": 0.6987708333333333,
      "grad_norm": 1.183565616607666,
      "learning_rate": 6.278401189755587e-05,
      "loss": 3.3572,
      "step": 335410
    },
    {
      "epoch": 0.6987916666666667,
      "grad_norm": 1.1905795335769653,
      "learning_rate": 6.2775991271175e-05,
      "loss": 3.4923,
      "step": 335420
    },
    {
      "epoch": 0.6988125,
      "grad_norm": 1.363741397857666,
      "learning_rate": 6.276797102156726e-05,
      "loss": 3.4329,
      "step": 335430
    },
    {
      "epoch": 0.6988333333333333,
      "grad_norm": 1.2144590616226196,
      "learning_rate": 6.275995114876745e-05,
      "loss": 3.4527,
      "step": 335440
    },
    {
      "epoch": 0.6988541666666667,
      "grad_norm": 1.323071002960205,
      "learning_rate": 6.275193165281008e-05,
      "loss": 3.4311,
      "step": 335450
    },
    {
      "epoch": 0.698875,
      "grad_norm": 1.1354427337646484,
      "learning_rate": 6.274391253372983e-05,
      "loss": 3.5318,
      "step": 335460
    },
    {
      "epoch": 0.6988958333333334,
      "grad_norm": 1.3034868240356445,
      "learning_rate": 6.273589379156134e-05,
      "loss": 3.5646,
      "step": 335470
    },
    {
      "epoch": 0.6989166666666666,
      "grad_norm": 1.1677420139312744,
      "learning_rate": 6.272787542633925e-05,
      "loss": 3.5456,
      "step": 335480
    },
    {
      "epoch": 0.6989375,
      "grad_norm": 1.1933432817459106,
      "learning_rate": 6.271985743809818e-05,
      "loss": 3.6401,
      "step": 335490
    },
    {
      "epoch": 0.6989583333333333,
      "grad_norm": 1.5257885456085205,
      "learning_rate": 6.271183982687279e-05,
      "loss": 3.6756,
      "step": 335500
    },
    {
      "epoch": 0.6989791666666667,
      "grad_norm": 1.172594428062439,
      "learning_rate": 6.270382259269769e-05,
      "loss": 3.4148,
      "step": 335510
    },
    {
      "epoch": 0.699,
      "grad_norm": 1.4230653047561646,
      "learning_rate": 6.269580573560752e-05,
      "loss": 3.4322,
      "step": 335520
    },
    {
      "epoch": 0.6990208333333333,
      "grad_norm": 1.1506941318511963,
      "learning_rate": 6.268778925563692e-05,
      "loss": 3.4734,
      "step": 335530
    },
    {
      "epoch": 0.6990416666666667,
      "grad_norm": 1.2583210468292236,
      "learning_rate": 6.267977315282051e-05,
      "loss": 3.4649,
      "step": 335540
    },
    {
      "epoch": 0.6990625,
      "grad_norm": 1.1752558946609497,
      "learning_rate": 6.267175742719293e-05,
      "loss": 3.4864,
      "step": 335550
    },
    {
      "epoch": 0.6990833333333333,
      "grad_norm": 1.114548683166504,
      "learning_rate": 6.266374207878878e-05,
      "loss": 3.5301,
      "step": 335560
    },
    {
      "epoch": 0.6991041666666666,
      "grad_norm": 1.204502820968628,
      "learning_rate": 6.265572710764268e-05,
      "loss": 3.5437,
      "step": 335570
    },
    {
      "epoch": 0.699125,
      "grad_norm": 1.2623018026351929,
      "learning_rate": 6.264771251378927e-05,
      "loss": 3.4963,
      "step": 335580
    },
    {
      "epoch": 0.6991458333333334,
      "grad_norm": 1.3064191341400146,
      "learning_rate": 6.263969829726317e-05,
      "loss": 3.2838,
      "step": 335590
    },
    {
      "epoch": 0.6991666666666667,
      "grad_norm": 1.143755316734314,
      "learning_rate": 6.2631684458099e-05,
      "loss": 3.563,
      "step": 335600
    },
    {
      "epoch": 0.6991875,
      "grad_norm": 1.3143082857131958,
      "learning_rate": 6.262367099633137e-05,
      "loss": 3.5696,
      "step": 335610
    },
    {
      "epoch": 0.6992083333333333,
      "grad_norm": 1.1059479713439941,
      "learning_rate": 6.26156579119949e-05,
      "loss": 3.4691,
      "step": 335620
    },
    {
      "epoch": 0.6992291666666667,
      "grad_norm": 1.0932785272598267,
      "learning_rate": 6.260764520512418e-05,
      "loss": 3.5792,
      "step": 335630
    },
    {
      "epoch": 0.69925,
      "grad_norm": 1.2040694952011108,
      "learning_rate": 6.259963287575391e-05,
      "loss": 3.4599,
      "step": 335640
    },
    {
      "epoch": 0.6992708333333333,
      "grad_norm": 1.1675587892532349,
      "learning_rate": 6.259162092391852e-05,
      "loss": 3.3244,
      "step": 335650
    },
    {
      "epoch": 0.6992916666666666,
      "grad_norm": 1.329516887664795,
      "learning_rate": 6.258360934965277e-05,
      "loss": 3.4179,
      "step": 335660
    },
    {
      "epoch": 0.6993125,
      "grad_norm": 1.1678844690322876,
      "learning_rate": 6.25755981529913e-05,
      "loss": 3.5445,
      "step": 335670
    },
    {
      "epoch": 0.6993333333333334,
      "grad_norm": 1.2562557458877563,
      "learning_rate": 6.256758733396853e-05,
      "loss": 3.44,
      "step": 335680
    },
    {
      "epoch": 0.6993541666666667,
      "grad_norm": 1.2206685543060303,
      "learning_rate": 6.25595768926192e-05,
      "loss": 3.4916,
      "step": 335690
    },
    {
      "epoch": 0.699375,
      "grad_norm": 1.1766633987426758,
      "learning_rate": 6.255156682897798e-05,
      "loss": 3.468,
      "step": 335700
    },
    {
      "epoch": 0.6993958333333333,
      "grad_norm": 1.2760632038116455,
      "learning_rate": 6.254355714307924e-05,
      "loss": 3.545,
      "step": 335710
    },
    {
      "epoch": 0.6994166666666667,
      "grad_norm": 1.1501754522323608,
      "learning_rate": 6.253554783495783e-05,
      "loss": 3.4463,
      "step": 335720
    },
    {
      "epoch": 0.6994375,
      "grad_norm": 1.1534489393234253,
      "learning_rate": 6.25275389046482e-05,
      "loss": 3.4945,
      "step": 335730
    },
    {
      "epoch": 0.6994583333333333,
      "grad_norm": 1.159515380859375,
      "learning_rate": 6.25195303521849e-05,
      "loss": 3.4093,
      "step": 335740
    },
    {
      "epoch": 0.6994791666666667,
      "grad_norm": 1.1222654581069946,
      "learning_rate": 6.251152217760272e-05,
      "loss": 3.4313,
      "step": 335750
    },
    {
      "epoch": 0.6995,
      "grad_norm": 1.1924409866333008,
      "learning_rate": 6.250351438093607e-05,
      "loss": 3.4324,
      "step": 335760
    },
    {
      "epoch": 0.6995208333333334,
      "grad_norm": 1.2782694101333618,
      "learning_rate": 6.249550696221956e-05,
      "loss": 3.3753,
      "step": 335770
    },
    {
      "epoch": 0.6995416666666666,
      "grad_norm": 1.2332642078399658,
      "learning_rate": 6.248749992148793e-05,
      "loss": 3.4675,
      "step": 335780
    },
    {
      "epoch": 0.6995625,
      "grad_norm": 1.1806567907333374,
      "learning_rate": 6.247949325877559e-05,
      "loss": 3.3226,
      "step": 335790
    },
    {
      "epoch": 0.6995833333333333,
      "grad_norm": 1.2929925918579102,
      "learning_rate": 6.247148697411716e-05,
      "loss": 3.4827,
      "step": 335800
    },
    {
      "epoch": 0.6996041666666667,
      "grad_norm": 1.139124870300293,
      "learning_rate": 6.246348106754737e-05,
      "loss": 3.4362,
      "step": 335810
    },
    {
      "epoch": 0.699625,
      "grad_norm": 1.2601574659347534,
      "learning_rate": 6.245547553910062e-05,
      "loss": 3.5142,
      "step": 335820
    },
    {
      "epoch": 0.6996458333333333,
      "grad_norm": 1.2731164693832397,
      "learning_rate": 6.244747038881153e-05,
      "loss": 3.3862,
      "step": 335830
    },
    {
      "epoch": 0.6996666666666667,
      "grad_norm": 1.284316897392273,
      "learning_rate": 6.243946561671482e-05,
      "loss": 3.3788,
      "step": 335840
    },
    {
      "epoch": 0.6996875,
      "grad_norm": 1.2121845483779907,
      "learning_rate": 6.243146122284491e-05,
      "loss": 3.573,
      "step": 335850
    },
    {
      "epoch": 0.6997083333333334,
      "grad_norm": 1.2295235395431519,
      "learning_rate": 6.242345720723641e-05,
      "loss": 3.3737,
      "step": 335860
    },
    {
      "epoch": 0.6997291666666666,
      "grad_norm": 1.2039750814437866,
      "learning_rate": 6.24154535699239e-05,
      "loss": 3.4681,
      "step": 335870
    },
    {
      "epoch": 0.69975,
      "grad_norm": 1.3147003650665283,
      "learning_rate": 6.240745031094198e-05,
      "loss": 3.4637,
      "step": 335880
    },
    {
      "epoch": 0.6997708333333333,
      "grad_norm": 1.239801049232483,
      "learning_rate": 6.23994474303252e-05,
      "loss": 3.5313,
      "step": 335890
    },
    {
      "epoch": 0.6997916666666667,
      "grad_norm": 1.2617839574813843,
      "learning_rate": 6.239144492810813e-05,
      "loss": 3.5311,
      "step": 335900
    },
    {
      "epoch": 0.6998125,
      "grad_norm": 1.299261212348938,
      "learning_rate": 6.238344280432534e-05,
      "loss": 3.4847,
      "step": 335910
    },
    {
      "epoch": 0.6998333333333333,
      "grad_norm": 1.325685977935791,
      "learning_rate": 6.23754410590114e-05,
      "loss": 3.491,
      "step": 335920
    },
    {
      "epoch": 0.6998541666666667,
      "grad_norm": 1.2897729873657227,
      "learning_rate": 6.236743969220087e-05,
      "loss": 3.465,
      "step": 335930
    },
    {
      "epoch": 0.699875,
      "grad_norm": 1.2017698287963867,
      "learning_rate": 6.23594387039283e-05,
      "loss": 3.5774,
      "step": 335940
    },
    {
      "epoch": 0.6998958333333334,
      "grad_norm": 1.3152118921279907,
      "learning_rate": 6.235143809422833e-05,
      "loss": 3.6007,
      "step": 335950
    },
    {
      "epoch": 0.6999166666666666,
      "grad_norm": 1.2223316431045532,
      "learning_rate": 6.234343786313534e-05,
      "loss": 3.613,
      "step": 335960
    },
    {
      "epoch": 0.6999375,
      "grad_norm": 1.1574887037277222,
      "learning_rate": 6.233543801068406e-05,
      "loss": 3.4595,
      "step": 335970
    },
    {
      "epoch": 0.6999583333333333,
      "grad_norm": 1.2001327276229858,
      "learning_rate": 6.232743853690904e-05,
      "loss": 3.4156,
      "step": 335980
    },
    {
      "epoch": 0.6999791666666667,
      "grad_norm": 1.1971627473831177,
      "learning_rate": 6.231943944184469e-05,
      "loss": 3.5137,
      "step": 335990
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.283671498298645,
      "learning_rate": 6.231144072552569e-05,
      "loss": 3.4819,
      "step": 336000
    },
    {
      "epoch": 0.7,
      "eval_loss": 3.547747850418091,
      "eval_runtime": 7.3373,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 336000
    },
    {
      "epoch": 0.7000208333333333,
      "grad_norm": 1.2871841192245483,
      "learning_rate": 6.230344238798663e-05,
      "loss": 3.4968,
      "step": 336010
    },
    {
      "epoch": 0.7000416666666667,
      "grad_norm": 1.107941746711731,
      "learning_rate": 6.229544442926185e-05,
      "loss": 3.4665,
      "step": 336020
    },
    {
      "epoch": 0.7000625,
      "grad_norm": 1.42694091796875,
      "learning_rate": 6.22874468493861e-05,
      "loss": 3.5149,
      "step": 336030
    },
    {
      "epoch": 0.7000833333333333,
      "grad_norm": 1.1807079315185547,
      "learning_rate": 6.227944964839392e-05,
      "loss": 3.3227,
      "step": 336040
    },
    {
      "epoch": 0.7001041666666666,
      "grad_norm": 1.524831771850586,
      "learning_rate": 6.227145282631968e-05,
      "loss": 3.4459,
      "step": 336050
    },
    {
      "epoch": 0.700125,
      "grad_norm": 1.3191853761672974,
      "learning_rate": 6.22634563831981e-05,
      "loss": 3.5699,
      "step": 336060
    },
    {
      "epoch": 0.7001458333333334,
      "grad_norm": 1.2857332229614258,
      "learning_rate": 6.225546031906372e-05,
      "loss": 3.6399,
      "step": 336070
    },
    {
      "epoch": 0.7001666666666667,
      "grad_norm": 1.2376700639724731,
      "learning_rate": 6.224746463395089e-05,
      "loss": 3.5431,
      "step": 336080
    },
    {
      "epoch": 0.7001875,
      "grad_norm": 1.204566240310669,
      "learning_rate": 6.22394693278944e-05,
      "loss": 3.5422,
      "step": 336090
    },
    {
      "epoch": 0.7002083333333333,
      "grad_norm": 1.18497633934021,
      "learning_rate": 6.223147440092861e-05,
      "loss": 3.4365,
      "step": 336100
    },
    {
      "epoch": 0.7002291666666667,
      "grad_norm": 1.2350962162017822,
      "learning_rate": 6.222347985308805e-05,
      "loss": 3.4693,
      "step": 336110
    },
    {
      "epoch": 0.70025,
      "grad_norm": 1.2560731172561646,
      "learning_rate": 6.221548568440743e-05,
      "loss": 3.5138,
      "step": 336120
    },
    {
      "epoch": 0.7002708333333333,
      "grad_norm": 1.4579166173934937,
      "learning_rate": 6.22074918949211e-05,
      "loss": 3.4047,
      "step": 336130
    },
    {
      "epoch": 0.7002916666666666,
      "grad_norm": 1.2564051151275635,
      "learning_rate": 6.219949848466361e-05,
      "loss": 3.4721,
      "step": 336140
    },
    {
      "epoch": 0.7003125,
      "grad_norm": 1.2405486106872559,
      "learning_rate": 6.219150545366963e-05,
      "loss": 3.5357,
      "step": 336150
    },
    {
      "epoch": 0.7003333333333334,
      "grad_norm": 1.2930819988250732,
      "learning_rate": 6.218351280197354e-05,
      "loss": 3.3923,
      "step": 336160
    },
    {
      "epoch": 0.7003541666666667,
      "grad_norm": 1.2441823482513428,
      "learning_rate": 6.217552052960987e-05,
      "loss": 3.378,
      "step": 336170
    },
    {
      "epoch": 0.700375,
      "grad_norm": 1.220937728881836,
      "learning_rate": 6.216752863661329e-05,
      "loss": 3.4858,
      "step": 336180
    },
    {
      "epoch": 0.7003958333333333,
      "grad_norm": 1.1775091886520386,
      "learning_rate": 6.215953712301817e-05,
      "loss": 3.4459,
      "step": 336190
    },
    {
      "epoch": 0.7004166666666667,
      "grad_norm": 1.2426711320877075,
      "learning_rate": 6.2151545988859e-05,
      "loss": 3.3449,
      "step": 336200
    },
    {
      "epoch": 0.7004375,
      "grad_norm": 1.2404887676239014,
      "learning_rate": 6.214355523417052e-05,
      "loss": 3.6179,
      "step": 336210
    },
    {
      "epoch": 0.7004583333333333,
      "grad_norm": 1.2768933773040771,
      "learning_rate": 6.213556485898703e-05,
      "loss": 3.3789,
      "step": 336220
    },
    {
      "epoch": 0.7004791666666667,
      "grad_norm": 1.153773546218872,
      "learning_rate": 6.212757486334314e-05,
      "loss": 3.4573,
      "step": 336230
    },
    {
      "epoch": 0.7005,
      "grad_norm": 1.2861980199813843,
      "learning_rate": 6.211958524727331e-05,
      "loss": 3.3108,
      "step": 336240
    },
    {
      "epoch": 0.7005208333333334,
      "grad_norm": 1.2296116352081299,
      "learning_rate": 6.211159601081213e-05,
      "loss": 3.4627,
      "step": 336250
    },
    {
      "epoch": 0.7005416666666666,
      "grad_norm": 1.3867930173873901,
      "learning_rate": 6.210360715399403e-05,
      "loss": 3.5809,
      "step": 336260
    },
    {
      "epoch": 0.7005625,
      "grad_norm": 1.2569884061813354,
      "learning_rate": 6.209561867685358e-05,
      "loss": 3.4594,
      "step": 336270
    },
    {
      "epoch": 0.7005833333333333,
      "grad_norm": 1.2178750038146973,
      "learning_rate": 6.208763057942525e-05,
      "loss": 3.4202,
      "step": 336280
    },
    {
      "epoch": 0.7006041666666667,
      "grad_norm": 1.235801100730896,
      "learning_rate": 6.207964286174356e-05,
      "loss": 3.4984,
      "step": 336290
    },
    {
      "epoch": 0.700625,
      "grad_norm": 2.3859620094299316,
      "learning_rate": 6.207165552384302e-05,
      "loss": 3.4238,
      "step": 336300
    },
    {
      "epoch": 0.7006458333333333,
      "grad_norm": 1.274491548538208,
      "learning_rate": 6.206366856575811e-05,
      "loss": 3.4814,
      "step": 336310
    },
    {
      "epoch": 0.7006666666666667,
      "grad_norm": 1.1793797016143799,
      "learning_rate": 6.205568198752341e-05,
      "loss": 3.4252,
      "step": 336320
    },
    {
      "epoch": 0.7006875,
      "grad_norm": 1.173323154449463,
      "learning_rate": 6.204769578917322e-05,
      "loss": 3.4354,
      "step": 336330
    },
    {
      "epoch": 0.7007083333333334,
      "grad_norm": 1.3089779615402222,
      "learning_rate": 6.203970997074226e-05,
      "loss": 3.5112,
      "step": 336340
    },
    {
      "epoch": 0.7007291666666666,
      "grad_norm": 1.3249680995941162,
      "learning_rate": 6.203172453226497e-05,
      "loss": 3.324,
      "step": 336350
    },
    {
      "epoch": 0.70075,
      "grad_norm": 1.2047593593597412,
      "learning_rate": 6.202373947377571e-05,
      "loss": 3.5027,
      "step": 336360
    },
    {
      "epoch": 0.7007708333333333,
      "grad_norm": 1.2008167505264282,
      "learning_rate": 6.201575479530911e-05,
      "loss": 3.5547,
      "step": 336370
    },
    {
      "epoch": 0.7007916666666667,
      "grad_norm": 1.181822419166565,
      "learning_rate": 6.200777049689969e-05,
      "loss": 3.4342,
      "step": 336380
    },
    {
      "epoch": 0.7008125,
      "grad_norm": 1.2644904851913452,
      "learning_rate": 6.199978657858177e-05,
      "loss": 3.4574,
      "step": 336390
    },
    {
      "epoch": 0.7008333333333333,
      "grad_norm": 1.2870031595230103,
      "learning_rate": 6.199180304038999e-05,
      "loss": 3.4775,
      "step": 336400
    },
    {
      "epoch": 0.7008541666666667,
      "grad_norm": 1.3716379404067993,
      "learning_rate": 6.198381988235882e-05,
      "loss": 3.6004,
      "step": 336410
    },
    {
      "epoch": 0.700875,
      "grad_norm": 1.3416285514831543,
      "learning_rate": 6.197583710452261e-05,
      "loss": 3.4419,
      "step": 336420
    },
    {
      "epoch": 0.7008958333333334,
      "grad_norm": 1.1834099292755127,
      "learning_rate": 6.1967854706916e-05,
      "loss": 3.4093,
      "step": 336430
    },
    {
      "epoch": 0.7009166666666666,
      "grad_norm": 1.2639976739883423,
      "learning_rate": 6.195987268957349e-05,
      "loss": 3.4678,
      "step": 336440
    },
    {
      "epoch": 0.7009375,
      "grad_norm": 1.2922903299331665,
      "learning_rate": 6.195189105252933e-05,
      "loss": 3.428,
      "step": 336450
    },
    {
      "epoch": 0.7009583333333333,
      "grad_norm": 1.2601619958877563,
      "learning_rate": 6.194390979581829e-05,
      "loss": 3.4712,
      "step": 336460
    },
    {
      "epoch": 0.7009791666666667,
      "grad_norm": 1.496015191078186,
      "learning_rate": 6.193592891947462e-05,
      "loss": 3.4611,
      "step": 336470
    },
    {
      "epoch": 0.701,
      "grad_norm": 1.2800917625427246,
      "learning_rate": 6.192794842353284e-05,
      "loss": 3.5051,
      "step": 336480
    },
    {
      "epoch": 0.7010208333333333,
      "grad_norm": 1.2203500270843506,
      "learning_rate": 6.191996830802758e-05,
      "loss": 3.4954,
      "step": 336490
    },
    {
      "epoch": 0.7010416666666667,
      "grad_norm": 1.2712202072143555,
      "learning_rate": 6.191198857299313e-05,
      "loss": 3.5255,
      "step": 336500
    },
    {
      "epoch": 0.7010625,
      "grad_norm": 1.2175453901290894,
      "learning_rate": 6.190400921846397e-05,
      "loss": 3.4784,
      "step": 336510
    },
    {
      "epoch": 0.7010833333333333,
      "grad_norm": 1.3130533695220947,
      "learning_rate": 6.189603024447472e-05,
      "loss": 3.5954,
      "step": 336520
    },
    {
      "epoch": 0.7011041666666666,
      "grad_norm": 1.1533751487731934,
      "learning_rate": 6.188805165105969e-05,
      "loss": 3.5138,
      "step": 336530
    },
    {
      "epoch": 0.701125,
      "grad_norm": 1.2571521997451782,
      "learning_rate": 6.188007343825341e-05,
      "loss": 3.3811,
      "step": 336540
    },
    {
      "epoch": 0.7011458333333334,
      "grad_norm": 1.2362184524536133,
      "learning_rate": 6.187209560609034e-05,
      "loss": 3.4749,
      "step": 336550
    },
    {
      "epoch": 0.7011666666666667,
      "grad_norm": 1.2820051908493042,
      "learning_rate": 6.18641181546049e-05,
      "loss": 3.4856,
      "step": 336560
    },
    {
      "epoch": 0.7011875,
      "grad_norm": 1.367639183998108,
      "learning_rate": 6.185614108383161e-05,
      "loss": 3.4623,
      "step": 336570
    },
    {
      "epoch": 0.7012083333333333,
      "grad_norm": 1.2193312644958496,
      "learning_rate": 6.18481643938049e-05,
      "loss": 3.5209,
      "step": 336580
    },
    {
      "epoch": 0.7012291666666667,
      "grad_norm": 1.379840612411499,
      "learning_rate": 6.184018808455922e-05,
      "loss": 3.4985,
      "step": 336590
    },
    {
      "epoch": 0.70125,
      "grad_norm": 1.2418456077575684,
      "learning_rate": 6.183221215612904e-05,
      "loss": 3.4896,
      "step": 336600
    },
    {
      "epoch": 0.7012708333333333,
      "grad_norm": 1.1561691761016846,
      "learning_rate": 6.182423660854879e-05,
      "loss": 3.4781,
      "step": 336610
    },
    {
      "epoch": 0.7012916666666666,
      "grad_norm": 1.273154377937317,
      "learning_rate": 6.181626144185295e-05,
      "loss": 3.4625,
      "step": 336620
    },
    {
      "epoch": 0.7013125,
      "grad_norm": 1.2659119367599487,
      "learning_rate": 6.180828665607594e-05,
      "loss": 3.4992,
      "step": 336630
    },
    {
      "epoch": 0.7013333333333334,
      "grad_norm": 1.1624847650527954,
      "learning_rate": 6.180031225125224e-05,
      "loss": 3.4922,
      "step": 336640
    },
    {
      "epoch": 0.7013541666666666,
      "grad_norm": 1.3486173152923584,
      "learning_rate": 6.179233822741627e-05,
      "loss": 3.5229,
      "step": 336650
    },
    {
      "epoch": 0.701375,
      "grad_norm": 1.2501815557479858,
      "learning_rate": 6.178436458460249e-05,
      "loss": 3.5476,
      "step": 336660
    },
    {
      "epoch": 0.7013958333333333,
      "grad_norm": 1.2967396974563599,
      "learning_rate": 6.177639132284532e-05,
      "loss": 3.3583,
      "step": 336670
    },
    {
      "epoch": 0.7014166666666667,
      "grad_norm": 1.2512454986572266,
      "learning_rate": 6.176841844217923e-05,
      "loss": 3.3589,
      "step": 336680
    },
    {
      "epoch": 0.7014375,
      "grad_norm": 1.2059032917022705,
      "learning_rate": 6.176044594263866e-05,
      "loss": 3.4404,
      "step": 336690
    },
    {
      "epoch": 0.7014583333333333,
      "grad_norm": 1.2724807262420654,
      "learning_rate": 6.175247382425802e-05,
      "loss": 3.3918,
      "step": 336700
    },
    {
      "epoch": 0.7014791666666667,
      "grad_norm": 1.2178579568862915,
      "learning_rate": 6.174450208707174e-05,
      "loss": 3.4513,
      "step": 336710
    },
    {
      "epoch": 0.7015,
      "grad_norm": 1.3541584014892578,
      "learning_rate": 6.173653073111436e-05,
      "loss": 3.4331,
      "step": 336720
    },
    {
      "epoch": 0.7015208333333334,
      "grad_norm": 1.4216519594192505,
      "learning_rate": 6.172855975642013e-05,
      "loss": 3.3435,
      "step": 336730
    },
    {
      "epoch": 0.7015416666666666,
      "grad_norm": 1.2505834102630615,
      "learning_rate": 6.172058916302362e-05,
      "loss": 3.5885,
      "step": 336740
    },
    {
      "epoch": 0.7015625,
      "grad_norm": 1.1882305145263672,
      "learning_rate": 6.171261895095927e-05,
      "loss": 3.4515,
      "step": 336750
    },
    {
      "epoch": 0.7015833333333333,
      "grad_norm": 1.3764903545379639,
      "learning_rate": 6.170464912026138e-05,
      "loss": 3.4589,
      "step": 336760
    },
    {
      "epoch": 0.7016041666666667,
      "grad_norm": 1.2673038244247437,
      "learning_rate": 6.169667967096448e-05,
      "loss": 3.5062,
      "step": 336770
    },
    {
      "epoch": 0.701625,
      "grad_norm": 1.154935359954834,
      "learning_rate": 6.168871060310304e-05,
      "loss": 3.5315,
      "step": 336780
    },
    {
      "epoch": 0.7016458333333333,
      "grad_norm": 1.1431233882904053,
      "learning_rate": 6.16807419167113e-05,
      "loss": 3.6152,
      "step": 336790
    },
    {
      "epoch": 0.7016666666666667,
      "grad_norm": 1.340811014175415,
      "learning_rate": 6.167277361182387e-05,
      "loss": 3.3523,
      "step": 336800
    },
    {
      "epoch": 0.7016875,
      "grad_norm": 1.2516489028930664,
      "learning_rate": 6.166480568847511e-05,
      "loss": 3.5474,
      "step": 336810
    },
    {
      "epoch": 0.7017083333333334,
      "grad_norm": 1.11079740524292,
      "learning_rate": 6.16568381466994e-05,
      "loss": 3.4723,
      "step": 336820
    },
    {
      "epoch": 0.7017291666666666,
      "grad_norm": 1.242627739906311,
      "learning_rate": 6.164887098653117e-05,
      "loss": 3.5259,
      "step": 336830
    },
    {
      "epoch": 0.70175,
      "grad_norm": 1.414902925491333,
      "learning_rate": 6.164090420800486e-05,
      "loss": 3.5077,
      "step": 336840
    },
    {
      "epoch": 0.7017708333333333,
      "grad_norm": 1.200586199760437,
      "learning_rate": 6.163293781115485e-05,
      "loss": 3.4394,
      "step": 336850
    },
    {
      "epoch": 0.7017916666666667,
      "grad_norm": 1.2068068981170654,
      "learning_rate": 6.162497179601557e-05,
      "loss": 3.5369,
      "step": 336860
    },
    {
      "epoch": 0.7018125,
      "grad_norm": 1.4504272937774658,
      "learning_rate": 6.161700616262143e-05,
      "loss": 3.4103,
      "step": 336870
    },
    {
      "epoch": 0.7018333333333333,
      "grad_norm": 1.940525770187378,
      "learning_rate": 6.160904091100684e-05,
      "loss": 3.5211,
      "step": 336880
    },
    {
      "epoch": 0.7018541666666667,
      "grad_norm": 1.167815089225769,
      "learning_rate": 6.160107604120623e-05,
      "loss": 3.5112,
      "step": 336890
    },
    {
      "epoch": 0.701875,
      "grad_norm": 1.2298816442489624,
      "learning_rate": 6.159311155325396e-05,
      "loss": 3.495,
      "step": 336900
    },
    {
      "epoch": 0.7018958333333334,
      "grad_norm": 1.2887758016586304,
      "learning_rate": 6.158514744718445e-05,
      "loss": 3.4245,
      "step": 336910
    },
    {
      "epoch": 0.7019166666666666,
      "grad_norm": 1.26340913772583,
      "learning_rate": 6.157718372303212e-05,
      "loss": 3.5338,
      "step": 336920
    },
    {
      "epoch": 0.7019375,
      "grad_norm": 1.325819969177246,
      "learning_rate": 6.156922038083135e-05,
      "loss": 3.352,
      "step": 336930
    },
    {
      "epoch": 0.7019583333333334,
      "grad_norm": 1.3062403202056885,
      "learning_rate": 6.156125742061654e-05,
      "loss": 3.38,
      "step": 336940
    },
    {
      "epoch": 0.7019791666666667,
      "grad_norm": 1.2165260314941406,
      "learning_rate": 6.15532948424221e-05,
      "loss": 3.4544,
      "step": 336950
    },
    {
      "epoch": 0.702,
      "grad_norm": 1.2738009691238403,
      "learning_rate": 6.154533264628241e-05,
      "loss": 3.3711,
      "step": 336960
    },
    {
      "epoch": 0.7020208333333333,
      "grad_norm": 1.350063443183899,
      "learning_rate": 6.153737083223187e-05,
      "loss": 3.4078,
      "step": 336970
    },
    {
      "epoch": 0.7020416666666667,
      "grad_norm": 1.1851447820663452,
      "learning_rate": 6.152940940030488e-05,
      "loss": 3.5234,
      "step": 336980
    },
    {
      "epoch": 0.7020625,
      "grad_norm": 1.2664728164672852,
      "learning_rate": 6.152144835053581e-05,
      "loss": 3.4688,
      "step": 336990
    },
    {
      "epoch": 0.7020833333333333,
      "grad_norm": 1.1335541009902954,
      "learning_rate": 6.151348768295907e-05,
      "loss": 3.4938,
      "step": 337000
    },
    {
      "epoch": 0.7020833333333333,
      "eval_loss": 3.547882556915283,
      "eval_runtime": 6.8671,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 337000
    },
    {
      "epoch": 0.7021041666666666,
      "grad_norm": 1.3343865871429443,
      "learning_rate": 6.150552739760904e-05,
      "loss": 3.4332,
      "step": 337010
    },
    {
      "epoch": 0.702125,
      "grad_norm": 1.3869177103042603,
      "learning_rate": 6.149756749452008e-05,
      "loss": 3.3622,
      "step": 337020
    },
    {
      "epoch": 0.7021458333333334,
      "grad_norm": 1.2390109300613403,
      "learning_rate": 6.148960797372663e-05,
      "loss": 3.4035,
      "step": 337030
    },
    {
      "epoch": 0.7021666666666667,
      "grad_norm": 1.3137329816818237,
      "learning_rate": 6.148164883526303e-05,
      "loss": 3.4449,
      "step": 337040
    },
    {
      "epoch": 0.7021875,
      "grad_norm": 1.269097089767456,
      "learning_rate": 6.147369007916365e-05,
      "loss": 3.5147,
      "step": 337050
    },
    {
      "epoch": 0.7022083333333333,
      "grad_norm": 1.20040762424469,
      "learning_rate": 6.146573170546291e-05,
      "loss": 3.3285,
      "step": 337060
    },
    {
      "epoch": 0.7022291666666667,
      "grad_norm": 1.269285798072815,
      "learning_rate": 6.145777371419515e-05,
      "loss": 3.4772,
      "step": 337070
    },
    {
      "epoch": 0.70225,
      "grad_norm": 1.1725260019302368,
      "learning_rate": 6.144981610539476e-05,
      "loss": 3.5341,
      "step": 337080
    },
    {
      "epoch": 0.7022708333333333,
      "grad_norm": 1.1820366382598877,
      "learning_rate": 6.144185887909618e-05,
      "loss": 3.378,
      "step": 337090
    },
    {
      "epoch": 0.7022916666666666,
      "grad_norm": 1.1582268476486206,
      "learning_rate": 6.14339020353336e-05,
      "loss": 3.4757,
      "step": 337100
    },
    {
      "epoch": 0.7023125,
      "grad_norm": 1.1474801301956177,
      "learning_rate": 6.142594557414156e-05,
      "loss": 3.4091,
      "step": 337110
    },
    {
      "epoch": 0.7023333333333334,
      "grad_norm": 1.3932316303253174,
      "learning_rate": 6.141798949555443e-05,
      "loss": 3.5156,
      "step": 337120
    },
    {
      "epoch": 0.7023541666666666,
      "grad_norm": 1.3997992277145386,
      "learning_rate": 6.141003379960647e-05,
      "loss": 3.42,
      "step": 337130
    },
    {
      "epoch": 0.702375,
      "grad_norm": 1.3903754949569702,
      "learning_rate": 6.140207848633204e-05,
      "loss": 3.6401,
      "step": 337140
    },
    {
      "epoch": 0.7023958333333333,
      "grad_norm": 1.1712723970413208,
      "learning_rate": 6.139412355576568e-05,
      "loss": 3.4783,
      "step": 337150
    },
    {
      "epoch": 0.7024166666666667,
      "grad_norm": 1.2296006679534912,
      "learning_rate": 6.138616900794156e-05,
      "loss": 3.5389,
      "step": 337160
    },
    {
      "epoch": 0.7024375,
      "grad_norm": 1.2282097339630127,
      "learning_rate": 6.137821484289408e-05,
      "loss": 3.4005,
      "step": 337170
    },
    {
      "epoch": 0.7024583333333333,
      "grad_norm": 1.2565449476242065,
      "learning_rate": 6.137026106065773e-05,
      "loss": 3.5188,
      "step": 337180
    },
    {
      "epoch": 0.7024791666666667,
      "grad_norm": 1.427370548248291,
      "learning_rate": 6.136230766126673e-05,
      "loss": 3.5178,
      "step": 337190
    },
    {
      "epoch": 0.7025,
      "grad_norm": 1.3533837795257568,
      "learning_rate": 6.13543546447554e-05,
      "loss": 3.472,
      "step": 337200
    },
    {
      "epoch": 0.7025208333333334,
      "grad_norm": 1.3554692268371582,
      "learning_rate": 6.134640201115828e-05,
      "loss": 3.4341,
      "step": 337210
    },
    {
      "epoch": 0.7025416666666666,
      "grad_norm": 1.2190723419189453,
      "learning_rate": 6.133844976050957e-05,
      "loss": 3.5528,
      "step": 337220
    },
    {
      "epoch": 0.7025625,
      "grad_norm": 1.2143807411193848,
      "learning_rate": 6.133049789284365e-05,
      "loss": 3.4868,
      "step": 337230
    },
    {
      "epoch": 0.7025833333333333,
      "grad_norm": 1.4535670280456543,
      "learning_rate": 6.13225464081949e-05,
      "loss": 3.4697,
      "step": 337240
    },
    {
      "epoch": 0.7026041666666667,
      "grad_norm": 1.1874237060546875,
      "learning_rate": 6.131459530659763e-05,
      "loss": 3.3624,
      "step": 337250
    },
    {
      "epoch": 0.702625,
      "grad_norm": 1.3217525482177734,
      "learning_rate": 6.130664458808622e-05,
      "loss": 3.4906,
      "step": 337260
    },
    {
      "epoch": 0.7026458333333333,
      "grad_norm": 1.329574704170227,
      "learning_rate": 6.129869425269499e-05,
      "loss": 3.5345,
      "step": 337270
    },
    {
      "epoch": 0.7026666666666667,
      "grad_norm": 1.3563734292984009,
      "learning_rate": 6.12907443004583e-05,
      "loss": 3.3676,
      "step": 337280
    },
    {
      "epoch": 0.7026875,
      "grad_norm": 1.1603518724441528,
      "learning_rate": 6.128279473141046e-05,
      "loss": 3.4553,
      "step": 337290
    },
    {
      "epoch": 0.7027083333333334,
      "grad_norm": 1.2819563150405884,
      "learning_rate": 6.127484554558583e-05,
      "loss": 3.4112,
      "step": 337300
    },
    {
      "epoch": 0.7027291666666666,
      "grad_norm": 1.1793384552001953,
      "learning_rate": 6.126689674301877e-05,
      "loss": 3.5116,
      "step": 337310
    },
    {
      "epoch": 0.70275,
      "grad_norm": 1.2641164064407349,
      "learning_rate": 6.125894832374358e-05,
      "loss": 3.4933,
      "step": 337320
    },
    {
      "epoch": 0.7027708333333333,
      "grad_norm": 1.230138897895813,
      "learning_rate": 6.125100028779461e-05,
      "loss": 3.456,
      "step": 337330
    },
    {
      "epoch": 0.7027916666666667,
      "grad_norm": 1.2633583545684814,
      "learning_rate": 6.12430526352062e-05,
      "loss": 3.4421,
      "step": 337340
    },
    {
      "epoch": 0.7028125,
      "grad_norm": 1.3343912363052368,
      "learning_rate": 6.123510536601265e-05,
      "loss": 3.4944,
      "step": 337350
    },
    {
      "epoch": 0.7028333333333333,
      "grad_norm": 1.1665493249893188,
      "learning_rate": 6.122715848024832e-05,
      "loss": 3.6222,
      "step": 337360
    },
    {
      "epoch": 0.7028541666666667,
      "grad_norm": 1.3655123710632324,
      "learning_rate": 6.121921197794752e-05,
      "loss": 3.4009,
      "step": 337370
    },
    {
      "epoch": 0.702875,
      "grad_norm": 1.6559230089187622,
      "learning_rate": 6.121126585914459e-05,
      "loss": 3.3479,
      "step": 337380
    },
    {
      "epoch": 0.7028958333333334,
      "grad_norm": 1.476500391960144,
      "learning_rate": 6.120332012387385e-05,
      "loss": 3.4316,
      "step": 337390
    },
    {
      "epoch": 0.7029166666666666,
      "grad_norm": 1.3006172180175781,
      "learning_rate": 6.11953747721696e-05,
      "loss": 3.5815,
      "step": 337400
    },
    {
      "epoch": 0.7029375,
      "grad_norm": 1.160384178161621,
      "learning_rate": 6.118742980406625e-05,
      "loss": 3.443,
      "step": 337410
    },
    {
      "epoch": 0.7029583333333334,
      "grad_norm": 1.3278809785842896,
      "learning_rate": 6.117948521959793e-05,
      "loss": 3.5675,
      "step": 337420
    },
    {
      "epoch": 0.7029791666666667,
      "grad_norm": 1.5196995735168457,
      "learning_rate": 6.117154101879914e-05,
      "loss": 3.4359,
      "step": 337430
    },
    {
      "epoch": 0.703,
      "grad_norm": 1.2654173374176025,
      "learning_rate": 6.116359720170418e-05,
      "loss": 3.523,
      "step": 337440
    },
    {
      "epoch": 0.7030208333333333,
      "grad_norm": 1.2938235998153687,
      "learning_rate": 6.115565376834722e-05,
      "loss": 3.3329,
      "step": 337450
    },
    {
      "epoch": 0.7030416666666667,
      "grad_norm": 1.2503550052642822,
      "learning_rate": 6.114771071876276e-05,
      "loss": 3.4785,
      "step": 337460
    },
    {
      "epoch": 0.7030625,
      "grad_norm": 1.1843653917312622,
      "learning_rate": 6.113976805298498e-05,
      "loss": 3.4951,
      "step": 337470
    },
    {
      "epoch": 0.7030833333333333,
      "grad_norm": 1.2891989946365356,
      "learning_rate": 6.113182577104817e-05,
      "loss": 3.5487,
      "step": 337480
    },
    {
      "epoch": 0.7031041666666666,
      "grad_norm": 1.3306150436401367,
      "learning_rate": 6.11238838729868e-05,
      "loss": 3.3994,
      "step": 337490
    },
    {
      "epoch": 0.703125,
      "grad_norm": 1.1825460195541382,
      "learning_rate": 6.111594235883502e-05,
      "loss": 3.4456,
      "step": 337500
    },
    {
      "epoch": 0.7031458333333334,
      "grad_norm": 1.3364490270614624,
      "learning_rate": 6.110800122862713e-05,
      "loss": 3.4475,
      "step": 337510
    },
    {
      "epoch": 0.7031666666666667,
      "grad_norm": 1.3231216669082642,
      "learning_rate": 6.11000604823976e-05,
      "loss": 3.6511,
      "step": 337520
    },
    {
      "epoch": 0.7031875,
      "grad_norm": 1.1827259063720703,
      "learning_rate": 6.109212012018056e-05,
      "loss": 3.5273,
      "step": 337530
    },
    {
      "epoch": 0.7032083333333333,
      "grad_norm": 1.269390344619751,
      "learning_rate": 6.108418014201033e-05,
      "loss": 3.4707,
      "step": 337540
    },
    {
      "epoch": 0.7032291666666667,
      "grad_norm": 1.2534434795379639,
      "learning_rate": 6.107624054792134e-05,
      "loss": 3.5687,
      "step": 337550
    },
    {
      "epoch": 0.70325,
      "grad_norm": 1.264924168586731,
      "learning_rate": 6.106830133794775e-05,
      "loss": 3.5948,
      "step": 337560
    },
    {
      "epoch": 0.7032708333333333,
      "grad_norm": 1.2420966625213623,
      "learning_rate": 6.106036251212384e-05,
      "loss": 3.3599,
      "step": 337570
    },
    {
      "epoch": 0.7032916666666666,
      "grad_norm": 1.2550708055496216,
      "learning_rate": 6.105242407048406e-05,
      "loss": 3.5502,
      "step": 337580
    },
    {
      "epoch": 0.7033125,
      "grad_norm": 1.2974450588226318,
      "learning_rate": 6.104448601306254e-05,
      "loss": 3.4215,
      "step": 337590
    },
    {
      "epoch": 0.7033333333333334,
      "grad_norm": 1.2916353940963745,
      "learning_rate": 6.103654833989364e-05,
      "loss": 3.5323,
      "step": 337600
    },
    {
      "epoch": 0.7033541666666666,
      "grad_norm": 1.278411626815796,
      "learning_rate": 6.102861105101163e-05,
      "loss": 3.5173,
      "step": 337610
    },
    {
      "epoch": 0.703375,
      "grad_norm": 1.3139902353286743,
      "learning_rate": 6.1020674146450816e-05,
      "loss": 3.481,
      "step": 337620
    },
    {
      "epoch": 0.7033958333333333,
      "grad_norm": 1.275697946548462,
      "learning_rate": 6.101273762624545e-05,
      "loss": 3.4119,
      "step": 337630
    },
    {
      "epoch": 0.7034166666666667,
      "grad_norm": 1.2208703756332397,
      "learning_rate": 6.100480149042985e-05,
      "loss": 3.5413,
      "step": 337640
    },
    {
      "epoch": 0.7034375,
      "grad_norm": 1.1738718748092651,
      "learning_rate": 6.099686573903827e-05,
      "loss": 3.4847,
      "step": 337650
    },
    {
      "epoch": 0.7034583333333333,
      "grad_norm": 1.2127628326416016,
      "learning_rate": 6.098893037210501e-05,
      "loss": 3.6059,
      "step": 337660
    },
    {
      "epoch": 0.7034791666666667,
      "grad_norm": 1.1905533075332642,
      "learning_rate": 6.098099538966433e-05,
      "loss": 3.4281,
      "step": 337670
    },
    {
      "epoch": 0.7035,
      "grad_norm": 1.2152918577194214,
      "learning_rate": 6.097306079175053e-05,
      "loss": 3.5965,
      "step": 337680
    },
    {
      "epoch": 0.7035208333333334,
      "grad_norm": 1.1108717918395996,
      "learning_rate": 6.096512657839785e-05,
      "loss": 3.456,
      "step": 337690
    },
    {
      "epoch": 0.7035416666666666,
      "grad_norm": 1.1972706317901611,
      "learning_rate": 6.095719274964059e-05,
      "loss": 3.514,
      "step": 337700
    },
    {
      "epoch": 0.7035625,
      "grad_norm": 1.2995017766952515,
      "learning_rate": 6.0949259305513e-05,
      "loss": 3.4304,
      "step": 337710
    },
    {
      "epoch": 0.7035833333333333,
      "grad_norm": 1.3505476713180542,
      "learning_rate": 6.094132624604943e-05,
      "loss": 3.367,
      "step": 337720
    },
    {
      "epoch": 0.7036041666666667,
      "grad_norm": 1.1525038480758667,
      "learning_rate": 6.093339357128396e-05,
      "loss": 3.4417,
      "step": 337730
    },
    {
      "epoch": 0.703625,
      "grad_norm": 1.1797935962677002,
      "learning_rate": 6.092546128125104e-05,
      "loss": 3.493,
      "step": 337740
    },
    {
      "epoch": 0.7036458333333333,
      "grad_norm": 1.0856198072433472,
      "learning_rate": 6.091752937598491e-05,
      "loss": 3.45,
      "step": 337750
    },
    {
      "epoch": 0.7036666666666667,
      "grad_norm": 1.2343543767929077,
      "learning_rate": 6.09095978555197e-05,
      "loss": 3.4723,
      "step": 337760
    },
    {
      "epoch": 0.7036875,
      "grad_norm": 1.2618745565414429,
      "learning_rate": 6.0901666719889806e-05,
      "loss": 3.5291,
      "step": 337770
    },
    {
      "epoch": 0.7037083333333334,
      "grad_norm": 1.1922290325164795,
      "learning_rate": 6.089373596912949e-05,
      "loss": 3.5915,
      "step": 337780
    },
    {
      "epoch": 0.7037291666666666,
      "grad_norm": 1.2927953004837036,
      "learning_rate": 6.0885805603272856e-05,
      "loss": 3.4586,
      "step": 337790
    },
    {
      "epoch": 0.70375,
      "grad_norm": 1.2069324254989624,
      "learning_rate": 6.087787562235434e-05,
      "loss": 3.4049,
      "step": 337800
    },
    {
      "epoch": 0.7037708333333333,
      "grad_norm": 1.208803653717041,
      "learning_rate": 6.0869946026408174e-05,
      "loss": 3.3899,
      "step": 337810
    },
    {
      "epoch": 0.7037916666666667,
      "grad_norm": 1.2199193239212036,
      "learning_rate": 6.086201681546843e-05,
      "loss": 3.3166,
      "step": 337820
    },
    {
      "epoch": 0.7038125,
      "grad_norm": 1.1932649612426758,
      "learning_rate": 6.085408798956963e-05,
      "loss": 3.4546,
      "step": 337830
    },
    {
      "epoch": 0.7038333333333333,
      "grad_norm": 1.2438520193099976,
      "learning_rate": 6.084615954874581e-05,
      "loss": 3.5386,
      "step": 337840
    },
    {
      "epoch": 0.7038541666666667,
      "grad_norm": 1.3284127712249756,
      "learning_rate": 6.0838231493031256e-05,
      "loss": 3.4066,
      "step": 337850
    },
    {
      "epoch": 0.703875,
      "grad_norm": 1.2095472812652588,
      "learning_rate": 6.083030382246033e-05,
      "loss": 3.5011,
      "step": 337860
    },
    {
      "epoch": 0.7038958333333334,
      "grad_norm": 1.254395604133606,
      "learning_rate": 6.0822376537067166e-05,
      "loss": 3.4376,
      "step": 337870
    },
    {
      "epoch": 0.7039166666666666,
      "grad_norm": 1.3625855445861816,
      "learning_rate": 6.0814449636885956e-05,
      "loss": 3.5821,
      "step": 337880
    },
    {
      "epoch": 0.7039375,
      "grad_norm": 1.3054081201553345,
      "learning_rate": 6.080652312195116e-05,
      "loss": 3.4059,
      "step": 337890
    },
    {
      "epoch": 0.7039583333333334,
      "grad_norm": 1.172830581665039,
      "learning_rate": 6.0798596992296814e-05,
      "loss": 3.4756,
      "step": 337900
    },
    {
      "epoch": 0.7039791666666667,
      "grad_norm": 1.262341022491455,
      "learning_rate": 6.0790671247957147e-05,
      "loss": 3.4006,
      "step": 337910
    },
    {
      "epoch": 0.704,
      "grad_norm": 1.2027655839920044,
      "learning_rate": 6.07827458889666e-05,
      "loss": 3.3855,
      "step": 337920
    },
    {
      "epoch": 0.7040208333333333,
      "grad_norm": 1.305663824081421,
      "learning_rate": 6.077482091535921e-05,
      "loss": 3.5205,
      "step": 337930
    },
    {
      "epoch": 0.7040416666666667,
      "grad_norm": 1.3365150690078735,
      "learning_rate": 6.0766896327169225e-05,
      "loss": 3.5337,
      "step": 337940
    },
    {
      "epoch": 0.7040625,
      "grad_norm": 1.3261198997497559,
      "learning_rate": 6.075897212443104e-05,
      "loss": 3.443,
      "step": 337950
    },
    {
      "epoch": 0.7040833333333333,
      "grad_norm": 1.2527000904083252,
      "learning_rate": 6.0751048307178714e-05,
      "loss": 3.5608,
      "step": 337960
    },
    {
      "epoch": 0.7041041666666666,
      "grad_norm": 1.3351695537567139,
      "learning_rate": 6.0743124875446536e-05,
      "loss": 3.4145,
      "step": 337970
    },
    {
      "epoch": 0.704125,
      "grad_norm": 1.1747796535491943,
      "learning_rate": 6.073520182926871e-05,
      "loss": 3.4404,
      "step": 337980
    },
    {
      "epoch": 0.7041458333333334,
      "grad_norm": 1.4007017612457275,
      "learning_rate": 6.07272791686795e-05,
      "loss": 3.4667,
      "step": 337990
    },
    {
      "epoch": 0.7041666666666667,
      "grad_norm": 1.2729612588882446,
      "learning_rate": 6.071935689371311e-05,
      "loss": 3.4165,
      "step": 338000
    },
    {
      "epoch": 0.7041666666666667,
      "eval_loss": 3.5453877449035645,
      "eval_runtime": 7.3415,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 338000
    },
    {
      "epoch": 0.7041875,
      "grad_norm": 1.2828506231307983,
      "learning_rate": 6.071143500440374e-05,
      "loss": 3.3356,
      "step": 338010
    },
    {
      "epoch": 0.7042083333333333,
      "grad_norm": 1.2608920335769653,
      "learning_rate": 6.070351350078565e-05,
      "loss": 3.5108,
      "step": 338020
    },
    {
      "epoch": 0.7042291666666667,
      "grad_norm": 1.2318134307861328,
      "learning_rate": 6.069559238289301e-05,
      "loss": 3.4674,
      "step": 338030
    },
    {
      "epoch": 0.70425,
      "grad_norm": 1.3080766201019287,
      "learning_rate": 6.068767165076008e-05,
      "loss": 3.4368,
      "step": 338040
    },
    {
      "epoch": 0.7042708333333333,
      "grad_norm": 1.5093954801559448,
      "learning_rate": 6.067975130442104e-05,
      "loss": 3.4899,
      "step": 338050
    },
    {
      "epoch": 0.7042916666666666,
      "grad_norm": 1.3228991031646729,
      "learning_rate": 6.0671831343910144e-05,
      "loss": 3.4733,
      "step": 338060
    },
    {
      "epoch": 0.7043125,
      "grad_norm": 1.2450655698776245,
      "learning_rate": 6.066391176926155e-05,
      "loss": 3.7593,
      "step": 338070
    },
    {
      "epoch": 0.7043333333333334,
      "grad_norm": 1.1804310083389282,
      "learning_rate": 6.065599258050951e-05,
      "loss": 3.5088,
      "step": 338080
    },
    {
      "epoch": 0.7043541666666666,
      "grad_norm": 1.2097203731536865,
      "learning_rate": 6.064807377768827e-05,
      "loss": 3.3978,
      "step": 338090
    },
    {
      "epoch": 0.704375,
      "grad_norm": 1.466070294380188,
      "learning_rate": 6.0640155360831874e-05,
      "loss": 3.3221,
      "step": 338100
    },
    {
      "epoch": 0.7043958333333333,
      "grad_norm": 1.1592084169387817,
      "learning_rate": 6.0632237329974695e-05,
      "loss": 3.5694,
      "step": 338110
    },
    {
      "epoch": 0.7044166666666667,
      "grad_norm": 1.1729379892349243,
      "learning_rate": 6.0624319685150924e-05,
      "loss": 3.4906,
      "step": 338120
    },
    {
      "epoch": 0.7044375,
      "grad_norm": 1.3736308813095093,
      "learning_rate": 6.0616402426394614e-05,
      "loss": 3.5341,
      "step": 338130
    },
    {
      "epoch": 0.7044583333333333,
      "grad_norm": 1.3988351821899414,
      "learning_rate": 6.060848555374012e-05,
      "loss": 3.4669,
      "step": 338140
    },
    {
      "epoch": 0.7044791666666667,
      "grad_norm": 1.4352593421936035,
      "learning_rate": 6.0600569067221625e-05,
      "loss": 3.4037,
      "step": 338150
    },
    {
      "epoch": 0.7045,
      "grad_norm": 1.2427750825881958,
      "learning_rate": 6.059265296687318e-05,
      "loss": 3.5044,
      "step": 338160
    },
    {
      "epoch": 0.7045208333333334,
      "grad_norm": 1.2998541593551636,
      "learning_rate": 6.058473725272916e-05,
      "loss": 3.4445,
      "step": 338170
    },
    {
      "epoch": 0.7045416666666666,
      "grad_norm": 1.1894807815551758,
      "learning_rate": 6.057682192482371e-05,
      "loss": 3.5786,
      "step": 338180
    },
    {
      "epoch": 0.7045625,
      "grad_norm": 1.4175812005996704,
      "learning_rate": 6.056890698319089e-05,
      "loss": 3.5797,
      "step": 338190
    },
    {
      "epoch": 0.7045833333333333,
      "grad_norm": 1.2416106462478638,
      "learning_rate": 6.0560992427865056e-05,
      "loss": 3.4433,
      "step": 338200
    },
    {
      "epoch": 0.7046041666666667,
      "grad_norm": 1.250961184501648,
      "learning_rate": 6.055307825888038e-05,
      "loss": 3.3515,
      "step": 338210
    },
    {
      "epoch": 0.704625,
      "grad_norm": 1.1379016637802124,
      "learning_rate": 6.054516447627089e-05,
      "loss": 3.3987,
      "step": 338220
    },
    {
      "epoch": 0.7046458333333333,
      "grad_norm": 1.1724215745925903,
      "learning_rate": 6.0537251080071e-05,
      "loss": 3.4117,
      "step": 338230
    },
    {
      "epoch": 0.7046666666666667,
      "grad_norm": 1.1884769201278687,
      "learning_rate": 6.0529338070314706e-05,
      "loss": 3.4507,
      "step": 338240
    },
    {
      "epoch": 0.7046875,
      "grad_norm": 1.257646083831787,
      "learning_rate": 6.0521425447036215e-05,
      "loss": 3.5139,
      "step": 338250
    },
    {
      "epoch": 0.7047083333333334,
      "grad_norm": 1.1707838773727417,
      "learning_rate": 6.051351321026984e-05,
      "loss": 3.4867,
      "step": 338260
    },
    {
      "epoch": 0.7047291666666666,
      "grad_norm": 1.266254186630249,
      "learning_rate": 6.050560136004963e-05,
      "loss": 3.4788,
      "step": 338270
    },
    {
      "epoch": 0.70475,
      "grad_norm": 1.400040864944458,
      "learning_rate": 6.049768989640979e-05,
      "loss": 3.437,
      "step": 338280
    },
    {
      "epoch": 0.7047708333333333,
      "grad_norm": 1.1871833801269531,
      "learning_rate": 6.04897788193845e-05,
      "loss": 3.231,
      "step": 338290
    },
    {
      "epoch": 0.7047916666666667,
      "grad_norm": 1.2515079975128174,
      "learning_rate": 6.048186812900795e-05,
      "loss": 3.4543,
      "step": 338300
    },
    {
      "epoch": 0.7048125,
      "grad_norm": 1.369499921798706,
      "learning_rate": 6.047395782531428e-05,
      "loss": 3.4743,
      "step": 338310
    },
    {
      "epoch": 0.7048333333333333,
      "grad_norm": 1.2180819511413574,
      "learning_rate": 6.046604790833767e-05,
      "loss": 3.3635,
      "step": 338320
    },
    {
      "epoch": 0.7048541666666667,
      "grad_norm": 1.1993610858917236,
      "learning_rate": 6.04581383781123e-05,
      "loss": 3.5453,
      "step": 338330
    },
    {
      "epoch": 0.704875,
      "grad_norm": 1.2446447610855103,
      "learning_rate": 6.045022923467234e-05,
      "loss": 3.5101,
      "step": 338340
    },
    {
      "epoch": 0.7048958333333334,
      "grad_norm": 1.195027470588684,
      "learning_rate": 6.044232047805193e-05,
      "loss": 3.385,
      "step": 338350
    },
    {
      "epoch": 0.7049166666666666,
      "grad_norm": 1.0983076095581055,
      "learning_rate": 6.043441210828526e-05,
      "loss": 3.4819,
      "step": 338360
    },
    {
      "epoch": 0.7049375,
      "grad_norm": 1.3212767839431763,
      "learning_rate": 6.042650412540646e-05,
      "loss": 3.3981,
      "step": 338370
    },
    {
      "epoch": 0.7049583333333334,
      "grad_norm": 1.563082218170166,
      "learning_rate": 6.041859652944971e-05,
      "loss": 3.3813,
      "step": 338380
    },
    {
      "epoch": 0.7049791666666667,
      "grad_norm": 1.167165994644165,
      "learning_rate": 6.041068932044918e-05,
      "loss": 3.4455,
      "step": 338390
    },
    {
      "epoch": 0.705,
      "grad_norm": 1.1232885122299194,
      "learning_rate": 6.040278249843899e-05,
      "loss": 3.5449,
      "step": 338400
    },
    {
      "epoch": 0.7050208333333333,
      "grad_norm": 1.2304017543792725,
      "learning_rate": 6.039487606345331e-05,
      "loss": 3.3941,
      "step": 338410
    },
    {
      "epoch": 0.7050416666666667,
      "grad_norm": 1.2141178846359253,
      "learning_rate": 6.038697001552631e-05,
      "loss": 3.3756,
      "step": 338420
    },
    {
      "epoch": 0.7050625,
      "grad_norm": 1.2310810089111328,
      "learning_rate": 6.037906435469214e-05,
      "loss": 3.3542,
      "step": 338430
    },
    {
      "epoch": 0.7050833333333333,
      "grad_norm": 1.3324815034866333,
      "learning_rate": 6.037115908098493e-05,
      "loss": 3.3961,
      "step": 338440
    },
    {
      "epoch": 0.7051041666666666,
      "grad_norm": 1.2081842422485352,
      "learning_rate": 6.0363254194438825e-05,
      "loss": 3.3345,
      "step": 338450
    },
    {
      "epoch": 0.705125,
      "grad_norm": 1.2826024293899536,
      "learning_rate": 6.0355349695088046e-05,
      "loss": 3.3924,
      "step": 338460
    },
    {
      "epoch": 0.7051458333333334,
      "grad_norm": 1.1829214096069336,
      "learning_rate": 6.0347445582966564e-05,
      "loss": 3.4966,
      "step": 338470
    },
    {
      "epoch": 0.7051666666666667,
      "grad_norm": 1.3001271486282349,
      "learning_rate": 6.033954185810867e-05,
      "loss": 3.3996,
      "step": 338480
    },
    {
      "epoch": 0.7051875,
      "grad_norm": 1.199806571006775,
      "learning_rate": 6.033163852054854e-05,
      "loss": 3.3632,
      "step": 338490
    },
    {
      "epoch": 0.7052083333333333,
      "grad_norm": 1.3803620338439941,
      "learning_rate": 6.0323735570320106e-05,
      "loss": 3.4081,
      "step": 338500
    },
    {
      "epoch": 0.7052291666666667,
      "grad_norm": 1.2114150524139404,
      "learning_rate": 6.031583300745771e-05,
      "loss": 3.5258,
      "step": 338510
    },
    {
      "epoch": 0.70525,
      "grad_norm": 1.4338139295578003,
      "learning_rate": 6.030793083199546e-05,
      "loss": 3.4779,
      "step": 338520
    },
    {
      "epoch": 0.7052708333333333,
      "grad_norm": 1.2454086542129517,
      "learning_rate": 6.030002904396735e-05,
      "loss": 3.6021,
      "step": 338530
    },
    {
      "epoch": 0.7052916666666667,
      "grad_norm": 1.200656771659851,
      "learning_rate": 6.0292127643407655e-05,
      "loss": 3.4936,
      "step": 338540
    },
    {
      "epoch": 0.7053125,
      "grad_norm": 1.1640616655349731,
      "learning_rate": 6.0284226630350514e-05,
      "loss": 3.4429,
      "step": 338550
    },
    {
      "epoch": 0.7053333333333334,
      "grad_norm": 1.2587581872940063,
      "learning_rate": 6.027632600482989e-05,
      "loss": 3.4841,
      "step": 338560
    },
    {
      "epoch": 0.7053541666666666,
      "grad_norm": 1.1993019580841064,
      "learning_rate": 6.026842576688009e-05,
      "loss": 3.3918,
      "step": 338570
    },
    {
      "epoch": 0.705375,
      "grad_norm": 1.2778944969177246,
      "learning_rate": 6.0260525916535225e-05,
      "loss": 3.6237,
      "step": 338580
    },
    {
      "epoch": 0.7053958333333333,
      "grad_norm": 1.20809006690979,
      "learning_rate": 6.0252626453829293e-05,
      "loss": 3.4775,
      "step": 338590
    },
    {
      "epoch": 0.7054166666666667,
      "grad_norm": 1.2548723220825195,
      "learning_rate": 6.024472737879651e-05,
      "loss": 3.528,
      "step": 338600
    },
    {
      "epoch": 0.7054375,
      "grad_norm": 1.2199584245681763,
      "learning_rate": 6.023682869147097e-05,
      "loss": 3.398,
      "step": 338610
    },
    {
      "epoch": 0.7054583333333333,
      "grad_norm": 1.4095263481140137,
      "learning_rate": 6.022893039188679e-05,
      "loss": 3.4148,
      "step": 338620
    },
    {
      "epoch": 0.7054791666666667,
      "grad_norm": 1.2095961570739746,
      "learning_rate": 6.022103248007811e-05,
      "loss": 3.5164,
      "step": 338630
    },
    {
      "epoch": 0.7055,
      "grad_norm": 1.2190920114517212,
      "learning_rate": 6.021313495607904e-05,
      "loss": 3.3695,
      "step": 338640
    },
    {
      "epoch": 0.7055208333333334,
      "grad_norm": 1.3122648000717163,
      "learning_rate": 6.020523781992366e-05,
      "loss": 3.4352,
      "step": 338650
    },
    {
      "epoch": 0.7055416666666666,
      "grad_norm": 1.166508436203003,
      "learning_rate": 6.019734107164613e-05,
      "loss": 3.3329,
      "step": 338660
    },
    {
      "epoch": 0.7055625,
      "grad_norm": 1.37030029296875,
      "learning_rate": 6.018944471128054e-05,
      "loss": 3.4001,
      "step": 338670
    },
    {
      "epoch": 0.7055833333333333,
      "grad_norm": 1.1951498985290527,
      "learning_rate": 6.0181548738861e-05,
      "loss": 3.4739,
      "step": 338680
    },
    {
      "epoch": 0.7056041666666667,
      "grad_norm": 1.1435816287994385,
      "learning_rate": 6.0173653154421615e-05,
      "loss": 3.3685,
      "step": 338690
    },
    {
      "epoch": 0.705625,
      "grad_norm": 1.3812131881713867,
      "learning_rate": 6.016575795799648e-05,
      "loss": 3.5274,
      "step": 338700
    },
    {
      "epoch": 0.7056458333333333,
      "grad_norm": 1.4172172546386719,
      "learning_rate": 6.0157863149619725e-05,
      "loss": 3.4167,
      "step": 338710
    },
    {
      "epoch": 0.7056666666666667,
      "grad_norm": 1.2841730117797852,
      "learning_rate": 6.014996872932543e-05,
      "loss": 3.5276,
      "step": 338720
    },
    {
      "epoch": 0.7056875,
      "grad_norm": 1.2325037717819214,
      "learning_rate": 6.014207469714771e-05,
      "loss": 3.3805,
      "step": 338730
    },
    {
      "epoch": 0.7057083333333334,
      "grad_norm": 1.4456918239593506,
      "learning_rate": 6.0134181053120654e-05,
      "loss": 3.4977,
      "step": 338740
    },
    {
      "epoch": 0.7057291666666666,
      "grad_norm": 1.4424887895584106,
      "learning_rate": 6.0126287797278386e-05,
      "loss": 3.5302,
      "step": 338750
    },
    {
      "epoch": 0.70575,
      "grad_norm": 1.3527384996414185,
      "learning_rate": 6.0118394929654954e-05,
      "loss": 3.3356,
      "step": 338760
    },
    {
      "epoch": 0.7057708333333333,
      "grad_norm": 1.3276441097259521,
      "learning_rate": 6.0110502450284496e-05,
      "loss": 3.4108,
      "step": 338770
    },
    {
      "epoch": 0.7057916666666667,
      "grad_norm": 1.328952670097351,
      "learning_rate": 6.010261035920108e-05,
      "loss": 3.386,
      "step": 338780
    },
    {
      "epoch": 0.7058125,
      "grad_norm": 1.2000939846038818,
      "learning_rate": 6.009471865643879e-05,
      "loss": 3.4652,
      "step": 338790
    },
    {
      "epoch": 0.7058333333333333,
      "grad_norm": 1.275079607963562,
      "learning_rate": 6.0086827342031744e-05,
      "loss": 3.4051,
      "step": 338800
    },
    {
      "epoch": 0.7058541666666667,
      "grad_norm": 1.2577611207962036,
      "learning_rate": 6.007893641601402e-05,
      "loss": 3.4182,
      "step": 338810
    },
    {
      "epoch": 0.705875,
      "grad_norm": 1.3356050252914429,
      "learning_rate": 6.0071045878419676e-05,
      "loss": 3.3633,
      "step": 338820
    },
    {
      "epoch": 0.7058958333333333,
      "grad_norm": 1.2898409366607666,
      "learning_rate": 6.0063155729282894e-05,
      "loss": 3.3188,
      "step": 338830
    },
    {
      "epoch": 0.7059166666666666,
      "grad_norm": 1.388957142829895,
      "learning_rate": 6.0055265968637556e-05,
      "loss": 3.5568,
      "step": 338840
    },
    {
      "epoch": 0.7059375,
      "grad_norm": 1.4527411460876465,
      "learning_rate": 6.004737659651792e-05,
      "loss": 3.5492,
      "step": 338850
    },
    {
      "epoch": 0.7059583333333334,
      "grad_norm": 1.1575287580490112,
      "learning_rate": 6.003948761295808e-05,
      "loss": 3.5249,
      "step": 338860
    },
    {
      "epoch": 0.7059791666666667,
      "grad_norm": 1.1892199516296387,
      "learning_rate": 6.0031599017991976e-05,
      "loss": 3.4564,
      "step": 338870
    },
    {
      "epoch": 0.706,
      "grad_norm": 1.3447681665420532,
      "learning_rate": 6.00237108116537e-05,
      "loss": 3.4789,
      "step": 338880
    },
    {
      "epoch": 0.7060208333333333,
      "grad_norm": 1.2121104001998901,
      "learning_rate": 6.00158229939775e-05,
      "loss": 3.4692,
      "step": 338890
    },
    {
      "epoch": 0.7060416666666667,
      "grad_norm": 1.213300347328186,
      "learning_rate": 6.000793556499727e-05,
      "loss": 3.4136,
      "step": 338900
    },
    {
      "epoch": 0.7060625,
      "grad_norm": 1.3414920568466187,
      "learning_rate": 6.000004852474707e-05,
      "loss": 3.4367,
      "step": 338910
    },
    {
      "epoch": 0.7060833333333333,
      "grad_norm": 1.266728162765503,
      "learning_rate": 5.9992161873261144e-05,
      "loss": 3.6261,
      "step": 338920
    },
    {
      "epoch": 0.7061041666666666,
      "grad_norm": 1.2059236764907837,
      "learning_rate": 5.9984275610573406e-05,
      "loss": 3.5952,
      "step": 338930
    },
    {
      "epoch": 0.706125,
      "grad_norm": 1.370038390159607,
      "learning_rate": 5.9976389736717904e-05,
      "loss": 3.4345,
      "step": 338940
    },
    {
      "epoch": 0.7061458333333334,
      "grad_norm": 1.4378448724746704,
      "learning_rate": 5.996850425172888e-05,
      "loss": 3.3971,
      "step": 338950
    },
    {
      "epoch": 0.7061666666666667,
      "grad_norm": 1.1926307678222656,
      "learning_rate": 5.9960619155640226e-05,
      "loss": 3.4479,
      "step": 338960
    },
    {
      "epoch": 0.7061875,
      "grad_norm": 1.3042716979980469,
      "learning_rate": 5.995273444848606e-05,
      "loss": 3.5955,
      "step": 338970
    },
    {
      "epoch": 0.7062083333333333,
      "grad_norm": 1.486262559890747,
      "learning_rate": 5.994485013030044e-05,
      "loss": 3.3333,
      "step": 338980
    },
    {
      "epoch": 0.7062291666666667,
      "grad_norm": 1.2088950872421265,
      "learning_rate": 5.993696620111741e-05,
      "loss": 3.3721,
      "step": 338990
    },
    {
      "epoch": 0.70625,
      "grad_norm": 1.2695503234863281,
      "learning_rate": 5.992908266097103e-05,
      "loss": 3.4591,
      "step": 339000
    },
    {
      "epoch": 0.70625,
      "eval_loss": 3.5416557788848877,
      "eval_runtime": 7.3288,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 339000
    },
    {
      "epoch": 0.7062708333333333,
      "grad_norm": 1.2910079956054688,
      "learning_rate": 5.9921199509895385e-05,
      "loss": 3.4129,
      "step": 339010
    },
    {
      "epoch": 0.7062916666666667,
      "grad_norm": 1.2089751958847046,
      "learning_rate": 5.991331674792449e-05,
      "loss": 3.5109,
      "step": 339020
    },
    {
      "epoch": 0.7063125,
      "grad_norm": 1.292724847793579,
      "learning_rate": 5.9905434375092403e-05,
      "loss": 3.4738,
      "step": 339030
    },
    {
      "epoch": 0.7063333333333334,
      "grad_norm": 1.2293270826339722,
      "learning_rate": 5.9897552391433186e-05,
      "loss": 3.4861,
      "step": 339040
    },
    {
      "epoch": 0.7063541666666666,
      "grad_norm": 1.220960259437561,
      "learning_rate": 5.9889670796980864e-05,
      "loss": 3.4057,
      "step": 339050
    },
    {
      "epoch": 0.706375,
      "grad_norm": 1.1890292167663574,
      "learning_rate": 5.9881789591769516e-05,
      "loss": 3.3783,
      "step": 339060
    },
    {
      "epoch": 0.7063958333333333,
      "grad_norm": 1.2447110414505005,
      "learning_rate": 5.987390877583315e-05,
      "loss": 3.5874,
      "step": 339070
    },
    {
      "epoch": 0.7064166666666667,
      "grad_norm": 1.2397865056991577,
      "learning_rate": 5.9866028349205835e-05,
      "loss": 3.5314,
      "step": 339080
    },
    {
      "epoch": 0.7064375,
      "grad_norm": 1.1739970445632935,
      "learning_rate": 5.98581483119216e-05,
      "loss": 3.442,
      "step": 339090
    },
    {
      "epoch": 0.7064583333333333,
      "grad_norm": 1.2191219329833984,
      "learning_rate": 5.985026866401447e-05,
      "loss": 3.5444,
      "step": 339100
    },
    {
      "epoch": 0.7064791666666667,
      "grad_norm": 1.1834990978240967,
      "learning_rate": 5.984238940551849e-05,
      "loss": 3.5433,
      "step": 339110
    },
    {
      "epoch": 0.7065,
      "grad_norm": 1.1961406469345093,
      "learning_rate": 5.9834510536467726e-05,
      "loss": 3.3783,
      "step": 339120
    },
    {
      "epoch": 0.7065208333333334,
      "grad_norm": 1.207722544670105,
      "learning_rate": 5.982663205689618e-05,
      "loss": 3.3258,
      "step": 339130
    },
    {
      "epoch": 0.7065416666666666,
      "grad_norm": 1.2316420078277588,
      "learning_rate": 5.9818753966837886e-05,
      "loss": 3.3193,
      "step": 339140
    },
    {
      "epoch": 0.7065625,
      "grad_norm": 1.2818801403045654,
      "learning_rate": 5.9810876266326865e-05,
      "loss": 3.4854,
      "step": 339150
    },
    {
      "epoch": 0.7065833333333333,
      "grad_norm": 1.2505254745483398,
      "learning_rate": 5.9802998955397183e-05,
      "loss": 3.4336,
      "step": 339160
    },
    {
      "epoch": 0.7066041666666667,
      "grad_norm": 2.003986358642578,
      "learning_rate": 5.979512203408282e-05,
      "loss": 3.5245,
      "step": 339170
    },
    {
      "epoch": 0.706625,
      "grad_norm": 1.3372688293457031,
      "learning_rate": 5.9787245502417896e-05,
      "loss": 3.3973,
      "step": 339180
    },
    {
      "epoch": 0.7066458333333333,
      "grad_norm": 1.2364258766174316,
      "learning_rate": 5.977936936043625e-05,
      "loss": 3.5056,
      "step": 339190
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 1.1802366971969604,
      "learning_rate": 5.9771493608172064e-05,
      "loss": 3.4267,
      "step": 339200
    },
    {
      "epoch": 0.7066875,
      "grad_norm": 1.8339283466339111,
      "learning_rate": 5.9763618245659376e-05,
      "loss": 3.4524,
      "step": 339210
    },
    {
      "epoch": 0.7067083333333334,
      "grad_norm": 1.3004789352416992,
      "learning_rate": 5.9755743272932026e-05,
      "loss": 3.4509,
      "step": 339220
    },
    {
      "epoch": 0.7067291666666666,
      "grad_norm": 1.1861331462860107,
      "learning_rate": 5.9747868690024254e-05,
      "loss": 3.4265,
      "step": 339230
    },
    {
      "epoch": 0.70675,
      "grad_norm": 1.2224781513214111,
      "learning_rate": 5.9739994496969915e-05,
      "loss": 3.4293,
      "step": 339240
    },
    {
      "epoch": 0.7067708333333333,
      "grad_norm": 1.2255067825317383,
      "learning_rate": 5.973212069380301e-05,
      "loss": 3.3469,
      "step": 339250
    },
    {
      "epoch": 0.7067916666666667,
      "grad_norm": 1.3602432012557983,
      "learning_rate": 5.972424728055772e-05,
      "loss": 3.5295,
      "step": 339260
    },
    {
      "epoch": 0.7068125,
      "grad_norm": 1.2309538125991821,
      "learning_rate": 5.97163742572679e-05,
      "loss": 3.3545,
      "step": 339270
    },
    {
      "epoch": 0.7068333333333333,
      "grad_norm": 1.2057600021362305,
      "learning_rate": 5.970850162396755e-05,
      "loss": 3.4279,
      "step": 339280
    },
    {
      "epoch": 0.7068541666666667,
      "grad_norm": 1.2206987142562866,
      "learning_rate": 5.970062938069083e-05,
      "loss": 3.565,
      "step": 339290
    },
    {
      "epoch": 0.706875,
      "grad_norm": 1.2625982761383057,
      "learning_rate": 5.9692757527471615e-05,
      "loss": 3.4846,
      "step": 339300
    },
    {
      "epoch": 0.7068958333333333,
      "grad_norm": 1.1566272974014282,
      "learning_rate": 5.968488606434387e-05,
      "loss": 3.3995,
      "step": 339310
    },
    {
      "epoch": 0.7069166666666666,
      "grad_norm": 1.2651387453079224,
      "learning_rate": 5.9677014991341784e-05,
      "loss": 3.4907,
      "step": 339320
    },
    {
      "epoch": 0.7069375,
      "grad_norm": 1.2815598249435425,
      "learning_rate": 5.966914430849918e-05,
      "loss": 3.4456,
      "step": 339330
    },
    {
      "epoch": 0.7069583333333334,
      "grad_norm": 1.1504489183425903,
      "learning_rate": 5.966127401585012e-05,
      "loss": 3.5616,
      "step": 339340
    },
    {
      "epoch": 0.7069791666666667,
      "grad_norm": 1.2250843048095703,
      "learning_rate": 5.965340411342861e-05,
      "loss": 3.4249,
      "step": 339350
    },
    {
      "epoch": 0.707,
      "grad_norm": 1.4543819427490234,
      "learning_rate": 5.9645534601268624e-05,
      "loss": 3.4382,
      "step": 339360
    },
    {
      "epoch": 0.7070208333333333,
      "grad_norm": 1.195090413093567,
      "learning_rate": 5.9637665479404166e-05,
      "loss": 3.4736,
      "step": 339370
    },
    {
      "epoch": 0.7070416666666667,
      "grad_norm": 1.1990970373153687,
      "learning_rate": 5.962979674786921e-05,
      "loss": 3.4516,
      "step": 339380
    },
    {
      "epoch": 0.7070625,
      "grad_norm": 1.2577354907989502,
      "learning_rate": 5.962192840669778e-05,
      "loss": 3.4322,
      "step": 339390
    },
    {
      "epoch": 0.7070833333333333,
      "grad_norm": 1.2651057243347168,
      "learning_rate": 5.961406045592383e-05,
      "loss": 3.4026,
      "step": 339400
    },
    {
      "epoch": 0.7071041666666666,
      "grad_norm": 1.209157109260559,
      "learning_rate": 5.9606192895581376e-05,
      "loss": 3.4378,
      "step": 339410
    },
    {
      "epoch": 0.707125,
      "grad_norm": 1.305854082107544,
      "learning_rate": 5.9598325725704385e-05,
      "loss": 3.4129,
      "step": 339420
    },
    {
      "epoch": 0.7071458333333334,
      "grad_norm": 1.1922173500061035,
      "learning_rate": 5.9590458946326835e-05,
      "loss": 3.5102,
      "step": 339430
    },
    {
      "epoch": 0.7071666666666667,
      "grad_norm": 1.280692219734192,
      "learning_rate": 5.958259255748272e-05,
      "loss": 3.5134,
      "step": 339440
    },
    {
      "epoch": 0.7071875,
      "grad_norm": 1.1893727779388428,
      "learning_rate": 5.9574726559206024e-05,
      "loss": 3.5279,
      "step": 339450
    },
    {
      "epoch": 0.7072083333333333,
      "grad_norm": 1.2969601154327393,
      "learning_rate": 5.956686095153077e-05,
      "loss": 3.4476,
      "step": 339460
    },
    {
      "epoch": 0.7072291666666667,
      "grad_norm": 1.3802556991577148,
      "learning_rate": 5.955899573449076e-05,
      "loss": 3.3911,
      "step": 339470
    },
    {
      "epoch": 0.70725,
      "grad_norm": 1.1889044046401978,
      "learning_rate": 5.9551130908120145e-05,
      "loss": 3.2962,
      "step": 339480
    },
    {
      "epoch": 0.7072708333333333,
      "grad_norm": 1.1879758834838867,
      "learning_rate": 5.9543266472452904e-05,
      "loss": 3.4421,
      "step": 339490
    },
    {
      "epoch": 0.7072916666666667,
      "grad_norm": 1.309449553489685,
      "learning_rate": 5.9535402427522836e-05,
      "loss": 3.5525,
      "step": 339500
    },
    {
      "epoch": 0.7073125,
      "grad_norm": 1.1621853113174438,
      "learning_rate": 5.952753877336407e-05,
      "loss": 3.39,
      "step": 339510
    },
    {
      "epoch": 0.7073333333333334,
      "grad_norm": 1.2736767530441284,
      "learning_rate": 5.951967551001059e-05,
      "loss": 3.4878,
      "step": 339520
    },
    {
      "epoch": 0.7073541666666666,
      "grad_norm": 1.3445066213607788,
      "learning_rate": 5.951181263749619e-05,
      "loss": 3.4768,
      "step": 339530
    },
    {
      "epoch": 0.707375,
      "grad_norm": 1.2848094701766968,
      "learning_rate": 5.9503950155854985e-05,
      "loss": 3.5161,
      "step": 339540
    },
    {
      "epoch": 0.7073958333333333,
      "grad_norm": 1.4364370107650757,
      "learning_rate": 5.949608806512096e-05,
      "loss": 3.4487,
      "step": 339550
    },
    {
      "epoch": 0.7074166666666667,
      "grad_norm": 1.475830078125,
      "learning_rate": 5.948822636532789e-05,
      "loss": 3.585,
      "step": 339560
    },
    {
      "epoch": 0.7074375,
      "grad_norm": 1.6762239933013916,
      "learning_rate": 5.948036505650991e-05,
      "loss": 3.4707,
      "step": 339570
    },
    {
      "epoch": 0.7074583333333333,
      "grad_norm": 1.1973174810409546,
      "learning_rate": 5.947250413870097e-05,
      "loss": 3.4081,
      "step": 339580
    },
    {
      "epoch": 0.7074791666666667,
      "grad_norm": 1.2064248323440552,
      "learning_rate": 5.94646436119349e-05,
      "loss": 3.4328,
      "step": 339590
    },
    {
      "epoch": 0.7075,
      "grad_norm": 1.3968864679336548,
      "learning_rate": 5.945678347624581e-05,
      "loss": 3.5316,
      "step": 339600
    },
    {
      "epoch": 0.7075208333333334,
      "grad_norm": 1.2494221925735474,
      "learning_rate": 5.9448923731667536e-05,
      "loss": 3.4661,
      "step": 339610
    },
    {
      "epoch": 0.7075416666666666,
      "grad_norm": 1.5565613508224487,
      "learning_rate": 5.944106437823401e-05,
      "loss": 3.4512,
      "step": 339620
    },
    {
      "epoch": 0.7075625,
      "grad_norm": 1.2658168077468872,
      "learning_rate": 5.943320541597936e-05,
      "loss": 3.3617,
      "step": 339630
    },
    {
      "epoch": 0.7075833333333333,
      "grad_norm": 1.3758352994918823,
      "learning_rate": 5.942534684493735e-05,
      "loss": 3.6989,
      "step": 339640
    },
    {
      "epoch": 0.7076041666666667,
      "grad_norm": 1.3163137435913086,
      "learning_rate": 5.9417488665141945e-05,
      "loss": 3.5992,
      "step": 339650
    },
    {
      "epoch": 0.707625,
      "grad_norm": 1.1547213792800903,
      "learning_rate": 5.940963087662723e-05,
      "loss": 3.4879,
      "step": 339660
    },
    {
      "epoch": 0.7076458333333333,
      "grad_norm": 1.2371175289154053,
      "learning_rate": 5.9401773479426995e-05,
      "loss": 3.4912,
      "step": 339670
    },
    {
      "epoch": 0.7076666666666667,
      "grad_norm": 1.5036524534225464,
      "learning_rate": 5.93939164735752e-05,
      "loss": 3.3351,
      "step": 339680
    },
    {
      "epoch": 0.7076875,
      "grad_norm": 1.3596529960632324,
      "learning_rate": 5.938605985910591e-05,
      "loss": 3.54,
      "step": 339690
    },
    {
      "epoch": 0.7077083333333334,
      "grad_norm": 1.2983635663986206,
      "learning_rate": 5.9378203636052925e-05,
      "loss": 3.5056,
      "step": 339700
    },
    {
      "epoch": 0.7077291666666666,
      "grad_norm": 1.2421410083770752,
      "learning_rate": 5.9370347804450194e-05,
      "loss": 3.3307,
      "step": 339710
    },
    {
      "epoch": 0.70775,
      "grad_norm": 1.2677979469299316,
      "learning_rate": 5.936249236433177e-05,
      "loss": 3.5076,
      "step": 339720
    },
    {
      "epoch": 0.7077708333333333,
      "grad_norm": 1.51836097240448,
      "learning_rate": 5.9354637315731454e-05,
      "loss": 3.5095,
      "step": 339730
    },
    {
      "epoch": 0.7077916666666667,
      "grad_norm": 1.2717461585998535,
      "learning_rate": 5.934678265868324e-05,
      "loss": 3.4904,
      "step": 339740
    },
    {
      "epoch": 0.7078125,
      "grad_norm": 1.2058101892471313,
      "learning_rate": 5.9338928393221024e-05,
      "loss": 3.4164,
      "step": 339750
    },
    {
      "epoch": 0.7078333333333333,
      "grad_norm": 1.236875295639038,
      "learning_rate": 5.9331074519378764e-05,
      "loss": 3.5238,
      "step": 339760
    },
    {
      "epoch": 0.7078541666666667,
      "grad_norm": 1.219531774520874,
      "learning_rate": 5.932322103719036e-05,
      "loss": 3.3906,
      "step": 339770
    },
    {
      "epoch": 0.707875,
      "grad_norm": 1.2618156671524048,
      "learning_rate": 5.9315367946689756e-05,
      "loss": 3.4569,
      "step": 339780
    },
    {
      "epoch": 0.7078958333333333,
      "grad_norm": 1.233898401260376,
      "learning_rate": 5.930751524791087e-05,
      "loss": 3.4414,
      "step": 339790
    },
    {
      "epoch": 0.7079166666666666,
      "grad_norm": 1.181535005569458,
      "learning_rate": 5.929966294088762e-05,
      "loss": 3.3381,
      "step": 339800
    },
    {
      "epoch": 0.7079375,
      "grad_norm": 1.3305803537368774,
      "learning_rate": 5.929181102565392e-05,
      "loss": 3.4177,
      "step": 339810
    },
    {
      "epoch": 0.7079583333333334,
      "grad_norm": 1.1948273181915283,
      "learning_rate": 5.928395950224369e-05,
      "loss": 3.4317,
      "step": 339820
    },
    {
      "epoch": 0.7079791666666667,
      "grad_norm": 1.2120792865753174,
      "learning_rate": 5.9276108370690907e-05,
      "loss": 3.5099,
      "step": 339830
    },
    {
      "epoch": 0.708,
      "grad_norm": 1.2437247037887573,
      "learning_rate": 5.926825763102931e-05,
      "loss": 3.5932,
      "step": 339840
    },
    {
      "epoch": 0.7080208333333333,
      "grad_norm": 1.1576346158981323,
      "learning_rate": 5.9260407283292987e-05,
      "loss": 3.4813,
      "step": 339850
    },
    {
      "epoch": 0.7080416666666667,
      "grad_norm": 1.3071905374526978,
      "learning_rate": 5.925255732751583e-05,
      "loss": 3.4859,
      "step": 339860
    },
    {
      "epoch": 0.7080625,
      "grad_norm": 1.310674786567688,
      "learning_rate": 5.924470776373161e-05,
      "loss": 3.3268,
      "step": 339870
    },
    {
      "epoch": 0.7080833333333333,
      "grad_norm": 1.2004222869873047,
      "learning_rate": 5.9236858591974387e-05,
      "loss": 3.3444,
      "step": 339880
    },
    {
      "epoch": 0.7081041666666666,
      "grad_norm": 1.2441335916519165,
      "learning_rate": 5.922900981227805e-05,
      "loss": 3.4253,
      "step": 339890
    },
    {
      "epoch": 0.708125,
      "grad_norm": 1.1898317337036133,
      "learning_rate": 5.922116142467635e-05,
      "loss": 3.4292,
      "step": 339900
    },
    {
      "epoch": 0.7081458333333334,
      "grad_norm": 1.1859092712402344,
      "learning_rate": 5.9213313429203365e-05,
      "loss": 3.5241,
      "step": 339910
    },
    {
      "epoch": 0.7081666666666667,
      "grad_norm": 1.197910189628601,
      "learning_rate": 5.9205465825892975e-05,
      "loss": 3.3933,
      "step": 339920
    },
    {
      "epoch": 0.7081875,
      "grad_norm": 1.240655541419983,
      "learning_rate": 5.919761861477894e-05,
      "loss": 3.4328,
      "step": 339930
    },
    {
      "epoch": 0.7082083333333333,
      "grad_norm": 1.3406935930252075,
      "learning_rate": 5.918977179589529e-05,
      "loss": 3.4686,
      "step": 339940
    },
    {
      "epoch": 0.7082291666666667,
      "grad_norm": 1.3673893213272095,
      "learning_rate": 5.918192536927593e-05,
      "loss": 3.609,
      "step": 339950
    },
    {
      "epoch": 0.70825,
      "grad_norm": 1.2438911199569702,
      "learning_rate": 5.917407933495461e-05,
      "loss": 3.4147,
      "step": 339960
    },
    {
      "epoch": 0.7082708333333333,
      "grad_norm": 1.1996885538101196,
      "learning_rate": 5.9166233692965426e-05,
      "loss": 3.6324,
      "step": 339970
    },
    {
      "epoch": 0.7082916666666667,
      "grad_norm": 1.372544527053833,
      "learning_rate": 5.9158388443342086e-05,
      "loss": 3.4769,
      "step": 339980
    },
    {
      "epoch": 0.7083125,
      "grad_norm": 1.3361469507217407,
      "learning_rate": 5.915054358611851e-05,
      "loss": 3.6465,
      "step": 339990
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 1.2958049774169922,
      "learning_rate": 5.914269912132874e-05,
      "loss": 3.4617,
      "step": 340000
    },
    {
      "epoch": 0.7083333333333334,
      "eval_loss": 3.5424225330352783,
      "eval_runtime": 7.3541,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.408,
      "step": 340000
    },
    {
      "epoch": 0.7083541666666666,
      "grad_norm": 1.257415771484375,
      "learning_rate": 5.9134855049006466e-05,
      "loss": 3.5032,
      "step": 340010
    },
    {
      "epoch": 0.708375,
      "grad_norm": 1.2562448978424072,
      "learning_rate": 5.912701136918562e-05,
      "loss": 3.4563,
      "step": 340020
    },
    {
      "epoch": 0.7083958333333333,
      "grad_norm": 1.167466640472412,
      "learning_rate": 5.911916808190022e-05,
      "loss": 3.3541,
      "step": 340030
    },
    {
      "epoch": 0.7084166666666667,
      "grad_norm": 1.3777520656585693,
      "learning_rate": 5.911132518718398e-05,
      "loss": 3.4666,
      "step": 340040
    },
    {
      "epoch": 0.7084375,
      "grad_norm": 1.2828208208084106,
      "learning_rate": 5.910348268507085e-05,
      "loss": 3.3433,
      "step": 340050
    },
    {
      "epoch": 0.7084583333333333,
      "grad_norm": 1.25352942943573,
      "learning_rate": 5.909564057559468e-05,
      "loss": 3.4423,
      "step": 340060
    },
    {
      "epoch": 0.7084791666666667,
      "grad_norm": 1.2875276803970337,
      "learning_rate": 5.9087798858789366e-05,
      "loss": 3.5213,
      "step": 340070
    },
    {
      "epoch": 0.7085,
      "grad_norm": 1.4294579029083252,
      "learning_rate": 5.907995753468878e-05,
      "loss": 3.3793,
      "step": 340080
    },
    {
      "epoch": 0.7085208333333334,
      "grad_norm": 1.2468395233154297,
      "learning_rate": 5.907211660332679e-05,
      "loss": 3.5036,
      "step": 340090
    },
    {
      "epoch": 0.7085416666666666,
      "grad_norm": 1.3927526473999023,
      "learning_rate": 5.906427606473726e-05,
      "loss": 3.5163,
      "step": 340100
    },
    {
      "epoch": 0.7085625,
      "grad_norm": 1.3363245725631714,
      "learning_rate": 5.905643591895406e-05,
      "loss": 3.4307,
      "step": 340110
    },
    {
      "epoch": 0.7085833333333333,
      "grad_norm": 1.1850003004074097,
      "learning_rate": 5.904859616601106e-05,
      "loss": 3.5291,
      "step": 340120
    },
    {
      "epoch": 0.7086041666666667,
      "grad_norm": 1.1804022789001465,
      "learning_rate": 5.904075680594214e-05,
      "loss": 3.4679,
      "step": 340130
    },
    {
      "epoch": 0.708625,
      "grad_norm": 1.3998807668685913,
      "learning_rate": 5.903291783878113e-05,
      "loss": 3.6062,
      "step": 340140
    },
    {
      "epoch": 0.7086458333333333,
      "grad_norm": 2.0365424156188965,
      "learning_rate": 5.9025079264561906e-05,
      "loss": 3.612,
      "step": 340150
    },
    {
      "epoch": 0.7086666666666667,
      "grad_norm": 1.2626941204071045,
      "learning_rate": 5.901724108331833e-05,
      "loss": 3.4126,
      "step": 340160
    },
    {
      "epoch": 0.7086875,
      "grad_norm": 1.3049626350402832,
      "learning_rate": 5.900940329508426e-05,
      "loss": 3.4804,
      "step": 340170
    },
    {
      "epoch": 0.7087083333333334,
      "grad_norm": 1.2801954746246338,
      "learning_rate": 5.900156589989356e-05,
      "loss": 3.2872,
      "step": 340180
    },
    {
      "epoch": 0.7087291666666666,
      "grad_norm": 1.3740088939666748,
      "learning_rate": 5.899372889778006e-05,
      "loss": 3.4635,
      "step": 340190
    },
    {
      "epoch": 0.70875,
      "grad_norm": 1.551539421081543,
      "learning_rate": 5.898589228877764e-05,
      "loss": 3.4865,
      "step": 340200
    },
    {
      "epoch": 0.7087708333333333,
      "grad_norm": 1.2993959188461304,
      "learning_rate": 5.8978056072920135e-05,
      "loss": 3.4827,
      "step": 340210
    },
    {
      "epoch": 0.7087916666666667,
      "grad_norm": 1.264466643333435,
      "learning_rate": 5.8970220250241405e-05,
      "loss": 3.4273,
      "step": 340220
    },
    {
      "epoch": 0.7088125,
      "grad_norm": 1.186430811882019,
      "learning_rate": 5.896238482077534e-05,
      "loss": 3.4161,
      "step": 340230
    },
    {
      "epoch": 0.7088333333333333,
      "grad_norm": 1.4125694036483765,
      "learning_rate": 5.895454978455562e-05,
      "loss": 3.5371,
      "step": 340240
    },
    {
      "epoch": 0.7088541666666667,
      "grad_norm": 1.2375303506851196,
      "learning_rate": 5.894671514161628e-05,
      "loss": 3.5446,
      "step": 340250
    },
    {
      "epoch": 0.708875,
      "grad_norm": 1.2043278217315674,
      "learning_rate": 5.8938880891991136e-05,
      "loss": 3.6392,
      "step": 340260
    },
    {
      "epoch": 0.7088958333333333,
      "grad_norm": 1.2196803092956543,
      "learning_rate": 5.893104703571386e-05,
      "loss": 3.4626,
      "step": 340270
    },
    {
      "epoch": 0.7089166666666666,
      "grad_norm": 1.3513504266738892,
      "learning_rate": 5.8923213572818486e-05,
      "loss": 3.426,
      "step": 340280
    },
    {
      "epoch": 0.7089375,
      "grad_norm": 1.3670517206192017,
      "learning_rate": 5.891538050333882e-05,
      "loss": 3.5435,
      "step": 340290
    },
    {
      "epoch": 0.7089583333333334,
      "grad_norm": 1.1590712070465088,
      "learning_rate": 5.8907547827308565e-05,
      "loss": 3.6225,
      "step": 340300
    },
    {
      "epoch": 0.7089791666666667,
      "grad_norm": 1.1960394382476807,
      "learning_rate": 5.889971554476169e-05,
      "loss": 3.4866,
      "step": 340310
    },
    {
      "epoch": 0.709,
      "grad_norm": 1.2549962997436523,
      "learning_rate": 5.889188365573203e-05,
      "loss": 3.4963,
      "step": 340320
    },
    {
      "epoch": 0.7090208333333333,
      "grad_norm": 1.4197590351104736,
      "learning_rate": 5.888405216025328e-05,
      "loss": 3.4905,
      "step": 340330
    },
    {
      "epoch": 0.7090416666666667,
      "grad_norm": 1.2813175916671753,
      "learning_rate": 5.8876221058359447e-05,
      "loss": 3.3355,
      "step": 340340
    },
    {
      "epoch": 0.7090625,
      "grad_norm": 1.2983933687210083,
      "learning_rate": 5.886839035008423e-05,
      "loss": 3.4966,
      "step": 340350
    },
    {
      "epoch": 0.7090833333333333,
      "grad_norm": 1.1917684078216553,
      "learning_rate": 5.886056003546148e-05,
      "loss": 3.3792,
      "step": 340360
    },
    {
      "epoch": 0.7091041666666666,
      "grad_norm": 1.2431554794311523,
      "learning_rate": 5.885273011452504e-05,
      "loss": 3.4233,
      "step": 340370
    },
    {
      "epoch": 0.709125,
      "grad_norm": 1.4698487520217896,
      "learning_rate": 5.884490058730875e-05,
      "loss": 3.4869,
      "step": 340380
    },
    {
      "epoch": 0.7091458333333334,
      "grad_norm": 1.1857646703720093,
      "learning_rate": 5.883707145384638e-05,
      "loss": 3.5254,
      "step": 340390
    },
    {
      "epoch": 0.7091666666666666,
      "grad_norm": 1.3850888013839722,
      "learning_rate": 5.882924271417178e-05,
      "loss": 3.4848,
      "step": 340400
    },
    {
      "epoch": 0.7091875,
      "grad_norm": 1.248825192451477,
      "learning_rate": 5.8821414368318776e-05,
      "loss": 3.4365,
      "step": 340410
    },
    {
      "epoch": 0.7092083333333333,
      "grad_norm": 1.291251301765442,
      "learning_rate": 5.881358641632117e-05,
      "loss": 3.488,
      "step": 340420
    },
    {
      "epoch": 0.7092291666666667,
      "grad_norm": 1.3754665851593018,
      "learning_rate": 5.880575885821276e-05,
      "loss": 3.4275,
      "step": 340430
    },
    {
      "epoch": 0.70925,
      "grad_norm": 1.4080537557601929,
      "learning_rate": 5.879793169402739e-05,
      "loss": 3.349,
      "step": 340440
    },
    {
      "epoch": 0.7092708333333333,
      "grad_norm": 1.3238087892532349,
      "learning_rate": 5.879010492379885e-05,
      "loss": 3.5217,
      "step": 340450
    },
    {
      "epoch": 0.7092916666666667,
      "grad_norm": 1.2611329555511475,
      "learning_rate": 5.8782278547560947e-05,
      "loss": 3.474,
      "step": 340460
    },
    {
      "epoch": 0.7093125,
      "grad_norm": 1.3797423839569092,
      "learning_rate": 5.8774452565347505e-05,
      "loss": 3.4429,
      "step": 340470
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 1.2834488153457642,
      "learning_rate": 5.8766626977192304e-05,
      "loss": 3.4146,
      "step": 340480
    },
    {
      "epoch": 0.7093541666666666,
      "grad_norm": 1.4357768297195435,
      "learning_rate": 5.875880178312918e-05,
      "loss": 3.4574,
      "step": 340490
    },
    {
      "epoch": 0.709375,
      "grad_norm": 1.3057280778884888,
      "learning_rate": 5.8750976983191916e-05,
      "loss": 3.4682,
      "step": 340500
    },
    {
      "epoch": 0.7093958333333333,
      "grad_norm": 1.2298272848129272,
      "learning_rate": 5.8743152577414295e-05,
      "loss": 3.5165,
      "step": 340510
    },
    {
      "epoch": 0.7094166666666667,
      "grad_norm": 1.2935506105422974,
      "learning_rate": 5.873532856583015e-05,
      "loss": 3.5246,
      "step": 340520
    },
    {
      "epoch": 0.7094375,
      "grad_norm": 1.246254801750183,
      "learning_rate": 5.8727504948473255e-05,
      "loss": 3.4563,
      "step": 340530
    },
    {
      "epoch": 0.7094583333333333,
      "grad_norm": 1.3532665967941284,
      "learning_rate": 5.87196817253774e-05,
      "loss": 3.4403,
      "step": 340540
    },
    {
      "epoch": 0.7094791666666667,
      "grad_norm": 1.240863561630249,
      "learning_rate": 5.8711858896576393e-05,
      "loss": 3.4348,
      "step": 340550
    },
    {
      "epoch": 0.7095,
      "grad_norm": 1.320862054824829,
      "learning_rate": 5.870403646210404e-05,
      "loss": 3.4945,
      "step": 340560
    },
    {
      "epoch": 0.7095208333333334,
      "grad_norm": 1.3608174324035645,
      "learning_rate": 5.869621442199409e-05,
      "loss": 3.4093,
      "step": 340570
    },
    {
      "epoch": 0.7095416666666666,
      "grad_norm": 1.2334997653961182,
      "learning_rate": 5.868839277628036e-05,
      "loss": 3.3802,
      "step": 340580
    },
    {
      "epoch": 0.7095625,
      "grad_norm": 1.2168278694152832,
      "learning_rate": 5.868057152499662e-05,
      "loss": 3.3482,
      "step": 340590
    },
    {
      "epoch": 0.7095833333333333,
      "grad_norm": 1.1792806386947632,
      "learning_rate": 5.8672750668176745e-05,
      "loss": 3.483,
      "step": 340600
    },
    {
      "epoch": 0.7096041666666667,
      "grad_norm": 1.3227293491363525,
      "learning_rate": 5.86649302058543e-05,
      "loss": 3.4074,
      "step": 340610
    },
    {
      "epoch": 0.709625,
      "grad_norm": 1.1851146221160889,
      "learning_rate": 5.865711013806328e-05,
      "loss": 3.3387,
      "step": 340620
    },
    {
      "epoch": 0.7096458333333333,
      "grad_norm": 1.407030463218689,
      "learning_rate": 5.8649290464837425e-05,
      "loss": 3.3897,
      "step": 340630
    },
    {
      "epoch": 0.7096666666666667,
      "grad_norm": 1.2859749794006348,
      "learning_rate": 5.8641471186210434e-05,
      "loss": 3.454,
      "step": 340640
    },
    {
      "epoch": 0.7096875,
      "grad_norm": 1.269261121749878,
      "learning_rate": 5.863365230221606e-05,
      "loss": 3.4445,
      "step": 340650
    },
    {
      "epoch": 0.7097083333333334,
      "grad_norm": 1.2716119289398193,
      "learning_rate": 5.862583381288827e-05,
      "loss": 3.4194,
      "step": 340660
    },
    {
      "epoch": 0.7097291666666666,
      "grad_norm": 1.262542486190796,
      "learning_rate": 5.861801571826063e-05,
      "loss": 3.5872,
      "step": 340670
    },
    {
      "epoch": 0.70975,
      "grad_norm": 1.9535300731658936,
      "learning_rate": 5.861019801836695e-05,
      "loss": 3.4311,
      "step": 340680
    },
    {
      "epoch": 0.7097708333333334,
      "grad_norm": 1.2292169332504272,
      "learning_rate": 5.860238071324115e-05,
      "loss": 3.4332,
      "step": 340690
    },
    {
      "epoch": 0.7097916666666667,
      "grad_norm": 1.354795217514038,
      "learning_rate": 5.859456380291683e-05,
      "loss": 3.5215,
      "step": 340700
    },
    {
      "epoch": 0.7098125,
      "grad_norm": 1.2062551975250244,
      "learning_rate": 5.8586747287427764e-05,
      "loss": 3.5499,
      "step": 340710
    },
    {
      "epoch": 0.7098333333333333,
      "grad_norm": 1.2317992448806763,
      "learning_rate": 5.8578931166807866e-05,
      "loss": 3.3253,
      "step": 340720
    },
    {
      "epoch": 0.7098541666666667,
      "grad_norm": 1.213149905204773,
      "learning_rate": 5.857111544109075e-05,
      "loss": 3.3833,
      "step": 340730
    },
    {
      "epoch": 0.709875,
      "grad_norm": 1.2332106828689575,
      "learning_rate": 5.856330011031023e-05,
      "loss": 3.4187,
      "step": 340740
    },
    {
      "epoch": 0.7098958333333333,
      "grad_norm": 1.292549729347229,
      "learning_rate": 5.855548517450005e-05,
      "loss": 3.3693,
      "step": 340750
    },
    {
      "epoch": 0.7099166666666666,
      "grad_norm": 1.3575496673583984,
      "learning_rate": 5.8547670633693984e-05,
      "loss": 3.4178,
      "step": 340760
    },
    {
      "epoch": 0.7099375,
      "grad_norm": 1.2343535423278809,
      "learning_rate": 5.8539856487925785e-05,
      "loss": 3.4462,
      "step": 340770
    },
    {
      "epoch": 0.7099583333333334,
      "grad_norm": 1.158968448638916,
      "learning_rate": 5.8532042737229196e-05,
      "loss": 3.4552,
      "step": 340780
    },
    {
      "epoch": 0.7099791666666667,
      "grad_norm": 1.5722088813781738,
      "learning_rate": 5.852422938163797e-05,
      "loss": 3.4989,
      "step": 340790
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.148103952407837,
      "learning_rate": 5.8516416421185884e-05,
      "loss": 3.5772,
      "step": 340800
    },
    {
      "epoch": 0.7100208333333333,
      "grad_norm": 1.2363516092300415,
      "learning_rate": 5.850860385590666e-05,
      "loss": 3.5025,
      "step": 340810
    },
    {
      "epoch": 0.7100416666666667,
      "grad_norm": 1.2802305221557617,
      "learning_rate": 5.8500791685834056e-05,
      "loss": 3.457,
      "step": 340820
    },
    {
      "epoch": 0.7100625,
      "grad_norm": 1.2997195720672607,
      "learning_rate": 5.8492979911001804e-05,
      "loss": 3.5177,
      "step": 340830
    },
    {
      "epoch": 0.7100833333333333,
      "grad_norm": 1.1677724123001099,
      "learning_rate": 5.848516853144365e-05,
      "loss": 3.3381,
      "step": 340840
    },
    {
      "epoch": 0.7101041666666666,
      "grad_norm": 1.591689109802246,
      "learning_rate": 5.8477357547193366e-05,
      "loss": 3.3676,
      "step": 340850
    },
    {
      "epoch": 0.710125,
      "grad_norm": 1.4116129875183105,
      "learning_rate": 5.846954695828466e-05,
      "loss": 3.4879,
      "step": 340860
    },
    {
      "epoch": 0.7101458333333334,
      "grad_norm": 1.3238930702209473,
      "learning_rate": 5.846173676475127e-05,
      "loss": 3.3952,
      "step": 340870
    },
    {
      "epoch": 0.7101666666666666,
      "grad_norm": 1.2236710786819458,
      "learning_rate": 5.845392696662696e-05,
      "loss": 3.4633,
      "step": 340880
    },
    {
      "epoch": 0.7101875,
      "grad_norm": 1.2878412008285522,
      "learning_rate": 5.844611756394544e-05,
      "loss": 3.4791,
      "step": 340890
    },
    {
      "epoch": 0.7102083333333333,
      "grad_norm": 1.4264477491378784,
      "learning_rate": 5.8438308556740466e-05,
      "loss": 3.5185,
      "step": 340900
    },
    {
      "epoch": 0.7102291666666667,
      "grad_norm": 1.3413710594177246,
      "learning_rate": 5.843049994504573e-05,
      "loss": 3.4628,
      "step": 340910
    },
    {
      "epoch": 0.71025,
      "grad_norm": 1.329921007156372,
      "learning_rate": 5.842269172889501e-05,
      "loss": 3.5126,
      "step": 340920
    },
    {
      "epoch": 0.7102708333333333,
      "grad_norm": 1.1251869201660156,
      "learning_rate": 5.841488390832202e-05,
      "loss": 3.5435,
      "step": 340930
    },
    {
      "epoch": 0.7102916666666667,
      "grad_norm": 1.292295217514038,
      "learning_rate": 5.840707648336046e-05,
      "loss": 3.4336,
      "step": 340940
    },
    {
      "epoch": 0.7103125,
      "grad_norm": 1.2828375101089478,
      "learning_rate": 5.839926945404413e-05,
      "loss": 3.47,
      "step": 340950
    },
    {
      "epoch": 0.7103333333333334,
      "grad_norm": 1.5199135541915894,
      "learning_rate": 5.8391462820406596e-05,
      "loss": 3.5357,
      "step": 340960
    },
    {
      "epoch": 0.7103541666666666,
      "grad_norm": 1.3447562456130981,
      "learning_rate": 5.83836565824818e-05,
      "loss": 3.5114,
      "step": 340970
    },
    {
      "epoch": 0.710375,
      "grad_norm": 1.2905380725860596,
      "learning_rate": 5.837585074030327e-05,
      "loss": 3.5723,
      "step": 340980
    },
    {
      "epoch": 0.7103958333333333,
      "grad_norm": 1.242445468902588,
      "learning_rate": 5.8368045293904756e-05,
      "loss": 3.3521,
      "step": 340990
    },
    {
      "epoch": 0.7104166666666667,
      "grad_norm": 1.2905316352844238,
      "learning_rate": 5.8360240243320114e-05,
      "loss": 3.4902,
      "step": 341000
    },
    {
      "epoch": 0.7104166666666667,
      "eval_loss": 3.5453250408172607,
      "eval_runtime": 7.3073,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.411,
      "step": 341000
    },
    {
      "epoch": 0.7104375,
      "grad_norm": 1.2705744504928589,
      "learning_rate": 5.835243558858291e-05,
      "loss": 3.4871,
      "step": 341010
    },
    {
      "epoch": 0.7104583333333333,
      "grad_norm": 1.4037542343139648,
      "learning_rate": 5.8344631329726855e-05,
      "loss": 3.3349,
      "step": 341020
    },
    {
      "epoch": 0.7104791666666667,
      "grad_norm": 1.3901872634887695,
      "learning_rate": 5.833682746678583e-05,
      "loss": 3.4553,
      "step": 341030
    },
    {
      "epoch": 0.7105,
      "grad_norm": 1.2538970708847046,
      "learning_rate": 5.832902399979336e-05,
      "loss": 3.5187,
      "step": 341040
    },
    {
      "epoch": 0.7105208333333334,
      "grad_norm": 1.3428324460983276,
      "learning_rate": 5.8321220928783175e-05,
      "loss": 3.5341,
      "step": 341050
    },
    {
      "epoch": 0.7105416666666666,
      "grad_norm": 1.3848263025283813,
      "learning_rate": 5.831341825378914e-05,
      "loss": 3.4799,
      "step": 341060
    },
    {
      "epoch": 0.7105625,
      "grad_norm": 1.2774981260299683,
      "learning_rate": 5.8305615974844785e-05,
      "loss": 3.529,
      "step": 341070
    },
    {
      "epoch": 0.7105833333333333,
      "grad_norm": 1.2761399745941162,
      "learning_rate": 5.829781409198381e-05,
      "loss": 3.536,
      "step": 341080
    },
    {
      "epoch": 0.7106041666666667,
      "grad_norm": 1.2996631860733032,
      "learning_rate": 5.8290012605240086e-05,
      "loss": 3.4866,
      "step": 341090
    },
    {
      "epoch": 0.710625,
      "grad_norm": 1.1881438493728638,
      "learning_rate": 5.828221151464716e-05,
      "loss": 3.4269,
      "step": 341100
    },
    {
      "epoch": 0.7106458333333333,
      "grad_norm": 1.3228541612625122,
      "learning_rate": 5.8274410820238794e-05,
      "loss": 3.4974,
      "step": 341110
    },
    {
      "epoch": 0.7106666666666667,
      "grad_norm": 1.2726737260818481,
      "learning_rate": 5.826661052204865e-05,
      "loss": 3.3738,
      "step": 341120
    },
    {
      "epoch": 0.7106875,
      "grad_norm": 1.148598313331604,
      "learning_rate": 5.825881062011043e-05,
      "loss": 3.3811,
      "step": 341130
    },
    {
      "epoch": 0.7107083333333334,
      "grad_norm": 1.4055184125900269,
      "learning_rate": 5.825101111445785e-05,
      "loss": 3.2791,
      "step": 341140
    },
    {
      "epoch": 0.7107291666666666,
      "grad_norm": 1.2622532844543457,
      "learning_rate": 5.824321200512457e-05,
      "loss": 3.4396,
      "step": 341150
    },
    {
      "epoch": 0.71075,
      "grad_norm": 1.2573522329330444,
      "learning_rate": 5.82354132921443e-05,
      "loss": 3.4844,
      "step": 341160
    },
    {
      "epoch": 0.7107708333333334,
      "grad_norm": 1.511647343635559,
      "learning_rate": 5.8227614975550725e-05,
      "loss": 3.3401,
      "step": 341170
    },
    {
      "epoch": 0.7107916666666667,
      "grad_norm": 1.428410530090332,
      "learning_rate": 5.8219817055377524e-05,
      "loss": 3.3977,
      "step": 341180
    },
    {
      "epoch": 0.7108125,
      "grad_norm": 1.2719676494598389,
      "learning_rate": 5.82120195316584e-05,
      "loss": 3.4766,
      "step": 341190
    },
    {
      "epoch": 0.7108333333333333,
      "grad_norm": 1.2975019216537476,
      "learning_rate": 5.8204222404426995e-05,
      "loss": 3.427,
      "step": 341200
    },
    {
      "epoch": 0.7108541666666667,
      "grad_norm": 1.1935781240463257,
      "learning_rate": 5.819642567371703e-05,
      "loss": 3.4002,
      "step": 341210
    },
    {
      "epoch": 0.710875,
      "grad_norm": 1.2776470184326172,
      "learning_rate": 5.8188629339562166e-05,
      "loss": 3.4825,
      "step": 341220
    },
    {
      "epoch": 0.7108958333333333,
      "grad_norm": 1.2778151035308838,
      "learning_rate": 5.818083340199613e-05,
      "loss": 3.4636,
      "step": 341230
    },
    {
      "epoch": 0.7109166666666666,
      "grad_norm": 1.2749903202056885,
      "learning_rate": 5.817303786105245e-05,
      "loss": 3.6162,
      "step": 341240
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 1.3090933561325073,
      "learning_rate": 5.8165242716764936e-05,
      "loss": 3.4357,
      "step": 341250
    },
    {
      "epoch": 0.7109583333333334,
      "grad_norm": 1.214478850364685,
      "learning_rate": 5.8157447969167294e-05,
      "loss": 3.3779,
      "step": 341260
    },
    {
      "epoch": 0.7109791666666667,
      "grad_norm": 1.2652311325073242,
      "learning_rate": 5.8149653618293e-05,
      "loss": 3.4648,
      "step": 341270
    },
    {
      "epoch": 0.711,
      "grad_norm": 1.365682601928711,
      "learning_rate": 5.81418596641759e-05,
      "loss": 3.5086,
      "step": 341280
    },
    {
      "epoch": 0.7110208333333333,
      "grad_norm": 1.1585056781768799,
      "learning_rate": 5.813406610684967e-05,
      "loss": 3.4152,
      "step": 341290
    },
    {
      "epoch": 0.7110416666666667,
      "grad_norm": 1.2787675857543945,
      "learning_rate": 5.81262729463478e-05,
      "loss": 3.4092,
      "step": 341300
    },
    {
      "epoch": 0.7110625,
      "grad_norm": 1.2514933347702026,
      "learning_rate": 5.811848018270413e-05,
      "loss": 3.4065,
      "step": 341310
    },
    {
      "epoch": 0.7110833333333333,
      "grad_norm": 1.3953384160995483,
      "learning_rate": 5.8110687815952303e-05,
      "loss": 3.5165,
      "step": 341320
    },
    {
      "epoch": 0.7111041666666666,
      "grad_norm": 1.211888313293457,
      "learning_rate": 5.810289584612582e-05,
      "loss": 3.3224,
      "step": 341330
    },
    {
      "epoch": 0.711125,
      "grad_norm": 1.2274603843688965,
      "learning_rate": 5.809510427325855e-05,
      "loss": 3.4356,
      "step": 341340
    },
    {
      "epoch": 0.7111458333333334,
      "grad_norm": 1.2296082973480225,
      "learning_rate": 5.8087313097384006e-05,
      "loss": 3.4482,
      "step": 341350
    },
    {
      "epoch": 0.7111666666666666,
      "grad_norm": 1.26215660572052,
      "learning_rate": 5.8079522318535846e-05,
      "loss": 3.4833,
      "step": 341360
    },
    {
      "epoch": 0.7111875,
      "grad_norm": 1.4154508113861084,
      "learning_rate": 5.8071731936747865e-05,
      "loss": 3.4701,
      "step": 341370
    },
    {
      "epoch": 0.7112083333333333,
      "grad_norm": 1.3260031938552856,
      "learning_rate": 5.806394195205356e-05,
      "loss": 3.4624,
      "step": 341380
    },
    {
      "epoch": 0.7112291666666667,
      "grad_norm": 1.2409106492996216,
      "learning_rate": 5.805615236448658e-05,
      "loss": 3.4649,
      "step": 341390
    },
    {
      "epoch": 0.71125,
      "grad_norm": 1.3676646947860718,
      "learning_rate": 5.8048363174080724e-05,
      "loss": 3.3854,
      "step": 341400
    },
    {
      "epoch": 0.7112708333333333,
      "grad_norm": 1.3069119453430176,
      "learning_rate": 5.80405743808695e-05,
      "loss": 3.552,
      "step": 341410
    },
    {
      "epoch": 0.7112916666666667,
      "grad_norm": 1.248340129852295,
      "learning_rate": 5.803278598488654e-05,
      "loss": 3.3899,
      "step": 341420
    },
    {
      "epoch": 0.7113125,
      "grad_norm": 1.330265998840332,
      "learning_rate": 5.802499798616565e-05,
      "loss": 3.4128,
      "step": 341430
    },
    {
      "epoch": 0.7113333333333334,
      "grad_norm": 1.2923643589019775,
      "learning_rate": 5.8017210384740306e-05,
      "loss": 3.618,
      "step": 341440
    },
    {
      "epoch": 0.7113541666666666,
      "grad_norm": 1.2610093355178833,
      "learning_rate": 5.800942318064415e-05,
      "loss": 3.4531,
      "step": 341450
    },
    {
      "epoch": 0.711375,
      "grad_norm": 1.2600616216659546,
      "learning_rate": 5.8001636373910994e-05,
      "loss": 3.3054,
      "step": 341460
    },
    {
      "epoch": 0.7113958333333333,
      "grad_norm": 1.160984754562378,
      "learning_rate": 5.799384996457428e-05,
      "loss": 3.4644,
      "step": 341470
    },
    {
      "epoch": 0.7114166666666667,
      "grad_norm": 1.2709758281707764,
      "learning_rate": 5.798606395266772e-05,
      "loss": 3.3835,
      "step": 341480
    },
    {
      "epoch": 0.7114375,
      "grad_norm": 1.2707582712173462,
      "learning_rate": 5.7978278338224945e-05,
      "loss": 3.394,
      "step": 341490
    },
    {
      "epoch": 0.7114583333333333,
      "grad_norm": 1.2368485927581787,
      "learning_rate": 5.7970493121279584e-05,
      "loss": 3.4512,
      "step": 341500
    },
    {
      "epoch": 0.7114791666666667,
      "grad_norm": 1.218539834022522,
      "learning_rate": 5.7962708301865265e-05,
      "loss": 3.451,
      "step": 341510
    },
    {
      "epoch": 0.7115,
      "grad_norm": 1.3844754695892334,
      "learning_rate": 5.7954923880015623e-05,
      "loss": 3.4579,
      "step": 341520
    },
    {
      "epoch": 0.7115208333333334,
      "grad_norm": 1.2944116592407227,
      "learning_rate": 5.794713985576426e-05,
      "loss": 3.5411,
      "step": 341530
    },
    {
      "epoch": 0.7115416666666666,
      "grad_norm": 1.2692066431045532,
      "learning_rate": 5.793935622914482e-05,
      "loss": 3.47,
      "step": 341540
    },
    {
      "epoch": 0.7115625,
      "grad_norm": 1.2297661304473877,
      "learning_rate": 5.793157300019093e-05,
      "loss": 3.6322,
      "step": 341550
    },
    {
      "epoch": 0.7115833333333333,
      "grad_norm": 1.1853357553482056,
      "learning_rate": 5.79237901689362e-05,
      "loss": 3.4804,
      "step": 341560
    },
    {
      "epoch": 0.7116041666666667,
      "grad_norm": 1.287919044494629,
      "learning_rate": 5.7916007735414244e-05,
      "loss": 3.5361,
      "step": 341570
    },
    {
      "epoch": 0.711625,
      "grad_norm": 1.2962260246276855,
      "learning_rate": 5.790822569965868e-05,
      "loss": 3.3964,
      "step": 341580
    },
    {
      "epoch": 0.7116458333333333,
      "grad_norm": 1.2976843118667603,
      "learning_rate": 5.790044406170314e-05,
      "loss": 3.4817,
      "step": 341590
    },
    {
      "epoch": 0.7116666666666667,
      "grad_norm": 1.2176252603530884,
      "learning_rate": 5.789266282158128e-05,
      "loss": 3.3819,
      "step": 341600
    },
    {
      "epoch": 0.7116875,
      "grad_norm": 1.6944681406021118,
      "learning_rate": 5.7884881979326544e-05,
      "loss": 3.4724,
      "step": 341610
    },
    {
      "epoch": 0.7117083333333334,
      "grad_norm": 1.1996004581451416,
      "learning_rate": 5.7877101534972706e-05,
      "loss": 3.3883,
      "step": 341620
    },
    {
      "epoch": 0.7117291666666666,
      "grad_norm": 1.211086392402649,
      "learning_rate": 5.786932148855339e-05,
      "loss": 3.5339,
      "step": 341630
    },
    {
      "epoch": 0.71175,
      "grad_norm": 1.1899737119674683,
      "learning_rate": 5.786154184010203e-05,
      "loss": 3.3936,
      "step": 341640
    },
    {
      "epoch": 0.7117708333333334,
      "grad_norm": 1.4101125001907349,
      "learning_rate": 5.785376258965238e-05,
      "loss": 3.3842,
      "step": 341650
    },
    {
      "epoch": 0.7117916666666667,
      "grad_norm": 1.2229783535003662,
      "learning_rate": 5.784598373723806e-05,
      "loss": 3.35,
      "step": 341660
    },
    {
      "epoch": 0.7118125,
      "grad_norm": 1.2983698844909668,
      "learning_rate": 5.783820528289251e-05,
      "loss": 3.4201,
      "step": 341670
    },
    {
      "epoch": 0.7118333333333333,
      "grad_norm": 1.3331671953201294,
      "learning_rate": 5.783042722664948e-05,
      "loss": 3.416,
      "step": 341680
    },
    {
      "epoch": 0.7118541666666667,
      "grad_norm": 1.4308215379714966,
      "learning_rate": 5.782264956854257e-05,
      "loss": 3.4738,
      "step": 341690
    },
    {
      "epoch": 0.711875,
      "grad_norm": 1.3300952911376953,
      "learning_rate": 5.781487230860523e-05,
      "loss": 3.496,
      "step": 341700
    },
    {
      "epoch": 0.7118958333333333,
      "grad_norm": 1.4013230800628662,
      "learning_rate": 5.780709544687121e-05,
      "loss": 3.5183,
      "step": 341710
    },
    {
      "epoch": 0.7119166666666666,
      "grad_norm": 1.360170602798462,
      "learning_rate": 5.77993189833741e-05,
      "loss": 3.3794,
      "step": 341720
    },
    {
      "epoch": 0.7119375,
      "grad_norm": 1.2471179962158203,
      "learning_rate": 5.779154291814732e-05,
      "loss": 3.4095,
      "step": 341730
    },
    {
      "epoch": 0.7119583333333334,
      "grad_norm": 1.2757304906845093,
      "learning_rate": 5.7783767251224684e-05,
      "loss": 3.3905,
      "step": 341740
    },
    {
      "epoch": 0.7119791666666667,
      "grad_norm": 1.1820296049118042,
      "learning_rate": 5.777599198263962e-05,
      "loss": 3.3974,
      "step": 341750
    },
    {
      "epoch": 0.712,
      "grad_norm": 1.3295189142227173,
      "learning_rate": 5.776821711242572e-05,
      "loss": 3.3877,
      "step": 341760
    },
    {
      "epoch": 0.7120208333333333,
      "grad_norm": 1.2812650203704834,
      "learning_rate": 5.776044264061671e-05,
      "loss": 3.4503,
      "step": 341770
    },
    {
      "epoch": 0.7120416666666667,
      "grad_norm": 1.3481546640396118,
      "learning_rate": 5.7752668567246024e-05,
      "loss": 3.4859,
      "step": 341780
    },
    {
      "epoch": 0.7120625,
      "grad_norm": 1.2095390558242798,
      "learning_rate": 5.774489489234725e-05,
      "loss": 3.3682,
      "step": 341790
    },
    {
      "epoch": 0.7120833333333333,
      "grad_norm": 1.3362150192260742,
      "learning_rate": 5.77371216159541e-05,
      "loss": 3.4688,
      "step": 341800
    },
    {
      "epoch": 0.7121041666666666,
      "grad_norm": 1.1989983320236206,
      "learning_rate": 5.772934873810004e-05,
      "loss": 3.481,
      "step": 341810
    },
    {
      "epoch": 0.712125,
      "grad_norm": 1.1943016052246094,
      "learning_rate": 5.772157625881865e-05,
      "loss": 3.4389,
      "step": 341820
    },
    {
      "epoch": 0.7121458333333334,
      "grad_norm": 1.2569648027420044,
      "learning_rate": 5.771380417814353e-05,
      "loss": 3.5379,
      "step": 341830
    },
    {
      "epoch": 0.7121666666666666,
      "grad_norm": 1.133055329322815,
      "learning_rate": 5.770603249610825e-05,
      "loss": 3.4417,
      "step": 341840
    },
    {
      "epoch": 0.7121875,
      "grad_norm": 1.4242841005325317,
      "learning_rate": 5.7698261212746375e-05,
      "loss": 3.4457,
      "step": 341850
    },
    {
      "epoch": 0.7122083333333333,
      "grad_norm": 1.2123013734817505,
      "learning_rate": 5.769049032809147e-05,
      "loss": 3.4255,
      "step": 341860
    },
    {
      "epoch": 0.7122291666666667,
      "grad_norm": 1.2125627994537354,
      "learning_rate": 5.768271984217712e-05,
      "loss": 3.4894,
      "step": 341870
    },
    {
      "epoch": 0.71225,
      "grad_norm": 1.2457399368286133,
      "learning_rate": 5.767494975503686e-05,
      "loss": 3.3936,
      "step": 341880
    },
    {
      "epoch": 0.7122708333333333,
      "grad_norm": 1.1395248174667358,
      "learning_rate": 5.76671800667043e-05,
      "loss": 3.5232,
      "step": 341890
    },
    {
      "epoch": 0.7122916666666667,
      "grad_norm": 1.2407689094543457,
      "learning_rate": 5.765941077721294e-05,
      "loss": 3.2906,
      "step": 341900
    },
    {
      "epoch": 0.7123125,
      "grad_norm": 1.388345718383789,
      "learning_rate": 5.765164188659641e-05,
      "loss": 3.4932,
      "step": 341910
    },
    {
      "epoch": 0.7123333333333334,
      "grad_norm": 1.6366643905639648,
      "learning_rate": 5.764387339488821e-05,
      "loss": 3.5288,
      "step": 341920
    },
    {
      "epoch": 0.7123541666666666,
      "grad_norm": 1.3375234603881836,
      "learning_rate": 5.763610530212192e-05,
      "loss": 3.4064,
      "step": 341930
    },
    {
      "epoch": 0.712375,
      "grad_norm": 1.2875028848648071,
      "learning_rate": 5.762833760833111e-05,
      "loss": 3.4228,
      "step": 341940
    },
    {
      "epoch": 0.7123958333333333,
      "grad_norm": 1.2698806524276733,
      "learning_rate": 5.7620570313549317e-05,
      "loss": 3.4814,
      "step": 341950
    },
    {
      "epoch": 0.7124166666666667,
      "grad_norm": 1.363278865814209,
      "learning_rate": 5.7612803417810074e-05,
      "loss": 3.4999,
      "step": 341960
    },
    {
      "epoch": 0.7124375,
      "grad_norm": 1.2437411546707153,
      "learning_rate": 5.7605036921147016e-05,
      "loss": 3.3435,
      "step": 341970
    },
    {
      "epoch": 0.7124583333333333,
      "grad_norm": 1.496606469154358,
      "learning_rate": 5.759727082359353e-05,
      "loss": 3.4943,
      "step": 341980
    },
    {
      "epoch": 0.7124791666666667,
      "grad_norm": 1.3586583137512207,
      "learning_rate": 5.7589505125183286e-05,
      "loss": 3.4407,
      "step": 341990
    },
    {
      "epoch": 0.7125,
      "grad_norm": 1.3933665752410889,
      "learning_rate": 5.7581739825949875e-05,
      "loss": 3.444,
      "step": 342000
    },
    {
      "epoch": 0.7125,
      "eval_loss": 3.543516159057617,
      "eval_runtime": 7.2972,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 342000
    },
    {
      "epoch": 0.7125208333333334,
      "grad_norm": 1.2185370922088623,
      "learning_rate": 5.757397492592666e-05,
      "loss": 3.514,
      "step": 342010
    },
    {
      "epoch": 0.7125416666666666,
      "grad_norm": 1.3018161058425903,
      "learning_rate": 5.756621042514733e-05,
      "loss": 3.3876,
      "step": 342020
    },
    {
      "epoch": 0.7125625,
      "grad_norm": 1.3678795099258423,
      "learning_rate": 5.755844632364545e-05,
      "loss": 3.4446,
      "step": 342030
    },
    {
      "epoch": 0.7125833333333333,
      "grad_norm": 1.2716954946517944,
      "learning_rate": 5.755068262145437e-05,
      "loss": 3.4487,
      "step": 342040
    },
    {
      "epoch": 0.7126041666666667,
      "grad_norm": 1.2555292844772339,
      "learning_rate": 5.7542919318607804e-05,
      "loss": 3.4733,
      "step": 342050
    },
    {
      "epoch": 0.712625,
      "grad_norm": 1.346914291381836,
      "learning_rate": 5.7535156415139295e-05,
      "loss": 3.3024,
      "step": 342060
    },
    {
      "epoch": 0.7126458333333333,
      "grad_norm": 1.1846650838851929,
      "learning_rate": 5.7527393911082186e-05,
      "loss": 3.3597,
      "step": 342070
    },
    {
      "epoch": 0.7126666666666667,
      "grad_norm": 1.2959108352661133,
      "learning_rate": 5.751963180647021e-05,
      "loss": 3.37,
      "step": 342080
    },
    {
      "epoch": 0.7126875,
      "grad_norm": 1.1928975582122803,
      "learning_rate": 5.7511870101336845e-05,
      "loss": 3.5652,
      "step": 342090
    },
    {
      "epoch": 0.7127083333333334,
      "grad_norm": 1.1913779973983765,
      "learning_rate": 5.75041087957155e-05,
      "loss": 3.3908,
      "step": 342100
    },
    {
      "epoch": 0.7127291666666666,
      "grad_norm": 1.4621131420135498,
      "learning_rate": 5.749634788963989e-05,
      "loss": 3.4764,
      "step": 342110
    },
    {
      "epoch": 0.71275,
      "grad_norm": 1.3300796747207642,
      "learning_rate": 5.74885873831434e-05,
      "loss": 3.3682,
      "step": 342120
    },
    {
      "epoch": 0.7127708333333334,
      "grad_norm": 1.2666237354278564,
      "learning_rate": 5.7480827276259587e-05,
      "loss": 3.5026,
      "step": 342130
    },
    {
      "epoch": 0.7127916666666667,
      "grad_norm": 1.2047557830810547,
      "learning_rate": 5.7473067569021975e-05,
      "loss": 3.3359,
      "step": 342140
    },
    {
      "epoch": 0.7128125,
      "grad_norm": 1.49155592918396,
      "learning_rate": 5.7465308261464084e-05,
      "loss": 3.4349,
      "step": 342150
    },
    {
      "epoch": 0.7128333333333333,
      "grad_norm": 1.2927087545394897,
      "learning_rate": 5.7457549353619454e-05,
      "loss": 3.5636,
      "step": 342160
    },
    {
      "epoch": 0.7128541666666667,
      "grad_norm": 1.2835533618927002,
      "learning_rate": 5.744979084552156e-05,
      "loss": 3.471,
      "step": 342170
    },
    {
      "epoch": 0.712875,
      "grad_norm": 1.3141121864318848,
      "learning_rate": 5.744203273720394e-05,
      "loss": 3.5825,
      "step": 342180
    },
    {
      "epoch": 0.7128958333333333,
      "grad_norm": 1.3624587059020996,
      "learning_rate": 5.7434275028700104e-05,
      "loss": 3.3436,
      "step": 342190
    },
    {
      "epoch": 0.7129166666666666,
      "grad_norm": 1.289927363395691,
      "learning_rate": 5.7426517720043555e-05,
      "loss": 3.5644,
      "step": 342200
    },
    {
      "epoch": 0.7129375,
      "grad_norm": 1.2604435682296753,
      "learning_rate": 5.7418760811267825e-05,
      "loss": 3.4017,
      "step": 342210
    },
    {
      "epoch": 0.7129583333333334,
      "grad_norm": 1.3674572706222534,
      "learning_rate": 5.741100430240637e-05,
      "loss": 3.5769,
      "step": 342220
    },
    {
      "epoch": 0.7129791666666667,
      "grad_norm": 1.1974254846572876,
      "learning_rate": 5.740324819349275e-05,
      "loss": 3.399,
      "step": 342230
    },
    {
      "epoch": 0.713,
      "grad_norm": 1.2566959857940674,
      "learning_rate": 5.739549248456043e-05,
      "loss": 3.6043,
      "step": 342240
    },
    {
      "epoch": 0.7130208333333333,
      "grad_norm": 1.191814661026001,
      "learning_rate": 5.738773717564295e-05,
      "loss": 3.4157,
      "step": 342250
    },
    {
      "epoch": 0.7130416666666667,
      "grad_norm": 1.596445918083191,
      "learning_rate": 5.7379982266773766e-05,
      "loss": 3.5082,
      "step": 342260
    },
    {
      "epoch": 0.7130625,
      "grad_norm": 1.3536113500595093,
      "learning_rate": 5.7372227757986406e-05,
      "loss": 3.5321,
      "step": 342270
    },
    {
      "epoch": 0.7130833333333333,
      "grad_norm": 1.283504605293274,
      "learning_rate": 5.736447364931437e-05,
      "loss": 3.5109,
      "step": 342280
    },
    {
      "epoch": 0.7131041666666667,
      "grad_norm": 1.5556995868682861,
      "learning_rate": 5.735671994079111e-05,
      "loss": 3.3497,
      "step": 342290
    },
    {
      "epoch": 0.713125,
      "grad_norm": 1.225833773612976,
      "learning_rate": 5.734896663245018e-05,
      "loss": 3.4417,
      "step": 342300
    },
    {
      "epoch": 0.7131458333333334,
      "grad_norm": 1.2837375402450562,
      "learning_rate": 5.734121372432502e-05,
      "loss": 3.4541,
      "step": 342310
    },
    {
      "epoch": 0.7131666666666666,
      "grad_norm": 1.2229328155517578,
      "learning_rate": 5.733346121644914e-05,
      "loss": 3.5117,
      "step": 342320
    },
    {
      "epoch": 0.7131875,
      "grad_norm": 1.202940583229065,
      "learning_rate": 5.732570910885604e-05,
      "loss": 3.4121,
      "step": 342330
    },
    {
      "epoch": 0.7132083333333333,
      "grad_norm": 1.244466781616211,
      "learning_rate": 5.731795740157924e-05,
      "loss": 3.4839,
      "step": 342340
    },
    {
      "epoch": 0.7132291666666667,
      "grad_norm": 1.2508312463760376,
      "learning_rate": 5.731020609465207e-05,
      "loss": 3.3967,
      "step": 342350
    },
    {
      "epoch": 0.71325,
      "grad_norm": 1.1924386024475098,
      "learning_rate": 5.730245518810818e-05,
      "loss": 3.4083,
      "step": 342360
    },
    {
      "epoch": 0.7132708333333333,
      "grad_norm": 1.469114899635315,
      "learning_rate": 5.729470468198104e-05,
      "loss": 3.4187,
      "step": 342370
    },
    {
      "epoch": 0.7132916666666667,
      "grad_norm": 1.4118754863739014,
      "learning_rate": 5.7286954576303975e-05,
      "loss": 3.4347,
      "step": 342380
    },
    {
      "epoch": 0.7133125,
      "grad_norm": 1.2187527418136597,
      "learning_rate": 5.727920487111062e-05,
      "loss": 3.4662,
      "step": 342390
    },
    {
      "epoch": 0.7133333333333334,
      "grad_norm": 1.2847561836242676,
      "learning_rate": 5.727145556643445e-05,
      "loss": 3.4338,
      "step": 342400
    },
    {
      "epoch": 0.7133541666666666,
      "grad_norm": 1.3341923952102661,
      "learning_rate": 5.726370666230884e-05,
      "loss": 3.4441,
      "step": 342410
    },
    {
      "epoch": 0.713375,
      "grad_norm": 1.4102290868759155,
      "learning_rate": 5.7255958158767246e-05,
      "loss": 3.4616,
      "step": 342420
    },
    {
      "epoch": 0.7133958333333333,
      "grad_norm": 1.2673231363296509,
      "learning_rate": 5.724821005584332e-05,
      "loss": 3.4884,
      "step": 342430
    },
    {
      "epoch": 0.7134166666666667,
      "grad_norm": 1.2161412239074707,
      "learning_rate": 5.724046235357035e-05,
      "loss": 3.417,
      "step": 342440
    },
    {
      "epoch": 0.7134375,
      "grad_norm": 1.296072244644165,
      "learning_rate": 5.723271505198183e-05,
      "loss": 3.5793,
      "step": 342450
    },
    {
      "epoch": 0.7134583333333333,
      "grad_norm": 1.407853603363037,
      "learning_rate": 5.722496815111134e-05,
      "loss": 3.3891,
      "step": 342460
    },
    {
      "epoch": 0.7134791666666667,
      "grad_norm": 1.3586742877960205,
      "learning_rate": 5.721722165099223e-05,
      "loss": 3.481,
      "step": 342470
    },
    {
      "epoch": 0.7135,
      "grad_norm": 1.4791772365570068,
      "learning_rate": 5.7209475551658e-05,
      "loss": 3.3814,
      "step": 342480
    },
    {
      "epoch": 0.7135208333333334,
      "grad_norm": 1.2918896675109863,
      "learning_rate": 5.7201729853142106e-05,
      "loss": 3.4705,
      "step": 342490
    },
    {
      "epoch": 0.7135416666666666,
      "grad_norm": 1.3725520372390747,
      "learning_rate": 5.719398455547799e-05,
      "loss": 3.4434,
      "step": 342500
    },
    {
      "epoch": 0.7135625,
      "grad_norm": 1.723543643951416,
      "learning_rate": 5.7186239658699134e-05,
      "loss": 3.5237,
      "step": 342510
    },
    {
      "epoch": 0.7135833333333333,
      "grad_norm": 1.2243543863296509,
      "learning_rate": 5.7178495162838995e-05,
      "loss": 3.5258,
      "step": 342520
    },
    {
      "epoch": 0.7136041666666667,
      "grad_norm": 1.5391911268234253,
      "learning_rate": 5.717075106793101e-05,
      "loss": 3.4799,
      "step": 342530
    },
    {
      "epoch": 0.713625,
      "grad_norm": 1.2048479318618774,
      "learning_rate": 5.716300737400862e-05,
      "loss": 3.3581,
      "step": 342540
    },
    {
      "epoch": 0.7136458333333333,
      "grad_norm": 1.3443377017974854,
      "learning_rate": 5.7155264081105315e-05,
      "loss": 3.3385,
      "step": 342550
    },
    {
      "epoch": 0.7136666666666667,
      "grad_norm": 1.3111597299575806,
      "learning_rate": 5.7147521189254495e-05,
      "loss": 3.4381,
      "step": 342560
    },
    {
      "epoch": 0.7136875,
      "grad_norm": 1.2772220373153687,
      "learning_rate": 5.7139778698489644e-05,
      "loss": 3.444,
      "step": 342570
    },
    {
      "epoch": 0.7137083333333333,
      "grad_norm": 1.325244665145874,
      "learning_rate": 5.71320366088442e-05,
      "loss": 3.3105,
      "step": 342580
    },
    {
      "epoch": 0.7137291666666666,
      "grad_norm": 1.3013012409210205,
      "learning_rate": 5.7124294920351585e-05,
      "loss": 3.4807,
      "step": 342590
    },
    {
      "epoch": 0.71375,
      "grad_norm": 1.2993285655975342,
      "learning_rate": 5.7116553633045265e-05,
      "loss": 3.5239,
      "step": 342600
    },
    {
      "epoch": 0.7137708333333334,
      "grad_norm": 1.3209608793258667,
      "learning_rate": 5.710881274695865e-05,
      "loss": 3.5374,
      "step": 342610
    },
    {
      "epoch": 0.7137916666666667,
      "grad_norm": 1.3221056461334229,
      "learning_rate": 5.7101072262125206e-05,
      "loss": 3.4267,
      "step": 342620
    },
    {
      "epoch": 0.7138125,
      "grad_norm": 1.203238606452942,
      "learning_rate": 5.709333217857835e-05,
      "loss": 3.3773,
      "step": 342630
    },
    {
      "epoch": 0.7138333333333333,
      "grad_norm": 1.462833046913147,
      "learning_rate": 5.7085592496351535e-05,
      "loss": 3.4022,
      "step": 342640
    },
    {
      "epoch": 0.7138541666666667,
      "grad_norm": 1.1940624713897705,
      "learning_rate": 5.7077853215478185e-05,
      "loss": 3.2634,
      "step": 342650
    },
    {
      "epoch": 0.713875,
      "grad_norm": 1.3581318855285645,
      "learning_rate": 5.707011433599171e-05,
      "loss": 3.4076,
      "step": 342660
    },
    {
      "epoch": 0.7138958333333333,
      "grad_norm": 1.299330472946167,
      "learning_rate": 5.706237585792557e-05,
      "loss": 3.4775,
      "step": 342670
    },
    {
      "epoch": 0.7139166666666666,
      "grad_norm": 1.4429512023925781,
      "learning_rate": 5.705463778131318e-05,
      "loss": 3.4553,
      "step": 342680
    },
    {
      "epoch": 0.7139375,
      "grad_norm": 1.208507776260376,
      "learning_rate": 5.7046900106187965e-05,
      "loss": 3.6067,
      "step": 342690
    },
    {
      "epoch": 0.7139583333333334,
      "grad_norm": 1.1982388496398926,
      "learning_rate": 5.7039162832583335e-05,
      "loss": 3.5214,
      "step": 342700
    },
    {
      "epoch": 0.7139791666666667,
      "grad_norm": 1.4069641828536987,
      "learning_rate": 5.7031425960532746e-05,
      "loss": 3.4356,
      "step": 342710
    },
    {
      "epoch": 0.714,
      "grad_norm": 1.2993054389953613,
      "learning_rate": 5.702368949006963e-05,
      "loss": 3.5557,
      "step": 342720
    },
    {
      "epoch": 0.7140208333333333,
      "grad_norm": 1.354567527770996,
      "learning_rate": 5.701595342122728e-05,
      "loss": 3.4621,
      "step": 342730
    },
    {
      "epoch": 0.7140416666666667,
      "grad_norm": 1.312857985496521,
      "learning_rate": 5.7008217754039315e-05,
      "loss": 3.5376,
      "step": 342740
    },
    {
      "epoch": 0.7140625,
      "grad_norm": 1.2284724712371826,
      "learning_rate": 5.7000482488538966e-05,
      "loss": 3.4005,
      "step": 342750
    },
    {
      "epoch": 0.7140833333333333,
      "grad_norm": 1.3319764137268066,
      "learning_rate": 5.6992747624759693e-05,
      "loss": 3.5581,
      "step": 342760
    },
    {
      "epoch": 0.7141041666666667,
      "grad_norm": 1.278314471244812,
      "learning_rate": 5.698501316273503e-05,
      "loss": 3.4159,
      "step": 342770
    },
    {
      "epoch": 0.714125,
      "grad_norm": 1.3521885871887207,
      "learning_rate": 5.697727910249824e-05,
      "loss": 3.4436,
      "step": 342780
    },
    {
      "epoch": 0.7141458333333334,
      "grad_norm": 1.2284475564956665,
      "learning_rate": 5.6969545444082725e-05,
      "loss": 3.3142,
      "step": 342790
    },
    {
      "epoch": 0.7141666666666666,
      "grad_norm": 1.2672749757766724,
      "learning_rate": 5.696181218752206e-05,
      "loss": 3.315,
      "step": 342800
    },
    {
      "epoch": 0.7141875,
      "grad_norm": 1.4202580451965332,
      "learning_rate": 5.6954079332849484e-05,
      "loss": 3.4726,
      "step": 342810
    },
    {
      "epoch": 0.7142083333333333,
      "grad_norm": 1.354552149772644,
      "learning_rate": 5.69463468800984e-05,
      "loss": 3.3724,
      "step": 342820
    },
    {
      "epoch": 0.7142291666666667,
      "grad_norm": 1.2472798824310303,
      "learning_rate": 5.6938614829302375e-05,
      "loss": 3.5092,
      "step": 342830
    },
    {
      "epoch": 0.71425,
      "grad_norm": 1.3393025398254395,
      "learning_rate": 5.693088318049466e-05,
      "loss": 3.3992,
      "step": 342840
    },
    {
      "epoch": 0.7142708333333333,
      "grad_norm": 1.3542284965515137,
      "learning_rate": 5.6923151933708673e-05,
      "loss": 3.4416,
      "step": 342850
    },
    {
      "epoch": 0.7142916666666667,
      "grad_norm": 1.3203229904174805,
      "learning_rate": 5.691542108897783e-05,
      "loss": 3.3092,
      "step": 342860
    },
    {
      "epoch": 0.7143125,
      "grad_norm": 1.4458154439926147,
      "learning_rate": 5.690769064633551e-05,
      "loss": 3.3843,
      "step": 342870
    },
    {
      "epoch": 0.7143333333333334,
      "grad_norm": 1.2544537782669067,
      "learning_rate": 5.689996060581514e-05,
      "loss": 3.3889,
      "step": 342880
    },
    {
      "epoch": 0.7143541666666666,
      "grad_norm": 1.3170527219772339,
      "learning_rate": 5.689223096745007e-05,
      "loss": 3.5073,
      "step": 342890
    },
    {
      "epoch": 0.714375,
      "grad_norm": 1.3772164583206177,
      "learning_rate": 5.6884501731273715e-05,
      "loss": 3.535,
      "step": 342900
    },
    {
      "epoch": 0.7143958333333333,
      "grad_norm": 1.3669945001602173,
      "learning_rate": 5.6876772897319464e-05,
      "loss": 3.4038,
      "step": 342910
    },
    {
      "epoch": 0.7144166666666667,
      "grad_norm": 1.2729835510253906,
      "learning_rate": 5.6869044465620687e-05,
      "loss": 3.7156,
      "step": 342920
    },
    {
      "epoch": 0.7144375,
      "grad_norm": 1.431449294090271,
      "learning_rate": 5.686131643621077e-05,
      "loss": 3.5496,
      "step": 342930
    },
    {
      "epoch": 0.7144583333333333,
      "grad_norm": 1.2129493951797485,
      "learning_rate": 5.685358880912309e-05,
      "loss": 3.4564,
      "step": 342940
    },
    {
      "epoch": 0.7144791666666667,
      "grad_norm": 1.188727617263794,
      "learning_rate": 5.684586158439106e-05,
      "loss": 3.4152,
      "step": 342950
    },
    {
      "epoch": 0.7145,
      "grad_norm": 1.3916436433792114,
      "learning_rate": 5.683813476204802e-05,
      "loss": 3.566,
      "step": 342960
    },
    {
      "epoch": 0.7145208333333334,
      "grad_norm": 1.1814910173416138,
      "learning_rate": 5.683040834212736e-05,
      "loss": 3.4225,
      "step": 342970
    },
    {
      "epoch": 0.7145416666666666,
      "grad_norm": 1.2916934490203857,
      "learning_rate": 5.682268232466247e-05,
      "loss": 3.5592,
      "step": 342980
    },
    {
      "epoch": 0.7145625,
      "grad_norm": 1.2514740228652954,
      "learning_rate": 5.68149567096867e-05,
      "loss": 3.4453,
      "step": 342990
    },
    {
      "epoch": 0.7145833333333333,
      "grad_norm": 1.345506191253662,
      "learning_rate": 5.680723149723348e-05,
      "loss": 3.4484,
      "step": 343000
    },
    {
      "epoch": 0.7145833333333333,
      "eval_loss": 3.545445203781128,
      "eval_runtime": 6.896,
      "eval_samples_per_second": 1.45,
      "eval_steps_per_second": 0.435,
      "step": 343000
    },
    {
      "epoch": 0.7146041666666667,
      "grad_norm": 1.2735710144042969,
      "learning_rate": 5.679950668733603e-05,
      "loss": 3.4695,
      "step": 343010
    },
    {
      "epoch": 0.714625,
      "grad_norm": 1.387188196182251,
      "learning_rate": 5.6791782280027884e-05,
      "loss": 3.4534,
      "step": 343020
    },
    {
      "epoch": 0.7146458333333333,
      "grad_norm": 1.1737509965896606,
      "learning_rate": 5.678405827534238e-05,
      "loss": 3.4326,
      "step": 343030
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 1.473813772201538,
      "learning_rate": 5.677633467331276e-05,
      "loss": 3.5917,
      "step": 343040
    },
    {
      "epoch": 0.7146875,
      "grad_norm": 1.292873501777649,
      "learning_rate": 5.676861147397251e-05,
      "loss": 3.5676,
      "step": 343050
    },
    {
      "epoch": 0.7147083333333333,
      "grad_norm": 1.2432677745819092,
      "learning_rate": 5.676088867735501e-05,
      "loss": 3.3424,
      "step": 343060
    },
    {
      "epoch": 0.7147291666666666,
      "grad_norm": 1.4019336700439453,
      "learning_rate": 5.675316628349347e-05,
      "loss": 3.4166,
      "step": 343070
    },
    {
      "epoch": 0.71475,
      "grad_norm": 1.2583924531936646,
      "learning_rate": 5.6745444292421375e-05,
      "loss": 3.4551,
      "step": 343080
    },
    {
      "epoch": 0.7147708333333334,
      "grad_norm": 1.489585280418396,
      "learning_rate": 5.673772270417213e-05,
      "loss": 3.5489,
      "step": 343090
    },
    {
      "epoch": 0.7147916666666667,
      "grad_norm": 1.2608084678649902,
      "learning_rate": 5.673000151877888e-05,
      "loss": 3.5386,
      "step": 343100
    },
    {
      "epoch": 0.7148125,
      "grad_norm": 1.4026799201965332,
      "learning_rate": 5.672228073627521e-05,
      "loss": 3.5057,
      "step": 343110
    },
    {
      "epoch": 0.7148333333333333,
      "grad_norm": 1.2019875049591064,
      "learning_rate": 5.6714560356694313e-05,
      "loss": 3.4007,
      "step": 343120
    },
    {
      "epoch": 0.7148541666666667,
      "grad_norm": 1.566762089729309,
      "learning_rate": 5.670684038006955e-05,
      "loss": 3.4688,
      "step": 343130
    },
    {
      "epoch": 0.714875,
      "grad_norm": 1.2463510036468506,
      "learning_rate": 5.6699120806434396e-05,
      "loss": 3.4819,
      "step": 343140
    },
    {
      "epoch": 0.7148958333333333,
      "grad_norm": 1.4577062129974365,
      "learning_rate": 5.669140163582207e-05,
      "loss": 3.3959,
      "step": 343150
    },
    {
      "epoch": 0.7149166666666666,
      "grad_norm": 1.1979799270629883,
      "learning_rate": 5.66836828682659e-05,
      "loss": 3.295,
      "step": 343160
    },
    {
      "epoch": 0.7149375,
      "grad_norm": 1.2406203746795654,
      "learning_rate": 5.6675964503799394e-05,
      "loss": 3.5713,
      "step": 343170
    },
    {
      "epoch": 0.7149583333333334,
      "grad_norm": 1.2969688177108765,
      "learning_rate": 5.666824654245572e-05,
      "loss": 3.4018,
      "step": 343180
    },
    {
      "epoch": 0.7149791666666667,
      "grad_norm": 1.402076244354248,
      "learning_rate": 5.666052898426822e-05,
      "loss": 3.4371,
      "step": 343190
    },
    {
      "epoch": 0.715,
      "grad_norm": 1.3176621198654175,
      "learning_rate": 5.6652811829270406e-05,
      "loss": 3.4844,
      "step": 343200
    },
    {
      "epoch": 0.7150208333333333,
      "grad_norm": 1.3676081895828247,
      "learning_rate": 5.664509507749543e-05,
      "loss": 3.5331,
      "step": 343210
    },
    {
      "epoch": 0.7150416666666667,
      "grad_norm": 1.2679849863052368,
      "learning_rate": 5.663737872897665e-05,
      "loss": 3.5017,
      "step": 343220
    },
    {
      "epoch": 0.7150625,
      "grad_norm": 1.2672454118728638,
      "learning_rate": 5.662966278374753e-05,
      "loss": 3.4586,
      "step": 343230
    },
    {
      "epoch": 0.7150833333333333,
      "grad_norm": 1.393527626991272,
      "learning_rate": 5.662194724184126e-05,
      "loss": 3.4972,
      "step": 343240
    },
    {
      "epoch": 0.7151041666666667,
      "grad_norm": 1.2146655321121216,
      "learning_rate": 5.661423210329122e-05,
      "loss": 3.4747,
      "step": 343250
    },
    {
      "epoch": 0.715125,
      "grad_norm": 1.2867177724838257,
      "learning_rate": 5.660651736813073e-05,
      "loss": 3.3928,
      "step": 343260
    },
    {
      "epoch": 0.7151458333333334,
      "grad_norm": 1.3114899396896362,
      "learning_rate": 5.659880303639313e-05,
      "loss": 3.6024,
      "step": 343270
    },
    {
      "epoch": 0.7151666666666666,
      "grad_norm": 1.3796929121017456,
      "learning_rate": 5.659108910811172e-05,
      "loss": 3.453,
      "step": 343280
    },
    {
      "epoch": 0.7151875,
      "grad_norm": 1.2305610179901123,
      "learning_rate": 5.6583375583319826e-05,
      "loss": 3.3771,
      "step": 343290
    },
    {
      "epoch": 0.7152083333333333,
      "grad_norm": 1.2837556600570679,
      "learning_rate": 5.657566246205078e-05,
      "loss": 3.3941,
      "step": 343300
    },
    {
      "epoch": 0.7152291666666667,
      "grad_norm": 1.2192866802215576,
      "learning_rate": 5.65679497443379e-05,
      "loss": 3.6246,
      "step": 343310
    },
    {
      "epoch": 0.71525,
      "grad_norm": 1.2982428073883057,
      "learning_rate": 5.656023743021448e-05,
      "loss": 3.3891,
      "step": 343320
    },
    {
      "epoch": 0.7152708333333333,
      "grad_norm": 1.4284554719924927,
      "learning_rate": 5.6552525519713856e-05,
      "loss": 3.5124,
      "step": 343330
    },
    {
      "epoch": 0.7152916666666667,
      "grad_norm": 1.4958405494689941,
      "learning_rate": 5.6544814012869384e-05,
      "loss": 3.4295,
      "step": 343340
    },
    {
      "epoch": 0.7153125,
      "grad_norm": 1.4646821022033691,
      "learning_rate": 5.653710290971421e-05,
      "loss": 3.3408,
      "step": 343350
    },
    {
      "epoch": 0.7153333333333334,
      "grad_norm": 1.2793000936508179,
      "learning_rate": 5.652939221028181e-05,
      "loss": 3.4715,
      "step": 343360
    },
    {
      "epoch": 0.7153541666666666,
      "grad_norm": 1.2631254196166992,
      "learning_rate": 5.65216819146055e-05,
      "loss": 3.6563,
      "step": 343370
    },
    {
      "epoch": 0.715375,
      "grad_norm": 1.3521469831466675,
      "learning_rate": 5.651397202271842e-05,
      "loss": 3.5604,
      "step": 343380
    },
    {
      "epoch": 0.7153958333333333,
      "grad_norm": 1.303308367729187,
      "learning_rate": 5.650626253465401e-05,
      "loss": 3.4113,
      "step": 343390
    },
    {
      "epoch": 0.7154166666666667,
      "grad_norm": 1.2223565578460693,
      "learning_rate": 5.649855345044561e-05,
      "loss": 3.4098,
      "step": 343400
    },
    {
      "epoch": 0.7154375,
      "grad_norm": 1.2192057371139526,
      "learning_rate": 5.649084477012634e-05,
      "loss": 3.3439,
      "step": 343410
    },
    {
      "epoch": 0.7154583333333333,
      "grad_norm": 1.4389851093292236,
      "learning_rate": 5.648313649372964e-05,
      "loss": 3.5393,
      "step": 343420
    },
    {
      "epoch": 0.7154791666666667,
      "grad_norm": 1.1868337392807007,
      "learning_rate": 5.647542862128885e-05,
      "loss": 3.335,
      "step": 343430
    },
    {
      "epoch": 0.7155,
      "grad_norm": 1.2112185955047607,
      "learning_rate": 5.646772115283708e-05,
      "loss": 3.4636,
      "step": 343440
    },
    {
      "epoch": 0.7155208333333334,
      "grad_norm": 1.2041467428207397,
      "learning_rate": 5.646001408840778e-05,
      "loss": 3.504,
      "step": 343450
    },
    {
      "epoch": 0.7155416666666666,
      "grad_norm": 1.4016435146331787,
      "learning_rate": 5.645230742803425e-05,
      "loss": 3.4225,
      "step": 343460
    },
    {
      "epoch": 0.7155625,
      "grad_norm": 1.2509019374847412,
      "learning_rate": 5.644460117174961e-05,
      "loss": 3.3502,
      "step": 343470
    },
    {
      "epoch": 0.7155833333333333,
      "grad_norm": 1.2401807308197021,
      "learning_rate": 5.643689531958737e-05,
      "loss": 3.4709,
      "step": 343480
    },
    {
      "epoch": 0.7156041666666667,
      "grad_norm": 1.2838482856750488,
      "learning_rate": 5.642918987158066e-05,
      "loss": 3.446,
      "step": 343490
    },
    {
      "epoch": 0.715625,
      "grad_norm": 1.2147693634033203,
      "learning_rate": 5.6421484827762756e-05,
      "loss": 3.5897,
      "step": 343500
    },
    {
      "epoch": 0.7156458333333333,
      "grad_norm": 1.2127254009246826,
      "learning_rate": 5.64137801881671e-05,
      "loss": 3.3847,
      "step": 343510
    },
    {
      "epoch": 0.7156666666666667,
      "grad_norm": 1.2453364133834839,
      "learning_rate": 5.6406075952826814e-05,
      "loss": 3.4581,
      "step": 343520
    },
    {
      "epoch": 0.7156875,
      "grad_norm": 1.3459603786468506,
      "learning_rate": 5.639837212177518e-05,
      "loss": 3.6478,
      "step": 343530
    },
    {
      "epoch": 0.7157083333333333,
      "grad_norm": 1.382003903388977,
      "learning_rate": 5.639066869504563e-05,
      "loss": 3.4624,
      "step": 343540
    },
    {
      "epoch": 0.7157291666666666,
      "grad_norm": 1.269778847694397,
      "learning_rate": 5.6382965672671306e-05,
      "loss": 3.3736,
      "step": 343550
    },
    {
      "epoch": 0.71575,
      "grad_norm": 1.4199392795562744,
      "learning_rate": 5.637526305468545e-05,
      "loss": 3.3588,
      "step": 343560
    },
    {
      "epoch": 0.7157708333333334,
      "grad_norm": 1.2066376209259033,
      "learning_rate": 5.636756084112149e-05,
      "loss": 3.2941,
      "step": 343570
    },
    {
      "epoch": 0.7157916666666667,
      "grad_norm": 1.3659781217575073,
      "learning_rate": 5.6359859032012563e-05,
      "loss": 3.4234,
      "step": 343580
    },
    {
      "epoch": 0.7158125,
      "grad_norm": 1.2574714422225952,
      "learning_rate": 5.6352157627391986e-05,
      "loss": 3.536,
      "step": 343590
    },
    {
      "epoch": 0.7158333333333333,
      "grad_norm": 1.5571577548980713,
      "learning_rate": 5.634445662729302e-05,
      "loss": 3.4379,
      "step": 343600
    },
    {
      "epoch": 0.7158541666666667,
      "grad_norm": 1.3410884141921997,
      "learning_rate": 5.6336756031748915e-05,
      "loss": 3.5142,
      "step": 343610
    },
    {
      "epoch": 0.715875,
      "grad_norm": 1.3571799993515015,
      "learning_rate": 5.632905584079297e-05,
      "loss": 3.3879,
      "step": 343620
    },
    {
      "epoch": 0.7158958333333333,
      "grad_norm": 1.4958189725875854,
      "learning_rate": 5.632135605445841e-05,
      "loss": 3.4203,
      "step": 343630
    },
    {
      "epoch": 0.7159166666666666,
      "grad_norm": 1.2722834348678589,
      "learning_rate": 5.631365667277851e-05,
      "loss": 3.5463,
      "step": 343640
    },
    {
      "epoch": 0.7159375,
      "grad_norm": 1.3196043968200684,
      "learning_rate": 5.630595769578655e-05,
      "loss": 3.4786,
      "step": 343650
    },
    {
      "epoch": 0.7159583333333334,
      "grad_norm": 1.3100628852844238,
      "learning_rate": 5.629825912351574e-05,
      "loss": 3.4496,
      "step": 343660
    },
    {
      "epoch": 0.7159791666666667,
      "grad_norm": 1.7149112224578857,
      "learning_rate": 5.6290560955999375e-05,
      "loss": 3.5091,
      "step": 343670
    },
    {
      "epoch": 0.716,
      "grad_norm": 1.4299696683883667,
      "learning_rate": 5.62828631932707e-05,
      "loss": 3.4485,
      "step": 343680
    },
    {
      "epoch": 0.7160208333333333,
      "grad_norm": 1.2556166648864746,
      "learning_rate": 5.627516583536295e-05,
      "loss": 3.4254,
      "step": 343690
    },
    {
      "epoch": 0.7160416666666667,
      "grad_norm": 1.6755224466323853,
      "learning_rate": 5.6267468882309385e-05,
      "loss": 3.5519,
      "step": 343700
    },
    {
      "epoch": 0.7160625,
      "grad_norm": 1.3479726314544678,
      "learning_rate": 5.625977233414331e-05,
      "loss": 3.3827,
      "step": 343710
    },
    {
      "epoch": 0.7160833333333333,
      "grad_norm": 1.2218317985534668,
      "learning_rate": 5.62520761908978e-05,
      "loss": 3.5345,
      "step": 343720
    },
    {
      "epoch": 0.7161041666666667,
      "grad_norm": 1.3170804977416992,
      "learning_rate": 5.6244380452606274e-05,
      "loss": 3.5712,
      "step": 343730
    },
    {
      "epoch": 0.716125,
      "grad_norm": 1.2466259002685547,
      "learning_rate": 5.6236685119301964e-05,
      "loss": 3.5252,
      "step": 343740
    },
    {
      "epoch": 0.7161458333333334,
      "grad_norm": 1.270352840423584,
      "learning_rate": 5.622899019101795e-05,
      "loss": 3.4314,
      "step": 343750
    },
    {
      "epoch": 0.7161666666666666,
      "grad_norm": 1.1458855867385864,
      "learning_rate": 5.622129566778764e-05,
      "loss": 3.5953,
      "step": 343760
    },
    {
      "epoch": 0.7161875,
      "grad_norm": 1.4293876886367798,
      "learning_rate": 5.621360154964426e-05,
      "loss": 3.4319,
      "step": 343770
    },
    {
      "epoch": 0.7162083333333333,
      "grad_norm": 1.2292375564575195,
      "learning_rate": 5.6205907836620896e-05,
      "loss": 3.4029,
      "step": 343780
    },
    {
      "epoch": 0.7162291666666667,
      "grad_norm": 1.2847647666931152,
      "learning_rate": 5.619821452875094e-05,
      "loss": 3.4268,
      "step": 343790
    },
    {
      "epoch": 0.71625,
      "grad_norm": 1.2308757305145264,
      "learning_rate": 5.6190521626067606e-05,
      "loss": 3.4233,
      "step": 343800
    },
    {
      "epoch": 0.7162708333333333,
      "grad_norm": 1.3040351867675781,
      "learning_rate": 5.618282912860401e-05,
      "loss": 3.5012,
      "step": 343810
    },
    {
      "epoch": 0.7162916666666667,
      "grad_norm": 1.2249351739883423,
      "learning_rate": 5.617513703639349e-05,
      "loss": 3.5192,
      "step": 343820
    },
    {
      "epoch": 0.7163125,
      "grad_norm": 1.3558694124221802,
      "learning_rate": 5.6167445349469284e-05,
      "loss": 3.4611,
      "step": 343830
    },
    {
      "epoch": 0.7163333333333334,
      "grad_norm": 1.3918635845184326,
      "learning_rate": 5.615975406786448e-05,
      "loss": 3.4162,
      "step": 343840
    },
    {
      "epoch": 0.7163541666666666,
      "grad_norm": 1.4922943115234375,
      "learning_rate": 5.615206319161249e-05,
      "loss": 3.5627,
      "step": 343850
    },
    {
      "epoch": 0.716375,
      "grad_norm": 1.2456090450286865,
      "learning_rate": 5.61443727207464e-05,
      "loss": 3.4188,
      "step": 343860
    },
    {
      "epoch": 0.7163958333333333,
      "grad_norm": 1.2944520711898804,
      "learning_rate": 5.61366826552994e-05,
      "loss": 3.4601,
      "step": 343870
    },
    {
      "epoch": 0.7164166666666667,
      "grad_norm": 1.329487681388855,
      "learning_rate": 5.6128992995304895e-05,
      "loss": 3.4599,
      "step": 343880
    },
    {
      "epoch": 0.7164375,
      "grad_norm": 1.16835618019104,
      "learning_rate": 5.612130374079593e-05,
      "loss": 3.3741,
      "step": 343890
    },
    {
      "epoch": 0.7164583333333333,
      "grad_norm": 1.5126001834869385,
      "learning_rate": 5.611361489180577e-05,
      "loss": 3.6329,
      "step": 343900
    },
    {
      "epoch": 0.7164791666666667,
      "grad_norm": 1.3171311616897583,
      "learning_rate": 5.610592644836763e-05,
      "loss": 3.3662,
      "step": 343910
    },
    {
      "epoch": 0.7165,
      "grad_norm": 1.3261938095092773,
      "learning_rate": 5.609823841051471e-05,
      "loss": 3.4775,
      "step": 343920
    },
    {
      "epoch": 0.7165208333333334,
      "grad_norm": 1.402295708656311,
      "learning_rate": 5.609055077828025e-05,
      "loss": 3.5071,
      "step": 343930
    },
    {
      "epoch": 0.7165416666666666,
      "grad_norm": 1.2670438289642334,
      "learning_rate": 5.6082863551697445e-05,
      "loss": 3.5189,
      "step": 343940
    },
    {
      "epoch": 0.7165625,
      "grad_norm": 1.2456066608428955,
      "learning_rate": 5.607517673079948e-05,
      "loss": 3.4328,
      "step": 343950
    },
    {
      "epoch": 0.7165833333333333,
      "grad_norm": 1.4160304069519043,
      "learning_rate": 5.6067490315619564e-05,
      "loss": 3.5135,
      "step": 343960
    },
    {
      "epoch": 0.7166041666666667,
      "grad_norm": 1.3074514865875244,
      "learning_rate": 5.6059804306190924e-05,
      "loss": 3.4496,
      "step": 343970
    },
    {
      "epoch": 0.716625,
      "grad_norm": 1.2026211023330688,
      "learning_rate": 5.605211870254674e-05,
      "loss": 3.3726,
      "step": 343980
    },
    {
      "epoch": 0.7166458333333333,
      "grad_norm": 1.1884773969650269,
      "learning_rate": 5.604443350472021e-05,
      "loss": 3.5519,
      "step": 343990
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 1.2223244905471802,
      "learning_rate": 5.6036748712744564e-05,
      "loss": 3.4559,
      "step": 344000
    },
    {
      "epoch": 0.7166666666666667,
      "eval_loss": 3.5454604625701904,
      "eval_runtime": 7.3682,
      "eval_samples_per_second": 1.357,
      "eval_steps_per_second": 0.407,
      "step": 344000
    },
    {
      "epoch": 0.7166875,
      "grad_norm": 1.1887098550796509,
      "learning_rate": 5.602906432665295e-05,
      "loss": 3.475,
      "step": 344010
    },
    {
      "epoch": 0.7167083333333333,
      "grad_norm": 1.3625775575637817,
      "learning_rate": 5.6021380346478574e-05,
      "loss": 3.5315,
      "step": 344020
    },
    {
      "epoch": 0.7167291666666666,
      "grad_norm": 1.2429533004760742,
      "learning_rate": 5.6013696772254654e-05,
      "loss": 3.3567,
      "step": 344030
    },
    {
      "epoch": 0.71675,
      "grad_norm": 1.229595422744751,
      "learning_rate": 5.6006013604014344e-05,
      "loss": 3.4233,
      "step": 344040
    },
    {
      "epoch": 0.7167708333333334,
      "grad_norm": 1.856052041053772,
      "learning_rate": 5.5998330841790854e-05,
      "loss": 3.422,
      "step": 344050
    },
    {
      "epoch": 0.7167916666666667,
      "grad_norm": 1.3484500646591187,
      "learning_rate": 5.5990648485617375e-05,
      "loss": 3.3448,
      "step": 344060
    },
    {
      "epoch": 0.7168125,
      "grad_norm": 1.3127871751785278,
      "learning_rate": 5.5982966535527083e-05,
      "loss": 3.5051,
      "step": 344070
    },
    {
      "epoch": 0.7168333333333333,
      "grad_norm": 1.2859505414962769,
      "learning_rate": 5.597528499155315e-05,
      "loss": 3.5249,
      "step": 344080
    },
    {
      "epoch": 0.7168541666666667,
      "grad_norm": 1.2251516580581665,
      "learning_rate": 5.5967603853728774e-05,
      "loss": 3.3643,
      "step": 344090
    },
    {
      "epoch": 0.716875,
      "grad_norm": 1.8594942092895508,
      "learning_rate": 5.5959923122087144e-05,
      "loss": 3.2882,
      "step": 344100
    },
    {
      "epoch": 0.7168958333333333,
      "grad_norm": 1.3097258806228638,
      "learning_rate": 5.595224279666145e-05,
      "loss": 3.4715,
      "step": 344110
    },
    {
      "epoch": 0.7169166666666666,
      "grad_norm": 1.2913912534713745,
      "learning_rate": 5.5944562877484746e-05,
      "loss": 3.3949,
      "step": 344120
    },
    {
      "epoch": 0.7169375,
      "grad_norm": 1.2666808366775513,
      "learning_rate": 5.593688336459036e-05,
      "loss": 3.4533,
      "step": 344130
    },
    {
      "epoch": 0.7169583333333334,
      "grad_norm": 6.325305938720703,
      "learning_rate": 5.5929204258011444e-05,
      "loss": 3.5696,
      "step": 344140
    },
    {
      "epoch": 0.7169791666666666,
      "grad_norm": 1.3793349266052246,
      "learning_rate": 5.592152555778103e-05,
      "loss": 3.4356,
      "step": 344150
    },
    {
      "epoch": 0.717,
      "grad_norm": 1.3207710981369019,
      "learning_rate": 5.5913847263932446e-05,
      "loss": 3.4676,
      "step": 344160
    },
    {
      "epoch": 0.7170208333333333,
      "grad_norm": 1.3073827028274536,
      "learning_rate": 5.590616937649885e-05,
      "loss": 3.4414,
      "step": 344170
    },
    {
      "epoch": 0.7170416666666667,
      "grad_norm": 1.3536098003387451,
      "learning_rate": 5.5898491895513294e-05,
      "loss": 3.4379,
      "step": 344180
    },
    {
      "epoch": 0.7170625,
      "grad_norm": 1.3216042518615723,
      "learning_rate": 5.5890814821008966e-05,
      "loss": 3.5075,
      "step": 344190
    },
    {
      "epoch": 0.7170833333333333,
      "grad_norm": 1.2882003784179688,
      "learning_rate": 5.588313815301916e-05,
      "loss": 3.5832,
      "step": 344200
    },
    {
      "epoch": 0.7171041666666667,
      "grad_norm": 1.2289687395095825,
      "learning_rate": 5.58754618915769e-05,
      "loss": 3.4199,
      "step": 344210
    },
    {
      "epoch": 0.717125,
      "grad_norm": 1.3996366262435913,
      "learning_rate": 5.586778603671534e-05,
      "loss": 3.3865,
      "step": 344220
    },
    {
      "epoch": 0.7171458333333334,
      "grad_norm": 1.1855062246322632,
      "learning_rate": 5.586011058846777e-05,
      "loss": 3.373,
      "step": 344230
    },
    {
      "epoch": 0.7171666666666666,
      "grad_norm": 1.2126071453094482,
      "learning_rate": 5.585243554686722e-05,
      "loss": 3.5033,
      "step": 344240
    },
    {
      "epoch": 0.7171875,
      "grad_norm": 1.2870888710021973,
      "learning_rate": 5.5844760911946884e-05,
      "loss": 3.4669,
      "step": 344250
    },
    {
      "epoch": 0.7172083333333333,
      "grad_norm": 1.1162114143371582,
      "learning_rate": 5.5837086683739906e-05,
      "loss": 3.4648,
      "step": 344260
    },
    {
      "epoch": 0.7172291666666667,
      "grad_norm": 1.2838867902755737,
      "learning_rate": 5.582941286227945e-05,
      "loss": 3.592,
      "step": 344270
    },
    {
      "epoch": 0.71725,
      "grad_norm": 1.3334449529647827,
      "learning_rate": 5.582173944759865e-05,
      "loss": 3.3831,
      "step": 344280
    },
    {
      "epoch": 0.7172708333333333,
      "grad_norm": 1.3796888589859009,
      "learning_rate": 5.5814066439730655e-05,
      "loss": 3.3809,
      "step": 344290
    },
    {
      "epoch": 0.7172916666666667,
      "grad_norm": 1.3382937908172607,
      "learning_rate": 5.5806393838708615e-05,
      "loss": 3.4796,
      "step": 344300
    },
    {
      "epoch": 0.7173125,
      "grad_norm": 1.3091033697128296,
      "learning_rate": 5.5798721644565655e-05,
      "loss": 3.4017,
      "step": 344310
    },
    {
      "epoch": 0.7173333333333334,
      "grad_norm": 1.2802971601486206,
      "learning_rate": 5.5791049857334944e-05,
      "loss": 3.4231,
      "step": 344320
    },
    {
      "epoch": 0.7173541666666666,
      "grad_norm": 1.2162151336669922,
      "learning_rate": 5.57833784770496e-05,
      "loss": 3.4783,
      "step": 344330
    },
    {
      "epoch": 0.717375,
      "grad_norm": 1.233500361442566,
      "learning_rate": 5.5775707503742773e-05,
      "loss": 3.4192,
      "step": 344340
    },
    {
      "epoch": 0.7173958333333333,
      "grad_norm": 1.205199122428894,
      "learning_rate": 5.57680369374476e-05,
      "loss": 3.656,
      "step": 344350
    },
    {
      "epoch": 0.7174166666666667,
      "grad_norm": 1.2665053606033325,
      "learning_rate": 5.57603667781972e-05,
      "loss": 3.5412,
      "step": 344360
    },
    {
      "epoch": 0.7174375,
      "grad_norm": 1.2368179559707642,
      "learning_rate": 5.575269702602471e-05,
      "loss": 3.412,
      "step": 344370
    },
    {
      "epoch": 0.7174583333333333,
      "grad_norm": 1.2796213626861572,
      "learning_rate": 5.574502768096327e-05,
      "loss": 3.4675,
      "step": 344380
    },
    {
      "epoch": 0.7174791666666667,
      "grad_norm": 1.3866630792617798,
      "learning_rate": 5.5737358743046e-05,
      "loss": 3.4762,
      "step": 344390
    },
    {
      "epoch": 0.7175,
      "grad_norm": 1.353757619857788,
      "learning_rate": 5.572969021230602e-05,
      "loss": 3.4751,
      "step": 344400
    },
    {
      "epoch": 0.7175208333333334,
      "grad_norm": 1.2700693607330322,
      "learning_rate": 5.572202208877647e-05,
      "loss": 3.3416,
      "step": 344410
    },
    {
      "epoch": 0.7175416666666666,
      "grad_norm": 1.2678279876708984,
      "learning_rate": 5.571435437249047e-05,
      "loss": 3.4372,
      "step": 344420
    },
    {
      "epoch": 0.7175625,
      "grad_norm": 1.2121273279190063,
      "learning_rate": 5.570668706348114e-05,
      "loss": 3.5003,
      "step": 344430
    },
    {
      "epoch": 0.7175833333333334,
      "grad_norm": 1.4214582443237305,
      "learning_rate": 5.56990201617816e-05,
      "loss": 3.4611,
      "step": 344440
    },
    {
      "epoch": 0.7176041666666667,
      "grad_norm": 1.259573221206665,
      "learning_rate": 5.569135366742494e-05,
      "loss": 3.3777,
      "step": 344450
    },
    {
      "epoch": 0.717625,
      "grad_norm": 1.3544795513153076,
      "learning_rate": 5.568368758044437e-05,
      "loss": 3.4156,
      "step": 344460
    },
    {
      "epoch": 0.7176458333333333,
      "grad_norm": 1.229835033416748,
      "learning_rate": 5.5676021900872846e-05,
      "loss": 3.2507,
      "step": 344470
    },
    {
      "epoch": 0.7176666666666667,
      "grad_norm": 1.2170207500457764,
      "learning_rate": 5.566835662874366e-05,
      "loss": 3.5128,
      "step": 344480
    },
    {
      "epoch": 0.7176875,
      "grad_norm": 1.3691853284835815,
      "learning_rate": 5.566069176408979e-05,
      "loss": 3.4342,
      "step": 344490
    },
    {
      "epoch": 0.7177083333333333,
      "grad_norm": 1.3613321781158447,
      "learning_rate": 5.5653027306944335e-05,
      "loss": 3.4003,
      "step": 344500
    },
    {
      "epoch": 0.7177291666666666,
      "grad_norm": 1.4240704774856567,
      "learning_rate": 5.5645363257340556e-05,
      "loss": 3.4246,
      "step": 344510
    },
    {
      "epoch": 0.71775,
      "grad_norm": 1.303715467453003,
      "learning_rate": 5.563769961531141e-05,
      "loss": 3.4032,
      "step": 344520
    },
    {
      "epoch": 0.7177708333333334,
      "grad_norm": 1.275068998336792,
      "learning_rate": 5.5630036380890014e-05,
      "loss": 3.4749,
      "step": 344530
    },
    {
      "epoch": 0.7177916666666667,
      "grad_norm": 1.2131617069244385,
      "learning_rate": 5.562237355410959e-05,
      "loss": 3.5354,
      "step": 344540
    },
    {
      "epoch": 0.7178125,
      "grad_norm": 1.3961331844329834,
      "learning_rate": 5.561471113500311e-05,
      "loss": 3.5023,
      "step": 344550
    },
    {
      "epoch": 0.7178333333333333,
      "grad_norm": 1.341691017150879,
      "learning_rate": 5.560704912360366e-05,
      "loss": 3.4354,
      "step": 344560
    },
    {
      "epoch": 0.7178541666666667,
      "grad_norm": 1.2808308601379395,
      "learning_rate": 5.559938751994451e-05,
      "loss": 3.2992,
      "step": 344570
    },
    {
      "epoch": 0.717875,
      "grad_norm": 1.4244304895401,
      "learning_rate": 5.5591726324058586e-05,
      "loss": 3.5716,
      "step": 344580
    },
    {
      "epoch": 0.7178958333333333,
      "grad_norm": 1.4132745265960693,
      "learning_rate": 5.558406553597897e-05,
      "loss": 3.5327,
      "step": 344590
    },
    {
      "epoch": 0.7179166666666666,
      "grad_norm": 1.2618783712387085,
      "learning_rate": 5.557640515573893e-05,
      "loss": 3.4599,
      "step": 344600
    },
    {
      "epoch": 0.7179375,
      "grad_norm": 1.4822865724563599,
      "learning_rate": 5.5568745183371397e-05,
      "loss": 3.2856,
      "step": 344610
    },
    {
      "epoch": 0.7179583333333334,
      "grad_norm": 1.3050943613052368,
      "learning_rate": 5.55610856189095e-05,
      "loss": 3.4419,
      "step": 344620
    },
    {
      "epoch": 0.7179791666666666,
      "grad_norm": 1.3520766496658325,
      "learning_rate": 5.555342646238635e-05,
      "loss": 3.409,
      "step": 344630
    },
    {
      "epoch": 0.718,
      "grad_norm": 1.310238242149353,
      "learning_rate": 5.554576771383499e-05,
      "loss": 3.546,
      "step": 344640
    },
    {
      "epoch": 0.7180208333333333,
      "grad_norm": 1.1027532815933228,
      "learning_rate": 5.553810937328854e-05,
      "loss": 3.4766,
      "step": 344650
    },
    {
      "epoch": 0.7180416666666667,
      "grad_norm": 1.1927125453948975,
      "learning_rate": 5.553045144078005e-05,
      "loss": 3.313,
      "step": 344660
    },
    {
      "epoch": 0.7180625,
      "grad_norm": 1.234192967414856,
      "learning_rate": 5.552279391634262e-05,
      "loss": 3.4216,
      "step": 344670
    },
    {
      "epoch": 0.7180833333333333,
      "grad_norm": 1.4309029579162598,
      "learning_rate": 5.551513680000933e-05,
      "loss": 3.3631,
      "step": 344680
    },
    {
      "epoch": 0.7181041666666667,
      "grad_norm": 1.3151990175247192,
      "learning_rate": 5.5507480091813264e-05,
      "loss": 3.4375,
      "step": 344690
    },
    {
      "epoch": 0.718125,
      "grad_norm": 1.28354012966156,
      "learning_rate": 5.5499823791787456e-05,
      "loss": 3.4215,
      "step": 344700
    },
    {
      "epoch": 0.7181458333333334,
      "grad_norm": 1.3942431211471558,
      "learning_rate": 5.5492167899965026e-05,
      "loss": 3.4071,
      "step": 344710
    },
    {
      "epoch": 0.7181666666666666,
      "grad_norm": 1.235944151878357,
      "learning_rate": 5.5484512416379e-05,
      "loss": 3.6021,
      "step": 344720
    },
    {
      "epoch": 0.7181875,
      "grad_norm": 1.310001015663147,
      "learning_rate": 5.547685734106248e-05,
      "loss": 3.5242,
      "step": 344730
    },
    {
      "epoch": 0.7182083333333333,
      "grad_norm": 1.2512822151184082,
      "learning_rate": 5.546920267404852e-05,
      "loss": 3.5378,
      "step": 344740
    },
    {
      "epoch": 0.7182291666666667,
      "grad_norm": 1.2706663608551025,
      "learning_rate": 5.546154841537019e-05,
      "loss": 3.2788,
      "step": 344750
    },
    {
      "epoch": 0.71825,
      "grad_norm": 1.249016523361206,
      "learning_rate": 5.545389456506055e-05,
      "loss": 3.369,
      "step": 344760
    },
    {
      "epoch": 0.7182708333333333,
      "grad_norm": 1.2371985912322998,
      "learning_rate": 5.54462411231527e-05,
      "loss": 3.459,
      "step": 344770
    },
    {
      "epoch": 0.7182916666666667,
      "grad_norm": 1.2192323207855225,
      "learning_rate": 5.5438588089679575e-05,
      "loss": 3.393,
      "step": 344780
    },
    {
      "epoch": 0.7183125,
      "grad_norm": 1.623857021331787,
      "learning_rate": 5.543093546467436e-05,
      "loss": 3.4848,
      "step": 344790
    },
    {
      "epoch": 0.7183333333333334,
      "grad_norm": 1.291060209274292,
      "learning_rate": 5.5423283248170125e-05,
      "loss": 3.5116,
      "step": 344800
    },
    {
      "epoch": 0.7183541666666666,
      "grad_norm": 1.260709524154663,
      "learning_rate": 5.541563144019977e-05,
      "loss": 3.4785,
      "step": 344810
    },
    {
      "epoch": 0.718375,
      "grad_norm": 1.2779576778411865,
      "learning_rate": 5.54079800407965e-05,
      "loss": 3.3393,
      "step": 344820
    },
    {
      "epoch": 0.7183958333333333,
      "grad_norm": 1.2419462203979492,
      "learning_rate": 5.540032904999336e-05,
      "loss": 3.4976,
      "step": 344830
    },
    {
      "epoch": 0.7184166666666667,
      "grad_norm": 1.3161331415176392,
      "learning_rate": 5.539267846782326e-05,
      "loss": 3.5708,
      "step": 344840
    },
    {
      "epoch": 0.7184375,
      "grad_norm": 1.3231185674667358,
      "learning_rate": 5.538502829431943e-05,
      "loss": 3.4318,
      "step": 344850
    },
    {
      "epoch": 0.7184583333333333,
      "grad_norm": 1.3270859718322754,
      "learning_rate": 5.537737852951479e-05,
      "loss": 3.5312,
      "step": 344860
    },
    {
      "epoch": 0.7184791666666667,
      "grad_norm": 1.3151997327804565,
      "learning_rate": 5.536972917344236e-05,
      "loss": 3.6297,
      "step": 344870
    },
    {
      "epoch": 0.7185,
      "grad_norm": 1.3315740823745728,
      "learning_rate": 5.536208022613534e-05,
      "loss": 3.389,
      "step": 344880
    },
    {
      "epoch": 0.7185208333333334,
      "grad_norm": 1.354738473892212,
      "learning_rate": 5.535443168762663e-05,
      "loss": 3.4896,
      "step": 344890
    },
    {
      "epoch": 0.7185416666666666,
      "grad_norm": 1.489892840385437,
      "learning_rate": 5.534678355794926e-05,
      "loss": 3.3372,
      "step": 344900
    },
    {
      "epoch": 0.7185625,
      "grad_norm": 1.4540140628814697,
      "learning_rate": 5.533913583713643e-05,
      "loss": 3.5004,
      "step": 344910
    },
    {
      "epoch": 0.7185833333333334,
      "grad_norm": 1.2807432413101196,
      "learning_rate": 5.5331488525221e-05,
      "loss": 3.3996,
      "step": 344920
    },
    {
      "epoch": 0.7186041666666667,
      "grad_norm": 1.3093745708465576,
      "learning_rate": 5.532384162223602e-05,
      "loss": 3.445,
      "step": 344930
    },
    {
      "epoch": 0.718625,
      "grad_norm": 1.3080015182495117,
      "learning_rate": 5.5316195128214676e-05,
      "loss": 3.4298,
      "step": 344940
    },
    {
      "epoch": 0.7186458333333333,
      "grad_norm": 1.4457252025604248,
      "learning_rate": 5.530854904318983e-05,
      "loss": 3.6047,
      "step": 344950
    },
    {
      "epoch": 0.7186666666666667,
      "grad_norm": 1.3351143598556519,
      "learning_rate": 5.5300903367194515e-05,
      "loss": 3.5516,
      "step": 344960
    },
    {
      "epoch": 0.7186875,
      "grad_norm": 1.3468453884124756,
      "learning_rate": 5.5293258100261934e-05,
      "loss": 3.3823,
      "step": 344970
    },
    {
      "epoch": 0.7187083333333333,
      "grad_norm": 1.5349758863449097,
      "learning_rate": 5.528561324242492e-05,
      "loss": 3.4403,
      "step": 344980
    },
    {
      "epoch": 0.7187291666666666,
      "grad_norm": 1.4143590927124023,
      "learning_rate": 5.527796879371658e-05,
      "loss": 3.3925,
      "step": 344990
    },
    {
      "epoch": 0.71875,
      "grad_norm": 1.2346161603927612,
      "learning_rate": 5.5270324754169924e-05,
      "loss": 3.4761,
      "step": 345000
    },
    {
      "epoch": 0.71875,
      "eval_loss": 3.53532338142395,
      "eval_runtime": 7.3267,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.409,
      "step": 345000
    },
    {
      "epoch": 0.7187708333333334,
      "grad_norm": 1.355709195137024,
      "learning_rate": 5.5262681123817945e-05,
      "loss": 3.466,
      "step": 345010
    },
    {
      "epoch": 0.7187916666666667,
      "grad_norm": 1.3076629638671875,
      "learning_rate": 5.5255037902693705e-05,
      "loss": 3.415,
      "step": 345020
    },
    {
      "epoch": 0.7188125,
      "grad_norm": 1.2952731847763062,
      "learning_rate": 5.5247395090830205e-05,
      "loss": 3.4225,
      "step": 345030
    },
    {
      "epoch": 0.7188333333333333,
      "grad_norm": 1.2050063610076904,
      "learning_rate": 5.523975268826044e-05,
      "loss": 3.4608,
      "step": 345040
    },
    {
      "epoch": 0.7188541666666667,
      "grad_norm": 1.2948373556137085,
      "learning_rate": 5.5232110695017425e-05,
      "loss": 3.4672,
      "step": 345050
    },
    {
      "epoch": 0.718875,
      "grad_norm": 1.2828556299209595,
      "learning_rate": 5.522446911113419e-05,
      "loss": 3.3268,
      "step": 345060
    },
    {
      "epoch": 0.7188958333333333,
      "grad_norm": 1.4992161989212036,
      "learning_rate": 5.5216827936643744e-05,
      "loss": 3.507,
      "step": 345070
    },
    {
      "epoch": 0.7189166666666666,
      "grad_norm": 1.4178673028945923,
      "learning_rate": 5.520918717157907e-05,
      "loss": 3.3937,
      "step": 345080
    },
    {
      "epoch": 0.7189375,
      "grad_norm": 1.3281241655349731,
      "learning_rate": 5.520154681597319e-05,
      "loss": 3.3251,
      "step": 345090
    },
    {
      "epoch": 0.7189583333333334,
      "grad_norm": 1.3564479351043701,
      "learning_rate": 5.5193906869859106e-05,
      "loss": 3.4389,
      "step": 345100
    },
    {
      "epoch": 0.7189791666666666,
      "grad_norm": 1.536810278892517,
      "learning_rate": 5.518626733326987e-05,
      "loss": 3.3988,
      "step": 345110
    },
    {
      "epoch": 0.719,
      "grad_norm": 3.063103675842285,
      "learning_rate": 5.517862820623833e-05,
      "loss": 3.6431,
      "step": 345120
    },
    {
      "epoch": 0.7190208333333333,
      "grad_norm": 1.3549373149871826,
      "learning_rate": 5.5170989488797615e-05,
      "loss": 3.4702,
      "step": 345130
    },
    {
      "epoch": 0.7190416666666667,
      "grad_norm": 1.4541512727737427,
      "learning_rate": 5.5163351180980767e-05,
      "loss": 3.445,
      "step": 345140
    },
    {
      "epoch": 0.7190625,
      "grad_norm": 1.2803301811218262,
      "learning_rate": 5.5155713282820574e-05,
      "loss": 3.4098,
      "step": 345150
    },
    {
      "epoch": 0.7190833333333333,
      "grad_norm": 1.3076640367507935,
      "learning_rate": 5.5148075794350235e-05,
      "loss": 3.2975,
      "step": 345160
    },
    {
      "epoch": 0.7191041666666667,
      "grad_norm": 1.2037756443023682,
      "learning_rate": 5.5140438715602696e-05,
      "loss": 3.526,
      "step": 345170
    },
    {
      "epoch": 0.719125,
      "grad_norm": 1.1780662536621094,
      "learning_rate": 5.513280204661083e-05,
      "loss": 3.3181,
      "step": 345180
    },
    {
      "epoch": 0.7191458333333334,
      "grad_norm": 1.3091305494308472,
      "learning_rate": 5.512516578740774e-05,
      "loss": 3.2098,
      "step": 345190
    },
    {
      "epoch": 0.7191666666666666,
      "grad_norm": 1.1284209489822388,
      "learning_rate": 5.5117529938026425e-05,
      "loss": 3.446,
      "step": 345200
    },
    {
      "epoch": 0.7191875,
      "grad_norm": 1.2725498676300049,
      "learning_rate": 5.5109894498499736e-05,
      "loss": 3.4578,
      "step": 345210
    },
    {
      "epoch": 0.7192083333333333,
      "grad_norm": 1.2118375301361084,
      "learning_rate": 5.510225946886085e-05,
      "loss": 3.4805,
      "step": 345220
    },
    {
      "epoch": 0.7192291666666667,
      "grad_norm": 1.2458504438400269,
      "learning_rate": 5.509462484914258e-05,
      "loss": 3.4272,
      "step": 345230
    },
    {
      "epoch": 0.71925,
      "grad_norm": 1.34812593460083,
      "learning_rate": 5.508699063937791e-05,
      "loss": 3.3079,
      "step": 345240
    },
    {
      "epoch": 0.7192708333333333,
      "grad_norm": 1.297928810119629,
      "learning_rate": 5.507935683959999e-05,
      "loss": 3.3072,
      "step": 345250
    },
    {
      "epoch": 0.7192916666666667,
      "grad_norm": 1.2353265285491943,
      "learning_rate": 5.5071723449841613e-05,
      "loss": 3.3876,
      "step": 345260
    },
    {
      "epoch": 0.7193125,
      "grad_norm": 1.3300493955612183,
      "learning_rate": 5.506409047013575e-05,
      "loss": 3.3897,
      "step": 345270
    },
    {
      "epoch": 0.7193333333333334,
      "grad_norm": 1.2868554592132568,
      "learning_rate": 5.505645790051557e-05,
      "loss": 3.3347,
      "step": 345280
    },
    {
      "epoch": 0.7193541666666666,
      "grad_norm": 1.2682161331176758,
      "learning_rate": 5.504882574101385e-05,
      "loss": 3.2956,
      "step": 345290
    },
    {
      "epoch": 0.719375,
      "grad_norm": 1.417338490486145,
      "learning_rate": 5.504119399166355e-05,
      "loss": 3.4753,
      "step": 345300
    },
    {
      "epoch": 0.7193958333333333,
      "grad_norm": 1.3118088245391846,
      "learning_rate": 5.503356265249783e-05,
      "loss": 3.4071,
      "step": 345310
    },
    {
      "epoch": 0.7194166666666667,
      "grad_norm": 1.2448084354400635,
      "learning_rate": 5.502593172354946e-05,
      "loss": 3.4215,
      "step": 345320
    },
    {
      "epoch": 0.7194375,
      "grad_norm": 1.3871673345565796,
      "learning_rate": 5.5018301204851426e-05,
      "loss": 3.3509,
      "step": 345330
    },
    {
      "epoch": 0.7194583333333333,
      "grad_norm": 1.2129490375518799,
      "learning_rate": 5.5010671096436835e-05,
      "loss": 3.5294,
      "step": 345340
    },
    {
      "epoch": 0.7194791666666667,
      "grad_norm": 1.2752121686935425,
      "learning_rate": 5.500304139833851e-05,
      "loss": 3.3919,
      "step": 345350
    },
    {
      "epoch": 0.7195,
      "grad_norm": 1.2562183141708374,
      "learning_rate": 5.499541211058942e-05,
      "loss": 3.5732,
      "step": 345360
    },
    {
      "epoch": 0.7195208333333334,
      "grad_norm": 1.273970127105713,
      "learning_rate": 5.498778323322256e-05,
      "loss": 3.4296,
      "step": 345370
    },
    {
      "epoch": 0.7195416666666666,
      "grad_norm": 1.3712188005447388,
      "learning_rate": 5.498015476627087e-05,
      "loss": 3.6509,
      "step": 345380
    },
    {
      "epoch": 0.7195625,
      "grad_norm": 1.2755955457687378,
      "learning_rate": 5.497252670976728e-05,
      "loss": 3.2729,
      "step": 345390
    },
    {
      "epoch": 0.7195833333333334,
      "grad_norm": 1.341823935508728,
      "learning_rate": 5.496489906374478e-05,
      "loss": 3.4383,
      "step": 345400
    },
    {
      "epoch": 0.7196041666666667,
      "grad_norm": 2.0458288192749023,
      "learning_rate": 5.495727182823629e-05,
      "loss": 3.5266,
      "step": 345410
    },
    {
      "epoch": 0.719625,
      "grad_norm": 1.5792514085769653,
      "learning_rate": 5.4949645003274775e-05,
      "loss": 3.5329,
      "step": 345420
    },
    {
      "epoch": 0.7196458333333333,
      "grad_norm": 1.27301824092865,
      "learning_rate": 5.494201858889316e-05,
      "loss": 3.537,
      "step": 345430
    },
    {
      "epoch": 0.7196666666666667,
      "grad_norm": 1.2464433908462524,
      "learning_rate": 5.4934392585124395e-05,
      "loss": 3.4535,
      "step": 345440
    },
    {
      "epoch": 0.7196875,
      "grad_norm": 1.2810618877410889,
      "learning_rate": 5.492676699200143e-05,
      "loss": 3.2061,
      "step": 345450
    },
    {
      "epoch": 0.7197083333333333,
      "grad_norm": 1.3491315841674805,
      "learning_rate": 5.49191418095572e-05,
      "loss": 3.5214,
      "step": 345460
    },
    {
      "epoch": 0.7197291666666666,
      "grad_norm": 1.3341939449310303,
      "learning_rate": 5.491151703782464e-05,
      "loss": 3.4138,
      "step": 345470
    },
    {
      "epoch": 0.71975,
      "grad_norm": 1.4164302349090576,
      "learning_rate": 5.4903892676836746e-05,
      "loss": 3.3943,
      "step": 345480
    },
    {
      "epoch": 0.7197708333333334,
      "grad_norm": 1.2885682582855225,
      "learning_rate": 5.489626872662628e-05,
      "loss": 3.3438,
      "step": 345490
    },
    {
      "epoch": 0.7197916666666667,
      "grad_norm": 1.349963903427124,
      "learning_rate": 5.4888645187226345e-05,
      "loss": 3.5018,
      "step": 345500
    },
    {
      "epoch": 0.7198125,
      "grad_norm": 1.3021031618118286,
      "learning_rate": 5.488102205866988e-05,
      "loss": 3.4117,
      "step": 345510
    },
    {
      "epoch": 0.7198333333333333,
      "grad_norm": 1.1635150909423828,
      "learning_rate": 5.4873399340989626e-05,
      "loss": 3.3352,
      "step": 345520
    },
    {
      "epoch": 0.7198541666666667,
      "grad_norm": 1.2431570291519165,
      "learning_rate": 5.4865777034218684e-05,
      "loss": 3.4934,
      "step": 345530
    },
    {
      "epoch": 0.719875,
      "grad_norm": 1.1965892314910889,
      "learning_rate": 5.4858155138389984e-05,
      "loss": 3.4126,
      "step": 345540
    },
    {
      "epoch": 0.7198958333333333,
      "grad_norm": 1.3937904834747314,
      "learning_rate": 5.48505336535363e-05,
      "loss": 3.4464,
      "step": 345550
    },
    {
      "epoch": 0.7199166666666666,
      "grad_norm": 1.299838900566101,
      "learning_rate": 5.4842912579690697e-05,
      "loss": 3.3795,
      "step": 345560
    },
    {
      "epoch": 0.7199375,
      "grad_norm": 1.2407734394073486,
      "learning_rate": 5.4835291916886096e-05,
      "loss": 3.4333,
      "step": 345570
    },
    {
      "epoch": 0.7199583333333334,
      "grad_norm": 1.3513872623443604,
      "learning_rate": 5.482767166515526e-05,
      "loss": 3.3525,
      "step": 345580
    },
    {
      "epoch": 0.7199791666666666,
      "grad_norm": 1.2308701276779175,
      "learning_rate": 5.482005182453125e-05,
      "loss": 3.4876,
      "step": 345590
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2959182262420654,
      "learning_rate": 5.481243239504702e-05,
      "loss": 3.4383,
      "step": 345600
    },
    {
      "epoch": 0.7200208333333333,
      "grad_norm": 1.3526206016540527,
      "learning_rate": 5.480481337673528e-05,
      "loss": 3.5226,
      "step": 345610
    },
    {
      "epoch": 0.7200416666666667,
      "grad_norm": 1.2386306524276733,
      "learning_rate": 5.4797194769629174e-05,
      "loss": 3.487,
      "step": 345620
    },
    {
      "epoch": 0.7200625,
      "grad_norm": 1.3801994323730469,
      "learning_rate": 5.478957657376145e-05,
      "loss": 3.3858,
      "step": 345630
    },
    {
      "epoch": 0.7200833333333333,
      "grad_norm": 1.2580052614212036,
      "learning_rate": 5.4781958789165076e-05,
      "loss": 3.3722,
      "step": 345640
    },
    {
      "epoch": 0.7201041666666667,
      "grad_norm": 1.3105766773223877,
      "learning_rate": 5.4774341415872944e-05,
      "loss": 3.4414,
      "step": 345650
    },
    {
      "epoch": 0.720125,
      "grad_norm": 1.2815818786621094,
      "learning_rate": 5.4766724453917954e-05,
      "loss": 3.4572,
      "step": 345660
    },
    {
      "epoch": 0.7201458333333334,
      "grad_norm": 1.4836803674697876,
      "learning_rate": 5.475910790333304e-05,
      "loss": 3.4665,
      "step": 345670
    },
    {
      "epoch": 0.7201666666666666,
      "grad_norm": 1.294753909111023,
      "learning_rate": 5.4751491764151066e-05,
      "loss": 3.4204,
      "step": 345680
    },
    {
      "epoch": 0.7201875,
      "grad_norm": 1.339341402053833,
      "learning_rate": 5.474387603640495e-05,
      "loss": 3.4667,
      "step": 345690
    },
    {
      "epoch": 0.7202083333333333,
      "grad_norm": 1.3601819276809692,
      "learning_rate": 5.4736260720127575e-05,
      "loss": 3.4564,
      "step": 345700
    },
    {
      "epoch": 0.7202291666666667,
      "grad_norm": 1.3858542442321777,
      "learning_rate": 5.472864581535186e-05,
      "loss": 3.4607,
      "step": 345710
    },
    {
      "epoch": 0.72025,
      "grad_norm": 1.3443748950958252,
      "learning_rate": 5.472103132211068e-05,
      "loss": 3.4546,
      "step": 345720
    },
    {
      "epoch": 0.7202708333333333,
      "grad_norm": 1.2549166679382324,
      "learning_rate": 5.471341724043692e-05,
      "loss": 3.5407,
      "step": 345730
    },
    {
      "epoch": 0.7202916666666667,
      "grad_norm": 1.2391977310180664,
      "learning_rate": 5.47058035703635e-05,
      "loss": 3.5197,
      "step": 345740
    },
    {
      "epoch": 0.7203125,
      "grad_norm": 1.3031281232833862,
      "learning_rate": 5.4698190311923275e-05,
      "loss": 3.4298,
      "step": 345750
    },
    {
      "epoch": 0.7203333333333334,
      "grad_norm": 1.20853853225708,
      "learning_rate": 5.469057746514915e-05,
      "loss": 3.2999,
      "step": 345760
    },
    {
      "epoch": 0.7203541666666666,
      "grad_norm": 1.415653109550476,
      "learning_rate": 5.4682965030074e-05,
      "loss": 3.385,
      "step": 345770
    },
    {
      "epoch": 0.720375,
      "grad_norm": 1.4616165161132812,
      "learning_rate": 5.467535300673071e-05,
      "loss": 3.4367,
      "step": 345780
    },
    {
      "epoch": 0.7203958333333333,
      "grad_norm": 1.2159851789474487,
      "learning_rate": 5.466774139515217e-05,
      "loss": 3.5586,
      "step": 345790
    },
    {
      "epoch": 0.7204166666666667,
      "grad_norm": 1.2673230171203613,
      "learning_rate": 5.466013019537126e-05,
      "loss": 3.3505,
      "step": 345800
    },
    {
      "epoch": 0.7204375,
      "grad_norm": 1.2632542848587036,
      "learning_rate": 5.4652519407420826e-05,
      "loss": 3.3671,
      "step": 345810
    },
    {
      "epoch": 0.7204583333333333,
      "grad_norm": 1.2530279159545898,
      "learning_rate": 5.464490903133379e-05,
      "loss": 3.3623,
      "step": 345820
    },
    {
      "epoch": 0.7204791666666667,
      "grad_norm": 1.4854968786239624,
      "learning_rate": 5.4637299067142984e-05,
      "loss": 3.4478,
      "step": 345830
    },
    {
      "epoch": 0.7205,
      "grad_norm": 1.3787704706192017,
      "learning_rate": 5.462968951488131e-05,
      "loss": 3.2521,
      "step": 345840
    },
    {
      "epoch": 0.7205208333333334,
      "grad_norm": 1.4095019102096558,
      "learning_rate": 5.462208037458168e-05,
      "loss": 3.4097,
      "step": 345850
    },
    {
      "epoch": 0.7205416666666666,
      "grad_norm": 1.3579587936401367,
      "learning_rate": 5.4614471646276785e-05,
      "loss": 3.4343,
      "step": 345860
    },
    {
      "epoch": 0.7205625,
      "grad_norm": 1.4342082738876343,
      "learning_rate": 5.460686332999969e-05,
      "loss": 3.5242,
      "step": 345870
    },
    {
      "epoch": 0.7205833333333334,
      "grad_norm": 1.384227991104126,
      "learning_rate": 5.459925542578324e-05,
      "loss": 3.5002,
      "step": 345880
    },
    {
      "epoch": 0.7206041666666667,
      "grad_norm": 1.2354620695114136,
      "learning_rate": 5.459164793366013e-05,
      "loss": 3.4153,
      "step": 345890
    },
    {
      "epoch": 0.720625,
      "grad_norm": 1.3495477437973022,
      "learning_rate": 5.458404085366339e-05,
      "loss": 3.4654,
      "step": 345900
    },
    {
      "epoch": 0.7206458333333333,
      "grad_norm": 1.4166948795318604,
      "learning_rate": 5.457643418582588e-05,
      "loss": 3.3914,
      "step": 345910
    },
    {
      "epoch": 0.7206666666666667,
      "grad_norm": 1.2904155254364014,
      "learning_rate": 5.4568827930180296e-05,
      "loss": 3.5036,
      "step": 345920
    },
    {
      "epoch": 0.7206875,
      "grad_norm": 1.3000329732894897,
      "learning_rate": 5.4561222086759656e-05,
      "loss": 3.3633,
      "step": 345930
    },
    {
      "epoch": 0.7207083333333333,
      "grad_norm": 1.1819889545440674,
      "learning_rate": 5.45536166555968e-05,
      "loss": 3.6013,
      "step": 345940
    },
    {
      "epoch": 0.7207291666666666,
      "grad_norm": 1.3491897583007812,
      "learning_rate": 5.4546011636724505e-05,
      "loss": 3.4369,
      "step": 345950
    },
    {
      "epoch": 0.72075,
      "grad_norm": 1.2768787145614624,
      "learning_rate": 5.45384070301756e-05,
      "loss": 3.3729,
      "step": 345960
    },
    {
      "epoch": 0.7207708333333334,
      "grad_norm": 1.3143030405044556,
      "learning_rate": 5.453080283598309e-05,
      "loss": 3.3464,
      "step": 345970
    },
    {
      "epoch": 0.7207916666666667,
      "grad_norm": 1.2362276315689087,
      "learning_rate": 5.452319905417968e-05,
      "loss": 3.474,
      "step": 345980
    },
    {
      "epoch": 0.7208125,
      "grad_norm": 1.363744854927063,
      "learning_rate": 5.451559568479824e-05,
      "loss": 3.3731,
      "step": 345990
    },
    {
      "epoch": 0.7208333333333333,
      "grad_norm": 1.2765001058578491,
      "learning_rate": 5.450799272787164e-05,
      "loss": 3.4726,
      "step": 346000
    },
    {
      "epoch": 0.7208333333333333,
      "eval_loss": 3.542311191558838,
      "eval_runtime": 7.0227,
      "eval_samples_per_second": 1.424,
      "eval_steps_per_second": 0.427,
      "step": 346000
    },
    {
      "epoch": 0.7208541666666667,
      "grad_norm": 1.2075668573379517,
      "learning_rate": 5.450039018343272e-05,
      "loss": 3.4652,
      "step": 346010
    },
    {
      "epoch": 0.720875,
      "grad_norm": 1.2431941032409668,
      "learning_rate": 5.4492788051514296e-05,
      "loss": 3.4362,
      "step": 346020
    },
    {
      "epoch": 0.7208958333333333,
      "grad_norm": 1.2478055953979492,
      "learning_rate": 5.448518633214925e-05,
      "loss": 3.55,
      "step": 346030
    },
    {
      "epoch": 0.7209166666666667,
      "grad_norm": 1.2650877237319946,
      "learning_rate": 5.4477585025370365e-05,
      "loss": 3.3988,
      "step": 346040
    },
    {
      "epoch": 0.7209375,
      "grad_norm": 1.2893651723861694,
      "learning_rate": 5.446998413121051e-05,
      "loss": 3.5155,
      "step": 346050
    },
    {
      "epoch": 0.7209583333333334,
      "grad_norm": 1.2999783754348755,
      "learning_rate": 5.446238364970251e-05,
      "loss": 3.3757,
      "step": 346060
    },
    {
      "epoch": 0.7209791666666666,
      "grad_norm": 1.3527754545211792,
      "learning_rate": 5.44547835808792e-05,
      "loss": 3.416,
      "step": 346070
    },
    {
      "epoch": 0.721,
      "grad_norm": 1.150449275970459,
      "learning_rate": 5.444718392477342e-05,
      "loss": 3.3824,
      "step": 346080
    },
    {
      "epoch": 0.7210208333333333,
      "grad_norm": 1.2567076683044434,
      "learning_rate": 5.443958468141797e-05,
      "loss": 3.4869,
      "step": 346090
    },
    {
      "epoch": 0.7210416666666667,
      "grad_norm": 1.3547967672348022,
      "learning_rate": 5.4431985850845675e-05,
      "loss": 3.3852,
      "step": 346100
    },
    {
      "epoch": 0.7210625,
      "grad_norm": 1.2826488018035889,
      "learning_rate": 5.442438743308938e-05,
      "loss": 3.4912,
      "step": 346110
    },
    {
      "epoch": 0.7210833333333333,
      "grad_norm": 1.234993815422058,
      "learning_rate": 5.441678942818191e-05,
      "loss": 3.4448,
      "step": 346120
    },
    {
      "epoch": 0.7211041666666667,
      "grad_norm": 1.2216531038284302,
      "learning_rate": 5.440919183615607e-05,
      "loss": 3.52,
      "step": 346130
    },
    {
      "epoch": 0.721125,
      "grad_norm": 1.2737221717834473,
      "learning_rate": 5.440159465704468e-05,
      "loss": 3.4515,
      "step": 346140
    },
    {
      "epoch": 0.7211458333333334,
      "grad_norm": 1.221652626991272,
      "learning_rate": 5.439399789088056e-05,
      "loss": 3.4397,
      "step": 346150
    },
    {
      "epoch": 0.7211666666666666,
      "grad_norm": 1.3095648288726807,
      "learning_rate": 5.4386401537696536e-05,
      "loss": 3.3901,
      "step": 346160
    },
    {
      "epoch": 0.7211875,
      "grad_norm": 1.3480010032653809,
      "learning_rate": 5.437880559752541e-05,
      "loss": 3.4768,
      "step": 346170
    },
    {
      "epoch": 0.7212083333333333,
      "grad_norm": 1.1547136306762695,
      "learning_rate": 5.4371210070399984e-05,
      "loss": 3.4,
      "step": 346180
    },
    {
      "epoch": 0.7212291666666667,
      "grad_norm": 1.1985646486282349,
      "learning_rate": 5.436361495635308e-05,
      "loss": 3.3873,
      "step": 346190
    },
    {
      "epoch": 0.72125,
      "grad_norm": 1.518575668334961,
      "learning_rate": 5.435602025541751e-05,
      "loss": 3.3718,
      "step": 346200
    },
    {
      "epoch": 0.7212708333333333,
      "grad_norm": 1.4532716274261475,
      "learning_rate": 5.434842596762606e-05,
      "loss": 3.2904,
      "step": 346210
    },
    {
      "epoch": 0.7212916666666667,
      "grad_norm": 1.260504126548767,
      "learning_rate": 5.434083209301162e-05,
      "loss": 3.4002,
      "step": 346220
    },
    {
      "epoch": 0.7213125,
      "grad_norm": 1.2783231735229492,
      "learning_rate": 5.433323863160687e-05,
      "loss": 3.4625,
      "step": 346230
    },
    {
      "epoch": 0.7213333333333334,
      "grad_norm": 1.2713124752044678,
      "learning_rate": 5.432564558344459e-05,
      "loss": 3.3023,
      "step": 346240
    },
    {
      "epoch": 0.7213541666666666,
      "grad_norm": 1.418965458869934,
      "learning_rate": 5.431805294855777e-05,
      "loss": 3.3998,
      "step": 346250
    },
    {
      "epoch": 0.721375,
      "grad_norm": 1.2342349290847778,
      "learning_rate": 5.431046072697903e-05,
      "loss": 3.483,
      "step": 346260
    },
    {
      "epoch": 0.7213958333333333,
      "grad_norm": 1.257453203201294,
      "learning_rate": 5.430286891874117e-05,
      "loss": 3.6244,
      "step": 346270
    },
    {
      "epoch": 0.7214166666666667,
      "grad_norm": 1.3092349767684937,
      "learning_rate": 5.429527752387714e-05,
      "loss": 3.5164,
      "step": 346280
    },
    {
      "epoch": 0.7214375,
      "grad_norm": 1.1916693449020386,
      "learning_rate": 5.428768654241957e-05,
      "loss": 3.5008,
      "step": 346290
    },
    {
      "epoch": 0.7214583333333333,
      "grad_norm": 1.2876492738723755,
      "learning_rate": 5.428009597440127e-05,
      "loss": 3.4542,
      "step": 346300
    },
    {
      "epoch": 0.7214791666666667,
      "grad_norm": 1.3019256591796875,
      "learning_rate": 5.427250581985516e-05,
      "loss": 3.3965,
      "step": 346310
    },
    {
      "epoch": 0.7215,
      "grad_norm": 1.4675209522247314,
      "learning_rate": 5.4264916078813895e-05,
      "loss": 3.3707,
      "step": 346320
    },
    {
      "epoch": 0.7215208333333333,
      "grad_norm": 1.4700419902801514,
      "learning_rate": 5.425732675131024e-05,
      "loss": 3.549,
      "step": 346330
    },
    {
      "epoch": 0.7215416666666666,
      "grad_norm": 1.33418607711792,
      "learning_rate": 5.424973783737712e-05,
      "loss": 3.3291,
      "step": 346340
    },
    {
      "epoch": 0.7215625,
      "grad_norm": 1.2334622144699097,
      "learning_rate": 5.424214933704721e-05,
      "loss": 3.5485,
      "step": 346350
    },
    {
      "epoch": 0.7215833333333334,
      "grad_norm": 1.310878038406372,
      "learning_rate": 5.4234561250353304e-05,
      "loss": 3.5263,
      "step": 346360
    },
    {
      "epoch": 0.7216041666666667,
      "grad_norm": 1.446107268333435,
      "learning_rate": 5.4226973577328184e-05,
      "loss": 3.4431,
      "step": 346370
    },
    {
      "epoch": 0.721625,
      "grad_norm": 1.2178568840026855,
      "learning_rate": 5.4219386318004615e-05,
      "loss": 3.4836,
      "step": 346380
    },
    {
      "epoch": 0.7216458333333333,
      "grad_norm": 1.3255211114883423,
      "learning_rate": 5.421179947241539e-05,
      "loss": 3.3358,
      "step": 346390
    },
    {
      "epoch": 0.7216666666666667,
      "grad_norm": 1.2300395965576172,
      "learning_rate": 5.420421304059328e-05,
      "loss": 3.5355,
      "step": 346400
    },
    {
      "epoch": 0.7216875,
      "grad_norm": 1.462638020515442,
      "learning_rate": 5.419662702257106e-05,
      "loss": 3.4816,
      "step": 346410
    },
    {
      "epoch": 0.7217083333333333,
      "grad_norm": 1.2360492944717407,
      "learning_rate": 5.418904141838147e-05,
      "loss": 3.5134,
      "step": 346420
    },
    {
      "epoch": 0.7217291666666666,
      "grad_norm": 1.296769618988037,
      "learning_rate": 5.4181456228057315e-05,
      "loss": 3.3466,
      "step": 346430
    },
    {
      "epoch": 0.72175,
      "grad_norm": 1.339783787727356,
      "learning_rate": 5.4173871451631334e-05,
      "loss": 3.4023,
      "step": 346440
    },
    {
      "epoch": 0.7217708333333334,
      "grad_norm": 1.2448015213012695,
      "learning_rate": 5.4166287089136294e-05,
      "loss": 3.3029,
      "step": 346450
    },
    {
      "epoch": 0.7217916666666667,
      "grad_norm": 1.3725979328155518,
      "learning_rate": 5.415870314060497e-05,
      "loss": 3.4397,
      "step": 346460
    },
    {
      "epoch": 0.7218125,
      "grad_norm": 1.2582508325576782,
      "learning_rate": 5.4151119606070115e-05,
      "loss": 3.4196,
      "step": 346470
    },
    {
      "epoch": 0.7218333333333333,
      "grad_norm": 1.6625134944915771,
      "learning_rate": 5.414353648556447e-05,
      "loss": 3.4987,
      "step": 346480
    },
    {
      "epoch": 0.7218541666666667,
      "grad_norm": 1.2152074575424194,
      "learning_rate": 5.413595377912081e-05,
      "loss": 3.3284,
      "step": 346490
    },
    {
      "epoch": 0.721875,
      "grad_norm": 1.2895921468734741,
      "learning_rate": 5.412837148677187e-05,
      "loss": 3.376,
      "step": 346500
    },
    {
      "epoch": 0.7218958333333333,
      "grad_norm": 1.3884423971176147,
      "learning_rate": 5.412078960855044e-05,
      "loss": 3.413,
      "step": 346510
    },
    {
      "epoch": 0.7219166666666667,
      "grad_norm": 1.3127602338790894,
      "learning_rate": 5.411320814448924e-05,
      "loss": 3.406,
      "step": 346520
    },
    {
      "epoch": 0.7219375,
      "grad_norm": 1.3159844875335693,
      "learning_rate": 5.410562709462103e-05,
      "loss": 3.367,
      "step": 346530
    },
    {
      "epoch": 0.7219583333333334,
      "grad_norm": 1.4516651630401611,
      "learning_rate": 5.40980464589786e-05,
      "loss": 3.4251,
      "step": 346540
    },
    {
      "epoch": 0.7219791666666666,
      "grad_norm": 1.4192113876342773,
      "learning_rate": 5.409046623759453e-05,
      "loss": 3.5295,
      "step": 346550
    },
    {
      "epoch": 0.722,
      "grad_norm": 1.422065019607544,
      "learning_rate": 5.408288643050176e-05,
      "loss": 3.346,
      "step": 346560
    },
    {
      "epoch": 0.7220208333333333,
      "grad_norm": 1.3026812076568604,
      "learning_rate": 5.407530703773299e-05,
      "loss": 3.4029,
      "step": 346570
    },
    {
      "epoch": 0.7220416666666667,
      "grad_norm": 1.4040429592132568,
      "learning_rate": 5.406772805932083e-05,
      "loss": 3.4738,
      "step": 346580
    },
    {
      "epoch": 0.7220625,
      "grad_norm": 1.3286586999893188,
      "learning_rate": 5.406014949529816e-05,
      "loss": 3.4071,
      "step": 346590
    },
    {
      "epoch": 0.7220833333333333,
      "grad_norm": 1.3575493097305298,
      "learning_rate": 5.405257134569772e-05,
      "loss": 3.451,
      "step": 346600
    },
    {
      "epoch": 0.7221041666666667,
      "grad_norm": 1.3730428218841553,
      "learning_rate": 5.4044993610552085e-05,
      "loss": 3.3009,
      "step": 346610
    },
    {
      "epoch": 0.722125,
      "grad_norm": 1.4827669858932495,
      "learning_rate": 5.403741628989419e-05,
      "loss": 3.4062,
      "step": 346620
    },
    {
      "epoch": 0.7221458333333334,
      "grad_norm": 1.4350348711013794,
      "learning_rate": 5.4029839383756634e-05,
      "loss": 3.4504,
      "step": 346630
    },
    {
      "epoch": 0.7221666666666666,
      "grad_norm": 1.3271820545196533,
      "learning_rate": 5.4022262892172135e-05,
      "loss": 3.3979,
      "step": 346640
    },
    {
      "epoch": 0.7221875,
      "grad_norm": 1.3141065835952759,
      "learning_rate": 5.401468681517357e-05,
      "loss": 3.2844,
      "step": 346650
    },
    {
      "epoch": 0.7222083333333333,
      "grad_norm": 1.2723735570907593,
      "learning_rate": 5.4007111152793505e-05,
      "loss": 3.3824,
      "step": 346660
    },
    {
      "epoch": 0.7222291666666667,
      "grad_norm": 1.3033277988433838,
      "learning_rate": 5.399953590506469e-05,
      "loss": 3.5557,
      "step": 346670
    },
    {
      "epoch": 0.72225,
      "grad_norm": 1.351252555847168,
      "learning_rate": 5.3991961072019966e-05,
      "loss": 3.4772,
      "step": 346680
    },
    {
      "epoch": 0.7222708333333333,
      "grad_norm": 1.5239118337631226,
      "learning_rate": 5.398438665369194e-05,
      "loss": 3.466,
      "step": 346690
    },
    {
      "epoch": 0.7222916666666667,
      "grad_norm": 1.3512881994247437,
      "learning_rate": 5.397681265011327e-05,
      "loss": 3.477,
      "step": 346700
    },
    {
      "epoch": 0.7223125,
      "grad_norm": 1.2501091957092285,
      "learning_rate": 5.396923906131688e-05,
      "loss": 3.4493,
      "step": 346710
    },
    {
      "epoch": 0.7223333333333334,
      "grad_norm": 1.401458740234375,
      "learning_rate": 5.3961665887335323e-05,
      "loss": 3.4813,
      "step": 346720
    },
    {
      "epoch": 0.7223541666666666,
      "grad_norm": 1.343583345413208,
      "learning_rate": 5.395409312820136e-05,
      "loss": 3.5012,
      "step": 346730
    },
    {
      "epoch": 0.722375,
      "grad_norm": 1.3271005153656006,
      "learning_rate": 5.394652078394767e-05,
      "loss": 3.5693,
      "step": 346740
    },
    {
      "epoch": 0.7223958333333333,
      "grad_norm": 1.2928738594055176,
      "learning_rate": 5.3938948854607005e-05,
      "loss": 3.3478,
      "step": 346750
    },
    {
      "epoch": 0.7224166666666667,
      "grad_norm": 1.4078253507614136,
      "learning_rate": 5.3931377340212064e-05,
      "loss": 3.3621,
      "step": 346760
    },
    {
      "epoch": 0.7224375,
      "grad_norm": 1.2981014251708984,
      "learning_rate": 5.3923806240795546e-05,
      "loss": 3.4964,
      "step": 346770
    },
    {
      "epoch": 0.7224583333333333,
      "grad_norm": 1.3234766721725464,
      "learning_rate": 5.391623555639014e-05,
      "loss": 3.3529,
      "step": 346780
    },
    {
      "epoch": 0.7224791666666667,
      "grad_norm": 1.242078185081482,
      "learning_rate": 5.390866528702857e-05,
      "loss": 3.2912,
      "step": 346790
    },
    {
      "epoch": 0.7225,
      "grad_norm": 1.4500137567520142,
      "learning_rate": 5.390109543274353e-05,
      "loss": 3.4272,
      "step": 346800
    },
    {
      "epoch": 0.7225208333333333,
      "grad_norm": 1.4691263437271118,
      "learning_rate": 5.3893525993567726e-05,
      "loss": 3.4717,
      "step": 346810
    },
    {
      "epoch": 0.7225416666666666,
      "grad_norm": 1.3584667444229126,
      "learning_rate": 5.388595696953385e-05,
      "loss": 3.3782,
      "step": 346820
    },
    {
      "epoch": 0.7225625,
      "grad_norm": 1.297776460647583,
      "learning_rate": 5.3878388360674594e-05,
      "loss": 3.4001,
      "step": 346830
    },
    {
      "epoch": 0.7225833333333334,
      "grad_norm": 1.2533762454986572,
      "learning_rate": 5.387082016702264e-05,
      "loss": 3.5744,
      "step": 346840
    },
    {
      "epoch": 0.7226041666666667,
      "grad_norm": 1.3390501737594604,
      "learning_rate": 5.386325238861075e-05,
      "loss": 3.3083,
      "step": 346850
    },
    {
      "epoch": 0.722625,
      "grad_norm": 1.277971625328064,
      "learning_rate": 5.385568502547146e-05,
      "loss": 3.4431,
      "step": 346860
    },
    {
      "epoch": 0.7226458333333333,
      "grad_norm": 1.3099943399429321,
      "learning_rate": 5.3848118077637596e-05,
      "loss": 3.509,
      "step": 346870
    },
    {
      "epoch": 0.7226666666666667,
      "grad_norm": 1.3149449825286865,
      "learning_rate": 5.384055154514187e-05,
      "loss": 3.418,
      "step": 346880
    },
    {
      "epoch": 0.7226875,
      "grad_norm": 1.3053500652313232,
      "learning_rate": 5.383298542801678e-05,
      "loss": 3.4714,
      "step": 346890
    },
    {
      "epoch": 0.7227083333333333,
      "grad_norm": 1.3011881113052368,
      "learning_rate": 5.3825419726295184e-05,
      "loss": 3.2207,
      "step": 346900
    },
    {
      "epoch": 0.7227291666666666,
      "grad_norm": 1.3009917736053467,
      "learning_rate": 5.3817854440009756e-05,
      "loss": 3.4553,
      "step": 346910
    },
    {
      "epoch": 0.72275,
      "grad_norm": 1.3194899559020996,
      "learning_rate": 5.381028956919302e-05,
      "loss": 3.4623,
      "step": 346920
    },
    {
      "epoch": 0.7227708333333334,
      "grad_norm": 1.3095476627349854,
      "learning_rate": 5.380272511387782e-05,
      "loss": 3.3853,
      "step": 346930
    },
    {
      "epoch": 0.7227916666666667,
      "grad_norm": 1.2383652925491333,
      "learning_rate": 5.379516107409681e-05,
      "loss": 3.4463,
      "step": 346940
    },
    {
      "epoch": 0.7228125,
      "grad_norm": 1.343580961227417,
      "learning_rate": 5.378759744988253e-05,
      "loss": 3.4639,
      "step": 346950
    },
    {
      "epoch": 0.7228333333333333,
      "grad_norm": 1.4020379781723022,
      "learning_rate": 5.378003424126779e-05,
      "loss": 3.4154,
      "step": 346960
    },
    {
      "epoch": 0.7228541666666667,
      "grad_norm": 1.3332977294921875,
      "learning_rate": 5.377247144828528e-05,
      "loss": 3.4265,
      "step": 346970
    },
    {
      "epoch": 0.722875,
      "grad_norm": 1.6311277151107788,
      "learning_rate": 5.3764909070967485e-05,
      "loss": 3.4043,
      "step": 346980
    },
    {
      "epoch": 0.7228958333333333,
      "grad_norm": 1.251572847366333,
      "learning_rate": 5.37573471093473e-05,
      "loss": 3.5422,
      "step": 346990
    },
    {
      "epoch": 0.7229166666666667,
      "grad_norm": 1.3885815143585205,
      "learning_rate": 5.374978556345723e-05,
      "loss": 3.4529,
      "step": 347000
    },
    {
      "epoch": 0.7229166666666667,
      "eval_loss": 3.5401272773742676,
      "eval_runtime": 6.8741,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.436,
      "step": 347000
    },
    {
      "epoch": 0.7229375,
      "grad_norm": 1.1793419122695923,
      "learning_rate": 5.374222443332994e-05,
      "loss": 3.5119,
      "step": 347010
    },
    {
      "epoch": 0.7229583333333334,
      "grad_norm": 1.2530728578567505,
      "learning_rate": 5.373466371899823e-05,
      "loss": 3.3673,
      "step": 347020
    },
    {
      "epoch": 0.7229791666666666,
      "grad_norm": 1.3104090690612793,
      "learning_rate": 5.3727103420494623e-05,
      "loss": 3.5526,
      "step": 347030
    },
    {
      "epoch": 0.723,
      "grad_norm": 1.4120020866394043,
      "learning_rate": 5.371954353785176e-05,
      "loss": 3.4807,
      "step": 347040
    },
    {
      "epoch": 0.7230208333333333,
      "grad_norm": 1.2510178089141846,
      "learning_rate": 5.3711984071102486e-05,
      "loss": 3.424,
      "step": 347050
    },
    {
      "epoch": 0.7230416666666667,
      "grad_norm": 1.2727266550064087,
      "learning_rate": 5.370442502027926e-05,
      "loss": 3.4021,
      "step": 347060
    },
    {
      "epoch": 0.7230625,
      "grad_norm": 1.3636248111724854,
      "learning_rate": 5.369686638541474e-05,
      "loss": 3.3262,
      "step": 347070
    },
    {
      "epoch": 0.7230833333333333,
      "grad_norm": 1.3588132858276367,
      "learning_rate": 5.368930816654176e-05,
      "loss": 3.3856,
      "step": 347080
    },
    {
      "epoch": 0.7231041666666667,
      "grad_norm": 1.415461540222168,
      "learning_rate": 5.368175036369278e-05,
      "loss": 3.3508,
      "step": 347090
    },
    {
      "epoch": 0.723125,
      "grad_norm": 1.373215913772583,
      "learning_rate": 5.367419297690048e-05,
      "loss": 3.4499,
      "step": 347100
    },
    {
      "epoch": 0.7231458333333334,
      "grad_norm": 1.4599714279174805,
      "learning_rate": 5.366663600619763e-05,
      "loss": 3.3402,
      "step": 347110
    },
    {
      "epoch": 0.7231666666666666,
      "grad_norm": 1.4660191535949707,
      "learning_rate": 5.365907945161673e-05,
      "loss": 3.4781,
      "step": 347120
    },
    {
      "epoch": 0.7231875,
      "grad_norm": 1.479516625404358,
      "learning_rate": 5.365152331319047e-05,
      "loss": 3.5876,
      "step": 347130
    },
    {
      "epoch": 0.7232083333333333,
      "grad_norm": 3.021920919418335,
      "learning_rate": 5.364396759095148e-05,
      "loss": 3.7145,
      "step": 347140
    },
    {
      "epoch": 0.7232291666666667,
      "grad_norm": 1.3114938735961914,
      "learning_rate": 5.363641228493244e-05,
      "loss": 3.5003,
      "step": 347150
    },
    {
      "epoch": 0.72325,
      "grad_norm": 1.272645115852356,
      "learning_rate": 5.3628857395165935e-05,
      "loss": 3.3999,
      "step": 347160
    },
    {
      "epoch": 0.7232708333333333,
      "grad_norm": 1.477662205696106,
      "learning_rate": 5.362130292168461e-05,
      "loss": 3.4761,
      "step": 347170
    },
    {
      "epoch": 0.7232916666666667,
      "grad_norm": 1.3909200429916382,
      "learning_rate": 5.361374886452113e-05,
      "loss": 3.358,
      "step": 347180
    },
    {
      "epoch": 0.7233125,
      "grad_norm": 1.1837356090545654,
      "learning_rate": 5.360619522370809e-05,
      "loss": 3.4304,
      "step": 347190
    },
    {
      "epoch": 0.7233333333333334,
      "grad_norm": 1.348191499710083,
      "learning_rate": 5.359864199927813e-05,
      "loss": 3.3781,
      "step": 347200
    },
    {
      "epoch": 0.7233541666666666,
      "grad_norm": 1.448837161064148,
      "learning_rate": 5.359108919126389e-05,
      "loss": 3.3026,
      "step": 347210
    },
    {
      "epoch": 0.723375,
      "grad_norm": 1.4024193286895752,
      "learning_rate": 5.358353679969802e-05,
      "loss": 3.4358,
      "step": 347220
    },
    {
      "epoch": 0.7233958333333333,
      "grad_norm": 1.310560703277588,
      "learning_rate": 5.3575984824613015e-05,
      "loss": 3.3087,
      "step": 347230
    },
    {
      "epoch": 0.7234166666666667,
      "grad_norm": 1.4101935625076294,
      "learning_rate": 5.356843326604164e-05,
      "loss": 3.4737,
      "step": 347240
    },
    {
      "epoch": 0.7234375,
      "grad_norm": 1.2718830108642578,
      "learning_rate": 5.356088212401651e-05,
      "loss": 3.4952,
      "step": 347250
    },
    {
      "epoch": 0.7234583333333333,
      "grad_norm": 1.372439980506897,
      "learning_rate": 5.355333139857008e-05,
      "loss": 3.425,
      "step": 347260
    },
    {
      "epoch": 0.7234791666666667,
      "grad_norm": 1.2554947137832642,
      "learning_rate": 5.354578108973515e-05,
      "loss": 3.4181,
      "step": 347270
    },
    {
      "epoch": 0.7235,
      "grad_norm": 1.2436659336090088,
      "learning_rate": 5.3538231197544326e-05,
      "loss": 3.5487,
      "step": 347280
    },
    {
      "epoch": 0.7235208333333333,
      "grad_norm": 1.3119425773620605,
      "learning_rate": 5.353068172203004e-05,
      "loss": 3.3655,
      "step": 347290
    },
    {
      "epoch": 0.7235416666666666,
      "grad_norm": 1.3002910614013672,
      "learning_rate": 5.352313266322509e-05,
      "loss": 3.4588,
      "step": 347300
    },
    {
      "epoch": 0.7235625,
      "grad_norm": 1.4211794137954712,
      "learning_rate": 5.3515584021162064e-05,
      "loss": 3.3307,
      "step": 347310
    },
    {
      "epoch": 0.7235833333333334,
      "grad_norm": 1.3178642988204956,
      "learning_rate": 5.350803579587342e-05,
      "loss": 3.3953,
      "step": 347320
    },
    {
      "epoch": 0.7236041666666667,
      "grad_norm": 1.4391907453536987,
      "learning_rate": 5.350048798739191e-05,
      "loss": 3.5514,
      "step": 347330
    },
    {
      "epoch": 0.723625,
      "grad_norm": 1.492455005645752,
      "learning_rate": 5.349294059575015e-05,
      "loss": 3.4251,
      "step": 347340
    },
    {
      "epoch": 0.7236458333333333,
      "grad_norm": 1.5316965579986572,
      "learning_rate": 5.348539362098059e-05,
      "loss": 3.3725,
      "step": 347350
    },
    {
      "epoch": 0.7236666666666667,
      "grad_norm": 1.4459443092346191,
      "learning_rate": 5.347784706311603e-05,
      "loss": 3.5004,
      "step": 347360
    },
    {
      "epoch": 0.7236875,
      "grad_norm": 1.3274049758911133,
      "learning_rate": 5.34703009221889e-05,
      "loss": 3.4707,
      "step": 347370
    },
    {
      "epoch": 0.7237083333333333,
      "grad_norm": 1.249855875968933,
      "learning_rate": 5.3462755198231835e-05,
      "loss": 3.5034,
      "step": 347380
    },
    {
      "epoch": 0.7237291666666666,
      "grad_norm": 1.4363960027694702,
      "learning_rate": 5.345520989127753e-05,
      "loss": 3.4118,
      "step": 347390
    },
    {
      "epoch": 0.72375,
      "grad_norm": 1.2689193487167358,
      "learning_rate": 5.344766500135846e-05,
      "loss": 3.5413,
      "step": 347400
    },
    {
      "epoch": 0.7237708333333334,
      "grad_norm": 1.2848068475723267,
      "learning_rate": 5.344012052850728e-05,
      "loss": 3.4541,
      "step": 347410
    },
    {
      "epoch": 0.7237916666666667,
      "grad_norm": 1.4382201433181763,
      "learning_rate": 5.3432576472756533e-05,
      "loss": 3.5125,
      "step": 347420
    },
    {
      "epoch": 0.7238125,
      "grad_norm": 1.3258814811706543,
      "learning_rate": 5.342503283413885e-05,
      "loss": 3.5099,
      "step": 347430
    },
    {
      "epoch": 0.7238333333333333,
      "grad_norm": 1.3900065422058105,
      "learning_rate": 5.341748961268678e-05,
      "loss": 3.6326,
      "step": 347440
    },
    {
      "epoch": 0.7238541666666667,
      "grad_norm": 1.3272168636322021,
      "learning_rate": 5.340994680843294e-05,
      "loss": 3.4163,
      "step": 347450
    },
    {
      "epoch": 0.723875,
      "grad_norm": 1.4038978815078735,
      "learning_rate": 5.340240442140988e-05,
      "loss": 3.3358,
      "step": 347460
    },
    {
      "epoch": 0.7238958333333333,
      "grad_norm": 1.24636709690094,
      "learning_rate": 5.3394862451650214e-05,
      "loss": 3.3253,
      "step": 347470
    },
    {
      "epoch": 0.7239166666666667,
      "grad_norm": 1.3159960508346558,
      "learning_rate": 5.33873208991865e-05,
      "loss": 3.3621,
      "step": 347480
    },
    {
      "epoch": 0.7239375,
      "grad_norm": 1.3188691139221191,
      "learning_rate": 5.33797797640513e-05,
      "loss": 3.5938,
      "step": 347490
    },
    {
      "epoch": 0.7239583333333334,
      "grad_norm": 1.3887896537780762,
      "learning_rate": 5.337223904627723e-05,
      "loss": 3.5536,
      "step": 347500
    },
    {
      "epoch": 0.7239791666666666,
      "grad_norm": 1.2751998901367188,
      "learning_rate": 5.3364698745896836e-05,
      "loss": 3.5148,
      "step": 347510
    },
    {
      "epoch": 0.724,
      "grad_norm": 1.287314772605896,
      "learning_rate": 5.3357158862942675e-05,
      "loss": 3.5431,
      "step": 347520
    },
    {
      "epoch": 0.7240208333333333,
      "grad_norm": 1.2902942895889282,
      "learning_rate": 5.3349619397447354e-05,
      "loss": 3.3963,
      "step": 347530
    },
    {
      "epoch": 0.7240416666666667,
      "grad_norm": 1.3504400253295898,
      "learning_rate": 5.334208034944341e-05,
      "loss": 3.4757,
      "step": 347540
    },
    {
      "epoch": 0.7240625,
      "grad_norm": 1.3173420429229736,
      "learning_rate": 5.333454171896342e-05,
      "loss": 3.5668,
      "step": 347550
    },
    {
      "epoch": 0.7240833333333333,
      "grad_norm": 1.4470335245132446,
      "learning_rate": 5.332700350603994e-05,
      "loss": 3.434,
      "step": 347560
    },
    {
      "epoch": 0.7241041666666667,
      "grad_norm": 1.3253216743469238,
      "learning_rate": 5.3319465710705564e-05,
      "loss": 3.6005,
      "step": 347570
    },
    {
      "epoch": 0.724125,
      "grad_norm": 1.3157143592834473,
      "learning_rate": 5.3311928332992806e-05,
      "loss": 3.4605,
      "step": 347580
    },
    {
      "epoch": 0.7241458333333334,
      "grad_norm": 1.2880029678344727,
      "learning_rate": 5.330439137293424e-05,
      "loss": 3.482,
      "step": 347590
    },
    {
      "epoch": 0.7241666666666666,
      "grad_norm": 1.2870450019836426,
      "learning_rate": 5.329685483056245e-05,
      "loss": 3.3199,
      "step": 347600
    },
    {
      "epoch": 0.7241875,
      "grad_norm": 2.378697156906128,
      "learning_rate": 5.328931870590995e-05,
      "loss": 3.5283,
      "step": 347610
    },
    {
      "epoch": 0.7242083333333333,
      "grad_norm": 1.436431646347046,
      "learning_rate": 5.3281782999009373e-05,
      "loss": 3.592,
      "step": 347620
    },
    {
      "epoch": 0.7242291666666667,
      "grad_norm": 1.3249480724334717,
      "learning_rate": 5.3274247709893096e-05,
      "loss": 3.6055,
      "step": 347630
    },
    {
      "epoch": 0.72425,
      "grad_norm": 1.598207950592041,
      "learning_rate": 5.326671283859385e-05,
      "loss": 3.3874,
      "step": 347640
    },
    {
      "epoch": 0.7242708333333333,
      "grad_norm": 1.3624266386032104,
      "learning_rate": 5.325917838514416e-05,
      "loss": 3.4479,
      "step": 347650
    },
    {
      "epoch": 0.7242916666666667,
      "grad_norm": 1.203080415725708,
      "learning_rate": 5.325164434957643e-05,
      "loss": 3.5207,
      "step": 347660
    },
    {
      "epoch": 0.7243125,
      "grad_norm": 1.265450119972229,
      "learning_rate": 5.324411073192333e-05,
      "loss": 3.4577,
      "step": 347670
    },
    {
      "epoch": 0.7243333333333334,
      "grad_norm": 1.250810980796814,
      "learning_rate": 5.3236577532217453e-05,
      "loss": 3.3902,
      "step": 347680
    },
    {
      "epoch": 0.7243541666666666,
      "grad_norm": 1.2960737943649292,
      "learning_rate": 5.3229044750491136e-05,
      "loss": 3.4499,
      "step": 347690
    },
    {
      "epoch": 0.724375,
      "grad_norm": 1.3634722232818604,
      "learning_rate": 5.322151238677711e-05,
      "loss": 3.4407,
      "step": 347700
    },
    {
      "epoch": 0.7243958333333333,
      "grad_norm": 1.354354977607727,
      "learning_rate": 5.3213980441107885e-05,
      "loss": 3.4565,
      "step": 347710
    },
    {
      "epoch": 0.7244166666666667,
      "grad_norm": 1.1910219192504883,
      "learning_rate": 5.3206448913515896e-05,
      "loss": 3.3101,
      "step": 347720
    },
    {
      "epoch": 0.7244375,
      "grad_norm": 1.3215056657791138,
      "learning_rate": 5.319891780403374e-05,
      "loss": 3.5154,
      "step": 347730
    },
    {
      "epoch": 0.7244583333333333,
      "grad_norm": 1.322121024131775,
      "learning_rate": 5.319138711269394e-05,
      "loss": 3.3752,
      "step": 347740
    },
    {
      "epoch": 0.7244791666666667,
      "grad_norm": 1.28460693359375,
      "learning_rate": 5.318385683952903e-05,
      "loss": 3.4104,
      "step": 347750
    },
    {
      "epoch": 0.7245,
      "grad_norm": 1.3655699491500854,
      "learning_rate": 5.317632698457154e-05,
      "loss": 3.4254,
      "step": 347760
    },
    {
      "epoch": 0.7245208333333333,
      "grad_norm": 1.3438376188278198,
      "learning_rate": 5.316879754785398e-05,
      "loss": 3.4512,
      "step": 347770
    },
    {
      "epoch": 0.7245416666666666,
      "grad_norm": 1.2906179428100586,
      "learning_rate": 5.31612685294089e-05,
      "loss": 3.4912,
      "step": 347780
    },
    {
      "epoch": 0.7245625,
      "grad_norm": 1.2133060693740845,
      "learning_rate": 5.3153739929268814e-05,
      "loss": 3.5275,
      "step": 347790
    },
    {
      "epoch": 0.7245833333333334,
      "grad_norm": 1.4014884233474731,
      "learning_rate": 5.314621174746622e-05,
      "loss": 3.4545,
      "step": 347800
    },
    {
      "epoch": 0.7246041666666667,
      "grad_norm": 1.3317114114761353,
      "learning_rate": 5.3138683984033655e-05,
      "loss": 3.5099,
      "step": 347810
    },
    {
      "epoch": 0.724625,
      "grad_norm": 1.2189267873764038,
      "learning_rate": 5.3131156639003644e-05,
      "loss": 3.3782,
      "step": 347820
    },
    {
      "epoch": 0.7246458333333333,
      "grad_norm": 1.4539809226989746,
      "learning_rate": 5.3123629712408695e-05,
      "loss": 3.3413,
      "step": 347830
    },
    {
      "epoch": 0.7246666666666667,
      "grad_norm": 1.3523194789886475,
      "learning_rate": 5.31161032042813e-05,
      "loss": 3.3729,
      "step": 347840
    },
    {
      "epoch": 0.7246875,
      "grad_norm": 1.27517569065094,
      "learning_rate": 5.310857711465401e-05,
      "loss": 3.4045,
      "step": 347850
    },
    {
      "epoch": 0.7247083333333333,
      "grad_norm": 1.3294416666030884,
      "learning_rate": 5.310105144355931e-05,
      "loss": 3.3998,
      "step": 347860
    },
    {
      "epoch": 0.7247291666666666,
      "grad_norm": 1.3673003911972046,
      "learning_rate": 5.3093526191029715e-05,
      "loss": 3.498,
      "step": 347870
    },
    {
      "epoch": 0.72475,
      "grad_norm": 1.3397481441497803,
      "learning_rate": 5.3086001357097716e-05,
      "loss": 3.4139,
      "step": 347880
    },
    {
      "epoch": 0.7247708333333334,
      "grad_norm": 1.295805811882019,
      "learning_rate": 5.307847694179584e-05,
      "loss": 3.4533,
      "step": 347890
    },
    {
      "epoch": 0.7247916666666666,
      "grad_norm": 1.3409799337387085,
      "learning_rate": 5.307095294515658e-05,
      "loss": 3.4966,
      "step": 347900
    },
    {
      "epoch": 0.7248125,
      "grad_norm": 1.3329182863235474,
      "learning_rate": 5.3063429367212435e-05,
      "loss": 3.4784,
      "step": 347910
    },
    {
      "epoch": 0.7248333333333333,
      "grad_norm": 1.301142930984497,
      "learning_rate": 5.305590620799589e-05,
      "loss": 3.372,
      "step": 347920
    },
    {
      "epoch": 0.7248541666666667,
      "grad_norm": 1.468645453453064,
      "learning_rate": 5.304838346753947e-05,
      "loss": 3.4112,
      "step": 347930
    },
    {
      "epoch": 0.724875,
      "grad_norm": 1.3730130195617676,
      "learning_rate": 5.304086114587566e-05,
      "loss": 3.4759,
      "step": 347940
    },
    {
      "epoch": 0.7248958333333333,
      "grad_norm": 1.3829103708267212,
      "learning_rate": 5.303333924303695e-05,
      "loss": 3.3886,
      "step": 347950
    },
    {
      "epoch": 0.7249166666666667,
      "grad_norm": 1.465880274772644,
      "learning_rate": 5.302581775905584e-05,
      "loss": 3.4921,
      "step": 347960
    },
    {
      "epoch": 0.7249375,
      "grad_norm": 1.4164562225341797,
      "learning_rate": 5.30182966939648e-05,
      "loss": 3.5403,
      "step": 347970
    },
    {
      "epoch": 0.7249583333333334,
      "grad_norm": 1.3026354312896729,
      "learning_rate": 5.3010776047796326e-05,
      "loss": 3.2967,
      "step": 347980
    },
    {
      "epoch": 0.7249791666666666,
      "grad_norm": 1.2441344261169434,
      "learning_rate": 5.300325582058297e-05,
      "loss": 3.3871,
      "step": 347990
    },
    {
      "epoch": 0.725,
      "grad_norm": 1.7307660579681396,
      "learning_rate": 5.2995736012357096e-05,
      "loss": 3.3701,
      "step": 348000
    },
    {
      "epoch": 0.725,
      "eval_loss": 3.538259506225586,
      "eval_runtime": 7.3354,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 348000
    },
    {
      "epoch": 0.7250208333333333,
      "grad_norm": 1.2808574438095093,
      "learning_rate": 5.298821662315121e-05,
      "loss": 3.4666,
      "step": 348010
    },
    {
      "epoch": 0.7250416666666667,
      "grad_norm": 1.3700321912765503,
      "learning_rate": 5.298069765299791e-05,
      "loss": 3.5227,
      "step": 348020
    },
    {
      "epoch": 0.7250625,
      "grad_norm": 1.35690438747406,
      "learning_rate": 5.2973179101929545e-05,
      "loss": 3.4302,
      "step": 348030
    },
    {
      "epoch": 0.7250833333333333,
      "grad_norm": 1.3674646615982056,
      "learning_rate": 5.2965660969978605e-05,
      "loss": 3.3349,
      "step": 348040
    },
    {
      "epoch": 0.7251041666666667,
      "grad_norm": 1.3181318044662476,
      "learning_rate": 5.2958143257177697e-05,
      "loss": 3.4322,
      "step": 348050
    },
    {
      "epoch": 0.725125,
      "grad_norm": 1.3114936351776123,
      "learning_rate": 5.2950625963559144e-05,
      "loss": 3.4111,
      "step": 348060
    },
    {
      "epoch": 0.7251458333333334,
      "grad_norm": 1.2856342792510986,
      "learning_rate": 5.2943109089155425e-05,
      "loss": 3.5328,
      "step": 348070
    },
    {
      "epoch": 0.7251666666666666,
      "grad_norm": 1.5095748901367188,
      "learning_rate": 5.293559263399915e-05,
      "loss": 3.5668,
      "step": 348080
    },
    {
      "epoch": 0.7251875,
      "grad_norm": 1.4168788194656372,
      "learning_rate": 5.2928076598122646e-05,
      "loss": 3.3277,
      "step": 348090
    },
    {
      "epoch": 0.7252083333333333,
      "grad_norm": 1.2522727251052856,
      "learning_rate": 5.292056098155839e-05,
      "loss": 3.4829,
      "step": 348100
    },
    {
      "epoch": 0.7252291666666667,
      "grad_norm": 1.467030644416809,
      "learning_rate": 5.291304578433895e-05,
      "loss": 3.2708,
      "step": 348110
    },
    {
      "epoch": 0.72525,
      "grad_norm": 1.2565195560455322,
      "learning_rate": 5.2905531006496704e-05,
      "loss": 3.5148,
      "step": 348120
    },
    {
      "epoch": 0.7252708333333333,
      "grad_norm": 1.3271504640579224,
      "learning_rate": 5.2898016648064126e-05,
      "loss": 3.4708,
      "step": 348130
    },
    {
      "epoch": 0.7252916666666667,
      "grad_norm": 1.3716877698898315,
      "learning_rate": 5.2890502709073686e-05,
      "loss": 3.4783,
      "step": 348140
    },
    {
      "epoch": 0.7253125,
      "grad_norm": 1.228455901145935,
      "learning_rate": 5.288298918955781e-05,
      "loss": 3.5125,
      "step": 348150
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 1.2284674644470215,
      "learning_rate": 5.2875476089549e-05,
      "loss": 3.5918,
      "step": 348160
    },
    {
      "epoch": 0.7253541666666666,
      "grad_norm": 1.2850936651229858,
      "learning_rate": 5.286796340907969e-05,
      "loss": 3.3944,
      "step": 348170
    },
    {
      "epoch": 0.725375,
      "grad_norm": 1.4722017049789429,
      "learning_rate": 5.286045114818233e-05,
      "loss": 3.4867,
      "step": 348180
    },
    {
      "epoch": 0.7253958333333334,
      "grad_norm": 1.282665491104126,
      "learning_rate": 5.285293930688937e-05,
      "loss": 3.6368,
      "step": 348190
    },
    {
      "epoch": 0.7254166666666667,
      "grad_norm": 1.368638515472412,
      "learning_rate": 5.284542788523325e-05,
      "loss": 3.4525,
      "step": 348200
    },
    {
      "epoch": 0.7254375,
      "grad_norm": 1.3317139148712158,
      "learning_rate": 5.2837916883246426e-05,
      "loss": 3.4911,
      "step": 348210
    },
    {
      "epoch": 0.7254583333333333,
      "grad_norm": 1.6249854564666748,
      "learning_rate": 5.283040630096135e-05,
      "loss": 3.5055,
      "step": 348220
    },
    {
      "epoch": 0.7254791666666667,
      "grad_norm": 1.5336668491363525,
      "learning_rate": 5.282289613841045e-05,
      "loss": 3.4187,
      "step": 348230
    },
    {
      "epoch": 0.7255,
      "grad_norm": 1.4083130359649658,
      "learning_rate": 5.281538639562617e-05,
      "loss": 3.4236,
      "step": 348240
    },
    {
      "epoch": 0.7255208333333333,
      "grad_norm": 1.4160453081130981,
      "learning_rate": 5.2807877072640966e-05,
      "loss": 3.5062,
      "step": 348250
    },
    {
      "epoch": 0.7255416666666666,
      "grad_norm": 1.2403416633605957,
      "learning_rate": 5.280036816948726e-05,
      "loss": 3.4074,
      "step": 348260
    },
    {
      "epoch": 0.7255625,
      "grad_norm": 1.401964545249939,
      "learning_rate": 5.279285968619747e-05,
      "loss": 3.5271,
      "step": 348270
    },
    {
      "epoch": 0.7255833333333334,
      "grad_norm": 1.3309048414230347,
      "learning_rate": 5.2785351622804065e-05,
      "loss": 3.3883,
      "step": 348280
    },
    {
      "epoch": 0.7256041666666667,
      "grad_norm": 1.3117997646331787,
      "learning_rate": 5.277784397933946e-05,
      "loss": 3.4086,
      "step": 348290
    },
    {
      "epoch": 0.725625,
      "grad_norm": 1.3207478523254395,
      "learning_rate": 5.277033675583608e-05,
      "loss": 3.4454,
      "step": 348300
    },
    {
      "epoch": 0.7256458333333333,
      "grad_norm": 1.3945945501327515,
      "learning_rate": 5.276282995232641e-05,
      "loss": 3.4493,
      "step": 348310
    },
    {
      "epoch": 0.7256666666666667,
      "grad_norm": 1.3015050888061523,
      "learning_rate": 5.275532356884273e-05,
      "loss": 3.4947,
      "step": 348320
    },
    {
      "epoch": 0.7256875,
      "grad_norm": 1.2800586223602295,
      "learning_rate": 5.2747817605417615e-05,
      "loss": 3.5764,
      "step": 348330
    },
    {
      "epoch": 0.7257083333333333,
      "grad_norm": 1.41275954246521,
      "learning_rate": 5.274031206208347e-05,
      "loss": 3.3794,
      "step": 348340
    },
    {
      "epoch": 0.7257291666666666,
      "grad_norm": 1.4396625757217407,
      "learning_rate": 5.2732806938872583e-05,
      "loss": 3.554,
      "step": 348350
    },
    {
      "epoch": 0.72575,
      "grad_norm": 1.4086635112762451,
      "learning_rate": 5.272530223581757e-05,
      "loss": 3.3855,
      "step": 348360
    },
    {
      "epoch": 0.7257708333333334,
      "grad_norm": 1.4989317655563354,
      "learning_rate": 5.2717797952950694e-05,
      "loss": 3.3695,
      "step": 348370
    },
    {
      "epoch": 0.7257916666666666,
      "grad_norm": 1.3179240226745605,
      "learning_rate": 5.271029409030438e-05,
      "loss": 3.4896,
      "step": 348380
    },
    {
      "epoch": 0.7258125,
      "grad_norm": 1.4267023801803589,
      "learning_rate": 5.2702790647911194e-05,
      "loss": 3.4723,
      "step": 348390
    },
    {
      "epoch": 0.7258333333333333,
      "grad_norm": 1.3331667184829712,
      "learning_rate": 5.269528762580338e-05,
      "loss": 3.4628,
      "step": 348400
    },
    {
      "epoch": 0.7258541666666667,
      "grad_norm": 1.297025203704834,
      "learning_rate": 5.268778502401334e-05,
      "loss": 3.4421,
      "step": 348410
    },
    {
      "epoch": 0.725875,
      "grad_norm": 1.301857590675354,
      "learning_rate": 5.2680282842573666e-05,
      "loss": 3.4752,
      "step": 348420
    },
    {
      "epoch": 0.7258958333333333,
      "grad_norm": 1.3179959058761597,
      "learning_rate": 5.2672781081516604e-05,
      "loss": 3.4851,
      "step": 348430
    },
    {
      "epoch": 0.7259166666666667,
      "grad_norm": 1.2418224811553955,
      "learning_rate": 5.266527974087455e-05,
      "loss": 3.6612,
      "step": 348440
    },
    {
      "epoch": 0.7259375,
      "grad_norm": 1.2287418842315674,
      "learning_rate": 5.2657778820680054e-05,
      "loss": 3.4571,
      "step": 348450
    },
    {
      "epoch": 0.7259583333333334,
      "grad_norm": 1.3602941036224365,
      "learning_rate": 5.265027832096538e-05,
      "loss": 3.4424,
      "step": 348460
    },
    {
      "epoch": 0.7259791666666666,
      "grad_norm": 1.568845272064209,
      "learning_rate": 5.2642778241762905e-05,
      "loss": 3.574,
      "step": 348470
    },
    {
      "epoch": 0.726,
      "grad_norm": 1.3593673706054688,
      "learning_rate": 5.263527858310521e-05,
      "loss": 3.2308,
      "step": 348480
    },
    {
      "epoch": 0.7260208333333333,
      "grad_norm": 1.3154271841049194,
      "learning_rate": 5.2627779345024526e-05,
      "loss": 3.4478,
      "step": 348490
    },
    {
      "epoch": 0.7260416666666667,
      "grad_norm": 1.3252813816070557,
      "learning_rate": 5.262028052755327e-05,
      "loss": 3.4764,
      "step": 348500
    },
    {
      "epoch": 0.7260625,
      "grad_norm": 1.8338332176208496,
      "learning_rate": 5.2612782130723865e-05,
      "loss": 3.2336,
      "step": 348510
    },
    {
      "epoch": 0.7260833333333333,
      "grad_norm": 1.2730469703674316,
      "learning_rate": 5.2605284154568706e-05,
      "loss": 3.4716,
      "step": 348520
    },
    {
      "epoch": 0.7261041666666667,
      "grad_norm": 1.4459600448608398,
      "learning_rate": 5.2597786599120154e-05,
      "loss": 3.4414,
      "step": 348530
    },
    {
      "epoch": 0.726125,
      "grad_norm": 2.437483072280884,
      "learning_rate": 5.259028946441061e-05,
      "loss": 3.543,
      "step": 348540
    },
    {
      "epoch": 0.7261458333333334,
      "grad_norm": 1.3720394372940063,
      "learning_rate": 5.2582792750472464e-05,
      "loss": 3.5228,
      "step": 348550
    },
    {
      "epoch": 0.7261666666666666,
      "grad_norm": 1.3557478189468384,
      "learning_rate": 5.257529645733808e-05,
      "loss": 3.376,
      "step": 348560
    },
    {
      "epoch": 0.7261875,
      "grad_norm": 1.422778844833374,
      "learning_rate": 5.256780058503986e-05,
      "loss": 3.501,
      "step": 348570
    },
    {
      "epoch": 0.7262083333333333,
      "grad_norm": 1.2888766527175903,
      "learning_rate": 5.2560305133610183e-05,
      "loss": 3.3259,
      "step": 348580
    },
    {
      "epoch": 0.7262291666666667,
      "grad_norm": 1.2481820583343506,
      "learning_rate": 5.255281010308142e-05,
      "loss": 3.4788,
      "step": 348590
    },
    {
      "epoch": 0.72625,
      "grad_norm": 1.4320595264434814,
      "learning_rate": 5.254531549348592e-05,
      "loss": 3.3982,
      "step": 348600
    },
    {
      "epoch": 0.7262708333333333,
      "grad_norm": 1.4482485055923462,
      "learning_rate": 5.253782130485611e-05,
      "loss": 3.4693,
      "step": 348610
    },
    {
      "epoch": 0.7262916666666667,
      "grad_norm": 1.38166344165802,
      "learning_rate": 5.2530327537224367e-05,
      "loss": 3.5416,
      "step": 348620
    },
    {
      "epoch": 0.7263125,
      "grad_norm": 1.2994893789291382,
      "learning_rate": 5.252283419062293e-05,
      "loss": 3.3755,
      "step": 348630
    },
    {
      "epoch": 0.7263333333333334,
      "grad_norm": 1.3064265251159668,
      "learning_rate": 5.2515341265084315e-05,
      "loss": 3.4506,
      "step": 348640
    },
    {
      "epoch": 0.7263541666666666,
      "grad_norm": 1.4656753540039062,
      "learning_rate": 5.250784876064091e-05,
      "loss": 3.3915,
      "step": 348650
    },
    {
      "epoch": 0.726375,
      "grad_norm": 1.2649575471878052,
      "learning_rate": 5.2500356677324885e-05,
      "loss": 3.4039,
      "step": 348660
    },
    {
      "epoch": 0.7263958333333334,
      "grad_norm": 1.2996010780334473,
      "learning_rate": 5.2492865015168786e-05,
      "loss": 3.3841,
      "step": 348670
    },
    {
      "epoch": 0.7264166666666667,
      "grad_norm": 1.3965356349945068,
      "learning_rate": 5.248537377420495e-05,
      "loss": 3.5367,
      "step": 348680
    },
    {
      "epoch": 0.7264375,
      "grad_norm": 1.4653983116149902,
      "learning_rate": 5.247788295446562e-05,
      "loss": 3.5059,
      "step": 348690
    },
    {
      "epoch": 0.7264583333333333,
      "grad_norm": 1.3105381727218628,
      "learning_rate": 5.247039255598327e-05,
      "loss": 3.3497,
      "step": 348700
    },
    {
      "epoch": 0.7264791666666667,
      "grad_norm": 1.2883954048156738,
      "learning_rate": 5.2462902578790265e-05,
      "loss": 3.4649,
      "step": 348710
    },
    {
      "epoch": 0.7265,
      "grad_norm": 1.3655441999435425,
      "learning_rate": 5.245541302291883e-05,
      "loss": 3.3786,
      "step": 348720
    },
    {
      "epoch": 0.7265208333333333,
      "grad_norm": 1.2636305093765259,
      "learning_rate": 5.244792388840148e-05,
      "loss": 3.4466,
      "step": 348730
    },
    {
      "epoch": 0.7265416666666666,
      "grad_norm": 1.2630447149276733,
      "learning_rate": 5.244043517527045e-05,
      "loss": 3.4833,
      "step": 348740
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 1.4368817806243896,
      "learning_rate": 5.2432946883558075e-05,
      "loss": 3.4017,
      "step": 348750
    },
    {
      "epoch": 0.7265833333333334,
      "grad_norm": 1.2803559303283691,
      "learning_rate": 5.242545901329684e-05,
      "loss": 3.3488,
      "step": 348760
    },
    {
      "epoch": 0.7266041666666667,
      "grad_norm": 1.4977343082427979,
      "learning_rate": 5.241797156451895e-05,
      "loss": 3.4106,
      "step": 348770
    },
    {
      "epoch": 0.726625,
      "grad_norm": 1.4631891250610352,
      "learning_rate": 5.2410484537256754e-05,
      "loss": 3.4911,
      "step": 348780
    },
    {
      "epoch": 0.7266458333333333,
      "grad_norm": 2.246006727218628,
      "learning_rate": 5.240299793154274e-05,
      "loss": 3.4728,
      "step": 348790
    },
    {
      "epoch": 0.7266666666666667,
      "grad_norm": 1.31251060962677,
      "learning_rate": 5.2395511747409086e-05,
      "loss": 3.5341,
      "step": 348800
    },
    {
      "epoch": 0.7266875,
      "grad_norm": 1.5614604949951172,
      "learning_rate": 5.238802598488813e-05,
      "loss": 3.4544,
      "step": 348810
    },
    {
      "epoch": 0.7267083333333333,
      "grad_norm": 1.4011001586914062,
      "learning_rate": 5.2380540644012364e-05,
      "loss": 3.3671,
      "step": 348820
    },
    {
      "epoch": 0.7267291666666666,
      "grad_norm": 1.2880549430847168,
      "learning_rate": 5.2373055724813986e-05,
      "loss": 3.4688,
      "step": 348830
    },
    {
      "epoch": 0.72675,
      "grad_norm": 1.3912683725357056,
      "learning_rate": 5.23655712273253e-05,
      "loss": 3.4861,
      "step": 348840
    },
    {
      "epoch": 0.7267708333333334,
      "grad_norm": 1.228695034980774,
      "learning_rate": 5.2358087151578816e-05,
      "loss": 3.3367,
      "step": 348850
    },
    {
      "epoch": 0.7267916666666666,
      "grad_norm": 1.311259150505066,
      "learning_rate": 5.235060349760668e-05,
      "loss": 3.4335,
      "step": 348860
    },
    {
      "epoch": 0.7268125,
      "grad_norm": 1.5715017318725586,
      "learning_rate": 5.23431202654413e-05,
      "loss": 3.4034,
      "step": 348870
    },
    {
      "epoch": 0.7268333333333333,
      "grad_norm": 1.3764121532440186,
      "learning_rate": 5.233563745511497e-05,
      "loss": 3.4491,
      "step": 348880
    },
    {
      "epoch": 0.7268541666666667,
      "grad_norm": 1.4064273834228516,
      "learning_rate": 5.2328155066660045e-05,
      "loss": 3.5317,
      "step": 348890
    },
    {
      "epoch": 0.726875,
      "grad_norm": 1.44770348072052,
      "learning_rate": 5.232067310010881e-05,
      "loss": 3.6248,
      "step": 348900
    },
    {
      "epoch": 0.7268958333333333,
      "grad_norm": 1.2459497451782227,
      "learning_rate": 5.2313191555493613e-05,
      "loss": 3.4321,
      "step": 348910
    },
    {
      "epoch": 0.7269166666666667,
      "grad_norm": 1.2351601123809814,
      "learning_rate": 5.230571043284676e-05,
      "loss": 3.3734,
      "step": 348920
    },
    {
      "epoch": 0.7269375,
      "grad_norm": 1.3438867330551147,
      "learning_rate": 5.229822973220056e-05,
      "loss": 3.3834,
      "step": 348930
    },
    {
      "epoch": 0.7269583333333334,
      "grad_norm": 1.4304745197296143,
      "learning_rate": 5.2290749453587354e-05,
      "loss": 3.3274,
      "step": 348940
    },
    {
      "epoch": 0.7269791666666666,
      "grad_norm": 1.378294587135315,
      "learning_rate": 5.228326959703941e-05,
      "loss": 3.4724,
      "step": 348950
    },
    {
      "epoch": 0.727,
      "grad_norm": 1.2951298952102661,
      "learning_rate": 5.2275790162589077e-05,
      "loss": 3.3914,
      "step": 348960
    },
    {
      "epoch": 0.7270208333333333,
      "grad_norm": 1.507388710975647,
      "learning_rate": 5.226831115026865e-05,
      "loss": 3.5228,
      "step": 348970
    },
    {
      "epoch": 0.7270416666666667,
      "grad_norm": 1.2915024757385254,
      "learning_rate": 5.226083256011044e-05,
      "loss": 3.399,
      "step": 348980
    },
    {
      "epoch": 0.7270625,
      "grad_norm": 1.2211323976516724,
      "learning_rate": 5.225335439214678e-05,
      "loss": 3.3489,
      "step": 348990
    },
    {
      "epoch": 0.7270833333333333,
      "grad_norm": 1.427701473236084,
      "learning_rate": 5.2245876646409834e-05,
      "loss": 3.626,
      "step": 349000
    },
    {
      "epoch": 0.7270833333333333,
      "eval_loss": 3.543684720993042,
      "eval_runtime": 7.3032,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 349000
    },
    {
      "epoch": 0.7271041666666667,
      "grad_norm": 1.2674705982208252,
      "learning_rate": 5.223839932293208e-05,
      "loss": 3.3927,
      "step": 349010
    },
    {
      "epoch": 0.727125,
      "grad_norm": 1.3571199178695679,
      "learning_rate": 5.223092242174578e-05,
      "loss": 3.4398,
      "step": 349020
    },
    {
      "epoch": 0.7271458333333334,
      "grad_norm": 1.304928183555603,
      "learning_rate": 5.2223445942883096e-05,
      "loss": 3.4589,
      "step": 349030
    },
    {
      "epoch": 0.7271666666666666,
      "grad_norm": 1.3376506567001343,
      "learning_rate": 5.221596988637647e-05,
      "loss": 3.4669,
      "step": 349040
    },
    {
      "epoch": 0.7271875,
      "grad_norm": 1.2627424001693726,
      "learning_rate": 5.22084942522582e-05,
      "loss": 3.3983,
      "step": 349050
    },
    {
      "epoch": 0.7272083333333333,
      "grad_norm": 1.3487610816955566,
      "learning_rate": 5.2201019040560426e-05,
      "loss": 3.6,
      "step": 349060
    },
    {
      "epoch": 0.7272291666666667,
      "grad_norm": 1.5210720300674438,
      "learning_rate": 5.219354425131559e-05,
      "loss": 3.523,
      "step": 349070
    },
    {
      "epoch": 0.72725,
      "grad_norm": 1.1964054107666016,
      "learning_rate": 5.218606988455599e-05,
      "loss": 3.4349,
      "step": 349080
    },
    {
      "epoch": 0.7272708333333333,
      "grad_norm": 1.2932082414627075,
      "learning_rate": 5.217859594031375e-05,
      "loss": 3.5169,
      "step": 349090
    },
    {
      "epoch": 0.7272916666666667,
      "grad_norm": 1.197012186050415,
      "learning_rate": 5.217112241862127e-05,
      "loss": 3.3975,
      "step": 349100
    },
    {
      "epoch": 0.7273125,
      "grad_norm": 1.2863247394561768,
      "learning_rate": 5.216364931951091e-05,
      "loss": 3.3259,
      "step": 349110
    },
    {
      "epoch": 0.7273333333333334,
      "grad_norm": 1.301927924156189,
      "learning_rate": 5.2156176643014736e-05,
      "loss": 3.4827,
      "step": 349120
    },
    {
      "epoch": 0.7273541666666666,
      "grad_norm": 1.4034465551376343,
      "learning_rate": 5.2148704389165264e-05,
      "loss": 3.3139,
      "step": 349130
    },
    {
      "epoch": 0.727375,
      "grad_norm": 1.2833137512207031,
      "learning_rate": 5.2141232557994584e-05,
      "loss": 3.4051,
      "step": 349140
    },
    {
      "epoch": 0.7273958333333334,
      "grad_norm": 1.287397861480713,
      "learning_rate": 5.213376114953502e-05,
      "loss": 3.4332,
      "step": 349150
    },
    {
      "epoch": 0.7274166666666667,
      "grad_norm": 1.2050217390060425,
      "learning_rate": 5.2126290163818945e-05,
      "loss": 3.3187,
      "step": 349160
    },
    {
      "epoch": 0.7274375,
      "grad_norm": 1.3642957210540771,
      "learning_rate": 5.211881960087852e-05,
      "loss": 3.4609,
      "step": 349170
    },
    {
      "epoch": 0.7274583333333333,
      "grad_norm": 1.2278854846954346,
      "learning_rate": 5.211134946074605e-05,
      "loss": 3.4647,
      "step": 349180
    },
    {
      "epoch": 0.7274791666666667,
      "grad_norm": 1.3930163383483887,
      "learning_rate": 5.2103879743453805e-05,
      "loss": 3.4651,
      "step": 349190
    },
    {
      "epoch": 0.7275,
      "grad_norm": 1.321948766708374,
      "learning_rate": 5.209641044903404e-05,
      "loss": 3.4985,
      "step": 349200
    },
    {
      "epoch": 0.7275208333333333,
      "grad_norm": 1.3374546766281128,
      "learning_rate": 5.2088941577519045e-05,
      "loss": 3.5268,
      "step": 349210
    },
    {
      "epoch": 0.7275416666666666,
      "grad_norm": 1.268998146057129,
      "learning_rate": 5.208147312894105e-05,
      "loss": 3.4607,
      "step": 349220
    },
    {
      "epoch": 0.7275625,
      "grad_norm": 1.3023396730422974,
      "learning_rate": 5.207400510333234e-05,
      "loss": 3.5566,
      "step": 349230
    },
    {
      "epoch": 0.7275833333333334,
      "grad_norm": 1.2335402965545654,
      "learning_rate": 5.206653750072516e-05,
      "loss": 3.3504,
      "step": 349240
    },
    {
      "epoch": 0.7276041666666667,
      "grad_norm": 1.4273982048034668,
      "learning_rate": 5.2059070321151785e-05,
      "loss": 3.5146,
      "step": 349250
    },
    {
      "epoch": 0.727625,
      "grad_norm": 1.381203293800354,
      "learning_rate": 5.2051603564644444e-05,
      "loss": 3.4699,
      "step": 349260
    },
    {
      "epoch": 0.7276458333333333,
      "grad_norm": 1.2558705806732178,
      "learning_rate": 5.204413723123543e-05,
      "loss": 3.5653,
      "step": 349270
    },
    {
      "epoch": 0.7276666666666667,
      "grad_norm": 1.3548177480697632,
      "learning_rate": 5.203667132095694e-05,
      "loss": 3.4185,
      "step": 349280
    },
    {
      "epoch": 0.7276875,
      "grad_norm": 1.3249473571777344,
      "learning_rate": 5.202920583384128e-05,
      "loss": 3.5418,
      "step": 349290
    },
    {
      "epoch": 0.7277083333333333,
      "grad_norm": 1.2898279428482056,
      "learning_rate": 5.202174076992064e-05,
      "loss": 3.4704,
      "step": 349300
    },
    {
      "epoch": 0.7277291666666666,
      "grad_norm": 1.3621981143951416,
      "learning_rate": 5.201427612922732e-05,
      "loss": 3.575,
      "step": 349310
    },
    {
      "epoch": 0.72775,
      "grad_norm": 1.415187954902649,
      "learning_rate": 5.200681191179353e-05,
      "loss": 3.3991,
      "step": 349320
    },
    {
      "epoch": 0.7277708333333334,
      "grad_norm": 1.3729736804962158,
      "learning_rate": 5.199934811765153e-05,
      "loss": 3.5316,
      "step": 349330
    },
    {
      "epoch": 0.7277916666666666,
      "grad_norm": 1.2995070219039917,
      "learning_rate": 5.199188474683355e-05,
      "loss": 3.3601,
      "step": 349340
    },
    {
      "epoch": 0.7278125,
      "grad_norm": 1.3315517902374268,
      "learning_rate": 5.198442179937184e-05,
      "loss": 3.5162,
      "step": 349350
    },
    {
      "epoch": 0.7278333333333333,
      "grad_norm": 1.3448352813720703,
      "learning_rate": 5.1976959275298686e-05,
      "loss": 3.4171,
      "step": 349360
    },
    {
      "epoch": 0.7278541666666667,
      "grad_norm": 1.4718315601348877,
      "learning_rate": 5.196949717464616e-05,
      "loss": 3.517,
      "step": 349370
    },
    {
      "epoch": 0.727875,
      "grad_norm": 1.4545676708221436,
      "learning_rate": 5.1962035497446645e-05,
      "loss": 3.4026,
      "step": 349380
    },
    {
      "epoch": 0.7278958333333333,
      "grad_norm": 1.418562889099121,
      "learning_rate": 5.19545742437324e-05,
      "loss": 3.3787,
      "step": 349390
    },
    {
      "epoch": 0.7279166666666667,
      "grad_norm": 1.6239136457443237,
      "learning_rate": 5.1947113413535476e-05,
      "loss": 3.4462,
      "step": 349400
    },
    {
      "epoch": 0.7279375,
      "grad_norm": 1.3026669025421143,
      "learning_rate": 5.193965300688826e-05,
      "loss": 3.4604,
      "step": 349410
    },
    {
      "epoch": 0.7279583333333334,
      "grad_norm": 1.4489377737045288,
      "learning_rate": 5.1932193023822976e-05,
      "loss": 3.465,
      "step": 349420
    },
    {
      "epoch": 0.7279791666666666,
      "grad_norm": 1.41395103931427,
      "learning_rate": 5.19247334643717e-05,
      "loss": 3.4029,
      "step": 349430
    },
    {
      "epoch": 0.728,
      "grad_norm": 1.2757455110549927,
      "learning_rate": 5.19172743285668e-05,
      "loss": 3.3329,
      "step": 349440
    },
    {
      "epoch": 0.7280208333333333,
      "grad_norm": 1.4755420684814453,
      "learning_rate": 5.19098156164405e-05,
      "loss": 3.4555,
      "step": 349450
    },
    {
      "epoch": 0.7280416666666667,
      "grad_norm": 1.1826437711715698,
      "learning_rate": 5.190235732802489e-05,
      "loss": 3.4806,
      "step": 349460
    },
    {
      "epoch": 0.7280625,
      "grad_norm": 1.2286012172698975,
      "learning_rate": 5.1894899463352305e-05,
      "loss": 3.4575,
      "step": 349470
    },
    {
      "epoch": 0.7280833333333333,
      "grad_norm": 1.46178138256073,
      "learning_rate": 5.188744202245496e-05,
      "loss": 3.4783,
      "step": 349480
    },
    {
      "epoch": 0.7281041666666667,
      "grad_norm": 1.4647926092147827,
      "learning_rate": 5.1879985005364995e-05,
      "loss": 3.4313,
      "step": 349490
    },
    {
      "epoch": 0.728125,
      "grad_norm": 1.2946559190750122,
      "learning_rate": 5.1872528412114636e-05,
      "loss": 3.5316,
      "step": 349500
    },
    {
      "epoch": 0.7281458333333334,
      "grad_norm": 1.2830177545547485,
      "learning_rate": 5.186507224273614e-05,
      "loss": 3.4815,
      "step": 349510
    },
    {
      "epoch": 0.7281666666666666,
      "grad_norm": 1.1755940914154053,
      "learning_rate": 5.185761649726167e-05,
      "loss": 3.3988,
      "step": 349520
    },
    {
      "epoch": 0.7281875,
      "grad_norm": 1.2912853956222534,
      "learning_rate": 5.185016117572345e-05,
      "loss": 3.4793,
      "step": 349530
    },
    {
      "epoch": 0.7282083333333333,
      "grad_norm": 1.4067209959030151,
      "learning_rate": 5.184270627815369e-05,
      "loss": 3.4181,
      "step": 349540
    },
    {
      "epoch": 0.7282291666666667,
      "grad_norm": 1.777838945388794,
      "learning_rate": 5.183525180458458e-05,
      "loss": 3.5596,
      "step": 349550
    },
    {
      "epoch": 0.72825,
      "grad_norm": 1.265430212020874,
      "learning_rate": 5.182779775504833e-05,
      "loss": 3.2542,
      "step": 349560
    },
    {
      "epoch": 0.7282708333333333,
      "grad_norm": 1.7136846780776978,
      "learning_rate": 5.182034412957714e-05,
      "loss": 3.4755,
      "step": 349570
    },
    {
      "epoch": 0.7282916666666667,
      "grad_norm": 1.3504871129989624,
      "learning_rate": 5.181289092820319e-05,
      "loss": 3.4676,
      "step": 349580
    },
    {
      "epoch": 0.7283125,
      "grad_norm": 1.4578758478164673,
      "learning_rate": 5.180543815095868e-05,
      "loss": 3.3533,
      "step": 349590
    },
    {
      "epoch": 0.7283333333333334,
      "grad_norm": 1.626999020576477,
      "learning_rate": 5.179798579787583e-05,
      "loss": 3.539,
      "step": 349600
    },
    {
      "epoch": 0.7283541666666666,
      "grad_norm": 1.3917818069458008,
      "learning_rate": 5.17905338689868e-05,
      "loss": 3.5407,
      "step": 349610
    },
    {
      "epoch": 0.728375,
      "grad_norm": 1.1731735467910767,
      "learning_rate": 5.1783082364323785e-05,
      "loss": 3.4697,
      "step": 349620
    },
    {
      "epoch": 0.7283958333333334,
      "grad_norm": 1.3129901885986328,
      "learning_rate": 5.177563128391898e-05,
      "loss": 3.3069,
      "step": 349630
    },
    {
      "epoch": 0.7284166666666667,
      "grad_norm": 1.2770620584487915,
      "learning_rate": 5.176818062780457e-05,
      "loss": 3.3209,
      "step": 349640
    },
    {
      "epoch": 0.7284375,
      "grad_norm": 1.3293147087097168,
      "learning_rate": 5.176073039601275e-05,
      "loss": 3.4362,
      "step": 349650
    },
    {
      "epoch": 0.7284583333333333,
      "grad_norm": 1.2775731086730957,
      "learning_rate": 5.1753280588575666e-05,
      "loss": 3.4986,
      "step": 349660
    },
    {
      "epoch": 0.7284791666666667,
      "grad_norm": 1.410824179649353,
      "learning_rate": 5.174583120552553e-05,
      "loss": 3.3717,
      "step": 349670
    },
    {
      "epoch": 0.7285,
      "grad_norm": 1.3380696773529053,
      "learning_rate": 5.1738382246894515e-05,
      "loss": 3.3406,
      "step": 349680
    },
    {
      "epoch": 0.7285208333333333,
      "grad_norm": 1.3713113069534302,
      "learning_rate": 5.173093371271479e-05,
      "loss": 3.3833,
      "step": 349690
    },
    {
      "epoch": 0.7285416666666666,
      "grad_norm": 1.5676897764205933,
      "learning_rate": 5.172348560301853e-05,
      "loss": 3.6659,
      "step": 349700
    },
    {
      "epoch": 0.7285625,
      "grad_norm": 1.4507629871368408,
      "learning_rate": 5.171603791783792e-05,
      "loss": 3.5296,
      "step": 349710
    },
    {
      "epoch": 0.7285833333333334,
      "grad_norm": 1.6444593667984009,
      "learning_rate": 5.170859065720511e-05,
      "loss": 3.5008,
      "step": 349720
    },
    {
      "epoch": 0.7286041666666667,
      "grad_norm": 1.5084950923919678,
      "learning_rate": 5.170114382115234e-05,
      "loss": 3.3207,
      "step": 349730
    },
    {
      "epoch": 0.728625,
      "grad_norm": 1.5406588315963745,
      "learning_rate": 5.1693697409711634e-05,
      "loss": 3.4309,
      "step": 349740
    },
    {
      "epoch": 0.7286458333333333,
      "grad_norm": 1.272739291191101,
      "learning_rate": 5.1686251422915276e-05,
      "loss": 3.4367,
      "step": 349750
    },
    {
      "epoch": 0.7286666666666667,
      "grad_norm": 1.5081347227096558,
      "learning_rate": 5.167880586079545e-05,
      "loss": 3.4123,
      "step": 349760
    },
    {
      "epoch": 0.7286875,
      "grad_norm": 1.3097847700119019,
      "learning_rate": 5.16713607233842e-05,
      "loss": 3.4262,
      "step": 349770
    },
    {
      "epoch": 0.7287083333333333,
      "grad_norm": 1.2898600101470947,
      "learning_rate": 5.1663916010713715e-05,
      "loss": 3.5017,
      "step": 349780
    },
    {
      "epoch": 0.7287291666666667,
      "grad_norm": 1.478873372077942,
      "learning_rate": 5.16564717228163e-05,
      "loss": 3.454,
      "step": 349790
    },
    {
      "epoch": 0.72875,
      "grad_norm": 1.446900486946106,
      "learning_rate": 5.164902785972394e-05,
      "loss": 3.3767,
      "step": 349800
    },
    {
      "epoch": 0.7287708333333334,
      "grad_norm": 1.4196211099624634,
      "learning_rate": 5.1641584421468795e-05,
      "loss": 3.3961,
      "step": 349810
    },
    {
      "epoch": 0.7287916666666666,
      "grad_norm": 1.321349024772644,
      "learning_rate": 5.1634141408083174e-05,
      "loss": 3.3798,
      "step": 349820
    },
    {
      "epoch": 0.7288125,
      "grad_norm": 1.4197391271591187,
      "learning_rate": 5.162669881959908e-05,
      "loss": 3.3711,
      "step": 349830
    },
    {
      "epoch": 0.7288333333333333,
      "grad_norm": 1.3062915802001953,
      "learning_rate": 5.161925665604865e-05,
      "loss": 3.4476,
      "step": 349840
    },
    {
      "epoch": 0.7288541666666667,
      "grad_norm": 1.2743480205535889,
      "learning_rate": 5.161181491746419e-05,
      "loss": 3.5708,
      "step": 349850
    },
    {
      "epoch": 0.728875,
      "grad_norm": 1.2172495126724243,
      "learning_rate": 5.16043736038777e-05,
      "loss": 3.3582,
      "step": 349860
    },
    {
      "epoch": 0.7288958333333333,
      "grad_norm": 1.5277209281921387,
      "learning_rate": 5.159693271532138e-05,
      "loss": 3.4979,
      "step": 349870
    },
    {
      "epoch": 0.7289166666666667,
      "grad_norm": 1.3374075889587402,
      "learning_rate": 5.1589492251827336e-05,
      "loss": 3.4717,
      "step": 349880
    },
    {
      "epoch": 0.7289375,
      "grad_norm": 1.3719794750213623,
      "learning_rate": 5.1582052213427756e-05,
      "loss": 3.4872,
      "step": 349890
    },
    {
      "epoch": 0.7289583333333334,
      "grad_norm": 1.4744879007339478,
      "learning_rate": 5.1574612600154744e-05,
      "loss": 3.4233,
      "step": 349900
    },
    {
      "epoch": 0.7289791666666666,
      "grad_norm": 1.3292009830474854,
      "learning_rate": 5.1567173412040434e-05,
      "loss": 3.299,
      "step": 349910
    },
    {
      "epoch": 0.729,
      "grad_norm": 1.5804884433746338,
      "learning_rate": 5.155973464911698e-05,
      "loss": 3.4268,
      "step": 349920
    },
    {
      "epoch": 0.7290208333333333,
      "grad_norm": 1.2853401899337769,
      "learning_rate": 5.1552296311416515e-05,
      "loss": 3.3851,
      "step": 349930
    },
    {
      "epoch": 0.7290416666666667,
      "grad_norm": 1.2856981754302979,
      "learning_rate": 5.154485839897116e-05,
      "loss": 3.2202,
      "step": 349940
    },
    {
      "epoch": 0.7290625,
      "grad_norm": 1.2893370389938354,
      "learning_rate": 5.153742091181303e-05,
      "loss": 3.4312,
      "step": 349950
    },
    {
      "epoch": 0.7290833333333333,
      "grad_norm": 1.3575689792633057,
      "learning_rate": 5.152998384997428e-05,
      "loss": 3.5435,
      "step": 349960
    },
    {
      "epoch": 0.7291041666666667,
      "grad_norm": 1.4678655862808228,
      "learning_rate": 5.152254721348702e-05,
      "loss": 3.3895,
      "step": 349970
    },
    {
      "epoch": 0.729125,
      "grad_norm": 1.3639518022537231,
      "learning_rate": 5.151511100238339e-05,
      "loss": 3.5034,
      "step": 349980
    },
    {
      "epoch": 0.7291458333333334,
      "grad_norm": 1.302374243736267,
      "learning_rate": 5.150767521669549e-05,
      "loss": 3.4587,
      "step": 349990
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 1.545739769935608,
      "learning_rate": 5.1500239856455435e-05,
      "loss": 3.4972,
      "step": 350000
    },
    {
      "epoch": 0.7291666666666666,
      "eval_loss": 3.545802593231201,
      "eval_runtime": 7.0077,
      "eval_samples_per_second": 1.427,
      "eval_steps_per_second": 0.428,
      "step": 350000
    },
    {
      "epoch": 0.7291875,
      "grad_norm": 1.3440455198287964,
      "learning_rate": 5.1492804921695365e-05,
      "loss": 3.5807,
      "step": 350010
    },
    {
      "epoch": 0.7292083333333333,
      "grad_norm": 1.4479193687438965,
      "learning_rate": 5.1485370412447384e-05,
      "loss": 3.4293,
      "step": 350020
    },
    {
      "epoch": 0.7292291666666667,
      "grad_norm": 1.3164957761764526,
      "learning_rate": 5.1477936328743606e-05,
      "loss": 3.5255,
      "step": 350030
    },
    {
      "epoch": 0.72925,
      "grad_norm": 1.3599075078964233,
      "learning_rate": 5.147050267061614e-05,
      "loss": 3.4607,
      "step": 350040
    },
    {
      "epoch": 0.7292708333333333,
      "grad_norm": 1.3852769136428833,
      "learning_rate": 5.1463069438097116e-05,
      "loss": 3.4506,
      "step": 350050
    },
    {
      "epoch": 0.7292916666666667,
      "grad_norm": 1.246281385421753,
      "learning_rate": 5.1455636631218616e-05,
      "loss": 3.4048,
      "step": 350060
    },
    {
      "epoch": 0.7293125,
      "grad_norm": 1.5901620388031006,
      "learning_rate": 5.144820425001276e-05,
      "loss": 3.4129,
      "step": 350070
    },
    {
      "epoch": 0.7293333333333333,
      "grad_norm": 1.5218321084976196,
      "learning_rate": 5.14407722945117e-05,
      "loss": 3.3788,
      "step": 350080
    },
    {
      "epoch": 0.7293541666666666,
      "grad_norm": 1.3764065504074097,
      "learning_rate": 5.14333407647474e-05,
      "loss": 3.614,
      "step": 350090
    },
    {
      "epoch": 0.729375,
      "grad_norm": 1.286363124847412,
      "learning_rate": 5.14259096607521e-05,
      "loss": 3.4037,
      "step": 350100
    },
    {
      "epoch": 0.7293958333333334,
      "grad_norm": 1.3673336505889893,
      "learning_rate": 5.1418478982557896e-05,
      "loss": 3.5303,
      "step": 350110
    },
    {
      "epoch": 0.7294166666666667,
      "grad_norm": 1.4280247688293457,
      "learning_rate": 5.1411048730196764e-05,
      "loss": 3.4796,
      "step": 350120
    },
    {
      "epoch": 0.7294375,
      "grad_norm": 1.3200548887252808,
      "learning_rate": 5.1403618903700955e-05,
      "loss": 3.3928,
      "step": 350130
    },
    {
      "epoch": 0.7294583333333333,
      "grad_norm": 1.4632281064987183,
      "learning_rate": 5.139618950310243e-05,
      "loss": 3.3805,
      "step": 350140
    },
    {
      "epoch": 0.7294791666666667,
      "grad_norm": 2.280411958694458,
      "learning_rate": 5.13887605284333e-05,
      "loss": 3.3894,
      "step": 350150
    },
    {
      "epoch": 0.7295,
      "grad_norm": 1.4426336288452148,
      "learning_rate": 5.1381331979725795e-05,
      "loss": 3.4324,
      "step": 350160
    },
    {
      "epoch": 0.7295208333333333,
      "grad_norm": 1.4601634740829468,
      "learning_rate": 5.137390385701184e-05,
      "loss": 3.2476,
      "step": 350170
    },
    {
      "epoch": 0.7295416666666666,
      "grad_norm": 1.5390276908874512,
      "learning_rate": 5.136647616032353e-05,
      "loss": 3.5561,
      "step": 350180
    },
    {
      "epoch": 0.7295625,
      "grad_norm": 1.3308546543121338,
      "learning_rate": 5.13590488896931e-05,
      "loss": 3.5039,
      "step": 350190
    },
    {
      "epoch": 0.7295833333333334,
      "grad_norm": 1.2610186338424683,
      "learning_rate": 5.13516220451525e-05,
      "loss": 3.5225,
      "step": 350200
    },
    {
      "epoch": 0.7296041666666667,
      "grad_norm": 1.3942861557006836,
      "learning_rate": 5.1344195626733794e-05,
      "loss": 3.4018,
      "step": 350210
    },
    {
      "epoch": 0.729625,
      "grad_norm": 1.4700026512145996,
      "learning_rate": 5.13367696344692e-05,
      "loss": 3.4072,
      "step": 350220
    },
    {
      "epoch": 0.7296458333333333,
      "grad_norm": 1.297192931175232,
      "learning_rate": 5.132934406839066e-05,
      "loss": 3.3912,
      "step": 350230
    },
    {
      "epoch": 0.7296666666666667,
      "grad_norm": 1.698580265045166,
      "learning_rate": 5.13219189285303e-05,
      "loss": 3.4932,
      "step": 350240
    },
    {
      "epoch": 0.7296875,
      "grad_norm": 1.303362488746643,
      "learning_rate": 5.1314494214920185e-05,
      "loss": 3.4958,
      "step": 350250
    },
    {
      "epoch": 0.7297083333333333,
      "grad_norm": 1.3477468490600586,
      "learning_rate": 5.1307069927592385e-05,
      "loss": 3.4978,
      "step": 350260
    },
    {
      "epoch": 0.7297291666666667,
      "grad_norm": 1.2825275659561157,
      "learning_rate": 5.1299646066578984e-05,
      "loss": 3.6163,
      "step": 350270
    },
    {
      "epoch": 0.72975,
      "grad_norm": 1.4579927921295166,
      "learning_rate": 5.129222263191206e-05,
      "loss": 3.3939,
      "step": 350280
    },
    {
      "epoch": 0.7297708333333334,
      "grad_norm": 1.3221197128295898,
      "learning_rate": 5.128479962362365e-05,
      "loss": 3.3287,
      "step": 350290
    },
    {
      "epoch": 0.7297916666666666,
      "grad_norm": 1.4777214527130127,
      "learning_rate": 5.127737704174583e-05,
      "loss": 3.4353,
      "step": 350300
    },
    {
      "epoch": 0.7298125,
      "grad_norm": 1.5093872547149658,
      "learning_rate": 5.126995488631066e-05,
      "loss": 3.432,
      "step": 350310
    },
    {
      "epoch": 0.7298333333333333,
      "grad_norm": 1.3801350593566895,
      "learning_rate": 5.126253315735021e-05,
      "loss": 3.4044,
      "step": 350320
    },
    {
      "epoch": 0.7298541666666667,
      "grad_norm": 1.379002332687378,
      "learning_rate": 5.1255111854896544e-05,
      "loss": 3.3508,
      "step": 350330
    },
    {
      "epoch": 0.729875,
      "grad_norm": 1.36885404586792,
      "learning_rate": 5.124769097898169e-05,
      "loss": 3.4231,
      "step": 350340
    },
    {
      "epoch": 0.7298958333333333,
      "grad_norm": 1.4638715982437134,
      "learning_rate": 5.124027052963774e-05,
      "loss": 3.5174,
      "step": 350350
    },
    {
      "epoch": 0.7299166666666667,
      "grad_norm": 1.429215908050537,
      "learning_rate": 5.123285050689677e-05,
      "loss": 3.4748,
      "step": 350360
    },
    {
      "epoch": 0.7299375,
      "grad_norm": 1.3878827095031738,
      "learning_rate": 5.12254309107907e-05,
      "loss": 3.5438,
      "step": 350370
    },
    {
      "epoch": 0.7299583333333334,
      "grad_norm": 1.4347777366638184,
      "learning_rate": 5.121801174135171e-05,
      "loss": 3.4172,
      "step": 350380
    },
    {
      "epoch": 0.7299791666666666,
      "grad_norm": 1.454737901687622,
      "learning_rate": 5.1210592998611864e-05,
      "loss": 3.5343,
      "step": 350390
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4447048902511597,
      "learning_rate": 5.1203174682603056e-05,
      "loss": 3.4688,
      "step": 350400
    },
    {
      "epoch": 0.7300208333333333,
      "grad_norm": 1.5016731023788452,
      "learning_rate": 5.119575679335747e-05,
      "loss": 3.6211,
      "step": 350410
    },
    {
      "epoch": 0.7300416666666667,
      "grad_norm": 1.2343465089797974,
      "learning_rate": 5.118833933090715e-05,
      "loss": 3.4595,
      "step": 350420
    },
    {
      "epoch": 0.7300625,
      "grad_norm": 1.2984696626663208,
      "learning_rate": 5.1180922295283997e-05,
      "loss": 3.4535,
      "step": 350430
    },
    {
      "epoch": 0.7300833333333333,
      "grad_norm": 1.4313323497772217,
      "learning_rate": 5.11735056865202e-05,
      "loss": 3.4991,
      "step": 350440
    },
    {
      "epoch": 0.7301041666666667,
      "grad_norm": 1.2571476697921753,
      "learning_rate": 5.116608950464779e-05,
      "loss": 3.2974,
      "step": 350450
    },
    {
      "epoch": 0.730125,
      "grad_norm": 1.3084728717803955,
      "learning_rate": 5.1158673749698644e-05,
      "loss": 3.5679,
      "step": 350460
    },
    {
      "epoch": 0.7301458333333334,
      "grad_norm": 1.3217788934707642,
      "learning_rate": 5.115125842170495e-05,
      "loss": 3.4683,
      "step": 350470
    },
    {
      "epoch": 0.7301666666666666,
      "grad_norm": 1.274098515510559,
      "learning_rate": 5.114384352069875e-05,
      "loss": 3.5777,
      "step": 350480
    },
    {
      "epoch": 0.7301875,
      "grad_norm": 1.496690034866333,
      "learning_rate": 5.113642904671192e-05,
      "loss": 3.468,
      "step": 350490
    },
    {
      "epoch": 0.7302083333333333,
      "grad_norm": 1.3040745258331299,
      "learning_rate": 5.1129014999776674e-05,
      "loss": 3.3921,
      "step": 350500
    },
    {
      "epoch": 0.7302291666666667,
      "grad_norm": 1.3329432010650635,
      "learning_rate": 5.112160137992491e-05,
      "loss": 3.3191,
      "step": 350510
    },
    {
      "epoch": 0.73025,
      "grad_norm": 1.4027291536331177,
      "learning_rate": 5.1114188187188637e-05,
      "loss": 3.4629,
      "step": 350520
    },
    {
      "epoch": 0.7302708333333333,
      "grad_norm": 1.4425785541534424,
      "learning_rate": 5.110677542160002e-05,
      "loss": 3.5071,
      "step": 350530
    },
    {
      "epoch": 0.7302916666666667,
      "grad_norm": 1.292460322380066,
      "learning_rate": 5.1099363083190934e-05,
      "loss": 3.5401,
      "step": 350540
    },
    {
      "epoch": 0.7303125,
      "grad_norm": 1.3816028833389282,
      "learning_rate": 5.1091951171993425e-05,
      "loss": 3.4684,
      "step": 350550
    },
    {
      "epoch": 0.7303333333333333,
      "grad_norm": 1.2913966178894043,
      "learning_rate": 5.1084539688039613e-05,
      "loss": 3.4243,
      "step": 350560
    },
    {
      "epoch": 0.7303541666666666,
      "grad_norm": 1.2622801065444946,
      "learning_rate": 5.1077128631361394e-05,
      "loss": 3.4483,
      "step": 350570
    },
    {
      "epoch": 0.730375,
      "grad_norm": 1.526445746421814,
      "learning_rate": 5.106971800199077e-05,
      "loss": 3.3996,
      "step": 350580
    },
    {
      "epoch": 0.7303958333333334,
      "grad_norm": 1.3981027603149414,
      "learning_rate": 5.106230779995992e-05,
      "loss": 3.4066,
      "step": 350590
    },
    {
      "epoch": 0.7304166666666667,
      "grad_norm": 1.329369068145752,
      "learning_rate": 5.105489802530067e-05,
      "loss": 3.4002,
      "step": 350600
    },
    {
      "epoch": 0.7304375,
      "grad_norm": 1.4799624681472778,
      "learning_rate": 5.104748867804506e-05,
      "loss": 3.3022,
      "step": 350610
    },
    {
      "epoch": 0.7304583333333333,
      "grad_norm": 1.2667399644851685,
      "learning_rate": 5.1040079758225224e-05,
      "loss": 3.6836,
      "step": 350620
    },
    {
      "epoch": 0.7304791666666667,
      "grad_norm": 1.3147321939468384,
      "learning_rate": 5.103267126587302e-05,
      "loss": 3.4851,
      "step": 350630
    },
    {
      "epoch": 0.7305,
      "grad_norm": 1.2674850225448608,
      "learning_rate": 5.10252632010205e-05,
      "loss": 3.5762,
      "step": 350640
    },
    {
      "epoch": 0.7305208333333333,
      "grad_norm": 1.2451685667037964,
      "learning_rate": 5.101785556369967e-05,
      "loss": 3.4749,
      "step": 350650
    },
    {
      "epoch": 0.7305416666666666,
      "grad_norm": 1.370482325553894,
      "learning_rate": 5.101044835394253e-05,
      "loss": 3.3664,
      "step": 350660
    },
    {
      "epoch": 0.7305625,
      "grad_norm": 1.3686431646347046,
      "learning_rate": 5.1003041571781065e-05,
      "loss": 3.3497,
      "step": 350670
    },
    {
      "epoch": 0.7305833333333334,
      "grad_norm": 1.2772701978683472,
      "learning_rate": 5.0995635217247274e-05,
      "loss": 3.4729,
      "step": 350680
    },
    {
      "epoch": 0.7306041666666667,
      "grad_norm": 1.2592633962631226,
      "learning_rate": 5.0988229290373154e-05,
      "loss": 3.3548,
      "step": 350690
    },
    {
      "epoch": 0.730625,
      "grad_norm": 1.2908668518066406,
      "learning_rate": 5.098082379119069e-05,
      "loss": 3.4135,
      "step": 350700
    },
    {
      "epoch": 0.7306458333333333,
      "grad_norm": 1.3142685890197754,
      "learning_rate": 5.097341871973187e-05,
      "loss": 3.4986,
      "step": 350710
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 1.6001942157745361,
      "learning_rate": 5.096601407602868e-05,
      "loss": 3.4533,
      "step": 350720
    },
    {
      "epoch": 0.7306875,
      "grad_norm": 1.4408262968063354,
      "learning_rate": 5.095860986011316e-05,
      "loss": 3.3444,
      "step": 350730
    },
    {
      "epoch": 0.7307083333333333,
      "grad_norm": 1.3731110095977783,
      "learning_rate": 5.095120607201715e-05,
      "loss": 3.5077,
      "step": 350740
    },
    {
      "epoch": 0.7307291666666667,
      "grad_norm": 1.230786681175232,
      "learning_rate": 5.094380271177277e-05,
      "loss": 3.4571,
      "step": 350750
    },
    {
      "epoch": 0.73075,
      "grad_norm": 1.869993805885315,
      "learning_rate": 5.0936399779411996e-05,
      "loss": 3.4163,
      "step": 350760
    },
    {
      "epoch": 0.7307708333333334,
      "grad_norm": 1.508529782295227,
      "learning_rate": 5.092899727496668e-05,
      "loss": 3.4177,
      "step": 350770
    },
    {
      "epoch": 0.7307916666666666,
      "grad_norm": 1.6684192419052124,
      "learning_rate": 5.092159519846892e-05,
      "loss": 3.64,
      "step": 350780
    },
    {
      "epoch": 0.7308125,
      "grad_norm": 1.5235356092453003,
      "learning_rate": 5.091419354995069e-05,
      "loss": 3.4684,
      "step": 350790
    },
    {
      "epoch": 0.7308333333333333,
      "grad_norm": 1.412797212600708,
      "learning_rate": 5.090679232944383e-05,
      "loss": 3.3854,
      "step": 350800
    },
    {
      "epoch": 0.7308541666666667,
      "grad_norm": 1.2480021715164185,
      "learning_rate": 5.0899391536980465e-05,
      "loss": 3.4955,
      "step": 350810
    },
    {
      "epoch": 0.730875,
      "grad_norm": 1.3760355710983276,
      "learning_rate": 5.089199117259255e-05,
      "loss": 3.6723,
      "step": 350820
    },
    {
      "epoch": 0.7308958333333333,
      "grad_norm": 1.3337799310684204,
      "learning_rate": 5.088459123631189e-05,
      "loss": 3.3879,
      "step": 350830
    },
    {
      "epoch": 0.7309166666666667,
      "grad_norm": 1.3631664514541626,
      "learning_rate": 5.0877191728170626e-05,
      "loss": 3.3009,
      "step": 350840
    },
    {
      "epoch": 0.7309375,
      "grad_norm": 1.6175271272659302,
      "learning_rate": 5.0869792648200694e-05,
      "loss": 3.5083,
      "step": 350850
    },
    {
      "epoch": 0.7309583333333334,
      "grad_norm": 1.2786991596221924,
      "learning_rate": 5.086239399643393e-05,
      "loss": 3.385,
      "step": 350860
    },
    {
      "epoch": 0.7309791666666666,
      "grad_norm": 1.3373786211013794,
      "learning_rate": 5.085499577290249e-05,
      "loss": 3.5607,
      "step": 350870
    },
    {
      "epoch": 0.731,
      "grad_norm": 1.3707714080810547,
      "learning_rate": 5.084759797763816e-05,
      "loss": 3.3758,
      "step": 350880
    },
    {
      "epoch": 0.7310208333333333,
      "grad_norm": 1.3251253366470337,
      "learning_rate": 5.084020061067292e-05,
      "loss": 3.5434,
      "step": 350890
    },
    {
      "epoch": 0.7310416666666667,
      "grad_norm": 1.4318761825561523,
      "learning_rate": 5.083280367203884e-05,
      "loss": 3.4561,
      "step": 350900
    },
    {
      "epoch": 0.7310625,
      "grad_norm": 1.4834128618240356,
      "learning_rate": 5.0825407161767764e-05,
      "loss": 3.5695,
      "step": 350910
    },
    {
      "epoch": 0.7310833333333333,
      "grad_norm": 1.4059206247329712,
      "learning_rate": 5.0818011079891616e-05,
      "loss": 3.3826,
      "step": 350920
    },
    {
      "epoch": 0.7311041666666667,
      "grad_norm": 1.3612700700759888,
      "learning_rate": 5.081061542644252e-05,
      "loss": 3.4806,
      "step": 350930
    },
    {
      "epoch": 0.731125,
      "grad_norm": 1.451371669769287,
      "learning_rate": 5.080322020145224e-05,
      "loss": 3.4059,
      "step": 350940
    },
    {
      "epoch": 0.7311458333333334,
      "grad_norm": 1.5982378721237183,
      "learning_rate": 5.0795825404952785e-05,
      "loss": 3.4568,
      "step": 350950
    },
    {
      "epoch": 0.7311666666666666,
      "grad_norm": 1.340861439704895,
      "learning_rate": 5.078843103697609e-05,
      "loss": 3.3885,
      "step": 350960
    },
    {
      "epoch": 0.7311875,
      "grad_norm": 1.407909631729126,
      "learning_rate": 5.07810370975541e-05,
      "loss": 3.5597,
      "step": 350970
    },
    {
      "epoch": 0.7312083333333333,
      "grad_norm": 1.2830002307891846,
      "learning_rate": 5.077364358671877e-05,
      "loss": 3.523,
      "step": 350980
    },
    {
      "epoch": 0.7312291666666667,
      "grad_norm": 1.2830923795700073,
      "learning_rate": 5.076625050450202e-05,
      "loss": 3.4951,
      "step": 350990
    },
    {
      "epoch": 0.73125,
      "grad_norm": 1.6110014915466309,
      "learning_rate": 5.075885785093577e-05,
      "loss": 3.4522,
      "step": 351000
    },
    {
      "epoch": 0.73125,
      "eval_loss": 3.542975902557373,
      "eval_runtime": 7.3086,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 351000
    },
    {
      "epoch": 0.7312708333333333,
      "grad_norm": 1.5773006677627563,
      "learning_rate": 5.075146562605199e-05,
      "loss": 3.5645,
      "step": 351010
    },
    {
      "epoch": 0.7312916666666667,
      "grad_norm": 1.3151144981384277,
      "learning_rate": 5.0744073829882604e-05,
      "loss": 3.4035,
      "step": 351020
    },
    {
      "epoch": 0.7313125,
      "grad_norm": 1.488659381866455,
      "learning_rate": 5.073668246245951e-05,
      "loss": 3.4274,
      "step": 351030
    },
    {
      "epoch": 0.7313333333333333,
      "grad_norm": 1.296265721321106,
      "learning_rate": 5.0729291523814666e-05,
      "loss": 3.574,
      "step": 351040
    },
    {
      "epoch": 0.7313541666666666,
      "grad_norm": 1.3795640468597412,
      "learning_rate": 5.072190101397999e-05,
      "loss": 3.4153,
      "step": 351050
    },
    {
      "epoch": 0.731375,
      "grad_norm": 1.3633501529693604,
      "learning_rate": 5.07145109329874e-05,
      "loss": 3.5904,
      "step": 351060
    },
    {
      "epoch": 0.7313958333333334,
      "grad_norm": 1.2283283472061157,
      "learning_rate": 5.070712128086882e-05,
      "loss": 3.4965,
      "step": 351070
    },
    {
      "epoch": 0.7314166666666667,
      "grad_norm": 1.478190302848816,
      "learning_rate": 5.069973205765618e-05,
      "loss": 3.3712,
      "step": 351080
    },
    {
      "epoch": 0.7314375,
      "grad_norm": 2.017984628677368,
      "learning_rate": 5.069234326338139e-05,
      "loss": 3.5203,
      "step": 351090
    },
    {
      "epoch": 0.7314583333333333,
      "grad_norm": 1.4789115190505981,
      "learning_rate": 5.0684954898076414e-05,
      "loss": 3.604,
      "step": 351100
    },
    {
      "epoch": 0.7314791666666667,
      "grad_norm": 1.4451323747634888,
      "learning_rate": 5.067756696177302e-05,
      "loss": 3.537,
      "step": 351110
    },
    {
      "epoch": 0.7315,
      "grad_norm": 1.3111896514892578,
      "learning_rate": 5.067017945450329e-05,
      "loss": 3.6048,
      "step": 351120
    },
    {
      "epoch": 0.7315208333333333,
      "grad_norm": 1.3188433647155762,
      "learning_rate": 5.06627923762991e-05,
      "loss": 3.3986,
      "step": 351130
    },
    {
      "epoch": 0.7315416666666666,
      "grad_norm": 1.21588134765625,
      "learning_rate": 5.065540572719222e-05,
      "loss": 3.4987,
      "step": 351140
    },
    {
      "epoch": 0.7315625,
      "grad_norm": 1.2478069067001343,
      "learning_rate": 5.0648019507214725e-05,
      "loss": 3.4945,
      "step": 351150
    },
    {
      "epoch": 0.7315833333333334,
      "grad_norm": 1.2879996299743652,
      "learning_rate": 5.0640633716398506e-05,
      "loss": 3.4201,
      "step": 351160
    },
    {
      "epoch": 0.7316041666666667,
      "grad_norm": 1.3052773475646973,
      "learning_rate": 5.063324835477533e-05,
      "loss": 3.4476,
      "step": 351170
    },
    {
      "epoch": 0.731625,
      "grad_norm": 1.554586410522461,
      "learning_rate": 5.0625863422377226e-05,
      "loss": 3.3919,
      "step": 351180
    },
    {
      "epoch": 0.7316458333333333,
      "grad_norm": 1.2882862091064453,
      "learning_rate": 5.061847891923612e-05,
      "loss": 3.4282,
      "step": 351190
    },
    {
      "epoch": 0.7316666666666667,
      "grad_norm": 1.362090826034546,
      "learning_rate": 5.061109484538374e-05,
      "loss": 3.4064,
      "step": 351200
    },
    {
      "epoch": 0.7316875,
      "grad_norm": 1.367573857307434,
      "learning_rate": 5.0603711200852133e-05,
      "loss": 3.4312,
      "step": 351210
    },
    {
      "epoch": 0.7317083333333333,
      "grad_norm": 1.3347058296203613,
      "learning_rate": 5.0596327985673216e-05,
      "loss": 3.4252,
      "step": 351220
    },
    {
      "epoch": 0.7317291666666667,
      "grad_norm": 1.2664861679077148,
      "learning_rate": 5.058894519987876e-05,
      "loss": 3.4525,
      "step": 351230
    },
    {
      "epoch": 0.73175,
      "grad_norm": 1.6472781896591187,
      "learning_rate": 5.05815628435007e-05,
      "loss": 3.4627,
      "step": 351240
    },
    {
      "epoch": 0.7317708333333334,
      "grad_norm": 1.4988353252410889,
      "learning_rate": 5.057418091657094e-05,
      "loss": 3.4295,
      "step": 351250
    },
    {
      "epoch": 0.7317916666666666,
      "grad_norm": 1.2725908756256104,
      "learning_rate": 5.0566799419121364e-05,
      "loss": 3.4978,
      "step": 351260
    },
    {
      "epoch": 0.7318125,
      "grad_norm": 1.3597846031188965,
      "learning_rate": 5.055941835118386e-05,
      "loss": 3.3728,
      "step": 351270
    },
    {
      "epoch": 0.7318333333333333,
      "grad_norm": 1.5644015073776245,
      "learning_rate": 5.0552037712790295e-05,
      "loss": 3.4114,
      "step": 351280
    },
    {
      "epoch": 0.7318541666666667,
      "grad_norm": 1.3198692798614502,
      "learning_rate": 5.054465750397258e-05,
      "loss": 3.5731,
      "step": 351290
    },
    {
      "epoch": 0.731875,
      "grad_norm": 1.4634183645248413,
      "learning_rate": 5.0537277724762574e-05,
      "loss": 3.4455,
      "step": 351300
    },
    {
      "epoch": 0.7318958333333333,
      "grad_norm": 1.4840952157974243,
      "learning_rate": 5.052989837519216e-05,
      "loss": 3.5999,
      "step": 351310
    },
    {
      "epoch": 0.7319166666666667,
      "grad_norm": 1.1999592781066895,
      "learning_rate": 5.05225194552932e-05,
      "loss": 3.3867,
      "step": 351320
    },
    {
      "epoch": 0.7319375,
      "grad_norm": 1.5289231538772583,
      "learning_rate": 5.0515140965097586e-05,
      "loss": 3.375,
      "step": 351330
    },
    {
      "epoch": 0.7319583333333334,
      "grad_norm": 1.2743849754333496,
      "learning_rate": 5.050776290463719e-05,
      "loss": 3.5146,
      "step": 351340
    },
    {
      "epoch": 0.7319791666666666,
      "grad_norm": 1.878860592842102,
      "learning_rate": 5.050038527394386e-05,
      "loss": 3.4022,
      "step": 351350
    },
    {
      "epoch": 0.732,
      "grad_norm": 1.4691499471664429,
      "learning_rate": 5.04930080730495e-05,
      "loss": 3.3575,
      "step": 351360
    },
    {
      "epoch": 0.7320208333333333,
      "grad_norm": 1.599153995513916,
      "learning_rate": 5.048563130198595e-05,
      "loss": 3.5252,
      "step": 351370
    },
    {
      "epoch": 0.7320416666666667,
      "grad_norm": 1.3373361825942993,
      "learning_rate": 5.047825496078507e-05,
      "loss": 3.3296,
      "step": 351380
    },
    {
      "epoch": 0.7320625,
      "grad_norm": 1.3198490142822266,
      "learning_rate": 5.047087904947876e-05,
      "loss": 3.4644,
      "step": 351390
    },
    {
      "epoch": 0.7320833333333333,
      "grad_norm": 1.3423086404800415,
      "learning_rate": 5.046350356809884e-05,
      "loss": 3.4546,
      "step": 351400
    },
    {
      "epoch": 0.7321041666666667,
      "grad_norm": 1.2982896566390991,
      "learning_rate": 5.045612851667719e-05,
      "loss": 3.3869,
      "step": 351410
    },
    {
      "epoch": 0.732125,
      "grad_norm": 1.3228144645690918,
      "learning_rate": 5.044875389524565e-05,
      "loss": 3.3564,
      "step": 351420
    },
    {
      "epoch": 0.7321458333333334,
      "grad_norm": 1.29776930809021,
      "learning_rate": 5.04413797038361e-05,
      "loss": 3.4949,
      "step": 351430
    },
    {
      "epoch": 0.7321666666666666,
      "grad_norm": 1.687990665435791,
      "learning_rate": 5.0434005942480386e-05,
      "loss": 3.3229,
      "step": 351440
    },
    {
      "epoch": 0.7321875,
      "grad_norm": 1.539243459701538,
      "learning_rate": 5.0426632611210345e-05,
      "loss": 3.334,
      "step": 351450
    },
    {
      "epoch": 0.7322083333333333,
      "grad_norm": 1.4838826656341553,
      "learning_rate": 5.041925971005784e-05,
      "loss": 3.5499,
      "step": 351460
    },
    {
      "epoch": 0.7322291666666667,
      "grad_norm": 1.384584903717041,
      "learning_rate": 5.041188723905472e-05,
      "loss": 3.4812,
      "step": 351470
    },
    {
      "epoch": 0.73225,
      "grad_norm": 2.7630813121795654,
      "learning_rate": 5.0404515198232845e-05,
      "loss": 3.4174,
      "step": 351480
    },
    {
      "epoch": 0.7322708333333333,
      "grad_norm": 1.3762925863265991,
      "learning_rate": 5.0397143587624015e-05,
      "loss": 3.4117,
      "step": 351490
    },
    {
      "epoch": 0.7322916666666667,
      "grad_norm": 1.3117592334747314,
      "learning_rate": 5.0389772407260156e-05,
      "loss": 3.4325,
      "step": 351500
    },
    {
      "epoch": 0.7323125,
      "grad_norm": 1.3734514713287354,
      "learning_rate": 5.038240165717294e-05,
      "loss": 3.3993,
      "step": 351510
    },
    {
      "epoch": 0.7323333333333333,
      "grad_norm": 1.2915173768997192,
      "learning_rate": 5.037503133739439e-05,
      "loss": 3.5624,
      "step": 351520
    },
    {
      "epoch": 0.7323541666666666,
      "grad_norm": 1.3679395914077759,
      "learning_rate": 5.036766144795632e-05,
      "loss": 3.5112,
      "step": 351530
    },
    {
      "epoch": 0.732375,
      "grad_norm": 1.2925187349319458,
      "learning_rate": 5.036029198889044e-05,
      "loss": 3.372,
      "step": 351540
    },
    {
      "epoch": 0.7323958333333334,
      "grad_norm": 1.375298023223877,
      "learning_rate": 5.035292296022864e-05,
      "loss": 3.4145,
      "step": 351550
    },
    {
      "epoch": 0.7324166666666667,
      "grad_norm": 1.4935299158096313,
      "learning_rate": 5.034555436200285e-05,
      "loss": 3.454,
      "step": 351560
    },
    {
      "epoch": 0.7324375,
      "grad_norm": 1.2133477926254272,
      "learning_rate": 5.0338186194244774e-05,
      "loss": 3.3835,
      "step": 351570
    },
    {
      "epoch": 0.7324583333333333,
      "grad_norm": 1.4543883800506592,
      "learning_rate": 5.0330818456986234e-05,
      "loss": 3.3546,
      "step": 351580
    },
    {
      "epoch": 0.7324791666666667,
      "grad_norm": 1.46089506149292,
      "learning_rate": 5.0323451150259206e-05,
      "loss": 3.4738,
      "step": 351590
    },
    {
      "epoch": 0.7325,
      "grad_norm": 1.3178871870040894,
      "learning_rate": 5.0316084274095356e-05,
      "loss": 3.5368,
      "step": 351600
    },
    {
      "epoch": 0.7325208333333333,
      "grad_norm": 1.3789490461349487,
      "learning_rate": 5.0308717828526526e-05,
      "loss": 3.2508,
      "step": 351610
    },
    {
      "epoch": 0.7325416666666666,
      "grad_norm": 1.5364936590194702,
      "learning_rate": 5.030135181358467e-05,
      "loss": 3.5096,
      "step": 351620
    },
    {
      "epoch": 0.7325625,
      "grad_norm": 1.5846549272537231,
      "learning_rate": 5.0293986229301466e-05,
      "loss": 3.4441,
      "step": 351630
    },
    {
      "epoch": 0.7325833333333334,
      "grad_norm": 1.265851378440857,
      "learning_rate": 5.028662107570877e-05,
      "loss": 3.5937,
      "step": 351640
    },
    {
      "epoch": 0.7326041666666666,
      "grad_norm": 1.25198233127594,
      "learning_rate": 5.02792563528384e-05,
      "loss": 3.3738,
      "step": 351650
    },
    {
      "epoch": 0.732625,
      "grad_norm": 1.5364971160888672,
      "learning_rate": 5.0271892060722166e-05,
      "loss": 3.5665,
      "step": 351660
    },
    {
      "epoch": 0.7326458333333333,
      "grad_norm": 1.2719453573226929,
      "learning_rate": 5.0264528199391904e-05,
      "loss": 3.5514,
      "step": 351670
    },
    {
      "epoch": 0.7326666666666667,
      "grad_norm": 1.3614927530288696,
      "learning_rate": 5.025716476887939e-05,
      "loss": 3.5206,
      "step": 351680
    },
    {
      "epoch": 0.7326875,
      "grad_norm": 1.2582892179489136,
      "learning_rate": 5.0249801769216434e-05,
      "loss": 3.3782,
      "step": 351690
    },
    {
      "epoch": 0.7327083333333333,
      "grad_norm": 1.5978955030441284,
      "learning_rate": 5.024243920043486e-05,
      "loss": 3.3738,
      "step": 351700
    },
    {
      "epoch": 0.7327291666666667,
      "grad_norm": 1.4194109439849854,
      "learning_rate": 5.023507706256647e-05,
      "loss": 3.6143,
      "step": 351710
    },
    {
      "epoch": 0.73275,
      "grad_norm": 1.449919581413269,
      "learning_rate": 5.022771535564305e-05,
      "loss": 3.3326,
      "step": 351720
    },
    {
      "epoch": 0.7327708333333334,
      "grad_norm": 1.3329591751098633,
      "learning_rate": 5.022035407969639e-05,
      "loss": 3.4652,
      "step": 351730
    },
    {
      "epoch": 0.7327916666666666,
      "grad_norm": 1.2675360441207886,
      "learning_rate": 5.021299323475833e-05,
      "loss": 3.312,
      "step": 351740
    },
    {
      "epoch": 0.7328125,
      "grad_norm": 1.4326683282852173,
      "learning_rate": 5.0205632820860625e-05,
      "loss": 3.3981,
      "step": 351750
    },
    {
      "epoch": 0.7328333333333333,
      "grad_norm": 1.4033455848693848,
      "learning_rate": 5.01982728380351e-05,
      "loss": 3.5538,
      "step": 351760
    },
    {
      "epoch": 0.7328541666666667,
      "grad_norm": 1.3135569095611572,
      "learning_rate": 5.0190913286313504e-05,
      "loss": 3.4437,
      "step": 351770
    },
    {
      "epoch": 0.732875,
      "grad_norm": 1.3865724802017212,
      "learning_rate": 5.018355416572769e-05,
      "loss": 3.2913,
      "step": 351780
    },
    {
      "epoch": 0.7328958333333333,
      "grad_norm": 1.4126287698745728,
      "learning_rate": 5.01761954763094e-05,
      "loss": 3.5756,
      "step": 351790
    },
    {
      "epoch": 0.7329166666666667,
      "grad_norm": 1.2855514287948608,
      "learning_rate": 5.0168837218090426e-05,
      "loss": 3.3957,
      "step": 351800
    },
    {
      "epoch": 0.7329375,
      "grad_norm": 1.3864601850509644,
      "learning_rate": 5.0161479391102556e-05,
      "loss": 3.4511,
      "step": 351810
    },
    {
      "epoch": 0.7329583333333334,
      "grad_norm": 1.4701688289642334,
      "learning_rate": 5.015412199537763e-05,
      "loss": 3.5314,
      "step": 351820
    },
    {
      "epoch": 0.7329791666666666,
      "grad_norm": 1.4311591386795044,
      "learning_rate": 5.014676503094727e-05,
      "loss": 3.5053,
      "step": 351830
    },
    {
      "epoch": 0.733,
      "grad_norm": 1.4494229555130005,
      "learning_rate": 5.0139408497843417e-05,
      "loss": 3.4797,
      "step": 351840
    },
    {
      "epoch": 0.7330208333333333,
      "grad_norm": 1.2751173973083496,
      "learning_rate": 5.0132052396097844e-05,
      "loss": 3.3696,
      "step": 351850
    },
    {
      "epoch": 0.7330416666666667,
      "grad_norm": 1.3963546752929688,
      "learning_rate": 5.012469672574218e-05,
      "loss": 3.3142,
      "step": 351860
    },
    {
      "epoch": 0.7330625,
      "grad_norm": 1.4754064083099365,
      "learning_rate": 5.011734148680838e-05,
      "loss": 3.4681,
      "step": 351870
    },
    {
      "epoch": 0.7330833333333333,
      "grad_norm": 1.5412287712097168,
      "learning_rate": 5.010998667932809e-05,
      "loss": 3.4954,
      "step": 351880
    },
    {
      "epoch": 0.7331041666666667,
      "grad_norm": 1.3562954664230347,
      "learning_rate": 5.010263230333306e-05,
      "loss": 3.4679,
      "step": 351890
    },
    {
      "epoch": 0.733125,
      "grad_norm": 1.3301162719726562,
      "learning_rate": 5.0095278358855206e-05,
      "loss": 3.5458,
      "step": 351900
    },
    {
      "epoch": 0.7331458333333334,
      "grad_norm": 1.480996012687683,
      "learning_rate": 5.008792484592618e-05,
      "loss": 3.4895,
      "step": 351910
    },
    {
      "epoch": 0.7331666666666666,
      "grad_norm": 1.2725725173950195,
      "learning_rate": 5.0080571764577695e-05,
      "loss": 3.5403,
      "step": 351920
    },
    {
      "epoch": 0.7331875,
      "grad_norm": 1.254486322402954,
      "learning_rate": 5.00732191148417e-05,
      "loss": 3.3929,
      "step": 351930
    },
    {
      "epoch": 0.7332083333333334,
      "grad_norm": 1.3282965421676636,
      "learning_rate": 5.0065866896749795e-05,
      "loss": 3.4502,
      "step": 351940
    },
    {
      "epoch": 0.7332291666666667,
      "grad_norm": 1.711745262145996,
      "learning_rate": 5.005851511033375e-05,
      "loss": 3.615,
      "step": 351950
    },
    {
      "epoch": 0.73325,
      "grad_norm": 1.3753910064697266,
      "learning_rate": 5.0051163755625446e-05,
      "loss": 3.4533,
      "step": 351960
    },
    {
      "epoch": 0.7332708333333333,
      "grad_norm": 1.382996678352356,
      "learning_rate": 5.00438128326565e-05,
      "loss": 3.4049,
      "step": 351970
    },
    {
      "epoch": 0.7332916666666667,
      "grad_norm": 1.5736589431762695,
      "learning_rate": 5.003646234145867e-05,
      "loss": 3.4904,
      "step": 351980
    },
    {
      "epoch": 0.7333125,
      "grad_norm": 1.433235764503479,
      "learning_rate": 5.0029112282063873e-05,
      "loss": 3.5221,
      "step": 351990
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 1.4631659984588623,
      "learning_rate": 5.002176265450367e-05,
      "loss": 3.5327,
      "step": 352000
    },
    {
      "epoch": 0.7333333333333333,
      "eval_loss": 3.5428454875946045,
      "eval_runtime": 6.859,
      "eval_samples_per_second": 1.458,
      "eval_steps_per_second": 0.437,
      "step": 352000
    },
    {
      "epoch": 0.7333541666666666,
      "grad_norm": 1.3975934982299805,
      "learning_rate": 5.001441345880988e-05,
      "loss": 3.4546,
      "step": 352010
    },
    {
      "epoch": 0.733375,
      "grad_norm": 1.4928781986236572,
      "learning_rate": 5.000706469501424e-05,
      "loss": 3.4699,
      "step": 352020
    },
    {
      "epoch": 0.7333958333333334,
      "grad_norm": 1.376494288444519,
      "learning_rate": 4.999971636314851e-05,
      "loss": 3.3533,
      "step": 352030
    },
    {
      "epoch": 0.7334166666666667,
      "grad_norm": 1.4478939771652222,
      "learning_rate": 4.999236846324443e-05,
      "loss": 3.5714,
      "step": 352040
    },
    {
      "epoch": 0.7334375,
      "grad_norm": 1.4166311025619507,
      "learning_rate": 4.9985020995333723e-05,
      "loss": 3.3807,
      "step": 352050
    },
    {
      "epoch": 0.7334583333333333,
      "grad_norm": 1.337550401687622,
      "learning_rate": 4.997767395944813e-05,
      "loss": 3.3401,
      "step": 352060
    },
    {
      "epoch": 0.7334791666666667,
      "grad_norm": 1.267357587814331,
      "learning_rate": 4.9970327355619416e-05,
      "loss": 3.5848,
      "step": 352070
    },
    {
      "epoch": 0.7335,
      "grad_norm": 1.32797110080719,
      "learning_rate": 4.996298118387928e-05,
      "loss": 3.3272,
      "step": 352080
    },
    {
      "epoch": 0.7335208333333333,
      "grad_norm": 1.3194538354873657,
      "learning_rate": 4.9955635444259466e-05,
      "loss": 3.499,
      "step": 352090
    },
    {
      "epoch": 0.7335416666666666,
      "grad_norm": 1.3917361497879028,
      "learning_rate": 4.9948290136791705e-05,
      "loss": 3.5394,
      "step": 352100
    },
    {
      "epoch": 0.7335625,
      "grad_norm": 1.3219850063323975,
      "learning_rate": 4.9940945261507726e-05,
      "loss": 3.3725,
      "step": 352110
    },
    {
      "epoch": 0.7335833333333334,
      "grad_norm": 1.3081214427947998,
      "learning_rate": 4.993360081843926e-05,
      "loss": 3.4547,
      "step": 352120
    },
    {
      "epoch": 0.7336041666666666,
      "grad_norm": 1.3674193620681763,
      "learning_rate": 4.992625680761809e-05,
      "loss": 3.5715,
      "step": 352130
    },
    {
      "epoch": 0.733625,
      "grad_norm": 1.365020990371704,
      "learning_rate": 4.991891322907576e-05,
      "loss": 3.3596,
      "step": 352140
    },
    {
      "epoch": 0.7336458333333333,
      "grad_norm": 1.401827096939087,
      "learning_rate": 4.991157008284417e-05,
      "loss": 3.443,
      "step": 352150
    },
    {
      "epoch": 0.7336666666666667,
      "grad_norm": 1.3862056732177734,
      "learning_rate": 4.990422736895503e-05,
      "loss": 3.4687,
      "step": 352160
    },
    {
      "epoch": 0.7336875,
      "grad_norm": 1.3113538026809692,
      "learning_rate": 4.989688508743991e-05,
      "loss": 3.4562,
      "step": 352170
    },
    {
      "epoch": 0.7337083333333333,
      "grad_norm": 1.3977771997451782,
      "learning_rate": 4.988954323833066e-05,
      "loss": 3.3521,
      "step": 352180
    },
    {
      "epoch": 0.7337291666666667,
      "grad_norm": 1.6477692127227783,
      "learning_rate": 4.988220182165903e-05,
      "loss": 3.5221,
      "step": 352190
    },
    {
      "epoch": 0.73375,
      "grad_norm": 1.420081377029419,
      "learning_rate": 4.9874860837456545e-05,
      "loss": 3.3254,
      "step": 352200
    },
    {
      "epoch": 0.7337708333333334,
      "grad_norm": 1.5005003213882446,
      "learning_rate": 4.9867520285755074e-05,
      "loss": 3.5051,
      "step": 352210
    },
    {
      "epoch": 0.7337916666666666,
      "grad_norm": 1.606273889541626,
      "learning_rate": 4.9860180166586335e-05,
      "loss": 3.4404,
      "step": 352220
    },
    {
      "epoch": 0.7338125,
      "grad_norm": 1.4921997785568237,
      "learning_rate": 4.985284047998187e-05,
      "loss": 3.2948,
      "step": 352230
    },
    {
      "epoch": 0.7338333333333333,
      "grad_norm": 1.4832231998443604,
      "learning_rate": 4.984550122597361e-05,
      "loss": 3.4913,
      "step": 352240
    },
    {
      "epoch": 0.7338541666666667,
      "grad_norm": 1.3809890747070312,
      "learning_rate": 4.983816240459308e-05,
      "loss": 3.331,
      "step": 352250
    },
    {
      "epoch": 0.733875,
      "grad_norm": 1.5353927612304688,
      "learning_rate": 4.983082401587199e-05,
      "loss": 3.3339,
      "step": 352260
    },
    {
      "epoch": 0.7338958333333333,
      "grad_norm": 1.3506102561950684,
      "learning_rate": 4.98234860598422e-05,
      "loss": 3.5269,
      "step": 352270
    },
    {
      "epoch": 0.7339166666666667,
      "grad_norm": 1.3584020137786865,
      "learning_rate": 4.981614853653525e-05,
      "loss": 3.3662,
      "step": 352280
    },
    {
      "epoch": 0.7339375,
      "grad_norm": 1.3962452411651611,
      "learning_rate": 4.9808811445982816e-05,
      "loss": 3.5146,
      "step": 352290
    },
    {
      "epoch": 0.7339583333333334,
      "grad_norm": 1.3898593187332153,
      "learning_rate": 4.980147478821677e-05,
      "loss": 3.397,
      "step": 352300
    },
    {
      "epoch": 0.7339791666666666,
      "grad_norm": 1.5326850414276123,
      "learning_rate": 4.9794138563268645e-05,
      "loss": 3.5117,
      "step": 352310
    },
    {
      "epoch": 0.734,
      "grad_norm": 1.327526569366455,
      "learning_rate": 4.978680277117012e-05,
      "loss": 3.2596,
      "step": 352320
    },
    {
      "epoch": 0.7340208333333333,
      "grad_norm": 1.2829307317733765,
      "learning_rate": 4.977946741195305e-05,
      "loss": 3.5663,
      "step": 352330
    },
    {
      "epoch": 0.7340416666666667,
      "grad_norm": 1.3663302659988403,
      "learning_rate": 4.977213248564894e-05,
      "loss": 3.5274,
      "step": 352340
    },
    {
      "epoch": 0.7340625,
      "grad_norm": 1.4143890142440796,
      "learning_rate": 4.97647979922895e-05,
      "loss": 3.4504,
      "step": 352350
    },
    {
      "epoch": 0.7340833333333333,
      "grad_norm": 1.4662995338439941,
      "learning_rate": 4.975746393190657e-05,
      "loss": 3.4269,
      "step": 352360
    },
    {
      "epoch": 0.7341041666666667,
      "grad_norm": 1.3063538074493408,
      "learning_rate": 4.975013030453166e-05,
      "loss": 3.3778,
      "step": 352370
    },
    {
      "epoch": 0.734125,
      "grad_norm": 1.2687302827835083,
      "learning_rate": 4.9742797110196506e-05,
      "loss": 3.4272,
      "step": 352380
    },
    {
      "epoch": 0.7341458333333334,
      "grad_norm": 1.27938711643219,
      "learning_rate": 4.973546434893278e-05,
      "loss": 3.258,
      "step": 352390
    },
    {
      "epoch": 0.7341666666666666,
      "grad_norm": 1.4958860874176025,
      "learning_rate": 4.9728132020772165e-05,
      "loss": 3.3887,
      "step": 352400
    },
    {
      "epoch": 0.7341875,
      "grad_norm": 1.5901316404342651,
      "learning_rate": 4.9720800125746344e-05,
      "loss": 3.3758,
      "step": 352410
    },
    {
      "epoch": 0.7342083333333334,
      "grad_norm": 1.4185271263122559,
      "learning_rate": 4.971346866388695e-05,
      "loss": 3.4542,
      "step": 352420
    },
    {
      "epoch": 0.7342291666666667,
      "grad_norm": 1.3858307600021362,
      "learning_rate": 4.9706137635225674e-05,
      "loss": 3.4472,
      "step": 352430
    },
    {
      "epoch": 0.73425,
      "grad_norm": 1.3662079572677612,
      "learning_rate": 4.9698807039794196e-05,
      "loss": 3.5388,
      "step": 352440
    },
    {
      "epoch": 0.7342708333333333,
      "grad_norm": 1.2558175325393677,
      "learning_rate": 4.969147687762416e-05,
      "loss": 3.5471,
      "step": 352450
    },
    {
      "epoch": 0.7342916666666667,
      "grad_norm": 1.2391088008880615,
      "learning_rate": 4.968414714874727e-05,
      "loss": 3.4245,
      "step": 352460
    },
    {
      "epoch": 0.7343125,
      "grad_norm": 1.3245501518249512,
      "learning_rate": 4.967681785319513e-05,
      "loss": 3.4265,
      "step": 352470
    },
    {
      "epoch": 0.7343333333333333,
      "grad_norm": 1.619934320449829,
      "learning_rate": 4.966948899099942e-05,
      "loss": 3.4437,
      "step": 352480
    },
    {
      "epoch": 0.7343541666666666,
      "grad_norm": 1.409273624420166,
      "learning_rate": 4.966216056219181e-05,
      "loss": 3.5158,
      "step": 352490
    },
    {
      "epoch": 0.734375,
      "grad_norm": 1.2187284231185913,
      "learning_rate": 4.9654832566804e-05,
      "loss": 3.5751,
      "step": 352500
    },
    {
      "epoch": 0.7343958333333334,
      "grad_norm": 1.4669281244277954,
      "learning_rate": 4.964750500486751e-05,
      "loss": 3.4416,
      "step": 352510
    },
    {
      "epoch": 0.7344166666666667,
      "grad_norm": 1.4002737998962402,
      "learning_rate": 4.9640177876414104e-05,
      "loss": 3.55,
      "step": 352520
    },
    {
      "epoch": 0.7344375,
      "grad_norm": 1.443100094795227,
      "learning_rate": 4.963285118147546e-05,
      "loss": 3.4283,
      "step": 352530
    },
    {
      "epoch": 0.7344583333333333,
      "grad_norm": 1.2769436836242676,
      "learning_rate": 4.9625524920083075e-05,
      "loss": 3.2617,
      "step": 352540
    },
    {
      "epoch": 0.7344791666666667,
      "grad_norm": 1.3364521265029907,
      "learning_rate": 4.961819909226875e-05,
      "loss": 3.3891,
      "step": 352550
    },
    {
      "epoch": 0.7345,
      "grad_norm": 1.2431458234786987,
      "learning_rate": 4.9610873698064107e-05,
      "loss": 3.3913,
      "step": 352560
    },
    {
      "epoch": 0.7345208333333333,
      "grad_norm": 1.2730730772018433,
      "learning_rate": 4.9603548737500655e-05,
      "loss": 3.4206,
      "step": 352570
    },
    {
      "epoch": 0.7345416666666666,
      "grad_norm": 1.6356511116027832,
      "learning_rate": 4.959622421061018e-05,
      "loss": 3.4428,
      "step": 352580
    },
    {
      "epoch": 0.7345625,
      "grad_norm": 1.3918581008911133,
      "learning_rate": 4.958890011742433e-05,
      "loss": 3.4654,
      "step": 352590
    },
    {
      "epoch": 0.7345833333333334,
      "grad_norm": 1.2594258785247803,
      "learning_rate": 4.9581576457974595e-05,
      "loss": 3.4391,
      "step": 352600
    },
    {
      "epoch": 0.7346041666666666,
      "grad_norm": 1.2993993759155273,
      "learning_rate": 4.957425323229279e-05,
      "loss": 3.4717,
      "step": 352610
    },
    {
      "epoch": 0.734625,
      "grad_norm": 1.364235758781433,
      "learning_rate": 4.956693044041041e-05,
      "loss": 3.4136,
      "step": 352620
    },
    {
      "epoch": 0.7346458333333333,
      "grad_norm": 1.2933493852615356,
      "learning_rate": 4.9559608082359095e-05,
      "loss": 3.4508,
      "step": 352630
    },
    {
      "epoch": 0.7346666666666667,
      "grad_norm": 1.4852999448776245,
      "learning_rate": 4.955228615817061e-05,
      "loss": 3.3472,
      "step": 352640
    },
    {
      "epoch": 0.7346875,
      "grad_norm": 1.3836830854415894,
      "learning_rate": 4.954496466787642e-05,
      "loss": 3.5653,
      "step": 352650
    },
    {
      "epoch": 0.7347083333333333,
      "grad_norm": 1.3719604015350342,
      "learning_rate": 4.953764361150819e-05,
      "loss": 3.3684,
      "step": 352660
    },
    {
      "epoch": 0.7347291666666667,
      "grad_norm": 1.3337974548339844,
      "learning_rate": 4.953032298909767e-05,
      "loss": 3.4288,
      "step": 352670
    },
    {
      "epoch": 0.73475,
      "grad_norm": 1.2820689678192139,
      "learning_rate": 4.952300280067635e-05,
      "loss": 3.4011,
      "step": 352680
    },
    {
      "epoch": 0.7347708333333334,
      "grad_norm": 1.3829292058944702,
      "learning_rate": 4.951568304627581e-05,
      "loss": 3.4999,
      "step": 352690
    },
    {
      "epoch": 0.7347916666666666,
      "grad_norm": 1.4202461242675781,
      "learning_rate": 4.950836372592787e-05,
      "loss": 3.451,
      "step": 352700
    },
    {
      "epoch": 0.7348125,
      "grad_norm": 1.3495094776153564,
      "learning_rate": 4.9501044839663963e-05,
      "loss": 3.5257,
      "step": 352710
    },
    {
      "epoch": 0.7348333333333333,
      "grad_norm": 1.3569520711898804,
      "learning_rate": 4.9493726387515745e-05,
      "loss": 3.4221,
      "step": 352720
    },
    {
      "epoch": 0.7348541666666667,
      "grad_norm": 1.3666447401046753,
      "learning_rate": 4.948640836951487e-05,
      "loss": 3.3478,
      "step": 352730
    },
    {
      "epoch": 0.734875,
      "grad_norm": 1.2431098222732544,
      "learning_rate": 4.947909078569291e-05,
      "loss": 3.4857,
      "step": 352740
    },
    {
      "epoch": 0.7348958333333333,
      "grad_norm": 1.5852327346801758,
      "learning_rate": 4.9471773636081495e-05,
      "loss": 3.3942,
      "step": 352750
    },
    {
      "epoch": 0.7349166666666667,
      "grad_norm": 1.6265513896942139,
      "learning_rate": 4.946445692071222e-05,
      "loss": 3.3173,
      "step": 352760
    },
    {
      "epoch": 0.7349375,
      "grad_norm": 1.5641741752624512,
      "learning_rate": 4.94571406396167e-05,
      "loss": 3.5638,
      "step": 352770
    },
    {
      "epoch": 0.7349583333333334,
      "grad_norm": 1.3335784673690796,
      "learning_rate": 4.944982479282654e-05,
      "loss": 3.6933,
      "step": 352780
    },
    {
      "epoch": 0.7349791666666666,
      "grad_norm": 1.4266858100891113,
      "learning_rate": 4.944250938037332e-05,
      "loss": 3.4354,
      "step": 352790
    },
    {
      "epoch": 0.735,
      "grad_norm": 1.4969091415405273,
      "learning_rate": 4.9435194402288684e-05,
      "loss": 3.454,
      "step": 352800
    },
    {
      "epoch": 0.7350208333333333,
      "grad_norm": 1.4715551137924194,
      "learning_rate": 4.942787985860419e-05,
      "loss": 3.4793,
      "step": 352810
    },
    {
      "epoch": 0.7350416666666667,
      "grad_norm": 1.3733035326004028,
      "learning_rate": 4.942056574935143e-05,
      "loss": 3.321,
      "step": 352820
    },
    {
      "epoch": 0.7350625,
      "grad_norm": 1.287729024887085,
      "learning_rate": 4.9413252074562025e-05,
      "loss": 3.4913,
      "step": 352830
    },
    {
      "epoch": 0.7350833333333333,
      "grad_norm": 1.4568978548049927,
      "learning_rate": 4.940593883426756e-05,
      "loss": 3.4183,
      "step": 352840
    },
    {
      "epoch": 0.7351041666666667,
      "grad_norm": 1.3465439081192017,
      "learning_rate": 4.939862602849961e-05,
      "loss": 3.4967,
      "step": 352850
    },
    {
      "epoch": 0.735125,
      "grad_norm": 1.2812234163284302,
      "learning_rate": 4.9391313657289786e-05,
      "loss": 3.4686,
      "step": 352860
    },
    {
      "epoch": 0.7351458333333334,
      "grad_norm": 1.314544677734375,
      "learning_rate": 4.93840017206697e-05,
      "loss": 3.4682,
      "step": 352870
    },
    {
      "epoch": 0.7351666666666666,
      "grad_norm": 1.271960735321045,
      "learning_rate": 4.937669021867081e-05,
      "loss": 3.5148,
      "step": 352880
    },
    {
      "epoch": 0.7351875,
      "grad_norm": 1.253849744796753,
      "learning_rate": 4.936937915132485e-05,
      "loss": 3.4611,
      "step": 352890
    },
    {
      "epoch": 0.7352083333333334,
      "grad_norm": 1.4088025093078613,
      "learning_rate": 4.936206851866338e-05,
      "loss": 3.3307,
      "step": 352900
    },
    {
      "epoch": 0.7352291666666667,
      "grad_norm": 1.4272732734680176,
      "learning_rate": 4.9354758320717833e-05,
      "loss": 3.415,
      "step": 352910
    },
    {
      "epoch": 0.73525,
      "grad_norm": 2.2868685722351074,
      "learning_rate": 4.9347448557519945e-05,
      "loss": 3.5173,
      "step": 352920
    },
    {
      "epoch": 0.7352708333333333,
      "grad_norm": 1.354128122329712,
      "learning_rate": 4.934013922910129e-05,
      "loss": 3.335,
      "step": 352930
    },
    {
      "epoch": 0.7352916666666667,
      "grad_norm": 1.5336732864379883,
      "learning_rate": 4.933283033549328e-05,
      "loss": 3.3657,
      "step": 352940
    },
    {
      "epoch": 0.7353125,
      "grad_norm": 1.3429630994796753,
      "learning_rate": 4.932552187672766e-05,
      "loss": 3.3665,
      "step": 352950
    },
    {
      "epoch": 0.7353333333333333,
      "grad_norm": 1.3994829654693604,
      "learning_rate": 4.9318213852835984e-05,
      "loss": 3.3696,
      "step": 352960
    },
    {
      "epoch": 0.7353541666666666,
      "grad_norm": 1.382444977760315,
      "learning_rate": 4.931090626384968e-05,
      "loss": 3.4273,
      "step": 352970
    },
    {
      "epoch": 0.735375,
      "grad_norm": 1.3159451484680176,
      "learning_rate": 4.930359910980044e-05,
      "loss": 3.5142,
      "step": 352980
    },
    {
      "epoch": 0.7353958333333334,
      "grad_norm": 1.3503793478012085,
      "learning_rate": 4.929629239071984e-05,
      "loss": 3.497,
      "step": 352990
    },
    {
      "epoch": 0.7354166666666667,
      "grad_norm": 1.3670774698257446,
      "learning_rate": 4.9288986106639344e-05,
      "loss": 3.3583,
      "step": 353000
    },
    {
      "epoch": 0.7354166666666667,
      "eval_loss": 3.5363712310791016,
      "eval_runtime": 7.2895,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.412,
      "step": 353000
    },
    {
      "epoch": 0.7354375,
      "grad_norm": 1.4066736698150635,
      "learning_rate": 4.928168025759058e-05,
      "loss": 3.4573,
      "step": 353010
    },
    {
      "epoch": 0.7354583333333333,
      "grad_norm": 1.4534507989883423,
      "learning_rate": 4.927437484360508e-05,
      "loss": 3.3924,
      "step": 353020
    },
    {
      "epoch": 0.7354791666666667,
      "grad_norm": 1.190070390701294,
      "learning_rate": 4.926706986471441e-05,
      "loss": 3.4607,
      "step": 353030
    },
    {
      "epoch": 0.7355,
      "grad_norm": 1.2665377855300903,
      "learning_rate": 4.925976532095014e-05,
      "loss": 3.4786,
      "step": 353040
    },
    {
      "epoch": 0.7355208333333333,
      "grad_norm": 1.479111671447754,
      "learning_rate": 4.92524612123438e-05,
      "loss": 3.3752,
      "step": 353050
    },
    {
      "epoch": 0.7355416666666666,
      "grad_norm": 1.3430919647216797,
      "learning_rate": 4.924515753892694e-05,
      "loss": 3.5063,
      "step": 353060
    },
    {
      "epoch": 0.7355625,
      "grad_norm": 1.2946233749389648,
      "learning_rate": 4.923785430073112e-05,
      "loss": 3.2886,
      "step": 353070
    },
    {
      "epoch": 0.7355833333333334,
      "grad_norm": 1.4640471935272217,
      "learning_rate": 4.923055149778789e-05,
      "loss": 3.5855,
      "step": 353080
    },
    {
      "epoch": 0.7356041666666666,
      "grad_norm": 1.2882274389266968,
      "learning_rate": 4.9223249130128785e-05,
      "loss": 3.3997,
      "step": 353090
    },
    {
      "epoch": 0.735625,
      "grad_norm": 1.4384163618087769,
      "learning_rate": 4.921594719778536e-05,
      "loss": 3.3939,
      "step": 353100
    },
    {
      "epoch": 0.7356458333333333,
      "grad_norm": 1.3435713052749634,
      "learning_rate": 4.920864570078914e-05,
      "loss": 3.3329,
      "step": 353110
    },
    {
      "epoch": 0.7356666666666667,
      "grad_norm": 1.4246132373809814,
      "learning_rate": 4.920134463917168e-05,
      "loss": 3.4203,
      "step": 353120
    },
    {
      "epoch": 0.7356875,
      "grad_norm": 1.4119449853897095,
      "learning_rate": 4.919404401296452e-05,
      "loss": 3.3962,
      "step": 353130
    },
    {
      "epoch": 0.7357083333333333,
      "grad_norm": 1.4143931865692139,
      "learning_rate": 4.918674382219918e-05,
      "loss": 3.4734,
      "step": 353140
    },
    {
      "epoch": 0.7357291666666667,
      "grad_norm": 1.4021474123001099,
      "learning_rate": 4.917944406690721e-05,
      "loss": 3.4458,
      "step": 353150
    },
    {
      "epoch": 0.73575,
      "grad_norm": 1.4002622365951538,
      "learning_rate": 4.917214474712013e-05,
      "loss": 3.3426,
      "step": 353160
    },
    {
      "epoch": 0.7357708333333334,
      "grad_norm": 1.67130708694458,
      "learning_rate": 4.9164845862869465e-05,
      "loss": 3.4938,
      "step": 353170
    },
    {
      "epoch": 0.7357916666666666,
      "grad_norm": 1.5067198276519775,
      "learning_rate": 4.915754741418677e-05,
      "loss": 3.3389,
      "step": 353180
    },
    {
      "epoch": 0.7358125,
      "grad_norm": 1.3576960563659668,
      "learning_rate": 4.915024940110353e-05,
      "loss": 3.4454,
      "step": 353190
    },
    {
      "epoch": 0.7358333333333333,
      "grad_norm": 1.6396167278289795,
      "learning_rate": 4.914295182365132e-05,
      "loss": 3.3705,
      "step": 353200
    },
    {
      "epoch": 0.7358541666666667,
      "grad_norm": 1.3653680086135864,
      "learning_rate": 4.9135654681861616e-05,
      "loss": 3.355,
      "step": 353210
    },
    {
      "epoch": 0.735875,
      "grad_norm": 1.6492469310760498,
      "learning_rate": 4.912835797576596e-05,
      "loss": 3.4896,
      "step": 353220
    },
    {
      "epoch": 0.7358958333333333,
      "grad_norm": 1.3924591541290283,
      "learning_rate": 4.912106170539588e-05,
      "loss": 3.4416,
      "step": 353230
    },
    {
      "epoch": 0.7359166666666667,
      "grad_norm": 1.2857789993286133,
      "learning_rate": 4.9113765870782926e-05,
      "loss": 3.4847,
      "step": 353240
    },
    {
      "epoch": 0.7359375,
      "grad_norm": 1.408303141593933,
      "learning_rate": 4.9106470471958484e-05,
      "loss": 3.4726,
      "step": 353250
    },
    {
      "epoch": 0.7359583333333334,
      "grad_norm": 1.2960973978042603,
      "learning_rate": 4.90991755089542e-05,
      "loss": 3.4679,
      "step": 353260
    },
    {
      "epoch": 0.7359791666666666,
      "grad_norm": 1.5521079301834106,
      "learning_rate": 4.909188098180157e-05,
      "loss": 3.5457,
      "step": 353270
    },
    {
      "epoch": 0.736,
      "grad_norm": 2.2638514041900635,
      "learning_rate": 4.908458689053199e-05,
      "loss": 3.4674,
      "step": 353280
    },
    {
      "epoch": 0.7360208333333333,
      "grad_norm": 1.3441601991653442,
      "learning_rate": 4.907729323517709e-05,
      "loss": 3.4476,
      "step": 353290
    },
    {
      "epoch": 0.7360416666666667,
      "grad_norm": 1.3369901180267334,
      "learning_rate": 4.907000001576839e-05,
      "loss": 3.3909,
      "step": 353300
    },
    {
      "epoch": 0.7360625,
      "grad_norm": 1.520588755607605,
      "learning_rate": 4.906270723233728e-05,
      "loss": 3.4147,
      "step": 353310
    },
    {
      "epoch": 0.7360833333333333,
      "grad_norm": 1.425118088722229,
      "learning_rate": 4.905541488491528e-05,
      "loss": 3.673,
      "step": 353320
    },
    {
      "epoch": 0.7361041666666667,
      "grad_norm": 1.4355552196502686,
      "learning_rate": 4.9048122973534034e-05,
      "loss": 3.4602,
      "step": 353330
    },
    {
      "epoch": 0.736125,
      "grad_norm": 1.3496161699295044,
      "learning_rate": 4.9040831498224866e-05,
      "loss": 3.4935,
      "step": 353340
    },
    {
      "epoch": 0.7361458333333334,
      "grad_norm": 1.4358042478561401,
      "learning_rate": 4.903354045901932e-05,
      "loss": 3.4952,
      "step": 353350
    },
    {
      "epoch": 0.7361666666666666,
      "grad_norm": 1.4006916284561157,
      "learning_rate": 4.9026249855948995e-05,
      "loss": 3.3336,
      "step": 353360
    },
    {
      "epoch": 0.7361875,
      "grad_norm": 1.4122477769851685,
      "learning_rate": 4.9018959689045264e-05,
      "loss": 3.389,
      "step": 353370
    },
    {
      "epoch": 0.7362083333333334,
      "grad_norm": 1.4061872959136963,
      "learning_rate": 4.9011669958339655e-05,
      "loss": 3.4498,
      "step": 353380
    },
    {
      "epoch": 0.7362291666666667,
      "grad_norm": 1.409454107284546,
      "learning_rate": 4.900438066386365e-05,
      "loss": 3.4718,
      "step": 353390
    },
    {
      "epoch": 0.73625,
      "grad_norm": 1.5850040912628174,
      "learning_rate": 4.899709180564876e-05,
      "loss": 3.4343,
      "step": 353400
    },
    {
      "epoch": 0.7362708333333333,
      "grad_norm": 1.8140034675598145,
      "learning_rate": 4.8989803383726435e-05,
      "loss": 3.4465,
      "step": 353410
    },
    {
      "epoch": 0.7362916666666667,
      "grad_norm": 1.441236972808838,
      "learning_rate": 4.898251539812819e-05,
      "loss": 3.4308,
      "step": 353420
    },
    {
      "epoch": 0.7363125,
      "grad_norm": 1.38069486618042,
      "learning_rate": 4.897522784888549e-05,
      "loss": 3.5333,
      "step": 353430
    },
    {
      "epoch": 0.7363333333333333,
      "grad_norm": 1.2718830108642578,
      "learning_rate": 4.896794073602981e-05,
      "loss": 3.4491,
      "step": 353440
    },
    {
      "epoch": 0.7363541666666666,
      "grad_norm": 1.4135792255401611,
      "learning_rate": 4.896065405959264e-05,
      "loss": 3.5659,
      "step": 353450
    },
    {
      "epoch": 0.736375,
      "grad_norm": 1.4184565544128418,
      "learning_rate": 4.8953367819605445e-05,
      "loss": 3.3835,
      "step": 353460
    },
    {
      "epoch": 0.7363958333333334,
      "grad_norm": 1.3188713788986206,
      "learning_rate": 4.894608201609972e-05,
      "loss": 3.5303,
      "step": 353470
    },
    {
      "epoch": 0.7364166666666667,
      "grad_norm": 1.3499643802642822,
      "learning_rate": 4.89387966491069e-05,
      "loss": 3.5214,
      "step": 353480
    },
    {
      "epoch": 0.7364375,
      "grad_norm": 1.3782485723495483,
      "learning_rate": 4.893151171865849e-05,
      "loss": 3.5036,
      "step": 353490
    },
    {
      "epoch": 0.7364583333333333,
      "grad_norm": 1.284483790397644,
      "learning_rate": 4.892422722478593e-05,
      "loss": 3.3298,
      "step": 353500
    },
    {
      "epoch": 0.7364791666666667,
      "grad_norm": 1.3224011659622192,
      "learning_rate": 4.891694316752071e-05,
      "loss": 3.4713,
      "step": 353510
    },
    {
      "epoch": 0.7365,
      "grad_norm": 1.2913190126419067,
      "learning_rate": 4.890965954689428e-05,
      "loss": 3.3905,
      "step": 353520
    },
    {
      "epoch": 0.7365208333333333,
      "grad_norm": 1.647500991821289,
      "learning_rate": 4.8902376362938116e-05,
      "loss": 3.3935,
      "step": 353530
    },
    {
      "epoch": 0.7365416666666667,
      "grad_norm": 1.5307295322418213,
      "learning_rate": 4.8895093615683665e-05,
      "loss": 3.3753,
      "step": 353540
    },
    {
      "epoch": 0.7365625,
      "grad_norm": 1.4215856790542603,
      "learning_rate": 4.888781130516239e-05,
      "loss": 3.548,
      "step": 353550
    },
    {
      "epoch": 0.7365833333333334,
      "grad_norm": 1.3033716678619385,
      "learning_rate": 4.888052943140574e-05,
      "loss": 3.6043,
      "step": 353560
    },
    {
      "epoch": 0.7366041666666666,
      "grad_norm": 1.3008170127868652,
      "learning_rate": 4.8873247994445174e-05,
      "loss": 3.441,
      "step": 353570
    },
    {
      "epoch": 0.736625,
      "grad_norm": 1.3145465850830078,
      "learning_rate": 4.8865966994312166e-05,
      "loss": 3.2879,
      "step": 353580
    },
    {
      "epoch": 0.7366458333333333,
      "grad_norm": 1.5354084968566895,
      "learning_rate": 4.8858686431038176e-05,
      "loss": 3.5208,
      "step": 353590
    },
    {
      "epoch": 0.7366666666666667,
      "grad_norm": 1.3157508373260498,
      "learning_rate": 4.885140630465454e-05,
      "loss": 3.3791,
      "step": 353600
    },
    {
      "epoch": 0.7366875,
      "grad_norm": 1.3639246225357056,
      "learning_rate": 4.884412661519289e-05,
      "loss": 3.4344,
      "step": 353610
    },
    {
      "epoch": 0.7367083333333333,
      "grad_norm": 1.3811240196228027,
      "learning_rate": 4.883684736268452e-05,
      "loss": 3.4903,
      "step": 353620
    },
    {
      "epoch": 0.7367291666666667,
      "grad_norm": 1.478029489517212,
      "learning_rate": 4.882956854716089e-05,
      "loss": 3.3577,
      "step": 353630
    },
    {
      "epoch": 0.73675,
      "grad_norm": 1.5293492078781128,
      "learning_rate": 4.8822290168653565e-05,
      "loss": 3.3579,
      "step": 353640
    },
    {
      "epoch": 0.7367708333333334,
      "grad_norm": 1.274871587753296,
      "learning_rate": 4.881501222719384e-05,
      "loss": 3.3184,
      "step": 353650
    },
    {
      "epoch": 0.7367916666666666,
      "grad_norm": 1.2129414081573486,
      "learning_rate": 4.880773472281317e-05,
      "loss": 3.4991,
      "step": 353660
    },
    {
      "epoch": 0.7368125,
      "grad_norm": 1.5159389972686768,
      "learning_rate": 4.880045765554313e-05,
      "loss": 3.4876,
      "step": 353670
    },
    {
      "epoch": 0.7368333333333333,
      "grad_norm": 1.726697325706482,
      "learning_rate": 4.8793181025415014e-05,
      "loss": 3.2912,
      "step": 353680
    },
    {
      "epoch": 0.7368541666666667,
      "grad_norm": 1.3660229444503784,
      "learning_rate": 4.878590483246023e-05,
      "loss": 3.4658,
      "step": 353690
    },
    {
      "epoch": 0.736875,
      "grad_norm": 1.4458650350570679,
      "learning_rate": 4.877862907671038e-05,
      "loss": 3.4196,
      "step": 353700
    },
    {
      "epoch": 0.7368958333333333,
      "grad_norm": 1.3642635345458984,
      "learning_rate": 4.8771353758196745e-05,
      "loss": 3.5841,
      "step": 353710
    },
    {
      "epoch": 0.7369166666666667,
      "grad_norm": 1.4126657247543335,
      "learning_rate": 4.8764078876950736e-05,
      "loss": 3.3758,
      "step": 353720
    },
    {
      "epoch": 0.7369375,
      "grad_norm": 1.727953314781189,
      "learning_rate": 4.875680443300392e-05,
      "loss": 3.5974,
      "step": 353730
    },
    {
      "epoch": 0.7369583333333334,
      "grad_norm": 1.4741064310073853,
      "learning_rate": 4.874953042638761e-05,
      "loss": 3.478,
      "step": 353740
    },
    {
      "epoch": 0.7369791666666666,
      "grad_norm": 1.528083324432373,
      "learning_rate": 4.8742256857133235e-05,
      "loss": 3.4644,
      "step": 353750
    },
    {
      "epoch": 0.737,
      "grad_norm": 1.4094483852386475,
      "learning_rate": 4.8734983725272226e-05,
      "loss": 3.4136,
      "step": 353760
    },
    {
      "epoch": 0.7370208333333333,
      "grad_norm": 1.5730535984039307,
      "learning_rate": 4.872771103083601e-05,
      "loss": 3.3693,
      "step": 353770
    },
    {
      "epoch": 0.7370416666666667,
      "grad_norm": 1.4526177644729614,
      "learning_rate": 4.872043877385601e-05,
      "loss": 3.4735,
      "step": 353780
    },
    {
      "epoch": 0.7370625,
      "grad_norm": 1.3224074840545654,
      "learning_rate": 4.8713166954363596e-05,
      "loss": 3.3015,
      "step": 353790
    },
    {
      "epoch": 0.7370833333333333,
      "grad_norm": 1.4234169721603394,
      "learning_rate": 4.870589557239022e-05,
      "loss": 3.4499,
      "step": 353800
    },
    {
      "epoch": 0.7371041666666667,
      "grad_norm": 1.3623392581939697,
      "learning_rate": 4.86986246279673e-05,
      "loss": 3.4533,
      "step": 353810
    },
    {
      "epoch": 0.737125,
      "grad_norm": 1.578119158744812,
      "learning_rate": 4.8691354121126206e-05,
      "loss": 3.4332,
      "step": 353820
    },
    {
      "epoch": 0.7371458333333333,
      "grad_norm": 1.4563062191009521,
      "learning_rate": 4.8684084051898366e-05,
      "loss": 3.5545,
      "step": 353830
    },
    {
      "epoch": 0.7371666666666666,
      "grad_norm": 1.4601361751556396,
      "learning_rate": 4.8676814420315176e-05,
      "loss": 3.6562,
      "step": 353840
    },
    {
      "epoch": 0.7371875,
      "grad_norm": 1.3567595481872559,
      "learning_rate": 4.8669545226408046e-05,
      "loss": 3.3193,
      "step": 353850
    },
    {
      "epoch": 0.7372083333333334,
      "grad_norm": 1.4192992448806763,
      "learning_rate": 4.8662276470208356e-05,
      "loss": 3.5099,
      "step": 353860
    },
    {
      "epoch": 0.7372291666666667,
      "grad_norm": 1.372143030166626,
      "learning_rate": 4.865500815174754e-05,
      "loss": 3.4486,
      "step": 353870
    },
    {
      "epoch": 0.73725,
      "grad_norm": 1.368492841720581,
      "learning_rate": 4.864774027105697e-05,
      "loss": 3.4734,
      "step": 353880
    },
    {
      "epoch": 0.7372708333333333,
      "grad_norm": 1.5960053205490112,
      "learning_rate": 4.864047282816804e-05,
      "loss": 3.5102,
      "step": 353890
    },
    {
      "epoch": 0.7372916666666667,
      "grad_norm": 1.3076610565185547,
      "learning_rate": 4.8633205823112196e-05,
      "loss": 3.2635,
      "step": 353900
    },
    {
      "epoch": 0.7373125,
      "grad_norm": 1.5068668127059937,
      "learning_rate": 4.8625939255920676e-05,
      "loss": 3.4829,
      "step": 353910
    },
    {
      "epoch": 0.7373333333333333,
      "grad_norm": 1.3002445697784424,
      "learning_rate": 4.861867312662501e-05,
      "loss": 3.5259,
      "step": 353920
    },
    {
      "epoch": 0.7373541666666666,
      "grad_norm": 1.4606437683105469,
      "learning_rate": 4.8611407435256614e-05,
      "loss": 3.4881,
      "step": 353930
    },
    {
      "epoch": 0.737375,
      "grad_norm": 1.3940742015838623,
      "learning_rate": 4.860414218184671e-05,
      "loss": 3.3834,
      "step": 353940
    },
    {
      "epoch": 0.7373958333333334,
      "grad_norm": 1.3456414937973022,
      "learning_rate": 4.8596877366426805e-05,
      "loss": 3.296,
      "step": 353950
    },
    {
      "epoch": 0.7374166666666667,
      "grad_norm": 2.2735657691955566,
      "learning_rate": 4.858961298902832e-05,
      "loss": 3.4841,
      "step": 353960
    },
    {
      "epoch": 0.7374375,
      "grad_norm": 1.3618618249893188,
      "learning_rate": 4.8582349049682465e-05,
      "loss": 3.5442,
      "step": 353970
    },
    {
      "epoch": 0.7374583333333333,
      "grad_norm": 1.3105183839797974,
      "learning_rate": 4.857508554842077e-05,
      "loss": 3.4088,
      "step": 353980
    },
    {
      "epoch": 0.7374791666666667,
      "grad_norm": 1.450446367263794,
      "learning_rate": 4.8567822485274594e-05,
      "loss": 3.4441,
      "step": 353990
    },
    {
      "epoch": 0.7375,
      "grad_norm": 1.381621241569519,
      "learning_rate": 4.856055986027518e-05,
      "loss": 3.451,
      "step": 354000
    },
    {
      "epoch": 0.7375,
      "eval_loss": 3.5355064868927,
      "eval_runtime": 6.833,
      "eval_samples_per_second": 1.463,
      "eval_steps_per_second": 0.439,
      "step": 354000
    },
    {
      "epoch": 0.7375208333333333,
      "grad_norm": 1.305202603340149,
      "learning_rate": 4.85532976734541e-05,
      "loss": 3.4261,
      "step": 354010
    },
    {
      "epoch": 0.7375416666666667,
      "grad_norm": 1.439016342163086,
      "learning_rate": 4.854603592484257e-05,
      "loss": 3.3996,
      "step": 354020
    },
    {
      "epoch": 0.7375625,
      "grad_norm": 1.3632991313934326,
      "learning_rate": 4.8538774614471967e-05,
      "loss": 3.3977,
      "step": 354030
    },
    {
      "epoch": 0.7375833333333334,
      "grad_norm": 1.3406585454940796,
      "learning_rate": 4.8531513742373777e-05,
      "loss": 3.4823,
      "step": 354040
    },
    {
      "epoch": 0.7376041666666666,
      "grad_norm": 1.370955228805542,
      "learning_rate": 4.8524253308579236e-05,
      "loss": 3.4211,
      "step": 354050
    },
    {
      "epoch": 0.737625,
      "grad_norm": 1.3252806663513184,
      "learning_rate": 4.851699331311971e-05,
      "loss": 3.4354,
      "step": 354060
    },
    {
      "epoch": 0.7376458333333333,
      "grad_norm": 1.3422423601150513,
      "learning_rate": 4.8509733756026695e-05,
      "loss": 3.4385,
      "step": 354070
    },
    {
      "epoch": 0.7376666666666667,
      "grad_norm": 1.492068886756897,
      "learning_rate": 4.8502474637331416e-05,
      "loss": 3.525,
      "step": 354080
    },
    {
      "epoch": 0.7376875,
      "grad_norm": 1.4850738048553467,
      "learning_rate": 4.849521595706523e-05,
      "loss": 3.4519,
      "step": 354090
    },
    {
      "epoch": 0.7377083333333333,
      "grad_norm": 1.2826416492462158,
      "learning_rate": 4.8487957715259615e-05,
      "loss": 3.491,
      "step": 354100
    },
    {
      "epoch": 0.7377291666666667,
      "grad_norm": 1.2821255922317505,
      "learning_rate": 4.84806999119458e-05,
      "loss": 3.5054,
      "step": 354110
    },
    {
      "epoch": 0.73775,
      "grad_norm": 1.6187820434570312,
      "learning_rate": 4.847344254715518e-05,
      "loss": 3.497,
      "step": 354120
    },
    {
      "epoch": 0.7377708333333334,
      "grad_norm": 1.329721212387085,
      "learning_rate": 4.8466185620919094e-05,
      "loss": 3.4474,
      "step": 354130
    },
    {
      "epoch": 0.7377916666666666,
      "grad_norm": 1.8669947385787964,
      "learning_rate": 4.8458929133268895e-05,
      "loss": 3.4398,
      "step": 354140
    },
    {
      "epoch": 0.7378125,
      "grad_norm": 1.4065583944320679,
      "learning_rate": 4.8451673084235944e-05,
      "loss": 3.3749,
      "step": 354150
    },
    {
      "epoch": 0.7378333333333333,
      "grad_norm": 1.5211814641952515,
      "learning_rate": 4.8444417473851555e-05,
      "loss": 3.4532,
      "step": 354160
    },
    {
      "epoch": 0.7378541666666667,
      "grad_norm": 1.3211541175842285,
      "learning_rate": 4.8437162302147075e-05,
      "loss": 3.4793,
      "step": 354170
    },
    {
      "epoch": 0.737875,
      "grad_norm": 1.4631896018981934,
      "learning_rate": 4.842990756915388e-05,
      "loss": 3.4549,
      "step": 354180
    },
    {
      "epoch": 0.7378958333333333,
      "grad_norm": 1.3232039213180542,
      "learning_rate": 4.842265327490326e-05,
      "loss": 3.2644,
      "step": 354190
    },
    {
      "epoch": 0.7379166666666667,
      "grad_norm": 1.9836634397506714,
      "learning_rate": 4.841539941942657e-05,
      "loss": 3.4544,
      "step": 354200
    },
    {
      "epoch": 0.7379375,
      "grad_norm": 1.380342721939087,
      "learning_rate": 4.840814600275515e-05,
      "loss": 3.5058,
      "step": 354210
    },
    {
      "epoch": 0.7379583333333334,
      "grad_norm": 1.2987439632415771,
      "learning_rate": 4.840089302492034e-05,
      "loss": 3.3291,
      "step": 354220
    },
    {
      "epoch": 0.7379791666666666,
      "grad_norm": 1.3540607690811157,
      "learning_rate": 4.839364048595344e-05,
      "loss": 3.3863,
      "step": 354230
    },
    {
      "epoch": 0.738,
      "grad_norm": 1.3634562492370605,
      "learning_rate": 4.838638838588584e-05,
      "loss": 3.4043,
      "step": 354240
    },
    {
      "epoch": 0.7380208333333333,
      "grad_norm": 1.4451475143432617,
      "learning_rate": 4.837913672474873e-05,
      "loss": 3.4103,
      "step": 354250
    },
    {
      "epoch": 0.7380416666666667,
      "grad_norm": 1.4101179838180542,
      "learning_rate": 4.837188550257357e-05,
      "loss": 3.4349,
      "step": 354260
    },
    {
      "epoch": 0.7380625,
      "grad_norm": 1.3589142560958862,
      "learning_rate": 4.83646347193917e-05,
      "loss": 3.4284,
      "step": 354270
    },
    {
      "epoch": 0.7380833333333333,
      "grad_norm": 1.3451496362686157,
      "learning_rate": 4.835738437523427e-05,
      "loss": 3.339,
      "step": 354280
    },
    {
      "epoch": 0.7381041666666667,
      "grad_norm": 1.3448936939239502,
      "learning_rate": 4.8350134470132745e-05,
      "loss": 3.4233,
      "step": 354290
    },
    {
      "epoch": 0.738125,
      "grad_norm": 1.7249531745910645,
      "learning_rate": 4.834288500411847e-05,
      "loss": 3.368,
      "step": 354300
    },
    {
      "epoch": 0.7381458333333333,
      "grad_norm": 1.3667471408843994,
      "learning_rate": 4.833563597722259e-05,
      "loss": 3.5557,
      "step": 354310
    },
    {
      "epoch": 0.7381666666666666,
      "grad_norm": 1.5065386295318604,
      "learning_rate": 4.832838738947657e-05,
      "loss": 3.4039,
      "step": 354320
    },
    {
      "epoch": 0.7381875,
      "grad_norm": 1.369278907775879,
      "learning_rate": 4.832113924091171e-05,
      "loss": 3.3731,
      "step": 354330
    },
    {
      "epoch": 0.7382083333333334,
      "grad_norm": 1.4797650575637817,
      "learning_rate": 4.83138915315592e-05,
      "loss": 3.5255,
      "step": 354340
    },
    {
      "epoch": 0.7382291666666667,
      "grad_norm": 1.4285086393356323,
      "learning_rate": 4.8306644261450464e-05,
      "loss": 3.3823,
      "step": 354350
    },
    {
      "epoch": 0.73825,
      "grad_norm": 1.355281114578247,
      "learning_rate": 4.829939743061683e-05,
      "loss": 3.3142,
      "step": 354360
    },
    {
      "epoch": 0.7382708333333333,
      "grad_norm": 1.3124566078186035,
      "learning_rate": 4.8292151039089436e-05,
      "loss": 3.4899,
      "step": 354370
    },
    {
      "epoch": 0.7382916666666667,
      "grad_norm": 1.436385154724121,
      "learning_rate": 4.8284905086899796e-05,
      "loss": 3.4915,
      "step": 354380
    },
    {
      "epoch": 0.7383125,
      "grad_norm": 1.3622524738311768,
      "learning_rate": 4.827765957407906e-05,
      "loss": 3.3789,
      "step": 354390
    },
    {
      "epoch": 0.7383333333333333,
      "grad_norm": 1.365912914276123,
      "learning_rate": 4.8270414500658525e-05,
      "loss": 3.3726,
      "step": 354400
    },
    {
      "epoch": 0.7383541666666666,
      "grad_norm": 1.283375859260559,
      "learning_rate": 4.826316986666961e-05,
      "loss": 3.4357,
      "step": 354410
    },
    {
      "epoch": 0.738375,
      "grad_norm": 1.5265860557556152,
      "learning_rate": 4.8255925672143495e-05,
      "loss": 3.4375,
      "step": 354420
    },
    {
      "epoch": 0.7383958333333334,
      "grad_norm": 1.4705723524093628,
      "learning_rate": 4.824868191711146e-05,
      "loss": 3.3816,
      "step": 354430
    },
    {
      "epoch": 0.7384166666666667,
      "grad_norm": 1.3279838562011719,
      "learning_rate": 4.824143860160494e-05,
      "loss": 3.3679,
      "step": 354440
    },
    {
      "epoch": 0.7384375,
      "grad_norm": 1.7579835653305054,
      "learning_rate": 4.8234195725655057e-05,
      "loss": 3.2861,
      "step": 354450
    },
    {
      "epoch": 0.7384583333333333,
      "grad_norm": 1.322304129600525,
      "learning_rate": 4.822695328929314e-05,
      "loss": 3.5008,
      "step": 354460
    },
    {
      "epoch": 0.7384791666666667,
      "grad_norm": 1.359545350074768,
      "learning_rate": 4.82197112925506e-05,
      "loss": 3.3351,
      "step": 354470
    },
    {
      "epoch": 0.7385,
      "grad_norm": 1.4123536348342896,
      "learning_rate": 4.821246973545856e-05,
      "loss": 3.4141,
      "step": 354480
    },
    {
      "epoch": 0.7385208333333333,
      "grad_norm": 1.3608988523483276,
      "learning_rate": 4.820522861804836e-05,
      "loss": 3.4578,
      "step": 354490
    },
    {
      "epoch": 0.7385416666666667,
      "grad_norm": 1.3134119510650635,
      "learning_rate": 4.819798794035129e-05,
      "loss": 3.3645,
      "step": 354500
    },
    {
      "epoch": 0.7385625,
      "grad_norm": 1.447873592376709,
      "learning_rate": 4.819074770239861e-05,
      "loss": 3.4688,
      "step": 354510
    },
    {
      "epoch": 0.7385833333333334,
      "grad_norm": 1.3159812688827515,
      "learning_rate": 4.81835079042216e-05,
      "loss": 3.5463,
      "step": 354520
    },
    {
      "epoch": 0.7386041666666666,
      "grad_norm": 1.290901780128479,
      "learning_rate": 4.817626854585153e-05,
      "loss": 3.4396,
      "step": 354530
    },
    {
      "epoch": 0.738625,
      "grad_norm": 1.6881567239761353,
      "learning_rate": 4.816902962731968e-05,
      "loss": 3.3484,
      "step": 354540
    },
    {
      "epoch": 0.7386458333333333,
      "grad_norm": 1.480690360069275,
      "learning_rate": 4.816179114865732e-05,
      "loss": 3.4508,
      "step": 354550
    },
    {
      "epoch": 0.7386666666666667,
      "grad_norm": 1.4988369941711426,
      "learning_rate": 4.81545531098957e-05,
      "loss": 3.6185,
      "step": 354560
    },
    {
      "epoch": 0.7386875,
      "grad_norm": 1.4511817693710327,
      "learning_rate": 4.814731551106611e-05,
      "loss": 3.5461,
      "step": 354570
    },
    {
      "epoch": 0.7387083333333333,
      "grad_norm": 1.3843722343444824,
      "learning_rate": 4.81400783521998e-05,
      "loss": 3.3863,
      "step": 354580
    },
    {
      "epoch": 0.7387291666666667,
      "grad_norm": 1.411718487739563,
      "learning_rate": 4.813284163332802e-05,
      "loss": 3.4125,
      "step": 354590
    },
    {
      "epoch": 0.73875,
      "grad_norm": 1.3992383480072021,
      "learning_rate": 4.812560535448205e-05,
      "loss": 3.3442,
      "step": 354600
    },
    {
      "epoch": 0.7387708333333334,
      "grad_norm": 1.2696834802627563,
      "learning_rate": 4.8118369515693186e-05,
      "loss": 3.4389,
      "step": 354610
    },
    {
      "epoch": 0.7387916666666666,
      "grad_norm": 1.3548468351364136,
      "learning_rate": 4.8111134116992544e-05,
      "loss": 3.4937,
      "step": 354620
    },
    {
      "epoch": 0.7388125,
      "grad_norm": 1.421201467514038,
      "learning_rate": 4.810389915841152e-05,
      "loss": 3.4738,
      "step": 354630
    },
    {
      "epoch": 0.7388333333333333,
      "grad_norm": 1.3328665494918823,
      "learning_rate": 4.809666463998137e-05,
      "loss": 3.384,
      "step": 354640
    },
    {
      "epoch": 0.7388541666666667,
      "grad_norm": 1.4159867763519287,
      "learning_rate": 4.808943056173319e-05,
      "loss": 3.3538,
      "step": 354650
    },
    {
      "epoch": 0.738875,
      "grad_norm": 1.4585185050964355,
      "learning_rate": 4.808219692369839e-05,
      "loss": 3.4375,
      "step": 354660
    },
    {
      "epoch": 0.7388958333333333,
      "grad_norm": 1.3847678899765015,
      "learning_rate": 4.80749637259082e-05,
      "loss": 3.3532,
      "step": 354670
    },
    {
      "epoch": 0.7389166666666667,
      "grad_norm": 1.5678751468658447,
      "learning_rate": 4.806773096839372e-05,
      "loss": 3.6634,
      "step": 354680
    },
    {
      "epoch": 0.7389375,
      "grad_norm": 1.482123613357544,
      "learning_rate": 4.806049865118634e-05,
      "loss": 3.4858,
      "step": 354690
    },
    {
      "epoch": 0.7389583333333334,
      "grad_norm": 1.2322840690612793,
      "learning_rate": 4.805326677431732e-05,
      "loss": 3.5054,
      "step": 354700
    },
    {
      "epoch": 0.7389791666666666,
      "grad_norm": 1.6301426887512207,
      "learning_rate": 4.804603533781773e-05,
      "loss": 3.4217,
      "step": 354710
    },
    {
      "epoch": 0.739,
      "grad_norm": 1.3083398342132568,
      "learning_rate": 4.803880434171895e-05,
      "loss": 3.4233,
      "step": 354720
    },
    {
      "epoch": 0.7390208333333333,
      "grad_norm": 1.3895068168640137,
      "learning_rate": 4.803157378605223e-05,
      "loss": 3.4584,
      "step": 354730
    },
    {
      "epoch": 0.7390416666666667,
      "grad_norm": 1.58867347240448,
      "learning_rate": 4.8024343670848656e-05,
      "loss": 3.3739,
      "step": 354740
    },
    {
      "epoch": 0.7390625,
      "grad_norm": 1.46947181224823,
      "learning_rate": 4.801711399613965e-05,
      "loss": 3.5654,
      "step": 354750
    },
    {
      "epoch": 0.7390833333333333,
      "grad_norm": 1.435119390487671,
      "learning_rate": 4.80098847619563e-05,
      "loss": 3.4074,
      "step": 354760
    },
    {
      "epoch": 0.7391041666666667,
      "grad_norm": 1.3412261009216309,
      "learning_rate": 4.800265596832986e-05,
      "loss": 3.4379,
      "step": 354770
    },
    {
      "epoch": 0.739125,
      "grad_norm": 1.3677031993865967,
      "learning_rate": 4.799542761529158e-05,
      "loss": 3.3591,
      "step": 354780
    },
    {
      "epoch": 0.7391458333333333,
      "grad_norm": 1.4011428356170654,
      "learning_rate": 4.798819970287268e-05,
      "loss": 3.6356,
      "step": 354790
    },
    {
      "epoch": 0.7391666666666666,
      "grad_norm": 1.6190353631973267,
      "learning_rate": 4.798097223110438e-05,
      "loss": 3.4934,
      "step": 354800
    },
    {
      "epoch": 0.7391875,
      "grad_norm": 1.2591203451156616,
      "learning_rate": 4.797374520001791e-05,
      "loss": 3.5412,
      "step": 354810
    },
    {
      "epoch": 0.7392083333333334,
      "grad_norm": 1.659335970878601,
      "learning_rate": 4.796651860964446e-05,
      "loss": 3.5053,
      "step": 354820
    },
    {
      "epoch": 0.7392291666666667,
      "grad_norm": 1.3960918188095093,
      "learning_rate": 4.795929246001526e-05,
      "loss": 3.4311,
      "step": 354830
    },
    {
      "epoch": 0.73925,
      "grad_norm": 1.520188331604004,
      "learning_rate": 4.795206675116152e-05,
      "loss": 3.2428,
      "step": 354840
    },
    {
      "epoch": 0.7392708333333333,
      "grad_norm": 1.5325244665145874,
      "learning_rate": 4.794484148311448e-05,
      "loss": 3.5572,
      "step": 354850
    },
    {
      "epoch": 0.7392916666666667,
      "grad_norm": 1.4204977750778198,
      "learning_rate": 4.793761665590531e-05,
      "loss": 3.5073,
      "step": 354860
    },
    {
      "epoch": 0.7393125,
      "grad_norm": 1.3305081129074097,
      "learning_rate": 4.793039226956524e-05,
      "loss": 3.3263,
      "step": 354870
    },
    {
      "epoch": 0.7393333333333333,
      "grad_norm": 1.3726409673690796,
      "learning_rate": 4.792316832412549e-05,
      "loss": 3.4459,
      "step": 354880
    },
    {
      "epoch": 0.7393541666666666,
      "grad_norm": 1.3633718490600586,
      "learning_rate": 4.791594481961722e-05,
      "loss": 3.5085,
      "step": 354890
    },
    {
      "epoch": 0.739375,
      "grad_norm": 1.5359431505203247,
      "learning_rate": 4.790872175607168e-05,
      "loss": 3.398,
      "step": 354900
    },
    {
      "epoch": 0.7393958333333334,
      "grad_norm": 1.376637578010559,
      "learning_rate": 4.790149913352005e-05,
      "loss": 3.5131,
      "step": 354910
    },
    {
      "epoch": 0.7394166666666667,
      "grad_norm": 1.4019707441329956,
      "learning_rate": 4.789427695199353e-05,
      "loss": 3.4785,
      "step": 354920
    },
    {
      "epoch": 0.7394375,
      "grad_norm": 1.365668535232544,
      "learning_rate": 4.788705521152332e-05,
      "loss": 3.3558,
      "step": 354930
    },
    {
      "epoch": 0.7394583333333333,
      "grad_norm": 1.5235211849212646,
      "learning_rate": 4.78798339121406e-05,
      "loss": 3.463,
      "step": 354940
    },
    {
      "epoch": 0.7394791666666667,
      "grad_norm": 1.400277018547058,
      "learning_rate": 4.787261305387658e-05,
      "loss": 3.5269,
      "step": 354950
    },
    {
      "epoch": 0.7395,
      "grad_norm": 1.5330651998519897,
      "learning_rate": 4.7865392636762455e-05,
      "loss": 3.4326,
      "step": 354960
    },
    {
      "epoch": 0.7395208333333333,
      "grad_norm": 1.2538753747940063,
      "learning_rate": 4.785817266082941e-05,
      "loss": 3.5332,
      "step": 354970
    },
    {
      "epoch": 0.7395416666666667,
      "grad_norm": 1.244238018989563,
      "learning_rate": 4.785095312610861e-05,
      "loss": 3.5824,
      "step": 354980
    },
    {
      "epoch": 0.7395625,
      "grad_norm": 1.3328065872192383,
      "learning_rate": 4.784373403263127e-05,
      "loss": 3.5481,
      "step": 354990
    },
    {
      "epoch": 0.7395833333333334,
      "grad_norm": 1.5936095714569092,
      "learning_rate": 4.783651538042856e-05,
      "loss": 3.4928,
      "step": 355000
    },
    {
      "epoch": 0.7395833333333334,
      "eval_loss": 3.5398449897766113,
      "eval_runtime": 7.3465,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 355000
    },
    {
      "epoch": 0.7396041666666666,
      "grad_norm": 1.2997581958770752,
      "learning_rate": 4.782929716953172e-05,
      "loss": 3.4462,
      "step": 355010
    },
    {
      "epoch": 0.739625,
      "grad_norm": 1.33818781375885,
      "learning_rate": 4.782207939997177e-05,
      "loss": 3.4663,
      "step": 355020
    },
    {
      "epoch": 0.7396458333333333,
      "grad_norm": 1.3725913763046265,
      "learning_rate": 4.781486207178003e-05,
      "loss": 3.4417,
      "step": 355030
    },
    {
      "epoch": 0.7396666666666667,
      "grad_norm": 1.2848020792007446,
      "learning_rate": 4.780764518498771e-05,
      "loss": 3.4742,
      "step": 355040
    },
    {
      "epoch": 0.7396875,
      "grad_norm": 1.6050913333892822,
      "learning_rate": 4.7800428739625796e-05,
      "loss": 3.3561,
      "step": 355050
    },
    {
      "epoch": 0.7397083333333333,
      "grad_norm": 1.4232743978500366,
      "learning_rate": 4.7793212735725636e-05,
      "loss": 3.4872,
      "step": 355060
    },
    {
      "epoch": 0.7397291666666667,
      "grad_norm": 1.2950046062469482,
      "learning_rate": 4.7785997173318396e-05,
      "loss": 3.3868,
      "step": 355070
    },
    {
      "epoch": 0.73975,
      "grad_norm": 1.4111239910125732,
      "learning_rate": 4.777878205243513e-05,
      "loss": 3.359,
      "step": 355080
    },
    {
      "epoch": 0.7397708333333334,
      "grad_norm": 1.4401897192001343,
      "learning_rate": 4.777156737310702e-05,
      "loss": 3.3713,
      "step": 355090
    },
    {
      "epoch": 0.7397916666666666,
      "grad_norm": 1.2980374097824097,
      "learning_rate": 4.7764353135365356e-05,
      "loss": 3.3608,
      "step": 355100
    },
    {
      "epoch": 0.7398125,
      "grad_norm": 1.353759765625,
      "learning_rate": 4.775713933924117e-05,
      "loss": 3.5517,
      "step": 355110
    },
    {
      "epoch": 0.7398333333333333,
      "grad_norm": 1.3525280952453613,
      "learning_rate": 4.774992598476569e-05,
      "loss": 3.461,
      "step": 355120
    },
    {
      "epoch": 0.7398541666666667,
      "grad_norm": 1.2454525232315063,
      "learning_rate": 4.7742713071970053e-05,
      "loss": 3.4687,
      "step": 355130
    },
    {
      "epoch": 0.739875,
      "grad_norm": 1.4968456029891968,
      "learning_rate": 4.7735500600885414e-05,
      "loss": 3.5337,
      "step": 355140
    },
    {
      "epoch": 0.7398958333333333,
      "grad_norm": 1.3316559791564941,
      "learning_rate": 4.772828857154293e-05,
      "loss": 3.3664,
      "step": 355150
    },
    {
      "epoch": 0.7399166666666667,
      "grad_norm": 1.3366955518722534,
      "learning_rate": 4.7721076983973774e-05,
      "loss": 3.4178,
      "step": 355160
    },
    {
      "epoch": 0.7399375,
      "grad_norm": 1.2598257064819336,
      "learning_rate": 4.771386583820907e-05,
      "loss": 3.4808,
      "step": 355170
    },
    {
      "epoch": 0.7399583333333334,
      "grad_norm": 1.3471274375915527,
      "learning_rate": 4.770665513427997e-05,
      "loss": 3.4246,
      "step": 355180
    },
    {
      "epoch": 0.7399791666666666,
      "grad_norm": 1.3958736658096313,
      "learning_rate": 4.769944487221763e-05,
      "loss": 3.3494,
      "step": 355190
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5045099258422852,
      "learning_rate": 4.769223505205321e-05,
      "loss": 3.4488,
      "step": 355200
    },
    {
      "epoch": 0.7400208333333333,
      "grad_norm": 1.4604682922363281,
      "learning_rate": 4.768502567381783e-05,
      "loss": 3.4643,
      "step": 355210
    },
    {
      "epoch": 0.7400416666666667,
      "grad_norm": 1.307801365852356,
      "learning_rate": 4.767781673754263e-05,
      "loss": 3.3954,
      "step": 355220
    },
    {
      "epoch": 0.7400625,
      "grad_norm": 1.387734293937683,
      "learning_rate": 4.767060824325877e-05,
      "loss": 3.3401,
      "step": 355230
    },
    {
      "epoch": 0.7400833333333333,
      "grad_norm": 1.3538306951522827,
      "learning_rate": 4.7663400190997386e-05,
      "loss": 3.4209,
      "step": 355240
    },
    {
      "epoch": 0.7401041666666667,
      "grad_norm": 1.5025091171264648,
      "learning_rate": 4.76561925807896e-05,
      "loss": 3.5226,
      "step": 355250
    },
    {
      "epoch": 0.740125,
      "grad_norm": 1.3519861698150635,
      "learning_rate": 4.764898541266655e-05,
      "loss": 3.5208,
      "step": 355260
    },
    {
      "epoch": 0.7401458333333333,
      "grad_norm": 1.4534715414047241,
      "learning_rate": 4.7641778686659356e-05,
      "loss": 3.5805,
      "step": 355270
    },
    {
      "epoch": 0.7401666666666666,
      "grad_norm": 1.5611790418624878,
      "learning_rate": 4.763457240279918e-05,
      "loss": 3.4465,
      "step": 355280
    },
    {
      "epoch": 0.7401875,
      "grad_norm": 1.4030488729476929,
      "learning_rate": 4.762736656111712e-05,
      "loss": 3.4068,
      "step": 355290
    },
    {
      "epoch": 0.7402083333333334,
      "grad_norm": 1.3897294998168945,
      "learning_rate": 4.762016116164433e-05,
      "loss": 3.4528,
      "step": 355300
    },
    {
      "epoch": 0.7402291666666667,
      "grad_norm": 1.2799221277236938,
      "learning_rate": 4.761295620441189e-05,
      "loss": 3.4175,
      "step": 355310
    },
    {
      "epoch": 0.74025,
      "grad_norm": 1.6654249429702759,
      "learning_rate": 4.760575168945098e-05,
      "loss": 3.4774,
      "step": 355320
    },
    {
      "epoch": 0.7402708333333333,
      "grad_norm": 1.3247393369674683,
      "learning_rate": 4.759854761679268e-05,
      "loss": 3.502,
      "step": 355330
    },
    {
      "epoch": 0.7402916666666667,
      "grad_norm": 1.3830140829086304,
      "learning_rate": 4.7591343986468134e-05,
      "loss": 3.546,
      "step": 355340
    },
    {
      "epoch": 0.7403125,
      "grad_norm": 1.3064260482788086,
      "learning_rate": 4.758414079850843e-05,
      "loss": 3.3212,
      "step": 355350
    },
    {
      "epoch": 0.7403333333333333,
      "grad_norm": 1.5039634704589844,
      "learning_rate": 4.757693805294475e-05,
      "loss": 3.5536,
      "step": 355360
    },
    {
      "epoch": 0.7403541666666666,
      "grad_norm": 1.4059916734695435,
      "learning_rate": 4.7569735749808055e-05,
      "loss": 3.4708,
      "step": 355370
    },
    {
      "epoch": 0.740375,
      "grad_norm": 1.3864336013793945,
      "learning_rate": 4.756253388912967e-05,
      "loss": 3.3517,
      "step": 355380
    },
    {
      "epoch": 0.7403958333333334,
      "grad_norm": 1.2771471738815308,
      "learning_rate": 4.755533247094053e-05,
      "loss": 3.5915,
      "step": 355390
    },
    {
      "epoch": 0.7404166666666666,
      "grad_norm": 1.4144741296768188,
      "learning_rate": 4.754813149527176e-05,
      "loss": 3.6773,
      "step": 355400
    },
    {
      "epoch": 0.7404375,
      "grad_norm": 1.4017913341522217,
      "learning_rate": 4.7540930962154604e-05,
      "loss": 3.4126,
      "step": 355410
    },
    {
      "epoch": 0.7404583333333333,
      "grad_norm": 1.3320186138153076,
      "learning_rate": 4.753373087162002e-05,
      "loss": 3.3843,
      "step": 355420
    },
    {
      "epoch": 0.7404791666666667,
      "grad_norm": 1.4715745449066162,
      "learning_rate": 4.752653122369911e-05,
      "loss": 3.4506,
      "step": 355430
    },
    {
      "epoch": 0.7405,
      "grad_norm": 1.308434009552002,
      "learning_rate": 4.751933201842312e-05,
      "loss": 3.5048,
      "step": 355440
    },
    {
      "epoch": 0.7405208333333333,
      "grad_norm": 1.4341967105865479,
      "learning_rate": 4.751213325582302e-05,
      "loss": 3.5251,
      "step": 355450
    },
    {
      "epoch": 0.7405416666666667,
      "grad_norm": 1.4445686340332031,
      "learning_rate": 4.750493493592986e-05,
      "loss": 3.4838,
      "step": 355460
    },
    {
      "epoch": 0.7405625,
      "grad_norm": 1.3913642168045044,
      "learning_rate": 4.7497737058774924e-05,
      "loss": 3.519,
      "step": 355470
    },
    {
      "epoch": 0.7405833333333334,
      "grad_norm": 1.3502310514450073,
      "learning_rate": 4.749053962438913e-05,
      "loss": 3.582,
      "step": 355480
    },
    {
      "epoch": 0.7406041666666666,
      "grad_norm": 1.4582809209823608,
      "learning_rate": 4.748334263280359e-05,
      "loss": 3.4889,
      "step": 355490
    },
    {
      "epoch": 0.740625,
      "grad_norm": 1.380901575088501,
      "learning_rate": 4.7476146084049545e-05,
      "loss": 3.409,
      "step": 355500
    },
    {
      "epoch": 0.7406458333333333,
      "grad_norm": 1.691225290298462,
      "learning_rate": 4.7468949978157886e-05,
      "loss": 3.5675,
      "step": 355510
    },
    {
      "epoch": 0.7406666666666667,
      "grad_norm": 1.419677734375,
      "learning_rate": 4.7461754315159805e-05,
      "loss": 3.3664,
      "step": 355520
    },
    {
      "epoch": 0.7406875,
      "grad_norm": 1.6324204206466675,
      "learning_rate": 4.745455909508634e-05,
      "loss": 3.5102,
      "step": 355530
    },
    {
      "epoch": 0.7407083333333333,
      "grad_norm": 1.4873541593551636,
      "learning_rate": 4.744736431796859e-05,
      "loss": 3.5,
      "step": 355540
    },
    {
      "epoch": 0.7407291666666667,
      "grad_norm": 1.3304133415222168,
      "learning_rate": 4.744016998383764e-05,
      "loss": 3.4925,
      "step": 355550
    },
    {
      "epoch": 0.74075,
      "grad_norm": 1.4614026546478271,
      "learning_rate": 4.743297609272456e-05,
      "loss": 3.6082,
      "step": 355560
    },
    {
      "epoch": 0.7407708333333334,
      "grad_norm": 1.4602850675582886,
      "learning_rate": 4.742578264466043e-05,
      "loss": 3.3447,
      "step": 355570
    },
    {
      "epoch": 0.7407916666666666,
      "grad_norm": 1.300743579864502,
      "learning_rate": 4.741858963967631e-05,
      "loss": 3.3966,
      "step": 355580
    },
    {
      "epoch": 0.7408125,
      "grad_norm": 1.4082105159759521,
      "learning_rate": 4.741139707780328e-05,
      "loss": 3.4871,
      "step": 355590
    },
    {
      "epoch": 0.7408333333333333,
      "grad_norm": 1.3957595825195312,
      "learning_rate": 4.7404204959072394e-05,
      "loss": 3.4715,
      "step": 355600
    },
    {
      "epoch": 0.7408541666666667,
      "grad_norm": 1.372061848640442,
      "learning_rate": 4.739701328351476e-05,
      "loss": 3.6131,
      "step": 355610
    },
    {
      "epoch": 0.740875,
      "grad_norm": 1.3621571063995361,
      "learning_rate": 4.738982205116139e-05,
      "loss": 3.4392,
      "step": 355620
    },
    {
      "epoch": 0.7408958333333333,
      "grad_norm": 1.6182594299316406,
      "learning_rate": 4.738263126204339e-05,
      "loss": 3.5267,
      "step": 355630
    },
    {
      "epoch": 0.7409166666666667,
      "grad_norm": 1.62211275100708,
      "learning_rate": 4.7375440916191795e-05,
      "loss": 3.4407,
      "step": 355640
    },
    {
      "epoch": 0.7409375,
      "grad_norm": 1.3789645433425903,
      "learning_rate": 4.736825101363767e-05,
      "loss": 3.3476,
      "step": 355650
    },
    {
      "epoch": 0.7409583333333334,
      "grad_norm": 1.5459123849868774,
      "learning_rate": 4.736106155441208e-05,
      "loss": 3.501,
      "step": 355660
    },
    {
      "epoch": 0.7409791666666666,
      "grad_norm": 1.4415233135223389,
      "learning_rate": 4.735387253854613e-05,
      "loss": 3.4987,
      "step": 355670
    },
    {
      "epoch": 0.741,
      "grad_norm": 1.3122965097427368,
      "learning_rate": 4.7346683966070714e-05,
      "loss": 3.4601,
      "step": 355680
    },
    {
      "epoch": 0.7410208333333334,
      "grad_norm": 1.5032414197921753,
      "learning_rate": 4.733949583701705e-05,
      "loss": 3.4026,
      "step": 355690
    },
    {
      "epoch": 0.7410416666666667,
      "grad_norm": 1.2595243453979492,
      "learning_rate": 4.7332308151416175e-05,
      "loss": 3.4623,
      "step": 355700
    },
    {
      "epoch": 0.7410625,
      "grad_norm": 1.500348448753357,
      "learning_rate": 4.732512090929898e-05,
      "loss": 3.4406,
      "step": 355710
    },
    {
      "epoch": 0.7410833333333333,
      "grad_norm": 2.726901054382324,
      "learning_rate": 4.7317934110696685e-05,
      "loss": 3.4435,
      "step": 355720
    },
    {
      "epoch": 0.7411041666666667,
      "grad_norm": 1.5317745208740234,
      "learning_rate": 4.7310747755640324e-05,
      "loss": 3.4166,
      "step": 355730
    },
    {
      "epoch": 0.741125,
      "grad_norm": 1.7332261800765991,
      "learning_rate": 4.7303561844160766e-05,
      "loss": 3.4604,
      "step": 355740
    },
    {
      "epoch": 0.7411458333333333,
      "grad_norm": 1.3740761280059814,
      "learning_rate": 4.7296376376289275e-05,
      "loss": 3.3448,
      "step": 355750
    },
    {
      "epoch": 0.7411666666666666,
      "grad_norm": 1.3394426107406616,
      "learning_rate": 4.7289191352056746e-05,
      "loss": 3.3614,
      "step": 355760
    },
    {
      "epoch": 0.7411875,
      "grad_norm": 1.5443793535232544,
      "learning_rate": 4.72820067714942e-05,
      "loss": 3.424,
      "step": 355770
    },
    {
      "epoch": 0.7412083333333334,
      "grad_norm": 1.626064658164978,
      "learning_rate": 4.7274822634632826e-05,
      "loss": 3.3872,
      "step": 355780
    },
    {
      "epoch": 0.7412291666666667,
      "grad_norm": 1.287501335144043,
      "learning_rate": 4.7267638941503506e-05,
      "loss": 3.4374,
      "step": 355790
    },
    {
      "epoch": 0.74125,
      "grad_norm": 1.3118623495101929,
      "learning_rate": 4.7260455692137275e-05,
      "loss": 3.4768,
      "step": 355800
    },
    {
      "epoch": 0.7412708333333333,
      "grad_norm": 1.5737248659133911,
      "learning_rate": 4.7253272886565304e-05,
      "loss": 3.3294,
      "step": 355810
    },
    {
      "epoch": 0.7412916666666667,
      "grad_norm": 1.4463436603546143,
      "learning_rate": 4.724609052481847e-05,
      "loss": 3.3592,
      "step": 355820
    },
    {
      "epoch": 0.7413125,
      "grad_norm": 1.3536031246185303,
      "learning_rate": 4.7238908606927805e-05,
      "loss": 3.3611,
      "step": 355830
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 1.381213665008545,
      "learning_rate": 4.7231727132924485e-05,
      "loss": 3.477,
      "step": 355840
    },
    {
      "epoch": 0.7413541666666666,
      "grad_norm": 1.4669338464736938,
      "learning_rate": 4.722454610283937e-05,
      "loss": 3.5351,
      "step": 355850
    },
    {
      "epoch": 0.741375,
      "grad_norm": 1.5994477272033691,
      "learning_rate": 4.721736551670349e-05,
      "loss": 3.3606,
      "step": 355860
    },
    {
      "epoch": 0.7413958333333334,
      "grad_norm": 1.4586100578308105,
      "learning_rate": 4.7210185374548004e-05,
      "loss": 3.4379,
      "step": 355870
    },
    {
      "epoch": 0.7414166666666666,
      "grad_norm": 1.3327378034591675,
      "learning_rate": 4.720300567640378e-05,
      "loss": 3.5949,
      "step": 355880
    },
    {
      "epoch": 0.7414375,
      "grad_norm": 1.419846534729004,
      "learning_rate": 4.719582642230189e-05,
      "loss": 3.4208,
      "step": 355890
    },
    {
      "epoch": 0.7414583333333333,
      "grad_norm": 1.4078261852264404,
      "learning_rate": 4.718864761227332e-05,
      "loss": 3.591,
      "step": 355900
    },
    {
      "epoch": 0.7414791666666667,
      "grad_norm": 1.3745638132095337,
      "learning_rate": 4.7181469246349095e-05,
      "loss": 3.4448,
      "step": 355910
    },
    {
      "epoch": 0.7415,
      "grad_norm": 1.393677830696106,
      "learning_rate": 4.7174291324560246e-05,
      "loss": 3.4772,
      "step": 355920
    },
    {
      "epoch": 0.7415208333333333,
      "grad_norm": 1.3799042701721191,
      "learning_rate": 4.716711384693774e-05,
      "loss": 3.4842,
      "step": 355930
    },
    {
      "epoch": 0.7415416666666667,
      "grad_norm": 1.3986488580703735,
      "learning_rate": 4.715993681351261e-05,
      "loss": 3.3946,
      "step": 355940
    },
    {
      "epoch": 0.7415625,
      "grad_norm": 1.4432728290557861,
      "learning_rate": 4.715276022431583e-05,
      "loss": 3.438,
      "step": 355950
    },
    {
      "epoch": 0.7415833333333334,
      "grad_norm": 1.318842887878418,
      "learning_rate": 4.7145584079378426e-05,
      "loss": 3.447,
      "step": 355960
    },
    {
      "epoch": 0.7416041666666666,
      "grad_norm": 1.3988534212112427,
      "learning_rate": 4.7138408378731386e-05,
      "loss": 3.4496,
      "step": 355970
    },
    {
      "epoch": 0.741625,
      "grad_norm": 1.450814127922058,
      "learning_rate": 4.7131233122405704e-05,
      "loss": 3.388,
      "step": 355980
    },
    {
      "epoch": 0.7416458333333333,
      "grad_norm": 1.279921054840088,
      "learning_rate": 4.7124058310432374e-05,
      "loss": 3.5081,
      "step": 355990
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 1.3566958904266357,
      "learning_rate": 4.71168839428424e-05,
      "loss": 3.5929,
      "step": 356000
    },
    {
      "epoch": 0.7416666666666667,
      "eval_loss": 3.5379586219787598,
      "eval_runtime": 7.2849,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 356000
    },
    {
      "epoch": 0.7416875,
      "grad_norm": 1.3541404008865356,
      "learning_rate": 4.7109710019666805e-05,
      "loss": 3.4311,
      "step": 356010
    },
    {
      "epoch": 0.7417083333333333,
      "grad_norm": 1.4491472244262695,
      "learning_rate": 4.710253654093645e-05,
      "loss": 3.4274,
      "step": 356020
    },
    {
      "epoch": 0.7417291666666667,
      "grad_norm": 1.3622649908065796,
      "learning_rate": 4.7095363506682446e-05,
      "loss": 3.4949,
      "step": 356030
    },
    {
      "epoch": 0.74175,
      "grad_norm": 1.2757337093353271,
      "learning_rate": 4.7088190916935785e-05,
      "loss": 3.4183,
      "step": 356040
    },
    {
      "epoch": 0.7417708333333334,
      "grad_norm": 1.4985918998718262,
      "learning_rate": 4.708101877172732e-05,
      "loss": 3.3207,
      "step": 356050
    },
    {
      "epoch": 0.7417916666666666,
      "grad_norm": 1.4748843908309937,
      "learning_rate": 4.707384707108815e-05,
      "loss": 3.459,
      "step": 356060
    },
    {
      "epoch": 0.7418125,
      "grad_norm": 1.4341455698013306,
      "learning_rate": 4.7066675815049274e-05,
      "loss": 3.5505,
      "step": 356070
    },
    {
      "epoch": 0.7418333333333333,
      "grad_norm": 1.3781683444976807,
      "learning_rate": 4.705950500364152e-05,
      "loss": 3.4726,
      "step": 356080
    },
    {
      "epoch": 0.7418541666666667,
      "grad_norm": 1.5979740619659424,
      "learning_rate": 4.7052334636896e-05,
      "loss": 3.5372,
      "step": 356090
    },
    {
      "epoch": 0.741875,
      "grad_norm": 1.4517050981521606,
      "learning_rate": 4.704516471484371e-05,
      "loss": 3.4816,
      "step": 356100
    },
    {
      "epoch": 0.7418958333333333,
      "grad_norm": 1.7239371538162231,
      "learning_rate": 4.7037995237515444e-05,
      "loss": 3.3116,
      "step": 356110
    },
    {
      "epoch": 0.7419166666666667,
      "grad_norm": 1.4989886283874512,
      "learning_rate": 4.7030826204942374e-05,
      "loss": 3.5123,
      "step": 356120
    },
    {
      "epoch": 0.7419375,
      "grad_norm": 1.5663059949874878,
      "learning_rate": 4.702365761715533e-05,
      "loss": 3.4562,
      "step": 356130
    },
    {
      "epoch": 0.7419583333333334,
      "grad_norm": 1.3580830097198486,
      "learning_rate": 4.701648947418529e-05,
      "loss": 3.4519,
      "step": 356140
    },
    {
      "epoch": 0.7419791666666666,
      "grad_norm": 1.3534520864486694,
      "learning_rate": 4.700932177606334e-05,
      "loss": 3.4306,
      "step": 356150
    },
    {
      "epoch": 0.742,
      "grad_norm": 1.4427086114883423,
      "learning_rate": 4.70021545228203e-05,
      "loss": 3.4202,
      "step": 356160
    },
    {
      "epoch": 0.7420208333333334,
      "grad_norm": 1.4163070917129517,
      "learning_rate": 4.699498771448714e-05,
      "loss": 3.374,
      "step": 356170
    },
    {
      "epoch": 0.7420416666666667,
      "grad_norm": 1.4690608978271484,
      "learning_rate": 4.698782135109497e-05,
      "loss": 3.3893,
      "step": 356180
    },
    {
      "epoch": 0.7420625,
      "grad_norm": 1.435824990272522,
      "learning_rate": 4.6980655432674566e-05,
      "loss": 3.5181,
      "step": 356190
    },
    {
      "epoch": 0.7420833333333333,
      "grad_norm": 1.4581190347671509,
      "learning_rate": 4.697348995925692e-05,
      "loss": 3.5838,
      "step": 356200
    },
    {
      "epoch": 0.7421041666666667,
      "grad_norm": 1.3564631938934326,
      "learning_rate": 4.69663249308731e-05,
      "loss": 3.3725,
      "step": 356210
    },
    {
      "epoch": 0.742125,
      "grad_norm": 1.2671844959259033,
      "learning_rate": 4.695916034755395e-05,
      "loss": 3.4036,
      "step": 356220
    },
    {
      "epoch": 0.7421458333333333,
      "grad_norm": 1.4175821542739868,
      "learning_rate": 4.695199620933037e-05,
      "loss": 3.4803,
      "step": 356230
    },
    {
      "epoch": 0.7421666666666666,
      "grad_norm": 1.6362202167510986,
      "learning_rate": 4.6944832516233485e-05,
      "loss": 3.4457,
      "step": 356240
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 1.512967586517334,
      "learning_rate": 4.693766926829407e-05,
      "loss": 3.4754,
      "step": 356250
    },
    {
      "epoch": 0.7422083333333334,
      "grad_norm": 1.409083366394043,
      "learning_rate": 4.693050646554313e-05,
      "loss": 3.4151,
      "step": 356260
    },
    {
      "epoch": 0.7422291666666667,
      "grad_norm": 1.28294038772583,
      "learning_rate": 4.6923344108011614e-05,
      "loss": 3.4101,
      "step": 356270
    },
    {
      "epoch": 0.74225,
      "grad_norm": 1.4229949712753296,
      "learning_rate": 4.691618219573045e-05,
      "loss": 3.4925,
      "step": 356280
    },
    {
      "epoch": 0.7422708333333333,
      "grad_norm": 1.350124716758728,
      "learning_rate": 4.690902072873057e-05,
      "loss": 3.4669,
      "step": 356290
    },
    {
      "epoch": 0.7422916666666667,
      "grad_norm": 1.5893067121505737,
      "learning_rate": 4.6901859707042925e-05,
      "loss": 3.4476,
      "step": 356300
    },
    {
      "epoch": 0.7423125,
      "grad_norm": 1.487648844718933,
      "learning_rate": 4.689469913069842e-05,
      "loss": 3.6074,
      "step": 356310
    },
    {
      "epoch": 0.7423333333333333,
      "grad_norm": 1.4879858493804932,
      "learning_rate": 4.688753899972801e-05,
      "loss": 3.4249,
      "step": 356320
    },
    {
      "epoch": 0.7423541666666666,
      "grad_norm": 1.581952452659607,
      "learning_rate": 4.6880379314162625e-05,
      "loss": 3.3762,
      "step": 356330
    },
    {
      "epoch": 0.742375,
      "grad_norm": 1.3780769109725952,
      "learning_rate": 4.687322007403318e-05,
      "loss": 3.5564,
      "step": 356340
    },
    {
      "epoch": 0.7423958333333334,
      "grad_norm": 1.3602707386016846,
      "learning_rate": 4.68660612793706e-05,
      "loss": 3.494,
      "step": 356350
    },
    {
      "epoch": 0.7424166666666666,
      "grad_norm": 1.5938626527786255,
      "learning_rate": 4.685890293020581e-05,
      "loss": 3.4209,
      "step": 356360
    },
    {
      "epoch": 0.7424375,
      "grad_norm": 1.3135292530059814,
      "learning_rate": 4.685174502656972e-05,
      "loss": 3.397,
      "step": 356370
    },
    {
      "epoch": 0.7424583333333333,
      "grad_norm": 1.676436185836792,
      "learning_rate": 4.684458756849334e-05,
      "loss": 3.308,
      "step": 356380
    },
    {
      "epoch": 0.7424791666666667,
      "grad_norm": 1.4085090160369873,
      "learning_rate": 4.683743055600739e-05,
      "loss": 3.472,
      "step": 356390
    },
    {
      "epoch": 0.7425,
      "grad_norm": 1.3803666830062866,
      "learning_rate": 4.6830273989142976e-05,
      "loss": 3.4463,
      "step": 356400
    },
    {
      "epoch": 0.7425208333333333,
      "grad_norm": 1.4102468490600586,
      "learning_rate": 4.6823117867930973e-05,
      "loss": 3.4457,
      "step": 356410
    },
    {
      "epoch": 0.7425416666666667,
      "grad_norm": 1.498224139213562,
      "learning_rate": 4.6815962192402175e-05,
      "loss": 3.4061,
      "step": 356420
    },
    {
      "epoch": 0.7425625,
      "grad_norm": 1.487302303314209,
      "learning_rate": 4.680880696258762e-05,
      "loss": 3.4456,
      "step": 356430
    },
    {
      "epoch": 0.7425833333333334,
      "grad_norm": 1.3056162595748901,
      "learning_rate": 4.6801652178518216e-05,
      "loss": 3.5409,
      "step": 356440
    },
    {
      "epoch": 0.7426041666666666,
      "grad_norm": 1.4242748022079468,
      "learning_rate": 4.679449784022474e-05,
      "loss": 3.4416,
      "step": 356450
    },
    {
      "epoch": 0.742625,
      "grad_norm": 1.2631052732467651,
      "learning_rate": 4.678734394773823e-05,
      "loss": 3.3423,
      "step": 356460
    },
    {
      "epoch": 0.7426458333333333,
      "grad_norm": 1.298052191734314,
      "learning_rate": 4.6780190501089576e-05,
      "loss": 3.3825,
      "step": 356470
    },
    {
      "epoch": 0.7426666666666667,
      "grad_norm": 1.4223769903182983,
      "learning_rate": 4.6773037500309553e-05,
      "loss": 3.493,
      "step": 356480
    },
    {
      "epoch": 0.7426875,
      "grad_norm": 1.3794217109680176,
      "learning_rate": 4.6765884945429196e-05,
      "loss": 3.5646,
      "step": 356490
    },
    {
      "epoch": 0.7427083333333333,
      "grad_norm": 1.3865251541137695,
      "learning_rate": 4.6758732836479395e-05,
      "loss": 3.4457,
      "step": 356500
    },
    {
      "epoch": 0.7427291666666667,
      "grad_norm": 1.3785789012908936,
      "learning_rate": 4.67515811734909e-05,
      "loss": 3.5657,
      "step": 356510
    },
    {
      "epoch": 0.74275,
      "grad_norm": 1.542227029800415,
      "learning_rate": 4.674442995649481e-05,
      "loss": 3.3616,
      "step": 356520
    },
    {
      "epoch": 0.7427708333333334,
      "grad_norm": 1.3270782232284546,
      "learning_rate": 4.673727918552187e-05,
      "loss": 3.3476,
      "step": 356530
    },
    {
      "epoch": 0.7427916666666666,
      "grad_norm": 1.4225858449935913,
      "learning_rate": 4.6730128860603016e-05,
      "loss": 3.4414,
      "step": 356540
    },
    {
      "epoch": 0.7428125,
      "grad_norm": 1.5075829029083252,
      "learning_rate": 4.672297898176911e-05,
      "loss": 3.3528,
      "step": 356550
    },
    {
      "epoch": 0.7428333333333333,
      "grad_norm": 1.3716282844543457,
      "learning_rate": 4.671582954905106e-05,
      "loss": 3.3963,
      "step": 356560
    },
    {
      "epoch": 0.7428541666666667,
      "grad_norm": 1.4251476526260376,
      "learning_rate": 4.670868056247976e-05,
      "loss": 3.4594,
      "step": 356570
    },
    {
      "epoch": 0.742875,
      "grad_norm": 1.327517032623291,
      "learning_rate": 4.670153202208606e-05,
      "loss": 3.4169,
      "step": 356580
    },
    {
      "epoch": 0.7428958333333333,
      "grad_norm": 1.4301228523254395,
      "learning_rate": 4.669438392790085e-05,
      "loss": 3.3853,
      "step": 356590
    },
    {
      "epoch": 0.7429166666666667,
      "grad_norm": 1.544005274772644,
      "learning_rate": 4.6687236279955015e-05,
      "loss": 3.5074,
      "step": 356600
    },
    {
      "epoch": 0.7429375,
      "grad_norm": 1.282626748085022,
      "learning_rate": 4.668008907827942e-05,
      "loss": 3.4468,
      "step": 356610
    },
    {
      "epoch": 0.7429583333333334,
      "grad_norm": 1.3999096155166626,
      "learning_rate": 4.667294232290496e-05,
      "loss": 3.4083,
      "step": 356620
    },
    {
      "epoch": 0.7429791666666666,
      "grad_norm": 1.3307087421417236,
      "learning_rate": 4.666579601386246e-05,
      "loss": 3.4407,
      "step": 356630
    },
    {
      "epoch": 0.743,
      "grad_norm": 1.403312087059021,
      "learning_rate": 4.665865015118285e-05,
      "loss": 3.391,
      "step": 356640
    },
    {
      "epoch": 0.7430208333333334,
      "grad_norm": 1.4203118085861206,
      "learning_rate": 4.6651504734896935e-05,
      "loss": 3.4665,
      "step": 356650
    },
    {
      "epoch": 0.7430416666666667,
      "grad_norm": 1.4319957494735718,
      "learning_rate": 4.664435976503564e-05,
      "loss": 3.3947,
      "step": 356660
    },
    {
      "epoch": 0.7430625,
      "grad_norm": 1.3400282859802246,
      "learning_rate": 4.663721524162979e-05,
      "loss": 3.498,
      "step": 356670
    },
    {
      "epoch": 0.7430833333333333,
      "grad_norm": 1.5453948974609375,
      "learning_rate": 4.6630071164710246e-05,
      "loss": 3.3788,
      "step": 356680
    },
    {
      "epoch": 0.7431041666666667,
      "grad_norm": 1.6643012762069702,
      "learning_rate": 4.66229275343079e-05,
      "loss": 3.2434,
      "step": 356690
    },
    {
      "epoch": 0.743125,
      "grad_norm": 1.4088287353515625,
      "learning_rate": 4.6615784350453564e-05,
      "loss": 3.4507,
      "step": 356700
    },
    {
      "epoch": 0.7431458333333333,
      "grad_norm": 1.4394491910934448,
      "learning_rate": 4.660864161317813e-05,
      "loss": 3.4108,
      "step": 356710
    },
    {
      "epoch": 0.7431666666666666,
      "grad_norm": 1.386108160018921,
      "learning_rate": 4.660149932251244e-05,
      "loss": 3.4954,
      "step": 356720
    },
    {
      "epoch": 0.7431875,
      "grad_norm": 1.2842178344726562,
      "learning_rate": 4.659435747848733e-05,
      "loss": 3.3896,
      "step": 356730
    },
    {
      "epoch": 0.7432083333333334,
      "grad_norm": 1.440018653869629,
      "learning_rate": 4.658721608113368e-05,
      "loss": 3.4376,
      "step": 356740
    },
    {
      "epoch": 0.7432291666666667,
      "grad_norm": 1.569672703742981,
      "learning_rate": 4.6580075130482366e-05,
      "loss": 3.4821,
      "step": 356750
    },
    {
      "epoch": 0.74325,
      "grad_norm": 1.4264527559280396,
      "learning_rate": 4.6572934626564104e-05,
      "loss": 3.4729,
      "step": 356760
    },
    {
      "epoch": 0.7432708333333333,
      "grad_norm": 1.5270185470581055,
      "learning_rate": 4.6565794569409866e-05,
      "loss": 3.4724,
      "step": 356770
    },
    {
      "epoch": 0.7432916666666667,
      "grad_norm": 1.439900517463684,
      "learning_rate": 4.655865495905049e-05,
      "loss": 3.2942,
      "step": 356780
    },
    {
      "epoch": 0.7433125,
      "grad_norm": 1.4552099704742432,
      "learning_rate": 4.6551515795516706e-05,
      "loss": 3.562,
      "step": 356790
    },
    {
      "epoch": 0.7433333333333333,
      "grad_norm": 1.4692635536193848,
      "learning_rate": 4.6544377078839446e-05,
      "loss": 3.4652,
      "step": 356800
    },
    {
      "epoch": 0.7433541666666666,
      "grad_norm": 1.3886908292770386,
      "learning_rate": 4.65372388090496e-05,
      "loss": 3.5034,
      "step": 356810
    },
    {
      "epoch": 0.743375,
      "grad_norm": 1.5168770551681519,
      "learning_rate": 4.653010098617782e-05,
      "loss": 3.4197,
      "step": 356820
    },
    {
      "epoch": 0.7433958333333334,
      "grad_norm": 1.3732794523239136,
      "learning_rate": 4.6522963610255106e-05,
      "loss": 3.4105,
      "step": 356830
    },
    {
      "epoch": 0.7434166666666666,
      "grad_norm": 1.3399841785430908,
      "learning_rate": 4.6515826681312276e-05,
      "loss": 3.415,
      "step": 356840
    },
    {
      "epoch": 0.7434375,
      "grad_norm": 1.6185188293457031,
      "learning_rate": 4.650869019938005e-05,
      "loss": 3.5583,
      "step": 356850
    },
    {
      "epoch": 0.7434583333333333,
      "grad_norm": 1.3947174549102783,
      "learning_rate": 4.6501554164489275e-05,
      "loss": 3.3718,
      "step": 356860
    },
    {
      "epoch": 0.7434791666666667,
      "grad_norm": 1.412014365196228,
      "learning_rate": 4.649441857667092e-05,
      "loss": 3.4147,
      "step": 356870
    },
    {
      "epoch": 0.7435,
      "grad_norm": 1.4162228107452393,
      "learning_rate": 4.648728343595566e-05,
      "loss": 3.5947,
      "step": 356880
    },
    {
      "epoch": 0.7435208333333333,
      "grad_norm": 1.3207460641860962,
      "learning_rate": 4.6480148742374356e-05,
      "loss": 3.485,
      "step": 356890
    },
    {
      "epoch": 0.7435416666666667,
      "grad_norm": 1.5367122888565063,
      "learning_rate": 4.647301449595785e-05,
      "loss": 3.4203,
      "step": 356900
    },
    {
      "epoch": 0.7435625,
      "grad_norm": 1.4676202535629272,
      "learning_rate": 4.646588069673693e-05,
      "loss": 3.431,
      "step": 356910
    },
    {
      "epoch": 0.7435833333333334,
      "grad_norm": 1.4250738620758057,
      "learning_rate": 4.645874734474242e-05,
      "loss": 3.5875,
      "step": 356920
    },
    {
      "epoch": 0.7436041666666666,
      "grad_norm": 1.4941959381103516,
      "learning_rate": 4.645161444000514e-05,
      "loss": 3.4578,
      "step": 356930
    },
    {
      "epoch": 0.743625,
      "grad_norm": 1.549451231956482,
      "learning_rate": 4.64444819825559e-05,
      "loss": 3.463,
      "step": 356940
    },
    {
      "epoch": 0.7436458333333333,
      "grad_norm": 1.3258936405181885,
      "learning_rate": 4.64373499724255e-05,
      "loss": 3.4072,
      "step": 356950
    },
    {
      "epoch": 0.7436666666666667,
      "grad_norm": 1.5163692235946655,
      "learning_rate": 4.643021840964477e-05,
      "loss": 3.3594,
      "step": 356960
    },
    {
      "epoch": 0.7436875,
      "grad_norm": 2.043264150619507,
      "learning_rate": 4.6423087294244484e-05,
      "loss": 3.5156,
      "step": 356970
    },
    {
      "epoch": 0.7437083333333333,
      "grad_norm": 1.3005988597869873,
      "learning_rate": 4.6415956626255474e-05,
      "loss": 3.6203,
      "step": 356980
    },
    {
      "epoch": 0.7437291666666667,
      "grad_norm": 1.4384574890136719,
      "learning_rate": 4.6408826405708534e-05,
      "loss": 3.4966,
      "step": 356990
    },
    {
      "epoch": 0.74375,
      "grad_norm": 1.4498523473739624,
      "learning_rate": 4.640169663263445e-05,
      "loss": 3.3514,
      "step": 357000
    },
    {
      "epoch": 0.74375,
      "eval_loss": 3.5389091968536377,
      "eval_runtime": 6.9926,
      "eval_samples_per_second": 1.43,
      "eval_steps_per_second": 0.429,
      "step": 357000
    },
    {
      "epoch": 0.7437708333333334,
      "grad_norm": 1.3936437368392944,
      "learning_rate": 4.6394567307064034e-05,
      "loss": 3.4777,
      "step": 357010
    },
    {
      "epoch": 0.7437916666666666,
      "grad_norm": 1.4260340929031372,
      "learning_rate": 4.6387438429028076e-05,
      "loss": 3.5121,
      "step": 357020
    },
    {
      "epoch": 0.7438125,
      "grad_norm": 1.3952194452285767,
      "learning_rate": 4.6380309998557355e-05,
      "loss": 3.5882,
      "step": 357030
    },
    {
      "epoch": 0.7438333333333333,
      "grad_norm": 1.388316035270691,
      "learning_rate": 4.6373182015682696e-05,
      "loss": 3.3837,
      "step": 357040
    },
    {
      "epoch": 0.7438541666666667,
      "grad_norm": 1.3340184688568115,
      "learning_rate": 4.636605448043489e-05,
      "loss": 3.543,
      "step": 357050
    },
    {
      "epoch": 0.743875,
      "grad_norm": 1.3929443359375,
      "learning_rate": 4.6358927392844673e-05,
      "loss": 3.3683,
      "step": 357060
    },
    {
      "epoch": 0.7438958333333333,
      "grad_norm": 1.430873990058899,
      "learning_rate": 4.635180075294288e-05,
      "loss": 3.3401,
      "step": 357070
    },
    {
      "epoch": 0.7439166666666667,
      "grad_norm": 1.3117036819458008,
      "learning_rate": 4.63446745607603e-05,
      "loss": 3.4184,
      "step": 357080
    },
    {
      "epoch": 0.7439375,
      "grad_norm": 1.3786782026290894,
      "learning_rate": 4.633754881632767e-05,
      "loss": 3.5133,
      "step": 357090
    },
    {
      "epoch": 0.7439583333333334,
      "grad_norm": 1.3009297847747803,
      "learning_rate": 4.63304235196758e-05,
      "loss": 3.4352,
      "step": 357100
    },
    {
      "epoch": 0.7439791666666666,
      "grad_norm": 1.4356777667999268,
      "learning_rate": 4.6323298670835476e-05,
      "loss": 3.5103,
      "step": 357110
    },
    {
      "epoch": 0.744,
      "grad_norm": 1.5757249593734741,
      "learning_rate": 4.631617426983751e-05,
      "loss": 3.4684,
      "step": 357120
    },
    {
      "epoch": 0.7440208333333334,
      "grad_norm": 1.3671208620071411,
      "learning_rate": 4.630905031671258e-05,
      "loss": 3.6236,
      "step": 357130
    },
    {
      "epoch": 0.7440416666666667,
      "grad_norm": 1.3573191165924072,
      "learning_rate": 4.6301926811491454e-05,
      "loss": 3.5017,
      "step": 357140
    },
    {
      "epoch": 0.7440625,
      "grad_norm": 1.3668720722198486,
      "learning_rate": 4.629480375420506e-05,
      "loss": 3.3583,
      "step": 357150
    },
    {
      "epoch": 0.7440833333333333,
      "grad_norm": 1.315876841545105,
      "learning_rate": 4.628768114488402e-05,
      "loss": 3.5084,
      "step": 357160
    },
    {
      "epoch": 0.7441041666666667,
      "grad_norm": 1.3808180093765259,
      "learning_rate": 4.6280558983559084e-05,
      "loss": 3.2287,
      "step": 357170
    },
    {
      "epoch": 0.744125,
      "grad_norm": 1.2389652729034424,
      "learning_rate": 4.627343727026118e-05,
      "loss": 3.4515,
      "step": 357180
    },
    {
      "epoch": 0.7441458333333333,
      "grad_norm": 1.2563152313232422,
      "learning_rate": 4.626631600502094e-05,
      "loss": 3.533,
      "step": 357190
    },
    {
      "epoch": 0.7441666666666666,
      "grad_norm": 1.2049534320831299,
      "learning_rate": 4.6259195187869074e-05,
      "loss": 3.3913,
      "step": 357200
    },
    {
      "epoch": 0.7441875,
      "grad_norm": 1.5294620990753174,
      "learning_rate": 4.6252074818836534e-05,
      "loss": 3.4024,
      "step": 357210
    },
    {
      "epoch": 0.7442083333333334,
      "grad_norm": 1.4310582876205444,
      "learning_rate": 4.6244954897953915e-05,
      "loss": 3.3376,
      "step": 357220
    },
    {
      "epoch": 0.7442291666666667,
      "grad_norm": 1.5747811794281006,
      "learning_rate": 4.623783542525197e-05,
      "loss": 3.3364,
      "step": 357230
    },
    {
      "epoch": 0.74425,
      "grad_norm": 1.4512313604354858,
      "learning_rate": 4.623071640076161e-05,
      "loss": 3.5597,
      "step": 357240
    },
    {
      "epoch": 0.7442708333333333,
      "grad_norm": 1.5167359113693237,
      "learning_rate": 4.622359782451343e-05,
      "loss": 3.3697,
      "step": 357250
    },
    {
      "epoch": 0.7442916666666667,
      "grad_norm": 1.395666241645813,
      "learning_rate": 4.6216479696538235e-05,
      "loss": 3.3985,
      "step": 357260
    },
    {
      "epoch": 0.7443125,
      "grad_norm": 1.6092227697372437,
      "learning_rate": 4.6209362016866745e-05,
      "loss": 3.5773,
      "step": 357270
    },
    {
      "epoch": 0.7443333333333333,
      "grad_norm": 1.3264175653457642,
      "learning_rate": 4.6202244785529746e-05,
      "loss": 3.4764,
      "step": 357280
    },
    {
      "epoch": 0.7443541666666667,
      "grad_norm": 1.4221464395523071,
      "learning_rate": 4.6195128002557976e-05,
      "loss": 3.2913,
      "step": 357290
    },
    {
      "epoch": 0.744375,
      "grad_norm": 1.3893343210220337,
      "learning_rate": 4.618801166798214e-05,
      "loss": 3.4858,
      "step": 357300
    },
    {
      "epoch": 0.7443958333333334,
      "grad_norm": 1.5415318012237549,
      "learning_rate": 4.6180895781833016e-05,
      "loss": 3.3986,
      "step": 357310
    },
    {
      "epoch": 0.7444166666666666,
      "grad_norm": 1.4733538627624512,
      "learning_rate": 4.6173780344141315e-05,
      "loss": 3.4098,
      "step": 357320
    },
    {
      "epoch": 0.7444375,
      "grad_norm": 1.5632833242416382,
      "learning_rate": 4.616666535493779e-05,
      "loss": 3.5731,
      "step": 357330
    },
    {
      "epoch": 0.7444583333333333,
      "grad_norm": 1.4596673250198364,
      "learning_rate": 4.615955081425318e-05,
      "loss": 3.4327,
      "step": 357340
    },
    {
      "epoch": 0.7444791666666667,
      "grad_norm": 1.4272680282592773,
      "learning_rate": 4.6152436722118194e-05,
      "loss": 3.3451,
      "step": 357350
    },
    {
      "epoch": 0.7445,
      "grad_norm": 1.3323763608932495,
      "learning_rate": 4.6145323078563576e-05,
      "loss": 3.4634,
      "step": 357360
    },
    {
      "epoch": 0.7445208333333333,
      "grad_norm": 1.3921926021575928,
      "learning_rate": 4.6138209883620064e-05,
      "loss": 3.5082,
      "step": 357370
    },
    {
      "epoch": 0.7445416666666667,
      "grad_norm": 1.4820998907089233,
      "learning_rate": 4.6131097137318374e-05,
      "loss": 3.5319,
      "step": 357380
    },
    {
      "epoch": 0.7445625,
      "grad_norm": 1.4652552604675293,
      "learning_rate": 4.612398483968923e-05,
      "loss": 3.4602,
      "step": 357390
    },
    {
      "epoch": 0.7445833333333334,
      "grad_norm": 1.5858253240585327,
      "learning_rate": 4.611687299076335e-05,
      "loss": 3.3558,
      "step": 357400
    },
    {
      "epoch": 0.7446041666666666,
      "grad_norm": 1.4268969297409058,
      "learning_rate": 4.61097615905715e-05,
      "loss": 3.334,
      "step": 357410
    },
    {
      "epoch": 0.744625,
      "grad_norm": 1.3957743644714355,
      "learning_rate": 4.6102650639144274e-05,
      "loss": 3.4755,
      "step": 357420
    },
    {
      "epoch": 0.7446458333333333,
      "grad_norm": 1.3841015100479126,
      "learning_rate": 4.6095540136512514e-05,
      "loss": 3.4305,
      "step": 357430
    },
    {
      "epoch": 0.7446666666666667,
      "grad_norm": 1.535501480102539,
      "learning_rate": 4.608843008270693e-05,
      "loss": 3.4336,
      "step": 357440
    },
    {
      "epoch": 0.7446875,
      "grad_norm": 1.4688994884490967,
      "learning_rate": 4.608132047775812e-05,
      "loss": 3.452,
      "step": 357450
    },
    {
      "epoch": 0.7447083333333333,
      "grad_norm": 1.5116297006607056,
      "learning_rate": 4.607421132169692e-05,
      "loss": 3.4208,
      "step": 357460
    },
    {
      "epoch": 0.7447291666666667,
      "grad_norm": 1.4745984077453613,
      "learning_rate": 4.606710261455402e-05,
      "loss": 3.4427,
      "step": 357470
    },
    {
      "epoch": 0.74475,
      "grad_norm": 1.5051591396331787,
      "learning_rate": 4.6059994356360015e-05,
      "loss": 3.5812,
      "step": 357480
    },
    {
      "epoch": 0.7447708333333334,
      "grad_norm": 1.476019263267517,
      "learning_rate": 4.6052886547145746e-05,
      "loss": 3.4227,
      "step": 357490
    },
    {
      "epoch": 0.7447916666666666,
      "grad_norm": 1.4484022855758667,
      "learning_rate": 4.604577918694189e-05,
      "loss": 3.4233,
      "step": 357500
    },
    {
      "epoch": 0.7448125,
      "grad_norm": 1.3840798139572144,
      "learning_rate": 4.603867227577904e-05,
      "loss": 3.3821,
      "step": 357510
    },
    {
      "epoch": 0.7448333333333333,
      "grad_norm": 2.402249336242676,
      "learning_rate": 4.6031565813688065e-05,
      "loss": 3.7327,
      "step": 357520
    },
    {
      "epoch": 0.7448541666666667,
      "grad_norm": 1.315012812614441,
      "learning_rate": 4.6024459800699514e-05,
      "loss": 3.4664,
      "step": 357530
    },
    {
      "epoch": 0.744875,
      "grad_norm": 1.4752751588821411,
      "learning_rate": 4.601735423684411e-05,
      "loss": 3.4612,
      "step": 357540
    },
    {
      "epoch": 0.7448958333333333,
      "grad_norm": 1.396144151687622,
      "learning_rate": 4.6010249122152664e-05,
      "loss": 3.3387,
      "step": 357550
    },
    {
      "epoch": 0.7449166666666667,
      "grad_norm": 1.2879694700241089,
      "learning_rate": 4.600314445665573e-05,
      "loss": 3.4874,
      "step": 357560
    },
    {
      "epoch": 0.7449375,
      "grad_norm": 1.444156289100647,
      "learning_rate": 4.599604024038401e-05,
      "loss": 3.4754,
      "step": 357570
    },
    {
      "epoch": 0.7449583333333333,
      "grad_norm": 1.4181935787200928,
      "learning_rate": 4.5988936473368314e-05,
      "loss": 3.4184,
      "step": 357580
    },
    {
      "epoch": 0.7449791666666666,
      "grad_norm": 1.277392864227295,
      "learning_rate": 4.59818331556392e-05,
      "loss": 3.3588,
      "step": 357590
    },
    {
      "epoch": 0.745,
      "grad_norm": 1.343309998512268,
      "learning_rate": 4.597473028722735e-05,
      "loss": 3.3553,
      "step": 357600
    },
    {
      "epoch": 0.7450208333333334,
      "grad_norm": 1.391047477722168,
      "learning_rate": 4.596762786816357e-05,
      "loss": 3.5095,
      "step": 357610
    },
    {
      "epoch": 0.7450416666666667,
      "grad_norm": 1.336621880531311,
      "learning_rate": 4.596052589847841e-05,
      "loss": 3.3973,
      "step": 357620
    },
    {
      "epoch": 0.7450625,
      "grad_norm": 1.4071831703186035,
      "learning_rate": 4.5953424378202615e-05,
      "loss": 3.4052,
      "step": 357630
    },
    {
      "epoch": 0.7450833333333333,
      "grad_norm": 1.424311876296997,
      "learning_rate": 4.594632330736682e-05,
      "loss": 3.392,
      "step": 357640
    },
    {
      "epoch": 0.7451041666666667,
      "grad_norm": 1.5405656099319458,
      "learning_rate": 4.5939222686001734e-05,
      "loss": 3.3344,
      "step": 357650
    },
    {
      "epoch": 0.745125,
      "grad_norm": 1.4401419162750244,
      "learning_rate": 4.5932122514138015e-05,
      "loss": 3.4006,
      "step": 357660
    },
    {
      "epoch": 0.7451458333333333,
      "grad_norm": 1.5354139804840088,
      "learning_rate": 4.592502279180634e-05,
      "loss": 3.384,
      "step": 357670
    },
    {
      "epoch": 0.7451666666666666,
      "grad_norm": 1.4334795475006104,
      "learning_rate": 4.591792351903736e-05,
      "loss": 3.4837,
      "step": 357680
    },
    {
      "epoch": 0.7451875,
      "grad_norm": 1.261056661605835,
      "learning_rate": 4.591082469586175e-05,
      "loss": 3.3894,
      "step": 357690
    },
    {
      "epoch": 0.7452083333333334,
      "grad_norm": 1.566456913948059,
      "learning_rate": 4.590372632231019e-05,
      "loss": 3.4072,
      "step": 357700
    },
    {
      "epoch": 0.7452291666666667,
      "grad_norm": 1.2740243673324585,
      "learning_rate": 4.589662839841332e-05,
      "loss": 3.3808,
      "step": 357710
    },
    {
      "epoch": 0.74525,
      "grad_norm": 1.4216116666793823,
      "learning_rate": 4.58895309242018e-05,
      "loss": 3.3356,
      "step": 357720
    },
    {
      "epoch": 0.7452708333333333,
      "grad_norm": 1.517710566520691,
      "learning_rate": 4.588243389970632e-05,
      "loss": 3.5469,
      "step": 357730
    },
    {
      "epoch": 0.7452916666666667,
      "grad_norm": 1.3740170001983643,
      "learning_rate": 4.587533732495749e-05,
      "loss": 3.4768,
      "step": 357740
    },
    {
      "epoch": 0.7453125,
      "grad_norm": 1.44217848777771,
      "learning_rate": 4.5868241199986045e-05,
      "loss": 3.4354,
      "step": 357750
    },
    {
      "epoch": 0.7453333333333333,
      "grad_norm": 1.2888463735580444,
      "learning_rate": 4.586114552482249e-05,
      "loss": 3.4384,
      "step": 357760
    },
    {
      "epoch": 0.7453541666666667,
      "grad_norm": 1.445203185081482,
      "learning_rate": 4.5854050299497604e-05,
      "loss": 3.4509,
      "step": 357770
    },
    {
      "epoch": 0.745375,
      "grad_norm": 1.5254106521606445,
      "learning_rate": 4.584695552404204e-05,
      "loss": 3.5503,
      "step": 357780
    },
    {
      "epoch": 0.7453958333333334,
      "grad_norm": 1.7850364446640015,
      "learning_rate": 4.583986119848631e-05,
      "loss": 3.4238,
      "step": 357790
    },
    {
      "epoch": 0.7454166666666666,
      "grad_norm": 1.393752098083496,
      "learning_rate": 4.5832767322861206e-05,
      "loss": 3.3146,
      "step": 357800
    },
    {
      "epoch": 0.7454375,
      "grad_norm": 1.5104340314865112,
      "learning_rate": 4.582567389719736e-05,
      "loss": 3.3387,
      "step": 357810
    },
    {
      "epoch": 0.7454583333333333,
      "grad_norm": 1.4416700601577759,
      "learning_rate": 4.581858092152527e-05,
      "loss": 3.4226,
      "step": 357820
    },
    {
      "epoch": 0.7454791666666667,
      "grad_norm": 1.4519329071044922,
      "learning_rate": 4.581148839587571e-05,
      "loss": 3.5248,
      "step": 357830
    },
    {
      "epoch": 0.7455,
      "grad_norm": 1.3933311700820923,
      "learning_rate": 4.580439632027933e-05,
      "loss": 3.286,
      "step": 357840
    },
    {
      "epoch": 0.7455208333333333,
      "grad_norm": 1.4203944206237793,
      "learning_rate": 4.5797304694766626e-05,
      "loss": 3.466,
      "step": 357850
    },
    {
      "epoch": 0.7455416666666667,
      "grad_norm": 1.3909673690795898,
      "learning_rate": 4.579021351936837e-05,
      "loss": 3.4367,
      "step": 357860
    },
    {
      "epoch": 0.7455625,
      "grad_norm": 1.4323058128356934,
      "learning_rate": 4.578312279411519e-05,
      "loss": 3.4174,
      "step": 357870
    },
    {
      "epoch": 0.7455833333333334,
      "grad_norm": 1.4091192483901978,
      "learning_rate": 4.577603251903757e-05,
      "loss": 3.408,
      "step": 357880
    },
    {
      "epoch": 0.7456041666666666,
      "grad_norm": 1.4766874313354492,
      "learning_rate": 4.576894269416633e-05,
      "loss": 3.5356,
      "step": 357890
    },
    {
      "epoch": 0.745625,
      "grad_norm": 1.446722149848938,
      "learning_rate": 4.576185331953194e-05,
      "loss": 3.3971,
      "step": 357900
    },
    {
      "epoch": 0.7456458333333333,
      "grad_norm": 1.4646018743515015,
      "learning_rate": 4.575476439516506e-05,
      "loss": 3.4974,
      "step": 357910
    },
    {
      "epoch": 0.7456666666666667,
      "grad_norm": 1.551905632019043,
      "learning_rate": 4.574767592109641e-05,
      "loss": 3.2849,
      "step": 357920
    },
    {
      "epoch": 0.7456875,
      "grad_norm": 1.3744200468063354,
      "learning_rate": 4.57405878973565e-05,
      "loss": 3.3755,
      "step": 357930
    },
    {
      "epoch": 0.7457083333333333,
      "grad_norm": 1.5283973217010498,
      "learning_rate": 4.5733500323975925e-05,
      "loss": 3.2515,
      "step": 357940
    },
    {
      "epoch": 0.7457291666666667,
      "grad_norm": 1.472212314605713,
      "learning_rate": 4.5726413200985454e-05,
      "loss": 3.4433,
      "step": 357950
    },
    {
      "epoch": 0.74575,
      "grad_norm": 1.5652785301208496,
      "learning_rate": 4.5719326528415554e-05,
      "loss": 3.6196,
      "step": 357960
    },
    {
      "epoch": 0.7457708333333334,
      "grad_norm": 1.5699021816253662,
      "learning_rate": 4.5712240306296846e-05,
      "loss": 3.3412,
      "step": 357970
    },
    {
      "epoch": 0.7457916666666666,
      "grad_norm": 1.4878724813461304,
      "learning_rate": 4.5705154534660076e-05,
      "loss": 3.5477,
      "step": 357980
    },
    {
      "epoch": 0.7458125,
      "grad_norm": 1.3202807903289795,
      "learning_rate": 4.5698069213535695e-05,
      "loss": 3.4299,
      "step": 357990
    },
    {
      "epoch": 0.7458333333333333,
      "grad_norm": 1.387457013130188,
      "learning_rate": 4.5690984342954373e-05,
      "loss": 3.5727,
      "step": 358000
    },
    {
      "epoch": 0.7458333333333333,
      "eval_loss": 3.5316104888916016,
      "eval_runtime": 6.8664,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 358000
    },
    {
      "epoch": 0.7458541666666667,
      "grad_norm": 1.3334691524505615,
      "learning_rate": 4.5683899922946725e-05,
      "loss": 3.352,
      "step": 358010
    },
    {
      "epoch": 0.745875,
      "grad_norm": 1.3183857202529907,
      "learning_rate": 4.567681595354332e-05,
      "loss": 3.4304,
      "step": 358020
    },
    {
      "epoch": 0.7458958333333333,
      "grad_norm": 1.4669675827026367,
      "learning_rate": 4.566973243477478e-05,
      "loss": 3.4975,
      "step": 358030
    },
    {
      "epoch": 0.7459166666666667,
      "grad_norm": 1.4296611547470093,
      "learning_rate": 4.566264936667171e-05,
      "loss": 3.4722,
      "step": 358040
    },
    {
      "epoch": 0.7459375,
      "grad_norm": 1.3708899021148682,
      "learning_rate": 4.565556674926468e-05,
      "loss": 3.3818,
      "step": 358050
    },
    {
      "epoch": 0.7459583333333333,
      "grad_norm": 1.3611629009246826,
      "learning_rate": 4.564848458258431e-05,
      "loss": 3.426,
      "step": 358060
    },
    {
      "epoch": 0.7459791666666666,
      "grad_norm": 1.4863005876541138,
      "learning_rate": 4.5641402866661186e-05,
      "loss": 3.3492,
      "step": 358070
    },
    {
      "epoch": 0.746,
      "grad_norm": 1.500944972038269,
      "learning_rate": 4.5634321601525884e-05,
      "loss": 3.4467,
      "step": 358080
    },
    {
      "epoch": 0.7460208333333334,
      "grad_norm": 1.3737560510635376,
      "learning_rate": 4.5627240787209e-05,
      "loss": 3.482,
      "step": 358090
    },
    {
      "epoch": 0.7460416666666667,
      "grad_norm": 1.3976575136184692,
      "learning_rate": 4.5620160423741125e-05,
      "loss": 3.4592,
      "step": 358100
    },
    {
      "epoch": 0.7460625,
      "grad_norm": 1.458361268043518,
      "learning_rate": 4.561308051115285e-05,
      "loss": 3.4844,
      "step": 358110
    },
    {
      "epoch": 0.7460833333333333,
      "grad_norm": 1.8276236057281494,
      "learning_rate": 4.560600104947478e-05,
      "loss": 3.4648,
      "step": 358120
    },
    {
      "epoch": 0.7461041666666667,
      "grad_norm": 1.4921869039535522,
      "learning_rate": 4.5598922038737387e-05,
      "loss": 3.4261,
      "step": 358130
    },
    {
      "epoch": 0.746125,
      "grad_norm": 1.405329704284668,
      "learning_rate": 4.5591843478971365e-05,
      "loss": 3.4853,
      "step": 358140
    },
    {
      "epoch": 0.7461458333333333,
      "grad_norm": 1.456204891204834,
      "learning_rate": 4.558476537020729e-05,
      "loss": 3.4101,
      "step": 358150
    },
    {
      "epoch": 0.7461666666666666,
      "grad_norm": 1.503408432006836,
      "learning_rate": 4.5577687712475604e-05,
      "loss": 3.3619,
      "step": 358160
    },
    {
      "epoch": 0.7461875,
      "grad_norm": 1.4537339210510254,
      "learning_rate": 4.557061050580703e-05,
      "loss": 3.3746,
      "step": 358170
    },
    {
      "epoch": 0.7462083333333334,
      "grad_norm": 1.5427037477493286,
      "learning_rate": 4.556353375023212e-05,
      "loss": 3.514,
      "step": 358180
    },
    {
      "epoch": 0.7462291666666667,
      "grad_norm": 1.2704622745513916,
      "learning_rate": 4.5556457445781316e-05,
      "loss": 3.307,
      "step": 358190
    },
    {
      "epoch": 0.74625,
      "grad_norm": 1.2581833600997925,
      "learning_rate": 4.5549381592485326e-05,
      "loss": 3.3825,
      "step": 358200
    },
    {
      "epoch": 0.7462708333333333,
      "grad_norm": 1.4440230131149292,
      "learning_rate": 4.554230619037471e-05,
      "loss": 3.4961,
      "step": 358210
    },
    {
      "epoch": 0.7462916666666667,
      "grad_norm": 1.3058100938796997,
      "learning_rate": 4.553523123947989e-05,
      "loss": 3.5067,
      "step": 358220
    },
    {
      "epoch": 0.7463125,
      "grad_norm": 1.4046657085418701,
      "learning_rate": 4.5528156739831565e-05,
      "loss": 3.3687,
      "step": 358230
    },
    {
      "epoch": 0.7463333333333333,
      "grad_norm": 1.3818340301513672,
      "learning_rate": 4.55210826914603e-05,
      "loss": 3.5391,
      "step": 358240
    },
    {
      "epoch": 0.7463541666666667,
      "grad_norm": 1.4657613039016724,
      "learning_rate": 4.5514009094396506e-05,
      "loss": 3.476,
      "step": 358250
    },
    {
      "epoch": 0.746375,
      "grad_norm": 1.3821145296096802,
      "learning_rate": 4.5506935948670916e-05,
      "loss": 3.4614,
      "step": 358260
    },
    {
      "epoch": 0.7463958333333334,
      "grad_norm": 1.4204005002975464,
      "learning_rate": 4.549986325431397e-05,
      "loss": 3.3491,
      "step": 358270
    },
    {
      "epoch": 0.7464166666666666,
      "grad_norm": 1.2770005464553833,
      "learning_rate": 4.549279101135619e-05,
      "loss": 3.3547,
      "step": 358280
    },
    {
      "epoch": 0.7464375,
      "grad_norm": 1.3346638679504395,
      "learning_rate": 4.548571921982831e-05,
      "loss": 3.4753,
      "step": 358290
    },
    {
      "epoch": 0.7464583333333333,
      "grad_norm": 1.5707423686981201,
      "learning_rate": 4.547864787976068e-05,
      "loss": 3.4343,
      "step": 358300
    },
    {
      "epoch": 0.7464791666666667,
      "grad_norm": 1.3262600898742676,
      "learning_rate": 4.547157699118392e-05,
      "loss": 3.4611,
      "step": 358310
    },
    {
      "epoch": 0.7465,
      "grad_norm": 1.319370985031128,
      "learning_rate": 4.546450655412859e-05,
      "loss": 3.4259,
      "step": 358320
    },
    {
      "epoch": 0.7465208333333333,
      "grad_norm": 1.4336082935333252,
      "learning_rate": 4.54574365686252e-05,
      "loss": 3.3837,
      "step": 358330
    },
    {
      "epoch": 0.7465416666666667,
      "grad_norm": 1.549052119255066,
      "learning_rate": 4.54503670347043e-05,
      "loss": 3.4091,
      "step": 358340
    },
    {
      "epoch": 0.7465625,
      "grad_norm": 1.532766342163086,
      "learning_rate": 4.544329795239643e-05,
      "loss": 3.4503,
      "step": 358350
    },
    {
      "epoch": 0.7465833333333334,
      "grad_norm": 1.366445779800415,
      "learning_rate": 4.543622932173213e-05,
      "loss": 3.4019,
      "step": 358360
    },
    {
      "epoch": 0.7466041666666666,
      "grad_norm": 1.2691248655319214,
      "learning_rate": 4.542916114274193e-05,
      "loss": 3.251,
      "step": 358370
    },
    {
      "epoch": 0.746625,
      "grad_norm": 1.4469332695007324,
      "learning_rate": 4.542209341545637e-05,
      "loss": 3.5004,
      "step": 358380
    },
    {
      "epoch": 0.7466458333333333,
      "grad_norm": 1.4683953523635864,
      "learning_rate": 4.5415026139905966e-05,
      "loss": 3.5434,
      "step": 358390
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 1.318947672843933,
      "learning_rate": 4.5407959316121245e-05,
      "loss": 3.5241,
      "step": 358400
    },
    {
      "epoch": 0.7466875,
      "grad_norm": 1.463240385055542,
      "learning_rate": 4.5400892944132744e-05,
      "loss": 3.3962,
      "step": 358410
    },
    {
      "epoch": 0.7467083333333333,
      "grad_norm": 1.365209698677063,
      "learning_rate": 4.5393827023970984e-05,
      "loss": 3.4013,
      "step": 358420
    },
    {
      "epoch": 0.7467291666666667,
      "grad_norm": 1.4011671543121338,
      "learning_rate": 4.538676155566648e-05,
      "loss": 3.4257,
      "step": 358430
    },
    {
      "epoch": 0.74675,
      "grad_norm": 1.3653552532196045,
      "learning_rate": 4.537969653924977e-05,
      "loss": 3.4257,
      "step": 358440
    },
    {
      "epoch": 0.7467708333333334,
      "grad_norm": 1.3560810089111328,
      "learning_rate": 4.537263197475134e-05,
      "loss": 3.5295,
      "step": 358450
    },
    {
      "epoch": 0.7467916666666666,
      "grad_norm": 1.5717414617538452,
      "learning_rate": 4.536556786220174e-05,
      "loss": 3.3905,
      "step": 358460
    },
    {
      "epoch": 0.7468125,
      "grad_norm": 1.694420337677002,
      "learning_rate": 4.5358504201631464e-05,
      "loss": 3.6327,
      "step": 358470
    },
    {
      "epoch": 0.7468333333333333,
      "grad_norm": 1.309791088104248,
      "learning_rate": 4.535144099307103e-05,
      "loss": 3.4891,
      "step": 358480
    },
    {
      "epoch": 0.7468541666666667,
      "grad_norm": 1.5213841199874878,
      "learning_rate": 4.534437823655096e-05,
      "loss": 3.4352,
      "step": 358490
    },
    {
      "epoch": 0.746875,
      "grad_norm": 1.410820484161377,
      "learning_rate": 4.5337315932101745e-05,
      "loss": 3.4359,
      "step": 358500
    },
    {
      "epoch": 0.7468958333333333,
      "grad_norm": 1.511349081993103,
      "learning_rate": 4.533025407975389e-05,
      "loss": 3.3947,
      "step": 358510
    },
    {
      "epoch": 0.7469166666666667,
      "grad_norm": 1.3208644390106201,
      "learning_rate": 4.532319267953795e-05,
      "loss": 3.4714,
      "step": 358520
    },
    {
      "epoch": 0.7469375,
      "grad_norm": 1.6835098266601562,
      "learning_rate": 4.531613173148429e-05,
      "loss": 3.4849,
      "step": 358530
    },
    {
      "epoch": 0.7469583333333333,
      "grad_norm": 1.4762167930603027,
      "learning_rate": 4.530907123562356e-05,
      "loss": 3.4631,
      "step": 358540
    },
    {
      "epoch": 0.7469791666666666,
      "grad_norm": 1.6841107606887817,
      "learning_rate": 4.5302011191986256e-05,
      "loss": 3.4076,
      "step": 358550
    },
    {
      "epoch": 0.747,
      "grad_norm": 1.3198364973068237,
      "learning_rate": 4.5294951600602716e-05,
      "loss": 3.431,
      "step": 358560
    },
    {
      "epoch": 0.7470208333333334,
      "grad_norm": 1.6348825693130493,
      "learning_rate": 4.5287892461503586e-05,
      "loss": 3.4206,
      "step": 358570
    },
    {
      "epoch": 0.7470416666666667,
      "grad_norm": 1.4012175798416138,
      "learning_rate": 4.528083377471936e-05,
      "loss": 3.4137,
      "step": 358580
    },
    {
      "epoch": 0.7470625,
      "grad_norm": 1.3751721382141113,
      "learning_rate": 4.527377554028044e-05,
      "loss": 3.433,
      "step": 358590
    },
    {
      "epoch": 0.7470833333333333,
      "grad_norm": 1.3944201469421387,
      "learning_rate": 4.526671775821729e-05,
      "loss": 3.3657,
      "step": 358600
    },
    {
      "epoch": 0.7471041666666667,
      "grad_norm": 1.475415587425232,
      "learning_rate": 4.5259660428560575e-05,
      "loss": 3.3445,
      "step": 358610
    },
    {
      "epoch": 0.747125,
      "grad_norm": 1.448864459991455,
      "learning_rate": 4.5252603551340626e-05,
      "loss": 3.4395,
      "step": 358620
    },
    {
      "epoch": 0.7471458333333333,
      "grad_norm": 1.5154356956481934,
      "learning_rate": 4.5245547126587964e-05,
      "loss": 3.4562,
      "step": 358630
    },
    {
      "epoch": 0.7471666666666666,
      "grad_norm": 1.681071162223816,
      "learning_rate": 4.523849115433307e-05,
      "loss": 3.4416,
      "step": 358640
    },
    {
      "epoch": 0.7471875,
      "grad_norm": 1.562293529510498,
      "learning_rate": 4.523143563460642e-05,
      "loss": 3.4501,
      "step": 358650
    },
    {
      "epoch": 0.7472083333333334,
      "grad_norm": 1.4786038398742676,
      "learning_rate": 4.5224380567438504e-05,
      "loss": 3.4877,
      "step": 358660
    },
    {
      "epoch": 0.7472291666666667,
      "grad_norm": 1.3636016845703125,
      "learning_rate": 4.5217325952859794e-05,
      "loss": 3.2136,
      "step": 358670
    },
    {
      "epoch": 0.74725,
      "grad_norm": 2.078444719314575,
      "learning_rate": 4.521027179090075e-05,
      "loss": 3.5604,
      "step": 358680
    },
    {
      "epoch": 0.7472708333333333,
      "grad_norm": 1.4785324335098267,
      "learning_rate": 4.520321808159187e-05,
      "loss": 3.484,
      "step": 358690
    },
    {
      "epoch": 0.7472916666666667,
      "grad_norm": 1.3275518417358398,
      "learning_rate": 4.519616482496358e-05,
      "loss": 3.4559,
      "step": 358700
    },
    {
      "epoch": 0.7473125,
      "grad_norm": 1.3952715396881104,
      "learning_rate": 4.51891120210464e-05,
      "loss": 3.3079,
      "step": 358710
    },
    {
      "epoch": 0.7473333333333333,
      "grad_norm": 1.4631311893463135,
      "learning_rate": 4.518205966987076e-05,
      "loss": 3.4844,
      "step": 358720
    },
    {
      "epoch": 0.7473541666666667,
      "grad_norm": 1.3476221561431885,
      "learning_rate": 4.517500777146714e-05,
      "loss": 3.5435,
      "step": 358730
    },
    {
      "epoch": 0.747375,
      "grad_norm": 1.3129603862762451,
      "learning_rate": 4.516795632586598e-05,
      "loss": 3.4606,
      "step": 358740
    },
    {
      "epoch": 0.7473958333333334,
      "grad_norm": 1.4552487134933472,
      "learning_rate": 4.5160905333097757e-05,
      "loss": 3.4798,
      "step": 358750
    },
    {
      "epoch": 0.7474166666666666,
      "grad_norm": 1.5202189683914185,
      "learning_rate": 4.515385479319292e-05,
      "loss": 3.2927,
      "step": 358760
    },
    {
      "epoch": 0.7474375,
      "grad_norm": 1.336828351020813,
      "learning_rate": 4.514680470618195e-05,
      "loss": 3.1958,
      "step": 358770
    },
    {
      "epoch": 0.7474583333333333,
      "grad_norm": 1.3181946277618408,
      "learning_rate": 4.5139755072095265e-05,
      "loss": 3.5567,
      "step": 358780
    },
    {
      "epoch": 0.7474791666666667,
      "grad_norm": 1.3253023624420166,
      "learning_rate": 4.513270589096332e-05,
      "loss": 3.4287,
      "step": 358790
    },
    {
      "epoch": 0.7475,
      "grad_norm": 1.3832533359527588,
      "learning_rate": 4.512565716281659e-05,
      "loss": 3.2817,
      "step": 358800
    },
    {
      "epoch": 0.7475208333333333,
      "grad_norm": 1.4116846323013306,
      "learning_rate": 4.5118608887685515e-05,
      "loss": 3.4741,
      "step": 358810
    },
    {
      "epoch": 0.7475416666666667,
      "grad_norm": 1.3308888673782349,
      "learning_rate": 4.511156106560052e-05,
      "loss": 3.3862,
      "step": 358820
    },
    {
      "epoch": 0.7475625,
      "grad_norm": 1.381238341331482,
      "learning_rate": 4.510451369659208e-05,
      "loss": 3.4122,
      "step": 358830
    },
    {
      "epoch": 0.7475833333333334,
      "grad_norm": 1.339911937713623,
      "learning_rate": 4.50974667806906e-05,
      "loss": 3.3863,
      "step": 358840
    },
    {
      "epoch": 0.7476041666666666,
      "grad_norm": 1.3405178785324097,
      "learning_rate": 4.509042031792656e-05,
      "loss": 3.4353,
      "step": 358850
    },
    {
      "epoch": 0.747625,
      "grad_norm": 1.399890422821045,
      "learning_rate": 4.508337430833036e-05,
      "loss": 3.4332,
      "step": 358860
    },
    {
      "epoch": 0.7476458333333333,
      "grad_norm": 1.355300784111023,
      "learning_rate": 4.507632875193246e-05,
      "loss": 3.4211,
      "step": 358870
    },
    {
      "epoch": 0.7476666666666667,
      "grad_norm": 1.5979597568511963,
      "learning_rate": 4.5069283648763296e-05,
      "loss": 3.3875,
      "step": 358880
    },
    {
      "epoch": 0.7476875,
      "grad_norm": 1.3606996536254883,
      "learning_rate": 4.506223899885333e-05,
      "loss": 3.4271,
      "step": 358890
    },
    {
      "epoch": 0.7477083333333333,
      "grad_norm": 1.6308586597442627,
      "learning_rate": 4.5055194802232926e-05,
      "loss": 3.439,
      "step": 358900
    },
    {
      "epoch": 0.7477291666666667,
      "grad_norm": 1.2822470664978027,
      "learning_rate": 4.504815105893248e-05,
      "loss": 3.3847,
      "step": 358910
    },
    {
      "epoch": 0.74775,
      "grad_norm": 1.3251134157180786,
      "learning_rate": 4.504110776898256e-05,
      "loss": 3.4077,
      "step": 358920
    },
    {
      "epoch": 0.7477708333333334,
      "grad_norm": 1.4639779329299927,
      "learning_rate": 4.503406493241349e-05,
      "loss": 3.3677,
      "step": 358930
    },
    {
      "epoch": 0.7477916666666666,
      "grad_norm": 1.4618300199508667,
      "learning_rate": 4.502702254925564e-05,
      "loss": 3.5269,
      "step": 358940
    },
    {
      "epoch": 0.7478125,
      "grad_norm": 1.4512900114059448,
      "learning_rate": 4.5019980619539594e-05,
      "loss": 3.4312,
      "step": 358950
    },
    {
      "epoch": 0.7478333333333333,
      "grad_norm": 1.5627340078353882,
      "learning_rate": 4.5012939143295644e-05,
      "loss": 3.417,
      "step": 358960
    },
    {
      "epoch": 0.7478541666666667,
      "grad_norm": 1.5684579610824585,
      "learning_rate": 4.50058981205542e-05,
      "loss": 3.4412,
      "step": 358970
    },
    {
      "epoch": 0.747875,
      "grad_norm": 1.5143072605133057,
      "learning_rate": 4.499885755134579e-05,
      "loss": 3.5284,
      "step": 358980
    },
    {
      "epoch": 0.7478958333333333,
      "grad_norm": 1.432795524597168,
      "learning_rate": 4.499181743570072e-05,
      "loss": 3.4053,
      "step": 358990
    },
    {
      "epoch": 0.7479166666666667,
      "grad_norm": 1.6906201839447021,
      "learning_rate": 4.498477777364938e-05,
      "loss": 3.3779,
      "step": 359000
    },
    {
      "epoch": 0.7479166666666667,
      "eval_loss": 3.5323824882507324,
      "eval_runtime": 7.4117,
      "eval_samples_per_second": 1.349,
      "eval_steps_per_second": 0.405,
      "step": 359000
    },
    {
      "epoch": 0.7479375,
      "grad_norm": 1.3678168058395386,
      "learning_rate": 4.497773856522233e-05,
      "loss": 3.4086,
      "step": 359010
    },
    {
      "epoch": 0.7479583333333333,
      "grad_norm": 1.409089207649231,
      "learning_rate": 4.497069981044983e-05,
      "loss": 3.3126,
      "step": 359020
    },
    {
      "epoch": 0.7479791666666666,
      "grad_norm": 1.4535235166549683,
      "learning_rate": 4.496366150936233e-05,
      "loss": 3.5282,
      "step": 359030
    },
    {
      "epoch": 0.748,
      "grad_norm": 1.411620020866394,
      "learning_rate": 4.495662366199025e-05,
      "loss": 3.4547,
      "step": 359040
    },
    {
      "epoch": 0.7480208333333334,
      "grad_norm": 1.2587252855300903,
      "learning_rate": 4.494958626836396e-05,
      "loss": 3.374,
      "step": 359050
    },
    {
      "epoch": 0.7480416666666667,
      "grad_norm": 1.357347011566162,
      "learning_rate": 4.494254932851388e-05,
      "loss": 3.4433,
      "step": 359060
    },
    {
      "epoch": 0.7480625,
      "grad_norm": 1.4699903726577759,
      "learning_rate": 4.49355128424704e-05,
      "loss": 3.3923,
      "step": 359070
    },
    {
      "epoch": 0.7480833333333333,
      "grad_norm": 1.3821625709533691,
      "learning_rate": 4.492847681026392e-05,
      "loss": 3.3905,
      "step": 359080
    },
    {
      "epoch": 0.7481041666666667,
      "grad_norm": 1.428787112236023,
      "learning_rate": 4.492144123192483e-05,
      "loss": 3.439,
      "step": 359090
    },
    {
      "epoch": 0.748125,
      "grad_norm": 1.3720703125,
      "learning_rate": 4.491440610748353e-05,
      "loss": 3.2983,
      "step": 359100
    },
    {
      "epoch": 0.7481458333333333,
      "grad_norm": 1.3126293420791626,
      "learning_rate": 4.490737143697039e-05,
      "loss": 3.4067,
      "step": 359110
    },
    {
      "epoch": 0.7481666666666666,
      "grad_norm": 1.5526396036148071,
      "learning_rate": 4.4900337220415804e-05,
      "loss": 3.3222,
      "step": 359120
    },
    {
      "epoch": 0.7481875,
      "grad_norm": 1.5612961053848267,
      "learning_rate": 4.489330345785017e-05,
      "loss": 3.4378,
      "step": 359130
    },
    {
      "epoch": 0.7482083333333334,
      "grad_norm": 1.2809480428695679,
      "learning_rate": 4.488627014930385e-05,
      "loss": 3.3486,
      "step": 359140
    },
    {
      "epoch": 0.7482291666666666,
      "grad_norm": 1.4343599081039429,
      "learning_rate": 4.4879237294807246e-05,
      "loss": 3.4676,
      "step": 359150
    },
    {
      "epoch": 0.74825,
      "grad_norm": 1.3751566410064697,
      "learning_rate": 4.487220489439072e-05,
      "loss": 3.3581,
      "step": 359160
    },
    {
      "epoch": 0.7482708333333333,
      "grad_norm": 1.4573770761489868,
      "learning_rate": 4.486517294808467e-05,
      "loss": 3.3992,
      "step": 359170
    },
    {
      "epoch": 0.7482916666666667,
      "grad_norm": 1.5656226873397827,
      "learning_rate": 4.4858141455919484e-05,
      "loss": 3.3751,
      "step": 359180
    },
    {
      "epoch": 0.7483125,
      "grad_norm": 1.3794292211532593,
      "learning_rate": 4.485111041792543e-05,
      "loss": 3.4508,
      "step": 359190
    },
    {
      "epoch": 0.7483333333333333,
      "grad_norm": 1.5587860345840454,
      "learning_rate": 4.4844079834133004e-05,
      "loss": 3.3694,
      "step": 359200
    },
    {
      "epoch": 0.7483541666666667,
      "grad_norm": 1.4846051931381226,
      "learning_rate": 4.483704970457256e-05,
      "loss": 3.4006,
      "step": 359210
    },
    {
      "epoch": 0.748375,
      "grad_norm": 1.3932600021362305,
      "learning_rate": 4.483002002927436e-05,
      "loss": 3.5148,
      "step": 359220
    },
    {
      "epoch": 0.7483958333333334,
      "grad_norm": 1.4030718803405762,
      "learning_rate": 4.4822990808268884e-05,
      "loss": 3.4953,
      "step": 359230
    },
    {
      "epoch": 0.7484166666666666,
      "grad_norm": 1.4491724967956543,
      "learning_rate": 4.48159620415865e-05,
      "loss": 3.4722,
      "step": 359240
    },
    {
      "epoch": 0.7484375,
      "grad_norm": 1.5559744834899902,
      "learning_rate": 4.480893372925744e-05,
      "loss": 3.5019,
      "step": 359250
    },
    {
      "epoch": 0.7484583333333333,
      "grad_norm": 1.5854676961898804,
      "learning_rate": 4.480190587131223e-05,
      "loss": 3.3765,
      "step": 359260
    },
    {
      "epoch": 0.7484791666666667,
      "grad_norm": 1.3701930046081543,
      "learning_rate": 4.47948784677811e-05,
      "loss": 3.2081,
      "step": 359270
    },
    {
      "epoch": 0.7485,
      "grad_norm": 1.4375437498092651,
      "learning_rate": 4.4787851518694426e-05,
      "loss": 3.3165,
      "step": 359280
    },
    {
      "epoch": 0.7485208333333333,
      "grad_norm": 1.3118672370910645,
      "learning_rate": 4.478082502408266e-05,
      "loss": 3.3947,
      "step": 359290
    },
    {
      "epoch": 0.7485416666666667,
      "grad_norm": 1.6092082262039185,
      "learning_rate": 4.4773798983976046e-05,
      "loss": 3.4125,
      "step": 359300
    },
    {
      "epoch": 0.7485625,
      "grad_norm": 1.5977526903152466,
      "learning_rate": 4.476677339840492e-05,
      "loss": 3.5594,
      "step": 359310
    },
    {
      "epoch": 0.7485833333333334,
      "grad_norm": 1.4926705360412598,
      "learning_rate": 4.4759748267399766e-05,
      "loss": 3.4886,
      "step": 359320
    },
    {
      "epoch": 0.7486041666666666,
      "grad_norm": 1.3875969648361206,
      "learning_rate": 4.4752723590990804e-05,
      "loss": 3.6053,
      "step": 359330
    },
    {
      "epoch": 0.748625,
      "grad_norm": 1.4442890882492065,
      "learning_rate": 4.474569936920836e-05,
      "loss": 3.4675,
      "step": 359340
    },
    {
      "epoch": 0.7486458333333333,
      "grad_norm": 1.3776321411132812,
      "learning_rate": 4.473867560208293e-05,
      "loss": 3.4452,
      "step": 359350
    },
    {
      "epoch": 0.7486666666666667,
      "grad_norm": 1.3420249223709106,
      "learning_rate": 4.473165228964472e-05,
      "loss": 3.3541,
      "step": 359360
    },
    {
      "epoch": 0.7486875,
      "grad_norm": 1.4497320652008057,
      "learning_rate": 4.472462943192404e-05,
      "loss": 3.4338,
      "step": 359370
    },
    {
      "epoch": 0.7487083333333333,
      "grad_norm": 1.4506657123565674,
      "learning_rate": 4.471760702895138e-05,
      "loss": 3.5454,
      "step": 359380
    },
    {
      "epoch": 0.7487291666666667,
      "grad_norm": 1.406440258026123,
      "learning_rate": 4.471058508075696e-05,
      "loss": 3.3781,
      "step": 359390
    },
    {
      "epoch": 0.74875,
      "grad_norm": 1.340271234512329,
      "learning_rate": 4.470356358737113e-05,
      "loss": 3.4504,
      "step": 359400
    },
    {
      "epoch": 0.7487708333333334,
      "grad_norm": 1.4427436590194702,
      "learning_rate": 4.469654254882421e-05,
      "loss": 3.4048,
      "step": 359410
    },
    {
      "epoch": 0.7487916666666666,
      "grad_norm": 1.466526746749878,
      "learning_rate": 4.468952196514655e-05,
      "loss": 3.4854,
      "step": 359420
    },
    {
      "epoch": 0.7488125,
      "grad_norm": 1.3628652095794678,
      "learning_rate": 4.468250183636848e-05,
      "loss": 3.3419,
      "step": 359430
    },
    {
      "epoch": 0.7488333333333334,
      "grad_norm": 1.3283768892288208,
      "learning_rate": 4.4675482162520313e-05,
      "loss": 3.4073,
      "step": 359440
    },
    {
      "epoch": 0.7488541666666667,
      "grad_norm": 1.570044755935669,
      "learning_rate": 4.466846294363237e-05,
      "loss": 3.4,
      "step": 359450
    },
    {
      "epoch": 0.748875,
      "grad_norm": 1.457345962524414,
      "learning_rate": 4.466144417973497e-05,
      "loss": 3.5025,
      "step": 359460
    },
    {
      "epoch": 0.7488958333333333,
      "grad_norm": 1.5259737968444824,
      "learning_rate": 4.4654425870858445e-05,
      "loss": 3.4033,
      "step": 359470
    },
    {
      "epoch": 0.7489166666666667,
      "grad_norm": 1.5348554849624634,
      "learning_rate": 4.4647408017033084e-05,
      "loss": 3.4632,
      "step": 359480
    },
    {
      "epoch": 0.7489375,
      "grad_norm": 1.7783410549163818,
      "learning_rate": 4.4640390618289274e-05,
      "loss": 3.4784,
      "step": 359490
    },
    {
      "epoch": 0.7489583333333333,
      "grad_norm": 1.5915415287017822,
      "learning_rate": 4.463337367465718e-05,
      "loss": 3.4648,
      "step": 359500
    },
    {
      "epoch": 0.7489791666666666,
      "grad_norm": 1.5956653356552124,
      "learning_rate": 4.462635718616726e-05,
      "loss": 3.4747,
      "step": 359510
    },
    {
      "epoch": 0.749,
      "grad_norm": 2.1877777576446533,
      "learning_rate": 4.4619341152849806e-05,
      "loss": 3.3993,
      "step": 359520
    },
    {
      "epoch": 0.7490208333333334,
      "grad_norm": 1.368719458580017,
      "learning_rate": 4.4612325574735e-05,
      "loss": 3.398,
      "step": 359530
    },
    {
      "epoch": 0.7490416666666667,
      "grad_norm": 1.5540785789489746,
      "learning_rate": 4.460531045185327e-05,
      "loss": 3.4904,
      "step": 359540
    },
    {
      "epoch": 0.7490625,
      "grad_norm": 1.584847331047058,
      "learning_rate": 4.459829578423492e-05,
      "loss": 3.543,
      "step": 359550
    },
    {
      "epoch": 0.7490833333333333,
      "grad_norm": 1.3707929849624634,
      "learning_rate": 4.459128157191012e-05,
      "loss": 3.3706,
      "step": 359560
    },
    {
      "epoch": 0.7491041666666667,
      "grad_norm": 1.5703084468841553,
      "learning_rate": 4.458426781490933e-05,
      "loss": 3.4768,
      "step": 359570
    },
    {
      "epoch": 0.749125,
      "grad_norm": 1.727669358253479,
      "learning_rate": 4.45772545132628e-05,
      "loss": 3.3397,
      "step": 359580
    },
    {
      "epoch": 0.7491458333333333,
      "grad_norm": 1.4494385719299316,
      "learning_rate": 4.457024166700071e-05,
      "loss": 3.4803,
      "step": 359590
    },
    {
      "epoch": 0.7491666666666666,
      "grad_norm": 1.4471908807754517,
      "learning_rate": 4.45632292761535e-05,
      "loss": 3.5225,
      "step": 359600
    },
    {
      "epoch": 0.7491875,
      "grad_norm": 1.3200701475143433,
      "learning_rate": 4.455621734075145e-05,
      "loss": 3.4877,
      "step": 359610
    },
    {
      "epoch": 0.7492083333333334,
      "grad_norm": 1.394070029258728,
      "learning_rate": 4.45492058608247e-05,
      "loss": 3.4788,
      "step": 359620
    },
    {
      "epoch": 0.7492291666666666,
      "grad_norm": 1.676101803779602,
      "learning_rate": 4.4542194836403746e-05,
      "loss": 3.467,
      "step": 359630
    },
    {
      "epoch": 0.74925,
      "grad_norm": 1.3863095045089722,
      "learning_rate": 4.453518426751872e-05,
      "loss": 3.6432,
      "step": 359640
    },
    {
      "epoch": 0.7492708333333333,
      "grad_norm": 1.524461030960083,
      "learning_rate": 4.45281741541999e-05,
      "loss": 3.4679,
      "step": 359650
    },
    {
      "epoch": 0.7492916666666667,
      "grad_norm": 1.3359028100967407,
      "learning_rate": 4.452116449647772e-05,
      "loss": 3.4258,
      "step": 359660
    },
    {
      "epoch": 0.7493125,
      "grad_norm": 1.470221996307373,
      "learning_rate": 4.45141552943823e-05,
      "loss": 3.3613,
      "step": 359670
    },
    {
      "epoch": 0.7493333333333333,
      "grad_norm": 1.476773738861084,
      "learning_rate": 4.450714654794393e-05,
      "loss": 3.4021,
      "step": 359680
    },
    {
      "epoch": 0.7493541666666667,
      "grad_norm": 1.5708061456680298,
      "learning_rate": 4.450013825719302e-05,
      "loss": 3.5084,
      "step": 359690
    },
    {
      "epoch": 0.749375,
      "grad_norm": 1.4600493907928467,
      "learning_rate": 4.4493130422159715e-05,
      "loss": 3.528,
      "step": 359700
    },
    {
      "epoch": 0.7493958333333334,
      "grad_norm": 1.4023172855377197,
      "learning_rate": 4.448612304287427e-05,
      "loss": 3.4126,
      "step": 359710
    },
    {
      "epoch": 0.7494166666666666,
      "grad_norm": 1.5888079404830933,
      "learning_rate": 4.447911611936711e-05,
      "loss": 3.3908,
      "step": 359720
    },
    {
      "epoch": 0.7494375,
      "grad_norm": 1.5749616622924805,
      "learning_rate": 4.447210965166835e-05,
      "loss": 3.2853,
      "step": 359730
    },
    {
      "epoch": 0.7494583333333333,
      "grad_norm": 1.4112080335617065,
      "learning_rate": 4.4465103639808265e-05,
      "loss": 3.4703,
      "step": 359740
    },
    {
      "epoch": 0.7494791666666667,
      "grad_norm": 1.5645068883895874,
      "learning_rate": 4.445809808381723e-05,
      "loss": 3.4132,
      "step": 359750
    },
    {
      "epoch": 0.7495,
      "grad_norm": 1.3655202388763428,
      "learning_rate": 4.445109298372542e-05,
      "loss": 3.3213,
      "step": 359760
    },
    {
      "epoch": 0.7495208333333333,
      "grad_norm": 1.4788057804107666,
      "learning_rate": 4.444408833956309e-05,
      "loss": 3.4355,
      "step": 359770
    },
    {
      "epoch": 0.7495416666666667,
      "grad_norm": 1.3893709182739258,
      "learning_rate": 4.4437084151360523e-05,
      "loss": 3.4397,
      "step": 359780
    },
    {
      "epoch": 0.7495625,
      "grad_norm": 1.4824469089508057,
      "learning_rate": 4.443008041914796e-05,
      "loss": 3.3446,
      "step": 359790
    },
    {
      "epoch": 0.7495833333333334,
      "grad_norm": 1.2896698713302612,
      "learning_rate": 4.442307714295566e-05,
      "loss": 3.3192,
      "step": 359800
    },
    {
      "epoch": 0.7496041666666666,
      "grad_norm": 1.4272068738937378,
      "learning_rate": 4.441607432281389e-05,
      "loss": 3.4374,
      "step": 359810
    },
    {
      "epoch": 0.749625,
      "grad_norm": 1.4056543111801147,
      "learning_rate": 4.440907195875288e-05,
      "loss": 3.4664,
      "step": 359820
    },
    {
      "epoch": 0.7496458333333333,
      "grad_norm": 1.367784857749939,
      "learning_rate": 4.440207005080287e-05,
      "loss": 3.3603,
      "step": 359830
    },
    {
      "epoch": 0.7496666666666667,
      "grad_norm": 1.5988671779632568,
      "learning_rate": 4.439506859899414e-05,
      "loss": 3.4878,
      "step": 359840
    },
    {
      "epoch": 0.7496875,
      "grad_norm": 1.4982898235321045,
      "learning_rate": 4.43880676033569e-05,
      "loss": 3.458,
      "step": 359850
    },
    {
      "epoch": 0.7497083333333333,
      "grad_norm": 1.498986005783081,
      "learning_rate": 4.438106706392141e-05,
      "loss": 3.5152,
      "step": 359860
    },
    {
      "epoch": 0.7497291666666667,
      "grad_norm": 1.4648653268814087,
      "learning_rate": 4.437406698071791e-05,
      "loss": 3.464,
      "step": 359870
    },
    {
      "epoch": 0.74975,
      "grad_norm": 1.4244805574417114,
      "learning_rate": 4.4367067353776606e-05,
      "loss": 3.5129,
      "step": 359880
    },
    {
      "epoch": 0.7497708333333334,
      "grad_norm": 1.576393961906433,
      "learning_rate": 4.4360068183127834e-05,
      "loss": 3.4657,
      "step": 359890
    },
    {
      "epoch": 0.7497916666666666,
      "grad_norm": 1.4215039014816284,
      "learning_rate": 4.4353069468801636e-05,
      "loss": 3.2934,
      "step": 359900
    },
    {
      "epoch": 0.7498125,
      "grad_norm": 1.389596939086914,
      "learning_rate": 4.434607121082842e-05,
      "loss": 3.4924,
      "step": 359910
    },
    {
      "epoch": 0.7498333333333334,
      "grad_norm": 1.619781494140625,
      "learning_rate": 4.433907340923839e-05,
      "loss": 3.507,
      "step": 359920
    },
    {
      "epoch": 0.7498541666666667,
      "grad_norm": 1.5809718370437622,
      "learning_rate": 4.4332076064061654e-05,
      "loss": 3.4964,
      "step": 359930
    },
    {
      "epoch": 0.749875,
      "grad_norm": 1.4145729541778564,
      "learning_rate": 4.432507917532857e-05,
      "loss": 3.5159,
      "step": 359940
    },
    {
      "epoch": 0.7498958333333333,
      "grad_norm": 1.3505589962005615,
      "learning_rate": 4.431808274306938e-05,
      "loss": 3.4675,
      "step": 359950
    },
    {
      "epoch": 0.7499166666666667,
      "grad_norm": 1.3934592008590698,
      "learning_rate": 4.431108676731412e-05,
      "loss": 3.4299,
      "step": 359960
    },
    {
      "epoch": 0.7499375,
      "grad_norm": 1.4161192178726196,
      "learning_rate": 4.430409124809319e-05,
      "loss": 3.5724,
      "step": 359970
    },
    {
      "epoch": 0.7499583333333333,
      "grad_norm": 1.7691075801849365,
      "learning_rate": 4.429709618543679e-05,
      "loss": 3.4436,
      "step": 359980
    },
    {
      "epoch": 0.7499791666666666,
      "grad_norm": 3.536306381225586,
      "learning_rate": 4.429010157937501e-05,
      "loss": 3.4817,
      "step": 359990
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4483888149261475,
      "learning_rate": 4.428310742993818e-05,
      "loss": 3.3743,
      "step": 360000
    },
    {
      "epoch": 0.75,
      "eval_loss": 3.531330108642578,
      "eval_runtime": 7.4307,
      "eval_samples_per_second": 1.346,
      "eval_steps_per_second": 0.404,
      "step": 360000
    },
    {
      "epoch": 0.7500208333333334,
      "grad_norm": 1.3726783990859985,
      "learning_rate": 4.4276113737156535e-05,
      "loss": 3.3776,
      "step": 360010
    },
    {
      "epoch": 0.7500416666666667,
      "grad_norm": 1.3992180824279785,
      "learning_rate": 4.426912050106014e-05,
      "loss": 3.4285,
      "step": 360020
    },
    {
      "epoch": 0.7500625,
      "grad_norm": 1.513420820236206,
      "learning_rate": 4.426212772167938e-05,
      "loss": 3.4489,
      "step": 360030
    },
    {
      "epoch": 0.7500833333333333,
      "grad_norm": 1.536753535270691,
      "learning_rate": 4.425513539904433e-05,
      "loss": 3.4642,
      "step": 360040
    },
    {
      "epoch": 0.7501041666666667,
      "grad_norm": 1.3400304317474365,
      "learning_rate": 4.4248143533185195e-05,
      "loss": 3.4926,
      "step": 360050
    },
    {
      "epoch": 0.750125,
      "grad_norm": 1.4513972997665405,
      "learning_rate": 4.42411521241323e-05,
      "loss": 3.3678,
      "step": 360060
    },
    {
      "epoch": 0.7501458333333333,
      "grad_norm": 1.4733335971832275,
      "learning_rate": 4.423416117191574e-05,
      "loss": 3.4868,
      "step": 360070
    },
    {
      "epoch": 0.7501666666666666,
      "grad_norm": 1.3024005889892578,
      "learning_rate": 4.422717067656573e-05,
      "loss": 3.4245,
      "step": 360080
    },
    {
      "epoch": 0.7501875,
      "grad_norm": 1.5304259061813354,
      "learning_rate": 4.422018063811247e-05,
      "loss": 3.4363,
      "step": 360090
    },
    {
      "epoch": 0.7502083333333334,
      "grad_norm": 1.4305583238601685,
      "learning_rate": 4.421319105658616e-05,
      "loss": 3.5655,
      "step": 360100
    },
    {
      "epoch": 0.7502291666666666,
      "grad_norm": 1.3430724143981934,
      "learning_rate": 4.4206201932017e-05,
      "loss": 3.5048,
      "step": 360110
    },
    {
      "epoch": 0.75025,
      "grad_norm": 1.4243324995040894,
      "learning_rate": 4.4199213264435166e-05,
      "loss": 3.5027,
      "step": 360120
    },
    {
      "epoch": 0.7502708333333333,
      "grad_norm": 1.701021671295166,
      "learning_rate": 4.419222505387084e-05,
      "loss": 3.488,
      "step": 360130
    },
    {
      "epoch": 0.7502916666666667,
      "grad_norm": 1.3934812545776367,
      "learning_rate": 4.4185237300354244e-05,
      "loss": 3.4575,
      "step": 360140
    },
    {
      "epoch": 0.7503125,
      "grad_norm": 1.340914249420166,
      "learning_rate": 4.4178250003915515e-05,
      "loss": 3.391,
      "step": 360150
    },
    {
      "epoch": 0.7503333333333333,
      "grad_norm": 1.6356576681137085,
      "learning_rate": 4.417126316458487e-05,
      "loss": 3.4456,
      "step": 360160
    },
    {
      "epoch": 0.7503541666666667,
      "grad_norm": 1.4285378456115723,
      "learning_rate": 4.4164276782392496e-05,
      "loss": 3.5012,
      "step": 360170
    },
    {
      "epoch": 0.750375,
      "grad_norm": 2.081061363220215,
      "learning_rate": 4.4157290857368536e-05,
      "loss": 3.4696,
      "step": 360180
    },
    {
      "epoch": 0.7503958333333334,
      "grad_norm": 1.37996506690979,
      "learning_rate": 4.4150305389543165e-05,
      "loss": 3.4557,
      "step": 360190
    },
    {
      "epoch": 0.7504166666666666,
      "grad_norm": 1.5736726522445679,
      "learning_rate": 4.4143320378946606e-05,
      "loss": 3.4071,
      "step": 360200
    },
    {
      "epoch": 0.7504375,
      "grad_norm": 1.3652533292770386,
      "learning_rate": 4.413633582560899e-05,
      "loss": 3.4723,
      "step": 360210
    },
    {
      "epoch": 0.7504583333333333,
      "grad_norm": 1.435308814048767,
      "learning_rate": 4.41293517295605e-05,
      "loss": 3.5073,
      "step": 360220
    },
    {
      "epoch": 0.7504791666666667,
      "grad_norm": 1.3763395547866821,
      "learning_rate": 4.412236809083131e-05,
      "loss": 3.4273,
      "step": 360230
    },
    {
      "epoch": 0.7505,
      "grad_norm": 1.4860817193984985,
      "learning_rate": 4.411538490945158e-05,
      "loss": 3.6406,
      "step": 360240
    },
    {
      "epoch": 0.7505208333333333,
      "grad_norm": 1.2890701293945312,
      "learning_rate": 4.4108402185451465e-05,
      "loss": 3.4353,
      "step": 360250
    },
    {
      "epoch": 0.7505416666666667,
      "grad_norm": 4.606212139129639,
      "learning_rate": 4.410141991886119e-05,
      "loss": 3.4495,
      "step": 360260
    },
    {
      "epoch": 0.7505625,
      "grad_norm": 1.3473366498947144,
      "learning_rate": 4.409443810971077e-05,
      "loss": 3.247,
      "step": 360270
    },
    {
      "epoch": 0.7505833333333334,
      "grad_norm": 1.3285226821899414,
      "learning_rate": 4.40874567580305e-05,
      "loss": 3.5263,
      "step": 360280
    },
    {
      "epoch": 0.7506041666666666,
      "grad_norm": 1.401010274887085,
      "learning_rate": 4.408047586385055e-05,
      "loss": 3.303,
      "step": 360290
    },
    {
      "epoch": 0.750625,
      "grad_norm": 1.78908371925354,
      "learning_rate": 4.407349542720092e-05,
      "loss": 3.4356,
      "step": 360300
    },
    {
      "epoch": 0.7506458333333333,
      "grad_norm": 1.9198555946350098,
      "learning_rate": 4.406651544811191e-05,
      "loss": 3.5078,
      "step": 360310
    },
    {
      "epoch": 0.7506666666666667,
      "grad_norm": 1.508154034614563,
      "learning_rate": 4.4059535926613654e-05,
      "loss": 3.4332,
      "step": 360320
    },
    {
      "epoch": 0.7506875,
      "grad_norm": 1.4025533199310303,
      "learning_rate": 4.405255686273619e-05,
      "loss": 3.5701,
      "step": 360330
    },
    {
      "epoch": 0.7507083333333333,
      "grad_norm": 1.4767800569534302,
      "learning_rate": 4.404557825650978e-05,
      "loss": 3.4881,
      "step": 360340
    },
    {
      "epoch": 0.7507291666666667,
      "grad_norm": 1.46620512008667,
      "learning_rate": 4.40386001079646e-05,
      "loss": 3.468,
      "step": 360350
    },
    {
      "epoch": 0.75075,
      "grad_norm": 1.388735055923462,
      "learning_rate": 4.403162241713065e-05,
      "loss": 3.4617,
      "step": 360360
    },
    {
      "epoch": 0.7507708333333334,
      "grad_norm": 1.476963758468628,
      "learning_rate": 4.4024645184038116e-05,
      "loss": 3.4616,
      "step": 360370
    },
    {
      "epoch": 0.7507916666666666,
      "grad_norm": 1.5170226097106934,
      "learning_rate": 4.4017668408717266e-05,
      "loss": 3.4235,
      "step": 360380
    },
    {
      "epoch": 0.7508125,
      "grad_norm": 1.5424740314483643,
      "learning_rate": 4.401069209119808e-05,
      "loss": 3.379,
      "step": 360390
    },
    {
      "epoch": 0.7508333333333334,
      "grad_norm": 1.446030855178833,
      "learning_rate": 4.400371623151075e-05,
      "loss": 3.4984,
      "step": 360400
    },
    {
      "epoch": 0.7508541666666667,
      "grad_norm": 1.4184995889663696,
      "learning_rate": 4.3996740829685416e-05,
      "loss": 3.4908,
      "step": 360410
    },
    {
      "epoch": 0.750875,
      "grad_norm": 1.5374449491500854,
      "learning_rate": 4.398976588575219e-05,
      "loss": 3.4289,
      "step": 360420
    },
    {
      "epoch": 0.7508958333333333,
      "grad_norm": 1.400551199913025,
      "learning_rate": 4.398279139974124e-05,
      "loss": 3.4563,
      "step": 360430
    },
    {
      "epoch": 0.7509166666666667,
      "grad_norm": 1.5607489347457886,
      "learning_rate": 4.397581737168264e-05,
      "loss": 3.4619,
      "step": 360440
    },
    {
      "epoch": 0.7509375,
      "grad_norm": 1.3711637258529663,
      "learning_rate": 4.396884380160656e-05,
      "loss": 3.6224,
      "step": 360450
    },
    {
      "epoch": 0.7509583333333333,
      "grad_norm": 1.5496158599853516,
      "learning_rate": 4.396187068954309e-05,
      "loss": 3.3835,
      "step": 360460
    },
    {
      "epoch": 0.7509791666666666,
      "grad_norm": 1.6254000663757324,
      "learning_rate": 4.3954898035522376e-05,
      "loss": 3.5024,
      "step": 360470
    },
    {
      "epoch": 0.751,
      "grad_norm": 1.569475531578064,
      "learning_rate": 4.394792583957452e-05,
      "loss": 3.4317,
      "step": 360480
    },
    {
      "epoch": 0.7510208333333334,
      "grad_norm": 1.4678388833999634,
      "learning_rate": 4.394095410172966e-05,
      "loss": 3.3634,
      "step": 360490
    },
    {
      "epoch": 0.7510416666666667,
      "grad_norm": 1.5008022785186768,
      "learning_rate": 4.3933982822017876e-05,
      "loss": 3.5437,
      "step": 360500
    },
    {
      "epoch": 0.7510625,
      "grad_norm": 1.5878889560699463,
      "learning_rate": 4.392701200046932e-05,
      "loss": 3.5529,
      "step": 360510
    },
    {
      "epoch": 0.7510833333333333,
      "grad_norm": 1.4724797010421753,
      "learning_rate": 4.392004163711408e-05,
      "loss": 3.3883,
      "step": 360520
    },
    {
      "epoch": 0.7511041666666667,
      "grad_norm": 1.4581422805786133,
      "learning_rate": 4.391307173198226e-05,
      "loss": 3.368,
      "step": 360530
    },
    {
      "epoch": 0.751125,
      "grad_norm": 1.429192304611206,
      "learning_rate": 4.390610228510398e-05,
      "loss": 3.4665,
      "step": 360540
    },
    {
      "epoch": 0.7511458333333333,
      "grad_norm": 1.55303955078125,
      "learning_rate": 4.389913329650936e-05,
      "loss": 3.3105,
      "step": 360550
    },
    {
      "epoch": 0.7511666666666666,
      "grad_norm": 1.344815731048584,
      "learning_rate": 4.3892164766228485e-05,
      "loss": 3.3876,
      "step": 360560
    },
    {
      "epoch": 0.7511875,
      "grad_norm": 1.3499125242233276,
      "learning_rate": 4.388519669429145e-05,
      "loss": 3.5142,
      "step": 360570
    },
    {
      "epoch": 0.7512083333333334,
      "grad_norm": 1.446707010269165,
      "learning_rate": 4.387822908072835e-05,
      "loss": 3.5194,
      "step": 360580
    },
    {
      "epoch": 0.7512291666666666,
      "grad_norm": 1.4895342588424683,
      "learning_rate": 4.38712619255693e-05,
      "loss": 3.4341,
      "step": 360590
    },
    {
      "epoch": 0.75125,
      "grad_norm": 1.4122172594070435,
      "learning_rate": 4.386429522884441e-05,
      "loss": 3.3474,
      "step": 360600
    },
    {
      "epoch": 0.7512708333333333,
      "grad_norm": 1.4366847276687622,
      "learning_rate": 4.3857328990583735e-05,
      "loss": 3.4833,
      "step": 360610
    },
    {
      "epoch": 0.7512916666666667,
      "grad_norm": 1.4969271421432495,
      "learning_rate": 4.385036321081739e-05,
      "loss": 3.4516,
      "step": 360620
    },
    {
      "epoch": 0.7513125,
      "grad_norm": 1.7648075819015503,
      "learning_rate": 4.38433978895755e-05,
      "loss": 3.4304,
      "step": 360630
    },
    {
      "epoch": 0.7513333333333333,
      "grad_norm": 1.3084137439727783,
      "learning_rate": 4.383643302688802e-05,
      "loss": 3.4133,
      "step": 360640
    },
    {
      "epoch": 0.7513541666666667,
      "grad_norm": 2.2174131870269775,
      "learning_rate": 4.3829468622785186e-05,
      "loss": 3.4682,
      "step": 360650
    },
    {
      "epoch": 0.751375,
      "grad_norm": 1.4362982511520386,
      "learning_rate": 4.382250467729705e-05,
      "loss": 3.4538,
      "step": 360660
    },
    {
      "epoch": 0.7513958333333334,
      "grad_norm": 1.4679062366485596,
      "learning_rate": 4.381554119045364e-05,
      "loss": 3.4282,
      "step": 360670
    },
    {
      "epoch": 0.7514166666666666,
      "grad_norm": 1.5872598886489868,
      "learning_rate": 4.3808578162285e-05,
      "loss": 3.4315,
      "step": 360680
    },
    {
      "epoch": 0.7514375,
      "grad_norm": 1.3393919467926025,
      "learning_rate": 4.380161559282136e-05,
      "loss": 3.3974,
      "step": 360690
    },
    {
      "epoch": 0.7514583333333333,
      "grad_norm": 1.5485448837280273,
      "learning_rate": 4.3794653482092665e-05,
      "loss": 3.4839,
      "step": 360700
    },
    {
      "epoch": 0.7514791666666667,
      "grad_norm": 1.6348000764846802,
      "learning_rate": 4.3787691830128985e-05,
      "loss": 3.4249,
      "step": 360710
    },
    {
      "epoch": 0.7515,
      "grad_norm": 1.5928950309753418,
      "learning_rate": 4.378073063696052e-05,
      "loss": 3.4663,
      "step": 360720
    },
    {
      "epoch": 0.7515208333333333,
      "grad_norm": 1.2694486379623413,
      "learning_rate": 4.37737699026172e-05,
      "loss": 3.3771,
      "step": 360730
    },
    {
      "epoch": 0.7515416666666667,
      "grad_norm": 1.6390659809112549,
      "learning_rate": 4.376680962712912e-05,
      "loss": 3.2989,
      "step": 360740
    },
    {
      "epoch": 0.7515625,
      "grad_norm": 1.4475593566894531,
      "learning_rate": 4.3759849810526445e-05,
      "loss": 3.5379,
      "step": 360750
    },
    {
      "epoch": 0.7515833333333334,
      "grad_norm": 1.5346492528915405,
      "learning_rate": 4.375289045283913e-05,
      "loss": 3.3573,
      "step": 360760
    },
    {
      "epoch": 0.7516041666666666,
      "grad_norm": 1.4940229654312134,
      "learning_rate": 4.374593155409727e-05,
      "loss": 3.5333,
      "step": 360770
    },
    {
      "epoch": 0.751625,
      "grad_norm": 1.4064689874649048,
      "learning_rate": 4.3738973114330944e-05,
      "loss": 3.2781,
      "step": 360780
    },
    {
      "epoch": 0.7516458333333333,
      "grad_norm": 1.3830065727233887,
      "learning_rate": 4.373201513357017e-05,
      "loss": 3.6316,
      "step": 360790
    },
    {
      "epoch": 0.7516666666666667,
      "grad_norm": 1.3283847570419312,
      "learning_rate": 4.3725057611845035e-05,
      "loss": 3.4685,
      "step": 360800
    },
    {
      "epoch": 0.7516875,
      "grad_norm": 1.5266196727752686,
      "learning_rate": 4.371810054918559e-05,
      "loss": 3.3958,
      "step": 360810
    },
    {
      "epoch": 0.7517083333333333,
      "grad_norm": 1.6221884489059448,
      "learning_rate": 4.371114394562188e-05,
      "loss": 3.4629,
      "step": 360820
    },
    {
      "epoch": 0.7517291666666667,
      "grad_norm": 1.5836824178695679,
      "learning_rate": 4.370418780118394e-05,
      "loss": 3.4219,
      "step": 360830
    },
    {
      "epoch": 0.75175,
      "grad_norm": 1.5818063020706177,
      "learning_rate": 4.3697232115901856e-05,
      "loss": 3.5668,
      "step": 360840
    },
    {
      "epoch": 0.7517708333333334,
      "grad_norm": 1.5786552429199219,
      "learning_rate": 4.369027688980565e-05,
      "loss": 3.5289,
      "step": 360850
    },
    {
      "epoch": 0.7517916666666666,
      "grad_norm": 1.4142673015594482,
      "learning_rate": 4.3683322122925354e-05,
      "loss": 3.4007,
      "step": 360860
    },
    {
      "epoch": 0.7518125,
      "grad_norm": 1.365823745727539,
      "learning_rate": 4.367636781529103e-05,
      "loss": 3.4952,
      "step": 360870
    },
    {
      "epoch": 0.7518333333333334,
      "grad_norm": 1.5938053131103516,
      "learning_rate": 4.366941396693271e-05,
      "loss": 3.3919,
      "step": 360880
    },
    {
      "epoch": 0.7518541666666667,
      "grad_norm": 1.438371181488037,
      "learning_rate": 4.366246057788043e-05,
      "loss": 3.4,
      "step": 360890
    },
    {
      "epoch": 0.751875,
      "grad_norm": 1.5812993049621582,
      "learning_rate": 4.365550764816424e-05,
      "loss": 3.5496,
      "step": 360900
    },
    {
      "epoch": 0.7518958333333333,
      "grad_norm": 1.7401907444000244,
      "learning_rate": 4.364855517781414e-05,
      "loss": 3.2892,
      "step": 360910
    },
    {
      "epoch": 0.7519166666666667,
      "grad_norm": 1.380293369293213,
      "learning_rate": 4.36416031668602e-05,
      "loss": 3.3256,
      "step": 360920
    },
    {
      "epoch": 0.7519375,
      "grad_norm": 1.3300156593322754,
      "learning_rate": 4.363465161533244e-05,
      "loss": 3.4616,
      "step": 360930
    },
    {
      "epoch": 0.7519583333333333,
      "grad_norm": 1.4714909791946411,
      "learning_rate": 4.362770052326088e-05,
      "loss": 3.5464,
      "step": 360940
    },
    {
      "epoch": 0.7519791666666666,
      "grad_norm": 1.433297038078308,
      "learning_rate": 4.3620749890675596e-05,
      "loss": 3.4111,
      "step": 360950
    },
    {
      "epoch": 0.752,
      "grad_norm": 1.5794192552566528,
      "learning_rate": 4.3613799717606465e-05,
      "loss": 3.4765,
      "step": 360960
    },
    {
      "epoch": 0.7520208333333334,
      "grad_norm": 1.7281118631362915,
      "learning_rate": 4.360685000408367e-05,
      "loss": 3.5048,
      "step": 360970
    },
    {
      "epoch": 0.7520416666666667,
      "grad_norm": 1.4631513357162476,
      "learning_rate": 4.35999007501372e-05,
      "loss": 3.3869,
      "step": 360980
    },
    {
      "epoch": 0.7520625,
      "grad_norm": 1.6624970436096191,
      "learning_rate": 4.3592951955796945e-05,
      "loss": 3.468,
      "step": 360990
    },
    {
      "epoch": 0.7520833333333333,
      "grad_norm": 1.4659502506256104,
      "learning_rate": 4.358600362109312e-05,
      "loss": 3.3345,
      "step": 361000
    },
    {
      "epoch": 0.7520833333333333,
      "eval_loss": 3.5304362773895264,
      "eval_runtime": 7.3413,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 361000
    },
    {
      "epoch": 0.7521041666666667,
      "grad_norm": 1.360302448272705,
      "learning_rate": 4.357905574605559e-05,
      "loss": 3.4649,
      "step": 361010
    },
    {
      "epoch": 0.752125,
      "grad_norm": 1.6165428161621094,
      "learning_rate": 4.357210833071437e-05,
      "loss": 3.4989,
      "step": 361020
    },
    {
      "epoch": 0.7521458333333333,
      "grad_norm": 1.4396326541900635,
      "learning_rate": 4.356516137509961e-05,
      "loss": 3.5129,
      "step": 361030
    },
    {
      "epoch": 0.7521666666666667,
      "grad_norm": 1.5055465698242188,
      "learning_rate": 4.355821487924118e-05,
      "loss": 3.3414,
      "step": 361040
    },
    {
      "epoch": 0.7521875,
      "grad_norm": 1.4325906038284302,
      "learning_rate": 4.355126884316908e-05,
      "loss": 3.4177,
      "step": 361050
    },
    {
      "epoch": 0.7522083333333334,
      "grad_norm": 1.5957694053649902,
      "learning_rate": 4.3544323266913464e-05,
      "loss": 3.4298,
      "step": 361060
    },
    {
      "epoch": 0.7522291666666666,
      "grad_norm": 1.5416003465652466,
      "learning_rate": 4.353737815050417e-05,
      "loss": 3.4649,
      "step": 361070
    },
    {
      "epoch": 0.75225,
      "grad_norm": 1.3550736904144287,
      "learning_rate": 4.353043349397122e-05,
      "loss": 3.4838,
      "step": 361080
    },
    {
      "epoch": 0.7522708333333333,
      "grad_norm": 1.5245157480239868,
      "learning_rate": 4.3523489297344744e-05,
      "loss": 3.5557,
      "step": 361090
    },
    {
      "epoch": 0.7522916666666667,
      "grad_norm": 1.4477121829986572,
      "learning_rate": 4.351654556065461e-05,
      "loss": 3.4974,
      "step": 361100
    },
    {
      "epoch": 0.7523125,
      "grad_norm": 1.4610110521316528,
      "learning_rate": 4.3509602283930804e-05,
      "loss": 3.3871,
      "step": 361110
    },
    {
      "epoch": 0.7523333333333333,
      "grad_norm": 1.3081682920455933,
      "learning_rate": 4.3502659467203445e-05,
      "loss": 3.4184,
      "step": 361120
    },
    {
      "epoch": 0.7523541666666667,
      "grad_norm": 1.4667644500732422,
      "learning_rate": 4.349571711050242e-05,
      "loss": 3.4567,
      "step": 361130
    },
    {
      "epoch": 0.752375,
      "grad_norm": 1.3721644878387451,
      "learning_rate": 4.3488775213857714e-05,
      "loss": 3.4376,
      "step": 361140
    },
    {
      "epoch": 0.7523958333333334,
      "grad_norm": 1.4281786680221558,
      "learning_rate": 4.3481833777299345e-05,
      "loss": 3.5538,
      "step": 361150
    },
    {
      "epoch": 0.7524166666666666,
      "grad_norm": 1.461738109588623,
      "learning_rate": 4.347489280085729e-05,
      "loss": 3.5787,
      "step": 361160
    },
    {
      "epoch": 0.7524375,
      "grad_norm": 1.5548349618911743,
      "learning_rate": 4.346795228456154e-05,
      "loss": 3.4695,
      "step": 361170
    },
    {
      "epoch": 0.7524583333333333,
      "grad_norm": 1.7899779081344604,
      "learning_rate": 4.346101222844207e-05,
      "loss": 3.3853,
      "step": 361180
    },
    {
      "epoch": 0.7524791666666667,
      "grad_norm": 1.538071632385254,
      "learning_rate": 4.345407263252886e-05,
      "loss": 3.6,
      "step": 361190
    },
    {
      "epoch": 0.7525,
      "grad_norm": 1.658193588256836,
      "learning_rate": 4.344713349685188e-05,
      "loss": 3.3651,
      "step": 361200
    },
    {
      "epoch": 0.7525208333333333,
      "grad_norm": 1.3919909000396729,
      "learning_rate": 4.344019482144109e-05,
      "loss": 3.375,
      "step": 361210
    },
    {
      "epoch": 0.7525416666666667,
      "grad_norm": 1.5395923852920532,
      "learning_rate": 4.343325660632648e-05,
      "loss": 3.4475,
      "step": 361220
    },
    {
      "epoch": 0.7525625,
      "grad_norm": 1.623942255973816,
      "learning_rate": 4.342631885153804e-05,
      "loss": 3.338,
      "step": 361230
    },
    {
      "epoch": 0.7525833333333334,
      "grad_norm": 1.423143982887268,
      "learning_rate": 4.34193815571057e-05,
      "loss": 3.3125,
      "step": 361240
    },
    {
      "epoch": 0.7526041666666666,
      "grad_norm": 1.5689729452133179,
      "learning_rate": 4.3412444723059455e-05,
      "loss": 3.503,
      "step": 361250
    },
    {
      "epoch": 0.752625,
      "grad_norm": 1.5459004640579224,
      "learning_rate": 4.34055083494293e-05,
      "loss": 3.4934,
      "step": 361260
    },
    {
      "epoch": 0.7526458333333333,
      "grad_norm": 1.6964870691299438,
      "learning_rate": 4.339857243624507e-05,
      "loss": 3.5208,
      "step": 361270
    },
    {
      "epoch": 0.7526666666666667,
      "grad_norm": 1.4783680438995361,
      "learning_rate": 4.339163698353685e-05,
      "loss": 3.4088,
      "step": 361280
    },
    {
      "epoch": 0.7526875,
      "grad_norm": 1.4290404319763184,
      "learning_rate": 4.3384701991334606e-05,
      "loss": 3.5242,
      "step": 361290
    },
    {
      "epoch": 0.7527083333333333,
      "grad_norm": 1.4872992038726807,
      "learning_rate": 4.337776745966816e-05,
      "loss": 3.4729,
      "step": 361300
    },
    {
      "epoch": 0.7527291666666667,
      "grad_norm": 1.4403496980667114,
      "learning_rate": 4.337083338856761e-05,
      "loss": 3.5057,
      "step": 361310
    },
    {
      "epoch": 0.75275,
      "grad_norm": 1.5022870302200317,
      "learning_rate": 4.336389977806288e-05,
      "loss": 3.5003,
      "step": 361320
    },
    {
      "epoch": 0.7527708333333333,
      "grad_norm": 1.4454429149627686,
      "learning_rate": 4.33569666281838e-05,
      "loss": 3.4254,
      "step": 361330
    },
    {
      "epoch": 0.7527916666666666,
      "grad_norm": 1.4083895683288574,
      "learning_rate": 4.335003393896048e-05,
      "loss": 3.4918,
      "step": 361340
    },
    {
      "epoch": 0.7528125,
      "grad_norm": 1.5499533414840698,
      "learning_rate": 4.334310171042282e-05,
      "loss": 3.3361,
      "step": 361350
    },
    {
      "epoch": 0.7528333333333334,
      "grad_norm": 1.4359582662582397,
      "learning_rate": 4.333616994260067e-05,
      "loss": 3.4193,
      "step": 361360
    },
    {
      "epoch": 0.7528541666666667,
      "grad_norm": 1.509603500366211,
      "learning_rate": 4.332923863552407e-05,
      "loss": 3.5335,
      "step": 361370
    },
    {
      "epoch": 0.752875,
      "grad_norm": 1.4484729766845703,
      "learning_rate": 4.332230778922301e-05,
      "loss": 3.3953,
      "step": 361380
    },
    {
      "epoch": 0.7528958333333333,
      "grad_norm": 1.367470622062683,
      "learning_rate": 4.331537740372724e-05,
      "loss": 3.436,
      "step": 361390
    },
    {
      "epoch": 0.7529166666666667,
      "grad_norm": 1.4378942251205444,
      "learning_rate": 4.330844747906691e-05,
      "loss": 3.3848,
      "step": 361400
    },
    {
      "epoch": 0.7529375,
      "grad_norm": 1.3256049156188965,
      "learning_rate": 4.330151801527181e-05,
      "loss": 3.4585,
      "step": 361410
    },
    {
      "epoch": 0.7529583333333333,
      "grad_norm": 1.5810201168060303,
      "learning_rate": 4.329458901237188e-05,
      "loss": 3.5246,
      "step": 361420
    },
    {
      "epoch": 0.7529791666666666,
      "grad_norm": 1.8006349802017212,
      "learning_rate": 4.3287660470397165e-05,
      "loss": 3.3259,
      "step": 361430
    },
    {
      "epoch": 0.753,
      "grad_norm": 1.4865742921829224,
      "learning_rate": 4.328073238937749e-05,
      "loss": 3.3898,
      "step": 361440
    },
    {
      "epoch": 0.7530208333333334,
      "grad_norm": 1.6234016418457031,
      "learning_rate": 4.327380476934274e-05,
      "loss": 3.3168,
      "step": 361450
    },
    {
      "epoch": 0.7530416666666667,
      "grad_norm": 1.4089007377624512,
      "learning_rate": 4.326687761032301e-05,
      "loss": 3.4914,
      "step": 361460
    },
    {
      "epoch": 0.7530625,
      "grad_norm": 2.563838243484497,
      "learning_rate": 4.3259950912348084e-05,
      "loss": 3.401,
      "step": 361470
    },
    {
      "epoch": 0.7530833333333333,
      "grad_norm": 1.5689582824707031,
      "learning_rate": 4.325302467544787e-05,
      "loss": 3.5652,
      "step": 361480
    },
    {
      "epoch": 0.7531041666666667,
      "grad_norm": 1.8769787549972534,
      "learning_rate": 4.324609889965242e-05,
      "loss": 3.5219,
      "step": 361490
    },
    {
      "epoch": 0.753125,
      "grad_norm": 1.6034739017486572,
      "learning_rate": 4.323917358499152e-05,
      "loss": 3.4663,
      "step": 361500
    },
    {
      "epoch": 0.7531458333333333,
      "grad_norm": 1.3763971328735352,
      "learning_rate": 4.323224873149509e-05,
      "loss": 3.4444,
      "step": 361510
    },
    {
      "epoch": 0.7531666666666667,
      "grad_norm": 1.2854523658752441,
      "learning_rate": 4.322532433919317e-05,
      "loss": 3.2332,
      "step": 361520
    },
    {
      "epoch": 0.7531875,
      "grad_norm": 1.37899649143219,
      "learning_rate": 4.321840040811555e-05,
      "loss": 3.3722,
      "step": 361530
    },
    {
      "epoch": 0.7532083333333334,
      "grad_norm": 1.8061455488204956,
      "learning_rate": 4.321147693829217e-05,
      "loss": 3.4798,
      "step": 361540
    },
    {
      "epoch": 0.7532291666666666,
      "grad_norm": 1.4008492231369019,
      "learning_rate": 4.3204553929752926e-05,
      "loss": 3.4923,
      "step": 361550
    },
    {
      "epoch": 0.75325,
      "grad_norm": 1.3827403783798218,
      "learning_rate": 4.3197631382527756e-05,
      "loss": 3.4416,
      "step": 361560
    },
    {
      "epoch": 0.7532708333333333,
      "grad_norm": 1.579976201057434,
      "learning_rate": 4.3190709296646535e-05,
      "loss": 3.4952,
      "step": 361570
    },
    {
      "epoch": 0.7532916666666667,
      "grad_norm": 1.7546826601028442,
      "learning_rate": 4.318378767213917e-05,
      "loss": 3.528,
      "step": 361580
    },
    {
      "epoch": 0.7533125,
      "grad_norm": 1.4045894145965576,
      "learning_rate": 4.3176866509035566e-05,
      "loss": 3.4923,
      "step": 361590
    },
    {
      "epoch": 0.7533333333333333,
      "grad_norm": 1.5583536624908447,
      "learning_rate": 4.3169945807365606e-05,
      "loss": 3.4201,
      "step": 361600
    },
    {
      "epoch": 0.7533541666666667,
      "grad_norm": 1.5264735221862793,
      "learning_rate": 4.3163025567159196e-05,
      "loss": 3.4596,
      "step": 361610
    },
    {
      "epoch": 0.753375,
      "grad_norm": 1.5595712661743164,
      "learning_rate": 4.315610578844623e-05,
      "loss": 3.4735,
      "step": 361620
    },
    {
      "epoch": 0.7533958333333334,
      "grad_norm": 1.5208790302276611,
      "learning_rate": 4.314918647125665e-05,
      "loss": 3.3031,
      "step": 361630
    },
    {
      "epoch": 0.7534166666666666,
      "grad_norm": 1.49923574924469,
      "learning_rate": 4.314226761562018e-05,
      "loss": 3.3771,
      "step": 361640
    },
    {
      "epoch": 0.7534375,
      "grad_norm": 1.7419108152389526,
      "learning_rate": 4.313534922156687e-05,
      "loss": 3.4106,
      "step": 361650
    },
    {
      "epoch": 0.7534583333333333,
      "grad_norm": 1.4979349374771118,
      "learning_rate": 4.312843128912661e-05,
      "loss": 3.5023,
      "step": 361660
    },
    {
      "epoch": 0.7534791666666667,
      "grad_norm": 1.4696851968765259,
      "learning_rate": 4.312151381832912e-05,
      "loss": 3.4904,
      "step": 361670
    },
    {
      "epoch": 0.7535,
      "grad_norm": 1.706067442893982,
      "learning_rate": 4.3114596809204427e-05,
      "loss": 3.3884,
      "step": 361680
    },
    {
      "epoch": 0.7535208333333333,
      "grad_norm": 2.1794214248657227,
      "learning_rate": 4.310768026178243e-05,
      "loss": 3.4953,
      "step": 361690
    },
    {
      "epoch": 0.7535416666666667,
      "grad_norm": 1.3623769283294678,
      "learning_rate": 4.310076417609283e-05,
      "loss": 3.3826,
      "step": 361700
    },
    {
      "epoch": 0.7535625,
      "grad_norm": 1.4786375761032104,
      "learning_rate": 4.309384855216568e-05,
      "loss": 3.5114,
      "step": 361710
    },
    {
      "epoch": 0.7535833333333334,
      "grad_norm": 1.4975459575653076,
      "learning_rate": 4.308693339003082e-05,
      "loss": 3.5297,
      "step": 361720
    },
    {
      "epoch": 0.7536041666666666,
      "grad_norm": 1.367895245552063,
      "learning_rate": 4.308001868971801e-05,
      "loss": 3.5387,
      "step": 361730
    },
    {
      "epoch": 0.753625,
      "grad_norm": 1.3336851596832275,
      "learning_rate": 4.3073104451257226e-05,
      "loss": 3.3587,
      "step": 361740
    },
    {
      "epoch": 0.7536458333333333,
      "grad_norm": 1.4096388816833496,
      "learning_rate": 4.306619067467837e-05,
      "loss": 3.3814,
      "step": 361750
    },
    {
      "epoch": 0.7536666666666667,
      "grad_norm": 1.408814787864685,
      "learning_rate": 4.3059277360011134e-05,
      "loss": 3.4779,
      "step": 361760
    },
    {
      "epoch": 0.7536875,
      "grad_norm": 1.4091761112213135,
      "learning_rate": 4.30523645072856e-05,
      "loss": 3.4098,
      "step": 361770
    },
    {
      "epoch": 0.7537083333333333,
      "grad_norm": 1.544796347618103,
      "learning_rate": 4.304545211653147e-05,
      "loss": 3.4697,
      "step": 361780
    },
    {
      "epoch": 0.7537291666666667,
      "grad_norm": 1.513936996459961,
      "learning_rate": 4.303854018777858e-05,
      "loss": 3.4203,
      "step": 361790
    },
    {
      "epoch": 0.75375,
      "grad_norm": 1.4626883268356323,
      "learning_rate": 4.3031628721056976e-05,
      "loss": 3.4923,
      "step": 361800
    },
    {
      "epoch": 0.7537708333333333,
      "grad_norm": 1.4138885736465454,
      "learning_rate": 4.3024717716396345e-05,
      "loss": 3.5521,
      "step": 361810
    },
    {
      "epoch": 0.7537916666666666,
      "grad_norm": 1.5608450174331665,
      "learning_rate": 4.301780717382653e-05,
      "loss": 3.3402,
      "step": 361820
    },
    {
      "epoch": 0.7538125,
      "grad_norm": 1.3111820220947266,
      "learning_rate": 4.301089709337755e-05,
      "loss": 3.4217,
      "step": 361830
    },
    {
      "epoch": 0.7538333333333334,
      "grad_norm": 1.4714012145996094,
      "learning_rate": 4.30039874750791e-05,
      "loss": 3.4697,
      "step": 361840
    },
    {
      "epoch": 0.7538541666666667,
      "grad_norm": 1.611339807510376,
      "learning_rate": 4.299707831896105e-05,
      "loss": 3.3415,
      "step": 361850
    },
    {
      "epoch": 0.753875,
      "grad_norm": 1.3472661972045898,
      "learning_rate": 4.2990169625053295e-05,
      "loss": 3.3319,
      "step": 361860
    },
    {
      "epoch": 0.7538958333333333,
      "grad_norm": 1.5098538398742676,
      "learning_rate": 4.2983261393385634e-05,
      "loss": 3.4188,
      "step": 361870
    },
    {
      "epoch": 0.7539166666666667,
      "grad_norm": 1.4306669235229492,
      "learning_rate": 4.2976353623987924e-05,
      "loss": 3.4114,
      "step": 361880
    },
    {
      "epoch": 0.7539375,
      "grad_norm": 1.5226409435272217,
      "learning_rate": 4.296944631689e-05,
      "loss": 3.3325,
      "step": 361890
    },
    {
      "epoch": 0.7539583333333333,
      "grad_norm": 1.625656247138977,
      "learning_rate": 4.296253947212172e-05,
      "loss": 3.3927,
      "step": 361900
    },
    {
      "epoch": 0.7539791666666666,
      "grad_norm": 1.42397141456604,
      "learning_rate": 4.295563308971288e-05,
      "loss": 3.3788,
      "step": 361910
    },
    {
      "epoch": 0.754,
      "grad_norm": 1.533941626548767,
      "learning_rate": 4.2948727169693345e-05,
      "loss": 3.3315,
      "step": 361920
    },
    {
      "epoch": 0.7540208333333334,
      "grad_norm": 1.5946780443191528,
      "learning_rate": 4.294182171209294e-05,
      "loss": 3.4354,
      "step": 361930
    },
    {
      "epoch": 0.7540416666666667,
      "grad_norm": 1.5216917991638184,
      "learning_rate": 4.293491671694148e-05,
      "loss": 3.3807,
      "step": 361940
    },
    {
      "epoch": 0.7540625,
      "grad_norm": 1.3793100118637085,
      "learning_rate": 4.29280121842688e-05,
      "loss": 3.3342,
      "step": 361950
    },
    {
      "epoch": 0.7540833333333333,
      "grad_norm": 1.6056362390518188,
      "learning_rate": 4.292110811410472e-05,
      "loss": 3.5429,
      "step": 361960
    },
    {
      "epoch": 0.7541041666666667,
      "grad_norm": 1.4454777240753174,
      "learning_rate": 4.2914204506479076e-05,
      "loss": 3.4906,
      "step": 361970
    },
    {
      "epoch": 0.754125,
      "grad_norm": 1.4214129447937012,
      "learning_rate": 4.290730136142168e-05,
      "loss": 3.335,
      "step": 361980
    },
    {
      "epoch": 0.7541458333333333,
      "grad_norm": 1.4712992906570435,
      "learning_rate": 4.290039867896236e-05,
      "loss": 3.4786,
      "step": 361990
    },
    {
      "epoch": 0.7541666666666667,
      "grad_norm": 1.5463439226150513,
      "learning_rate": 4.289349645913096e-05,
      "loss": 3.3228,
      "step": 362000
    },
    {
      "epoch": 0.7541666666666667,
      "eval_loss": 3.534818649291992,
      "eval_runtime": 7.2699,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 362000
    },
    {
      "epoch": 0.7541875,
      "grad_norm": 1.5677322149276733,
      "learning_rate": 4.288659470195717e-05,
      "loss": 3.4682,
      "step": 362010
    },
    {
      "epoch": 0.7542083333333334,
      "grad_norm": 1.4964985847473145,
      "learning_rate": 4.287969340747094e-05,
      "loss": 3.3823,
      "step": 362020
    },
    {
      "epoch": 0.7542291666666666,
      "grad_norm": 1.5173063278198242,
      "learning_rate": 4.287279257570207e-05,
      "loss": 3.2902,
      "step": 362030
    },
    {
      "epoch": 0.75425,
      "grad_norm": 1.5602763891220093,
      "learning_rate": 4.286589220668026e-05,
      "loss": 3.3795,
      "step": 362040
    },
    {
      "epoch": 0.7542708333333333,
      "grad_norm": 1.6775354146957397,
      "learning_rate": 4.285899230043541e-05,
      "loss": 3.4887,
      "step": 362050
    },
    {
      "epoch": 0.7542916666666667,
      "grad_norm": 1.504411220550537,
      "learning_rate": 4.2852092856997376e-05,
      "loss": 3.5128,
      "step": 362060
    },
    {
      "epoch": 0.7543125,
      "grad_norm": 1.8925131559371948,
      "learning_rate": 4.284519387639578e-05,
      "loss": 3.4376,
      "step": 362070
    },
    {
      "epoch": 0.7543333333333333,
      "grad_norm": 1.579493522644043,
      "learning_rate": 4.283829535866059e-05,
      "loss": 3.4812,
      "step": 362080
    },
    {
      "epoch": 0.7543541666666667,
      "grad_norm": 1.6679757833480835,
      "learning_rate": 4.283139730382157e-05,
      "loss": 3.3923,
      "step": 362090
    },
    {
      "epoch": 0.754375,
      "grad_norm": 1.516231894493103,
      "learning_rate": 4.2824499711908424e-05,
      "loss": 3.3161,
      "step": 362100
    },
    {
      "epoch": 0.7543958333333334,
      "grad_norm": 1.6332528591156006,
      "learning_rate": 4.281760258295106e-05,
      "loss": 3.4386,
      "step": 362110
    },
    {
      "epoch": 0.7544166666666666,
      "grad_norm": 1.463142991065979,
      "learning_rate": 4.281070591697927e-05,
      "loss": 3.4495,
      "step": 362120
    },
    {
      "epoch": 0.7544375,
      "grad_norm": 1.5104990005493164,
      "learning_rate": 4.280380971402274e-05,
      "loss": 3.453,
      "step": 362130
    },
    {
      "epoch": 0.7544583333333333,
      "grad_norm": 1.373475193977356,
      "learning_rate": 4.279691397411135e-05,
      "loss": 3.5133,
      "step": 362140
    },
    {
      "epoch": 0.7544791666666667,
      "grad_norm": 1.5167169570922852,
      "learning_rate": 4.279001869727482e-05,
      "loss": 3.5576,
      "step": 362150
    },
    {
      "epoch": 0.7545,
      "grad_norm": 1.5739262104034424,
      "learning_rate": 4.2783123883543005e-05,
      "loss": 3.4257,
      "step": 362160
    },
    {
      "epoch": 0.7545208333333333,
      "grad_norm": 1.554410696029663,
      "learning_rate": 4.277622953294564e-05,
      "loss": 3.4051,
      "step": 362170
    },
    {
      "epoch": 0.7545416666666667,
      "grad_norm": 1.3975938558578491,
      "learning_rate": 4.2769335645512526e-05,
      "loss": 3.3975,
      "step": 362180
    },
    {
      "epoch": 0.7545625,
      "grad_norm": 1.3680294752120972,
      "learning_rate": 4.276244222127344e-05,
      "loss": 3.42,
      "step": 362190
    },
    {
      "epoch": 0.7545833333333334,
      "grad_norm": 1.4275734424591064,
      "learning_rate": 4.275554926025816e-05,
      "loss": 3.5209,
      "step": 362200
    },
    {
      "epoch": 0.7546041666666666,
      "grad_norm": 1.4510509967803955,
      "learning_rate": 4.274865676249644e-05,
      "loss": 3.396,
      "step": 362210
    },
    {
      "epoch": 0.754625,
      "grad_norm": 1.4384247064590454,
      "learning_rate": 4.274176472801808e-05,
      "loss": 3.4066,
      "step": 362220
    },
    {
      "epoch": 0.7546458333333333,
      "grad_norm": 1.465457558631897,
      "learning_rate": 4.273487315685285e-05,
      "loss": 3.5987,
      "step": 362230
    },
    {
      "epoch": 0.7546666666666667,
      "grad_norm": 1.6602972745895386,
      "learning_rate": 4.2727982049030494e-05,
      "loss": 3.3898,
      "step": 362240
    },
    {
      "epoch": 0.7546875,
      "grad_norm": 1.6907567977905273,
      "learning_rate": 4.27210914045808e-05,
      "loss": 3.5169,
      "step": 362250
    },
    {
      "epoch": 0.7547083333333333,
      "grad_norm": 1.405896782875061,
      "learning_rate": 4.2714201223533534e-05,
      "loss": 3.4303,
      "step": 362260
    },
    {
      "epoch": 0.7547291666666667,
      "grad_norm": 1.708936333656311,
      "learning_rate": 4.270731150591845e-05,
      "loss": 3.4181,
      "step": 362270
    },
    {
      "epoch": 0.75475,
      "grad_norm": 1.4433584213256836,
      "learning_rate": 4.270042225176529e-05,
      "loss": 3.4386,
      "step": 362280
    },
    {
      "epoch": 0.7547708333333333,
      "grad_norm": 1.4608343839645386,
      "learning_rate": 4.269353346110385e-05,
      "loss": 3.4621,
      "step": 362290
    },
    {
      "epoch": 0.7547916666666666,
      "grad_norm": 1.4692819118499756,
      "learning_rate": 4.268664513396388e-05,
      "loss": 3.4722,
      "step": 362300
    },
    {
      "epoch": 0.7548125,
      "grad_norm": 1.4063183069229126,
      "learning_rate": 4.267975727037511e-05,
      "loss": 3.4022,
      "step": 362310
    },
    {
      "epoch": 0.7548333333333334,
      "grad_norm": 1.4536839723587036,
      "learning_rate": 4.267286987036733e-05,
      "loss": 3.5573,
      "step": 362320
    },
    {
      "epoch": 0.7548541666666667,
      "grad_norm": 1.532080888748169,
      "learning_rate": 4.2665982933970246e-05,
      "loss": 3.4951,
      "step": 362330
    },
    {
      "epoch": 0.754875,
      "grad_norm": 1.6007500886917114,
      "learning_rate": 4.2659096461213636e-05,
      "loss": 3.5287,
      "step": 362340
    },
    {
      "epoch": 0.7548958333333333,
      "grad_norm": 1.4012120962142944,
      "learning_rate": 4.265221045212725e-05,
      "loss": 3.4748,
      "step": 362350
    },
    {
      "epoch": 0.7549166666666667,
      "grad_norm": 1.3644787073135376,
      "learning_rate": 4.264532490674081e-05,
      "loss": 3.4291,
      "step": 362360
    },
    {
      "epoch": 0.7549375,
      "grad_norm": 1.8072471618652344,
      "learning_rate": 4.263843982508407e-05,
      "loss": 3.5151,
      "step": 362370
    },
    {
      "epoch": 0.7549583333333333,
      "grad_norm": 1.4721015691757202,
      "learning_rate": 4.26315552071868e-05,
      "loss": 3.4392,
      "step": 362380
    },
    {
      "epoch": 0.7549791666666666,
      "grad_norm": 1.6418025493621826,
      "learning_rate": 4.262467105307868e-05,
      "loss": 3.4836,
      "step": 362390
    },
    {
      "epoch": 0.755,
      "grad_norm": 1.4209272861480713,
      "learning_rate": 4.2617787362789546e-05,
      "loss": 3.3989,
      "step": 362400
    },
    {
      "epoch": 0.7550208333333334,
      "grad_norm": 1.6363855600357056,
      "learning_rate": 4.261090413634895e-05,
      "loss": 3.5093,
      "step": 362410
    },
    {
      "epoch": 0.7550416666666667,
      "grad_norm": 1.4923479557037354,
      "learning_rate": 4.2604021373786815e-05,
      "loss": 3.4542,
      "step": 362420
    },
    {
      "epoch": 0.7550625,
      "grad_norm": 1.5124707221984863,
      "learning_rate": 4.259713907513284e-05,
      "loss": 3.4801,
      "step": 362430
    },
    {
      "epoch": 0.7550833333333333,
      "grad_norm": 1.3353145122528076,
      "learning_rate": 4.2590257240416655e-05,
      "loss": 3.542,
      "step": 362440
    },
    {
      "epoch": 0.7551041666666667,
      "grad_norm": 1.3209418058395386,
      "learning_rate": 4.258337586966799e-05,
      "loss": 3.5065,
      "step": 362450
    },
    {
      "epoch": 0.755125,
      "grad_norm": 1.5636804103851318,
      "learning_rate": 4.257649496291673e-05,
      "loss": 3.4036,
      "step": 362460
    },
    {
      "epoch": 0.7551458333333333,
      "grad_norm": 1.518236756324768,
      "learning_rate": 4.256961452019243e-05,
      "loss": 3.4986,
      "step": 362470
    },
    {
      "epoch": 0.7551666666666667,
      "grad_norm": 1.5230333805084229,
      "learning_rate": 4.256273454152484e-05,
      "loss": 3.4286,
      "step": 362480
    },
    {
      "epoch": 0.7551875,
      "grad_norm": 1.477516531944275,
      "learning_rate": 4.25558550269438e-05,
      "loss": 3.4523,
      "step": 362490
    },
    {
      "epoch": 0.7552083333333334,
      "grad_norm": 1.6469231843948364,
      "learning_rate": 4.254897597647888e-05,
      "loss": 3.476,
      "step": 362500
    },
    {
      "epoch": 0.7552291666666666,
      "grad_norm": 1.5017082691192627,
      "learning_rate": 4.2542097390159854e-05,
      "loss": 3.5759,
      "step": 362510
    },
    {
      "epoch": 0.75525,
      "grad_norm": 1.4043394327163696,
      "learning_rate": 4.253521926801645e-05,
      "loss": 3.478,
      "step": 362520
    },
    {
      "epoch": 0.7552708333333333,
      "grad_norm": 1.3714686632156372,
      "learning_rate": 4.2528341610078336e-05,
      "loss": 3.3726,
      "step": 362530
    },
    {
      "epoch": 0.7552916666666667,
      "grad_norm": 1.718198537826538,
      "learning_rate": 4.252146441637526e-05,
      "loss": 3.5009,
      "step": 362540
    },
    {
      "epoch": 0.7553125,
      "grad_norm": 1.440666913986206,
      "learning_rate": 4.2514587686936916e-05,
      "loss": 3.4086,
      "step": 362550
    },
    {
      "epoch": 0.7553333333333333,
      "grad_norm": 1.3975685834884644,
      "learning_rate": 4.2507711421793e-05,
      "loss": 3.3839,
      "step": 362560
    },
    {
      "epoch": 0.7553541666666667,
      "grad_norm": 1.6054755449295044,
      "learning_rate": 4.250083562097323e-05,
      "loss": 3.4768,
      "step": 362570
    },
    {
      "epoch": 0.755375,
      "grad_norm": 1.482725739479065,
      "learning_rate": 4.2493960284507295e-05,
      "loss": 3.4976,
      "step": 362580
    },
    {
      "epoch": 0.7553958333333334,
      "grad_norm": 1.3804813623428345,
      "learning_rate": 4.248708541242491e-05,
      "loss": 3.4913,
      "step": 362590
    },
    {
      "epoch": 0.7554166666666666,
      "grad_norm": 1.3707702159881592,
      "learning_rate": 4.2480211004755735e-05,
      "loss": 3.4576,
      "step": 362600
    },
    {
      "epoch": 0.7554375,
      "grad_norm": 1.3446820974349976,
      "learning_rate": 4.24733370615295e-05,
      "loss": 3.4343,
      "step": 362610
    },
    {
      "epoch": 0.7554583333333333,
      "grad_norm": 1.429740071296692,
      "learning_rate": 4.246646358277589e-05,
      "loss": 3.4313,
      "step": 362620
    },
    {
      "epoch": 0.7554791666666667,
      "grad_norm": 1.8298683166503906,
      "learning_rate": 4.245959056852459e-05,
      "loss": 3.4613,
      "step": 362630
    },
    {
      "epoch": 0.7555,
      "grad_norm": 1.3894866704940796,
      "learning_rate": 4.2452718018805294e-05,
      "loss": 3.4382,
      "step": 362640
    },
    {
      "epoch": 0.7555208333333333,
      "grad_norm": 1.4767018556594849,
      "learning_rate": 4.24458459336477e-05,
      "loss": 3.1784,
      "step": 362650
    },
    {
      "epoch": 0.7555416666666667,
      "grad_norm": 1.563488245010376,
      "learning_rate": 4.243897431308145e-05,
      "loss": 3.3046,
      "step": 362660
    },
    {
      "epoch": 0.7555625,
      "grad_norm": 1.800135612487793,
      "learning_rate": 4.2432103157136265e-05,
      "loss": 3.4592,
      "step": 362670
    },
    {
      "epoch": 0.7555833333333334,
      "grad_norm": 1.4279718399047852,
      "learning_rate": 4.242523246584183e-05,
      "loss": 3.5212,
      "step": 362680
    },
    {
      "epoch": 0.7556041666666666,
      "grad_norm": 1.5240310430526733,
      "learning_rate": 4.24183622392278e-05,
      "loss": 3.4903,
      "step": 362690
    },
    {
      "epoch": 0.755625,
      "grad_norm": 1.445310354232788,
      "learning_rate": 4.2411492477323866e-05,
      "loss": 3.3466,
      "step": 362700
    },
    {
      "epoch": 0.7556458333333333,
      "grad_norm": 1.5324418544769287,
      "learning_rate": 4.240462318015969e-05,
      "loss": 3.3541,
      "step": 362710
    },
    {
      "epoch": 0.7556666666666667,
      "grad_norm": 1.409710168838501,
      "learning_rate": 4.239775434776499e-05,
      "loss": 3.3334,
      "step": 362720
    },
    {
      "epoch": 0.7556875,
      "grad_norm": 1.3713252544403076,
      "learning_rate": 4.239088598016932e-05,
      "loss": 3.4106,
      "step": 362730
    },
    {
      "epoch": 0.7557083333333333,
      "grad_norm": 1.4420104026794434,
      "learning_rate": 4.2384018077402476e-05,
      "loss": 3.452,
      "step": 362740
    },
    {
      "epoch": 0.7557291666666667,
      "grad_norm": 1.5500898361206055,
      "learning_rate": 4.2377150639494115e-05,
      "loss": 3.4268,
      "step": 362750
    },
    {
      "epoch": 0.75575,
      "grad_norm": 1.515358567237854,
      "learning_rate": 4.237028366647378e-05,
      "loss": 3.3556,
      "step": 362760
    },
    {
      "epoch": 0.7557708333333333,
      "grad_norm": 1.6936925649642944,
      "learning_rate": 4.236341715837131e-05,
      "loss": 3.4083,
      "step": 362770
    },
    {
      "epoch": 0.7557916666666666,
      "grad_norm": 1.4817370176315308,
      "learning_rate": 4.235655111521621e-05,
      "loss": 3.3279,
      "step": 362780
    },
    {
      "epoch": 0.7558125,
      "grad_norm": 1.584830641746521,
      "learning_rate": 4.234968553703818e-05,
      "loss": 3.4258,
      "step": 362790
    },
    {
      "epoch": 0.7558333333333334,
      "grad_norm": 1.4622039794921875,
      "learning_rate": 4.234282042386697e-05,
      "loss": 3.403,
      "step": 362800
    },
    {
      "epoch": 0.7558541666666667,
      "grad_norm": 1.4489203691482544,
      "learning_rate": 4.2335955775732126e-05,
      "loss": 3.4081,
      "step": 362810
    },
    {
      "epoch": 0.755875,
      "grad_norm": 1.4309196472167969,
      "learning_rate": 4.232909159266328e-05,
      "loss": 3.5552,
      "step": 362820
    },
    {
      "epoch": 0.7558958333333333,
      "grad_norm": 1.3866314888000488,
      "learning_rate": 4.2322227874690226e-05,
      "loss": 3.4618,
      "step": 362830
    },
    {
      "epoch": 0.7559166666666667,
      "grad_norm": 1.530292272567749,
      "learning_rate": 4.23153646218425e-05,
      "loss": 3.5418,
      "step": 362840
    },
    {
      "epoch": 0.7559375,
      "grad_norm": 1.4676973819732666,
      "learning_rate": 4.2308501834149724e-05,
      "loss": 3.3959,
      "step": 362850
    },
    {
      "epoch": 0.7559583333333333,
      "grad_norm": 1.5820932388305664,
      "learning_rate": 4.230163951164168e-05,
      "loss": 3.5085,
      "step": 362860
    },
    {
      "epoch": 0.7559791666666666,
      "grad_norm": 1.4426382780075073,
      "learning_rate": 4.229477765434788e-05,
      "loss": 3.4031,
      "step": 362870
    },
    {
      "epoch": 0.756,
      "grad_norm": 1.365604281425476,
      "learning_rate": 4.228791626229795e-05,
      "loss": 3.5045,
      "step": 362880
    },
    {
      "epoch": 0.7560208333333334,
      "grad_norm": 1.4375910758972168,
      "learning_rate": 4.228105533552169e-05,
      "loss": 3.3039,
      "step": 362890
    },
    {
      "epoch": 0.7560416666666666,
      "grad_norm": 1.3612134456634521,
      "learning_rate": 4.2274194874048575e-05,
      "loss": 3.3939,
      "step": 362900
    },
    {
      "epoch": 0.7560625,
      "grad_norm": 1.682273030281067,
      "learning_rate": 4.226733487790832e-05,
      "loss": 3.313,
      "step": 362910
    },
    {
      "epoch": 0.7560833333333333,
      "grad_norm": 1.4571882486343384,
      "learning_rate": 4.226047534713051e-05,
      "loss": 3.4923,
      "step": 362920
    },
    {
      "epoch": 0.7561041666666667,
      "grad_norm": 1.5280864238739014,
      "learning_rate": 4.225361628174481e-05,
      "loss": 3.482,
      "step": 362930
    },
    {
      "epoch": 0.756125,
      "grad_norm": 1.5400807857513428,
      "learning_rate": 4.2246757681780843e-05,
      "loss": 3.3574,
      "step": 362940
    },
    {
      "epoch": 0.7561458333333333,
      "grad_norm": 1.4504300355911255,
      "learning_rate": 4.2239899547268244e-05,
      "loss": 3.6451,
      "step": 362950
    },
    {
      "epoch": 0.7561666666666667,
      "grad_norm": 2.8022408485412598,
      "learning_rate": 4.2233041878236603e-05,
      "loss": 3.3758,
      "step": 362960
    },
    {
      "epoch": 0.7561875,
      "grad_norm": 1.6594408750534058,
      "learning_rate": 4.222618467471557e-05,
      "loss": 3.4264,
      "step": 362970
    },
    {
      "epoch": 0.7562083333333334,
      "grad_norm": 1.9575732946395874,
      "learning_rate": 4.221932793673475e-05,
      "loss": 3.4529,
      "step": 362980
    },
    {
      "epoch": 0.7562291666666666,
      "grad_norm": 1.527603268623352,
      "learning_rate": 4.221247166432379e-05,
      "loss": 3.5031,
      "step": 362990
    },
    {
      "epoch": 0.75625,
      "grad_norm": 1.44435453414917,
      "learning_rate": 4.220561585751228e-05,
      "loss": 3.4517,
      "step": 363000
    },
    {
      "epoch": 0.75625,
      "eval_loss": 3.527604579925537,
      "eval_runtime": 7.3078,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.411,
      "step": 363000
    },
    {
      "epoch": 0.7562708333333333,
      "grad_norm": 1.5124326944351196,
      "learning_rate": 4.219876051632983e-05,
      "loss": 3.4015,
      "step": 363010
    },
    {
      "epoch": 0.7562916666666667,
      "grad_norm": 1.373380184173584,
      "learning_rate": 4.2191905640806065e-05,
      "loss": 3.464,
      "step": 363020
    },
    {
      "epoch": 0.7563125,
      "grad_norm": 1.4064165353775024,
      "learning_rate": 4.218505123097066e-05,
      "loss": 3.4304,
      "step": 363030
    },
    {
      "epoch": 0.7563333333333333,
      "grad_norm": 1.3823295831680298,
      "learning_rate": 4.2178197286853055e-05,
      "loss": 3.2974,
      "step": 363040
    },
    {
      "epoch": 0.7563541666666667,
      "grad_norm": 1.636059284210205,
      "learning_rate": 4.2171343808483006e-05,
      "loss": 3.3547,
      "step": 363050
    },
    {
      "epoch": 0.756375,
      "grad_norm": 1.7518337965011597,
      "learning_rate": 4.2164490795890106e-05,
      "loss": 3.4019,
      "step": 363060
    },
    {
      "epoch": 0.7563958333333334,
      "grad_norm": 1.4465460777282715,
      "learning_rate": 4.215763824910383e-05,
      "loss": 3.4583,
      "step": 363070
    },
    {
      "epoch": 0.7564166666666666,
      "grad_norm": 1.5045065879821777,
      "learning_rate": 4.215078616815393e-05,
      "loss": 3.4817,
      "step": 363080
    },
    {
      "epoch": 0.7564375,
      "grad_norm": 1.3482083082199097,
      "learning_rate": 4.214393455306999e-05,
      "loss": 3.4343,
      "step": 363090
    },
    {
      "epoch": 0.7564583333333333,
      "grad_norm": 1.4563215970993042,
      "learning_rate": 4.213708340388145e-05,
      "loss": 3.5081,
      "step": 363100
    },
    {
      "epoch": 0.7564791666666667,
      "grad_norm": 1.453856348991394,
      "learning_rate": 4.213023272061808e-05,
      "loss": 3.3776,
      "step": 363110
    },
    {
      "epoch": 0.7565,
      "grad_norm": 1.40571129322052,
      "learning_rate": 4.212338250330945e-05,
      "loss": 3.555,
      "step": 363120
    },
    {
      "epoch": 0.7565208333333333,
      "grad_norm": 1.4456696510314941,
      "learning_rate": 4.2116532751985005e-05,
      "loss": 3.4455,
      "step": 363130
    },
    {
      "epoch": 0.7565416666666667,
      "grad_norm": 1.526736855506897,
      "learning_rate": 4.210968346667452e-05,
      "loss": 3.471,
      "step": 363140
    },
    {
      "epoch": 0.7565625,
      "grad_norm": 1.6614035367965698,
      "learning_rate": 4.2102834647407474e-05,
      "loss": 3.5649,
      "step": 363150
    },
    {
      "epoch": 0.7565833333333334,
      "grad_norm": 1.5229146480560303,
      "learning_rate": 4.2095986294213404e-05,
      "loss": 3.4547,
      "step": 363160
    },
    {
      "epoch": 0.7566041666666666,
      "grad_norm": 1.6505907773971558,
      "learning_rate": 4.2089138407122084e-05,
      "loss": 3.3859,
      "step": 363170
    },
    {
      "epoch": 0.756625,
      "grad_norm": 1.429440975189209,
      "learning_rate": 4.20822909861629e-05,
      "loss": 3.4875,
      "step": 363180
    },
    {
      "epoch": 0.7566458333333334,
      "grad_norm": 1.6689236164093018,
      "learning_rate": 4.207544403136547e-05,
      "loss": 3.4346,
      "step": 363190
    },
    {
      "epoch": 0.7566666666666667,
      "grad_norm": 1.3638709783554077,
      "learning_rate": 4.2068597542759486e-05,
      "loss": 3.4597,
      "step": 363200
    },
    {
      "epoch": 0.7566875,
      "grad_norm": 1.4094442129135132,
      "learning_rate": 4.20617515203744e-05,
      "loss": 3.4452,
      "step": 363210
    },
    {
      "epoch": 0.7567083333333333,
      "grad_norm": 1.8089826107025146,
      "learning_rate": 4.2054905964239766e-05,
      "loss": 3.5369,
      "step": 363220
    },
    {
      "epoch": 0.7567291666666667,
      "grad_norm": 1.3769972324371338,
      "learning_rate": 4.20480608743853e-05,
      "loss": 3.36,
      "step": 363230
    },
    {
      "epoch": 0.75675,
      "grad_norm": 1.3645716905593872,
      "learning_rate": 4.2041216250840456e-05,
      "loss": 3.3994,
      "step": 363240
    },
    {
      "epoch": 0.7567708333333333,
      "grad_norm": 1.5441865921020508,
      "learning_rate": 4.203437209363476e-05,
      "loss": 3.4649,
      "step": 363250
    },
    {
      "epoch": 0.7567916666666666,
      "grad_norm": 1.4531933069229126,
      "learning_rate": 4.2027528402797926e-05,
      "loss": 3.4083,
      "step": 363260
    },
    {
      "epoch": 0.7568125,
      "grad_norm": 1.5362573862075806,
      "learning_rate": 4.20206851783594e-05,
      "loss": 3.4846,
      "step": 363270
    },
    {
      "epoch": 0.7568333333333334,
      "grad_norm": 1.4389595985412598,
      "learning_rate": 4.201384242034878e-05,
      "loss": 3.4058,
      "step": 363280
    },
    {
      "epoch": 0.7568541666666667,
      "grad_norm": 1.334222435951233,
      "learning_rate": 4.20070001287956e-05,
      "loss": 3.3649,
      "step": 363290
    },
    {
      "epoch": 0.756875,
      "grad_norm": 1.4327847957611084,
      "learning_rate": 4.2000158303729443e-05,
      "loss": 3.4443,
      "step": 363300
    },
    {
      "epoch": 0.7568958333333333,
      "grad_norm": 1.4361658096313477,
      "learning_rate": 4.199331694517984e-05,
      "loss": 3.4774,
      "step": 363310
    },
    {
      "epoch": 0.7569166666666667,
      "grad_norm": 1.5995877981185913,
      "learning_rate": 4.198647605317637e-05,
      "loss": 3.543,
      "step": 363320
    },
    {
      "epoch": 0.7569375,
      "grad_norm": 1.3184396028518677,
      "learning_rate": 4.197963562774856e-05,
      "loss": 3.4925,
      "step": 363330
    },
    {
      "epoch": 0.7569583333333333,
      "grad_norm": 1.785804271697998,
      "learning_rate": 4.197279566892598e-05,
      "loss": 3.4072,
      "step": 363340
    },
    {
      "epoch": 0.7569791666666666,
      "grad_norm": 1.5075806379318237,
      "learning_rate": 4.196595617673814e-05,
      "loss": 3.5166,
      "step": 363350
    },
    {
      "epoch": 0.757,
      "grad_norm": 1.4142301082611084,
      "learning_rate": 4.195911715121463e-05,
      "loss": 3.3987,
      "step": 363360
    },
    {
      "epoch": 0.7570208333333334,
      "grad_norm": 1.5039535760879517,
      "learning_rate": 4.195227859238496e-05,
      "loss": 3.4838,
      "step": 363370
    },
    {
      "epoch": 0.7570416666666666,
      "grad_norm": 1.5985090732574463,
      "learning_rate": 4.1945440500278675e-05,
      "loss": 3.4118,
      "step": 363380
    },
    {
      "epoch": 0.7570625,
      "grad_norm": 1.5409181118011475,
      "learning_rate": 4.1938602874925306e-05,
      "loss": 3.4891,
      "step": 363390
    },
    {
      "epoch": 0.7570833333333333,
      "grad_norm": 1.474456787109375,
      "learning_rate": 4.193176571635447e-05,
      "loss": 3.4605,
      "step": 363400
    },
    {
      "epoch": 0.7571041666666667,
      "grad_norm": 1.4807132482528687,
      "learning_rate": 4.192492902459552e-05,
      "loss": 3.4233,
      "step": 363410
    },
    {
      "epoch": 0.757125,
      "grad_norm": 1.5944292545318604,
      "learning_rate": 4.191809279967814e-05,
      "loss": 3.4125,
      "step": 363420
    },
    {
      "epoch": 0.7571458333333333,
      "grad_norm": 1.4302104711532593,
      "learning_rate": 4.191125704163188e-05,
      "loss": 3.3993,
      "step": 363430
    },
    {
      "epoch": 0.7571666666666667,
      "grad_norm": 1.3989834785461426,
      "learning_rate": 4.190442175048611e-05,
      "loss": 3.3344,
      "step": 363440
    },
    {
      "epoch": 0.7571875,
      "grad_norm": 1.5759705305099487,
      "learning_rate": 4.189758692627048e-05,
      "loss": 3.6411,
      "step": 363450
    },
    {
      "epoch": 0.7572083333333334,
      "grad_norm": 1.4493253231048584,
      "learning_rate": 4.189075256901453e-05,
      "loss": 3.4377,
      "step": 363460
    },
    {
      "epoch": 0.7572291666666666,
      "grad_norm": 1.4637655019760132,
      "learning_rate": 4.188391867874768e-05,
      "loss": 3.4665,
      "step": 363470
    },
    {
      "epoch": 0.75725,
      "grad_norm": 1.3835400342941284,
      "learning_rate": 4.187708525549952e-05,
      "loss": 3.5079,
      "step": 363480
    },
    {
      "epoch": 0.7572708333333333,
      "grad_norm": 1.4471186399459839,
      "learning_rate": 4.18702522992996e-05,
      "loss": 3.5378,
      "step": 363490
    },
    {
      "epoch": 0.7572916666666667,
      "grad_norm": 1.5044174194335938,
      "learning_rate": 4.1863419810177305e-05,
      "loss": 3.4352,
      "step": 363500
    },
    {
      "epoch": 0.7573125,
      "grad_norm": 1.3902920484542847,
      "learning_rate": 4.1856587788162334e-05,
      "loss": 3.4767,
      "step": 363510
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 1.4861409664154053,
      "learning_rate": 4.1849756233284034e-05,
      "loss": 3.3944,
      "step": 363520
    },
    {
      "epoch": 0.7573541666666667,
      "grad_norm": 1.7668871879577637,
      "learning_rate": 4.184292514557193e-05,
      "loss": 3.4256,
      "step": 363530
    },
    {
      "epoch": 0.757375,
      "grad_norm": 1.582427740097046,
      "learning_rate": 4.1836094525055694e-05,
      "loss": 3.4508,
      "step": 363540
    },
    {
      "epoch": 0.7573958333333334,
      "grad_norm": 1.6601828336715698,
      "learning_rate": 4.182926437176466e-05,
      "loss": 3.4749,
      "step": 363550
    },
    {
      "epoch": 0.7574166666666666,
      "grad_norm": 1.4230644702911377,
      "learning_rate": 4.182243468572833e-05,
      "loss": 3.324,
      "step": 363560
    },
    {
      "epoch": 0.7574375,
      "grad_norm": 1.6360406875610352,
      "learning_rate": 4.181560546697636e-05,
      "loss": 3.4616,
      "step": 363570
    },
    {
      "epoch": 0.7574583333333333,
      "grad_norm": 1.4133024215698242,
      "learning_rate": 4.180877671553811e-05,
      "loss": 3.381,
      "step": 363580
    },
    {
      "epoch": 0.7574791666666667,
      "grad_norm": 1.3707246780395508,
      "learning_rate": 4.1801948431443064e-05,
      "loss": 3.4825,
      "step": 363590
    },
    {
      "epoch": 0.7575,
      "grad_norm": 1.5991973876953125,
      "learning_rate": 4.179512061472087e-05,
      "loss": 3.4297,
      "step": 363600
    },
    {
      "epoch": 0.7575208333333333,
      "grad_norm": 1.8059487342834473,
      "learning_rate": 4.178829326540089e-05,
      "loss": 3.4729,
      "step": 363610
    },
    {
      "epoch": 0.7575416666666667,
      "grad_norm": 1.6102954149246216,
      "learning_rate": 4.178146638351264e-05,
      "loss": 3.4992,
      "step": 363620
    },
    {
      "epoch": 0.7575625,
      "grad_norm": 1.8208246231079102,
      "learning_rate": 4.177463996908561e-05,
      "loss": 3.4922,
      "step": 363630
    },
    {
      "epoch": 0.7575833333333334,
      "grad_norm": 1.8045308589935303,
      "learning_rate": 4.176781402214931e-05,
      "loss": 3.4305,
      "step": 363640
    },
    {
      "epoch": 0.7576041666666666,
      "grad_norm": 1.6729240417480469,
      "learning_rate": 4.176098854273321e-05,
      "loss": 3.4011,
      "step": 363650
    },
    {
      "epoch": 0.757625,
      "grad_norm": 1.4115653038024902,
      "learning_rate": 4.1754163530866786e-05,
      "loss": 3.4468,
      "step": 363660
    },
    {
      "epoch": 0.7576458333333334,
      "grad_norm": 1.424033284187317,
      "learning_rate": 4.174733898657955e-05,
      "loss": 3.3984,
      "step": 363670
    },
    {
      "epoch": 0.7576666666666667,
      "grad_norm": 1.6126574277877808,
      "learning_rate": 4.174051490990095e-05,
      "loss": 3.3379,
      "step": 363680
    },
    {
      "epoch": 0.7576875,
      "grad_norm": 1.7855007648468018,
      "learning_rate": 4.173369130086046e-05,
      "loss": 3.3747,
      "step": 363690
    },
    {
      "epoch": 0.7577083333333333,
      "grad_norm": 1.5898951292037964,
      "learning_rate": 4.1726868159487584e-05,
      "loss": 3.4412,
      "step": 363700
    },
    {
      "epoch": 0.7577291666666667,
      "grad_norm": 1.4298052787780762,
      "learning_rate": 4.1720045485811766e-05,
      "loss": 3.5298,
      "step": 363710
    },
    {
      "epoch": 0.75775,
      "grad_norm": 1.410804033279419,
      "learning_rate": 4.17132232798625e-05,
      "loss": 3.4368,
      "step": 363720
    },
    {
      "epoch": 0.7577708333333333,
      "grad_norm": 1.567581057548523,
      "learning_rate": 4.1706401541669256e-05,
      "loss": 3.4267,
      "step": 363730
    },
    {
      "epoch": 0.7577916666666666,
      "grad_norm": 1.6991366147994995,
      "learning_rate": 4.169958027126148e-05,
      "loss": 3.5882,
      "step": 363740
    },
    {
      "epoch": 0.7578125,
      "grad_norm": 1.451216220855713,
      "learning_rate": 4.169275946866865e-05,
      "loss": 3.5051,
      "step": 363750
    },
    {
      "epoch": 0.7578333333333334,
      "grad_norm": 1.4219169616699219,
      "learning_rate": 4.168593913392023e-05,
      "loss": 3.4717,
      "step": 363760
    },
    {
      "epoch": 0.7578541666666667,
      "grad_norm": 1.3802642822265625,
      "learning_rate": 4.167911926704572e-05,
      "loss": 3.4519,
      "step": 363770
    },
    {
      "epoch": 0.757875,
      "grad_norm": 1.5966379642486572,
      "learning_rate": 4.167229986807445e-05,
      "loss": 3.5006,
      "step": 363780
    },
    {
      "epoch": 0.7578958333333333,
      "grad_norm": 1.4163457155227661,
      "learning_rate": 4.166548093703601e-05,
      "loss": 3.55,
      "step": 363790
    },
    {
      "epoch": 0.7579166666666667,
      "grad_norm": 1.5260059833526611,
      "learning_rate": 4.1658662473959865e-05,
      "loss": 3.4187,
      "step": 363800
    },
    {
      "epoch": 0.7579375,
      "grad_norm": 1.6722251176834106,
      "learning_rate": 4.165184447887532e-05,
      "loss": 3.396,
      "step": 363810
    },
    {
      "epoch": 0.7579583333333333,
      "grad_norm": 1.3906607627868652,
      "learning_rate": 4.1645026951811956e-05,
      "loss": 3.407,
      "step": 363820
    },
    {
      "epoch": 0.7579791666666666,
      "grad_norm": 1.4763219356536865,
      "learning_rate": 4.163820989279925e-05,
      "loss": 3.3689,
      "step": 363830
    },
    {
      "epoch": 0.758,
      "grad_norm": 1.395738959312439,
      "learning_rate": 4.163139330186647e-05,
      "loss": 3.4788,
      "step": 363840
    },
    {
      "epoch": 0.7580208333333334,
      "grad_norm": 1.497215986251831,
      "learning_rate": 4.162457717904323e-05,
      "loss": 3.4742,
      "step": 363850
    },
    {
      "epoch": 0.7580416666666666,
      "grad_norm": 1.4667589664459229,
      "learning_rate": 4.161776152435898e-05,
      "loss": 3.3664,
      "step": 363860
    },
    {
      "epoch": 0.7580625,
      "grad_norm": 1.4532337188720703,
      "learning_rate": 4.1610946337842985e-05,
      "loss": 3.4764,
      "step": 363870
    },
    {
      "epoch": 0.7580833333333333,
      "grad_norm": 1.6453402042388916,
      "learning_rate": 4.160413161952485e-05,
      "loss": 3.53,
      "step": 363880
    },
    {
      "epoch": 0.7581041666666667,
      "grad_norm": 1.4844788312911987,
      "learning_rate": 4.1597317369434005e-05,
      "loss": 3.567,
      "step": 363890
    },
    {
      "epoch": 0.758125,
      "grad_norm": 1.6518867015838623,
      "learning_rate": 4.1590503587599816e-05,
      "loss": 3.4467,
      "step": 363900
    },
    {
      "epoch": 0.7581458333333333,
      "grad_norm": 1.6913727521896362,
      "learning_rate": 4.1583690274051715e-05,
      "loss": 3.5522,
      "step": 363910
    },
    {
      "epoch": 0.7581666666666667,
      "grad_norm": 1.576303482055664,
      "learning_rate": 4.157687742881917e-05,
      "loss": 3.3832,
      "step": 363920
    },
    {
      "epoch": 0.7581875,
      "grad_norm": 1.502146601676941,
      "learning_rate": 4.157006505193159e-05,
      "loss": 3.5302,
      "step": 363930
    },
    {
      "epoch": 0.7582083333333334,
      "grad_norm": 1.3869627714157104,
      "learning_rate": 4.156325314341841e-05,
      "loss": 3.3696,
      "step": 363940
    },
    {
      "epoch": 0.7582291666666666,
      "grad_norm": 1.7259509563446045,
      "learning_rate": 4.155644170330907e-05,
      "loss": 3.4164,
      "step": 363950
    },
    {
      "epoch": 0.75825,
      "grad_norm": 1.4631507396697998,
      "learning_rate": 4.154963073163295e-05,
      "loss": 3.4577,
      "step": 363960
    },
    {
      "epoch": 0.7582708333333333,
      "grad_norm": 1.4449411630630493,
      "learning_rate": 4.154282022841952e-05,
      "loss": 3.4416,
      "step": 363970
    },
    {
      "epoch": 0.7582916666666667,
      "grad_norm": 1.8132436275482178,
      "learning_rate": 4.1536010193698164e-05,
      "loss": 3.422,
      "step": 363980
    },
    {
      "epoch": 0.7583125,
      "grad_norm": 1.3866819143295288,
      "learning_rate": 4.152920062749831e-05,
      "loss": 3.4514,
      "step": 363990
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 1.4486045837402344,
      "learning_rate": 4.1522391529849394e-05,
      "loss": 3.4694,
      "step": 364000
    },
    {
      "epoch": 0.7583333333333333,
      "eval_loss": 3.5315070152282715,
      "eval_runtime": 7.2619,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.413,
      "step": 364000
    },
    {
      "epoch": 0.7583541666666667,
      "grad_norm": 1.5985864400863647,
      "learning_rate": 4.151558290078078e-05,
      "loss": 3.4015,
      "step": 364010
    },
    {
      "epoch": 0.758375,
      "grad_norm": 1.7396495342254639,
      "learning_rate": 4.150877474032192e-05,
      "loss": 3.6477,
      "step": 364020
    },
    {
      "epoch": 0.7583958333333334,
      "grad_norm": 1.650754451751709,
      "learning_rate": 4.1501967048502204e-05,
      "loss": 3.3438,
      "step": 364030
    },
    {
      "epoch": 0.7584166666666666,
      "grad_norm": 1.448255181312561,
      "learning_rate": 4.149515982535106e-05,
      "loss": 3.4091,
      "step": 364040
    },
    {
      "epoch": 0.7584375,
      "grad_norm": 1.526556372642517,
      "learning_rate": 4.148835307089786e-05,
      "loss": 3.3763,
      "step": 364050
    },
    {
      "epoch": 0.7584583333333333,
      "grad_norm": 1.585191249847412,
      "learning_rate": 4.148154678517202e-05,
      "loss": 3.4395,
      "step": 364060
    },
    {
      "epoch": 0.7584791666666667,
      "grad_norm": 1.5581742525100708,
      "learning_rate": 4.147474096820296e-05,
      "loss": 3.3451,
      "step": 364070
    },
    {
      "epoch": 0.7585,
      "grad_norm": 1.508444905281067,
      "learning_rate": 4.1467935620020046e-05,
      "loss": 3.5238,
      "step": 364080
    },
    {
      "epoch": 0.7585208333333333,
      "grad_norm": 1.5844825506210327,
      "learning_rate": 4.14611307406527e-05,
      "loss": 3.5231,
      "step": 364090
    },
    {
      "epoch": 0.7585416666666667,
      "grad_norm": 1.780298113822937,
      "learning_rate": 4.1454326330130303e-05,
      "loss": 3.5227,
      "step": 364100
    },
    {
      "epoch": 0.7585625,
      "grad_norm": 1.478791356086731,
      "learning_rate": 4.144752238848226e-05,
      "loss": 3.515,
      "step": 364110
    },
    {
      "epoch": 0.7585833333333334,
      "grad_norm": 1.7858259677886963,
      "learning_rate": 4.144071891573794e-05,
      "loss": 3.4492,
      "step": 364120
    },
    {
      "epoch": 0.7586041666666666,
      "grad_norm": 1.483517050743103,
      "learning_rate": 4.1433915911926754e-05,
      "loss": 3.4824,
      "step": 364130
    },
    {
      "epoch": 0.758625,
      "grad_norm": 1.422308087348938,
      "learning_rate": 4.14271133770781e-05,
      "loss": 3.4042,
      "step": 364140
    },
    {
      "epoch": 0.7586458333333334,
      "grad_norm": 1.462443470954895,
      "learning_rate": 4.142031131122128e-05,
      "loss": 3.4053,
      "step": 364150
    },
    {
      "epoch": 0.7586666666666667,
      "grad_norm": 1.6198832988739014,
      "learning_rate": 4.141350971438577e-05,
      "loss": 3.4625,
      "step": 364160
    },
    {
      "epoch": 0.7586875,
      "grad_norm": 1.4925154447555542,
      "learning_rate": 4.140670858660095e-05,
      "loss": 3.4414,
      "step": 364170
    },
    {
      "epoch": 0.7587083333333333,
      "grad_norm": 1.368765115737915,
      "learning_rate": 4.139990792789612e-05,
      "loss": 3.5271,
      "step": 364180
    },
    {
      "epoch": 0.7587291666666667,
      "grad_norm": 1.483709454536438,
      "learning_rate": 4.139310773830067e-05,
      "loss": 3.3914,
      "step": 364190
    },
    {
      "epoch": 0.75875,
      "grad_norm": 1.4705687761306763,
      "learning_rate": 4.1386308017844086e-05,
      "loss": 3.3474,
      "step": 364200
    },
    {
      "epoch": 0.7587708333333333,
      "grad_norm": 1.6263521909713745,
      "learning_rate": 4.137950876655563e-05,
      "loss": 3.4445,
      "step": 364210
    },
    {
      "epoch": 0.7587916666666666,
      "grad_norm": 1.4742907285690308,
      "learning_rate": 4.1372709984464635e-05,
      "loss": 3.4392,
      "step": 364220
    },
    {
      "epoch": 0.7588125,
      "grad_norm": 1.58779776096344,
      "learning_rate": 4.136591167160063e-05,
      "loss": 3.4388,
      "step": 364230
    },
    {
      "epoch": 0.7588333333333334,
      "grad_norm": 1.4780333042144775,
      "learning_rate": 4.135911382799284e-05,
      "loss": 3.4511,
      "step": 364240
    },
    {
      "epoch": 0.7588541666666667,
      "grad_norm": 1.3176342248916626,
      "learning_rate": 4.1352316453670654e-05,
      "loss": 3.3198,
      "step": 364250
    },
    {
      "epoch": 0.758875,
      "grad_norm": 1.5340007543563843,
      "learning_rate": 4.1345519548663516e-05,
      "loss": 3.4481,
      "step": 364260
    },
    {
      "epoch": 0.7588958333333333,
      "grad_norm": 1.4430992603302002,
      "learning_rate": 4.133872311300071e-05,
      "loss": 3.476,
      "step": 364270
    },
    {
      "epoch": 0.7589166666666667,
      "grad_norm": 1.4861927032470703,
      "learning_rate": 4.133192714671157e-05,
      "loss": 3.383,
      "step": 364280
    },
    {
      "epoch": 0.7589375,
      "grad_norm": 1.5809717178344727,
      "learning_rate": 4.132513164982552e-05,
      "loss": 3.4298,
      "step": 364290
    },
    {
      "epoch": 0.7589583333333333,
      "grad_norm": 1.5229803323745728,
      "learning_rate": 4.131833662237187e-05,
      "loss": 3.427,
      "step": 364300
    },
    {
      "epoch": 0.7589791666666666,
      "grad_norm": 1.5850929021835327,
      "learning_rate": 4.131154206438e-05,
      "loss": 3.4448,
      "step": 364310
    },
    {
      "epoch": 0.759,
      "grad_norm": 1.4404901266098022,
      "learning_rate": 4.1304747975879235e-05,
      "loss": 3.449,
      "step": 364320
    },
    {
      "epoch": 0.7590208333333334,
      "grad_norm": 1.5641592741012573,
      "learning_rate": 4.1297954356898936e-05,
      "loss": 3.4846,
      "step": 364330
    },
    {
      "epoch": 0.7590416666666666,
      "grad_norm": 1.6178189516067505,
      "learning_rate": 4.1291161207468444e-05,
      "loss": 3.4025,
      "step": 364340
    },
    {
      "epoch": 0.7590625,
      "grad_norm": 1.316266417503357,
      "learning_rate": 4.1284368527617114e-05,
      "loss": 3.4394,
      "step": 364350
    },
    {
      "epoch": 0.7590833333333333,
      "grad_norm": 1.3984781503677368,
      "learning_rate": 4.127757631737427e-05,
      "loss": 3.4012,
      "step": 364360
    },
    {
      "epoch": 0.7591041666666667,
      "grad_norm": 1.5335277318954468,
      "learning_rate": 4.1270784576769265e-05,
      "loss": 3.4208,
      "step": 364370
    },
    {
      "epoch": 0.759125,
      "grad_norm": 1.4100788831710815,
      "learning_rate": 4.126399330583144e-05,
      "loss": 3.4792,
      "step": 364380
    },
    {
      "epoch": 0.7591458333333333,
      "grad_norm": 1.4359599351882935,
      "learning_rate": 4.1257202504590125e-05,
      "loss": 3.3409,
      "step": 364390
    },
    {
      "epoch": 0.7591666666666667,
      "grad_norm": 1.852623462677002,
      "learning_rate": 4.1250412173074635e-05,
      "loss": 3.3667,
      "step": 364400
    },
    {
      "epoch": 0.7591875,
      "grad_norm": 1.411105990409851,
      "learning_rate": 4.1243622311314335e-05,
      "loss": 3.3878,
      "step": 364410
    },
    {
      "epoch": 0.7592083333333334,
      "grad_norm": 1.357010006904602,
      "learning_rate": 4.1236832919338524e-05,
      "loss": 3.4743,
      "step": 364420
    },
    {
      "epoch": 0.7592291666666666,
      "grad_norm": 1.4394501447677612,
      "learning_rate": 4.123004399717655e-05,
      "loss": 3.4265,
      "step": 364430
    },
    {
      "epoch": 0.75925,
      "grad_norm": 1.4863015413284302,
      "learning_rate": 4.122325554485773e-05,
      "loss": 3.4159,
      "step": 364440
    },
    {
      "epoch": 0.7592708333333333,
      "grad_norm": 1.721742868423462,
      "learning_rate": 4.1216467562411395e-05,
      "loss": 3.4375,
      "step": 364450
    },
    {
      "epoch": 0.7592916666666667,
      "grad_norm": 1.3716787099838257,
      "learning_rate": 4.120968004986685e-05,
      "loss": 3.4112,
      "step": 364460
    },
    {
      "epoch": 0.7593125,
      "grad_norm": 1.6000449657440186,
      "learning_rate": 4.120289300725343e-05,
      "loss": 3.3587,
      "step": 364470
    },
    {
      "epoch": 0.7593333333333333,
      "grad_norm": 1.7261220216751099,
      "learning_rate": 4.119610643460045e-05,
      "loss": 3.4415,
      "step": 364480
    },
    {
      "epoch": 0.7593541666666667,
      "grad_norm": 1.486891508102417,
      "learning_rate": 4.1189320331937274e-05,
      "loss": 3.4769,
      "step": 364490
    },
    {
      "epoch": 0.759375,
      "grad_norm": 1.5157737731933594,
      "learning_rate": 4.118253469929306e-05,
      "loss": 3.3367,
      "step": 364500
    },
    {
      "epoch": 0.7593958333333334,
      "grad_norm": 1.4141840934753418,
      "learning_rate": 4.1175749536697314e-05,
      "loss": 3.5219,
      "step": 364510
    },
    {
      "epoch": 0.7594166666666666,
      "grad_norm": 1.3921122550964355,
      "learning_rate": 4.116896484417921e-05,
      "loss": 3.3624,
      "step": 364520
    },
    {
      "epoch": 0.7594375,
      "grad_norm": 1.4590975046157837,
      "learning_rate": 4.116218062176807e-05,
      "loss": 3.4995,
      "step": 364530
    },
    {
      "epoch": 0.7594583333333333,
      "grad_norm": 1.3945329189300537,
      "learning_rate": 4.115539686949331e-05,
      "loss": 3.4456,
      "step": 364540
    },
    {
      "epoch": 0.7594791666666667,
      "grad_norm": 1.424914836883545,
      "learning_rate": 4.11486135873841e-05,
      "loss": 3.3842,
      "step": 364550
    },
    {
      "epoch": 0.7595,
      "grad_norm": 1.4110300540924072,
      "learning_rate": 4.114183077546975e-05,
      "loss": 3.4137,
      "step": 364560
    },
    {
      "epoch": 0.7595208333333333,
      "grad_norm": 1.4972140789031982,
      "learning_rate": 4.11350484337797e-05,
      "loss": 3.3987,
      "step": 364570
    },
    {
      "epoch": 0.7595416666666667,
      "grad_norm": 1.699357509613037,
      "learning_rate": 4.11282665623431e-05,
      "loss": 3.3759,
      "step": 364580
    },
    {
      "epoch": 0.7595625,
      "grad_norm": 1.5884277820587158,
      "learning_rate": 4.1121485161189247e-05,
      "loss": 3.5149,
      "step": 364590
    },
    {
      "epoch": 0.7595833333333334,
      "grad_norm": 1.4094009399414062,
      "learning_rate": 4.111470423034758e-05,
      "loss": 3.4199,
      "step": 364600
    },
    {
      "epoch": 0.7596041666666666,
      "grad_norm": 1.5909781455993652,
      "learning_rate": 4.110792376984723e-05,
      "loss": 3.3999,
      "step": 364610
    },
    {
      "epoch": 0.759625,
      "grad_norm": 1.4195449352264404,
      "learning_rate": 4.110114377971751e-05,
      "loss": 3.4458,
      "step": 364620
    },
    {
      "epoch": 0.7596458333333334,
      "grad_norm": 1.6504839658737183,
      "learning_rate": 4.109436425998783e-05,
      "loss": 3.3848,
      "step": 364630
    },
    {
      "epoch": 0.7596666666666667,
      "grad_norm": 1.7133619785308838,
      "learning_rate": 4.108758521068734e-05,
      "loss": 3.395,
      "step": 364640
    },
    {
      "epoch": 0.7596875,
      "grad_norm": 1.3352999687194824,
      "learning_rate": 4.1080806631845384e-05,
      "loss": 3.4807,
      "step": 364650
    },
    {
      "epoch": 0.7597083333333333,
      "grad_norm": 1.560206651687622,
      "learning_rate": 4.1074028523491234e-05,
      "loss": 3.3332,
      "step": 364660
    },
    {
      "epoch": 0.7597291666666667,
      "grad_norm": 1.396338701248169,
      "learning_rate": 4.106725088565415e-05,
      "loss": 3.4147,
      "step": 364670
    },
    {
      "epoch": 0.75975,
      "grad_norm": 1.4023481607437134,
      "learning_rate": 4.106047371836342e-05,
      "loss": 3.3563,
      "step": 364680
    },
    {
      "epoch": 0.7597708333333333,
      "grad_norm": 1.3581608533859253,
      "learning_rate": 4.105369702164834e-05,
      "loss": 3.4311,
      "step": 364690
    },
    {
      "epoch": 0.7597916666666666,
      "grad_norm": 1.684670090675354,
      "learning_rate": 4.1046920795538145e-05,
      "loss": 3.4242,
      "step": 364700
    },
    {
      "epoch": 0.7598125,
      "grad_norm": 1.601420521736145,
      "learning_rate": 4.104014504006215e-05,
      "loss": 3.4087,
      "step": 364710
    },
    {
      "epoch": 0.7598333333333334,
      "grad_norm": 1.6493946313858032,
      "learning_rate": 4.1033369755249576e-05,
      "loss": 3.4048,
      "step": 364720
    },
    {
      "epoch": 0.7598541666666667,
      "grad_norm": 1.5176724195480347,
      "learning_rate": 4.1026594941129724e-05,
      "loss": 3.4548,
      "step": 364730
    },
    {
      "epoch": 0.759875,
      "grad_norm": 1.7407788038253784,
      "learning_rate": 4.101982059773185e-05,
      "loss": 3.4747,
      "step": 364740
    },
    {
      "epoch": 0.7598958333333333,
      "grad_norm": 1.388588547706604,
      "learning_rate": 4.1013046725085215e-05,
      "loss": 3.2768,
      "step": 364750
    },
    {
      "epoch": 0.7599166666666667,
      "grad_norm": 1.4180238246917725,
      "learning_rate": 4.100627332321906e-05,
      "loss": 3.5372,
      "step": 364760
    },
    {
      "epoch": 0.7599375,
      "grad_norm": 1.4831280708312988,
      "learning_rate": 4.099950039216273e-05,
      "loss": 3.4263,
      "step": 364770
    },
    {
      "epoch": 0.7599583333333333,
      "grad_norm": 1.5599414110183716,
      "learning_rate": 4.0992727931945295e-05,
      "loss": 3.3519,
      "step": 364780
    },
    {
      "epoch": 0.7599791666666667,
      "grad_norm": 1.4400594234466553,
      "learning_rate": 4.0985955942596194e-05,
      "loss": 3.4313,
      "step": 364790
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5130540132522583,
      "learning_rate": 4.097918442414466e-05,
      "loss": 3.4211,
      "step": 364800
    },
    {
      "epoch": 0.7600208333333334,
      "grad_norm": 1.4432642459869385,
      "learning_rate": 4.097241337661979e-05,
      "loss": 3.4659,
      "step": 364810
    },
    {
      "epoch": 0.7600416666666666,
      "grad_norm": 1.4350440502166748,
      "learning_rate": 4.0965642800051e-05,
      "loss": 3.4149,
      "step": 364820
    },
    {
      "epoch": 0.7600625,
      "grad_norm": 1.6135119199752808,
      "learning_rate": 4.095887269446751e-05,
      "loss": 3.4697,
      "step": 364830
    },
    {
      "epoch": 0.7600833333333333,
      "grad_norm": 1.55756413936615,
      "learning_rate": 4.095210305989844e-05,
      "loss": 3.5336,
      "step": 364840
    },
    {
      "epoch": 0.7601041666666667,
      "grad_norm": 1.4065724611282349,
      "learning_rate": 4.0945333896373165e-05,
      "loss": 3.4536,
      "step": 364850
    },
    {
      "epoch": 0.760125,
      "grad_norm": 1.7683444023132324,
      "learning_rate": 4.093856520392092e-05,
      "loss": 3.3888,
      "step": 364860
    },
    {
      "epoch": 0.7601458333333333,
      "grad_norm": 1.3615045547485352,
      "learning_rate": 4.093179698257081e-05,
      "loss": 3.3889,
      "step": 364870
    },
    {
      "epoch": 0.7601666666666667,
      "grad_norm": 1.6275792121887207,
      "learning_rate": 4.092502923235222e-05,
      "loss": 3.4342,
      "step": 364880
    },
    {
      "epoch": 0.7601875,
      "grad_norm": 1.5245834589004517,
      "learning_rate": 4.091826195329438e-05,
      "loss": 3.5466,
      "step": 364890
    },
    {
      "epoch": 0.7602083333333334,
      "grad_norm": 1.349510669708252,
      "learning_rate": 4.091149514542637e-05,
      "loss": 3.3414,
      "step": 364900
    },
    {
      "epoch": 0.7602291666666666,
      "grad_norm": 1.5644108057022095,
      "learning_rate": 4.0904728808777624e-05,
      "loss": 3.5546,
      "step": 364910
    },
    {
      "epoch": 0.76025,
      "grad_norm": 1.5222395658493042,
      "learning_rate": 4.08979629433772e-05,
      "loss": 3.4646,
      "step": 364920
    },
    {
      "epoch": 0.7602708333333333,
      "grad_norm": 1.3741137981414795,
      "learning_rate": 4.0891197549254365e-05,
      "loss": 3.3526,
      "step": 364930
    },
    {
      "epoch": 0.7602916666666667,
      "grad_norm": 1.4726523160934448,
      "learning_rate": 4.0884432626438455e-05,
      "loss": 3.4278,
      "step": 364940
    },
    {
      "epoch": 0.7603125,
      "grad_norm": 1.3454488515853882,
      "learning_rate": 4.087766817495855e-05,
      "loss": 3.4302,
      "step": 364950
    },
    {
      "epoch": 0.7603333333333333,
      "grad_norm": 1.4475961923599243,
      "learning_rate": 4.087090419484389e-05,
      "loss": 3.4428,
      "step": 364960
    },
    {
      "epoch": 0.7603541666666667,
      "grad_norm": 1.3856940269470215,
      "learning_rate": 4.086414068612382e-05,
      "loss": 3.2867,
      "step": 364970
    },
    {
      "epoch": 0.760375,
      "grad_norm": 1.399176001548767,
      "learning_rate": 4.08573776488274e-05,
      "loss": 3.3148,
      "step": 364980
    },
    {
      "epoch": 0.7603958333333334,
      "grad_norm": 1.999820351600647,
      "learning_rate": 4.085061508298387e-05,
      "loss": 3.5348,
      "step": 364990
    },
    {
      "epoch": 0.7604166666666666,
      "grad_norm": 1.5915123224258423,
      "learning_rate": 4.084385298862258e-05,
      "loss": 3.4131,
      "step": 365000
    },
    {
      "epoch": 0.7604166666666666,
      "eval_loss": 3.5317509174346924,
      "eval_runtime": 7.3689,
      "eval_samples_per_second": 1.357,
      "eval_steps_per_second": 0.407,
      "step": 365000
    },
    {
      "epoch": 0.7604375,
      "grad_norm": 1.7065186500549316,
      "learning_rate": 4.083709136577259e-05,
      "loss": 3.3867,
      "step": 365010
    },
    {
      "epoch": 0.7604583333333333,
      "grad_norm": 1.6943392753601074,
      "learning_rate": 4.0830330214463155e-05,
      "loss": 3.4442,
      "step": 365020
    },
    {
      "epoch": 0.7604791666666667,
      "grad_norm": 1.5261876583099365,
      "learning_rate": 4.0823569534723465e-05,
      "loss": 3.3501,
      "step": 365030
    },
    {
      "epoch": 0.7605,
      "grad_norm": 1.4749411344528198,
      "learning_rate": 4.081680932658276e-05,
      "loss": 3.4942,
      "step": 365040
    },
    {
      "epoch": 0.7605208333333333,
      "grad_norm": 1.7246456146240234,
      "learning_rate": 4.081004959007021e-05,
      "loss": 3.4887,
      "step": 365050
    },
    {
      "epoch": 0.7605416666666667,
      "grad_norm": 1.5047231912612915,
      "learning_rate": 4.0803290325215036e-05,
      "loss": 3.396,
      "step": 365060
    },
    {
      "epoch": 0.7605625,
      "grad_norm": 1.5504498481750488,
      "learning_rate": 4.079653153204642e-05,
      "loss": 3.5626,
      "step": 365070
    },
    {
      "epoch": 0.7605833333333333,
      "grad_norm": 1.5533442497253418,
      "learning_rate": 4.0789773210593546e-05,
      "loss": 3.3222,
      "step": 365080
    },
    {
      "epoch": 0.7606041666666666,
      "grad_norm": 1.382643222808838,
      "learning_rate": 4.078301536088564e-05,
      "loss": 3.3242,
      "step": 365090
    },
    {
      "epoch": 0.760625,
      "grad_norm": 1.4521046876907349,
      "learning_rate": 4.077625798295188e-05,
      "loss": 3.4851,
      "step": 365100
    },
    {
      "epoch": 0.7606458333333334,
      "grad_norm": 1.3903435468673706,
      "learning_rate": 4.076950107682143e-05,
      "loss": 3.3877,
      "step": 365110
    },
    {
      "epoch": 0.7606666666666667,
      "grad_norm": 1.5241788625717163,
      "learning_rate": 4.0762744642523526e-05,
      "loss": 3.5693,
      "step": 365120
    },
    {
      "epoch": 0.7606875,
      "grad_norm": 1.6289849281311035,
      "learning_rate": 4.07559886800873e-05,
      "loss": 3.4405,
      "step": 365130
    },
    {
      "epoch": 0.7607083333333333,
      "grad_norm": 1.4864294528961182,
      "learning_rate": 4.074923318954202e-05,
      "loss": 3.5133,
      "step": 365140
    },
    {
      "epoch": 0.7607291666666667,
      "grad_norm": 1.360503911972046,
      "learning_rate": 4.074247817091673e-05,
      "loss": 3.5586,
      "step": 365150
    },
    {
      "epoch": 0.76075,
      "grad_norm": 1.6357181072235107,
      "learning_rate": 4.073572362424072e-05,
      "loss": 3.4575,
      "step": 365160
    },
    {
      "epoch": 0.7607708333333333,
      "grad_norm": 1.4358596801757812,
      "learning_rate": 4.0728969549543176e-05,
      "loss": 3.5366,
      "step": 365170
    },
    {
      "epoch": 0.7607916666666666,
      "grad_norm": 1.5535999536514282,
      "learning_rate": 4.072221594685314e-05,
      "loss": 3.3976,
      "step": 365180
    },
    {
      "epoch": 0.7608125,
      "grad_norm": 1.5918283462524414,
      "learning_rate": 4.071546281619992e-05,
      "loss": 3.3681,
      "step": 365190
    },
    {
      "epoch": 0.7608333333333334,
      "grad_norm": 1.8897901773452759,
      "learning_rate": 4.070871015761269e-05,
      "loss": 3.3876,
      "step": 365200
    },
    {
      "epoch": 0.7608541666666667,
      "grad_norm": 1.3835368156433105,
      "learning_rate": 4.0701957971120496e-05,
      "loss": 3.409,
      "step": 365210
    },
    {
      "epoch": 0.760875,
      "grad_norm": 1.5987616777420044,
      "learning_rate": 4.069520625675262e-05,
      "loss": 3.5152,
      "step": 365220
    },
    {
      "epoch": 0.7608958333333333,
      "grad_norm": 1.439487338066101,
      "learning_rate": 4.0688455014538215e-05,
      "loss": 3.3821,
      "step": 365230
    },
    {
      "epoch": 0.7609166666666667,
      "grad_norm": 1.4968007802963257,
      "learning_rate": 4.0681704244506345e-05,
      "loss": 3.6129,
      "step": 365240
    },
    {
      "epoch": 0.7609375,
      "grad_norm": 1.6628694534301758,
      "learning_rate": 4.067495394668627e-05,
      "loss": 3.4106,
      "step": 365250
    },
    {
      "epoch": 0.7609583333333333,
      "grad_norm": 1.4931131601333618,
      "learning_rate": 4.066820412110718e-05,
      "loss": 3.5364,
      "step": 365260
    },
    {
      "epoch": 0.7609791666666667,
      "grad_norm": 2.176107883453369,
      "learning_rate": 4.0661454767798075e-05,
      "loss": 3.3635,
      "step": 365270
    },
    {
      "epoch": 0.761,
      "grad_norm": 1.4284569025039673,
      "learning_rate": 4.06547058867883e-05,
      "loss": 3.4112,
      "step": 365280
    },
    {
      "epoch": 0.7610208333333334,
      "grad_norm": 1.7581446170806885,
      "learning_rate": 4.064795747810686e-05,
      "loss": 3.3507,
      "step": 365290
    },
    {
      "epoch": 0.7610416666666666,
      "grad_norm": 1.7661559581756592,
      "learning_rate": 4.064120954178292e-05,
      "loss": 3.402,
      "step": 365300
    },
    {
      "epoch": 0.7610625,
      "grad_norm": 2.010061264038086,
      "learning_rate": 4.0634462077845765e-05,
      "loss": 3.3731,
      "step": 365310
    },
    {
      "epoch": 0.7610833333333333,
      "grad_norm": 1.4176182746887207,
      "learning_rate": 4.0627715086324385e-05,
      "loss": 3.3918,
      "step": 365320
    },
    {
      "epoch": 0.7611041666666667,
      "grad_norm": 1.305389404296875,
      "learning_rate": 4.062096856724794e-05,
      "loss": 3.33,
      "step": 365330
    },
    {
      "epoch": 0.761125,
      "grad_norm": 3.809093713760376,
      "learning_rate": 4.06142225206457e-05,
      "loss": 3.6276,
      "step": 365340
    },
    {
      "epoch": 0.7611458333333333,
      "grad_norm": 1.7245413064956665,
      "learning_rate": 4.060747694654669e-05,
      "loss": 3.3657,
      "step": 365350
    },
    {
      "epoch": 0.7611666666666667,
      "grad_norm": 1.2746902704238892,
      "learning_rate": 4.060073184498009e-05,
      "loss": 3.2986,
      "step": 365360
    },
    {
      "epoch": 0.7611875,
      "grad_norm": 1.4453608989715576,
      "learning_rate": 4.059398721597499e-05,
      "loss": 3.3777,
      "step": 365370
    },
    {
      "epoch": 0.7612083333333334,
      "grad_norm": 1.4016833305358887,
      "learning_rate": 4.058724305956058e-05,
      "loss": 3.3649,
      "step": 365380
    },
    {
      "epoch": 0.7612291666666666,
      "grad_norm": 1.4020863771438599,
      "learning_rate": 4.058049937576598e-05,
      "loss": 3.5141,
      "step": 365390
    },
    {
      "epoch": 0.76125,
      "grad_norm": 1.552929401397705,
      "learning_rate": 4.05737561646203e-05,
      "loss": 3.5807,
      "step": 365400
    },
    {
      "epoch": 0.7612708333333333,
      "grad_norm": 2.5064005851745605,
      "learning_rate": 4.056701342615268e-05,
      "loss": 3.2818,
      "step": 365410
    },
    {
      "epoch": 0.7612916666666667,
      "grad_norm": 1.5450849533081055,
      "learning_rate": 4.056027116039225e-05,
      "loss": 3.4855,
      "step": 365420
    },
    {
      "epoch": 0.7613125,
      "grad_norm": 1.5354434251785278,
      "learning_rate": 4.055352936736812e-05,
      "loss": 3.6037,
      "step": 365430
    },
    {
      "epoch": 0.7613333333333333,
      "grad_norm": 1.3871824741363525,
      "learning_rate": 4.0546788047109435e-05,
      "loss": 3.5142,
      "step": 365440
    },
    {
      "epoch": 0.7613541666666667,
      "grad_norm": 1.3673757314682007,
      "learning_rate": 4.054004719964529e-05,
      "loss": 3.3247,
      "step": 365450
    },
    {
      "epoch": 0.761375,
      "grad_norm": 1.3342288732528687,
      "learning_rate": 4.0533306825004815e-05,
      "loss": 3.4811,
      "step": 365460
    },
    {
      "epoch": 0.7613958333333334,
      "grad_norm": 1.5400482416152954,
      "learning_rate": 4.052656692321712e-05,
      "loss": 3.3928,
      "step": 365470
    },
    {
      "epoch": 0.7614166666666666,
      "grad_norm": 2.567333221435547,
      "learning_rate": 4.0519827494311343e-05,
      "loss": 3.67,
      "step": 365480
    },
    {
      "epoch": 0.7614375,
      "grad_norm": 1.619852900505066,
      "learning_rate": 4.051308853831656e-05,
      "loss": 3.5408,
      "step": 365490
    },
    {
      "epoch": 0.7614583333333333,
      "grad_norm": 1.4800078868865967,
      "learning_rate": 4.05063500552619e-05,
      "loss": 3.4989,
      "step": 365500
    },
    {
      "epoch": 0.7614791666666667,
      "grad_norm": 1.4608980417251587,
      "learning_rate": 4.0499612045176516e-05,
      "loss": 3.3744,
      "step": 365510
    },
    {
      "epoch": 0.7615,
      "grad_norm": 1.884682059288025,
      "learning_rate": 4.0492874508089354e-05,
      "loss": 3.4553,
      "step": 365520
    },
    {
      "epoch": 0.7615208333333333,
      "grad_norm": 1.682749629020691,
      "learning_rate": 4.04861374440297e-05,
      "loss": 3.3963,
      "step": 365530
    },
    {
      "epoch": 0.7615416666666667,
      "grad_norm": 1.51211678981781,
      "learning_rate": 4.047940085302662e-05,
      "loss": 3.4843,
      "step": 365540
    },
    {
      "epoch": 0.7615625,
      "grad_norm": 1.5312129259109497,
      "learning_rate": 4.047266473510909e-05,
      "loss": 3.5691,
      "step": 365550
    },
    {
      "epoch": 0.7615833333333333,
      "grad_norm": 1.7973507642745972,
      "learning_rate": 4.0465929090306324e-05,
      "loss": 3.3975,
      "step": 365560
    },
    {
      "epoch": 0.7616041666666666,
      "grad_norm": 1.7375940084457397,
      "learning_rate": 4.0459193918647457e-05,
      "loss": 3.3992,
      "step": 365570
    },
    {
      "epoch": 0.761625,
      "grad_norm": 1.4594120979309082,
      "learning_rate": 4.04524592201614e-05,
      "loss": 3.4342,
      "step": 365580
    },
    {
      "epoch": 0.7616458333333334,
      "grad_norm": 1.5416538715362549,
      "learning_rate": 4.04457249948774e-05,
      "loss": 3.4752,
      "step": 365590
    },
    {
      "epoch": 0.7616666666666667,
      "grad_norm": 1.4377245903015137,
      "learning_rate": 4.0438991242824565e-05,
      "loss": 3.3924,
      "step": 365600
    },
    {
      "epoch": 0.7616875,
      "grad_norm": 1.4660128355026245,
      "learning_rate": 4.043225796403184e-05,
      "loss": 3.3618,
      "step": 365610
    },
    {
      "epoch": 0.7617083333333333,
      "grad_norm": 1.5372511148452759,
      "learning_rate": 4.042552515852842e-05,
      "loss": 3.4812,
      "step": 365620
    },
    {
      "epoch": 0.7617291666666667,
      "grad_norm": 1.4112626314163208,
      "learning_rate": 4.041879282634341e-05,
      "loss": 3.3407,
      "step": 365630
    },
    {
      "epoch": 0.76175,
      "grad_norm": 1.5363818407058716,
      "learning_rate": 4.0412060967505735e-05,
      "loss": 3.4456,
      "step": 365640
    },
    {
      "epoch": 0.7617708333333333,
      "grad_norm": 1.482284665107727,
      "learning_rate": 4.0405329582044684e-05,
      "loss": 3.4303,
      "step": 365650
    },
    {
      "epoch": 0.7617916666666666,
      "grad_norm": 1.7795473337173462,
      "learning_rate": 4.039859866998918e-05,
      "loss": 3.5138,
      "step": 365660
    },
    {
      "epoch": 0.7618125,
      "grad_norm": 1.4816786050796509,
      "learning_rate": 4.039186823136834e-05,
      "loss": 3.4166,
      "step": 365670
    },
    {
      "epoch": 0.7618333333333334,
      "grad_norm": 1.427333950996399,
      "learning_rate": 4.0385138266211245e-05,
      "loss": 3.5507,
      "step": 365680
    },
    {
      "epoch": 0.7618541666666667,
      "grad_norm": 1.3978139162063599,
      "learning_rate": 4.037840877454696e-05,
      "loss": 3.4651,
      "step": 365690
    },
    {
      "epoch": 0.761875,
      "grad_norm": 1.488031268119812,
      "learning_rate": 4.037167975640457e-05,
      "loss": 3.4388,
      "step": 365700
    },
    {
      "epoch": 0.7618958333333333,
      "grad_norm": 1.4799093008041382,
      "learning_rate": 4.036495121181312e-05,
      "loss": 3.459,
      "step": 365710
    },
    {
      "epoch": 0.7619166666666667,
      "grad_norm": 1.6301137208938599,
      "learning_rate": 4.035822314080169e-05,
      "loss": 3.5369,
      "step": 365720
    },
    {
      "epoch": 0.7619375,
      "grad_norm": 1.5591541528701782,
      "learning_rate": 4.035149554339934e-05,
      "loss": 3.5918,
      "step": 365730
    },
    {
      "epoch": 0.7619583333333333,
      "grad_norm": 1.4315346479415894,
      "learning_rate": 4.034476841963512e-05,
      "loss": 3.4001,
      "step": 365740
    },
    {
      "epoch": 0.7619791666666667,
      "grad_norm": 1.689333438873291,
      "learning_rate": 4.03380417695381e-05,
      "loss": 3.3958,
      "step": 365750
    },
    {
      "epoch": 0.762,
      "grad_norm": 1.42182457447052,
      "learning_rate": 4.0331315593137334e-05,
      "loss": 3.4629,
      "step": 365760
    },
    {
      "epoch": 0.7620208333333334,
      "grad_norm": 1.5879275798797607,
      "learning_rate": 4.032458989046187e-05,
      "loss": 3.4454,
      "step": 365770
    },
    {
      "epoch": 0.7620416666666666,
      "grad_norm": 1.6571768522262573,
      "learning_rate": 4.0317864661540766e-05,
      "loss": 3.5321,
      "step": 365780
    },
    {
      "epoch": 0.7620625,
      "grad_norm": 1.4128730297088623,
      "learning_rate": 4.031113990640307e-05,
      "loss": 3.3618,
      "step": 365790
    },
    {
      "epoch": 0.7620833333333333,
      "grad_norm": 1.5763155221939087,
      "learning_rate": 4.030441562507784e-05,
      "loss": 3.4421,
      "step": 365800
    },
    {
      "epoch": 0.7621041666666667,
      "grad_norm": 1.5707261562347412,
      "learning_rate": 4.0297691817594115e-05,
      "loss": 3.4242,
      "step": 365810
    },
    {
      "epoch": 0.762125,
      "grad_norm": 1.3855730295181274,
      "learning_rate": 4.0290968483980914e-05,
      "loss": 3.4949,
      "step": 365820
    },
    {
      "epoch": 0.7621458333333333,
      "grad_norm": 1.592995285987854,
      "learning_rate": 4.028424562426733e-05,
      "loss": 3.3529,
      "step": 365830
    },
    {
      "epoch": 0.7621666666666667,
      "grad_norm": 1.6785234212875366,
      "learning_rate": 4.027752323848236e-05,
      "loss": 3.4517,
      "step": 365840
    },
    {
      "epoch": 0.7621875,
      "grad_norm": 1.4534577131271362,
      "learning_rate": 4.0270801326655075e-05,
      "loss": 3.5519,
      "step": 365850
    },
    {
      "epoch": 0.7622083333333334,
      "grad_norm": 1.608047366142273,
      "learning_rate": 4.026407988881448e-05,
      "loss": 3.505,
      "step": 365860
    },
    {
      "epoch": 0.7622291666666666,
      "grad_norm": 1.6141040325164795,
      "learning_rate": 4.0257358924989635e-05,
      "loss": 3.3728,
      "step": 365870
    },
    {
      "epoch": 0.76225,
      "grad_norm": 1.5832841396331787,
      "learning_rate": 4.025063843520954e-05,
      "loss": 3.3368,
      "step": 365880
    },
    {
      "epoch": 0.7622708333333333,
      "grad_norm": 1.6412922143936157,
      "learning_rate": 4.0243918419503264e-05,
      "loss": 3.4856,
      "step": 365890
    },
    {
      "epoch": 0.7622916666666667,
      "grad_norm": 3.0191266536712646,
      "learning_rate": 4.0237198877899806e-05,
      "loss": 3.3946,
      "step": 365900
    },
    {
      "epoch": 0.7623125,
      "grad_norm": 1.4651880264282227,
      "learning_rate": 4.023047981042825e-05,
      "loss": 3.3914,
      "step": 365910
    },
    {
      "epoch": 0.7623333333333333,
      "grad_norm": 1.5280852317810059,
      "learning_rate": 4.022376121711749e-05,
      "loss": 3.4537,
      "step": 365920
    },
    {
      "epoch": 0.7623541666666667,
      "grad_norm": 1.6629136800765991,
      "learning_rate": 4.0217043097996666e-05,
      "loss": 3.44,
      "step": 365930
    },
    {
      "epoch": 0.762375,
      "grad_norm": 1.5406326055526733,
      "learning_rate": 4.02103254530948e-05,
      "loss": 3.4292,
      "step": 365940
    },
    {
      "epoch": 0.7623958333333334,
      "grad_norm": 1.5582475662231445,
      "learning_rate": 4.020360828244084e-05,
      "loss": 3.3505,
      "step": 365950
    },
    {
      "epoch": 0.7624166666666666,
      "grad_norm": 1.3718945980072021,
      "learning_rate": 4.019689158606379e-05,
      "loss": 3.4268,
      "step": 365960
    },
    {
      "epoch": 0.7624375,
      "grad_norm": 1.5580238103866577,
      "learning_rate": 4.019017536399278e-05,
      "loss": 3.4952,
      "step": 365970
    },
    {
      "epoch": 0.7624583333333333,
      "grad_norm": 1.6737388372421265,
      "learning_rate": 4.018345961625669e-05,
      "loss": 3.3164,
      "step": 365980
    },
    {
      "epoch": 0.7624791666666667,
      "grad_norm": 1.3756781816482544,
      "learning_rate": 4.017674434288457e-05,
      "loss": 3.5016,
      "step": 365990
    },
    {
      "epoch": 0.7625,
      "grad_norm": 1.5398144721984863,
      "learning_rate": 4.0170029543905506e-05,
      "loss": 3.5836,
      "step": 366000
    },
    {
      "epoch": 0.7625,
      "eval_loss": 3.5350341796875,
      "eval_runtime": 7.3861,
      "eval_samples_per_second": 1.354,
      "eval_steps_per_second": 0.406,
      "step": 366000
    },
    {
      "epoch": 0.7625208333333333,
      "grad_norm": 1.429519772529602,
      "learning_rate": 4.0163315219348414e-05,
      "loss": 3.3855,
      "step": 366010
    },
    {
      "epoch": 0.7625416666666667,
      "grad_norm": 1.50383722782135,
      "learning_rate": 4.015660136924233e-05,
      "loss": 3.4499,
      "step": 366020
    },
    {
      "epoch": 0.7625625,
      "grad_norm": 1.615585207939148,
      "learning_rate": 4.014988799361624e-05,
      "loss": 3.3564,
      "step": 366030
    },
    {
      "epoch": 0.7625833333333333,
      "grad_norm": 1.40630304813385,
      "learning_rate": 4.014317509249914e-05,
      "loss": 3.4631,
      "step": 366040
    },
    {
      "epoch": 0.7626041666666666,
      "grad_norm": 1.4436789751052856,
      "learning_rate": 4.013646266592006e-05,
      "loss": 3.5406,
      "step": 366050
    },
    {
      "epoch": 0.762625,
      "grad_norm": 1.7104278802871704,
      "learning_rate": 4.012975071390796e-05,
      "loss": 3.4687,
      "step": 366060
    },
    {
      "epoch": 0.7626458333333334,
      "grad_norm": 1.4926509857177734,
      "learning_rate": 4.012303923649185e-05,
      "loss": 3.3794,
      "step": 366070
    },
    {
      "epoch": 0.7626666666666667,
      "grad_norm": 1.602679967880249,
      "learning_rate": 4.011632823370072e-05,
      "loss": 3.4871,
      "step": 366080
    },
    {
      "epoch": 0.7626875,
      "grad_norm": 1.8755923509597778,
      "learning_rate": 4.010961770556355e-05,
      "loss": 3.5531,
      "step": 366090
    },
    {
      "epoch": 0.7627083333333333,
      "grad_norm": 1.5850363969802856,
      "learning_rate": 4.0102907652109346e-05,
      "loss": 3.4824,
      "step": 366100
    },
    {
      "epoch": 0.7627291666666667,
      "grad_norm": 1.5055582523345947,
      "learning_rate": 4.009619807336707e-05,
      "loss": 3.4692,
      "step": 366110
    },
    {
      "epoch": 0.76275,
      "grad_norm": 1.4357951879501343,
      "learning_rate": 4.008948896936572e-05,
      "loss": 3.3872,
      "step": 366120
    },
    {
      "epoch": 0.7627708333333333,
      "grad_norm": 1.5228267908096313,
      "learning_rate": 4.0082780340134286e-05,
      "loss": 3.5608,
      "step": 366130
    },
    {
      "epoch": 0.7627916666666666,
      "grad_norm": 1.569637656211853,
      "learning_rate": 4.007607218570172e-05,
      "loss": 3.5432,
      "step": 366140
    },
    {
      "epoch": 0.7628125,
      "grad_norm": 1.6589717864990234,
      "learning_rate": 4.0069364506096997e-05,
      "loss": 3.3752,
      "step": 366150
    },
    {
      "epoch": 0.7628333333333334,
      "grad_norm": 1.4882564544677734,
      "learning_rate": 4.006265730134913e-05,
      "loss": 3.4834,
      "step": 366160
    },
    {
      "epoch": 0.7628541666666667,
      "grad_norm": 1.519665241241455,
      "learning_rate": 4.005595057148706e-05,
      "loss": 3.4579,
      "step": 366170
    },
    {
      "epoch": 0.762875,
      "grad_norm": 1.4890025854110718,
      "learning_rate": 4.004924431653976e-05,
      "loss": 3.538,
      "step": 366180
    },
    {
      "epoch": 0.7628958333333333,
      "grad_norm": 1.4768809080123901,
      "learning_rate": 4.0042538536536194e-05,
      "loss": 3.4307,
      "step": 366190
    },
    {
      "epoch": 0.7629166666666667,
      "grad_norm": 1.5435141324996948,
      "learning_rate": 4.0035833231505344e-05,
      "loss": 3.5238,
      "step": 366200
    },
    {
      "epoch": 0.7629375,
      "grad_norm": 1.8058279752731323,
      "learning_rate": 4.002912840147618e-05,
      "loss": 3.4717,
      "step": 366210
    },
    {
      "epoch": 0.7629583333333333,
      "grad_norm": 1.6973589658737183,
      "learning_rate": 4.0022424046477644e-05,
      "loss": 3.353,
      "step": 366220
    },
    {
      "epoch": 0.7629791666666667,
      "grad_norm": 1.689998984336853,
      "learning_rate": 4.0015720166538704e-05,
      "loss": 3.42,
      "step": 366230
    },
    {
      "epoch": 0.763,
      "grad_norm": 1.48676598072052,
      "learning_rate": 4.000901676168832e-05,
      "loss": 3.3578,
      "step": 366240
    },
    {
      "epoch": 0.7630208333333334,
      "grad_norm": 1.4484151601791382,
      "learning_rate": 4.000231383195544e-05,
      "loss": 3.4871,
      "step": 366250
    },
    {
      "epoch": 0.7630416666666666,
      "grad_norm": 1.5635217428207397,
      "learning_rate": 3.999561137736907e-05,
      "loss": 3.5853,
      "step": 366260
    },
    {
      "epoch": 0.7630625,
      "grad_norm": 1.5897785425186157,
      "learning_rate": 3.998890939795803e-05,
      "loss": 3.4361,
      "step": 366270
    },
    {
      "epoch": 0.7630833333333333,
      "grad_norm": 1.4523770809173584,
      "learning_rate": 3.998220789375145e-05,
      "loss": 3.3522,
      "step": 366280
    },
    {
      "epoch": 0.7631041666666667,
      "grad_norm": 1.528290033340454,
      "learning_rate": 3.9975506864778125e-05,
      "loss": 3.3754,
      "step": 366290
    },
    {
      "epoch": 0.763125,
      "grad_norm": 1.7511279582977295,
      "learning_rate": 3.996880631106703e-05,
      "loss": 3.6307,
      "step": 366300
    },
    {
      "epoch": 0.7631458333333333,
      "grad_norm": 1.4048188924789429,
      "learning_rate": 3.996210623264722e-05,
      "loss": 3.3905,
      "step": 366310
    },
    {
      "epoch": 0.7631666666666667,
      "grad_norm": 1.9979588985443115,
      "learning_rate": 3.995540662954751e-05,
      "loss": 3.3975,
      "step": 366320
    },
    {
      "epoch": 0.7631875,
      "grad_norm": 1.480876088142395,
      "learning_rate": 3.9948707501796845e-05,
      "loss": 3.4739,
      "step": 366330
    },
    {
      "epoch": 0.7632083333333334,
      "grad_norm": 1.5517107248306274,
      "learning_rate": 3.9942008849424284e-05,
      "loss": 3.6107,
      "step": 366340
    },
    {
      "epoch": 0.7632291666666666,
      "grad_norm": 1.47177255153656,
      "learning_rate": 3.9935310672458635e-05,
      "loss": 3.3419,
      "step": 366350
    },
    {
      "epoch": 0.76325,
      "grad_norm": 1.5584105253219604,
      "learning_rate": 3.9928612970928845e-05,
      "loss": 3.7004,
      "step": 366360
    },
    {
      "epoch": 0.7632708333333333,
      "grad_norm": 1.7199474573135376,
      "learning_rate": 3.992191574486396e-05,
      "loss": 3.4586,
      "step": 366370
    },
    {
      "epoch": 0.7632916666666667,
      "grad_norm": 1.6504321098327637,
      "learning_rate": 3.991521899429278e-05,
      "loss": 3.4065,
      "step": 366380
    },
    {
      "epoch": 0.7633125,
      "grad_norm": 1.432441234588623,
      "learning_rate": 3.9908522719244244e-05,
      "loss": 3.4737,
      "step": 366390
    },
    {
      "epoch": 0.7633333333333333,
      "grad_norm": 2.1018686294555664,
      "learning_rate": 3.990182691974738e-05,
      "loss": 3.5734,
      "step": 366400
    },
    {
      "epoch": 0.7633541666666667,
      "grad_norm": 1.5084697008132935,
      "learning_rate": 3.989513159583102e-05,
      "loss": 3.4302,
      "step": 366410
    },
    {
      "epoch": 0.763375,
      "grad_norm": 1.4837727546691895,
      "learning_rate": 3.98884367475241e-05,
      "loss": 3.3622,
      "step": 366420
    },
    {
      "epoch": 0.7633958333333334,
      "grad_norm": 1.6160999536514282,
      "learning_rate": 3.9881742374855545e-05,
      "loss": 3.4616,
      "step": 366430
    },
    {
      "epoch": 0.7634166666666666,
      "grad_norm": 1.7264838218688965,
      "learning_rate": 3.987504847785428e-05,
      "loss": 3.427,
      "step": 366440
    },
    {
      "epoch": 0.7634375,
      "grad_norm": 1.5992262363433838,
      "learning_rate": 3.986835505654922e-05,
      "loss": 3.4808,
      "step": 366450
    },
    {
      "epoch": 0.7634583333333333,
      "grad_norm": 1.5073379278182983,
      "learning_rate": 3.986166211096928e-05,
      "loss": 3.4745,
      "step": 366460
    },
    {
      "epoch": 0.7634791666666667,
      "grad_norm": 1.5692193508148193,
      "learning_rate": 3.985496964114334e-05,
      "loss": 3.4713,
      "step": 366470
    },
    {
      "epoch": 0.7635,
      "grad_norm": 1.7059215307235718,
      "learning_rate": 3.9848277647100354e-05,
      "loss": 3.4163,
      "step": 366480
    },
    {
      "epoch": 0.7635208333333333,
      "grad_norm": 1.5681042671203613,
      "learning_rate": 3.98415861288692e-05,
      "loss": 3.2589,
      "step": 366490
    },
    {
      "epoch": 0.7635416666666667,
      "grad_norm": 1.8031450510025024,
      "learning_rate": 3.9834895086478784e-05,
      "loss": 3.4921,
      "step": 366500
    },
    {
      "epoch": 0.7635625,
      "grad_norm": 1.3392653465270996,
      "learning_rate": 3.982820451995803e-05,
      "loss": 3.4747,
      "step": 366510
    },
    {
      "epoch": 0.7635833333333333,
      "grad_norm": 1.4699662923812866,
      "learning_rate": 3.982151442933581e-05,
      "loss": 3.5405,
      "step": 366520
    },
    {
      "epoch": 0.7636041666666666,
      "grad_norm": 1.5685179233551025,
      "learning_rate": 3.981482481464104e-05,
      "loss": 3.4314,
      "step": 366530
    },
    {
      "epoch": 0.763625,
      "grad_norm": 1.5217174291610718,
      "learning_rate": 3.980813567590266e-05,
      "loss": 3.3677,
      "step": 366540
    },
    {
      "epoch": 0.7636458333333334,
      "grad_norm": 1.4224011898040771,
      "learning_rate": 3.980144701314941e-05,
      "loss": 3.3133,
      "step": 366550
    },
    {
      "epoch": 0.7636666666666667,
      "grad_norm": 1.7015111446380615,
      "learning_rate": 3.9794758826410364e-05,
      "loss": 3.3773,
      "step": 366560
    },
    {
      "epoch": 0.7636875,
      "grad_norm": 1.6044962406158447,
      "learning_rate": 3.9788071115714364e-05,
      "loss": 3.6171,
      "step": 366570
    },
    {
      "epoch": 0.7637083333333333,
      "grad_norm": 1.6788570880889893,
      "learning_rate": 3.978138388109018e-05,
      "loss": 3.4061,
      "step": 366580
    },
    {
      "epoch": 0.7637291666666667,
      "grad_norm": 1.5000823736190796,
      "learning_rate": 3.977469712256684e-05,
      "loss": 3.5464,
      "step": 366590
    },
    {
      "epoch": 0.76375,
      "grad_norm": 1.6630955934524536,
      "learning_rate": 3.9768010840173224e-05,
      "loss": 3.3628,
      "step": 366600
    },
    {
      "epoch": 0.7637708333333333,
      "grad_norm": 1.4152837991714478,
      "learning_rate": 3.9761325033938086e-05,
      "loss": 3.518,
      "step": 366610
    },
    {
      "epoch": 0.7637916666666666,
      "grad_norm": 1.5332298278808594,
      "learning_rate": 3.975463970389042e-05,
      "loss": 3.4175,
      "step": 366620
    },
    {
      "epoch": 0.7638125,
      "grad_norm": 1.7661399841308594,
      "learning_rate": 3.974795485005912e-05,
      "loss": 3.4091,
      "step": 366630
    },
    {
      "epoch": 0.7638333333333334,
      "grad_norm": 1.4962677955627441,
      "learning_rate": 3.974127047247293e-05,
      "loss": 3.3555,
      "step": 366640
    },
    {
      "epoch": 0.7638541666666666,
      "grad_norm": 1.6646003723144531,
      "learning_rate": 3.973458657116089e-05,
      "loss": 3.5286,
      "step": 366650
    },
    {
      "epoch": 0.763875,
      "grad_norm": 1.6952930688858032,
      "learning_rate": 3.9727903146151745e-05,
      "loss": 3.5151,
      "step": 366660
    },
    {
      "epoch": 0.7638958333333333,
      "grad_norm": 1.4446598291397095,
      "learning_rate": 3.972122019747438e-05,
      "loss": 3.4951,
      "step": 366670
    },
    {
      "epoch": 0.7639166666666667,
      "grad_norm": 1.4758566617965698,
      "learning_rate": 3.971453772515776e-05,
      "loss": 3.4431,
      "step": 366680
    },
    {
      "epoch": 0.7639375,
      "grad_norm": 1.7755221128463745,
      "learning_rate": 3.970785572923066e-05,
      "loss": 3.4224,
      "step": 366690
    },
    {
      "epoch": 0.7639583333333333,
      "grad_norm": 1.4972761869430542,
      "learning_rate": 3.970117420972191e-05,
      "loss": 3.417,
      "step": 366700
    },
    {
      "epoch": 0.7639791666666667,
      "grad_norm": 1.4500526189804077,
      "learning_rate": 3.969449316666051e-05,
      "loss": 3.426,
      "step": 366710
    },
    {
      "epoch": 0.764,
      "grad_norm": 2.0170481204986572,
      "learning_rate": 3.9687812600075215e-05,
      "loss": 3.3398,
      "step": 366720
    },
    {
      "epoch": 0.7640208333333334,
      "grad_norm": 1.556404948234558,
      "learning_rate": 3.968113250999484e-05,
      "loss": 3.4559,
      "step": 366730
    },
    {
      "epoch": 0.7640416666666666,
      "grad_norm": 1.4500179290771484,
      "learning_rate": 3.967445289644839e-05,
      "loss": 3.4081,
      "step": 366740
    },
    {
      "epoch": 0.7640625,
      "grad_norm": 1.5211366415023804,
      "learning_rate": 3.966777375946461e-05,
      "loss": 3.4073,
      "step": 366750
    },
    {
      "epoch": 0.7640833333333333,
      "grad_norm": 1.3986985683441162,
      "learning_rate": 3.966109509907231e-05,
      "loss": 3.4134,
      "step": 366760
    },
    {
      "epoch": 0.7641041666666667,
      "grad_norm": 1.6632169485092163,
      "learning_rate": 3.965441691530052e-05,
      "loss": 3.3612,
      "step": 366770
    },
    {
      "epoch": 0.764125,
      "grad_norm": 1.6426643133163452,
      "learning_rate": 3.9647739208177906e-05,
      "loss": 3.4711,
      "step": 366780
    },
    {
      "epoch": 0.7641458333333333,
      "grad_norm": 1.4226911067962646,
      "learning_rate": 3.964106197773338e-05,
      "loss": 3.5193,
      "step": 366790
    },
    {
      "epoch": 0.7641666666666667,
      "grad_norm": 1.5540459156036377,
      "learning_rate": 3.963438522399579e-05,
      "loss": 3.3545,
      "step": 366800
    },
    {
      "epoch": 0.7641875,
      "grad_norm": 1.4834436178207397,
      "learning_rate": 3.962770894699397e-05,
      "loss": 3.4367,
      "step": 366810
    },
    {
      "epoch": 0.7642083333333334,
      "grad_norm": 1.539509654045105,
      "learning_rate": 3.962103314675676e-05,
      "loss": 3.5005,
      "step": 366820
    },
    {
      "epoch": 0.7642291666666666,
      "grad_norm": 1.5309275388717651,
      "learning_rate": 3.961435782331299e-05,
      "loss": 3.4494,
      "step": 366830
    },
    {
      "epoch": 0.76425,
      "grad_norm": 1.539773941040039,
      "learning_rate": 3.9607682976691493e-05,
      "loss": 3.4277,
      "step": 366840
    },
    {
      "epoch": 0.7642708333333333,
      "grad_norm": 1.5593446493148804,
      "learning_rate": 3.9601008606921114e-05,
      "loss": 3.4001,
      "step": 366850
    },
    {
      "epoch": 0.7642916666666667,
      "grad_norm": 1.5802006721496582,
      "learning_rate": 3.959433471403068e-05,
      "loss": 3.372,
      "step": 366860
    },
    {
      "epoch": 0.7643125,
      "grad_norm": 1.5379681587219238,
      "learning_rate": 3.9587661298049034e-05,
      "loss": 3.4515,
      "step": 366870
    },
    {
      "epoch": 0.7643333333333333,
      "grad_norm": 1.4601727724075317,
      "learning_rate": 3.9580988359004974e-05,
      "loss": 3.5205,
      "step": 366880
    },
    {
      "epoch": 0.7643541666666667,
      "grad_norm": 1.8648711442947388,
      "learning_rate": 3.957431589692733e-05,
      "loss": 3.4808,
      "step": 366890
    },
    {
      "epoch": 0.764375,
      "grad_norm": 1.3681639432907104,
      "learning_rate": 3.956764391184494e-05,
      "loss": 3.5232,
      "step": 366900
    },
    {
      "epoch": 0.7643958333333334,
      "grad_norm": 1.453202247619629,
      "learning_rate": 3.9560972403786664e-05,
      "loss": 3.358,
      "step": 366910
    },
    {
      "epoch": 0.7644166666666666,
      "grad_norm": 1.708864688873291,
      "learning_rate": 3.9554301372781177e-05,
      "loss": 3.3179,
      "step": 366920
    },
    {
      "epoch": 0.7644375,
      "grad_norm": 1.5000665187835693,
      "learning_rate": 3.9547630818857436e-05,
      "loss": 3.3841,
      "step": 366930
    },
    {
      "epoch": 0.7644583333333334,
      "grad_norm": 1.5176913738250732,
      "learning_rate": 3.954096074204426e-05,
      "loss": 3.4981,
      "step": 366940
    },
    {
      "epoch": 0.7644791666666667,
      "grad_norm": 1.642256498336792,
      "learning_rate": 3.953429114237031e-05,
      "loss": 3.4404,
      "step": 366950
    },
    {
      "epoch": 0.7645,
      "grad_norm": 1.9639383554458618,
      "learning_rate": 3.952762201986455e-05,
      "loss": 3.5187,
      "step": 366960
    },
    {
      "epoch": 0.7645208333333333,
      "grad_norm": 1.6364470720291138,
      "learning_rate": 3.9520953374555775e-05,
      "loss": 3.4793,
      "step": 366970
    },
    {
      "epoch": 0.7645416666666667,
      "grad_norm": 1.5182894468307495,
      "learning_rate": 3.951428520647267e-05,
      "loss": 3.5372,
      "step": 366980
    },
    {
      "epoch": 0.7645625,
      "grad_norm": 1.552735447883606,
      "learning_rate": 3.9507617515644155e-05,
      "loss": 3.4281,
      "step": 366990
    },
    {
      "epoch": 0.7645833333333333,
      "grad_norm": 1.4974104166030884,
      "learning_rate": 3.9500950302099054e-05,
      "loss": 3.4308,
      "step": 367000
    },
    {
      "epoch": 0.7645833333333333,
      "eval_loss": 3.534994602203369,
      "eval_runtime": 7.2675,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 367000
    },
    {
      "epoch": 0.7646041666666666,
      "grad_norm": 1.4565443992614746,
      "learning_rate": 3.949428356586601e-05,
      "loss": 3.4304,
      "step": 367010
    },
    {
      "epoch": 0.764625,
      "grad_norm": 1.4497026205062866,
      "learning_rate": 3.9487617306974014e-05,
      "loss": 3.4489,
      "step": 367020
    },
    {
      "epoch": 0.7646458333333334,
      "grad_norm": 1.5971808433532715,
      "learning_rate": 3.948095152545171e-05,
      "loss": 3.2659,
      "step": 367030
    },
    {
      "epoch": 0.7646666666666667,
      "grad_norm": 1.4594531059265137,
      "learning_rate": 3.947428622132791e-05,
      "loss": 3.5092,
      "step": 367040
    },
    {
      "epoch": 0.7646875,
      "grad_norm": 1.4104565382003784,
      "learning_rate": 3.9467621394631544e-05,
      "loss": 3.4406,
      "step": 367050
    },
    {
      "epoch": 0.7647083333333333,
      "grad_norm": 1.5379911661148071,
      "learning_rate": 3.946095704539125e-05,
      "loss": 3.4031,
      "step": 367060
    },
    {
      "epoch": 0.7647291666666667,
      "grad_norm": 1.5817784070968628,
      "learning_rate": 3.9454293173635825e-05,
      "loss": 3.4259,
      "step": 367070
    },
    {
      "epoch": 0.76475,
      "grad_norm": 1.5368071794509888,
      "learning_rate": 3.944762977939418e-05,
      "loss": 3.5246,
      "step": 367080
    },
    {
      "epoch": 0.7647708333333333,
      "grad_norm": 1.5396814346313477,
      "learning_rate": 3.944096686269497e-05,
      "loss": 3.4458,
      "step": 367090
    },
    {
      "epoch": 0.7647916666666666,
      "grad_norm": 1.437925934791565,
      "learning_rate": 3.9434304423566984e-05,
      "loss": 3.4148,
      "step": 367100
    },
    {
      "epoch": 0.7648125,
      "grad_norm": 1.5015480518341064,
      "learning_rate": 3.9427642462039115e-05,
      "loss": 3.3901,
      "step": 367110
    },
    {
      "epoch": 0.7648333333333334,
      "grad_norm": 1.8875049352645874,
      "learning_rate": 3.942098097814004e-05,
      "loss": 3.4067,
      "step": 367120
    },
    {
      "epoch": 0.7648541666666666,
      "grad_norm": 2.0301673412323,
      "learning_rate": 3.941431997189854e-05,
      "loss": 3.4856,
      "step": 367130
    },
    {
      "epoch": 0.764875,
      "grad_norm": 1.528327465057373,
      "learning_rate": 3.94076594433434e-05,
      "loss": 3.5064,
      "step": 367140
    },
    {
      "epoch": 0.7648958333333333,
      "grad_norm": 1.4499659538269043,
      "learning_rate": 3.940099939250341e-05,
      "loss": 3.5243,
      "step": 367150
    },
    {
      "epoch": 0.7649166666666667,
      "grad_norm": 1.8889646530151367,
      "learning_rate": 3.939433981940731e-05,
      "loss": 3.3673,
      "step": 367160
    },
    {
      "epoch": 0.7649375,
      "grad_norm": 1.9554328918457031,
      "learning_rate": 3.9387680724083887e-05,
      "loss": 3.5451,
      "step": 367170
    },
    {
      "epoch": 0.7649583333333333,
      "grad_norm": 1.4645211696624756,
      "learning_rate": 3.938102210656191e-05,
      "loss": 3.4511,
      "step": 367180
    },
    {
      "epoch": 0.7649791666666667,
      "grad_norm": 1.5320956707000732,
      "learning_rate": 3.9374363966870124e-05,
      "loss": 3.3987,
      "step": 367190
    },
    {
      "epoch": 0.765,
      "grad_norm": 1.5495957136154175,
      "learning_rate": 3.9367706305037295e-05,
      "loss": 3.4532,
      "step": 367200
    },
    {
      "epoch": 0.7650208333333334,
      "grad_norm": 1.6927287578582764,
      "learning_rate": 3.9361049121092195e-05,
      "loss": 3.4631,
      "step": 367210
    },
    {
      "epoch": 0.7650416666666666,
      "grad_norm": 1.6055169105529785,
      "learning_rate": 3.935439241506355e-05,
      "loss": 3.3515,
      "step": 367220
    },
    {
      "epoch": 0.7650625,
      "grad_norm": 1.6369118690490723,
      "learning_rate": 3.934773618698013e-05,
      "loss": 3.4163,
      "step": 367230
    },
    {
      "epoch": 0.7650833333333333,
      "grad_norm": 1.6733882427215576,
      "learning_rate": 3.9341080436870714e-05,
      "loss": 3.4574,
      "step": 367240
    },
    {
      "epoch": 0.7651041666666667,
      "grad_norm": 1.501277208328247,
      "learning_rate": 3.933442516476402e-05,
      "loss": 3.4549,
      "step": 367250
    },
    {
      "epoch": 0.765125,
      "grad_norm": 1.6000282764434814,
      "learning_rate": 3.93277703706888e-05,
      "loss": 3.4745,
      "step": 367260
    },
    {
      "epoch": 0.7651458333333333,
      "grad_norm": 1.5196058750152588,
      "learning_rate": 3.9321116054673804e-05,
      "loss": 3.292,
      "step": 367270
    },
    {
      "epoch": 0.7651666666666667,
      "grad_norm": 1.7726483345031738,
      "learning_rate": 3.931446221674783e-05,
      "loss": 3.5118,
      "step": 367280
    },
    {
      "epoch": 0.7651875,
      "grad_norm": 1.5129601955413818,
      "learning_rate": 3.930780885693947e-05,
      "loss": 3.5117,
      "step": 367290
    },
    {
      "epoch": 0.7652083333333334,
      "grad_norm": 1.569197177886963,
      "learning_rate": 3.93011559752776e-05,
      "loss": 3.3484,
      "step": 367300
    },
    {
      "epoch": 0.7652291666666666,
      "grad_norm": 1.7183256149291992,
      "learning_rate": 3.9294503571790976e-05,
      "loss": 3.4433,
      "step": 367310
    },
    {
      "epoch": 0.76525,
      "grad_norm": 1.4801900386810303,
      "learning_rate": 3.9287851646508176e-05,
      "loss": 3.4867,
      "step": 367320
    },
    {
      "epoch": 0.7652708333333333,
      "grad_norm": 1.608715295791626,
      "learning_rate": 3.9281200199458084e-05,
      "loss": 3.4627,
      "step": 367330
    },
    {
      "epoch": 0.7652916666666667,
      "grad_norm": 1.511117935180664,
      "learning_rate": 3.927454923066944e-05,
      "loss": 3.3748,
      "step": 367340
    },
    {
      "epoch": 0.7653125,
      "grad_norm": 1.6878349781036377,
      "learning_rate": 3.92678987401708e-05,
      "loss": 3.4605,
      "step": 367350
    },
    {
      "epoch": 0.7653333333333333,
      "grad_norm": 1.4936981201171875,
      "learning_rate": 3.926124872799106e-05,
      "loss": 3.446,
      "step": 367360
    },
    {
      "epoch": 0.7653541666666667,
      "grad_norm": 1.3601748943328857,
      "learning_rate": 3.925459919415895e-05,
      "loss": 3.419,
      "step": 367370
    },
    {
      "epoch": 0.765375,
      "grad_norm": 1.6690301895141602,
      "learning_rate": 3.924795013870303e-05,
      "loss": 3.4931,
      "step": 367380
    },
    {
      "epoch": 0.7653958333333334,
      "grad_norm": 1.3794423341751099,
      "learning_rate": 3.9241301561652175e-05,
      "loss": 3.3256,
      "step": 367390
    },
    {
      "epoch": 0.7654166666666666,
      "grad_norm": 1.576134443283081,
      "learning_rate": 3.923465346303512e-05,
      "loss": 3.2345,
      "step": 367400
    },
    {
      "epoch": 0.7654375,
      "grad_norm": 1.6689220666885376,
      "learning_rate": 3.9228005842880404e-05,
      "loss": 3.452,
      "step": 367410
    },
    {
      "epoch": 0.7654583333333334,
      "grad_norm": 1.519848108291626,
      "learning_rate": 3.922135870121696e-05,
      "loss": 3.5006,
      "step": 367420
    },
    {
      "epoch": 0.7654791666666667,
      "grad_norm": 1.8106353282928467,
      "learning_rate": 3.921471203807334e-05,
      "loss": 3.445,
      "step": 367430
    },
    {
      "epoch": 0.7655,
      "grad_norm": 1.7195191383361816,
      "learning_rate": 3.920806585347832e-05,
      "loss": 3.4634,
      "step": 367440
    },
    {
      "epoch": 0.7655208333333333,
      "grad_norm": 1.4226007461547852,
      "learning_rate": 3.9201420147460605e-05,
      "loss": 3.3457,
      "step": 367450
    },
    {
      "epoch": 0.7655416666666667,
      "grad_norm": 1.5445376634597778,
      "learning_rate": 3.919477492004888e-05,
      "loss": 3.5482,
      "step": 367460
    },
    {
      "epoch": 0.7655625,
      "grad_norm": 1.3783056735992432,
      "learning_rate": 3.918813017127189e-05,
      "loss": 3.369,
      "step": 367470
    },
    {
      "epoch": 0.7655833333333333,
      "grad_norm": 1.4438310861587524,
      "learning_rate": 3.9181485901158295e-05,
      "loss": 3.4478,
      "step": 367480
    },
    {
      "epoch": 0.7656041666666666,
      "grad_norm": 1.5914493799209595,
      "learning_rate": 3.917484210973683e-05,
      "loss": 3.4427,
      "step": 367490
    },
    {
      "epoch": 0.765625,
      "grad_norm": 2.0096559524536133,
      "learning_rate": 3.916819879703618e-05,
      "loss": 3.4638,
      "step": 367500
    },
    {
      "epoch": 0.7656458333333334,
      "grad_norm": 1.5114591121673584,
      "learning_rate": 3.916155596308504e-05,
      "loss": 3.4373,
      "step": 367510
    },
    {
      "epoch": 0.7656666666666667,
      "grad_norm": 1.5343164205551147,
      "learning_rate": 3.91549136079121e-05,
      "loss": 3.5439,
      "step": 367520
    },
    {
      "epoch": 0.7656875,
      "grad_norm": 1.7567927837371826,
      "learning_rate": 3.914827173154605e-05,
      "loss": 3.4261,
      "step": 367530
    },
    {
      "epoch": 0.7657083333333333,
      "grad_norm": 1.4519444704055786,
      "learning_rate": 3.9141630334015605e-05,
      "loss": 3.4669,
      "step": 367540
    },
    {
      "epoch": 0.7657291666666667,
      "grad_norm": 1.4052302837371826,
      "learning_rate": 3.913498941534943e-05,
      "loss": 3.4365,
      "step": 367550
    },
    {
      "epoch": 0.76575,
      "grad_norm": 1.433210849761963,
      "learning_rate": 3.912834897557621e-05,
      "loss": 3.3922,
      "step": 367560
    },
    {
      "epoch": 0.7657708333333333,
      "grad_norm": 1.431496024131775,
      "learning_rate": 3.912170901472464e-05,
      "loss": 3.385,
      "step": 367570
    },
    {
      "epoch": 0.7657916666666666,
      "grad_norm": 1.7104473114013672,
      "learning_rate": 3.91150695328234e-05,
      "loss": 3.4711,
      "step": 367580
    },
    {
      "epoch": 0.7658125,
      "grad_norm": 2.0694963932037354,
      "learning_rate": 3.910843052990117e-05,
      "loss": 3.5215,
      "step": 367590
    },
    {
      "epoch": 0.7658333333333334,
      "grad_norm": 1.6016647815704346,
      "learning_rate": 3.910179200598662e-05,
      "loss": 3.4283,
      "step": 367600
    },
    {
      "epoch": 0.7658541666666666,
      "grad_norm": 1.6271581649780273,
      "learning_rate": 3.909515396110845e-05,
      "loss": 3.4745,
      "step": 367610
    },
    {
      "epoch": 0.765875,
      "grad_norm": 1.4118523597717285,
      "learning_rate": 3.90885163952953e-05,
      "loss": 3.4086,
      "step": 367620
    },
    {
      "epoch": 0.7658958333333333,
      "grad_norm": 1.5516674518585205,
      "learning_rate": 3.908187930857586e-05,
      "loss": 3.4141,
      "step": 367630
    },
    {
      "epoch": 0.7659166666666667,
      "grad_norm": 1.6381583213806152,
      "learning_rate": 3.90752427009788e-05,
      "loss": 3.4885,
      "step": 367640
    },
    {
      "epoch": 0.7659375,
      "grad_norm": 1.423302173614502,
      "learning_rate": 3.906860657253283e-05,
      "loss": 3.4361,
      "step": 367650
    },
    {
      "epoch": 0.7659583333333333,
      "grad_norm": 1.7713524103164673,
      "learning_rate": 3.9061970923266466e-05,
      "loss": 3.4957,
      "step": 367660
    },
    {
      "epoch": 0.7659791666666667,
      "grad_norm": 1.5690724849700928,
      "learning_rate": 3.9055335753208525e-05,
      "loss": 3.3778,
      "step": 367670
    },
    {
      "epoch": 0.766,
      "grad_norm": 1.7493791580200195,
      "learning_rate": 3.904870106238767e-05,
      "loss": 3.4829,
      "step": 367680
    },
    {
      "epoch": 0.7660208333333334,
      "grad_norm": 1.4446916580200195,
      "learning_rate": 3.904206685083243e-05,
      "loss": 3.3881,
      "step": 367690
    },
    {
      "epoch": 0.7660416666666666,
      "grad_norm": 1.575128197669983,
      "learning_rate": 3.903543311857157e-05,
      "loss": 3.4759,
      "step": 367700
    },
    {
      "epoch": 0.7660625,
      "grad_norm": 1.523358702659607,
      "learning_rate": 3.9028799865633756e-05,
      "loss": 3.5138,
      "step": 367710
    },
    {
      "epoch": 0.7660833333333333,
      "grad_norm": 1.537384033203125,
      "learning_rate": 3.9022167092047575e-05,
      "loss": 3.3764,
      "step": 367720
    },
    {
      "epoch": 0.7661041666666667,
      "grad_norm": 1.6051466464996338,
      "learning_rate": 3.9015534797841643e-05,
      "loss": 3.5047,
      "step": 367730
    },
    {
      "epoch": 0.766125,
      "grad_norm": 1.4142481088638306,
      "learning_rate": 3.900890298304477e-05,
      "loss": 3.4453,
      "step": 367740
    },
    {
      "epoch": 0.7661458333333333,
      "grad_norm": 1.5264936685562134,
      "learning_rate": 3.9002271647685456e-05,
      "loss": 3.4087,
      "step": 367750
    },
    {
      "epoch": 0.7661666666666667,
      "grad_norm": 1.3885565996170044,
      "learning_rate": 3.8995640791792344e-05,
      "loss": 3.5498,
      "step": 367760
    },
    {
      "epoch": 0.7661875,
      "grad_norm": 1.4422482252120972,
      "learning_rate": 3.8989010415394223e-05,
      "loss": 3.3453,
      "step": 367770
    },
    {
      "epoch": 0.7662083333333334,
      "grad_norm": 1.717120885848999,
      "learning_rate": 3.8982380518519574e-05,
      "loss": 3.4541,
      "step": 367780
    },
    {
      "epoch": 0.7662291666666666,
      "grad_norm": 1.7011265754699707,
      "learning_rate": 3.897575110119712e-05,
      "loss": 3.4542,
      "step": 367790
    },
    {
      "epoch": 0.76625,
      "grad_norm": 1.6862581968307495,
      "learning_rate": 3.8969122163455464e-05,
      "loss": 3.2687,
      "step": 367800
    },
    {
      "epoch": 0.7662708333333333,
      "grad_norm": 1.5574370622634888,
      "learning_rate": 3.896249370532324e-05,
      "loss": 3.5279,
      "step": 367810
    },
    {
      "epoch": 0.7662916666666667,
      "grad_norm": 1.6342377662658691,
      "learning_rate": 3.895586572682911e-05,
      "loss": 3.3293,
      "step": 367820
    },
    {
      "epoch": 0.7663125,
      "grad_norm": 1.5868463516235352,
      "learning_rate": 3.894923822800167e-05,
      "loss": 3.3958,
      "step": 367830
    },
    {
      "epoch": 0.7663333333333333,
      "grad_norm": 1.4821367263793945,
      "learning_rate": 3.894261120886957e-05,
      "loss": 3.4388,
      "step": 367840
    },
    {
      "epoch": 0.7663541666666667,
      "grad_norm": 1.6187670230865479,
      "learning_rate": 3.893598466946144e-05,
      "loss": 3.4303,
      "step": 367850
    },
    {
      "epoch": 0.766375,
      "grad_norm": 1.350382685661316,
      "learning_rate": 3.8929358609805885e-05,
      "loss": 3.4298,
      "step": 367860
    },
    {
      "epoch": 0.7663958333333334,
      "grad_norm": 1.5149481296539307,
      "learning_rate": 3.8922733029931525e-05,
      "loss": 3.3901,
      "step": 367870
    },
    {
      "epoch": 0.7664166666666666,
      "grad_norm": 1.5009466409683228,
      "learning_rate": 3.891610792986701e-05,
      "loss": 3.498,
      "step": 367880
    },
    {
      "epoch": 0.7664375,
      "grad_norm": 1.6450737714767456,
      "learning_rate": 3.890948330964093e-05,
      "loss": 3.6456,
      "step": 367890
    },
    {
      "epoch": 0.7664583333333334,
      "grad_norm": 1.6533381938934326,
      "learning_rate": 3.890285916928191e-05,
      "loss": 3.3292,
      "step": 367900
    },
    {
      "epoch": 0.7664791666666667,
      "grad_norm": 1.6533669233322144,
      "learning_rate": 3.8896235508818564e-05,
      "loss": 3.3914,
      "step": 367910
    },
    {
      "epoch": 0.7665,
      "grad_norm": 1.6390302181243896,
      "learning_rate": 3.88896123282795e-05,
      "loss": 3.5178,
      "step": 367920
    },
    {
      "epoch": 0.7665208333333333,
      "grad_norm": 1.526279091835022,
      "learning_rate": 3.8882989627693335e-05,
      "loss": 3.3958,
      "step": 367930
    },
    {
      "epoch": 0.7665416666666667,
      "grad_norm": 1.5237934589385986,
      "learning_rate": 3.887636740708867e-05,
      "loss": 3.4792,
      "step": 367940
    },
    {
      "epoch": 0.7665625,
      "grad_norm": 1.3634533882141113,
      "learning_rate": 3.88697456664941e-05,
      "loss": 3.4342,
      "step": 367950
    },
    {
      "epoch": 0.7665833333333333,
      "grad_norm": 1.5463263988494873,
      "learning_rate": 3.8863124405938266e-05,
      "loss": 3.5826,
      "step": 367960
    },
    {
      "epoch": 0.7666041666666666,
      "grad_norm": 1.5088952779769897,
      "learning_rate": 3.885650362544973e-05,
      "loss": 3.4078,
      "step": 367970
    },
    {
      "epoch": 0.766625,
      "grad_norm": 1.4595962762832642,
      "learning_rate": 3.884988332505709e-05,
      "loss": 3.3915,
      "step": 367980
    },
    {
      "epoch": 0.7666458333333334,
      "grad_norm": 1.4956657886505127,
      "learning_rate": 3.884326350478897e-05,
      "loss": 3.47,
      "step": 367990
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 1.606858730316162,
      "learning_rate": 3.883664416467396e-05,
      "loss": 3.4213,
      "step": 368000
    },
    {
      "epoch": 0.7666666666666667,
      "eval_loss": 3.539236068725586,
      "eval_runtime": 7.2524,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 368000
    },
    {
      "epoch": 0.7666875,
      "grad_norm": 1.4522991180419922,
      "learning_rate": 3.8830025304740636e-05,
      "loss": 3.2892,
      "step": 368010
    },
    {
      "epoch": 0.7667083333333333,
      "grad_norm": 1.7054657936096191,
      "learning_rate": 3.882340692501765e-05,
      "loss": 3.4604,
      "step": 368020
    },
    {
      "epoch": 0.7667291666666667,
      "grad_norm": 1.5816456079483032,
      "learning_rate": 3.8816789025533504e-05,
      "loss": 3.4763,
      "step": 368030
    },
    {
      "epoch": 0.76675,
      "grad_norm": 1.5584301948547363,
      "learning_rate": 3.881017160631676e-05,
      "loss": 3.4202,
      "step": 368040
    },
    {
      "epoch": 0.7667708333333333,
      "grad_norm": 1.642020344734192,
      "learning_rate": 3.8803554667396155e-05,
      "loss": 3.4487,
      "step": 368050
    },
    {
      "epoch": 0.7667916666666666,
      "grad_norm": 1.4843116998672485,
      "learning_rate": 3.8796938208800125e-05,
      "loss": 3.472,
      "step": 368060
    },
    {
      "epoch": 0.7668125,
      "grad_norm": 1.4111229181289673,
      "learning_rate": 3.879032223055727e-05,
      "loss": 3.5054,
      "step": 368070
    },
    {
      "epoch": 0.7668333333333334,
      "grad_norm": 1.476599931716919,
      "learning_rate": 3.878370673269629e-05,
      "loss": 3.4021,
      "step": 368080
    },
    {
      "epoch": 0.7668541666666666,
      "grad_norm": 1.6753169298171997,
      "learning_rate": 3.877709171524563e-05,
      "loss": 3.436,
      "step": 368090
    },
    {
      "epoch": 0.766875,
      "grad_norm": 1.3765183687210083,
      "learning_rate": 3.877047717823387e-05,
      "loss": 3.4975,
      "step": 368100
    },
    {
      "epoch": 0.7668958333333333,
      "grad_norm": 1.5460163354873657,
      "learning_rate": 3.8763863121689716e-05,
      "loss": 3.5401,
      "step": 368110
    },
    {
      "epoch": 0.7669166666666667,
      "grad_norm": 1.8266736268997192,
      "learning_rate": 3.875724954564157e-05,
      "loss": 3.4681,
      "step": 368120
    },
    {
      "epoch": 0.7669375,
      "grad_norm": 1.7485566139221191,
      "learning_rate": 3.875063645011805e-05,
      "loss": 3.399,
      "step": 368130
    },
    {
      "epoch": 0.7669583333333333,
      "grad_norm": 1.5241159200668335,
      "learning_rate": 3.874402383514784e-05,
      "loss": 3.3366,
      "step": 368140
    },
    {
      "epoch": 0.7669791666666667,
      "grad_norm": 1.6870938539505005,
      "learning_rate": 3.873741170075936e-05,
      "loss": 3.4279,
      "step": 368150
    },
    {
      "epoch": 0.767,
      "grad_norm": 1.6532173156738281,
      "learning_rate": 3.873080004698121e-05,
      "loss": 3.4814,
      "step": 368160
    },
    {
      "epoch": 0.7670208333333334,
      "grad_norm": 1.9196637868881226,
      "learning_rate": 3.872418887384197e-05,
      "loss": 3.5085,
      "step": 368170
    },
    {
      "epoch": 0.7670416666666666,
      "grad_norm": 1.543737769126892,
      "learning_rate": 3.8717578181370174e-05,
      "loss": 3.5377,
      "step": 368180
    },
    {
      "epoch": 0.7670625,
      "grad_norm": 1.5076837539672852,
      "learning_rate": 3.8710967969594406e-05,
      "loss": 3.4568,
      "step": 368190
    },
    {
      "epoch": 0.7670833333333333,
      "grad_norm": 1.5708506107330322,
      "learning_rate": 3.87043582385432e-05,
      "loss": 3.4041,
      "step": 368200
    },
    {
      "epoch": 0.7671041666666667,
      "grad_norm": 1.458083152770996,
      "learning_rate": 3.869774898824512e-05,
      "loss": 3.4449,
      "step": 368210
    },
    {
      "epoch": 0.767125,
      "grad_norm": 1.5016368627548218,
      "learning_rate": 3.86911402187287e-05,
      "loss": 3.3952,
      "step": 368220
    },
    {
      "epoch": 0.7671458333333333,
      "grad_norm": 1.4497755765914917,
      "learning_rate": 3.868453193002249e-05,
      "loss": 3.5128,
      "step": 368230
    },
    {
      "epoch": 0.7671666666666667,
      "grad_norm": 1.9676769971847534,
      "learning_rate": 3.867792412215504e-05,
      "loss": 3.4387,
      "step": 368240
    },
    {
      "epoch": 0.7671875,
      "grad_norm": 1.5439708232879639,
      "learning_rate": 3.867131679515492e-05,
      "loss": 3.4484,
      "step": 368250
    },
    {
      "epoch": 0.7672083333333334,
      "grad_norm": 1.5870521068572998,
      "learning_rate": 3.866470994905061e-05,
      "loss": 3.3985,
      "step": 368260
    },
    {
      "epoch": 0.7672291666666666,
      "grad_norm": 1.3432930707931519,
      "learning_rate": 3.86581035838707e-05,
      "loss": 3.3961,
      "step": 368270
    },
    {
      "epoch": 0.76725,
      "grad_norm": 1.4309618473052979,
      "learning_rate": 3.8651497699643705e-05,
      "loss": 3.4611,
      "step": 368280
    },
    {
      "epoch": 0.7672708333333333,
      "grad_norm": 1.5976101160049438,
      "learning_rate": 3.8644892296398185e-05,
      "loss": 3.5234,
      "step": 368290
    },
    {
      "epoch": 0.7672916666666667,
      "grad_norm": 1.5934600830078125,
      "learning_rate": 3.8638287374162625e-05,
      "loss": 3.42,
      "step": 368300
    },
    {
      "epoch": 0.7673125,
      "grad_norm": 1.5183312892913818,
      "learning_rate": 3.863168293296564e-05,
      "loss": 3.6034,
      "step": 368310
    },
    {
      "epoch": 0.7673333333333333,
      "grad_norm": 1.7203079462051392,
      "learning_rate": 3.862507897283561e-05,
      "loss": 3.4236,
      "step": 368320
    },
    {
      "epoch": 0.7673541666666667,
      "grad_norm": 1.957897424697876,
      "learning_rate": 3.861847549380121e-05,
      "loss": 3.3137,
      "step": 368330
    },
    {
      "epoch": 0.767375,
      "grad_norm": 1.5537168979644775,
      "learning_rate": 3.861187249589093e-05,
      "loss": 3.472,
      "step": 368340
    },
    {
      "epoch": 0.7673958333333334,
      "grad_norm": 1.611886978149414,
      "learning_rate": 3.860526997913321e-05,
      "loss": 3.4448,
      "step": 368350
    },
    {
      "epoch": 0.7674166666666666,
      "grad_norm": 1.5477343797683716,
      "learning_rate": 3.859866794355666e-05,
      "loss": 3.354,
      "step": 368360
    },
    {
      "epoch": 0.7674375,
      "grad_norm": 1.466711401939392,
      "learning_rate": 3.85920663891898e-05,
      "loss": 3.4502,
      "step": 368370
    },
    {
      "epoch": 0.7674583333333334,
      "grad_norm": 1.4986586570739746,
      "learning_rate": 3.858546531606104e-05,
      "loss": 3.3452,
      "step": 368380
    },
    {
      "epoch": 0.7674791666666667,
      "grad_norm": 1.6590709686279297,
      "learning_rate": 3.857886472419901e-05,
      "loss": 3.4738,
      "step": 368390
    },
    {
      "epoch": 0.7675,
      "grad_norm": 1.5474470853805542,
      "learning_rate": 3.857226461363223e-05,
      "loss": 3.4257,
      "step": 368400
    },
    {
      "epoch": 0.7675208333333333,
      "grad_norm": 1.5329432487487793,
      "learning_rate": 3.856566498438908e-05,
      "loss": 3.4505,
      "step": 368410
    },
    {
      "epoch": 0.7675416666666667,
      "grad_norm": 1.568019986152649,
      "learning_rate": 3.855906583649823e-05,
      "loss": 3.5627,
      "step": 368420
    },
    {
      "epoch": 0.7675625,
      "grad_norm": 1.6387736797332764,
      "learning_rate": 3.855246716998806e-05,
      "loss": 3.5027,
      "step": 368430
    },
    {
      "epoch": 0.7675833333333333,
      "grad_norm": 1.7801332473754883,
      "learning_rate": 3.8545868984887064e-05,
      "loss": 3.6234,
      "step": 368440
    },
    {
      "epoch": 0.7676041666666666,
      "grad_norm": 1.7154382467269897,
      "learning_rate": 3.8539271281223896e-05,
      "loss": 3.566,
      "step": 368450
    },
    {
      "epoch": 0.767625,
      "grad_norm": 1.5903395414352417,
      "learning_rate": 3.8532674059026894e-05,
      "loss": 3.3403,
      "step": 368460
    },
    {
      "epoch": 0.7676458333333334,
      "grad_norm": 1.4493935108184814,
      "learning_rate": 3.85260773183246e-05,
      "loss": 3.3905,
      "step": 368470
    },
    {
      "epoch": 0.7676666666666667,
      "grad_norm": 1.7113741636276245,
      "learning_rate": 3.85194810591456e-05,
      "loss": 3.4607,
      "step": 368480
    },
    {
      "epoch": 0.7676875,
      "grad_norm": 1.515428066253662,
      "learning_rate": 3.851288528151827e-05,
      "loss": 3.3212,
      "step": 368490
    },
    {
      "epoch": 0.7677083333333333,
      "grad_norm": 1.90121591091156,
      "learning_rate": 3.850628998547111e-05,
      "loss": 3.4731,
      "step": 368500
    },
    {
      "epoch": 0.7677291666666667,
      "grad_norm": 1.496597170829773,
      "learning_rate": 3.8499695171032737e-05,
      "loss": 3.3716,
      "step": 368510
    },
    {
      "epoch": 0.76775,
      "grad_norm": 1.8221783638000488,
      "learning_rate": 3.849310083823149e-05,
      "loss": 3.4427,
      "step": 368520
    },
    {
      "epoch": 0.7677708333333333,
      "grad_norm": 1.464595079421997,
      "learning_rate": 3.848650698709592e-05,
      "loss": 3.5662,
      "step": 368530
    },
    {
      "epoch": 0.7677916666666667,
      "grad_norm": 1.6472797393798828,
      "learning_rate": 3.8479913617654493e-05,
      "loss": 3.4867,
      "step": 368540
    },
    {
      "epoch": 0.7678125,
      "grad_norm": 1.5606701374053955,
      "learning_rate": 3.847332072993569e-05,
      "loss": 3.4265,
      "step": 368550
    },
    {
      "epoch": 0.7678333333333334,
      "grad_norm": 1.8712544441223145,
      "learning_rate": 3.846672832396802e-05,
      "loss": 3.431,
      "step": 368560
    },
    {
      "epoch": 0.7678541666666666,
      "grad_norm": 1.4958927631378174,
      "learning_rate": 3.846013639977991e-05,
      "loss": 3.4697,
      "step": 368570
    },
    {
      "epoch": 0.767875,
      "grad_norm": 1.5068576335906982,
      "learning_rate": 3.845354495739987e-05,
      "loss": 3.3497,
      "step": 368580
    },
    {
      "epoch": 0.7678958333333333,
      "grad_norm": 1.5110435485839844,
      "learning_rate": 3.844695399685636e-05,
      "loss": 3.5094,
      "step": 368590
    },
    {
      "epoch": 0.7679166666666667,
      "grad_norm": 1.4479695558547974,
      "learning_rate": 3.844036351817785e-05,
      "loss": 3.3247,
      "step": 368600
    },
    {
      "epoch": 0.7679375,
      "grad_norm": 2.2525148391723633,
      "learning_rate": 3.843377352139282e-05,
      "loss": 3.4728,
      "step": 368610
    },
    {
      "epoch": 0.7679583333333333,
      "grad_norm": 1.4802378416061401,
      "learning_rate": 3.842718400652972e-05,
      "loss": 3.4614,
      "step": 368620
    },
    {
      "epoch": 0.7679791666666667,
      "grad_norm": 1.521858811378479,
      "learning_rate": 3.8420594973617034e-05,
      "loss": 3.4877,
      "step": 368630
    },
    {
      "epoch": 0.768,
      "grad_norm": 1.5108352899551392,
      "learning_rate": 3.841400642268321e-05,
      "loss": 3.4564,
      "step": 368640
    },
    {
      "epoch": 0.7680208333333334,
      "grad_norm": 1.5742976665496826,
      "learning_rate": 3.840741835375675e-05,
      "loss": 3.4383,
      "step": 368650
    },
    {
      "epoch": 0.7680416666666666,
      "grad_norm": 1.8554357290267944,
      "learning_rate": 3.840083076686596e-05,
      "loss": 3.5789,
      "step": 368660
    },
    {
      "epoch": 0.7680625,
      "grad_norm": 1.3765954971313477,
      "learning_rate": 3.8394243662039485e-05,
      "loss": 3.4736,
      "step": 368670
    },
    {
      "epoch": 0.7680833333333333,
      "grad_norm": 1.60099458694458,
      "learning_rate": 3.8387657039305724e-05,
      "loss": 3.5498,
      "step": 368680
    },
    {
      "epoch": 0.7681041666666667,
      "grad_norm": 1.9926189184188843,
      "learning_rate": 3.838107089869302e-05,
      "loss": 3.3745,
      "step": 368690
    },
    {
      "epoch": 0.768125,
      "grad_norm": 1.5719588994979858,
      "learning_rate": 3.837448524022996e-05,
      "loss": 3.3986,
      "step": 368700
    },
    {
      "epoch": 0.7681458333333333,
      "grad_norm": 1.4235104322433472,
      "learning_rate": 3.836790006394499e-05,
      "loss": 3.4232,
      "step": 368710
    },
    {
      "epoch": 0.7681666666666667,
      "grad_norm": 1.5639369487762451,
      "learning_rate": 3.83613153698664e-05,
      "loss": 3.4956,
      "step": 368720
    },
    {
      "epoch": 0.7681875,
      "grad_norm": 1.6386388540267944,
      "learning_rate": 3.835473115802279e-05,
      "loss": 3.5147,
      "step": 368730
    },
    {
      "epoch": 0.7682083333333334,
      "grad_norm": 1.818589687347412,
      "learning_rate": 3.8348147428442595e-05,
      "loss": 3.3676,
      "step": 368740
    },
    {
      "epoch": 0.7682291666666666,
      "grad_norm": 1.7054049968719482,
      "learning_rate": 3.8341564181154103e-05,
      "loss": 3.3514,
      "step": 368750
    },
    {
      "epoch": 0.76825,
      "grad_norm": 1.4752708673477173,
      "learning_rate": 3.833498141618592e-05,
      "loss": 3.4054,
      "step": 368760
    },
    {
      "epoch": 0.7682708333333333,
      "grad_norm": 1.4761605262756348,
      "learning_rate": 3.832839913356646e-05,
      "loss": 3.4508,
      "step": 368770
    },
    {
      "epoch": 0.7682916666666667,
      "grad_norm": 1.6413105726242065,
      "learning_rate": 3.8321817333324015e-05,
      "loss": 3.406,
      "step": 368780
    },
    {
      "epoch": 0.7683125,
      "grad_norm": 1.7953941822052002,
      "learning_rate": 3.831523601548721e-05,
      "loss": 3.4091,
      "step": 368790
    },
    {
      "epoch": 0.7683333333333333,
      "grad_norm": 1.5305373668670654,
      "learning_rate": 3.830865518008433e-05,
      "loss": 3.4285,
      "step": 368800
    },
    {
      "epoch": 0.7683541666666667,
      "grad_norm": 1.7251590490341187,
      "learning_rate": 3.83020748271438e-05,
      "loss": 3.397,
      "step": 368810
    },
    {
      "epoch": 0.768375,
      "grad_norm": 1.4897780418395996,
      "learning_rate": 3.8295494956694186e-05,
      "loss": 3.4447,
      "step": 368820
    },
    {
      "epoch": 0.7683958333333333,
      "grad_norm": 1.535773754119873,
      "learning_rate": 3.8288915568763786e-05,
      "loss": 3.3592,
      "step": 368830
    },
    {
      "epoch": 0.7684166666666666,
      "grad_norm": 1.7714710235595703,
      "learning_rate": 3.8282336663380994e-05,
      "loss": 3.4823,
      "step": 368840
    },
    {
      "epoch": 0.7684375,
      "grad_norm": 1.6884502172470093,
      "learning_rate": 3.8275758240574374e-05,
      "loss": 3.5265,
      "step": 368850
    },
    {
      "epoch": 0.7684583333333334,
      "grad_norm": 1.5401477813720703,
      "learning_rate": 3.826918030037222e-05,
      "loss": 3.4302,
      "step": 368860
    },
    {
      "epoch": 0.7684791666666667,
      "grad_norm": 1.6329407691955566,
      "learning_rate": 3.826260284280293e-05,
      "loss": 3.4814,
      "step": 368870
    },
    {
      "epoch": 0.7685,
      "grad_norm": 1.5670369863510132,
      "learning_rate": 3.825602586789506e-05,
      "loss": 3.5049,
      "step": 368880
    },
    {
      "epoch": 0.7685208333333333,
      "grad_norm": 1.4886702299118042,
      "learning_rate": 3.824944937567688e-05,
      "loss": 3.2604,
      "step": 368890
    },
    {
      "epoch": 0.7685416666666667,
      "grad_norm": 1.5174888372421265,
      "learning_rate": 3.824287336617684e-05,
      "loss": 3.5044,
      "step": 368900
    },
    {
      "epoch": 0.7685625,
      "grad_norm": 1.6867115497589111,
      "learning_rate": 3.823629783942336e-05,
      "loss": 3.4586,
      "step": 368910
    },
    {
      "epoch": 0.7685833333333333,
      "grad_norm": 1.4518640041351318,
      "learning_rate": 3.8229722795444823e-05,
      "loss": 3.4371,
      "step": 368920
    },
    {
      "epoch": 0.7686041666666666,
      "grad_norm": 1.5434473752975464,
      "learning_rate": 3.822314823426964e-05,
      "loss": 3.4913,
      "step": 368930
    },
    {
      "epoch": 0.768625,
      "grad_norm": 1.625166416168213,
      "learning_rate": 3.821657415592623e-05,
      "loss": 3.3378,
      "step": 368940
    },
    {
      "epoch": 0.7686458333333334,
      "grad_norm": 1.7314897775650024,
      "learning_rate": 3.821000056044296e-05,
      "loss": 3.3994,
      "step": 368950
    },
    {
      "epoch": 0.7686666666666667,
      "grad_norm": 1.464241623878479,
      "learning_rate": 3.8203427447848255e-05,
      "loss": 3.3405,
      "step": 368960
    },
    {
      "epoch": 0.7686875,
      "grad_norm": 1.6524882316589355,
      "learning_rate": 3.819685481817048e-05,
      "loss": 3.4804,
      "step": 368970
    },
    {
      "epoch": 0.7687083333333333,
      "grad_norm": 1.6163996458053589,
      "learning_rate": 3.8190282671438027e-05,
      "loss": 3.4301,
      "step": 368980
    },
    {
      "epoch": 0.7687291666666667,
      "grad_norm": 1.5341427326202393,
      "learning_rate": 3.8183711007679304e-05,
      "loss": 3.4195,
      "step": 368990
    },
    {
      "epoch": 0.76875,
      "grad_norm": 1.4277626276016235,
      "learning_rate": 3.8177139826922695e-05,
      "loss": 3.2751,
      "step": 369000
    },
    {
      "epoch": 0.76875,
      "eval_loss": 3.532503128051758,
      "eval_runtime": 6.8693,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 369000
    },
    {
      "epoch": 0.7687708333333333,
      "grad_norm": 1.8570654392242432,
      "learning_rate": 3.817056912919656e-05,
      "loss": 3.5808,
      "step": 369010
    },
    {
      "epoch": 0.7687916666666667,
      "grad_norm": 1.581764578819275,
      "learning_rate": 3.816399891452937e-05,
      "loss": 3.4016,
      "step": 369020
    },
    {
      "epoch": 0.7688125,
      "grad_norm": 1.4853135347366333,
      "learning_rate": 3.815742918294933e-05,
      "loss": 3.4792,
      "step": 369030
    },
    {
      "epoch": 0.7688333333333334,
      "grad_norm": 1.5242427587509155,
      "learning_rate": 3.815085993448498e-05,
      "loss": 3.3734,
      "step": 369040
    },
    {
      "epoch": 0.7688541666666666,
      "grad_norm": 1.7183769941329956,
      "learning_rate": 3.814429116916468e-05,
      "loss": 3.4989,
      "step": 369050
    },
    {
      "epoch": 0.768875,
      "grad_norm": 1.533649206161499,
      "learning_rate": 3.813772288701669e-05,
      "loss": 3.4302,
      "step": 369060
    },
    {
      "epoch": 0.7688958333333333,
      "grad_norm": 1.7122057676315308,
      "learning_rate": 3.813115508806949e-05,
      "loss": 3.3469,
      "step": 369070
    },
    {
      "epoch": 0.7689166666666667,
      "grad_norm": 1.5598036050796509,
      "learning_rate": 3.8124587772351464e-05,
      "loss": 3.4311,
      "step": 369080
    },
    {
      "epoch": 0.7689375,
      "grad_norm": 1.8605103492736816,
      "learning_rate": 3.8118020939890857e-05,
      "loss": 3.451,
      "step": 369090
    },
    {
      "epoch": 0.7689583333333333,
      "grad_norm": 1.7698347568511963,
      "learning_rate": 3.811145459071616e-05,
      "loss": 3.3334,
      "step": 369100
    },
    {
      "epoch": 0.7689791666666667,
      "grad_norm": 1.7927672863006592,
      "learning_rate": 3.810488872485572e-05,
      "loss": 3.3944,
      "step": 369110
    },
    {
      "epoch": 0.769,
      "grad_norm": 1.4818966388702393,
      "learning_rate": 3.809832334233779e-05,
      "loss": 3.5597,
      "step": 369120
    },
    {
      "epoch": 0.7690208333333334,
      "grad_norm": 1.760924220085144,
      "learning_rate": 3.809175844319084e-05,
      "loss": 3.4131,
      "step": 369130
    },
    {
      "epoch": 0.7690416666666666,
      "grad_norm": 1.6865414381027222,
      "learning_rate": 3.808519402744326e-05,
      "loss": 3.5505,
      "step": 369140
    },
    {
      "epoch": 0.7690625,
      "grad_norm": 1.8333041667938232,
      "learning_rate": 3.8078630095123244e-05,
      "loss": 3.5394,
      "step": 369150
    },
    {
      "epoch": 0.7690833333333333,
      "grad_norm": 2.041391611099243,
      "learning_rate": 3.807206664625934e-05,
      "loss": 3.4091,
      "step": 369160
    },
    {
      "epoch": 0.7691041666666667,
      "grad_norm": 1.795627474784851,
      "learning_rate": 3.8065503680879755e-05,
      "loss": 3.4481,
      "step": 369170
    },
    {
      "epoch": 0.769125,
      "grad_norm": 1.8864173889160156,
      "learning_rate": 3.805894119901285e-05,
      "loss": 3.4548,
      "step": 369180
    },
    {
      "epoch": 0.7691458333333333,
      "grad_norm": 1.7966619729995728,
      "learning_rate": 3.805237920068708e-05,
      "loss": 3.474,
      "step": 369190
    },
    {
      "epoch": 0.7691666666666667,
      "grad_norm": 1.6881228685379028,
      "learning_rate": 3.8045817685930703e-05,
      "loss": 3.4128,
      "step": 369200
    },
    {
      "epoch": 0.7691875,
      "grad_norm": 1.713823676109314,
      "learning_rate": 3.803925665477205e-05,
      "loss": 3.5046,
      "step": 369210
    },
    {
      "epoch": 0.7692083333333334,
      "grad_norm": 1.5193792581558228,
      "learning_rate": 3.8032696107239516e-05,
      "loss": 3.5607,
      "step": 369220
    },
    {
      "epoch": 0.7692291666666666,
      "grad_norm": 1.8595876693725586,
      "learning_rate": 3.80261360433614e-05,
      "loss": 3.3842,
      "step": 369230
    },
    {
      "epoch": 0.76925,
      "grad_norm": 1.5322027206420898,
      "learning_rate": 3.801957646316605e-05,
      "loss": 3.3651,
      "step": 369240
    },
    {
      "epoch": 0.7692708333333333,
      "grad_norm": 1.8202265501022339,
      "learning_rate": 3.801301736668182e-05,
      "loss": 3.4152,
      "step": 369250
    },
    {
      "epoch": 0.7692916666666667,
      "grad_norm": 1.4809080362319946,
      "learning_rate": 3.800645875393702e-05,
      "loss": 3.3999,
      "step": 369260
    },
    {
      "epoch": 0.7693125,
      "grad_norm": 1.507333517074585,
      "learning_rate": 3.799990062495999e-05,
      "loss": 3.5024,
      "step": 369270
    },
    {
      "epoch": 0.7693333333333333,
      "grad_norm": 1.4760494232177734,
      "learning_rate": 3.799334297977906e-05,
      "loss": 3.468,
      "step": 369280
    },
    {
      "epoch": 0.7693541666666667,
      "grad_norm": 1.833622694015503,
      "learning_rate": 3.798678581842255e-05,
      "loss": 3.3829,
      "step": 369290
    },
    {
      "epoch": 0.769375,
      "grad_norm": 1.4638302326202393,
      "learning_rate": 3.798022914091878e-05,
      "loss": 3.4807,
      "step": 369300
    },
    {
      "epoch": 0.7693958333333333,
      "grad_norm": 1.4492969512939453,
      "learning_rate": 3.7973672947296083e-05,
      "loss": 3.5107,
      "step": 369310
    },
    {
      "epoch": 0.7694166666666666,
      "grad_norm": 1.5612512826919556,
      "learning_rate": 3.7967117237582785e-05,
      "loss": 3.4096,
      "step": 369320
    },
    {
      "epoch": 0.7694375,
      "grad_norm": 1.9076796770095825,
      "learning_rate": 3.796056201180719e-05,
      "loss": 3.4239,
      "step": 369330
    },
    {
      "epoch": 0.7694583333333334,
      "grad_norm": 1.5458741188049316,
      "learning_rate": 3.795400726999761e-05,
      "loss": 3.4803,
      "step": 369340
    },
    {
      "epoch": 0.7694791666666667,
      "grad_norm": 1.8440687656402588,
      "learning_rate": 3.794745301218238e-05,
      "loss": 3.511,
      "step": 369350
    },
    {
      "epoch": 0.7695,
      "grad_norm": 1.377645492553711,
      "learning_rate": 3.7940899238389785e-05,
      "loss": 3.3574,
      "step": 369360
    },
    {
      "epoch": 0.7695208333333333,
      "grad_norm": 1.564058780670166,
      "learning_rate": 3.793434594864815e-05,
      "loss": 3.5419,
      "step": 369370
    },
    {
      "epoch": 0.7695416666666667,
      "grad_norm": 1.7519017457962036,
      "learning_rate": 3.79277931429858e-05,
      "loss": 3.6907,
      "step": 369380
    },
    {
      "epoch": 0.7695625,
      "grad_norm": 1.5002009868621826,
      "learning_rate": 3.792124082143105e-05,
      "loss": 3.4205,
      "step": 369390
    },
    {
      "epoch": 0.7695833333333333,
      "grad_norm": 1.7469971179962158,
      "learning_rate": 3.7914688984012105e-05,
      "loss": 3.4764,
      "step": 369400
    },
    {
      "epoch": 0.7696041666666666,
      "grad_norm": 1.4374892711639404,
      "learning_rate": 3.790813763075736e-05,
      "loss": 3.4762,
      "step": 369410
    },
    {
      "epoch": 0.769625,
      "grad_norm": 1.4532397985458374,
      "learning_rate": 3.790158676169514e-05,
      "loss": 3.5037,
      "step": 369420
    },
    {
      "epoch": 0.7696458333333334,
      "grad_norm": 1.8719137907028198,
      "learning_rate": 3.789503637685362e-05,
      "loss": 3.5038,
      "step": 369430
    },
    {
      "epoch": 0.7696666666666667,
      "grad_norm": 1.5333611965179443,
      "learning_rate": 3.78884864762612e-05,
      "loss": 3.4789,
      "step": 369440
    },
    {
      "epoch": 0.7696875,
      "grad_norm": 1.5470902919769287,
      "learning_rate": 3.78819370599462e-05,
      "loss": 3.5012,
      "step": 369450
    },
    {
      "epoch": 0.7697083333333333,
      "grad_norm": 1.5496783256530762,
      "learning_rate": 3.7875388127936744e-05,
      "loss": 3.487,
      "step": 369460
    },
    {
      "epoch": 0.7697291666666667,
      "grad_norm": 1.5982348918914795,
      "learning_rate": 3.786883968026128e-05,
      "loss": 3.4702,
      "step": 369470
    },
    {
      "epoch": 0.76975,
      "grad_norm": 1.7336125373840332,
      "learning_rate": 3.78622917169481e-05,
      "loss": 3.3878,
      "step": 369480
    },
    {
      "epoch": 0.7697708333333333,
      "grad_norm": 1.4443942308425903,
      "learning_rate": 3.7855744238025384e-05,
      "loss": 3.4335,
      "step": 369490
    },
    {
      "epoch": 0.7697916666666667,
      "grad_norm": 1.709032654762268,
      "learning_rate": 3.78491972435214e-05,
      "loss": 3.4328,
      "step": 369500
    },
    {
      "epoch": 0.7698125,
      "grad_norm": 1.5573631525039673,
      "learning_rate": 3.7842650733464605e-05,
      "loss": 3.2759,
      "step": 369510
    },
    {
      "epoch": 0.7698333333333334,
      "grad_norm": 1.5226895809173584,
      "learning_rate": 3.78361047078831e-05,
      "loss": 3.332,
      "step": 369520
    },
    {
      "epoch": 0.7698541666666666,
      "grad_norm": 1.6408278942108154,
      "learning_rate": 3.7829559166805245e-05,
      "loss": 3.5021,
      "step": 369530
    },
    {
      "epoch": 0.769875,
      "grad_norm": 1.4600913524627686,
      "learning_rate": 3.782301411025927e-05,
      "loss": 3.4149,
      "step": 369540
    },
    {
      "epoch": 0.7698958333333333,
      "grad_norm": 1.7036279439926147,
      "learning_rate": 3.7816469538273495e-05,
      "loss": 3.3904,
      "step": 369550
    },
    {
      "epoch": 0.7699166666666667,
      "grad_norm": 1.641823649406433,
      "learning_rate": 3.780992545087615e-05,
      "loss": 3.3023,
      "step": 369560
    },
    {
      "epoch": 0.7699375,
      "grad_norm": 1.4603558778762817,
      "learning_rate": 3.7803381848095526e-05,
      "loss": 3.3894,
      "step": 369570
    },
    {
      "epoch": 0.7699583333333333,
      "grad_norm": 1.7018797397613525,
      "learning_rate": 3.779683872995989e-05,
      "loss": 3.4782,
      "step": 369580
    },
    {
      "epoch": 0.7699791666666667,
      "grad_norm": 1.753425121307373,
      "learning_rate": 3.779029609649749e-05,
      "loss": 3.3321,
      "step": 369590
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6317496299743652,
      "learning_rate": 3.778375394773658e-05,
      "loss": 3.5213,
      "step": 369600
    },
    {
      "epoch": 0.7700208333333334,
      "grad_norm": 1.6632553339004517,
      "learning_rate": 3.777721228370546e-05,
      "loss": 3.4289,
      "step": 369610
    },
    {
      "epoch": 0.7700416666666666,
      "grad_norm": 1.4490392208099365,
      "learning_rate": 3.777067110443234e-05,
      "loss": 3.3343,
      "step": 369620
    },
    {
      "epoch": 0.7700625,
      "grad_norm": 1.7369474172592163,
      "learning_rate": 3.7764130409945503e-05,
      "loss": 3.4932,
      "step": 369630
    },
    {
      "epoch": 0.7700833333333333,
      "grad_norm": 1.4675931930541992,
      "learning_rate": 3.77575902002732e-05,
      "loss": 3.7111,
      "step": 369640
    },
    {
      "epoch": 0.7701041666666667,
      "grad_norm": 1.6296184062957764,
      "learning_rate": 3.775105047544368e-05,
      "loss": 3.435,
      "step": 369650
    },
    {
      "epoch": 0.770125,
      "grad_norm": 1.6668827533721924,
      "learning_rate": 3.774451123548521e-05,
      "loss": 3.395,
      "step": 369660
    },
    {
      "epoch": 0.7701458333333333,
      "grad_norm": 1.7023764848709106,
      "learning_rate": 3.773797248042599e-05,
      "loss": 3.4249,
      "step": 369670
    },
    {
      "epoch": 0.7701666666666667,
      "grad_norm": 1.6795746088027954,
      "learning_rate": 3.7731434210294295e-05,
      "loss": 3.3202,
      "step": 369680
    },
    {
      "epoch": 0.7701875,
      "grad_norm": 1.6032041311264038,
      "learning_rate": 3.772489642511839e-05,
      "loss": 3.4715,
      "step": 369690
    },
    {
      "epoch": 0.7702083333333334,
      "grad_norm": 1.417676568031311,
      "learning_rate": 3.771835912492646e-05,
      "loss": 3.4806,
      "step": 369700
    },
    {
      "epoch": 0.7702291666666666,
      "grad_norm": 1.7527714967727661,
      "learning_rate": 3.771182230974679e-05,
      "loss": 3.5625,
      "step": 369710
    },
    {
      "epoch": 0.77025,
      "grad_norm": 1.661161184310913,
      "learning_rate": 3.770528597960759e-05,
      "loss": 3.3415,
      "step": 369720
    },
    {
      "epoch": 0.7702708333333333,
      "grad_norm": 1.513901948928833,
      "learning_rate": 3.769875013453711e-05,
      "loss": 3.4464,
      "step": 369730
    },
    {
      "epoch": 0.7702916666666667,
      "grad_norm": 1.41499924659729,
      "learning_rate": 3.769221477456359e-05,
      "loss": 3.3255,
      "step": 369740
    },
    {
      "epoch": 0.7703125,
      "grad_norm": 1.5628931522369385,
      "learning_rate": 3.768567989971524e-05,
      "loss": 3.3053,
      "step": 369750
    },
    {
      "epoch": 0.7703333333333333,
      "grad_norm": 1.9497790336608887,
      "learning_rate": 3.767914551002029e-05,
      "loss": 3.3962,
      "step": 369760
    },
    {
      "epoch": 0.7703541666666667,
      "grad_norm": 1.6317230463027954,
      "learning_rate": 3.7672611605506984e-05,
      "loss": 3.4366,
      "step": 369770
    },
    {
      "epoch": 0.770375,
      "grad_norm": 1.4751801490783691,
      "learning_rate": 3.766607818620351e-05,
      "loss": 3.4235,
      "step": 369780
    },
    {
      "epoch": 0.7703958333333333,
      "grad_norm": 1.6114757061004639,
      "learning_rate": 3.765954525213818e-05,
      "loss": 3.3922,
      "step": 369790
    },
    {
      "epoch": 0.7704166666666666,
      "grad_norm": 1.7403740882873535,
      "learning_rate": 3.765301280333909e-05,
      "loss": 3.4775,
      "step": 369800
    },
    {
      "epoch": 0.7704375,
      "grad_norm": 1.752300500869751,
      "learning_rate": 3.764648083983447e-05,
      "loss": 3.4253,
      "step": 369810
    },
    {
      "epoch": 0.7704583333333334,
      "grad_norm": 1.491475224494934,
      "learning_rate": 3.763994936165268e-05,
      "loss": 3.4745,
      "step": 369820
    },
    {
      "epoch": 0.7704791666666667,
      "grad_norm": 1.5816043615341187,
      "learning_rate": 3.763341836882179e-05,
      "loss": 3.4247,
      "step": 369830
    },
    {
      "epoch": 0.7705,
      "grad_norm": 1.538493037223816,
      "learning_rate": 3.762688786137e-05,
      "loss": 3.3651,
      "step": 369840
    },
    {
      "epoch": 0.7705208333333333,
      "grad_norm": 1.827038288116455,
      "learning_rate": 3.762035783932567e-05,
      "loss": 3.4648,
      "step": 369850
    },
    {
      "epoch": 0.7705416666666667,
      "grad_norm": 1.686070203781128,
      "learning_rate": 3.7613828302716855e-05,
      "loss": 3.4083,
      "step": 369860
    },
    {
      "epoch": 0.7705625,
      "grad_norm": 1.7287662029266357,
      "learning_rate": 3.7607299251571786e-05,
      "loss": 3.3778,
      "step": 369870
    },
    {
      "epoch": 0.7705833333333333,
      "grad_norm": 1.9257893562316895,
      "learning_rate": 3.760077068591878e-05,
      "loss": 3.4089,
      "step": 369880
    },
    {
      "epoch": 0.7706041666666666,
      "grad_norm": 1.6916321516036987,
      "learning_rate": 3.7594242605785904e-05,
      "loss": 3.5052,
      "step": 369890
    },
    {
      "epoch": 0.770625,
      "grad_norm": 1.7037353515625,
      "learning_rate": 3.758771501120138e-05,
      "loss": 3.4871,
      "step": 369900
    },
    {
      "epoch": 0.7706458333333334,
      "grad_norm": 1.8223944902420044,
      "learning_rate": 3.75811879021935e-05,
      "loss": 3.4003,
      "step": 369910
    },
    {
      "epoch": 0.7706666666666667,
      "grad_norm": 1.5828206539154053,
      "learning_rate": 3.7574661278790355e-05,
      "loss": 3.5178,
      "step": 369920
    },
    {
      "epoch": 0.7706875,
      "grad_norm": 1.6192419528961182,
      "learning_rate": 3.756813514102017e-05,
      "loss": 3.4326,
      "step": 369930
    },
    {
      "epoch": 0.7707083333333333,
      "grad_norm": 1.6192753314971924,
      "learning_rate": 3.756160948891114e-05,
      "loss": 3.4543,
      "step": 369940
    },
    {
      "epoch": 0.7707291666666667,
      "grad_norm": 1.4911688566207886,
      "learning_rate": 3.755508432249145e-05,
      "loss": 3.4745,
      "step": 369950
    },
    {
      "epoch": 0.77075,
      "grad_norm": 1.5096628665924072,
      "learning_rate": 3.754855964178927e-05,
      "loss": 3.4602,
      "step": 369960
    },
    {
      "epoch": 0.7707708333333333,
      "grad_norm": 1.528157114982605,
      "learning_rate": 3.754203544683283e-05,
      "loss": 3.4793,
      "step": 369970
    },
    {
      "epoch": 0.7707916666666667,
      "grad_norm": 1.712611436843872,
      "learning_rate": 3.753551173765027e-05,
      "loss": 3.4263,
      "step": 369980
    },
    {
      "epoch": 0.7708125,
      "grad_norm": 1.7775684595108032,
      "learning_rate": 3.752898851426977e-05,
      "loss": 3.3759,
      "step": 369990
    },
    {
      "epoch": 0.7708333333333334,
      "grad_norm": 1.5742267370224,
      "learning_rate": 3.752246577671953e-05,
      "loss": 3.2523,
      "step": 370000
    },
    {
      "epoch": 0.7708333333333334,
      "eval_loss": 3.5302135944366455,
      "eval_runtime": 7.3312,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 370000
    },
    {
      "epoch": 0.7708541666666666,
      "grad_norm": 1.5558089017868042,
      "learning_rate": 3.7515943525027737e-05,
      "loss": 3.5537,
      "step": 370010
    },
    {
      "epoch": 0.770875,
      "grad_norm": 1.8683359622955322,
      "learning_rate": 3.750942175922252e-05,
      "loss": 3.4073,
      "step": 370020
    },
    {
      "epoch": 0.7708958333333333,
      "grad_norm": 1.7626621723175049,
      "learning_rate": 3.750290047933208e-05,
      "loss": 3.4276,
      "step": 370030
    },
    {
      "epoch": 0.7709166666666667,
      "grad_norm": 2.069653272628784,
      "learning_rate": 3.749637968538457e-05,
      "loss": 3.3085,
      "step": 370040
    },
    {
      "epoch": 0.7709375,
      "grad_norm": 1.4393736124038696,
      "learning_rate": 3.748985937740819e-05,
      "loss": 3.3321,
      "step": 370050
    },
    {
      "epoch": 0.7709583333333333,
      "grad_norm": 1.9038066864013672,
      "learning_rate": 3.7483339555431055e-05,
      "loss": 3.5385,
      "step": 370060
    },
    {
      "epoch": 0.7709791666666667,
      "grad_norm": 1.502416729927063,
      "learning_rate": 3.747682021948139e-05,
      "loss": 3.4516,
      "step": 370070
    },
    {
      "epoch": 0.771,
      "grad_norm": 1.817134141921997,
      "learning_rate": 3.747030136958734e-05,
      "loss": 3.4338,
      "step": 370080
    },
    {
      "epoch": 0.7710208333333334,
      "grad_norm": 1.5911502838134766,
      "learning_rate": 3.7463783005776974e-05,
      "loss": 3.5239,
      "step": 370090
    },
    {
      "epoch": 0.7710416666666666,
      "grad_norm": 1.5502519607543945,
      "learning_rate": 3.745726512807854e-05,
      "loss": 3.5133,
      "step": 370100
    },
    {
      "epoch": 0.7710625,
      "grad_norm": 1.5425316095352173,
      "learning_rate": 3.745074773652024e-05,
      "loss": 3.3518,
      "step": 370110
    },
    {
      "epoch": 0.7710833333333333,
      "grad_norm": 1.977820634841919,
      "learning_rate": 3.744423083113006e-05,
      "loss": 3.5217,
      "step": 370120
    },
    {
      "epoch": 0.7711041666666667,
      "grad_norm": 1.5913687944412231,
      "learning_rate": 3.743771441193631e-05,
      "loss": 3.485,
      "step": 370130
    },
    {
      "epoch": 0.771125,
      "grad_norm": 2.1270594596862793,
      "learning_rate": 3.743119847896711e-05,
      "loss": 3.3533,
      "step": 370140
    },
    {
      "epoch": 0.7711458333333333,
      "grad_norm": 1.437933325767517,
      "learning_rate": 3.7424683032250476e-05,
      "loss": 3.4171,
      "step": 370150
    },
    {
      "epoch": 0.7711666666666667,
      "grad_norm": 1.651277780532837,
      "learning_rate": 3.741816807181476e-05,
      "loss": 3.6743,
      "step": 370160
    },
    {
      "epoch": 0.7711875,
      "grad_norm": 1.683181643486023,
      "learning_rate": 3.741165359768793e-05,
      "loss": 3.4991,
      "step": 370170
    },
    {
      "epoch": 0.7712083333333334,
      "grad_norm": 1.6351209878921509,
      "learning_rate": 3.7405139609898164e-05,
      "loss": 3.3795,
      "step": 370180
    },
    {
      "epoch": 0.7712291666666666,
      "grad_norm": 1.7190320491790771,
      "learning_rate": 3.739862610847371e-05,
      "loss": 3.3221,
      "step": 370190
    },
    {
      "epoch": 0.77125,
      "grad_norm": 1.6456708908081055,
      "learning_rate": 3.739211309344258e-05,
      "loss": 3.3568,
      "step": 370200
    },
    {
      "epoch": 0.7712708333333333,
      "grad_norm": 1.400226354598999,
      "learning_rate": 3.7385600564832906e-05,
      "loss": 3.5228,
      "step": 370210
    },
    {
      "epoch": 0.7712916666666667,
      "grad_norm": 1.7730451822280884,
      "learning_rate": 3.737908852267293e-05,
      "loss": 3.4452,
      "step": 370220
    },
    {
      "epoch": 0.7713125,
      "grad_norm": 1.8334250450134277,
      "learning_rate": 3.737257696699069e-05,
      "loss": 3.4603,
      "step": 370230
    },
    {
      "epoch": 0.7713333333333333,
      "grad_norm": 1.5026315450668335,
      "learning_rate": 3.736606589781429e-05,
      "loss": 3.3454,
      "step": 370240
    },
    {
      "epoch": 0.7713541666666667,
      "grad_norm": 2.3767266273498535,
      "learning_rate": 3.7359555315171985e-05,
      "loss": 3.5962,
      "step": 370250
    },
    {
      "epoch": 0.771375,
      "grad_norm": 1.5583161115646362,
      "learning_rate": 3.735304521909177e-05,
      "loss": 3.4082,
      "step": 370260
    },
    {
      "epoch": 0.7713958333333333,
      "grad_norm": 1.9920318126678467,
      "learning_rate": 3.734653560960176e-05,
      "loss": 3.5222,
      "step": 370270
    },
    {
      "epoch": 0.7714166666666666,
      "grad_norm": 1.538126826286316,
      "learning_rate": 3.734002648673023e-05,
      "loss": 3.475,
      "step": 370280
    },
    {
      "epoch": 0.7714375,
      "grad_norm": 1.702913522720337,
      "learning_rate": 3.733351785050513e-05,
      "loss": 3.379,
      "step": 370290
    },
    {
      "epoch": 0.7714583333333334,
      "grad_norm": 1.6833908557891846,
      "learning_rate": 3.732700970095465e-05,
      "loss": 3.2875,
      "step": 370300
    },
    {
      "epoch": 0.7714791666666667,
      "grad_norm": 1.8498507738113403,
      "learning_rate": 3.732050203810689e-05,
      "loss": 3.4628,
      "step": 370310
    },
    {
      "epoch": 0.7715,
      "grad_norm": 1.5389269590377808,
      "learning_rate": 3.731399486198994e-05,
      "loss": 3.4177,
      "step": 370320
    },
    {
      "epoch": 0.7715208333333333,
      "grad_norm": 1.651963233947754,
      "learning_rate": 3.730748817263195e-05,
      "loss": 3.4504,
      "step": 370330
    },
    {
      "epoch": 0.7715416666666667,
      "grad_norm": 1.8136963844299316,
      "learning_rate": 3.730098197006098e-05,
      "loss": 3.4873,
      "step": 370340
    },
    {
      "epoch": 0.7715625,
      "grad_norm": 1.4214317798614502,
      "learning_rate": 3.729447625430519e-05,
      "loss": 3.5748,
      "step": 370350
    },
    {
      "epoch": 0.7715833333333333,
      "grad_norm": 1.5165367126464844,
      "learning_rate": 3.7287971025392625e-05,
      "loss": 3.4754,
      "step": 370360
    },
    {
      "epoch": 0.7716041666666666,
      "grad_norm": 1.8849542140960693,
      "learning_rate": 3.7281466283351426e-05,
      "loss": 3.4476,
      "step": 370370
    },
    {
      "epoch": 0.771625,
      "grad_norm": 1.7973618507385254,
      "learning_rate": 3.7274962028209674e-05,
      "loss": 3.5152,
      "step": 370380
    },
    {
      "epoch": 0.7716458333333334,
      "grad_norm": 1.5201066732406616,
      "learning_rate": 3.726845825999551e-05,
      "loss": 3.3694,
      "step": 370390
    },
    {
      "epoch": 0.7716666666666666,
      "grad_norm": 1.457456350326538,
      "learning_rate": 3.7261954978736885e-05,
      "loss": 3.4141,
      "step": 370400
    },
    {
      "epoch": 0.7716875,
      "grad_norm": 1.6518360376358032,
      "learning_rate": 3.725545218446205e-05,
      "loss": 3.3763,
      "step": 370410
    },
    {
      "epoch": 0.7717083333333333,
      "grad_norm": 1.4428199529647827,
      "learning_rate": 3.724894987719906e-05,
      "loss": 3.5016,
      "step": 370420
    },
    {
      "epoch": 0.7717291666666667,
      "grad_norm": 1.567664384841919,
      "learning_rate": 3.7242448056975894e-05,
      "loss": 3.4091,
      "step": 370430
    },
    {
      "epoch": 0.77175,
      "grad_norm": 1.5036025047302246,
      "learning_rate": 3.723594672382076e-05,
      "loss": 3.4889,
      "step": 370440
    },
    {
      "epoch": 0.7717708333333333,
      "grad_norm": 1.6604101657867432,
      "learning_rate": 3.722944587776177e-05,
      "loss": 3.5139,
      "step": 370450
    },
    {
      "epoch": 0.7717916666666667,
      "grad_norm": 1.5640389919281006,
      "learning_rate": 3.7222945518826825e-05,
      "loss": 3.4126,
      "step": 370460
    },
    {
      "epoch": 0.7718125,
      "grad_norm": 1.5313104391098022,
      "learning_rate": 3.721644564704417e-05,
      "loss": 3.3897,
      "step": 370470
    },
    {
      "epoch": 0.7718333333333334,
      "grad_norm": 1.5694053173065186,
      "learning_rate": 3.720994626244186e-05,
      "loss": 3.4262,
      "step": 370480
    },
    {
      "epoch": 0.7718541666666666,
      "grad_norm": 1.6762007474899292,
      "learning_rate": 3.7203447365047855e-05,
      "loss": 3.7008,
      "step": 370490
    },
    {
      "epoch": 0.771875,
      "grad_norm": 1.6593950986862183,
      "learning_rate": 3.7196948954890356e-05,
      "loss": 3.4086,
      "step": 370500
    },
    {
      "epoch": 0.7718958333333333,
      "grad_norm": 1.7492501735687256,
      "learning_rate": 3.719045103199743e-05,
      "loss": 3.305,
      "step": 370510
    },
    {
      "epoch": 0.7719166666666667,
      "grad_norm": 1.5942354202270508,
      "learning_rate": 3.7183953596397016e-05,
      "loss": 3.3338,
      "step": 370520
    },
    {
      "epoch": 0.7719375,
      "grad_norm": 1.576828122138977,
      "learning_rate": 3.717745664811735e-05,
      "loss": 3.5035,
      "step": 370530
    },
    {
      "epoch": 0.7719583333333333,
      "grad_norm": 1.5403460264205933,
      "learning_rate": 3.717096018718636e-05,
      "loss": 3.5988,
      "step": 370540
    },
    {
      "epoch": 0.7719791666666667,
      "grad_norm": 1.5079586505889893,
      "learning_rate": 3.7164464213632126e-05,
      "loss": 3.3689,
      "step": 370550
    },
    {
      "epoch": 0.772,
      "grad_norm": 1.614728331565857,
      "learning_rate": 3.715796872748283e-05,
      "loss": 3.4072,
      "step": 370560
    },
    {
      "epoch": 0.7720208333333334,
      "grad_norm": 1.4653805494308472,
      "learning_rate": 3.7151473728766403e-05,
      "loss": 3.4555,
      "step": 370570
    },
    {
      "epoch": 0.7720416666666666,
      "grad_norm": 1.6272411346435547,
      "learning_rate": 3.7144979217510905e-05,
      "loss": 3.3475,
      "step": 370580
    },
    {
      "epoch": 0.7720625,
      "grad_norm": 1.893694281578064,
      "learning_rate": 3.7138485193744505e-05,
      "loss": 3.4547,
      "step": 370590
    },
    {
      "epoch": 0.7720833333333333,
      "grad_norm": 1.6038129329681396,
      "learning_rate": 3.713199165749513e-05,
      "loss": 3.3737,
      "step": 370600
    },
    {
      "epoch": 0.7721041666666667,
      "grad_norm": 1.4685817956924438,
      "learning_rate": 3.7125498608790826e-05,
      "loss": 3.4098,
      "step": 370610
    },
    {
      "epoch": 0.772125,
      "grad_norm": 1.6538307666778564,
      "learning_rate": 3.711900604765979e-05,
      "loss": 3.5827,
      "step": 370620
    },
    {
      "epoch": 0.7721458333333333,
      "grad_norm": 1.4925651550292969,
      "learning_rate": 3.711251397412991e-05,
      "loss": 3.4005,
      "step": 370630
    },
    {
      "epoch": 0.7721666666666667,
      "grad_norm": 1.72743558883667,
      "learning_rate": 3.710602238822925e-05,
      "loss": 3.4473,
      "step": 370640
    },
    {
      "epoch": 0.7721875,
      "grad_norm": 1.503840684890747,
      "learning_rate": 3.7099531289985976e-05,
      "loss": 3.4772,
      "step": 370650
    },
    {
      "epoch": 0.7722083333333334,
      "grad_norm": 1.4188902378082275,
      "learning_rate": 3.7093040679427985e-05,
      "loss": 3.3233,
      "step": 370660
    },
    {
      "epoch": 0.7722291666666666,
      "grad_norm": 1.5873172283172607,
      "learning_rate": 3.708655055658337e-05,
      "loss": 3.3438,
      "step": 370670
    },
    {
      "epoch": 0.77225,
      "grad_norm": 1.6366225481033325,
      "learning_rate": 3.708006092148015e-05,
      "loss": 3.4724,
      "step": 370680
    },
    {
      "epoch": 0.7722708333333334,
      "grad_norm": 1.618024468421936,
      "learning_rate": 3.70735717741464e-05,
      "loss": 3.3712,
      "step": 370690
    },
    {
      "epoch": 0.7722916666666667,
      "grad_norm": 1.6006275415420532,
      "learning_rate": 3.70670831146101e-05,
      "loss": 3.4367,
      "step": 370700
    },
    {
      "epoch": 0.7723125,
      "grad_norm": 1.7537790536880493,
      "learning_rate": 3.706059494289929e-05,
      "loss": 3.4638,
      "step": 370710
    },
    {
      "epoch": 0.7723333333333333,
      "grad_norm": 1.5640537738800049,
      "learning_rate": 3.705410725904202e-05,
      "loss": 3.4496,
      "step": 370720
    },
    {
      "epoch": 0.7723541666666667,
      "grad_norm": 1.6099426746368408,
      "learning_rate": 3.70476200630663e-05,
      "loss": 3.4544,
      "step": 370730
    },
    {
      "epoch": 0.772375,
      "grad_norm": 1.6038274765014648,
      "learning_rate": 3.7041133355000145e-05,
      "loss": 3.3864,
      "step": 370740
    },
    {
      "epoch": 0.7723958333333333,
      "grad_norm": 1.4811598062515259,
      "learning_rate": 3.70346471348716e-05,
      "loss": 3.4097,
      "step": 370750
    },
    {
      "epoch": 0.7724166666666666,
      "grad_norm": 1.724421739578247,
      "learning_rate": 3.702816140270865e-05,
      "loss": 3.3893,
      "step": 370760
    },
    {
      "epoch": 0.7724375,
      "grad_norm": 1.5524367094039917,
      "learning_rate": 3.702167615853931e-05,
      "loss": 3.3846,
      "step": 370770
    },
    {
      "epoch": 0.7724583333333334,
      "grad_norm": 1.5869052410125732,
      "learning_rate": 3.7015191402391634e-05,
      "loss": 3.4966,
      "step": 370780
    },
    {
      "epoch": 0.7724791666666667,
      "grad_norm": 1.8710957765579224,
      "learning_rate": 3.700870713429364e-05,
      "loss": 3.5079,
      "step": 370790
    },
    {
      "epoch": 0.7725,
      "grad_norm": 1.6957345008850098,
      "learning_rate": 3.700222335427322e-05,
      "loss": 3.4228,
      "step": 370800
    },
    {
      "epoch": 0.7725208333333333,
      "grad_norm": 2.2041096687316895,
      "learning_rate": 3.6995740062358516e-05,
      "loss": 3.491,
      "step": 370810
    },
    {
      "epoch": 0.7725416666666667,
      "grad_norm": 1.779604196548462,
      "learning_rate": 3.698925725857752e-05,
      "loss": 3.3963,
      "step": 370820
    },
    {
      "epoch": 0.7725625,
      "grad_norm": 1.5796840190887451,
      "learning_rate": 3.6982774942958124e-05,
      "loss": 3.5438,
      "step": 370830
    },
    {
      "epoch": 0.7725833333333333,
      "grad_norm": 1.6295723915100098,
      "learning_rate": 3.6976293115528444e-05,
      "loss": 3.5024,
      "step": 370840
    },
    {
      "epoch": 0.7726041666666666,
      "grad_norm": 1.9268498420715332,
      "learning_rate": 3.696981177631648e-05,
      "loss": 3.3461,
      "step": 370850
    },
    {
      "epoch": 0.772625,
      "grad_norm": 2.0671353340148926,
      "learning_rate": 3.6963330925350096e-05,
      "loss": 3.486,
      "step": 370860
    },
    {
      "epoch": 0.7726458333333334,
      "grad_norm": 1.725796103477478,
      "learning_rate": 3.695685056265744e-05,
      "loss": 3.5071,
      "step": 370870
    },
    {
      "epoch": 0.7726666666666666,
      "grad_norm": 1.7224241495132446,
      "learning_rate": 3.695037068826647e-05,
      "loss": 3.3848,
      "step": 370880
    },
    {
      "epoch": 0.7726875,
      "grad_norm": 1.7784992456436157,
      "learning_rate": 3.6943891302205085e-05,
      "loss": 3.3821,
      "step": 370890
    },
    {
      "epoch": 0.7727083333333333,
      "grad_norm": 1.530576229095459,
      "learning_rate": 3.6937412404501407e-05,
      "loss": 3.3545,
      "step": 370900
    },
    {
      "epoch": 0.7727291666666667,
      "grad_norm": 1.4685667753219604,
      "learning_rate": 3.693093399518332e-05,
      "loss": 3.4638,
      "step": 370910
    },
    {
      "epoch": 0.77275,
      "grad_norm": 1.509885549545288,
      "learning_rate": 3.6924456074278794e-05,
      "loss": 3.339,
      "step": 370920
    },
    {
      "epoch": 0.7727708333333333,
      "grad_norm": 1.76423978805542,
      "learning_rate": 3.691797864181594e-05,
      "loss": 3.4499,
      "step": 370930
    },
    {
      "epoch": 0.7727916666666667,
      "grad_norm": 1.5954419374465942,
      "learning_rate": 3.691150169782262e-05,
      "loss": 3.5832,
      "step": 370940
    },
    {
      "epoch": 0.7728125,
      "grad_norm": 1.7291923761367798,
      "learning_rate": 3.690502524232686e-05,
      "loss": 3.3632,
      "step": 370950
    },
    {
      "epoch": 0.7728333333333334,
      "grad_norm": 1.6514527797698975,
      "learning_rate": 3.6898549275356615e-05,
      "loss": 3.5172,
      "step": 370960
    },
    {
      "epoch": 0.7728541666666666,
      "grad_norm": 1.6590391397476196,
      "learning_rate": 3.689207379693987e-05,
      "loss": 3.5383,
      "step": 370970
    },
    {
      "epoch": 0.772875,
      "grad_norm": 1.7153159379959106,
      "learning_rate": 3.6885598807104586e-05,
      "loss": 3.4389,
      "step": 370980
    },
    {
      "epoch": 0.7728958333333333,
      "grad_norm": 1.5641319751739502,
      "learning_rate": 3.687912430587875e-05,
      "loss": 3.5372,
      "step": 370990
    },
    {
      "epoch": 0.7729166666666667,
      "grad_norm": 1.4835642576217651,
      "learning_rate": 3.687265029329033e-05,
      "loss": 3.4594,
      "step": 371000
    },
    {
      "epoch": 0.7729166666666667,
      "eval_loss": 3.5330328941345215,
      "eval_runtime": 7.2981,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 371000
    },
    {
      "epoch": 0.7729375,
      "grad_norm": 1.5416702032089233,
      "learning_rate": 3.686617676936727e-05,
      "loss": 3.3376,
      "step": 371010
    },
    {
      "epoch": 0.7729583333333333,
      "grad_norm": 1.7146830558776855,
      "learning_rate": 3.685970373413754e-05,
      "loss": 3.4225,
      "step": 371020
    },
    {
      "epoch": 0.7729791666666667,
      "grad_norm": 1.4362115859985352,
      "learning_rate": 3.6853231187629114e-05,
      "loss": 3.5329,
      "step": 371030
    },
    {
      "epoch": 0.773,
      "grad_norm": 1.5777802467346191,
      "learning_rate": 3.684675912986994e-05,
      "loss": 3.4737,
      "step": 371040
    },
    {
      "epoch": 0.7730208333333334,
      "grad_norm": 1.4861356019973755,
      "learning_rate": 3.684028756088797e-05,
      "loss": 3.3987,
      "step": 371050
    },
    {
      "epoch": 0.7730416666666666,
      "grad_norm": 1.499815821647644,
      "learning_rate": 3.6833816480711184e-05,
      "loss": 3.5367,
      "step": 371060
    },
    {
      "epoch": 0.7730625,
      "grad_norm": 1.5300734043121338,
      "learning_rate": 3.68273458893675e-05,
      "loss": 3.35,
      "step": 371070
    },
    {
      "epoch": 0.7730833333333333,
      "grad_norm": 1.6615842580795288,
      "learning_rate": 3.6820875786884884e-05,
      "loss": 3.3639,
      "step": 371080
    },
    {
      "epoch": 0.7731041666666667,
      "grad_norm": 1.5492192506790161,
      "learning_rate": 3.68144061732913e-05,
      "loss": 3.5089,
      "step": 371090
    },
    {
      "epoch": 0.773125,
      "grad_norm": 1.6991252899169922,
      "learning_rate": 3.6807937048614675e-05,
      "loss": 3.6035,
      "step": 371100
    },
    {
      "epoch": 0.7731458333333333,
      "grad_norm": 1.536016583442688,
      "learning_rate": 3.6801468412882946e-05,
      "loss": 3.3884,
      "step": 371110
    },
    {
      "epoch": 0.7731666666666667,
      "grad_norm": 1.4725173711776733,
      "learning_rate": 3.679500026612408e-05,
      "loss": 3.4643,
      "step": 371120
    },
    {
      "epoch": 0.7731875,
      "grad_norm": 1.4766432046890259,
      "learning_rate": 3.678853260836601e-05,
      "loss": 3.4335,
      "step": 371130
    },
    {
      "epoch": 0.7732083333333334,
      "grad_norm": 1.6041868925094604,
      "learning_rate": 3.678206543963665e-05,
      "loss": 3.3843,
      "step": 371140
    },
    {
      "epoch": 0.7732291666666666,
      "grad_norm": 1.562648057937622,
      "learning_rate": 3.677559875996395e-05,
      "loss": 3.5508,
      "step": 371150
    },
    {
      "epoch": 0.77325,
      "grad_norm": 1.555141568183899,
      "learning_rate": 3.67691325693759e-05,
      "loss": 3.4501,
      "step": 371160
    },
    {
      "epoch": 0.7732708333333334,
      "grad_norm": 1.6119710206985474,
      "learning_rate": 3.6762666867900295e-05,
      "loss": 3.5078,
      "step": 371170
    },
    {
      "epoch": 0.7732916666666667,
      "grad_norm": 1.5269997119903564,
      "learning_rate": 3.675620165556518e-05,
      "loss": 3.286,
      "step": 371180
    },
    {
      "epoch": 0.7733125,
      "grad_norm": 1.5017333030700684,
      "learning_rate": 3.6749736932398496e-05,
      "loss": 3.4033,
      "step": 371190
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 1.6620643138885498,
      "learning_rate": 3.6743272698428024e-05,
      "loss": 3.3612,
      "step": 371200
    },
    {
      "epoch": 0.7733541666666667,
      "grad_norm": 1.576897144317627,
      "learning_rate": 3.673680895368185e-05,
      "loss": 3.3527,
      "step": 371210
    },
    {
      "epoch": 0.773375,
      "grad_norm": 1.6599180698394775,
      "learning_rate": 3.673034569818784e-05,
      "loss": 3.5151,
      "step": 371220
    },
    {
      "epoch": 0.7733958333333333,
      "grad_norm": 1.6941689252853394,
      "learning_rate": 3.672388293197384e-05,
      "loss": 3.4966,
      "step": 371230
    },
    {
      "epoch": 0.7734166666666666,
      "grad_norm": 1.531640648841858,
      "learning_rate": 3.671742065506786e-05,
      "loss": 3.3728,
      "step": 371240
    },
    {
      "epoch": 0.7734375,
      "grad_norm": 1.629990816116333,
      "learning_rate": 3.671095886749784e-05,
      "loss": 3.3413,
      "step": 371250
    },
    {
      "epoch": 0.7734583333333334,
      "grad_norm": 1.7993533611297607,
      "learning_rate": 3.670449756929158e-05,
      "loss": 3.4504,
      "step": 371260
    },
    {
      "epoch": 0.7734791666666667,
      "grad_norm": 2.0478737354278564,
      "learning_rate": 3.6698036760477e-05,
      "loss": 3.4279,
      "step": 371270
    },
    {
      "epoch": 0.7735,
      "grad_norm": 1.7383081912994385,
      "learning_rate": 3.669157644108214e-05,
      "loss": 3.3368,
      "step": 371280
    },
    {
      "epoch": 0.7735208333333333,
      "grad_norm": 1.565285563468933,
      "learning_rate": 3.668511661113478e-05,
      "loss": 3.3216,
      "step": 371290
    },
    {
      "epoch": 0.7735416666666667,
      "grad_norm": 1.5256110429763794,
      "learning_rate": 3.6678657270662853e-05,
      "loss": 3.465,
      "step": 371300
    },
    {
      "epoch": 0.7735625,
      "grad_norm": 1.6722065210342407,
      "learning_rate": 3.6672198419694294e-05,
      "loss": 3.5483,
      "step": 371310
    },
    {
      "epoch": 0.7735833333333333,
      "grad_norm": 1.4730154275894165,
      "learning_rate": 3.666574005825697e-05,
      "loss": 3.5049,
      "step": 371320
    },
    {
      "epoch": 0.7736041666666666,
      "grad_norm": 1.4537338018417358,
      "learning_rate": 3.6659282186378765e-05,
      "loss": 3.4423,
      "step": 371330
    },
    {
      "epoch": 0.773625,
      "grad_norm": 1.8107022047042847,
      "learning_rate": 3.665282480408762e-05,
      "loss": 3.4115,
      "step": 371340
    },
    {
      "epoch": 0.7736458333333334,
      "grad_norm": 1.4132167100906372,
      "learning_rate": 3.66463679114114e-05,
      "loss": 3.4182,
      "step": 371350
    },
    {
      "epoch": 0.7736666666666666,
      "grad_norm": 1.6720927953720093,
      "learning_rate": 3.663991150837801e-05,
      "loss": 3.5422,
      "step": 371360
    },
    {
      "epoch": 0.7736875,
      "grad_norm": 1.6980055570602417,
      "learning_rate": 3.663345559501533e-05,
      "loss": 3.4379,
      "step": 371370
    },
    {
      "epoch": 0.7737083333333333,
      "grad_norm": 1.5673059225082397,
      "learning_rate": 3.662700017135124e-05,
      "loss": 3.4939,
      "step": 371380
    },
    {
      "epoch": 0.7737291666666667,
      "grad_norm": 1.4563359022140503,
      "learning_rate": 3.662054523741363e-05,
      "loss": 3.545,
      "step": 371390
    },
    {
      "epoch": 0.77375,
      "grad_norm": 1.8722721338272095,
      "learning_rate": 3.661409079323039e-05,
      "loss": 3.4654,
      "step": 371400
    },
    {
      "epoch": 0.7737708333333333,
      "grad_norm": 1.7647134065628052,
      "learning_rate": 3.6607636838829396e-05,
      "loss": 3.4326,
      "step": 371410
    },
    {
      "epoch": 0.7737916666666667,
      "grad_norm": 1.5936801433563232,
      "learning_rate": 3.660118337423855e-05,
      "loss": 3.4335,
      "step": 371420
    },
    {
      "epoch": 0.7738125,
      "grad_norm": 1.5252317190170288,
      "learning_rate": 3.659473039948567e-05,
      "loss": 3.3774,
      "step": 371430
    },
    {
      "epoch": 0.7738333333333334,
      "grad_norm": 1.5971059799194336,
      "learning_rate": 3.6588277914598686e-05,
      "loss": 3.5321,
      "step": 371440
    },
    {
      "epoch": 0.7738541666666666,
      "grad_norm": 1.55237877368927,
      "learning_rate": 3.658182591960545e-05,
      "loss": 3.3986,
      "step": 371450
    },
    {
      "epoch": 0.773875,
      "grad_norm": 1.4746078252792358,
      "learning_rate": 3.657537441453382e-05,
      "loss": 3.4397,
      "step": 371460
    },
    {
      "epoch": 0.7738958333333333,
      "grad_norm": 1.512031078338623,
      "learning_rate": 3.656892339941169e-05,
      "loss": 3.4583,
      "step": 371470
    },
    {
      "epoch": 0.7739166666666667,
      "grad_norm": 1.5864284038543701,
      "learning_rate": 3.656247287426689e-05,
      "loss": 3.4351,
      "step": 371480
    },
    {
      "epoch": 0.7739375,
      "grad_norm": 1.5885592699050903,
      "learning_rate": 3.655602283912733e-05,
      "loss": 3.4041,
      "step": 371490
    },
    {
      "epoch": 0.7739583333333333,
      "grad_norm": 1.4769351482391357,
      "learning_rate": 3.6549573294020836e-05,
      "loss": 3.3198,
      "step": 371500
    },
    {
      "epoch": 0.7739791666666667,
      "grad_norm": 1.8288408517837524,
      "learning_rate": 3.654312423897528e-05,
      "loss": 3.3811,
      "step": 371510
    },
    {
      "epoch": 0.774,
      "grad_norm": 1.674701452255249,
      "learning_rate": 3.653667567401851e-05,
      "loss": 3.3046,
      "step": 371520
    },
    {
      "epoch": 0.7740208333333334,
      "grad_norm": 1.479817509651184,
      "learning_rate": 3.653022759917844e-05,
      "loss": 3.4887,
      "step": 371530
    },
    {
      "epoch": 0.7740416666666666,
      "grad_norm": 1.6120864152908325,
      "learning_rate": 3.652378001448284e-05,
      "loss": 3.414,
      "step": 371540
    },
    {
      "epoch": 0.7740625,
      "grad_norm": 1.546587586402893,
      "learning_rate": 3.6517332919959534e-05,
      "loss": 3.4366,
      "step": 371550
    },
    {
      "epoch": 0.7740833333333333,
      "grad_norm": 1.5770946741104126,
      "learning_rate": 3.6510886315636526e-05,
      "loss": 3.5191,
      "step": 371560
    },
    {
      "epoch": 0.7741041666666667,
      "grad_norm": 1.565310001373291,
      "learning_rate": 3.650444020154152e-05,
      "loss": 3.4289,
      "step": 371570
    },
    {
      "epoch": 0.774125,
      "grad_norm": 1.5136430263519287,
      "learning_rate": 3.649799457770237e-05,
      "loss": 3.4549,
      "step": 371580
    },
    {
      "epoch": 0.7741458333333333,
      "grad_norm": 1.5284942388534546,
      "learning_rate": 3.649154944414703e-05,
      "loss": 3.2525,
      "step": 371590
    },
    {
      "epoch": 0.7741666666666667,
      "grad_norm": 1.572218894958496,
      "learning_rate": 3.648510480090323e-05,
      "loss": 3.3384,
      "step": 371600
    },
    {
      "epoch": 0.7741875,
      "grad_norm": 1.4967337846755981,
      "learning_rate": 3.64786606479988e-05,
      "loss": 3.3977,
      "step": 371610
    },
    {
      "epoch": 0.7742083333333334,
      "grad_norm": 1.5295262336730957,
      "learning_rate": 3.647221698546172e-05,
      "loss": 3.5511,
      "step": 371620
    },
    {
      "epoch": 0.7742291666666666,
      "grad_norm": 1.621739387512207,
      "learning_rate": 3.6465773813319666e-05,
      "loss": 3.4462,
      "step": 371630
    },
    {
      "epoch": 0.77425,
      "grad_norm": 1.4459394216537476,
      "learning_rate": 3.64593311316005e-05,
      "loss": 3.391,
      "step": 371640
    },
    {
      "epoch": 0.7742708333333334,
      "grad_norm": 1.5355969667434692,
      "learning_rate": 3.6452888940332154e-05,
      "loss": 3.5494,
      "step": 371650
    },
    {
      "epoch": 0.7742916666666667,
      "grad_norm": 1.472307801246643,
      "learning_rate": 3.644644723954234e-05,
      "loss": 3.3736,
      "step": 371660
    },
    {
      "epoch": 0.7743125,
      "grad_norm": 1.614589810371399,
      "learning_rate": 3.644000602925894e-05,
      "loss": 3.5276,
      "step": 371670
    },
    {
      "epoch": 0.7743333333333333,
      "grad_norm": 1.6456012725830078,
      "learning_rate": 3.6433565309509756e-05,
      "loss": 3.4813,
      "step": 371680
    },
    {
      "epoch": 0.7743541666666667,
      "grad_norm": 1.6197603940963745,
      "learning_rate": 3.6427125080322614e-05,
      "loss": 3.5706,
      "step": 371690
    },
    {
      "epoch": 0.774375,
      "grad_norm": 1.6972521543502808,
      "learning_rate": 3.642068534172533e-05,
      "loss": 3.502,
      "step": 371700
    },
    {
      "epoch": 0.7743958333333333,
      "grad_norm": 1.5726418495178223,
      "learning_rate": 3.6414246093745744e-05,
      "loss": 3.4458,
      "step": 371710
    },
    {
      "epoch": 0.7744166666666666,
      "grad_norm": 1.4799718856811523,
      "learning_rate": 3.640780733641164e-05,
      "loss": 3.4695,
      "step": 371720
    },
    {
      "epoch": 0.7744375,
      "grad_norm": 1.4438668489456177,
      "learning_rate": 3.6401369069750855e-05,
      "loss": 3.3645,
      "step": 371730
    },
    {
      "epoch": 0.7744583333333334,
      "grad_norm": 1.8557422161102295,
      "learning_rate": 3.639493129379118e-05,
      "loss": 3.3393,
      "step": 371740
    },
    {
      "epoch": 0.7744791666666667,
      "grad_norm": 1.5168246030807495,
      "learning_rate": 3.638849400856045e-05,
      "loss": 3.4255,
      "step": 371750
    },
    {
      "epoch": 0.7745,
      "grad_norm": 1.5735561847686768,
      "learning_rate": 3.638205721408643e-05,
      "loss": 3.348,
      "step": 371760
    },
    {
      "epoch": 0.7745208333333333,
      "grad_norm": 1.8507654666900635,
      "learning_rate": 3.637562091039697e-05,
      "loss": 3.509,
      "step": 371770
    },
    {
      "epoch": 0.7745416666666667,
      "grad_norm": 1.5430790185928345,
      "learning_rate": 3.636918509751986e-05,
      "loss": 3.4592,
      "step": 371780
    },
    {
      "epoch": 0.7745625,
      "grad_norm": 1.6900368928909302,
      "learning_rate": 3.636274977548287e-05,
      "loss": 3.3953,
      "step": 371790
    },
    {
      "epoch": 0.7745833333333333,
      "grad_norm": 1.6288743019104004,
      "learning_rate": 3.635631494431382e-05,
      "loss": 3.3615,
      "step": 371800
    },
    {
      "epoch": 0.7746041666666666,
      "grad_norm": 1.5704128742218018,
      "learning_rate": 3.634988060404052e-05,
      "loss": 3.4069,
      "step": 371810
    },
    {
      "epoch": 0.774625,
      "grad_norm": 1.6240894794464111,
      "learning_rate": 3.634344675469075e-05,
      "loss": 3.3818,
      "step": 371820
    },
    {
      "epoch": 0.7746458333333334,
      "grad_norm": 1.8590961694717407,
      "learning_rate": 3.6337013396292296e-05,
      "loss": 3.491,
      "step": 371830
    },
    {
      "epoch": 0.7746666666666666,
      "grad_norm": 1.8644212484359741,
      "learning_rate": 3.6330580528872965e-05,
      "loss": 3.5421,
      "step": 371840
    },
    {
      "epoch": 0.7746875,
      "grad_norm": 1.6520915031433105,
      "learning_rate": 3.632414815246057e-05,
      "loss": 3.2975,
      "step": 371850
    },
    {
      "epoch": 0.7747083333333333,
      "grad_norm": 1.9047577381134033,
      "learning_rate": 3.6317716267082766e-05,
      "loss": 3.4671,
      "step": 371860
    },
    {
      "epoch": 0.7747291666666667,
      "grad_norm": 1.709283709526062,
      "learning_rate": 3.631128487276748e-05,
      "loss": 3.4386,
      "step": 371870
    },
    {
      "epoch": 0.77475,
      "grad_norm": 1.5938520431518555,
      "learning_rate": 3.630485396954247e-05,
      "loss": 3.4565,
      "step": 371880
    },
    {
      "epoch": 0.7747708333333333,
      "grad_norm": 1.6359663009643555,
      "learning_rate": 3.6298423557435406e-05,
      "loss": 3.3394,
      "step": 371890
    },
    {
      "epoch": 0.7747916666666667,
      "grad_norm": 1.934038519859314,
      "learning_rate": 3.6291993636474236e-05,
      "loss": 3.463,
      "step": 371900
    },
    {
      "epoch": 0.7748125,
      "grad_norm": 1.7295095920562744,
      "learning_rate": 3.6285564206686615e-05,
      "loss": 3.3355,
      "step": 371910
    },
    {
      "epoch": 0.7748333333333334,
      "grad_norm": 1.461848258972168,
      "learning_rate": 3.627913526810028e-05,
      "loss": 3.3892,
      "step": 371920
    },
    {
      "epoch": 0.7748541666666666,
      "grad_norm": 1.5204448699951172,
      "learning_rate": 3.6272706820743164e-05,
      "loss": 3.4312,
      "step": 371930
    },
    {
      "epoch": 0.774875,
      "grad_norm": 1.5063179731369019,
      "learning_rate": 3.62662788646429e-05,
      "loss": 3.4912,
      "step": 371940
    },
    {
      "epoch": 0.7748958333333333,
      "grad_norm": 1.78872549533844,
      "learning_rate": 3.625985139982725e-05,
      "loss": 3.375,
      "step": 371950
    },
    {
      "epoch": 0.7749166666666667,
      "grad_norm": 1.6667922735214233,
      "learning_rate": 3.625342442632409e-05,
      "loss": 3.5158,
      "step": 371960
    },
    {
      "epoch": 0.7749375,
      "grad_norm": 1.5807620286941528,
      "learning_rate": 3.624699794416108e-05,
      "loss": 3.5991,
      "step": 371970
    },
    {
      "epoch": 0.7749583333333333,
      "grad_norm": 1.5050522089004517,
      "learning_rate": 3.6240571953365974e-05,
      "loss": 3.4463,
      "step": 371980
    },
    {
      "epoch": 0.7749791666666667,
      "grad_norm": 1.5357717275619507,
      "learning_rate": 3.623414645396665e-05,
      "loss": 3.5398,
      "step": 371990
    },
    {
      "epoch": 0.775,
      "grad_norm": 2.105219841003418,
      "learning_rate": 3.6227721445990734e-05,
      "loss": 3.3494,
      "step": 372000
    },
    {
      "epoch": 0.775,
      "eval_loss": 3.5341014862060547,
      "eval_runtime": 7.3095,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.41,
      "step": 372000
    },
    {
      "epoch": 0.7750208333333334,
      "grad_norm": 1.6494393348693848,
      "learning_rate": 3.622129692946599e-05,
      "loss": 3.3869,
      "step": 372010
    },
    {
      "epoch": 0.7750416666666666,
      "grad_norm": 1.6650203466415405,
      "learning_rate": 3.621487290442029e-05,
      "loss": 3.3541,
      "step": 372020
    },
    {
      "epoch": 0.7750625,
      "grad_norm": 1.5952876806259155,
      "learning_rate": 3.620844937088125e-05,
      "loss": 3.441,
      "step": 372030
    },
    {
      "epoch": 0.7750833333333333,
      "grad_norm": 1.6556315422058105,
      "learning_rate": 3.6202026328876684e-05,
      "loss": 3.5618,
      "step": 372040
    },
    {
      "epoch": 0.7751041666666667,
      "grad_norm": 1.5323816537857056,
      "learning_rate": 3.619560377843431e-05,
      "loss": 3.3723,
      "step": 372050
    },
    {
      "epoch": 0.775125,
      "grad_norm": 1.7272799015045166,
      "learning_rate": 3.618918171958188e-05,
      "loss": 3.4823,
      "step": 372060
    },
    {
      "epoch": 0.7751458333333333,
      "grad_norm": 1.5814415216445923,
      "learning_rate": 3.618276015234712e-05,
      "loss": 3.5484,
      "step": 372070
    },
    {
      "epoch": 0.7751666666666667,
      "grad_norm": 2.0469751358032227,
      "learning_rate": 3.61763390767578e-05,
      "loss": 3.4515,
      "step": 372080
    },
    {
      "epoch": 0.7751875,
      "grad_norm": 1.4657549858093262,
      "learning_rate": 3.616991849284165e-05,
      "loss": 3.4365,
      "step": 372090
    },
    {
      "epoch": 0.7752083333333334,
      "grad_norm": 1.759547233581543,
      "learning_rate": 3.6163498400626386e-05,
      "loss": 3.4479,
      "step": 372100
    },
    {
      "epoch": 0.7752291666666666,
      "grad_norm": 1.4694916009902954,
      "learning_rate": 3.615707880013975e-05,
      "loss": 3.4238,
      "step": 372110
    },
    {
      "epoch": 0.77525,
      "grad_norm": 1.5531775951385498,
      "learning_rate": 3.6150659691409475e-05,
      "loss": 3.5082,
      "step": 372120
    },
    {
      "epoch": 0.7752708333333334,
      "grad_norm": 1.4949142932891846,
      "learning_rate": 3.614424107446328e-05,
      "loss": 3.3042,
      "step": 372130
    },
    {
      "epoch": 0.7752916666666667,
      "grad_norm": 1.5023109912872314,
      "learning_rate": 3.613782294932889e-05,
      "loss": 3.4673,
      "step": 372140
    },
    {
      "epoch": 0.7753125,
      "grad_norm": 1.4678760766983032,
      "learning_rate": 3.6131405316034055e-05,
      "loss": 3.3424,
      "step": 372150
    },
    {
      "epoch": 0.7753333333333333,
      "grad_norm": 1.680017352104187,
      "learning_rate": 3.61249881746065e-05,
      "loss": 3.4487,
      "step": 372160
    },
    {
      "epoch": 0.7753541666666667,
      "grad_norm": 1.5463519096374512,
      "learning_rate": 3.611857152507384e-05,
      "loss": 3.4643,
      "step": 372170
    },
    {
      "epoch": 0.775375,
      "grad_norm": 1.6328002214431763,
      "learning_rate": 3.6112155367463926e-05,
      "loss": 3.5249,
      "step": 372180
    },
    {
      "epoch": 0.7753958333333333,
      "grad_norm": 1.6762564182281494,
      "learning_rate": 3.610573970180446e-05,
      "loss": 3.2794,
      "step": 372190
    },
    {
      "epoch": 0.7754166666666666,
      "grad_norm": 1.6467868089675903,
      "learning_rate": 3.609932452812302e-05,
      "loss": 3.3582,
      "step": 372200
    },
    {
      "epoch": 0.7754375,
      "grad_norm": 1.4725393056869507,
      "learning_rate": 3.6092909846447464e-05,
      "loss": 3.3697,
      "step": 372210
    },
    {
      "epoch": 0.7754583333333334,
      "grad_norm": 1.7924226522445679,
      "learning_rate": 3.608649565680549e-05,
      "loss": 3.4842,
      "step": 372220
    },
    {
      "epoch": 0.7754791666666667,
      "grad_norm": 2.0410091876983643,
      "learning_rate": 3.608008195922468e-05,
      "loss": 3.5612,
      "step": 372230
    },
    {
      "epoch": 0.7755,
      "grad_norm": 1.8636304140090942,
      "learning_rate": 3.6073668753732863e-05,
      "loss": 3.4326,
      "step": 372240
    },
    {
      "epoch": 0.7755208333333333,
      "grad_norm": 1.812145709991455,
      "learning_rate": 3.606725604035775e-05,
      "loss": 3.538,
      "step": 372250
    },
    {
      "epoch": 0.7755416666666667,
      "grad_norm": 1.4929478168487549,
      "learning_rate": 3.606084381912691e-05,
      "loss": 3.4039,
      "step": 372260
    },
    {
      "epoch": 0.7755625,
      "grad_norm": 1.668115496635437,
      "learning_rate": 3.6054432090068157e-05,
      "loss": 3.4806,
      "step": 372270
    },
    {
      "epoch": 0.7755833333333333,
      "grad_norm": 1.5561022758483887,
      "learning_rate": 3.6048020853209206e-05,
      "loss": 3.2652,
      "step": 372280
    },
    {
      "epoch": 0.7756041666666667,
      "grad_norm": 1.5531926155090332,
      "learning_rate": 3.604161010857762e-05,
      "loss": 3.5084,
      "step": 372290
    },
    {
      "epoch": 0.775625,
      "grad_norm": 1.7172532081604004,
      "learning_rate": 3.6035199856201246e-05,
      "loss": 3.4726,
      "step": 372300
    },
    {
      "epoch": 0.7756458333333334,
      "grad_norm": 1.8691989183425903,
      "learning_rate": 3.6028790096107654e-05,
      "loss": 3.3728,
      "step": 372310
    },
    {
      "epoch": 0.7756666666666666,
      "grad_norm": 1.5393290519714355,
      "learning_rate": 3.602238082832453e-05,
      "loss": 3.4151,
      "step": 372320
    },
    {
      "epoch": 0.7756875,
      "grad_norm": 1.6468294858932495,
      "learning_rate": 3.6015972052879696e-05,
      "loss": 3.4016,
      "step": 372330
    },
    {
      "epoch": 0.7757083333333333,
      "grad_norm": 1.597386360168457,
      "learning_rate": 3.6009563769800714e-05,
      "loss": 3.4583,
      "step": 372340
    },
    {
      "epoch": 0.7757291666666667,
      "grad_norm": 1.4513875246047974,
      "learning_rate": 3.600315597911524e-05,
      "loss": 3.5238,
      "step": 372350
    },
    {
      "epoch": 0.77575,
      "grad_norm": 1.6455682516098022,
      "learning_rate": 3.59967486808511e-05,
      "loss": 3.3754,
      "step": 372360
    },
    {
      "epoch": 0.7757708333333333,
      "grad_norm": 1.7211555242538452,
      "learning_rate": 3.599034187503583e-05,
      "loss": 3.5232,
      "step": 372370
    },
    {
      "epoch": 0.7757916666666667,
      "grad_norm": 1.9057203531265259,
      "learning_rate": 3.5983935561697114e-05,
      "loss": 3.6446,
      "step": 372380
    },
    {
      "epoch": 0.7758125,
      "grad_norm": 1.7824559211730957,
      "learning_rate": 3.597752974086275e-05,
      "loss": 3.4085,
      "step": 372390
    },
    {
      "epoch": 0.7758333333333334,
      "grad_norm": 1.7672021389007568,
      "learning_rate": 3.597112441256029e-05,
      "loss": 3.4049,
      "step": 372400
    },
    {
      "epoch": 0.7758541666666666,
      "grad_norm": 1.5301141738891602,
      "learning_rate": 3.596471957681744e-05,
      "loss": 3.4251,
      "step": 372410
    },
    {
      "epoch": 0.775875,
      "grad_norm": 1.5843461751937866,
      "learning_rate": 3.595831523366184e-05,
      "loss": 3.6551,
      "step": 372420
    },
    {
      "epoch": 0.7758958333333333,
      "grad_norm": 2.345227003097534,
      "learning_rate": 3.5951911383121195e-05,
      "loss": 3.3893,
      "step": 372430
    },
    {
      "epoch": 0.7759166666666667,
      "grad_norm": 1.5751773118972778,
      "learning_rate": 3.5945508025223156e-05,
      "loss": 3.4341,
      "step": 372440
    },
    {
      "epoch": 0.7759375,
      "grad_norm": 1.8437610864639282,
      "learning_rate": 3.593910515999536e-05,
      "loss": 3.5421,
      "step": 372450
    },
    {
      "epoch": 0.7759583333333333,
      "grad_norm": 1.6377158164978027,
      "learning_rate": 3.593270278746549e-05,
      "loss": 3.4249,
      "step": 372460
    },
    {
      "epoch": 0.7759791666666667,
      "grad_norm": 1.5591353178024292,
      "learning_rate": 3.5926300907661196e-05,
      "loss": 3.4725,
      "step": 372470
    },
    {
      "epoch": 0.776,
      "grad_norm": 1.3723456859588623,
      "learning_rate": 3.591989952061013e-05,
      "loss": 3.344,
      "step": 372480
    },
    {
      "epoch": 0.7760208333333334,
      "grad_norm": 1.6700994968414307,
      "learning_rate": 3.5913498626339925e-05,
      "loss": 3.3638,
      "step": 372490
    },
    {
      "epoch": 0.7760416666666666,
      "grad_norm": 1.7337759733200073,
      "learning_rate": 3.5907098224878264e-05,
      "loss": 3.5241,
      "step": 372500
    },
    {
      "epoch": 0.7760625,
      "grad_norm": 1.6402469873428345,
      "learning_rate": 3.590069831625278e-05,
      "loss": 3.3655,
      "step": 372510
    },
    {
      "epoch": 0.7760833333333333,
      "grad_norm": 2.179617404937744,
      "learning_rate": 3.5894298900491095e-05,
      "loss": 3.3446,
      "step": 372520
    },
    {
      "epoch": 0.7761041666666667,
      "grad_norm": 1.5288828611373901,
      "learning_rate": 3.5887899977620935e-05,
      "loss": 3.5116,
      "step": 372530
    },
    {
      "epoch": 0.776125,
      "grad_norm": 1.6006219387054443,
      "learning_rate": 3.588150154766978e-05,
      "loss": 3.4875,
      "step": 372540
    },
    {
      "epoch": 0.7761458333333333,
      "grad_norm": 1.6401082277297974,
      "learning_rate": 3.587510361066542e-05,
      "loss": 3.4388,
      "step": 372550
    },
    {
      "epoch": 0.7761666666666667,
      "grad_norm": 1.8460110425949097,
      "learning_rate": 3.586870616663548e-05,
      "loss": 3.4532,
      "step": 372560
    },
    {
      "epoch": 0.7761875,
      "grad_norm": 1.5387221574783325,
      "learning_rate": 3.586230921560746e-05,
      "loss": 3.6012,
      "step": 372570
    },
    {
      "epoch": 0.7762083333333333,
      "grad_norm": 1.629298210144043,
      "learning_rate": 3.585591275760914e-05,
      "loss": 3.4334,
      "step": 372580
    },
    {
      "epoch": 0.7762291666666666,
      "grad_norm": 1.7546420097351074,
      "learning_rate": 3.584951679266813e-05,
      "loss": 3.428,
      "step": 372590
    },
    {
      "epoch": 0.77625,
      "grad_norm": 1.713646650314331,
      "learning_rate": 3.5843121320811926e-05,
      "loss": 3.5791,
      "step": 372600
    },
    {
      "epoch": 0.7762708333333334,
      "grad_norm": 1.3834233283996582,
      "learning_rate": 3.583672634206831e-05,
      "loss": 3.436,
      "step": 372610
    },
    {
      "epoch": 0.7762916666666667,
      "grad_norm": 1.9554710388183594,
      "learning_rate": 3.583033185646489e-05,
      "loss": 3.4963,
      "step": 372620
    },
    {
      "epoch": 0.7763125,
      "grad_norm": 2.262646436691284,
      "learning_rate": 3.5823937864029153e-05,
      "loss": 3.5764,
      "step": 372630
    },
    {
      "epoch": 0.7763333333333333,
      "grad_norm": 1.890730381011963,
      "learning_rate": 3.581754436478886e-05,
      "loss": 3.3823,
      "step": 372640
    },
    {
      "epoch": 0.7763541666666667,
      "grad_norm": 1.8098558187484741,
      "learning_rate": 3.581115135877162e-05,
      "loss": 3.398,
      "step": 372650
    },
    {
      "epoch": 0.776375,
      "grad_norm": 1.6983155012130737,
      "learning_rate": 3.5804758846004925e-05,
      "loss": 3.434,
      "step": 372660
    },
    {
      "epoch": 0.7763958333333333,
      "grad_norm": 1.7886134386062622,
      "learning_rate": 3.579836682651655e-05,
      "loss": 3.6086,
      "step": 372670
    },
    {
      "epoch": 0.7764166666666666,
      "grad_norm": 1.7478185892105103,
      "learning_rate": 3.579197530033399e-05,
      "loss": 3.4126,
      "step": 372680
    },
    {
      "epoch": 0.7764375,
      "grad_norm": 1.5527604818344116,
      "learning_rate": 3.578558426748483e-05,
      "loss": 3.3183,
      "step": 372690
    },
    {
      "epoch": 0.7764583333333334,
      "grad_norm": 1.605895757675171,
      "learning_rate": 3.577919372799684e-05,
      "loss": 3.3739,
      "step": 372700
    },
    {
      "epoch": 0.7764791666666667,
      "grad_norm": 1.922782301902771,
      "learning_rate": 3.577280368189746e-05,
      "loss": 3.3659,
      "step": 372710
    },
    {
      "epoch": 0.7765,
      "grad_norm": 1.5146323442459106,
      "learning_rate": 3.5766414129214383e-05,
      "loss": 3.5402,
      "step": 372720
    },
    {
      "epoch": 0.7765208333333333,
      "grad_norm": 1.7155426740646362,
      "learning_rate": 3.576002506997515e-05,
      "loss": 3.4145,
      "step": 372730
    },
    {
      "epoch": 0.7765416666666667,
      "grad_norm": 2.00937557220459,
      "learning_rate": 3.57536365042074e-05,
      "loss": 3.4735,
      "step": 372740
    },
    {
      "epoch": 0.7765625,
      "grad_norm": 2.1661715507507324,
      "learning_rate": 3.5747248431938726e-05,
      "loss": 3.4394,
      "step": 372750
    },
    {
      "epoch": 0.7765833333333333,
      "grad_norm": 1.6078039407730103,
      "learning_rate": 3.574086085319672e-05,
      "loss": 3.4125,
      "step": 372760
    },
    {
      "epoch": 0.7766041666666667,
      "grad_norm": 1.6810053586959839,
      "learning_rate": 3.573447376800894e-05,
      "loss": 3.6205,
      "step": 372770
    },
    {
      "epoch": 0.776625,
      "grad_norm": 1.999723196029663,
      "learning_rate": 3.5728087176403026e-05,
      "loss": 3.3754,
      "step": 372780
    },
    {
      "epoch": 0.7766458333333334,
      "grad_norm": 1.611682653427124,
      "learning_rate": 3.572170107840654e-05,
      "loss": 3.3961,
      "step": 372790
    },
    {
      "epoch": 0.7766666666666666,
      "grad_norm": 1.504732370376587,
      "learning_rate": 3.571531547404708e-05,
      "loss": 3.4721,
      "step": 372800
    },
    {
      "epoch": 0.7766875,
      "grad_norm": 1.7977620363235474,
      "learning_rate": 3.5708930363352206e-05,
      "loss": 3.4708,
      "step": 372810
    },
    {
      "epoch": 0.7767083333333333,
      "grad_norm": 1.4378286600112915,
      "learning_rate": 3.570254574634952e-05,
      "loss": 3.4637,
      "step": 372820
    },
    {
      "epoch": 0.7767291666666667,
      "grad_norm": 1.653804898262024,
      "learning_rate": 3.569616162306658e-05,
      "loss": 3.363,
      "step": 372830
    },
    {
      "epoch": 0.77675,
      "grad_norm": 1.52068293094635,
      "learning_rate": 3.568977799353099e-05,
      "loss": 3.5503,
      "step": 372840
    },
    {
      "epoch": 0.7767708333333333,
      "grad_norm": 1.394333004951477,
      "learning_rate": 3.568339485777031e-05,
      "loss": 3.415,
      "step": 372850
    },
    {
      "epoch": 0.7767916666666667,
      "grad_norm": 1.6422781944274902,
      "learning_rate": 3.567701221581212e-05,
      "loss": 3.4576,
      "step": 372860
    },
    {
      "epoch": 0.7768125,
      "grad_norm": 1.6595664024353027,
      "learning_rate": 3.5670630067683976e-05,
      "loss": 3.4933,
      "step": 372870
    },
    {
      "epoch": 0.7768333333333334,
      "grad_norm": 1.751739263534546,
      "learning_rate": 3.5664248413413466e-05,
      "loss": 3.5389,
      "step": 372880
    },
    {
      "epoch": 0.7768541666666666,
      "grad_norm": 1.6195247173309326,
      "learning_rate": 3.565786725302814e-05,
      "loss": 3.2588,
      "step": 372890
    },
    {
      "epoch": 0.776875,
      "grad_norm": 1.9741475582122803,
      "learning_rate": 3.56514865865556e-05,
      "loss": 3.4181,
      "step": 372900
    },
    {
      "epoch": 0.7768958333333333,
      "grad_norm": 1.6059238910675049,
      "learning_rate": 3.564510641402331e-05,
      "loss": 3.5159,
      "step": 372910
    },
    {
      "epoch": 0.7769166666666667,
      "grad_norm": 1.6953275203704834,
      "learning_rate": 3.5638726735458934e-05,
      "loss": 3.5207,
      "step": 372920
    },
    {
      "epoch": 0.7769375,
      "grad_norm": 1.917298674583435,
      "learning_rate": 3.563234755089002e-05,
      "loss": 3.604,
      "step": 372930
    },
    {
      "epoch": 0.7769583333333333,
      "grad_norm": 1.8228683471679688,
      "learning_rate": 3.562596886034402e-05,
      "loss": 3.6969,
      "step": 372940
    },
    {
      "epoch": 0.7769791666666667,
      "grad_norm": 1.3976731300354004,
      "learning_rate": 3.5619590663848594e-05,
      "loss": 3.4237,
      "step": 372950
    },
    {
      "epoch": 0.777,
      "grad_norm": 1.5895984172821045,
      "learning_rate": 3.561321296143131e-05,
      "loss": 3.4998,
      "step": 372960
    },
    {
      "epoch": 0.7770208333333334,
      "grad_norm": 1.612845540046692,
      "learning_rate": 3.560683575311959e-05,
      "loss": 3.5455,
      "step": 372970
    },
    {
      "epoch": 0.7770416666666666,
      "grad_norm": 1.5453976392745972,
      "learning_rate": 3.56004590389411e-05,
      "loss": 3.5819,
      "step": 372980
    },
    {
      "epoch": 0.7770625,
      "grad_norm": 1.9535582065582275,
      "learning_rate": 3.559408281892339e-05,
      "loss": 3.5048,
      "step": 372990
    },
    {
      "epoch": 0.7770833333333333,
      "grad_norm": 1.5766963958740234,
      "learning_rate": 3.5587707093093865e-05,
      "loss": 3.7243,
      "step": 373000
    },
    {
      "epoch": 0.7770833333333333,
      "eval_loss": 3.5328400135040283,
      "eval_runtime": 6.8892,
      "eval_samples_per_second": 1.452,
      "eval_steps_per_second": 0.435,
      "step": 373000
    },
    {
      "epoch": 0.7771041666666667,
      "grad_norm": 1.553707242012024,
      "learning_rate": 3.5581331861480194e-05,
      "loss": 3.4389,
      "step": 373010
    },
    {
      "epoch": 0.777125,
      "grad_norm": 1.5529369115829468,
      "learning_rate": 3.557495712410994e-05,
      "loss": 3.5248,
      "step": 373020
    },
    {
      "epoch": 0.7771458333333333,
      "grad_norm": 1.5576038360595703,
      "learning_rate": 3.556858288101052e-05,
      "loss": 3.4199,
      "step": 373030
    },
    {
      "epoch": 0.7771666666666667,
      "grad_norm": 1.4694440364837646,
      "learning_rate": 3.556220913220954e-05,
      "loss": 3.2415,
      "step": 373040
    },
    {
      "epoch": 0.7771875,
      "grad_norm": 1.5780497789382935,
      "learning_rate": 3.555583587773451e-05,
      "loss": 3.4692,
      "step": 373050
    },
    {
      "epoch": 0.7772083333333333,
      "grad_norm": 1.5627834796905518,
      "learning_rate": 3.5549463117612965e-05,
      "loss": 3.3787,
      "step": 373060
    },
    {
      "epoch": 0.7772291666666666,
      "grad_norm": 1.6884973049163818,
      "learning_rate": 3.554309085187244e-05,
      "loss": 3.4666,
      "step": 373070
    },
    {
      "epoch": 0.77725,
      "grad_norm": 1.5555108785629272,
      "learning_rate": 3.553671908054047e-05,
      "loss": 3.4266,
      "step": 373080
    },
    {
      "epoch": 0.7772708333333334,
      "grad_norm": 1.812269926071167,
      "learning_rate": 3.553034780364455e-05,
      "loss": 3.3983,
      "step": 373090
    },
    {
      "epoch": 0.7772916666666667,
      "grad_norm": 1.7423985004425049,
      "learning_rate": 3.552397702121222e-05,
      "loss": 3.3093,
      "step": 373100
    },
    {
      "epoch": 0.7773125,
      "grad_norm": 1.6285582780838013,
      "learning_rate": 3.5517606733271005e-05,
      "loss": 3.4427,
      "step": 373110
    },
    {
      "epoch": 0.7773333333333333,
      "grad_norm": 1.5327306985855103,
      "learning_rate": 3.551123693984842e-05,
      "loss": 3.5065,
      "step": 373120
    },
    {
      "epoch": 0.7773541666666667,
      "grad_norm": 1.8489704132080078,
      "learning_rate": 3.5504867640971945e-05,
      "loss": 3.4883,
      "step": 373130
    },
    {
      "epoch": 0.777375,
      "grad_norm": 1.8132688999176025,
      "learning_rate": 3.549849883666914e-05,
      "loss": 3.4035,
      "step": 373140
    },
    {
      "epoch": 0.7773958333333333,
      "grad_norm": 1.6412379741668701,
      "learning_rate": 3.54921305269675e-05,
      "loss": 3.4118,
      "step": 373150
    },
    {
      "epoch": 0.7774166666666666,
      "grad_norm": 1.5848231315612793,
      "learning_rate": 3.548576271189453e-05,
      "loss": 3.382,
      "step": 373160
    },
    {
      "epoch": 0.7774375,
      "grad_norm": 1.9656215906143188,
      "learning_rate": 3.547939539147772e-05,
      "loss": 3.4455,
      "step": 373170
    },
    {
      "epoch": 0.7774583333333334,
      "grad_norm": 1.7123960256576538,
      "learning_rate": 3.547302856574461e-05,
      "loss": 3.4558,
      "step": 373180
    },
    {
      "epoch": 0.7774791666666667,
      "grad_norm": 1.6270450353622437,
      "learning_rate": 3.546666223472269e-05,
      "loss": 3.2963,
      "step": 373190
    },
    {
      "epoch": 0.7775,
      "grad_norm": 1.5163196325302124,
      "learning_rate": 3.546029639843943e-05,
      "loss": 3.4015,
      "step": 373200
    },
    {
      "epoch": 0.7775208333333333,
      "grad_norm": 1.7472690343856812,
      "learning_rate": 3.545393105692237e-05,
      "loss": 3.4451,
      "step": 373210
    },
    {
      "epoch": 0.7775416666666667,
      "grad_norm": 1.56453537940979,
      "learning_rate": 3.544756621019898e-05,
      "loss": 3.3415,
      "step": 373220
    },
    {
      "epoch": 0.7775625,
      "grad_norm": 1.742872953414917,
      "learning_rate": 3.5441201858296756e-05,
      "loss": 3.5077,
      "step": 373230
    },
    {
      "epoch": 0.7775833333333333,
      "grad_norm": 1.5688145160675049,
      "learning_rate": 3.54348380012432e-05,
      "loss": 3.4573,
      "step": 373240
    },
    {
      "epoch": 0.7776041666666667,
      "grad_norm": 1.584557056427002,
      "learning_rate": 3.5428474639065796e-05,
      "loss": 3.3496,
      "step": 373250
    },
    {
      "epoch": 0.777625,
      "grad_norm": 1.4268617630004883,
      "learning_rate": 3.5422111771792045e-05,
      "loss": 3.3898,
      "step": 373260
    },
    {
      "epoch": 0.7776458333333334,
      "grad_norm": 1.482823133468628,
      "learning_rate": 3.541574939944939e-05,
      "loss": 3.5148,
      "step": 373270
    },
    {
      "epoch": 0.7776666666666666,
      "grad_norm": 1.544442057609558,
      "learning_rate": 3.540938752206536e-05,
      "loss": 3.4006,
      "step": 373280
    },
    {
      "epoch": 0.7776875,
      "grad_norm": 1.4685018062591553,
      "learning_rate": 3.540302613966741e-05,
      "loss": 3.3685,
      "step": 373290
    },
    {
      "epoch": 0.7777083333333333,
      "grad_norm": 1.8238521814346313,
      "learning_rate": 3.539666525228308e-05,
      "loss": 3.287,
      "step": 373300
    },
    {
      "epoch": 0.7777291666666667,
      "grad_norm": 1.7269409894943237,
      "learning_rate": 3.539030485993974e-05,
      "loss": 3.3018,
      "step": 373310
    },
    {
      "epoch": 0.77775,
      "grad_norm": 1.6627717018127441,
      "learning_rate": 3.538394496266488e-05,
      "loss": 3.4046,
      "step": 373320
    },
    {
      "epoch": 0.7777708333333333,
      "grad_norm": 1.4465341567993164,
      "learning_rate": 3.5377585560486096e-05,
      "loss": 3.4205,
      "step": 373330
    },
    {
      "epoch": 0.7777916666666667,
      "grad_norm": 1.6472116708755493,
      "learning_rate": 3.537122665343073e-05,
      "loss": 3.4109,
      "step": 373340
    },
    {
      "epoch": 0.7778125,
      "grad_norm": 1.5036870241165161,
      "learning_rate": 3.536486824152624e-05,
      "loss": 3.3263,
      "step": 373350
    },
    {
      "epoch": 0.7778333333333334,
      "grad_norm": 1.6545119285583496,
      "learning_rate": 3.5358510324800236e-05,
      "loss": 3.5033,
      "step": 373360
    },
    {
      "epoch": 0.7778541666666666,
      "grad_norm": 1.8808380365371704,
      "learning_rate": 3.5352152903280054e-05,
      "loss": 3.4366,
      "step": 373370
    },
    {
      "epoch": 0.777875,
      "grad_norm": 1.6184608936309814,
      "learning_rate": 3.5345795976993134e-05,
      "loss": 3.4577,
      "step": 373380
    },
    {
      "epoch": 0.7778958333333333,
      "grad_norm": 1.807621955871582,
      "learning_rate": 3.533943954596708e-05,
      "loss": 3.411,
      "step": 373390
    },
    {
      "epoch": 0.7779166666666667,
      "grad_norm": 1.8684974908828735,
      "learning_rate": 3.5333083610229216e-05,
      "loss": 3.4448,
      "step": 373400
    },
    {
      "epoch": 0.7779375,
      "grad_norm": 1.6164536476135254,
      "learning_rate": 3.5326728169807045e-05,
      "loss": 3.3817,
      "step": 373410
    },
    {
      "epoch": 0.7779583333333333,
      "grad_norm": 1.5212819576263428,
      "learning_rate": 3.532037322472803e-05,
      "loss": 3.4384,
      "step": 373420
    },
    {
      "epoch": 0.7779791666666667,
      "grad_norm": 1.4982939958572388,
      "learning_rate": 3.5314018775019585e-05,
      "loss": 3.3981,
      "step": 373430
    },
    {
      "epoch": 0.778,
      "grad_norm": 1.9062870740890503,
      "learning_rate": 3.5307664820709205e-05,
      "loss": 3.2819,
      "step": 373440
    },
    {
      "epoch": 0.7780208333333334,
      "grad_norm": 1.54253089427948,
      "learning_rate": 3.53013113618243e-05,
      "loss": 3.4494,
      "step": 373450
    },
    {
      "epoch": 0.7780416666666666,
      "grad_norm": 1.6152160167694092,
      "learning_rate": 3.529495839839235e-05,
      "loss": 3.4469,
      "step": 373460
    },
    {
      "epoch": 0.7780625,
      "grad_norm": 1.65339994430542,
      "learning_rate": 3.528860593044075e-05,
      "loss": 3.4616,
      "step": 373470
    },
    {
      "epoch": 0.7780833333333333,
      "grad_norm": 2.029649257659912,
      "learning_rate": 3.5282253957996985e-05,
      "loss": 3.3765,
      "step": 373480
    },
    {
      "epoch": 0.7781041666666667,
      "grad_norm": 1.5654873847961426,
      "learning_rate": 3.527590248108847e-05,
      "loss": 3.6081,
      "step": 373490
    },
    {
      "epoch": 0.778125,
      "grad_norm": 1.5069390535354614,
      "learning_rate": 3.526955149974264e-05,
      "loss": 3.5148,
      "step": 373500
    },
    {
      "epoch": 0.7781458333333333,
      "grad_norm": 1.8679425716400146,
      "learning_rate": 3.5263201013986934e-05,
      "loss": 3.3677,
      "step": 373510
    },
    {
      "epoch": 0.7781666666666667,
      "grad_norm": 1.651225209236145,
      "learning_rate": 3.525685102384879e-05,
      "loss": 3.4954,
      "step": 373520
    },
    {
      "epoch": 0.7781875,
      "grad_norm": 1.7833822965621948,
      "learning_rate": 3.5250501529355626e-05,
      "loss": 3.3688,
      "step": 373530
    },
    {
      "epoch": 0.7782083333333333,
      "grad_norm": 1.6432476043701172,
      "learning_rate": 3.524415253053488e-05,
      "loss": 3.4559,
      "step": 373540
    },
    {
      "epoch": 0.7782291666666666,
      "grad_norm": 1.473354697227478,
      "learning_rate": 3.523780402741396e-05,
      "loss": 3.4659,
      "step": 373550
    },
    {
      "epoch": 0.77825,
      "grad_norm": 1.5821185111999512,
      "learning_rate": 3.523145602002032e-05,
      "loss": 3.6053,
      "step": 373560
    },
    {
      "epoch": 0.7782708333333334,
      "grad_norm": 1.527649164199829,
      "learning_rate": 3.5225108508381346e-05,
      "loss": 3.4847,
      "step": 373570
    },
    {
      "epoch": 0.7782916666666667,
      "grad_norm": 1.691311240196228,
      "learning_rate": 3.5218761492524474e-05,
      "loss": 3.3277,
      "step": 373580
    },
    {
      "epoch": 0.7783125,
      "grad_norm": 1.6401684284210205,
      "learning_rate": 3.5212414972477124e-05,
      "loss": 3.491,
      "step": 373590
    },
    {
      "epoch": 0.7783333333333333,
      "grad_norm": 1.5307271480560303,
      "learning_rate": 3.52060689482667e-05,
      "loss": 3.4198,
      "step": 373600
    },
    {
      "epoch": 0.7783541666666667,
      "grad_norm": 1.8325896263122559,
      "learning_rate": 3.5199723419920626e-05,
      "loss": 3.4275,
      "step": 373610
    },
    {
      "epoch": 0.778375,
      "grad_norm": 1.6435853242874146,
      "learning_rate": 3.519337838746633e-05,
      "loss": 3.4514,
      "step": 373620
    },
    {
      "epoch": 0.7783958333333333,
      "grad_norm": 1.793189525604248,
      "learning_rate": 3.518703385093114e-05,
      "loss": 3.2874,
      "step": 373630
    },
    {
      "epoch": 0.7784166666666666,
      "grad_norm": 2.011986494064331,
      "learning_rate": 3.518068981034253e-05,
      "loss": 3.4726,
      "step": 373640
    },
    {
      "epoch": 0.7784375,
      "grad_norm": 1.5722817182540894,
      "learning_rate": 3.5174346265727956e-05,
      "loss": 3.4169,
      "step": 373650
    },
    {
      "epoch": 0.7784583333333334,
      "grad_norm": 1.6093720197677612,
      "learning_rate": 3.5168003217114664e-05,
      "loss": 3.4173,
      "step": 373660
    },
    {
      "epoch": 0.7784791666666667,
      "grad_norm": 1.5860151052474976,
      "learning_rate": 3.516166066453023e-05,
      "loss": 3.5065,
      "step": 373670
    },
    {
      "epoch": 0.7785,
      "grad_norm": 1.590073585510254,
      "learning_rate": 3.515531860800192e-05,
      "loss": 3.3847,
      "step": 373680
    },
    {
      "epoch": 0.7785208333333333,
      "grad_norm": 1.4594770669937134,
      "learning_rate": 3.5148977047557135e-05,
      "loss": 3.4851,
      "step": 373690
    },
    {
      "epoch": 0.7785416666666667,
      "grad_norm": 1.5063027143478394,
      "learning_rate": 3.514263598322339e-05,
      "loss": 3.3891,
      "step": 373700
    },
    {
      "epoch": 0.7785625,
      "grad_norm": 1.5332136154174805,
      "learning_rate": 3.5136295415027954e-05,
      "loss": 3.4505,
      "step": 373710
    },
    {
      "epoch": 0.7785833333333333,
      "grad_norm": 1.490755558013916,
      "learning_rate": 3.5129955342998214e-05,
      "loss": 3.5631,
      "step": 373720
    },
    {
      "epoch": 0.7786041666666667,
      "grad_norm": 1.5437915325164795,
      "learning_rate": 3.5123615767161675e-05,
      "loss": 3.4861,
      "step": 373730
    },
    {
      "epoch": 0.778625,
      "grad_norm": 1.6990869045257568,
      "learning_rate": 3.511727668754561e-05,
      "loss": 3.4525,
      "step": 373740
    },
    {
      "epoch": 0.7786458333333334,
      "grad_norm": 1.6386760473251343,
      "learning_rate": 3.51109381041774e-05,
      "loss": 3.446,
      "step": 373750
    },
    {
      "epoch": 0.7786666666666666,
      "grad_norm": 1.7596076726913452,
      "learning_rate": 3.510460001708454e-05,
      "loss": 3.4789,
      "step": 373760
    },
    {
      "epoch": 0.7786875,
      "grad_norm": 1.466772437095642,
      "learning_rate": 3.509826242629428e-05,
      "loss": 3.5386,
      "step": 373770
    },
    {
      "epoch": 0.7787083333333333,
      "grad_norm": 1.5473339557647705,
      "learning_rate": 3.509192533183401e-05,
      "loss": 3.4203,
      "step": 373780
    },
    {
      "epoch": 0.7787291666666667,
      "grad_norm": 1.593733310699463,
      "learning_rate": 3.5085588733731214e-05,
      "loss": 3.427,
      "step": 373790
    },
    {
      "epoch": 0.77875,
      "grad_norm": 1.8302497863769531,
      "learning_rate": 3.507925263201315e-05,
      "loss": 3.4492,
      "step": 373800
    },
    {
      "epoch": 0.7787708333333333,
      "grad_norm": 1.5655454397201538,
      "learning_rate": 3.5072917026707234e-05,
      "loss": 3.4116,
      "step": 373810
    },
    {
      "epoch": 0.7787916666666667,
      "grad_norm": 1.6320098638534546,
      "learning_rate": 3.506658191784082e-05,
      "loss": 3.4279,
      "step": 373820
    },
    {
      "epoch": 0.7788125,
      "grad_norm": 1.6071449518203735,
      "learning_rate": 3.5060247305441276e-05,
      "loss": 3.227,
      "step": 373830
    },
    {
      "epoch": 0.7788333333333334,
      "grad_norm": 1.8194562196731567,
      "learning_rate": 3.505391318953598e-05,
      "loss": 3.5087,
      "step": 373840
    },
    {
      "epoch": 0.7788541666666666,
      "grad_norm": 1.932963252067566,
      "learning_rate": 3.5047579570152265e-05,
      "loss": 3.4593,
      "step": 373850
    },
    {
      "epoch": 0.778875,
      "grad_norm": 1.573747992515564,
      "learning_rate": 3.504124644731751e-05,
      "loss": 3.4,
      "step": 373860
    },
    {
      "epoch": 0.7788958333333333,
      "grad_norm": 1.7228233814239502,
      "learning_rate": 3.503491382105907e-05,
      "loss": 3.5088,
      "step": 373870
    },
    {
      "epoch": 0.7789166666666667,
      "grad_norm": 1.7088379859924316,
      "learning_rate": 3.5028581691404284e-05,
      "loss": 3.3977,
      "step": 373880
    },
    {
      "epoch": 0.7789375,
      "grad_norm": 1.6080631017684937,
      "learning_rate": 3.502225005838052e-05,
      "loss": 3.3791,
      "step": 373890
    },
    {
      "epoch": 0.7789583333333333,
      "grad_norm": 1.4958986043930054,
      "learning_rate": 3.501591892201517e-05,
      "loss": 3.4445,
      "step": 373900
    },
    {
      "epoch": 0.7789791666666667,
      "grad_norm": 1.4958665370941162,
      "learning_rate": 3.500958828233546e-05,
      "loss": 3.5031,
      "step": 373910
    },
    {
      "epoch": 0.779,
      "grad_norm": 1.671023964881897,
      "learning_rate": 3.500325813936884e-05,
      "loss": 3.5741,
      "step": 373920
    },
    {
      "epoch": 0.7790208333333334,
      "grad_norm": 1.6048697233200073,
      "learning_rate": 3.4996928493142684e-05,
      "loss": 3.6685,
      "step": 373930
    },
    {
      "epoch": 0.7790416666666666,
      "grad_norm": 1.8194565773010254,
      "learning_rate": 3.499059934368419e-05,
      "loss": 3.5171,
      "step": 373940
    },
    {
      "epoch": 0.7790625,
      "grad_norm": 1.8119533061981201,
      "learning_rate": 3.4984270691020816e-05,
      "loss": 3.4414,
      "step": 373950
    },
    {
      "epoch": 0.7790833333333333,
      "grad_norm": 1.473822832107544,
      "learning_rate": 3.497794253517991e-05,
      "loss": 3.4346,
      "step": 373960
    },
    {
      "epoch": 0.7791041666666667,
      "grad_norm": 1.9752488136291504,
      "learning_rate": 3.497161487618868e-05,
      "loss": 3.4225,
      "step": 373970
    },
    {
      "epoch": 0.779125,
      "grad_norm": 1.6425321102142334,
      "learning_rate": 3.496528771407457e-05,
      "loss": 3.5458,
      "step": 373980
    },
    {
      "epoch": 0.7791458333333333,
      "grad_norm": 2.0589005947113037,
      "learning_rate": 3.495896104886495e-05,
      "loss": 3.405,
      "step": 373990
    },
    {
      "epoch": 0.7791666666666667,
      "grad_norm": 1.5528345108032227,
      "learning_rate": 3.495263488058698e-05,
      "loss": 3.3265,
      "step": 374000
    },
    {
      "epoch": 0.7791666666666667,
      "eval_loss": 3.535534381866455,
      "eval_runtime": 6.8458,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 374000
    },
    {
      "epoch": 0.7791875,
      "grad_norm": 1.6243096590042114,
      "learning_rate": 3.494630920926814e-05,
      "loss": 3.3675,
      "step": 374010
    },
    {
      "epoch": 0.7792083333333333,
      "grad_norm": 1.7766385078430176,
      "learning_rate": 3.493998403493574e-05,
      "loss": 3.5874,
      "step": 374020
    },
    {
      "epoch": 0.7792291666666666,
      "grad_norm": 1.725028395652771,
      "learning_rate": 3.493365935761699e-05,
      "loss": 3.3865,
      "step": 374030
    },
    {
      "epoch": 0.77925,
      "grad_norm": 1.8545907735824585,
      "learning_rate": 3.492733517733936e-05,
      "loss": 3.3,
      "step": 374040
    },
    {
      "epoch": 0.7792708333333334,
      "grad_norm": 1.638338565826416,
      "learning_rate": 3.492101149413005e-05,
      "loss": 3.4916,
      "step": 374050
    },
    {
      "epoch": 0.7792916666666667,
      "grad_norm": 1.8660180568695068,
      "learning_rate": 3.4914688308016376e-05,
      "loss": 3.399,
      "step": 374060
    },
    {
      "epoch": 0.7793125,
      "grad_norm": 1.5713609457015991,
      "learning_rate": 3.490836561902579e-05,
      "loss": 3.3326,
      "step": 374070
    },
    {
      "epoch": 0.7793333333333333,
      "grad_norm": 1.4689923524856567,
      "learning_rate": 3.490204342718546e-05,
      "loss": 3.3887,
      "step": 374080
    },
    {
      "epoch": 0.7793541666666667,
      "grad_norm": 1.6507397890090942,
      "learning_rate": 3.4895721732522695e-05,
      "loss": 3.4041,
      "step": 374090
    },
    {
      "epoch": 0.779375,
      "grad_norm": 1.5492067337036133,
      "learning_rate": 3.4889400535064945e-05,
      "loss": 3.5468,
      "step": 374100
    },
    {
      "epoch": 0.7793958333333333,
      "grad_norm": 1.9404412508010864,
      "learning_rate": 3.488307983483938e-05,
      "loss": 3.4157,
      "step": 374110
    },
    {
      "epoch": 0.7794166666666666,
      "grad_norm": 1.897594928741455,
      "learning_rate": 3.4876759631873296e-05,
      "loss": 3.5869,
      "step": 374120
    },
    {
      "epoch": 0.7794375,
      "grad_norm": 1.6147754192352295,
      "learning_rate": 3.487043992619411e-05,
      "loss": 3.3435,
      "step": 374130
    },
    {
      "epoch": 0.7794583333333334,
      "grad_norm": 1.74787437915802,
      "learning_rate": 3.4864120717829034e-05,
      "loss": 3.3714,
      "step": 374140
    },
    {
      "epoch": 0.7794791666666666,
      "grad_norm": 1.7653318643569946,
      "learning_rate": 3.4857802006805336e-05,
      "loss": 3.4298,
      "step": 374150
    },
    {
      "epoch": 0.7795,
      "grad_norm": 1.7114847898483276,
      "learning_rate": 3.4851483793150434e-05,
      "loss": 3.4569,
      "step": 374160
    },
    {
      "epoch": 0.7795208333333333,
      "grad_norm": 1.7497913837432861,
      "learning_rate": 3.484516607689149e-05,
      "loss": 3.505,
      "step": 374170
    },
    {
      "epoch": 0.7795416666666667,
      "grad_norm": 1.6276789903640747,
      "learning_rate": 3.4838848858055875e-05,
      "loss": 3.2859,
      "step": 374180
    },
    {
      "epoch": 0.7795625,
      "grad_norm": 1.5545483827590942,
      "learning_rate": 3.483253213667083e-05,
      "loss": 3.3874,
      "step": 374190
    },
    {
      "epoch": 0.7795833333333333,
      "grad_norm": 1.5450283288955688,
      "learning_rate": 3.482621591276367e-05,
      "loss": 3.41,
      "step": 374200
    },
    {
      "epoch": 0.7796041666666667,
      "grad_norm": 1.621069312095642,
      "learning_rate": 3.4819900186361657e-05,
      "loss": 3.4021,
      "step": 374210
    },
    {
      "epoch": 0.779625,
      "grad_norm": 1.7193827629089355,
      "learning_rate": 3.481358495749209e-05,
      "loss": 3.4588,
      "step": 374220
    },
    {
      "epoch": 0.7796458333333334,
      "grad_norm": 1.5208293199539185,
      "learning_rate": 3.480727022618224e-05,
      "loss": 3.3978,
      "step": 374230
    },
    {
      "epoch": 0.7796666666666666,
      "grad_norm": 1.5123261213302612,
      "learning_rate": 3.480095599245939e-05,
      "loss": 3.3887,
      "step": 374240
    },
    {
      "epoch": 0.7796875,
      "grad_norm": 1.5385396480560303,
      "learning_rate": 3.479464225635081e-05,
      "loss": 3.4097,
      "step": 374250
    },
    {
      "epoch": 0.7797083333333333,
      "grad_norm": 1.5981340408325195,
      "learning_rate": 3.478832901788377e-05,
      "loss": 3.3392,
      "step": 374260
    },
    {
      "epoch": 0.7797291666666667,
      "grad_norm": 1.9342716932296753,
      "learning_rate": 3.4782016277085555e-05,
      "loss": 3.365,
      "step": 374270
    },
    {
      "epoch": 0.77975,
      "grad_norm": 2.0307846069335938,
      "learning_rate": 3.4775704033983406e-05,
      "loss": 3.4328,
      "step": 374280
    },
    {
      "epoch": 0.7797708333333333,
      "grad_norm": 1.7047785520553589,
      "learning_rate": 3.476939228860463e-05,
      "loss": 3.4204,
      "step": 374290
    },
    {
      "epoch": 0.7797916666666667,
      "grad_norm": 1.5221201181411743,
      "learning_rate": 3.476308104097648e-05,
      "loss": 3.3894,
      "step": 374300
    },
    {
      "epoch": 0.7798125,
      "grad_norm": 1.556121587753296,
      "learning_rate": 3.475677029112614e-05,
      "loss": 3.4918,
      "step": 374310
    },
    {
      "epoch": 0.7798333333333334,
      "grad_norm": 1.7099604606628418,
      "learning_rate": 3.475046003908098e-05,
      "loss": 3.4829,
      "step": 374320
    },
    {
      "epoch": 0.7798541666666666,
      "grad_norm": 1.6211398839950562,
      "learning_rate": 3.474415028486826e-05,
      "loss": 3.4777,
      "step": 374330
    },
    {
      "epoch": 0.779875,
      "grad_norm": 1.626772165298462,
      "learning_rate": 3.47378410285151e-05,
      "loss": 3.401,
      "step": 374340
    },
    {
      "epoch": 0.7798958333333333,
      "grad_norm": 1.7804648876190186,
      "learning_rate": 3.473153227004888e-05,
      "loss": 3.558,
      "step": 374350
    },
    {
      "epoch": 0.7799166666666667,
      "grad_norm": 1.5020394325256348,
      "learning_rate": 3.4725224009496855e-05,
      "loss": 3.3716,
      "step": 374360
    },
    {
      "epoch": 0.7799375,
      "grad_norm": 1.6552762985229492,
      "learning_rate": 3.471891624688615e-05,
      "loss": 3.4819,
      "step": 374370
    },
    {
      "epoch": 0.7799583333333333,
      "grad_norm": 1.4562886953353882,
      "learning_rate": 3.471260898224413e-05,
      "loss": 3.5082,
      "step": 374380
    },
    {
      "epoch": 0.7799791666666667,
      "grad_norm": 1.6487786769866943,
      "learning_rate": 3.4706302215598077e-05,
      "loss": 3.4449,
      "step": 374390
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5376343727111816,
      "learning_rate": 3.469999594697506e-05,
      "loss": 3.4347,
      "step": 374400
    },
    {
      "epoch": 0.7800208333333334,
      "grad_norm": 1.551819920539856,
      "learning_rate": 3.469369017640249e-05,
      "loss": 3.5102,
      "step": 374410
    },
    {
      "epoch": 0.7800416666666666,
      "grad_norm": 1.7517353296279907,
      "learning_rate": 3.4687384903907515e-05,
      "loss": 3.419,
      "step": 374420
    },
    {
      "epoch": 0.7800625,
      "grad_norm": 1.6350975036621094,
      "learning_rate": 3.4681080129517336e-05,
      "loss": 3.4579,
      "step": 374430
    },
    {
      "epoch": 0.7800833333333334,
      "grad_norm": 1.7203443050384521,
      "learning_rate": 3.467477585325934e-05,
      "loss": 3.3696,
      "step": 374440
    },
    {
      "epoch": 0.7801041666666667,
      "grad_norm": 1.5580707788467407,
      "learning_rate": 3.466847207516063e-05,
      "loss": 3.4297,
      "step": 374450
    },
    {
      "epoch": 0.780125,
      "grad_norm": 1.5629940032958984,
      "learning_rate": 3.46621687952484e-05,
      "loss": 3.5847,
      "step": 374460
    },
    {
      "epoch": 0.7801458333333333,
      "grad_norm": 1.5077149868011475,
      "learning_rate": 3.465586601355006e-05,
      "loss": 3.4829,
      "step": 374470
    },
    {
      "epoch": 0.7801666666666667,
      "grad_norm": 1.5770632028579712,
      "learning_rate": 3.464956373009266e-05,
      "loss": 3.4571,
      "step": 374480
    },
    {
      "epoch": 0.7801875,
      "grad_norm": 1.3758732080459595,
      "learning_rate": 3.46432619449035e-05,
      "loss": 3.2846,
      "step": 374490
    },
    {
      "epoch": 0.7802083333333333,
      "grad_norm": 1.4525467157363892,
      "learning_rate": 3.463696065800978e-05,
      "loss": 3.2616,
      "step": 374500
    },
    {
      "epoch": 0.7802291666666666,
      "grad_norm": 1.5738195180892944,
      "learning_rate": 3.463065986943872e-05,
      "loss": 3.3895,
      "step": 374510
    },
    {
      "epoch": 0.78025,
      "grad_norm": 1.791682481765747,
      "learning_rate": 3.4624359579217556e-05,
      "loss": 3.4,
      "step": 374520
    },
    {
      "epoch": 0.7802708333333334,
      "grad_norm": 1.6116138696670532,
      "learning_rate": 3.4618059787373484e-05,
      "loss": 3.534,
      "step": 374530
    },
    {
      "epoch": 0.7802916666666667,
      "grad_norm": 1.7214504480361938,
      "learning_rate": 3.4611760493933714e-05,
      "loss": 3.4542,
      "step": 374540
    },
    {
      "epoch": 0.7803125,
      "grad_norm": 1.8881787061691284,
      "learning_rate": 3.4605461698925475e-05,
      "loss": 3.4156,
      "step": 374550
    },
    {
      "epoch": 0.7803333333333333,
      "grad_norm": 1.9128764867782593,
      "learning_rate": 3.459916340237597e-05,
      "loss": 3.4817,
      "step": 374560
    },
    {
      "epoch": 0.7803541666666667,
      "grad_norm": 1.59600830078125,
      "learning_rate": 3.459286560431239e-05,
      "loss": 3.363,
      "step": 374570
    },
    {
      "epoch": 0.780375,
      "grad_norm": 1.6329344511032104,
      "learning_rate": 3.458656830476196e-05,
      "loss": 3.2861,
      "step": 374580
    },
    {
      "epoch": 0.7803958333333333,
      "grad_norm": 1.6523218154907227,
      "learning_rate": 3.458027150375185e-05,
      "loss": 3.4659,
      "step": 374590
    },
    {
      "epoch": 0.7804166666666666,
      "grad_norm": 1.6173295974731445,
      "learning_rate": 3.4573975201309296e-05,
      "loss": 3.6047,
      "step": 374600
    },
    {
      "epoch": 0.7804375,
      "grad_norm": 1.7183821201324463,
      "learning_rate": 3.456767939746149e-05,
      "loss": 3.4187,
      "step": 374610
    },
    {
      "epoch": 0.7804583333333334,
      "grad_norm": 1.543563961982727,
      "learning_rate": 3.456138409223559e-05,
      "loss": 3.4156,
      "step": 374620
    },
    {
      "epoch": 0.7804791666666666,
      "grad_norm": 1.5725610256195068,
      "learning_rate": 3.455508928565884e-05,
      "loss": 3.3973,
      "step": 374630
    },
    {
      "epoch": 0.7805,
      "grad_norm": 1.9291032552719116,
      "learning_rate": 3.4548794977758395e-05,
      "loss": 3.2961,
      "step": 374640
    },
    {
      "epoch": 0.7805208333333333,
      "grad_norm": 1.5378607511520386,
      "learning_rate": 3.4542501168561474e-05,
      "loss": 3.4298,
      "step": 374650
    },
    {
      "epoch": 0.7805416666666667,
      "grad_norm": 1.6123368740081787,
      "learning_rate": 3.4536207858095234e-05,
      "loss": 3.4791,
      "step": 374660
    },
    {
      "epoch": 0.7805625,
      "grad_norm": 1.6930413246154785,
      "learning_rate": 3.4529915046386916e-05,
      "loss": 3.3789,
      "step": 374670
    },
    {
      "epoch": 0.7805833333333333,
      "grad_norm": 1.5085997581481934,
      "learning_rate": 3.452362273346357e-05,
      "loss": 3.4651,
      "step": 374680
    },
    {
      "epoch": 0.7806041666666667,
      "grad_norm": 1.692578673362732,
      "learning_rate": 3.451733091935252e-05,
      "loss": 3.4541,
      "step": 374690
    },
    {
      "epoch": 0.780625,
      "grad_norm": 1.5365843772888184,
      "learning_rate": 3.4511039604080915e-05,
      "loss": 3.4184,
      "step": 374700
    },
    {
      "epoch": 0.7806458333333334,
      "grad_norm": 1.6117671728134155,
      "learning_rate": 3.450474878767583e-05,
      "loss": 3.4283,
      "step": 374710
    },
    {
      "epoch": 0.7806666666666666,
      "grad_norm": 1.5371968746185303,
      "learning_rate": 3.4498458470164564e-05,
      "loss": 3.4694,
      "step": 374720
    },
    {
      "epoch": 0.7806875,
      "grad_norm": 1.6729565858840942,
      "learning_rate": 3.449216865157427e-05,
      "loss": 3.5076,
      "step": 374730
    },
    {
      "epoch": 0.7807083333333333,
      "grad_norm": 1.6965714693069458,
      "learning_rate": 3.4485879331931996e-05,
      "loss": 3.4913,
      "step": 374740
    },
    {
      "epoch": 0.7807291666666667,
      "grad_norm": 1.793648600578308,
      "learning_rate": 3.447959051126506e-05,
      "loss": 3.397,
      "step": 374750
    },
    {
      "epoch": 0.78075,
      "grad_norm": 1.5073503255844116,
      "learning_rate": 3.447330218960059e-05,
      "loss": 3.4073,
      "step": 374760
    },
    {
      "epoch": 0.7807708333333333,
      "grad_norm": 1.7221970558166504,
      "learning_rate": 3.446701436696566e-05,
      "loss": 3.3901,
      "step": 374770
    },
    {
      "epoch": 0.7807916666666667,
      "grad_norm": 1.6674644947052002,
      "learning_rate": 3.446072704338753e-05,
      "loss": 3.5798,
      "step": 374780
    },
    {
      "epoch": 0.7808125,
      "grad_norm": 1.7630736827850342,
      "learning_rate": 3.445444021889337e-05,
      "loss": 3.2844,
      "step": 374790
    },
    {
      "epoch": 0.7808333333333334,
      "grad_norm": 1.679396152496338,
      "learning_rate": 3.444815389351024e-05,
      "loss": 3.4322,
      "step": 374800
    },
    {
      "epoch": 0.7808541666666666,
      "grad_norm": 1.5291272401809692,
      "learning_rate": 3.444186806726536e-05,
      "loss": 3.6216,
      "step": 374810
    },
    {
      "epoch": 0.780875,
      "grad_norm": 1.9413875341415405,
      "learning_rate": 3.443558274018586e-05,
      "loss": 3.5293,
      "step": 374820
    },
    {
      "epoch": 0.7808958333333333,
      "grad_norm": 1.6324472427368164,
      "learning_rate": 3.442929791229891e-05,
      "loss": 3.3181,
      "step": 374830
    },
    {
      "epoch": 0.7809166666666667,
      "grad_norm": 1.763518214225769,
      "learning_rate": 3.442301358363163e-05,
      "loss": 3.5231,
      "step": 374840
    },
    {
      "epoch": 0.7809375,
      "grad_norm": 2.0933725833892822,
      "learning_rate": 3.4416729754211185e-05,
      "loss": 3.565,
      "step": 374850
    },
    {
      "epoch": 0.7809583333333333,
      "grad_norm": 1.6508119106292725,
      "learning_rate": 3.441044642406474e-05,
      "loss": 3.4606,
      "step": 374860
    },
    {
      "epoch": 0.7809791666666667,
      "grad_norm": 1.7704203128814697,
      "learning_rate": 3.4404163593219386e-05,
      "loss": 3.4676,
      "step": 374870
    },
    {
      "epoch": 0.781,
      "grad_norm": 1.7381442785263062,
      "learning_rate": 3.43978812617023e-05,
      "loss": 3.4987,
      "step": 374880
    },
    {
      "epoch": 0.7810208333333334,
      "grad_norm": 1.8432058095932007,
      "learning_rate": 3.43915994295406e-05,
      "loss": 3.3724,
      "step": 374890
    },
    {
      "epoch": 0.7810416666666666,
      "grad_norm": 1.828486680984497,
      "learning_rate": 3.438531809676144e-05,
      "loss": 3.3569,
      "step": 374900
    },
    {
      "epoch": 0.7810625,
      "grad_norm": 1.6855624914169312,
      "learning_rate": 3.437903726339194e-05,
      "loss": 3.4793,
      "step": 374910
    },
    {
      "epoch": 0.7810833333333334,
      "grad_norm": 1.6004899740219116,
      "learning_rate": 3.437275692945923e-05,
      "loss": 3.5383,
      "step": 374920
    },
    {
      "epoch": 0.7811041666666667,
      "grad_norm": 1.6841193437576294,
      "learning_rate": 3.436647709499045e-05,
      "loss": 3.4715,
      "step": 374930
    },
    {
      "epoch": 0.781125,
      "grad_norm": 1.7155207395553589,
      "learning_rate": 3.436019776001271e-05,
      "loss": 3.4801,
      "step": 374940
    },
    {
      "epoch": 0.7811458333333333,
      "grad_norm": 1.9480013847351074,
      "learning_rate": 3.435391892455315e-05,
      "loss": 3.3904,
      "step": 374950
    },
    {
      "epoch": 0.7811666666666667,
      "grad_norm": 1.6499625444412231,
      "learning_rate": 3.434764058863888e-05,
      "loss": 3.4672,
      "step": 374960
    },
    {
      "epoch": 0.7811875,
      "grad_norm": 1.9276620149612427,
      "learning_rate": 3.434136275229702e-05,
      "loss": 3.5316,
      "step": 374970
    },
    {
      "epoch": 0.7812083333333333,
      "grad_norm": 1.5479276180267334,
      "learning_rate": 3.433508541555469e-05,
      "loss": 3.4391,
      "step": 374980
    },
    {
      "epoch": 0.7812291666666666,
      "grad_norm": 1.4673969745635986,
      "learning_rate": 3.432880857843902e-05,
      "loss": 3.5614,
      "step": 374990
    },
    {
      "epoch": 0.78125,
      "grad_norm": 1.719271183013916,
      "learning_rate": 3.43225322409771e-05,
      "loss": 3.3984,
      "step": 375000
    },
    {
      "epoch": 0.78125,
      "eval_loss": 3.531759738922119,
      "eval_runtime": 7.4352,
      "eval_samples_per_second": 1.345,
      "eval_steps_per_second": 0.403,
      "step": 375000
    },
    {
      "epoch": 0.7812708333333334,
      "grad_norm": 1.64151930809021,
      "learning_rate": 3.431625640319606e-05,
      "loss": 3.4157,
      "step": 375010
    },
    {
      "epoch": 0.7812916666666667,
      "grad_norm": 1.4907268285751343,
      "learning_rate": 3.4309981065123e-05,
      "loss": 3.4836,
      "step": 375020
    },
    {
      "epoch": 0.7813125,
      "grad_norm": 1.7398943901062012,
      "learning_rate": 3.430370622678502e-05,
      "loss": 3.3862,
      "step": 375030
    },
    {
      "epoch": 0.7813333333333333,
      "grad_norm": 1.6317543983459473,
      "learning_rate": 3.429743188820928e-05,
      "loss": 3.4614,
      "step": 375040
    },
    {
      "epoch": 0.7813541666666667,
      "grad_norm": 1.4225263595581055,
      "learning_rate": 3.429115804942276e-05,
      "loss": 3.3883,
      "step": 375050
    },
    {
      "epoch": 0.781375,
      "grad_norm": 1.6313070058822632,
      "learning_rate": 3.4284884710452656e-05,
      "loss": 3.3748,
      "step": 375060
    },
    {
      "epoch": 0.7813958333333333,
      "grad_norm": 1.803253173828125,
      "learning_rate": 3.4278611871326114e-05,
      "loss": 3.4599,
      "step": 375070
    },
    {
      "epoch": 0.7814166666666666,
      "grad_norm": 1.6943037509918213,
      "learning_rate": 3.427233953207011e-05,
      "loss": 3.3217,
      "step": 375080
    },
    {
      "epoch": 0.7814375,
      "grad_norm": 1.5442144870758057,
      "learning_rate": 3.426606769271176e-05,
      "loss": 3.3887,
      "step": 375090
    },
    {
      "epoch": 0.7814583333333334,
      "grad_norm": 2.059262990951538,
      "learning_rate": 3.4259796353278255e-05,
      "loss": 3.606,
      "step": 375100
    },
    {
      "epoch": 0.7814791666666666,
      "grad_norm": 1.7121936082839966,
      "learning_rate": 3.425352551379659e-05,
      "loss": 3.4515,
      "step": 375110
    },
    {
      "epoch": 0.7815,
      "grad_norm": 1.56475830078125,
      "learning_rate": 3.424725517429382e-05,
      "loss": 3.5328,
      "step": 375120
    },
    {
      "epoch": 0.7815208333333333,
      "grad_norm": 1.5734935998916626,
      "learning_rate": 3.424098533479718e-05,
      "loss": 3.4824,
      "step": 375130
    },
    {
      "epoch": 0.7815416666666667,
      "grad_norm": 1.832412600517273,
      "learning_rate": 3.4234715995333624e-05,
      "loss": 3.5481,
      "step": 375140
    },
    {
      "epoch": 0.7815625,
      "grad_norm": 1.8679996728897095,
      "learning_rate": 3.422844715593023e-05,
      "loss": 3.4651,
      "step": 375150
    },
    {
      "epoch": 0.7815833333333333,
      "grad_norm": 1.5163283348083496,
      "learning_rate": 3.4222178816614204e-05,
      "loss": 3.5292,
      "step": 375160
    },
    {
      "epoch": 0.7816041666666667,
      "grad_norm": 1.982028603553772,
      "learning_rate": 3.42159109774125e-05,
      "loss": 3.4418,
      "step": 375170
    },
    {
      "epoch": 0.781625,
      "grad_norm": 1.9442157745361328,
      "learning_rate": 3.420964363835222e-05,
      "loss": 3.4117,
      "step": 375180
    },
    {
      "epoch": 0.7816458333333334,
      "grad_norm": 1.536496877670288,
      "learning_rate": 3.4203376799460446e-05,
      "loss": 3.4545,
      "step": 375190
    },
    {
      "epoch": 0.7816666666666666,
      "grad_norm": 1.7520127296447754,
      "learning_rate": 3.4197110460764245e-05,
      "loss": 3.4637,
      "step": 375200
    },
    {
      "epoch": 0.7816875,
      "grad_norm": 1.6619337797164917,
      "learning_rate": 3.41908446222907e-05,
      "loss": 3.4699,
      "step": 375210
    },
    {
      "epoch": 0.7817083333333333,
      "grad_norm": 1.4408313035964966,
      "learning_rate": 3.418457928406687e-05,
      "loss": 3.4741,
      "step": 375220
    },
    {
      "epoch": 0.7817291666666667,
      "grad_norm": 1.761605978012085,
      "learning_rate": 3.4178314446119794e-05,
      "loss": 3.333,
      "step": 375230
    },
    {
      "epoch": 0.78175,
      "grad_norm": 2.671861171722412,
      "learning_rate": 3.4172050108476576e-05,
      "loss": 3.5112,
      "step": 375240
    },
    {
      "epoch": 0.7817708333333333,
      "grad_norm": 1.6423277854919434,
      "learning_rate": 3.416578627116424e-05,
      "loss": 3.4314,
      "step": 375250
    },
    {
      "epoch": 0.7817916666666667,
      "grad_norm": 1.4685089588165283,
      "learning_rate": 3.415952293420986e-05,
      "loss": 3.382,
      "step": 375260
    },
    {
      "epoch": 0.7818125,
      "grad_norm": 1.651309847831726,
      "learning_rate": 3.41532600976405e-05,
      "loss": 3.5831,
      "step": 375270
    },
    {
      "epoch": 0.7818333333333334,
      "grad_norm": 1.743444800376892,
      "learning_rate": 3.414699776148318e-05,
      "loss": 3.5088,
      "step": 375280
    },
    {
      "epoch": 0.7818541666666666,
      "grad_norm": 1.5981097221374512,
      "learning_rate": 3.414073592576498e-05,
      "loss": 3.6335,
      "step": 375290
    },
    {
      "epoch": 0.781875,
      "grad_norm": 1.6657072305679321,
      "learning_rate": 3.413447459051295e-05,
      "loss": 3.5834,
      "step": 375300
    },
    {
      "epoch": 0.7818958333333333,
      "grad_norm": 1.7483512163162231,
      "learning_rate": 3.412821375575412e-05,
      "loss": 3.541,
      "step": 375310
    },
    {
      "epoch": 0.7819166666666667,
      "grad_norm": 1.4243038892745972,
      "learning_rate": 3.412195342151553e-05,
      "loss": 3.4068,
      "step": 375320
    },
    {
      "epoch": 0.7819375,
      "grad_norm": 1.8901848793029785,
      "learning_rate": 3.411569358782425e-05,
      "loss": 3.5361,
      "step": 375330
    },
    {
      "epoch": 0.7819583333333333,
      "grad_norm": 1.615696668624878,
      "learning_rate": 3.410943425470731e-05,
      "loss": 3.3626,
      "step": 375340
    },
    {
      "epoch": 0.7819791666666667,
      "grad_norm": 1.7122235298156738,
      "learning_rate": 3.4103175422191715e-05,
      "loss": 3.3474,
      "step": 375350
    },
    {
      "epoch": 0.782,
      "grad_norm": 1.8541072607040405,
      "learning_rate": 3.409691709030454e-05,
      "loss": 3.4232,
      "step": 375360
    },
    {
      "epoch": 0.7820208333333334,
      "grad_norm": 1.6084742546081543,
      "learning_rate": 3.40906592590728e-05,
      "loss": 3.5397,
      "step": 375370
    },
    {
      "epoch": 0.7820416666666666,
      "grad_norm": 1.6386981010437012,
      "learning_rate": 3.4084401928523545e-05,
      "loss": 3.4197,
      "step": 375380
    },
    {
      "epoch": 0.7820625,
      "grad_norm": 1.5506397485733032,
      "learning_rate": 3.407814509868383e-05,
      "loss": 3.661,
      "step": 375390
    },
    {
      "epoch": 0.7820833333333334,
      "grad_norm": 1.8201689720153809,
      "learning_rate": 3.407188876958056e-05,
      "loss": 3.4226,
      "step": 375400
    },
    {
      "epoch": 0.7821041666666667,
      "grad_norm": 1.600561261177063,
      "learning_rate": 3.406563294124093e-05,
      "loss": 3.4007,
      "step": 375410
    },
    {
      "epoch": 0.782125,
      "grad_norm": 1.841016411781311,
      "learning_rate": 3.405937761369182e-05,
      "loss": 3.4448,
      "step": 375420
    },
    {
      "epoch": 0.7821458333333333,
      "grad_norm": 1.8057773113250732,
      "learning_rate": 3.405312278696026e-05,
      "loss": 3.4652,
      "step": 375430
    },
    {
      "epoch": 0.7821666666666667,
      "grad_norm": 1.6150641441345215,
      "learning_rate": 3.404686846107342e-05,
      "loss": 3.4958,
      "step": 375440
    },
    {
      "epoch": 0.7821875,
      "grad_norm": 1.5426533222198486,
      "learning_rate": 3.404061463605816e-05,
      "loss": 3.4586,
      "step": 375450
    },
    {
      "epoch": 0.7822083333333333,
      "grad_norm": 1.812027931213379,
      "learning_rate": 3.4034361311941506e-05,
      "loss": 3.5007,
      "step": 375460
    },
    {
      "epoch": 0.7822291666666666,
      "grad_norm": 1.6975951194763184,
      "learning_rate": 3.402810848875058e-05,
      "loss": 3.4164,
      "step": 375470
    },
    {
      "epoch": 0.78225,
      "grad_norm": 1.8589887619018555,
      "learning_rate": 3.402185616651229e-05,
      "loss": 3.4743,
      "step": 375480
    },
    {
      "epoch": 0.7822708333333334,
      "grad_norm": 1.8599352836608887,
      "learning_rate": 3.401560434525362e-05,
      "loss": 3.4416,
      "step": 375490
    },
    {
      "epoch": 0.7822916666666667,
      "grad_norm": 2.1408278942108154,
      "learning_rate": 3.400935302500172e-05,
      "loss": 3.4655,
      "step": 375500
    },
    {
      "epoch": 0.7823125,
      "grad_norm": 2.160250663757324,
      "learning_rate": 3.4003102205783475e-05,
      "loss": 3.4627,
      "step": 375510
    },
    {
      "epoch": 0.7823333333333333,
      "grad_norm": 1.4988237619400024,
      "learning_rate": 3.399685188762585e-05,
      "loss": 3.3235,
      "step": 375520
    },
    {
      "epoch": 0.7823541666666667,
      "grad_norm": 1.5604853630065918,
      "learning_rate": 3.399060207055601e-05,
      "loss": 3.5456,
      "step": 375530
    },
    {
      "epoch": 0.782375,
      "grad_norm": 1.7855024337768555,
      "learning_rate": 3.398435275460079e-05,
      "loss": 3.5047,
      "step": 375540
    },
    {
      "epoch": 0.7823958333333333,
      "grad_norm": 1.729448676109314,
      "learning_rate": 3.397810393978725e-05,
      "loss": 3.4903,
      "step": 375550
    },
    {
      "epoch": 0.7824166666666666,
      "grad_norm": 1.7399334907531738,
      "learning_rate": 3.3971855626142383e-05,
      "loss": 3.5237,
      "step": 375560
    },
    {
      "epoch": 0.7824375,
      "grad_norm": 1.5615439414978027,
      "learning_rate": 3.3965607813693166e-05,
      "loss": 3.4581,
      "step": 375570
    },
    {
      "epoch": 0.7824583333333334,
      "grad_norm": 1.852066993713379,
      "learning_rate": 3.3959360502466595e-05,
      "loss": 3.4776,
      "step": 375580
    },
    {
      "epoch": 0.7824791666666666,
      "grad_norm": 1.9742449522018433,
      "learning_rate": 3.3953113692489666e-05,
      "loss": 3.533,
      "step": 375590
    },
    {
      "epoch": 0.7825,
      "grad_norm": 1.6815826892852783,
      "learning_rate": 3.3946867383789336e-05,
      "loss": 3.4602,
      "step": 375600
    },
    {
      "epoch": 0.7825208333333333,
      "grad_norm": 1.5854837894439697,
      "learning_rate": 3.3940621576392614e-05,
      "loss": 3.4364,
      "step": 375610
    },
    {
      "epoch": 0.7825416666666667,
      "grad_norm": 1.6177098751068115,
      "learning_rate": 3.3934376270326444e-05,
      "loss": 3.3123,
      "step": 375620
    },
    {
      "epoch": 0.7825625,
      "grad_norm": 1.6367093324661255,
      "learning_rate": 3.3928131465617856e-05,
      "loss": 3.4523,
      "step": 375630
    },
    {
      "epoch": 0.7825833333333333,
      "grad_norm": 1.6128416061401367,
      "learning_rate": 3.392188716229378e-05,
      "loss": 3.3553,
      "step": 375640
    },
    {
      "epoch": 0.7826041666666667,
      "grad_norm": 1.746368169784546,
      "learning_rate": 3.3915643360381194e-05,
      "loss": 3.3628,
      "step": 375650
    },
    {
      "epoch": 0.782625,
      "grad_norm": 1.5805727243423462,
      "learning_rate": 3.390940005990711e-05,
      "loss": 3.4433,
      "step": 375660
    },
    {
      "epoch": 0.7826458333333334,
      "grad_norm": 1.8009717464447021,
      "learning_rate": 3.390315726089848e-05,
      "loss": 3.446,
      "step": 375670
    },
    {
      "epoch": 0.7826666666666666,
      "grad_norm": 1.6538517475128174,
      "learning_rate": 3.3896914963382174e-05,
      "loss": 3.5202,
      "step": 375680
    },
    {
      "epoch": 0.7826875,
      "grad_norm": 1.6948930025100708,
      "learning_rate": 3.3890673167385294e-05,
      "loss": 3.4613,
      "step": 375690
    },
    {
      "epoch": 0.7827083333333333,
      "grad_norm": 1.571088433265686,
      "learning_rate": 3.388443187293478e-05,
      "loss": 3.5239,
      "step": 375700
    },
    {
      "epoch": 0.7827291666666667,
      "grad_norm": 2.443021535873413,
      "learning_rate": 3.3878191080057474e-05,
      "loss": 3.4436,
      "step": 375710
    },
    {
      "epoch": 0.78275,
      "grad_norm": 1.7942941188812256,
      "learning_rate": 3.387195078878048e-05,
      "loss": 3.4928,
      "step": 375720
    },
    {
      "epoch": 0.7827708333333333,
      "grad_norm": 1.5069127082824707,
      "learning_rate": 3.38657109991307e-05,
      "loss": 3.4132,
      "step": 375730
    },
    {
      "epoch": 0.7827916666666667,
      "grad_norm": 1.4504402875900269,
      "learning_rate": 3.3859471711135026e-05,
      "loss": 3.5835,
      "step": 375740
    },
    {
      "epoch": 0.7828125,
      "grad_norm": 1.566718339920044,
      "learning_rate": 3.3853232924820486e-05,
      "loss": 3.5491,
      "step": 375750
    },
    {
      "epoch": 0.7828333333333334,
      "grad_norm": 1.6461955308914185,
      "learning_rate": 3.3846994640214064e-05,
      "loss": 3.3612,
      "step": 375760
    },
    {
      "epoch": 0.7828541666666666,
      "grad_norm": 1.8115482330322266,
      "learning_rate": 3.384075685734255e-05,
      "loss": 3.3749,
      "step": 375770
    },
    {
      "epoch": 0.782875,
      "grad_norm": 2.0145316123962402,
      "learning_rate": 3.383451957623303e-05,
      "loss": 3.5452,
      "step": 375780
    },
    {
      "epoch": 0.7828958333333333,
      "grad_norm": 1.912797451019287,
      "learning_rate": 3.382828279691244e-05,
      "loss": 3.3904,
      "step": 375790
    },
    {
      "epoch": 0.7829166666666667,
      "grad_norm": 1.7599575519561768,
      "learning_rate": 3.3822046519407625e-05,
      "loss": 3.364,
      "step": 375800
    },
    {
      "epoch": 0.7829375,
      "grad_norm": 1.7570151090621948,
      "learning_rate": 3.3815810743745644e-05,
      "loss": 3.4077,
      "step": 375810
    },
    {
      "epoch": 0.7829583333333333,
      "grad_norm": 1.8594293594360352,
      "learning_rate": 3.3809575469953334e-05,
      "loss": 3.4367,
      "step": 375820
    },
    {
      "epoch": 0.7829791666666667,
      "grad_norm": 1.67894446849823,
      "learning_rate": 3.380334069805764e-05,
      "loss": 3.4131,
      "step": 375830
    },
    {
      "epoch": 0.783,
      "grad_norm": 1.6504617929458618,
      "learning_rate": 3.379710642808558e-05,
      "loss": 3.3761,
      "step": 375840
    },
    {
      "epoch": 0.7830208333333334,
      "grad_norm": 1.466855764389038,
      "learning_rate": 3.3790872660064e-05,
      "loss": 3.4226,
      "step": 375850
    },
    {
      "epoch": 0.7830416666666666,
      "grad_norm": 2.1776974201202393,
      "learning_rate": 3.37846393940198e-05,
      "loss": 3.5556,
      "step": 375860
    },
    {
      "epoch": 0.7830625,
      "grad_norm": 1.5436614751815796,
      "learning_rate": 3.377840662998005e-05,
      "loss": 3.4967,
      "step": 375870
    },
    {
      "epoch": 0.7830833333333334,
      "grad_norm": 1.619884967803955,
      "learning_rate": 3.377217436797153e-05,
      "loss": 3.5457,
      "step": 375880
    },
    {
      "epoch": 0.7831041666666667,
      "grad_norm": 1.4828799962997437,
      "learning_rate": 3.3765942608021164e-05,
      "loss": 3.4603,
      "step": 375890
    },
    {
      "epoch": 0.783125,
      "grad_norm": 1.7000623941421509,
      "learning_rate": 3.375971135015602e-05,
      "loss": 3.5203,
      "step": 375900
    },
    {
      "epoch": 0.7831458333333333,
      "grad_norm": 1.806800127029419,
      "learning_rate": 3.375348059440286e-05,
      "loss": 3.4369,
      "step": 375910
    },
    {
      "epoch": 0.7831666666666667,
      "grad_norm": 1.5847764015197754,
      "learning_rate": 3.374725034078864e-05,
      "loss": 3.4858,
      "step": 375920
    },
    {
      "epoch": 0.7831875,
      "grad_norm": 2.4524309635162354,
      "learning_rate": 3.3741020589340286e-05,
      "loss": 3.4037,
      "step": 375930
    },
    {
      "epoch": 0.7832083333333333,
      "grad_norm": 1.7770518064498901,
      "learning_rate": 3.3734791340084714e-05,
      "loss": 3.4572,
      "step": 375940
    },
    {
      "epoch": 0.7832291666666666,
      "grad_norm": 1.664594054222107,
      "learning_rate": 3.3728562593048814e-05,
      "loss": 3.2686,
      "step": 375950
    },
    {
      "epoch": 0.78325,
      "grad_norm": 1.6159018278121948,
      "learning_rate": 3.372233434825951e-05,
      "loss": 3.4105,
      "step": 375960
    },
    {
      "epoch": 0.7832708333333334,
      "grad_norm": 1.4962157011032104,
      "learning_rate": 3.371610660574369e-05,
      "loss": 3.4034,
      "step": 375970
    },
    {
      "epoch": 0.7832916666666667,
      "grad_norm": 1.5727964639663696,
      "learning_rate": 3.3709879365528256e-05,
      "loss": 3.4853,
      "step": 375980
    },
    {
      "epoch": 0.7833125,
      "grad_norm": 1.945448398590088,
      "learning_rate": 3.3703652627640114e-05,
      "loss": 3.4987,
      "step": 375990
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 1.6958409547805786,
      "learning_rate": 3.369742639210615e-05,
      "loss": 3.5199,
      "step": 376000
    },
    {
      "epoch": 0.7833333333333333,
      "eval_loss": 3.5299782752990723,
      "eval_runtime": 6.8523,
      "eval_samples_per_second": 1.459,
      "eval_steps_per_second": 0.438,
      "step": 376000
    },
    {
      "epoch": 0.7833541666666667,
      "grad_norm": 1.5589191913604736,
      "learning_rate": 3.369120065895329e-05,
      "loss": 3.533,
      "step": 376010
    },
    {
      "epoch": 0.783375,
      "grad_norm": 1.6923015117645264,
      "learning_rate": 3.36849754282084e-05,
      "loss": 3.2543,
      "step": 376020
    },
    {
      "epoch": 0.7833958333333333,
      "grad_norm": 1.7286990880966187,
      "learning_rate": 3.367875069989837e-05,
      "loss": 3.3513,
      "step": 376030
    },
    {
      "epoch": 0.7834166666666667,
      "grad_norm": 1.8567808866500854,
      "learning_rate": 3.367252647405014e-05,
      "loss": 3.4301,
      "step": 376040
    },
    {
      "epoch": 0.7834375,
      "grad_norm": 1.6606558561325073,
      "learning_rate": 3.366630275069046e-05,
      "loss": 3.4089,
      "step": 376050
    },
    {
      "epoch": 0.7834583333333334,
      "grad_norm": 1.6835182905197144,
      "learning_rate": 3.3660079529846345e-05,
      "loss": 3.4748,
      "step": 376060
    },
    {
      "epoch": 0.7834791666666666,
      "grad_norm": 1.5770666599273682,
      "learning_rate": 3.365385681154467e-05,
      "loss": 3.4856,
      "step": 376070
    },
    {
      "epoch": 0.7835,
      "grad_norm": 1.6535414457321167,
      "learning_rate": 3.364763459581222e-05,
      "loss": 3.3008,
      "step": 376080
    },
    {
      "epoch": 0.7835208333333333,
      "grad_norm": 1.9938132762908936,
      "learning_rate": 3.3641412882675964e-05,
      "loss": 3.4623,
      "step": 376090
    },
    {
      "epoch": 0.7835416666666667,
      "grad_norm": 1.7965812683105469,
      "learning_rate": 3.363519167216278e-05,
      "loss": 3.5887,
      "step": 376100
    },
    {
      "epoch": 0.7835625,
      "grad_norm": 1.5378409624099731,
      "learning_rate": 3.362897096429944e-05,
      "loss": 3.2339,
      "step": 376110
    },
    {
      "epoch": 0.7835833333333333,
      "grad_norm": 1.522247552871704,
      "learning_rate": 3.3622750759112915e-05,
      "loss": 3.4096,
      "step": 376120
    },
    {
      "epoch": 0.7836041666666667,
      "grad_norm": 1.5833382606506348,
      "learning_rate": 3.361653105663007e-05,
      "loss": 3.4149,
      "step": 376130
    },
    {
      "epoch": 0.783625,
      "grad_norm": 1.7535860538482666,
      "learning_rate": 3.361031185687768e-05,
      "loss": 3.5001,
      "step": 376140
    },
    {
      "epoch": 0.7836458333333334,
      "grad_norm": 1.5740307569503784,
      "learning_rate": 3.3604093159882713e-05,
      "loss": 3.4708,
      "step": 376150
    },
    {
      "epoch": 0.7836666666666666,
      "grad_norm": 2.4653804302215576,
      "learning_rate": 3.359787496567202e-05,
      "loss": 3.412,
      "step": 376160
    },
    {
      "epoch": 0.7836875,
      "grad_norm": 1.7486668825149536,
      "learning_rate": 3.359165727427236e-05,
      "loss": 3.3916,
      "step": 376170
    },
    {
      "epoch": 0.7837083333333333,
      "grad_norm": 1.6621325016021729,
      "learning_rate": 3.358544008571074e-05,
      "loss": 3.474,
      "step": 376180
    },
    {
      "epoch": 0.7837291666666667,
      "grad_norm": 1.5218507051467896,
      "learning_rate": 3.357922340001389e-05,
      "loss": 3.4415,
      "step": 376190
    },
    {
      "epoch": 0.78375,
      "grad_norm": 2.102513551712036,
      "learning_rate": 3.357300721720868e-05,
      "loss": 3.3893,
      "step": 376200
    },
    {
      "epoch": 0.7837708333333333,
      "grad_norm": 1.5803102254867554,
      "learning_rate": 3.356679153732209e-05,
      "loss": 3.4584,
      "step": 376210
    },
    {
      "epoch": 0.7837916666666667,
      "grad_norm": 1.626449704170227,
      "learning_rate": 3.356057636038082e-05,
      "loss": 3.523,
      "step": 376220
    },
    {
      "epoch": 0.7838125,
      "grad_norm": 1.7319879531860352,
      "learning_rate": 3.3554361686411714e-05,
      "loss": 3.4268,
      "step": 376230
    },
    {
      "epoch": 0.7838333333333334,
      "grad_norm": 1.71553373336792,
      "learning_rate": 3.354814751544178e-05,
      "loss": 3.3883,
      "step": 376240
    },
    {
      "epoch": 0.7838541666666666,
      "grad_norm": 1.986994981765747,
      "learning_rate": 3.3541933847497706e-05,
      "loss": 3.4511,
      "step": 376250
    },
    {
      "epoch": 0.783875,
      "grad_norm": 1.5773646831512451,
      "learning_rate": 3.353572068260636e-05,
      "loss": 3.5069,
      "step": 376260
    },
    {
      "epoch": 0.7838958333333333,
      "grad_norm": 1.8580347299575806,
      "learning_rate": 3.3529508020794625e-05,
      "loss": 3.5319,
      "step": 376270
    },
    {
      "epoch": 0.7839166666666667,
      "grad_norm": 1.834037184715271,
      "learning_rate": 3.35232958620893e-05,
      "loss": 3.5237,
      "step": 376280
    },
    {
      "epoch": 0.7839375,
      "grad_norm": 1.8737273216247559,
      "learning_rate": 3.3517084206517245e-05,
      "loss": 3.2807,
      "step": 376290
    },
    {
      "epoch": 0.7839583333333333,
      "grad_norm": 1.5588701963424683,
      "learning_rate": 3.3510873054105264e-05,
      "loss": 3.3915,
      "step": 376300
    },
    {
      "epoch": 0.7839791666666667,
      "grad_norm": 1.834780216217041,
      "learning_rate": 3.350466240488021e-05,
      "loss": 3.4722,
      "step": 376310
    },
    {
      "epoch": 0.784,
      "grad_norm": 1.6092427968978882,
      "learning_rate": 3.3498452258868895e-05,
      "loss": 3.4941,
      "step": 376320
    },
    {
      "epoch": 0.7840208333333333,
      "grad_norm": 1.70537269115448,
      "learning_rate": 3.349224261609816e-05,
      "loss": 3.4811,
      "step": 376330
    },
    {
      "epoch": 0.7840416666666666,
      "grad_norm": 1.5856103897094727,
      "learning_rate": 3.3486033476594825e-05,
      "loss": 3.5531,
      "step": 376340
    },
    {
      "epoch": 0.7840625,
      "grad_norm": 1.6873185634613037,
      "learning_rate": 3.3479824840385693e-05,
      "loss": 3.4331,
      "step": 376350
    },
    {
      "epoch": 0.7840833333333334,
      "grad_norm": 1.5519628524780273,
      "learning_rate": 3.347361670749761e-05,
      "loss": 3.4556,
      "step": 376360
    },
    {
      "epoch": 0.7841041666666667,
      "grad_norm": 1.4241018295288086,
      "learning_rate": 3.3467409077957364e-05,
      "loss": 3.3957,
      "step": 376370
    },
    {
      "epoch": 0.784125,
      "grad_norm": 1.5257772207260132,
      "learning_rate": 3.346120195179179e-05,
      "loss": 3.3576,
      "step": 376380
    },
    {
      "epoch": 0.7841458333333333,
      "grad_norm": 1.8231664896011353,
      "learning_rate": 3.34549953290277e-05,
      "loss": 3.4062,
      "step": 376390
    },
    {
      "epoch": 0.7841666666666667,
      "grad_norm": 1.5308096408843994,
      "learning_rate": 3.34487892096919e-05,
      "loss": 3.4923,
      "step": 376400
    },
    {
      "epoch": 0.7841875,
      "grad_norm": 1.8036831617355347,
      "learning_rate": 3.344258359381122e-05,
      "loss": 3.285,
      "step": 376410
    },
    {
      "epoch": 0.7842083333333333,
      "grad_norm": 1.5181686878204346,
      "learning_rate": 3.343637848141238e-05,
      "loss": 3.4323,
      "step": 376420
    },
    {
      "epoch": 0.7842291666666666,
      "grad_norm": 1.9085298776626587,
      "learning_rate": 3.343017387252227e-05,
      "loss": 3.4903,
      "step": 376430
    },
    {
      "epoch": 0.78425,
      "grad_norm": 1.9809995889663696,
      "learning_rate": 3.342396976716772e-05,
      "loss": 3.4455,
      "step": 376440
    },
    {
      "epoch": 0.7842708333333334,
      "grad_norm": 1.596879243850708,
      "learning_rate": 3.341776616537539e-05,
      "loss": 3.3949,
      "step": 376450
    },
    {
      "epoch": 0.7842916666666667,
      "grad_norm": 1.6444674730300903,
      "learning_rate": 3.341156306717221e-05,
      "loss": 3.456,
      "step": 376460
    },
    {
      "epoch": 0.7843125,
      "grad_norm": 1.6604939699172974,
      "learning_rate": 3.3405360472584964e-05,
      "loss": 3.414,
      "step": 376470
    },
    {
      "epoch": 0.7843333333333333,
      "grad_norm": 1.543456792831421,
      "learning_rate": 3.3399158381640326e-05,
      "loss": 3.3773,
      "step": 376480
    },
    {
      "epoch": 0.7843541666666667,
      "grad_norm": 2.073366165161133,
      "learning_rate": 3.3392956794365214e-05,
      "loss": 3.403,
      "step": 376490
    },
    {
      "epoch": 0.784375,
      "grad_norm": 1.5674484968185425,
      "learning_rate": 3.3386755710786404e-05,
      "loss": 3.526,
      "step": 376500
    },
    {
      "epoch": 0.7843958333333333,
      "grad_norm": 1.8378849029541016,
      "learning_rate": 3.338055513093057e-05,
      "loss": 3.4873,
      "step": 376510
    },
    {
      "epoch": 0.7844166666666667,
      "grad_norm": 1.6576721668243408,
      "learning_rate": 3.3374355054824635e-05,
      "loss": 3.5491,
      "step": 376520
    },
    {
      "epoch": 0.7844375,
      "grad_norm": 1.674033284187317,
      "learning_rate": 3.336815548249535e-05,
      "loss": 3.4021,
      "step": 376530
    },
    {
      "epoch": 0.7844583333333334,
      "grad_norm": 1.7558516263961792,
      "learning_rate": 3.33619564139694e-05,
      "loss": 3.3983,
      "step": 376540
    },
    {
      "epoch": 0.7844791666666666,
      "grad_norm": 1.8146936893463135,
      "learning_rate": 3.335575784927369e-05,
      "loss": 3.4133,
      "step": 376550
    },
    {
      "epoch": 0.7845,
      "grad_norm": 1.6095705032348633,
      "learning_rate": 3.33495597884349e-05,
      "loss": 3.4296,
      "step": 376560
    },
    {
      "epoch": 0.7845208333333333,
      "grad_norm": 1.5702208280563354,
      "learning_rate": 3.334336223147985e-05,
      "loss": 3.3534,
      "step": 376570
    },
    {
      "epoch": 0.7845416666666667,
      "grad_norm": 1.7034229040145874,
      "learning_rate": 3.33371651784353e-05,
      "loss": 3.3541,
      "step": 376580
    },
    {
      "epoch": 0.7845625,
      "grad_norm": 1.6194415092468262,
      "learning_rate": 3.3330968629328006e-05,
      "loss": 3.3983,
      "step": 376590
    },
    {
      "epoch": 0.7845833333333333,
      "grad_norm": 1.8360248804092407,
      "learning_rate": 3.3324772584184746e-05,
      "loss": 3.5495,
      "step": 376600
    },
    {
      "epoch": 0.7846041666666667,
      "grad_norm": 1.7211124897003174,
      "learning_rate": 3.33185770430323e-05,
      "loss": 3.4635,
      "step": 376610
    },
    {
      "epoch": 0.784625,
      "grad_norm": 1.5145140886306763,
      "learning_rate": 3.33123820058974e-05,
      "loss": 3.3841,
      "step": 376620
    },
    {
      "epoch": 0.7846458333333334,
      "grad_norm": 1.9036974906921387,
      "learning_rate": 3.3306187472806826e-05,
      "loss": 3.3889,
      "step": 376630
    },
    {
      "epoch": 0.7846666666666666,
      "grad_norm": 1.9818871021270752,
      "learning_rate": 3.329999344378734e-05,
      "loss": 3.3349,
      "step": 376640
    },
    {
      "epoch": 0.7846875,
      "grad_norm": 1.539868950843811,
      "learning_rate": 3.329379991886568e-05,
      "loss": 3.4244,
      "step": 376650
    },
    {
      "epoch": 0.7847083333333333,
      "grad_norm": 1.6158255338668823,
      "learning_rate": 3.3287606898068606e-05,
      "loss": 3.4537,
      "step": 376660
    },
    {
      "epoch": 0.7847291666666667,
      "grad_norm": 1.748618245124817,
      "learning_rate": 3.3281414381422874e-05,
      "loss": 3.471,
      "step": 376670
    },
    {
      "epoch": 0.78475,
      "grad_norm": 1.5404348373413086,
      "learning_rate": 3.327522236895523e-05,
      "loss": 3.3583,
      "step": 376680
    },
    {
      "epoch": 0.7847708333333333,
      "grad_norm": 1.9882924556732178,
      "learning_rate": 3.326903086069244e-05,
      "loss": 3.3533,
      "step": 376690
    },
    {
      "epoch": 0.7847916666666667,
      "grad_norm": 1.7687432765960693,
      "learning_rate": 3.3262839856661214e-05,
      "loss": 3.3758,
      "step": 376700
    },
    {
      "epoch": 0.7848125,
      "grad_norm": 1.897641658782959,
      "learning_rate": 3.3256649356888317e-05,
      "loss": 3.3741,
      "step": 376710
    },
    {
      "epoch": 0.7848333333333334,
      "grad_norm": 1.630041241645813,
      "learning_rate": 3.325045936140048e-05,
      "loss": 3.4951,
      "step": 376720
    },
    {
      "epoch": 0.7848541666666666,
      "grad_norm": 1.674315333366394,
      "learning_rate": 3.324426987022444e-05,
      "loss": 3.4444,
      "step": 376730
    },
    {
      "epoch": 0.784875,
      "grad_norm": 1.6159852743148804,
      "learning_rate": 3.323808088338696e-05,
      "loss": 3.5828,
      "step": 376740
    },
    {
      "epoch": 0.7848958333333333,
      "grad_norm": 1.9461023807525635,
      "learning_rate": 3.323189240091474e-05,
      "loss": 3.3313,
      "step": 376750
    },
    {
      "epoch": 0.7849166666666667,
      "grad_norm": 2.02693510055542,
      "learning_rate": 3.322570442283453e-05,
      "loss": 3.4331,
      "step": 376760
    },
    {
      "epoch": 0.7849375,
      "grad_norm": 1.7159326076507568,
      "learning_rate": 3.3219516949173045e-05,
      "loss": 3.3787,
      "step": 376770
    },
    {
      "epoch": 0.7849583333333333,
      "grad_norm": 1.803644061088562,
      "learning_rate": 3.3213329979957064e-05,
      "loss": 3.4189,
      "step": 376780
    },
    {
      "epoch": 0.7849791666666667,
      "grad_norm": 1.856734037399292,
      "learning_rate": 3.32071435152132e-05,
      "loss": 3.4341,
      "step": 376790
    },
    {
      "epoch": 0.785,
      "grad_norm": 1.702516794204712,
      "learning_rate": 3.320095755496829e-05,
      "loss": 3.4371,
      "step": 376800
    },
    {
      "epoch": 0.7850208333333333,
      "grad_norm": 1.7742522954940796,
      "learning_rate": 3.319477209924903e-05,
      "loss": 3.4632,
      "step": 376810
    },
    {
      "epoch": 0.7850416666666666,
      "grad_norm": 1.651965856552124,
      "learning_rate": 3.318858714808205e-05,
      "loss": 3.4204,
      "step": 376820
    },
    {
      "epoch": 0.7850625,
      "grad_norm": 1.8250110149383545,
      "learning_rate": 3.318240270149419e-05,
      "loss": 3.3471,
      "step": 376830
    },
    {
      "epoch": 0.7850833333333334,
      "grad_norm": 1.4325454235076904,
      "learning_rate": 3.3176218759512135e-05,
      "loss": 3.5747,
      "step": 376840
    },
    {
      "epoch": 0.7851041666666667,
      "grad_norm": 1.6621935367584229,
      "learning_rate": 3.3170035322162536e-05,
      "loss": 3.5354,
      "step": 376850
    },
    {
      "epoch": 0.785125,
      "grad_norm": 1.7407407760620117,
      "learning_rate": 3.31638523894721e-05,
      "loss": 3.5693,
      "step": 376860
    },
    {
      "epoch": 0.7851458333333333,
      "grad_norm": 1.97837495803833,
      "learning_rate": 3.3157669961467645e-05,
      "loss": 3.3682,
      "step": 376870
    },
    {
      "epoch": 0.7851666666666667,
      "grad_norm": 1.7059880495071411,
      "learning_rate": 3.315148803817579e-05,
      "loss": 3.3954,
      "step": 376880
    },
    {
      "epoch": 0.7851875,
      "grad_norm": 1.6105061769485474,
      "learning_rate": 3.314530661962319e-05,
      "loss": 3.4275,
      "step": 376890
    },
    {
      "epoch": 0.7852083333333333,
      "grad_norm": 1.726826548576355,
      "learning_rate": 3.313912570583671e-05,
      "loss": 3.5006,
      "step": 376900
    },
    {
      "epoch": 0.7852291666666666,
      "grad_norm": 1.6434733867645264,
      "learning_rate": 3.313294529684289e-05,
      "loss": 3.4897,
      "step": 376910
    },
    {
      "epoch": 0.78525,
      "grad_norm": 2.0192062854766846,
      "learning_rate": 3.3126765392668496e-05,
      "loss": 3.5123,
      "step": 376920
    },
    {
      "epoch": 0.7852708333333334,
      "grad_norm": 1.7997771501541138,
      "learning_rate": 3.312058599334023e-05,
      "loss": 3.4978,
      "step": 376930
    },
    {
      "epoch": 0.7852916666666667,
      "grad_norm": 1.5679031610488892,
      "learning_rate": 3.311440709888474e-05,
      "loss": 3.3334,
      "step": 376940
    },
    {
      "epoch": 0.7853125,
      "grad_norm": 1.622809886932373,
      "learning_rate": 3.3108228709328774e-05,
      "loss": 3.3828,
      "step": 376950
    },
    {
      "epoch": 0.7853333333333333,
      "grad_norm": 1.6539015769958496,
      "learning_rate": 3.310205082469898e-05,
      "loss": 3.343,
      "step": 376960
    },
    {
      "epoch": 0.7853541666666667,
      "grad_norm": 1.748199462890625,
      "learning_rate": 3.309587344502204e-05,
      "loss": 3.4746,
      "step": 376970
    },
    {
      "epoch": 0.785375,
      "grad_norm": 1.6501882076263428,
      "learning_rate": 3.308969657032466e-05,
      "loss": 3.3548,
      "step": 376980
    },
    {
      "epoch": 0.7853958333333333,
      "grad_norm": 1.6387299299240112,
      "learning_rate": 3.308352020063352e-05,
      "loss": 3.5217,
      "step": 376990
    },
    {
      "epoch": 0.7854166666666667,
      "grad_norm": 1.5029563903808594,
      "learning_rate": 3.3077344335975296e-05,
      "loss": 3.5487,
      "step": 377000
    },
    {
      "epoch": 0.7854166666666667,
      "eval_loss": 3.5292000770568848,
      "eval_runtime": 6.8805,
      "eval_samples_per_second": 1.453,
      "eval_steps_per_second": 0.436,
      "step": 377000
    },
    {
      "epoch": 0.7854375,
      "grad_norm": 1.65476655960083,
      "learning_rate": 3.307116897637667e-05,
      "loss": 3.3717,
      "step": 377010
    },
    {
      "epoch": 0.7854583333333334,
      "grad_norm": 1.7358120679855347,
      "learning_rate": 3.306499412186431e-05,
      "loss": 3.5155,
      "step": 377020
    },
    {
      "epoch": 0.7854791666666666,
      "grad_norm": 1.6601866483688354,
      "learning_rate": 3.305881977246487e-05,
      "loss": 3.4486,
      "step": 377030
    },
    {
      "epoch": 0.7855,
      "grad_norm": 2.0741448402404785,
      "learning_rate": 3.3052645928205056e-05,
      "loss": 3.3927,
      "step": 377040
    },
    {
      "epoch": 0.7855208333333333,
      "grad_norm": 1.614817500114441,
      "learning_rate": 3.30464725891115e-05,
      "loss": 3.4519,
      "step": 377050
    },
    {
      "epoch": 0.7855416666666667,
      "grad_norm": 1.8284138441085815,
      "learning_rate": 3.304029975521091e-05,
      "loss": 3.4711,
      "step": 377060
    },
    {
      "epoch": 0.7855625,
      "grad_norm": 1.6759158372879028,
      "learning_rate": 3.303412742652993e-05,
      "loss": 3.5127,
      "step": 377070
    },
    {
      "epoch": 0.7855833333333333,
      "grad_norm": 1.6553493738174438,
      "learning_rate": 3.302795560309521e-05,
      "loss": 3.5414,
      "step": 377080
    },
    {
      "epoch": 0.7856041666666667,
      "grad_norm": 1.4878103733062744,
      "learning_rate": 3.3021784284933426e-05,
      "loss": 3.257,
      "step": 377090
    },
    {
      "epoch": 0.785625,
      "grad_norm": 1.7174478769302368,
      "learning_rate": 3.301561347207123e-05,
      "loss": 3.4398,
      "step": 377100
    },
    {
      "epoch": 0.7856458333333334,
      "grad_norm": 1.707951545715332,
      "learning_rate": 3.300944316453529e-05,
      "loss": 3.4025,
      "step": 377110
    },
    {
      "epoch": 0.7856666666666666,
      "grad_norm": 1.8206448554992676,
      "learning_rate": 3.3003273362352234e-05,
      "loss": 3.402,
      "step": 377120
    },
    {
      "epoch": 0.7856875,
      "grad_norm": 1.8022874593734741,
      "learning_rate": 3.299710406554877e-05,
      "loss": 3.4454,
      "step": 377130
    },
    {
      "epoch": 0.7857083333333333,
      "grad_norm": 1.8407814502716064,
      "learning_rate": 3.299093527415142e-05,
      "loss": 3.4481,
      "step": 377140
    },
    {
      "epoch": 0.7857291666666667,
      "grad_norm": 1.5477460622787476,
      "learning_rate": 3.298476698818695e-05,
      "loss": 3.5926,
      "step": 377150
    },
    {
      "epoch": 0.78575,
      "grad_norm": 1.888209342956543,
      "learning_rate": 3.297859920768202e-05,
      "loss": 3.4644,
      "step": 377160
    },
    {
      "epoch": 0.7857708333333333,
      "grad_norm": 1.570522665977478,
      "learning_rate": 3.297243193266313e-05,
      "loss": 3.3668,
      "step": 377170
    },
    {
      "epoch": 0.7857916666666667,
      "grad_norm": 1.6604505777359009,
      "learning_rate": 3.29662651631571e-05,
      "loss": 3.4682,
      "step": 377180
    },
    {
      "epoch": 0.7858125,
      "grad_norm": 1.555739402770996,
      "learning_rate": 3.2960098899190435e-05,
      "loss": 3.5386,
      "step": 377190
    },
    {
      "epoch": 0.7858333333333334,
      "grad_norm": 1.734359622001648,
      "learning_rate": 3.295393314078977e-05,
      "loss": 3.3617,
      "step": 377200
    },
    {
      "epoch": 0.7858541666666666,
      "grad_norm": 1.674141764640808,
      "learning_rate": 3.294776788798188e-05,
      "loss": 3.4549,
      "step": 377210
    },
    {
      "epoch": 0.785875,
      "grad_norm": 1.9018303155899048,
      "learning_rate": 3.294160314079325e-05,
      "loss": 3.5697,
      "step": 377220
    },
    {
      "epoch": 0.7858958333333333,
      "grad_norm": 1.6365493535995483,
      "learning_rate": 3.293543889925053e-05,
      "loss": 3.442,
      "step": 377230
    },
    {
      "epoch": 0.7859166666666667,
      "grad_norm": 1.7748843431472778,
      "learning_rate": 3.292927516338044e-05,
      "loss": 3.4306,
      "step": 377240
    },
    {
      "epoch": 0.7859375,
      "grad_norm": 1.6479933261871338,
      "learning_rate": 3.29231119332095e-05,
      "loss": 3.4352,
      "step": 377250
    },
    {
      "epoch": 0.7859583333333333,
      "grad_norm": 2.291630983352661,
      "learning_rate": 3.2916949208764345e-05,
      "loss": 3.5392,
      "step": 377260
    },
    {
      "epoch": 0.7859791666666667,
      "grad_norm": 1.8179118633270264,
      "learning_rate": 3.291078699007171e-05,
      "loss": 3.4575,
      "step": 377270
    },
    {
      "epoch": 0.786,
      "grad_norm": 1.7759181261062622,
      "learning_rate": 3.290462527715808e-05,
      "loss": 3.3689,
      "step": 377280
    },
    {
      "epoch": 0.7860208333333333,
      "grad_norm": 1.7322005033493042,
      "learning_rate": 3.289846407005008e-05,
      "loss": 3.422,
      "step": 377290
    },
    {
      "epoch": 0.7860416666666666,
      "grad_norm": 1.670040488243103,
      "learning_rate": 3.2892303368774433e-05,
      "loss": 3.4849,
      "step": 377300
    },
    {
      "epoch": 0.7860625,
      "grad_norm": 1.8065779209136963,
      "learning_rate": 3.288614317335767e-05,
      "loss": 3.3489,
      "step": 377310
    },
    {
      "epoch": 0.7860833333333334,
      "grad_norm": 1.6640506982803345,
      "learning_rate": 3.2879983483826375e-05,
      "loss": 3.483,
      "step": 377320
    },
    {
      "epoch": 0.7861041666666667,
      "grad_norm": 1.6783393621444702,
      "learning_rate": 3.2873824300207215e-05,
      "loss": 3.2698,
      "step": 377330
    },
    {
      "epoch": 0.786125,
      "grad_norm": 1.5898098945617676,
      "learning_rate": 3.2867665622526764e-05,
      "loss": 3.404,
      "step": 377340
    },
    {
      "epoch": 0.7861458333333333,
      "grad_norm": 1.75833261013031,
      "learning_rate": 3.286150745081164e-05,
      "loss": 3.5748,
      "step": 377350
    },
    {
      "epoch": 0.7861666666666667,
      "grad_norm": 1.847590446472168,
      "learning_rate": 3.2855349785088436e-05,
      "loss": 3.4819,
      "step": 377360
    },
    {
      "epoch": 0.7861875,
      "grad_norm": 1.5909332036972046,
      "learning_rate": 3.2849192625383746e-05,
      "loss": 3.496,
      "step": 377370
    },
    {
      "epoch": 0.7862083333333333,
      "grad_norm": 1.7794418334960938,
      "learning_rate": 3.284303597172418e-05,
      "loss": 3.584,
      "step": 377380
    },
    {
      "epoch": 0.7862291666666666,
      "grad_norm": 1.7073371410369873,
      "learning_rate": 3.283687982413631e-05,
      "loss": 3.514,
      "step": 377390
    },
    {
      "epoch": 0.78625,
      "grad_norm": 1.6572455167770386,
      "learning_rate": 3.283072418264676e-05,
      "loss": 3.4802,
      "step": 377400
    },
    {
      "epoch": 0.7862708333333334,
      "grad_norm": 1.5264596939086914,
      "learning_rate": 3.2824569047282103e-05,
      "loss": 3.2629,
      "step": 377410
    },
    {
      "epoch": 0.7862916666666667,
      "grad_norm": 1.8136253356933594,
      "learning_rate": 3.281841441806891e-05,
      "loss": 3.4142,
      "step": 377420
    },
    {
      "epoch": 0.7863125,
      "grad_norm": 1.6694917678833008,
      "learning_rate": 3.281226029503379e-05,
      "loss": 3.4388,
      "step": 377430
    },
    {
      "epoch": 0.7863333333333333,
      "grad_norm": 1.6605654954910278,
      "learning_rate": 3.280610667820338e-05,
      "loss": 3.5246,
      "step": 377440
    },
    {
      "epoch": 0.7863541666666667,
      "grad_norm": 1.773903250694275,
      "learning_rate": 3.2799953567604085e-05,
      "loss": 3.5467,
      "step": 377450
    },
    {
      "epoch": 0.786375,
      "grad_norm": 1.669258952140808,
      "learning_rate": 3.279380096326267e-05,
      "loss": 3.3375,
      "step": 377460
    },
    {
      "epoch": 0.7863958333333333,
      "grad_norm": 1.6543325185775757,
      "learning_rate": 3.278764886520566e-05,
      "loss": 3.4413,
      "step": 377470
    },
    {
      "epoch": 0.7864166666666667,
      "grad_norm": 1.6005715131759644,
      "learning_rate": 3.2781497273459535e-05,
      "loss": 3.3997,
      "step": 377480
    },
    {
      "epoch": 0.7864375,
      "grad_norm": 1.8291003704071045,
      "learning_rate": 3.2775346188050994e-05,
      "loss": 3.4351,
      "step": 377490
    },
    {
      "epoch": 0.7864583333333334,
      "grad_norm": 1.490605354309082,
      "learning_rate": 3.276919560900659e-05,
      "loss": 3.3179,
      "step": 377500
    },
    {
      "epoch": 0.7864791666666666,
      "grad_norm": 1.4770938158035278,
      "learning_rate": 3.2763045536352776e-05,
      "loss": 3.4569,
      "step": 377510
    },
    {
      "epoch": 0.7865,
      "grad_norm": 1.6714671850204468,
      "learning_rate": 3.2756895970116244e-05,
      "loss": 3.3928,
      "step": 377520
    },
    {
      "epoch": 0.7865208333333333,
      "grad_norm": 2.724727153778076,
      "learning_rate": 3.2750746910323544e-05,
      "loss": 3.4858,
      "step": 377530
    },
    {
      "epoch": 0.7865416666666667,
      "grad_norm": 1.7827008962631226,
      "learning_rate": 3.2744598357001144e-05,
      "loss": 3.4667,
      "step": 377540
    },
    {
      "epoch": 0.7865625,
      "grad_norm": 1.7352814674377441,
      "learning_rate": 3.273845031017572e-05,
      "loss": 3.4196,
      "step": 377550
    },
    {
      "epoch": 0.7865833333333333,
      "grad_norm": 1.5888984203338623,
      "learning_rate": 3.273230276987376e-05,
      "loss": 3.4439,
      "step": 377560
    },
    {
      "epoch": 0.7866041666666667,
      "grad_norm": 1.6677864789962769,
      "learning_rate": 3.27261557361218e-05,
      "loss": 3.4119,
      "step": 377570
    },
    {
      "epoch": 0.786625,
      "grad_norm": 1.564686894416809,
      "learning_rate": 3.272000920894648e-05,
      "loss": 3.3433,
      "step": 377580
    },
    {
      "epoch": 0.7866458333333334,
      "grad_norm": 1.5530509948730469,
      "learning_rate": 3.271386318837427e-05,
      "loss": 3.4637,
      "step": 377590
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 1.5510897636413574,
      "learning_rate": 3.270771767443171e-05,
      "loss": 3.4006,
      "step": 377600
    },
    {
      "epoch": 0.7866875,
      "grad_norm": 1.5935367345809937,
      "learning_rate": 3.270157266714545e-05,
      "loss": 3.5534,
      "step": 377610
    },
    {
      "epoch": 0.7867083333333333,
      "grad_norm": 1.553343653678894,
      "learning_rate": 3.2695428166541946e-05,
      "loss": 3.475,
      "step": 377620
    },
    {
      "epoch": 0.7867291666666667,
      "grad_norm": 1.6355420351028442,
      "learning_rate": 3.26892841726477e-05,
      "loss": 3.4942,
      "step": 377630
    },
    {
      "epoch": 0.78675,
      "grad_norm": 1.5936970710754395,
      "learning_rate": 3.268314068548941e-05,
      "loss": 3.4042,
      "step": 377640
    },
    {
      "epoch": 0.7867708333333333,
      "grad_norm": 1.9400279521942139,
      "learning_rate": 3.267699770509346e-05,
      "loss": 3.4434,
      "step": 377650
    },
    {
      "epoch": 0.7867916666666667,
      "grad_norm": 1.7610540390014648,
      "learning_rate": 3.267085523148641e-05,
      "loss": 3.4293,
      "step": 377660
    },
    {
      "epoch": 0.7868125,
      "grad_norm": 1.6381993293762207,
      "learning_rate": 3.26647132646949e-05,
      "loss": 3.3933,
      "step": 377670
    },
    {
      "epoch": 0.7868333333333334,
      "grad_norm": 2.0077075958251953,
      "learning_rate": 3.2658571804745336e-05,
      "loss": 3.4053,
      "step": 377680
    },
    {
      "epoch": 0.7868541666666666,
      "grad_norm": 1.8707139492034912,
      "learning_rate": 3.265243085166431e-05,
      "loss": 3.4067,
      "step": 377690
    },
    {
      "epoch": 0.786875,
      "grad_norm": 1.7243655920028687,
      "learning_rate": 3.264629040547832e-05,
      "loss": 3.5304,
      "step": 377700
    },
    {
      "epoch": 0.7868958333333333,
      "grad_norm": 1.673658013343811,
      "learning_rate": 3.26401504662139e-05,
      "loss": 3.6375,
      "step": 377710
    },
    {
      "epoch": 0.7869166666666667,
      "grad_norm": 2.211357831954956,
      "learning_rate": 3.263401103389759e-05,
      "loss": 3.3997,
      "step": 377720
    },
    {
      "epoch": 0.7869375,
      "grad_norm": 1.6189042329788208,
      "learning_rate": 3.262787210855589e-05,
      "loss": 3.271,
      "step": 377730
    },
    {
      "epoch": 0.7869583333333333,
      "grad_norm": 1.5251582860946655,
      "learning_rate": 3.2621733690215324e-05,
      "loss": 3.3727,
      "step": 377740
    },
    {
      "epoch": 0.7869791666666667,
      "grad_norm": 1.7059993743896484,
      "learning_rate": 3.2615595778902414e-05,
      "loss": 3.5002,
      "step": 377750
    },
    {
      "epoch": 0.787,
      "grad_norm": 1.7841331958770752,
      "learning_rate": 3.2609458374643654e-05,
      "loss": 3.3895,
      "step": 377760
    },
    {
      "epoch": 0.7870208333333333,
      "grad_norm": 1.552886724472046,
      "learning_rate": 3.260332147746557e-05,
      "loss": 3.4027,
      "step": 377770
    },
    {
      "epoch": 0.7870416666666666,
      "grad_norm": 1.8950401544570923,
      "learning_rate": 3.259718508739471e-05,
      "loss": 3.3431,
      "step": 377780
    },
    {
      "epoch": 0.7870625,
      "grad_norm": 1.625002384185791,
      "learning_rate": 3.259104920445745e-05,
      "loss": 3.284,
      "step": 377790
    },
    {
      "epoch": 0.7870833333333334,
      "grad_norm": 1.9145338535308838,
      "learning_rate": 3.258491382868044e-05,
      "loss": 3.4414,
      "step": 377800
    },
    {
      "epoch": 0.7871041666666667,
      "grad_norm": 2.0239806175231934,
      "learning_rate": 3.2578778960090155e-05,
      "loss": 3.4958,
      "step": 377810
    },
    {
      "epoch": 0.787125,
      "grad_norm": 1.6255033016204834,
      "learning_rate": 3.2572644598712995e-05,
      "loss": 3.3728,
      "step": 377820
    },
    {
      "epoch": 0.7871458333333333,
      "grad_norm": 1.6512688398361206,
      "learning_rate": 3.2566510744575565e-05,
      "loss": 3.4209,
      "step": 377830
    },
    {
      "epoch": 0.7871666666666667,
      "grad_norm": 1.704784631729126,
      "learning_rate": 3.256037739770436e-05,
      "loss": 3.3653,
      "step": 377840
    },
    {
      "epoch": 0.7871875,
      "grad_norm": 1.5311408042907715,
      "learning_rate": 3.255424455812577e-05,
      "loss": 3.3389,
      "step": 377850
    },
    {
      "epoch": 0.7872083333333333,
      "grad_norm": 1.9669384956359863,
      "learning_rate": 3.25481122258664e-05,
      "loss": 3.2388,
      "step": 377860
    },
    {
      "epoch": 0.7872291666666666,
      "grad_norm": 1.7047638893127441,
      "learning_rate": 3.254198040095272e-05,
      "loss": 3.492,
      "step": 377870
    },
    {
      "epoch": 0.78725,
      "grad_norm": 1.6907100677490234,
      "learning_rate": 3.253584908341111e-05,
      "loss": 3.2812,
      "step": 377880
    },
    {
      "epoch": 0.7872708333333334,
      "grad_norm": 1.9863187074661255,
      "learning_rate": 3.252971827326819e-05,
      "loss": 3.3952,
      "step": 377890
    },
    {
      "epoch": 0.7872916666666666,
      "grad_norm": 1.6719388961791992,
      "learning_rate": 3.2523587970550415e-05,
      "loss": 3.4332,
      "step": 377900
    },
    {
      "epoch": 0.7873125,
      "grad_norm": 1.7450424432754517,
      "learning_rate": 3.251745817528417e-05,
      "loss": 3.5261,
      "step": 377910
    },
    {
      "epoch": 0.7873333333333333,
      "grad_norm": 1.740967035293579,
      "learning_rate": 3.2511328887496075e-05,
      "loss": 3.5739,
      "step": 377920
    },
    {
      "epoch": 0.7873541666666667,
      "grad_norm": 1.6339032649993896,
      "learning_rate": 3.25052001072125e-05,
      "loss": 3.5625,
      "step": 377930
    },
    {
      "epoch": 0.787375,
      "grad_norm": 1.614632487297058,
      "learning_rate": 3.2499071834459905e-05,
      "loss": 3.4232,
      "step": 377940
    },
    {
      "epoch": 0.7873958333333333,
      "grad_norm": 1.6540714502334595,
      "learning_rate": 3.2492944069264895e-05,
      "loss": 3.5385,
      "step": 377950
    },
    {
      "epoch": 0.7874166666666667,
      "grad_norm": 1.7456470727920532,
      "learning_rate": 3.2486816811653824e-05,
      "loss": 3.4685,
      "step": 377960
    },
    {
      "epoch": 0.7874375,
      "grad_norm": 1.7826899290084839,
      "learning_rate": 3.248069006165314e-05,
      "loss": 3.4799,
      "step": 377970
    },
    {
      "epoch": 0.7874583333333334,
      "grad_norm": 1.8000106811523438,
      "learning_rate": 3.2474563819289435e-05,
      "loss": 3.3983,
      "step": 377980
    },
    {
      "epoch": 0.7874791666666666,
      "grad_norm": 1.6856968402862549,
      "learning_rate": 3.2468438084589047e-05,
      "loss": 3.3961,
      "step": 377990
    },
    {
      "epoch": 0.7875,
      "grad_norm": 1.802272915840149,
      "learning_rate": 3.246231285757846e-05,
      "loss": 3.4923,
      "step": 378000
    },
    {
      "epoch": 0.7875,
      "eval_loss": 3.5327064990997314,
      "eval_runtime": 7.3712,
      "eval_samples_per_second": 1.357,
      "eval_steps_per_second": 0.407,
      "step": 378000
    },
    {
      "epoch": 0.7875208333333333,
      "grad_norm": 1.8617264032363892,
      "learning_rate": 3.245618813828423e-05,
      "loss": 3.4768,
      "step": 378010
    },
    {
      "epoch": 0.7875416666666667,
      "grad_norm": 1.6499271392822266,
      "learning_rate": 3.245006392673269e-05,
      "loss": 3.4338,
      "step": 378020
    },
    {
      "epoch": 0.7875625,
      "grad_norm": 1.7909821271896362,
      "learning_rate": 3.2443940222950373e-05,
      "loss": 3.3808,
      "step": 378030
    },
    {
      "epoch": 0.7875833333333333,
      "grad_norm": 1.5376425981521606,
      "learning_rate": 3.243781702696367e-05,
      "loss": 3.3833,
      "step": 378040
    },
    {
      "epoch": 0.7876041666666667,
      "grad_norm": 1.8689024448394775,
      "learning_rate": 3.2431694338799084e-05,
      "loss": 3.3794,
      "step": 378050
    },
    {
      "epoch": 0.787625,
      "grad_norm": 1.6643177270889282,
      "learning_rate": 3.242557215848303e-05,
      "loss": 3.3409,
      "step": 378060
    },
    {
      "epoch": 0.7876458333333334,
      "grad_norm": 1.6983468532562256,
      "learning_rate": 3.241945048604197e-05,
      "loss": 3.4054,
      "step": 378070
    },
    {
      "epoch": 0.7876666666666666,
      "grad_norm": 1.6336811780929565,
      "learning_rate": 3.241332932150235e-05,
      "loss": 3.1784,
      "step": 378080
    },
    {
      "epoch": 0.7876875,
      "grad_norm": 2.0828115940093994,
      "learning_rate": 3.2407208664890586e-05,
      "loss": 3.4134,
      "step": 378090
    },
    {
      "epoch": 0.7877083333333333,
      "grad_norm": 2.1337645053863525,
      "learning_rate": 3.2401088516233145e-05,
      "loss": 3.4849,
      "step": 378100
    },
    {
      "epoch": 0.7877291666666667,
      "grad_norm": 1.5515538454055786,
      "learning_rate": 3.239496887555645e-05,
      "loss": 3.3509,
      "step": 378110
    },
    {
      "epoch": 0.78775,
      "grad_norm": 1.5673818588256836,
      "learning_rate": 3.238884974288695e-05,
      "loss": 3.4219,
      "step": 378120
    },
    {
      "epoch": 0.7877708333333333,
      "grad_norm": 1.8047734498977661,
      "learning_rate": 3.2382731118251047e-05,
      "loss": 3.3984,
      "step": 378130
    },
    {
      "epoch": 0.7877916666666667,
      "grad_norm": 1.6201051473617554,
      "learning_rate": 3.237661300167521e-05,
      "loss": 3.3786,
      "step": 378140
    },
    {
      "epoch": 0.7878125,
      "grad_norm": 1.8198908567428589,
      "learning_rate": 3.237049539318582e-05,
      "loss": 3.5045,
      "step": 378150
    },
    {
      "epoch": 0.7878333333333334,
      "grad_norm": 1.8576172590255737,
      "learning_rate": 3.2364378292809354e-05,
      "loss": 3.3704,
      "step": 378160
    },
    {
      "epoch": 0.7878541666666666,
      "grad_norm": 1.8439332246780396,
      "learning_rate": 3.2358261700572194e-05,
      "loss": 3.486,
      "step": 378170
    },
    {
      "epoch": 0.787875,
      "grad_norm": 1.5494149923324585,
      "learning_rate": 3.2352145616500816e-05,
      "loss": 3.5646,
      "step": 378180
    },
    {
      "epoch": 0.7878958333333334,
      "grad_norm": 1.7078179121017456,
      "learning_rate": 3.234603004062153e-05,
      "loss": 3.3738,
      "step": 378190
    },
    {
      "epoch": 0.7879166666666667,
      "grad_norm": 1.5821486711502075,
      "learning_rate": 3.233991497296087e-05,
      "loss": 3.3987,
      "step": 378200
    },
    {
      "epoch": 0.7879375,
      "grad_norm": 1.572563648223877,
      "learning_rate": 3.233380041354523e-05,
      "loss": 3.3965,
      "step": 378210
    },
    {
      "epoch": 0.7879583333333333,
      "grad_norm": 2.1059727668762207,
      "learning_rate": 3.2327686362400926e-05,
      "loss": 3.4346,
      "step": 378220
    },
    {
      "epoch": 0.7879791666666667,
      "grad_norm": 1.9711508750915527,
      "learning_rate": 3.232157281955446e-05,
      "loss": 3.2142,
      "step": 378230
    },
    {
      "epoch": 0.788,
      "grad_norm": 1.750073790550232,
      "learning_rate": 3.2315459785032284e-05,
      "loss": 3.4251,
      "step": 378240
    },
    {
      "epoch": 0.7880208333333333,
      "grad_norm": 1.6827843189239502,
      "learning_rate": 3.230934725886065e-05,
      "loss": 3.4257,
      "step": 378250
    },
    {
      "epoch": 0.7880416666666666,
      "grad_norm": 1.714625597000122,
      "learning_rate": 3.230323524106608e-05,
      "loss": 3.3061,
      "step": 378260
    },
    {
      "epoch": 0.7880625,
      "grad_norm": 1.6093370914459229,
      "learning_rate": 3.2297123731675004e-05,
      "loss": 3.4846,
      "step": 378270
    },
    {
      "epoch": 0.7880833333333334,
      "grad_norm": 1.7858597040176392,
      "learning_rate": 3.229101273071368e-05,
      "loss": 3.5452,
      "step": 378280
    },
    {
      "epoch": 0.7881041666666667,
      "grad_norm": 1.6470900774002075,
      "learning_rate": 3.228490223820866e-05,
      "loss": 3.3351,
      "step": 378290
    },
    {
      "epoch": 0.788125,
      "grad_norm": 1.6647694110870361,
      "learning_rate": 3.227879225418623e-05,
      "loss": 3.4185,
      "step": 378300
    },
    {
      "epoch": 0.7881458333333333,
      "grad_norm": 1.6220965385437012,
      "learning_rate": 3.227268277867282e-05,
      "loss": 3.3812,
      "step": 378310
    },
    {
      "epoch": 0.7881666666666667,
      "grad_norm": 1.683631181716919,
      "learning_rate": 3.226657381169482e-05,
      "loss": 3.454,
      "step": 378320
    },
    {
      "epoch": 0.7881875,
      "grad_norm": 1.6621266603469849,
      "learning_rate": 3.226046535327862e-05,
      "loss": 3.4959,
      "step": 378330
    },
    {
      "epoch": 0.7882083333333333,
      "grad_norm": 1.9185596704483032,
      "learning_rate": 3.225435740345062e-05,
      "loss": 3.4676,
      "step": 378340
    },
    {
      "epoch": 0.7882291666666666,
      "grad_norm": 1.7348114252090454,
      "learning_rate": 3.2248249962237175e-05,
      "loss": 3.3274,
      "step": 378350
    },
    {
      "epoch": 0.78825,
      "grad_norm": 1.7998716831207275,
      "learning_rate": 3.224214302966467e-05,
      "loss": 3.455,
      "step": 378360
    },
    {
      "epoch": 0.7882708333333334,
      "grad_norm": 1.5562360286712646,
      "learning_rate": 3.223603660575951e-05,
      "loss": 3.5234,
      "step": 378370
    },
    {
      "epoch": 0.7882916666666666,
      "grad_norm": 1.8621811866760254,
      "learning_rate": 3.222993069054805e-05,
      "loss": 3.4083,
      "step": 378380
    },
    {
      "epoch": 0.7883125,
      "grad_norm": 1.4937995672225952,
      "learning_rate": 3.2223825284056676e-05,
      "loss": 3.4966,
      "step": 378390
    },
    {
      "epoch": 0.7883333333333333,
      "grad_norm": 1.8486597537994385,
      "learning_rate": 3.221772038631176e-05,
      "loss": 3.4654,
      "step": 378400
    },
    {
      "epoch": 0.7883541666666667,
      "grad_norm": 2.3382129669189453,
      "learning_rate": 3.221161599733967e-05,
      "loss": 3.2904,
      "step": 378410
    },
    {
      "epoch": 0.788375,
      "grad_norm": 2.0437729358673096,
      "learning_rate": 3.220551211716677e-05,
      "loss": 3.3938,
      "step": 378420
    },
    {
      "epoch": 0.7883958333333333,
      "grad_norm": 1.569146752357483,
      "learning_rate": 3.2199408745819446e-05,
      "loss": 3.3063,
      "step": 378430
    },
    {
      "epoch": 0.7884166666666667,
      "grad_norm": 1.7164230346679688,
      "learning_rate": 3.2193305883324036e-05,
      "loss": 3.3367,
      "step": 378440
    },
    {
      "epoch": 0.7884375,
      "grad_norm": 1.6191372871398926,
      "learning_rate": 3.218720352970692e-05,
      "loss": 3.394,
      "step": 378450
    },
    {
      "epoch": 0.7884583333333334,
      "grad_norm": 2.034026622772217,
      "learning_rate": 3.218110168499443e-05,
      "loss": 3.4843,
      "step": 378460
    },
    {
      "epoch": 0.7884791666666666,
      "grad_norm": 1.7262518405914307,
      "learning_rate": 3.217500034921296e-05,
      "loss": 3.5361,
      "step": 378470
    },
    {
      "epoch": 0.7885,
      "grad_norm": 1.7588286399841309,
      "learning_rate": 3.216889952238886e-05,
      "loss": 3.3675,
      "step": 378480
    },
    {
      "epoch": 0.7885208333333333,
      "grad_norm": 1.6371843814849854,
      "learning_rate": 3.2162799204548455e-05,
      "loss": 3.3579,
      "step": 378490
    },
    {
      "epoch": 0.7885416666666667,
      "grad_norm": 1.7600061893463135,
      "learning_rate": 3.2156699395718134e-05,
      "loss": 3.4895,
      "step": 378500
    },
    {
      "epoch": 0.7885625,
      "grad_norm": 1.6254101991653442,
      "learning_rate": 3.215060009592421e-05,
      "loss": 3.3291,
      "step": 378510
    },
    {
      "epoch": 0.7885833333333333,
      "grad_norm": 1.5785735845565796,
      "learning_rate": 3.214450130519305e-05,
      "loss": 3.3798,
      "step": 378520
    },
    {
      "epoch": 0.7886041666666667,
      "grad_norm": 1.7299503087997437,
      "learning_rate": 3.213840302355099e-05,
      "loss": 3.4019,
      "step": 378530
    },
    {
      "epoch": 0.788625,
      "grad_norm": 1.5828536748886108,
      "learning_rate": 3.213230525102439e-05,
      "loss": 3.4376,
      "step": 378540
    },
    {
      "epoch": 0.7886458333333334,
      "grad_norm": 2.019491672515869,
      "learning_rate": 3.212620798763961e-05,
      "loss": 3.3447,
      "step": 378550
    },
    {
      "epoch": 0.7886666666666666,
      "grad_norm": 1.6854296922683716,
      "learning_rate": 3.212011123342286e-05,
      "loss": 3.4735,
      "step": 378560
    },
    {
      "epoch": 0.7886875,
      "grad_norm": 1.5291284322738647,
      "learning_rate": 3.211401498840062e-05,
      "loss": 3.4185,
      "step": 378570
    },
    {
      "epoch": 0.7887083333333333,
      "grad_norm": 1.6604498624801636,
      "learning_rate": 3.2107919252599214e-05,
      "loss": 3.4241,
      "step": 378580
    },
    {
      "epoch": 0.7887291666666667,
      "grad_norm": 1.5536445379257202,
      "learning_rate": 3.210182402604485e-05,
      "loss": 3.5025,
      "step": 378590
    },
    {
      "epoch": 0.78875,
      "grad_norm": 1.8445147275924683,
      "learning_rate": 3.209572930876397e-05,
      "loss": 3.471,
      "step": 378600
    },
    {
      "epoch": 0.7887708333333333,
      "grad_norm": 1.706600546836853,
      "learning_rate": 3.2089635100782935e-05,
      "loss": 3.6123,
      "step": 378610
    },
    {
      "epoch": 0.7887916666666667,
      "grad_norm": 1.646360993385315,
      "learning_rate": 3.208354140212794e-05,
      "loss": 3.4932,
      "step": 378620
    },
    {
      "epoch": 0.7888125,
      "grad_norm": 1.672743320465088,
      "learning_rate": 3.2077448212825346e-05,
      "loss": 3.4952,
      "step": 378630
    },
    {
      "epoch": 0.7888333333333334,
      "grad_norm": 1.6828526258468628,
      "learning_rate": 3.207135553290157e-05,
      "loss": 3.4906,
      "step": 378640
    },
    {
      "epoch": 0.7888541666666666,
      "grad_norm": 1.6884360313415527,
      "learning_rate": 3.206526336238282e-05,
      "loss": 3.376,
      "step": 378650
    },
    {
      "epoch": 0.788875,
      "grad_norm": 1.9005156755447388,
      "learning_rate": 3.2059171701295406e-05,
      "loss": 3.53,
      "step": 378660
    },
    {
      "epoch": 0.7888958333333334,
      "grad_norm": 2.0228271484375,
      "learning_rate": 3.205308054966577e-05,
      "loss": 3.5369,
      "step": 378670
    },
    {
      "epoch": 0.7889166666666667,
      "grad_norm": 1.737466812133789,
      "learning_rate": 3.204698990752011e-05,
      "loss": 3.6393,
      "step": 378680
    },
    {
      "epoch": 0.7889375,
      "grad_norm": 1.9986127614974976,
      "learning_rate": 3.204089977488475e-05,
      "loss": 3.3892,
      "step": 378690
    },
    {
      "epoch": 0.7889583333333333,
      "grad_norm": 1.469437837600708,
      "learning_rate": 3.2034810151786015e-05,
      "loss": 3.4728,
      "step": 378700
    },
    {
      "epoch": 0.7889791666666667,
      "grad_norm": 1.6256723403930664,
      "learning_rate": 3.202872103825021e-05,
      "loss": 3.4992,
      "step": 378710
    },
    {
      "epoch": 0.789,
      "grad_norm": 1.5302075147628784,
      "learning_rate": 3.202263243430364e-05,
      "loss": 3.482,
      "step": 378720
    },
    {
      "epoch": 0.7890208333333333,
      "grad_norm": 1.6264468431472778,
      "learning_rate": 3.2016544339972585e-05,
      "loss": 3.5229,
      "step": 378730
    },
    {
      "epoch": 0.7890416666666666,
      "grad_norm": 1.7251746654510498,
      "learning_rate": 3.201045675528336e-05,
      "loss": 3.4171,
      "step": 378740
    },
    {
      "epoch": 0.7890625,
      "grad_norm": 2.6483983993530273,
      "learning_rate": 3.200436968026227e-05,
      "loss": 3.4155,
      "step": 378750
    },
    {
      "epoch": 0.7890833333333334,
      "grad_norm": 1.711798906326294,
      "learning_rate": 3.199828311493558e-05,
      "loss": 3.3463,
      "step": 378760
    },
    {
      "epoch": 0.7891041666666667,
      "grad_norm": 1.6063717603683472,
      "learning_rate": 3.1992197059329623e-05,
      "loss": 3.3371,
      "step": 378770
    },
    {
      "epoch": 0.789125,
      "grad_norm": 1.580049753189087,
      "learning_rate": 3.198611151347063e-05,
      "loss": 3.3691,
      "step": 378780
    },
    {
      "epoch": 0.7891458333333333,
      "grad_norm": 1.750573754310608,
      "learning_rate": 3.198002647738496e-05,
      "loss": 3.5196,
      "step": 378790
    },
    {
      "epoch": 0.7891666666666667,
      "grad_norm": 1.7793231010437012,
      "learning_rate": 3.1973941951098834e-05,
      "loss": 3.5619,
      "step": 378800
    },
    {
      "epoch": 0.7891875,
      "grad_norm": 1.7606377601623535,
      "learning_rate": 3.196785793463857e-05,
      "loss": 3.47,
      "step": 378810
    },
    {
      "epoch": 0.7892083333333333,
      "grad_norm": 1.8364242315292358,
      "learning_rate": 3.196177442803043e-05,
      "loss": 3.3511,
      "step": 378820
    },
    {
      "epoch": 0.7892291666666666,
      "grad_norm": 1.8222659826278687,
      "learning_rate": 3.1955691431300705e-05,
      "loss": 3.3206,
      "step": 378830
    },
    {
      "epoch": 0.78925,
      "grad_norm": 1.6085609197616577,
      "learning_rate": 3.194960894447568e-05,
      "loss": 3.5225,
      "step": 378840
    },
    {
      "epoch": 0.7892708333333334,
      "grad_norm": 1.6054532527923584,
      "learning_rate": 3.19435269675816e-05,
      "loss": 3.3012,
      "step": 378850
    },
    {
      "epoch": 0.7892916666666666,
      "grad_norm": 1.6931614875793457,
      "learning_rate": 3.1937445500644766e-05,
      "loss": 3.4533,
      "step": 378860
    },
    {
      "epoch": 0.7893125,
      "grad_norm": 2.0627329349517822,
      "learning_rate": 3.1931364543691433e-05,
      "loss": 3.4728,
      "step": 378870
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 1.9542006254196167,
      "learning_rate": 3.192528409674787e-05,
      "loss": 3.4099,
      "step": 378880
    },
    {
      "epoch": 0.7893541666666667,
      "grad_norm": 1.8904318809509277,
      "learning_rate": 3.191920415984034e-05,
      "loss": 3.4864,
      "step": 378890
    },
    {
      "epoch": 0.789375,
      "grad_norm": 1.9106788635253906,
      "learning_rate": 3.191312473299515e-05,
      "loss": 3.5443,
      "step": 378900
    },
    {
      "epoch": 0.7893958333333333,
      "grad_norm": 1.7906720638275146,
      "learning_rate": 3.190704581623843e-05,
      "loss": 3.4638,
      "step": 378910
    },
    {
      "epoch": 0.7894166666666667,
      "grad_norm": 1.6265010833740234,
      "learning_rate": 3.190096740959663e-05,
      "loss": 3.5985,
      "step": 378920
    },
    {
      "epoch": 0.7894375,
      "grad_norm": 1.6199370622634888,
      "learning_rate": 3.189488951309584e-05,
      "loss": 3.3726,
      "step": 378930
    },
    {
      "epoch": 0.7894583333333334,
      "grad_norm": 1.8352397680282593,
      "learning_rate": 3.188881212676234e-05,
      "loss": 3.2542,
      "step": 378940
    },
    {
      "epoch": 0.7894791666666666,
      "grad_norm": 1.6554365158081055,
      "learning_rate": 3.1882735250622515e-05,
      "loss": 3.3962,
      "step": 378950
    },
    {
      "epoch": 0.7895,
      "grad_norm": 2.1088755130767822,
      "learning_rate": 3.187665888470247e-05,
      "loss": 3.4717,
      "step": 378960
    },
    {
      "epoch": 0.7895208333333333,
      "grad_norm": 1.5268452167510986,
      "learning_rate": 3.1870583029028476e-05,
      "loss": 3.5116,
      "step": 378970
    },
    {
      "epoch": 0.7895416666666667,
      "grad_norm": 1.6131317615509033,
      "learning_rate": 3.186450768362687e-05,
      "loss": 3.3921,
      "step": 378980
    },
    {
      "epoch": 0.7895625,
      "grad_norm": 1.6963355541229248,
      "learning_rate": 3.1858432848523794e-05,
      "loss": 3.4041,
      "step": 378990
    },
    {
      "epoch": 0.7895833333333333,
      "grad_norm": 1.5285264253616333,
      "learning_rate": 3.1852358523745474e-05,
      "loss": 3.4877,
      "step": 379000
    },
    {
      "epoch": 0.7895833333333333,
      "eval_loss": 3.532444477081299,
      "eval_runtime": 7.2787,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.412,
      "step": 379000
    },
    {
      "epoch": 0.7896041666666667,
      "grad_norm": 1.6004208326339722,
      "learning_rate": 3.1846284709318295e-05,
      "loss": 3.3462,
      "step": 379010
    },
    {
      "epoch": 0.789625,
      "grad_norm": 1.9409642219543457,
      "learning_rate": 3.1840211405268345e-05,
      "loss": 3.555,
      "step": 379020
    },
    {
      "epoch": 0.7896458333333334,
      "grad_norm": 1.7813082933425903,
      "learning_rate": 3.1834138611621876e-05,
      "loss": 3.4573,
      "step": 379030
    },
    {
      "epoch": 0.7896666666666666,
      "grad_norm": 1.7291712760925293,
      "learning_rate": 3.1828066328405246e-05,
      "loss": 3.3956,
      "step": 379040
    },
    {
      "epoch": 0.7896875,
      "grad_norm": 2.0387628078460693,
      "learning_rate": 3.182199455564454e-05,
      "loss": 3.26,
      "step": 379050
    },
    {
      "epoch": 0.7897083333333333,
      "grad_norm": 1.7258802652359009,
      "learning_rate": 3.181592329336604e-05,
      "loss": 3.3578,
      "step": 379060
    },
    {
      "epoch": 0.7897291666666667,
      "grad_norm": 1.7690294981002808,
      "learning_rate": 3.180985254159597e-05,
      "loss": 3.5464,
      "step": 379070
    },
    {
      "epoch": 0.78975,
      "grad_norm": 1.6678762435913086,
      "learning_rate": 3.180378230036055e-05,
      "loss": 3.5935,
      "step": 379080
    },
    {
      "epoch": 0.7897708333333333,
      "grad_norm": 1.7688852548599243,
      "learning_rate": 3.179771256968603e-05,
      "loss": 3.4239,
      "step": 379090
    },
    {
      "epoch": 0.7897916666666667,
      "grad_norm": 2.0901267528533936,
      "learning_rate": 3.179164334959858e-05,
      "loss": 3.4934,
      "step": 379100
    },
    {
      "epoch": 0.7898125,
      "grad_norm": 1.8498375415802002,
      "learning_rate": 3.178557464012445e-05,
      "loss": 3.4002,
      "step": 379110
    },
    {
      "epoch": 0.7898333333333334,
      "grad_norm": 1.528263807296753,
      "learning_rate": 3.177950644128984e-05,
      "loss": 3.4419,
      "step": 379120
    },
    {
      "epoch": 0.7898541666666666,
      "grad_norm": 1.5121283531188965,
      "learning_rate": 3.177343875312097e-05,
      "loss": 3.3682,
      "step": 379130
    },
    {
      "epoch": 0.789875,
      "grad_norm": 1.839099407196045,
      "learning_rate": 3.176737157564405e-05,
      "loss": 3.4858,
      "step": 379140
    },
    {
      "epoch": 0.7898958333333334,
      "grad_norm": 1.568246841430664,
      "learning_rate": 3.176130490888528e-05,
      "loss": 3.4007,
      "step": 379150
    },
    {
      "epoch": 0.7899166666666667,
      "grad_norm": 1.6879912614822388,
      "learning_rate": 3.175523875287087e-05,
      "loss": 3.2499,
      "step": 379160
    },
    {
      "epoch": 0.7899375,
      "grad_norm": 1.6648876667022705,
      "learning_rate": 3.1749173107627025e-05,
      "loss": 3.5086,
      "step": 379170
    },
    {
      "epoch": 0.7899583333333333,
      "grad_norm": 1.6404799222946167,
      "learning_rate": 3.174310797317995e-05,
      "loss": 3.5033,
      "step": 379180
    },
    {
      "epoch": 0.7899791666666667,
      "grad_norm": 1.9033297300338745,
      "learning_rate": 3.173704334955584e-05,
      "loss": 3.2968,
      "step": 379190
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.1052417755126953,
      "learning_rate": 3.173097923678088e-05,
      "loss": 3.4723,
      "step": 379200
    },
    {
      "epoch": 0.7900208333333333,
      "grad_norm": 1.5969960689544678,
      "learning_rate": 3.172491563488133e-05,
      "loss": 3.4941,
      "step": 379210
    },
    {
      "epoch": 0.7900416666666666,
      "grad_norm": 1.7394862174987793,
      "learning_rate": 3.1718852543883224e-05,
      "loss": 3.4876,
      "step": 379220
    },
    {
      "epoch": 0.7900625,
      "grad_norm": 1.8176484107971191,
      "learning_rate": 3.171278996381293e-05,
      "loss": 3.4203,
      "step": 379230
    },
    {
      "epoch": 0.7900833333333334,
      "grad_norm": 1.9599732160568237,
      "learning_rate": 3.1706727894696575e-05,
      "loss": 3.454,
      "step": 379240
    },
    {
      "epoch": 0.7901041666666667,
      "grad_norm": 1.6127370595932007,
      "learning_rate": 3.170066633656027e-05,
      "loss": 3.3741,
      "step": 379250
    },
    {
      "epoch": 0.790125,
      "grad_norm": 1.564165711402893,
      "learning_rate": 3.169460528943029e-05,
      "loss": 3.3167,
      "step": 379260
    },
    {
      "epoch": 0.7901458333333333,
      "grad_norm": 1.7066493034362793,
      "learning_rate": 3.1688544753332835e-05,
      "loss": 3.4278,
      "step": 379270
    },
    {
      "epoch": 0.7901666666666667,
      "grad_norm": 1.926453948020935,
      "learning_rate": 3.168248472829394e-05,
      "loss": 3.4899,
      "step": 379280
    },
    {
      "epoch": 0.7901875,
      "grad_norm": 1.8416926860809326,
      "learning_rate": 3.167642521433997e-05,
      "loss": 3.4116,
      "step": 379290
    },
    {
      "epoch": 0.7902083333333333,
      "grad_norm": 1.806860089302063,
      "learning_rate": 3.1670366211496966e-05,
      "loss": 3.4608,
      "step": 379300
    },
    {
      "epoch": 0.7902291666666666,
      "grad_norm": 2.0575523376464844,
      "learning_rate": 3.1664307719791096e-05,
      "loss": 3.4137,
      "step": 379310
    },
    {
      "epoch": 0.79025,
      "grad_norm": 1.7400115728378296,
      "learning_rate": 3.165824973924866e-05,
      "loss": 3.5785,
      "step": 379320
    },
    {
      "epoch": 0.7902708333333334,
      "grad_norm": 1.8603042364120483,
      "learning_rate": 3.165219226989571e-05,
      "loss": 3.3922,
      "step": 379330
    },
    {
      "epoch": 0.7902916666666666,
      "grad_norm": 1.765848994255066,
      "learning_rate": 3.164613531175838e-05,
      "loss": 3.4091,
      "step": 379340
    },
    {
      "epoch": 0.7903125,
      "grad_norm": 2.302398920059204,
      "learning_rate": 3.1640078864863e-05,
      "loss": 3.345,
      "step": 379350
    },
    {
      "epoch": 0.7903333333333333,
      "grad_norm": 1.6987563371658325,
      "learning_rate": 3.163402292923558e-05,
      "loss": 3.4409,
      "step": 379360
    },
    {
      "epoch": 0.7903541666666667,
      "grad_norm": 1.8549809455871582,
      "learning_rate": 3.16279675049023e-05,
      "loss": 3.3685,
      "step": 379370
    },
    {
      "epoch": 0.790375,
      "grad_norm": 1.7751712799072266,
      "learning_rate": 3.162191259188941e-05,
      "loss": 3.456,
      "step": 379380
    },
    {
      "epoch": 0.7903958333333333,
      "grad_norm": 1.738020658493042,
      "learning_rate": 3.161585819022297e-05,
      "loss": 3.4038,
      "step": 379390
    },
    {
      "epoch": 0.7904166666666667,
      "grad_norm": 1.67693030834198,
      "learning_rate": 3.1609804299929116e-05,
      "loss": 3.3369,
      "step": 379400
    },
    {
      "epoch": 0.7904375,
      "grad_norm": 1.6078104972839355,
      "learning_rate": 3.160375092103414e-05,
      "loss": 3.6425,
      "step": 379410
    },
    {
      "epoch": 0.7904583333333334,
      "grad_norm": 1.6535353660583496,
      "learning_rate": 3.1597698053564045e-05,
      "loss": 3.3618,
      "step": 379420
    },
    {
      "epoch": 0.7904791666666666,
      "grad_norm": 1.7149463891983032,
      "learning_rate": 3.159164569754502e-05,
      "loss": 3.4616,
      "step": 379430
    },
    {
      "epoch": 0.7905,
      "grad_norm": 1.5600775480270386,
      "learning_rate": 3.158559385300322e-05,
      "loss": 3.3659,
      "step": 379440
    },
    {
      "epoch": 0.7905208333333333,
      "grad_norm": 1.6517186164855957,
      "learning_rate": 3.1579542519964795e-05,
      "loss": 3.4132,
      "step": 379450
    },
    {
      "epoch": 0.7905416666666667,
      "grad_norm": 1.9369271993637085,
      "learning_rate": 3.1573491698455874e-05,
      "loss": 3.4718,
      "step": 379460
    },
    {
      "epoch": 0.7905625,
      "grad_norm": 1.6038466691970825,
      "learning_rate": 3.156744138850258e-05,
      "loss": 3.4028,
      "step": 379470
    },
    {
      "epoch": 0.7905833333333333,
      "grad_norm": 1.5859211683273315,
      "learning_rate": 3.156139159013106e-05,
      "loss": 3.5149,
      "step": 379480
    },
    {
      "epoch": 0.7906041666666667,
      "grad_norm": 1.7578296661376953,
      "learning_rate": 3.155534230336745e-05,
      "loss": 3.4086,
      "step": 379490
    },
    {
      "epoch": 0.790625,
      "grad_norm": 1.6402300596237183,
      "learning_rate": 3.154929352823788e-05,
      "loss": 3.4629,
      "step": 379500
    },
    {
      "epoch": 0.7906458333333334,
      "grad_norm": 2.0229830741882324,
      "learning_rate": 3.154324526476847e-05,
      "loss": 3.437,
      "step": 379510
    },
    {
      "epoch": 0.7906666666666666,
      "grad_norm": 2.0559611320495605,
      "learning_rate": 3.153719751298535e-05,
      "loss": 3.4368,
      "step": 379520
    },
    {
      "epoch": 0.7906875,
      "grad_norm": 1.5273524522781372,
      "learning_rate": 3.1531150272914656e-05,
      "loss": 3.3792,
      "step": 379530
    },
    {
      "epoch": 0.7907083333333333,
      "grad_norm": 1.8948297500610352,
      "learning_rate": 3.1525103544582495e-05,
      "loss": 3.4816,
      "step": 379540
    },
    {
      "epoch": 0.7907291666666667,
      "grad_norm": 1.6360464096069336,
      "learning_rate": 3.151905732801504e-05,
      "loss": 3.3005,
      "step": 379550
    },
    {
      "epoch": 0.79075,
      "grad_norm": 1.6127986907958984,
      "learning_rate": 3.151301162323827e-05,
      "loss": 3.4985,
      "step": 379560
    },
    {
      "epoch": 0.7907708333333333,
      "grad_norm": 1.6350895166397095,
      "learning_rate": 3.150696643027842e-05,
      "loss": 3.3928,
      "step": 379570
    },
    {
      "epoch": 0.7907916666666667,
      "grad_norm": 1.8336039781570435,
      "learning_rate": 3.1500921749161623e-05,
      "loss": 3.2925,
      "step": 379580
    },
    {
      "epoch": 0.7908125,
      "grad_norm": 1.745686411857605,
      "learning_rate": 3.1494877579913856e-05,
      "loss": 3.3335,
      "step": 379590
    },
    {
      "epoch": 0.7908333333333334,
      "grad_norm": 1.774122714996338,
      "learning_rate": 3.148883392256135e-05,
      "loss": 3.4017,
      "step": 379600
    },
    {
      "epoch": 0.7908541666666666,
      "grad_norm": 1.8613594770431519,
      "learning_rate": 3.148279077713022e-05,
      "loss": 3.5759,
      "step": 379610
    },
    {
      "epoch": 0.790875,
      "grad_norm": 1.7056540250778198,
      "learning_rate": 3.1476748143646435e-05,
      "loss": 3.3498,
      "step": 379620
    },
    {
      "epoch": 0.7908958333333334,
      "grad_norm": 1.6642844676971436,
      "learning_rate": 3.1470706022136217e-05,
      "loss": 3.506,
      "step": 379630
    },
    {
      "epoch": 0.7909166666666667,
      "grad_norm": 1.7898690700531006,
      "learning_rate": 3.146466441262569e-05,
      "loss": 3.362,
      "step": 379640
    },
    {
      "epoch": 0.7909375,
      "grad_norm": 1.6273033618927002,
      "learning_rate": 3.1458623315140804e-05,
      "loss": 3.5017,
      "step": 379650
    },
    {
      "epoch": 0.7909583333333333,
      "grad_norm": 1.8629066944122314,
      "learning_rate": 3.145258272970778e-05,
      "loss": 3.3931,
      "step": 379660
    },
    {
      "epoch": 0.7909791666666667,
      "grad_norm": 1.9325751066207886,
      "learning_rate": 3.1446542656352705e-05,
      "loss": 3.4228,
      "step": 379670
    },
    {
      "epoch": 0.791,
      "grad_norm": 1.9082306623458862,
      "learning_rate": 3.144050309510158e-05,
      "loss": 3.427,
      "step": 379680
    },
    {
      "epoch": 0.7910208333333333,
      "grad_norm": 1.6084790229797363,
      "learning_rate": 3.1434464045980615e-05,
      "loss": 3.3444,
      "step": 379690
    },
    {
      "epoch": 0.7910416666666666,
      "grad_norm": 1.782565712928772,
      "learning_rate": 3.142842550901581e-05,
      "loss": 3.4131,
      "step": 379700
    },
    {
      "epoch": 0.7910625,
      "grad_norm": 1.948011040687561,
      "learning_rate": 3.1422387484233215e-05,
      "loss": 3.4263,
      "step": 379710
    },
    {
      "epoch": 0.7910833333333334,
      "grad_norm": 1.83384370803833,
      "learning_rate": 3.141634997165906e-05,
      "loss": 3.3974,
      "step": 379720
    },
    {
      "epoch": 0.7911041666666667,
      "grad_norm": 1.7732867002487183,
      "learning_rate": 3.14103129713193e-05,
      "loss": 3.4073,
      "step": 379730
    },
    {
      "epoch": 0.791125,
      "grad_norm": 1.6186352968215942,
      "learning_rate": 3.140427648323998e-05,
      "loss": 3.3899,
      "step": 379740
    },
    {
      "epoch": 0.7911458333333333,
      "grad_norm": 1.5899479389190674,
      "learning_rate": 3.1398240507447345e-05,
      "loss": 3.5343,
      "step": 379750
    },
    {
      "epoch": 0.7911666666666667,
      "grad_norm": 1.592875361442566,
      "learning_rate": 3.139220504396732e-05,
      "loss": 3.4865,
      "step": 379760
    },
    {
      "epoch": 0.7911875,
      "grad_norm": 1.7596585750579834,
      "learning_rate": 3.138617009282599e-05,
      "loss": 3.3853,
      "step": 379770
    },
    {
      "epoch": 0.7912083333333333,
      "grad_norm": 1.6037763357162476,
      "learning_rate": 3.138013565404953e-05,
      "loss": 3.3387,
      "step": 379780
    },
    {
      "epoch": 0.7912291666666667,
      "grad_norm": 1.7861053943634033,
      "learning_rate": 3.137410172766389e-05,
      "loss": 3.4362,
      "step": 379790
    },
    {
      "epoch": 0.79125,
      "grad_norm": 2.1336052417755127,
      "learning_rate": 3.136806831369518e-05,
      "loss": 3.5179,
      "step": 379800
    },
    {
      "epoch": 0.7912708333333334,
      "grad_norm": 1.9754050970077515,
      "learning_rate": 3.1362035412169435e-05,
      "loss": 3.3044,
      "step": 379810
    },
    {
      "epoch": 0.7912916666666666,
      "grad_norm": 1.7029144763946533,
      "learning_rate": 3.1356003023112755e-05,
      "loss": 3.434,
      "step": 379820
    },
    {
      "epoch": 0.7913125,
      "grad_norm": 1.5471550226211548,
      "learning_rate": 3.134997114655118e-05,
      "loss": 3.5266,
      "step": 379830
    },
    {
      "epoch": 0.7913333333333333,
      "grad_norm": 1.555866003036499,
      "learning_rate": 3.134393978251076e-05,
      "loss": 3.451,
      "step": 379840
    },
    {
      "epoch": 0.7913541666666667,
      "grad_norm": 1.7285059690475464,
      "learning_rate": 3.133790893101756e-05,
      "loss": 3.4628,
      "step": 379850
    },
    {
      "epoch": 0.791375,
      "grad_norm": 1.659019947052002,
      "learning_rate": 3.133187859209761e-05,
      "loss": 3.4224,
      "step": 379860
    },
    {
      "epoch": 0.7913958333333333,
      "grad_norm": 1.691414475440979,
      "learning_rate": 3.132584876577699e-05,
      "loss": 3.3458,
      "step": 379870
    },
    {
      "epoch": 0.7914166666666667,
      "grad_norm": 1.7920331954956055,
      "learning_rate": 3.1319819452081714e-05,
      "loss": 3.3606,
      "step": 379880
    },
    {
      "epoch": 0.7914375,
      "grad_norm": 1.7511179447174072,
      "learning_rate": 3.131379065103784e-05,
      "loss": 3.3599,
      "step": 379890
    },
    {
      "epoch": 0.7914583333333334,
      "grad_norm": 1.6313462257385254,
      "learning_rate": 3.1307762362671415e-05,
      "loss": 3.5064,
      "step": 379900
    },
    {
      "epoch": 0.7914791666666666,
      "grad_norm": 1.629083514213562,
      "learning_rate": 3.1301734587008495e-05,
      "loss": 3.5183,
      "step": 379910
    },
    {
      "epoch": 0.7915,
      "grad_norm": 1.7898268699645996,
      "learning_rate": 3.129570732407511e-05,
      "loss": 3.4322,
      "step": 379920
    },
    {
      "epoch": 0.7915208333333333,
      "grad_norm": 2.3827710151672363,
      "learning_rate": 3.128968057389721e-05,
      "loss": 3.3618,
      "step": 379930
    },
    {
      "epoch": 0.7915416666666667,
      "grad_norm": 1.6569355726242065,
      "learning_rate": 3.128365433650095e-05,
      "loss": 3.3887,
      "step": 379940
    },
    {
      "epoch": 0.7915625,
      "grad_norm": 1.5526858568191528,
      "learning_rate": 3.127762861191235e-05,
      "loss": 3.4635,
      "step": 379950
    },
    {
      "epoch": 0.7915833333333333,
      "grad_norm": 1.855922818183899,
      "learning_rate": 3.127160340015731e-05,
      "loss": 3.4202,
      "step": 379960
    },
    {
      "epoch": 0.7916041666666667,
      "grad_norm": 1.692128300666809,
      "learning_rate": 3.126557870126199e-05,
      "loss": 3.5908,
      "step": 379970
    },
    {
      "epoch": 0.791625,
      "grad_norm": 1.724689245223999,
      "learning_rate": 3.125955451525243e-05,
      "loss": 3.2879,
      "step": 379980
    },
    {
      "epoch": 0.7916458333333334,
      "grad_norm": 1.8041547536849976,
      "learning_rate": 3.125353084215449e-05,
      "loss": 3.4631,
      "step": 379990
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 1.8670698404312134,
      "learning_rate": 3.1247507681994345e-05,
      "loss": 3.4278,
      "step": 380000
    },
    {
      "epoch": 0.7916666666666666,
      "eval_loss": 3.5271084308624268,
      "eval_runtime": 7.3357,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 380000
    },
    {
      "epoch": 0.7916875,
      "grad_norm": 1.7176973819732666,
      "learning_rate": 3.1241485034798005e-05,
      "loss": 3.4709,
      "step": 380010
    },
    {
      "epoch": 0.7917083333333333,
      "grad_norm": 1.8870164155960083,
      "learning_rate": 3.123546290059135e-05,
      "loss": 3.5243,
      "step": 380020
    },
    {
      "epoch": 0.7917291666666667,
      "grad_norm": 1.669948697090149,
      "learning_rate": 3.1229441279400535e-05,
      "loss": 3.4117,
      "step": 380030
    },
    {
      "epoch": 0.79175,
      "grad_norm": 1.6042096614837646,
      "learning_rate": 3.1223420171251554e-05,
      "loss": 3.5274,
      "step": 380040
    },
    {
      "epoch": 0.7917708333333333,
      "grad_norm": 1.7254050970077515,
      "learning_rate": 3.1217399576170304e-05,
      "loss": 3.496,
      "step": 380050
    },
    {
      "epoch": 0.7917916666666667,
      "grad_norm": 1.9445334672927856,
      "learning_rate": 3.121137949418296e-05,
      "loss": 3.4,
      "step": 380060
    },
    {
      "epoch": 0.7918125,
      "grad_norm": 1.7071192264556885,
      "learning_rate": 3.120535992531539e-05,
      "loss": 3.3315,
      "step": 380070
    },
    {
      "epoch": 0.7918333333333333,
      "grad_norm": 2.01676344871521,
      "learning_rate": 3.119934086959364e-05,
      "loss": 3.4854,
      "step": 380080
    },
    {
      "epoch": 0.7918541666666666,
      "grad_norm": 1.7702363729476929,
      "learning_rate": 3.1193322327043716e-05,
      "loss": 3.3754,
      "step": 380090
    },
    {
      "epoch": 0.791875,
      "grad_norm": 1.7347643375396729,
      "learning_rate": 3.1187304297691616e-05,
      "loss": 3.4642,
      "step": 380100
    },
    {
      "epoch": 0.7918958333333334,
      "grad_norm": 1.7008094787597656,
      "learning_rate": 3.118128678156333e-05,
      "loss": 3.5667,
      "step": 380110
    },
    {
      "epoch": 0.7919166666666667,
      "grad_norm": 1.8737703561782837,
      "learning_rate": 3.117526977868485e-05,
      "loss": 3.4155,
      "step": 380120
    },
    {
      "epoch": 0.7919375,
      "grad_norm": 1.6888455152511597,
      "learning_rate": 3.1169253289082165e-05,
      "loss": 3.4354,
      "step": 380130
    },
    {
      "epoch": 0.7919583333333333,
      "grad_norm": 1.5241246223449707,
      "learning_rate": 3.1163237312781276e-05,
      "loss": 3.482,
      "step": 380140
    },
    {
      "epoch": 0.7919791666666667,
      "grad_norm": 1.7237473726272583,
      "learning_rate": 3.1157221849808164e-05,
      "loss": 3.537,
      "step": 380150
    },
    {
      "epoch": 0.792,
      "grad_norm": 1.9173088073730469,
      "learning_rate": 3.1151206900188816e-05,
      "loss": 3.4929,
      "step": 380160
    },
    {
      "epoch": 0.7920208333333333,
      "grad_norm": 1.664460301399231,
      "learning_rate": 3.114519246394921e-05,
      "loss": 3.4113,
      "step": 380170
    },
    {
      "epoch": 0.7920416666666666,
      "grad_norm": 1.6944879293441772,
      "learning_rate": 3.113917854111532e-05,
      "loss": 3.3899,
      "step": 380180
    },
    {
      "epoch": 0.7920625,
      "grad_norm": 1.5801626443862915,
      "learning_rate": 3.113316513171312e-05,
      "loss": 3.3982,
      "step": 380190
    },
    {
      "epoch": 0.7920833333333334,
      "grad_norm": 1.7299401760101318,
      "learning_rate": 3.1127152235768623e-05,
      "loss": 3.4643,
      "step": 380200
    },
    {
      "epoch": 0.7921041666666667,
      "grad_norm": 2.167414903640747,
      "learning_rate": 3.1121139853307756e-05,
      "loss": 3.3009,
      "step": 380210
    },
    {
      "epoch": 0.792125,
      "grad_norm": 1.602544903755188,
      "learning_rate": 3.1115127984356514e-05,
      "loss": 3.415,
      "step": 380220
    },
    {
      "epoch": 0.7921458333333333,
      "grad_norm": 1.5808892250061035,
      "learning_rate": 3.110911662894087e-05,
      "loss": 3.4047,
      "step": 380230
    },
    {
      "epoch": 0.7921666666666667,
      "grad_norm": 1.6813247203826904,
      "learning_rate": 3.110310578708676e-05,
      "loss": 3.5407,
      "step": 380240
    },
    {
      "epoch": 0.7921875,
      "grad_norm": 1.5916416645050049,
      "learning_rate": 3.10970954588202e-05,
      "loss": 3.2448,
      "step": 380250
    },
    {
      "epoch": 0.7922083333333333,
      "grad_norm": 1.7733259201049805,
      "learning_rate": 3.10910856441671e-05,
      "loss": 3.4862,
      "step": 380260
    },
    {
      "epoch": 0.7922291666666667,
      "grad_norm": 2.140704870223999,
      "learning_rate": 3.1085076343153456e-05,
      "loss": 3.4069,
      "step": 380270
    },
    {
      "epoch": 0.79225,
      "grad_norm": 1.514920949935913,
      "learning_rate": 3.10790675558052e-05,
      "loss": 3.5508,
      "step": 380280
    },
    {
      "epoch": 0.7922708333333334,
      "grad_norm": 1.6816620826721191,
      "learning_rate": 3.107305928214835e-05,
      "loss": 3.4365,
      "step": 380290
    },
    {
      "epoch": 0.7922916666666666,
      "grad_norm": 1.7304044961929321,
      "learning_rate": 3.106705152220872e-05,
      "loss": 3.434,
      "step": 380300
    },
    {
      "epoch": 0.7923125,
      "grad_norm": 2.022472381591797,
      "learning_rate": 3.106104427601239e-05,
      "loss": 3.3362,
      "step": 380310
    },
    {
      "epoch": 0.7923333333333333,
      "grad_norm": 1.6695928573608398,
      "learning_rate": 3.105503754358531e-05,
      "loss": 3.5254,
      "step": 380320
    },
    {
      "epoch": 0.7923541666666667,
      "grad_norm": 1.7803694009780884,
      "learning_rate": 3.104903132495332e-05,
      "loss": 3.2082,
      "step": 380330
    },
    {
      "epoch": 0.792375,
      "grad_norm": 1.6548943519592285,
      "learning_rate": 3.1043025620142456e-05,
      "loss": 3.4676,
      "step": 380340
    },
    {
      "epoch": 0.7923958333333333,
      "grad_norm": 1.9152698516845703,
      "learning_rate": 3.103702042917869e-05,
      "loss": 3.5414,
      "step": 380350
    },
    {
      "epoch": 0.7924166666666667,
      "grad_norm": 1.6548000574111938,
      "learning_rate": 3.103101575208782e-05,
      "loss": 3.4214,
      "step": 380360
    },
    {
      "epoch": 0.7924375,
      "grad_norm": 1.7598850727081299,
      "learning_rate": 3.10250115888959e-05,
      "loss": 3.4248,
      "step": 380370
    },
    {
      "epoch": 0.7924583333333334,
      "grad_norm": 1.7891639471054077,
      "learning_rate": 3.1019007939628876e-05,
      "loss": 3.4261,
      "step": 380380
    },
    {
      "epoch": 0.7924791666666666,
      "grad_norm": 1.5486679077148438,
      "learning_rate": 3.101300480431261e-05,
      "loss": 3.5568,
      "step": 380390
    },
    {
      "epoch": 0.7925,
      "grad_norm": 2.008916139602661,
      "learning_rate": 3.100700218297303e-05,
      "loss": 3.2847,
      "step": 380400
    },
    {
      "epoch": 0.7925208333333333,
      "grad_norm": 1.6435627937316895,
      "learning_rate": 3.100100007563618e-05,
      "loss": 3.5493,
      "step": 380410
    },
    {
      "epoch": 0.7925416666666667,
      "grad_norm": 1.494309425354004,
      "learning_rate": 3.099499848232786e-05,
      "loss": 3.3508,
      "step": 380420
    },
    {
      "epoch": 0.7925625,
      "grad_norm": 1.9435452222824097,
      "learning_rate": 3.0988997403074034e-05,
      "loss": 3.465,
      "step": 380430
    },
    {
      "epoch": 0.7925833333333333,
      "grad_norm": 1.6655871868133545,
      "learning_rate": 3.098299683790065e-05,
      "loss": 3.4781,
      "step": 380440
    },
    {
      "epoch": 0.7926041666666667,
      "grad_norm": 1.6688117980957031,
      "learning_rate": 3.09769967868336e-05,
      "loss": 3.3836,
      "step": 380450
    },
    {
      "epoch": 0.792625,
      "grad_norm": 1.5176310539245605,
      "learning_rate": 3.097099724989881e-05,
      "loss": 3.3448,
      "step": 380460
    },
    {
      "epoch": 0.7926458333333334,
      "grad_norm": 1.7359272241592407,
      "learning_rate": 3.096499822712219e-05,
      "loss": 3.4315,
      "step": 380470
    },
    {
      "epoch": 0.7926666666666666,
      "grad_norm": 1.750325322151184,
      "learning_rate": 3.0958999718529684e-05,
      "loss": 3.3742,
      "step": 380480
    },
    {
      "epoch": 0.7926875,
      "grad_norm": 2.0618209838867188,
      "learning_rate": 3.0953001724147145e-05,
      "loss": 3.36,
      "step": 380490
    },
    {
      "epoch": 0.7927083333333333,
      "grad_norm": 1.8917256593704224,
      "learning_rate": 3.094700424400055e-05,
      "loss": 3.4399,
      "step": 380500
    },
    {
      "epoch": 0.7927291666666667,
      "grad_norm": 1.9345178604125977,
      "learning_rate": 3.094100727811575e-05,
      "loss": 3.4266,
      "step": 380510
    },
    {
      "epoch": 0.79275,
      "grad_norm": 1.5809589624404907,
      "learning_rate": 3.0935010826518685e-05,
      "loss": 3.3517,
      "step": 380520
    },
    {
      "epoch": 0.7927708333333333,
      "grad_norm": 1.7940022945404053,
      "learning_rate": 3.0929014889235225e-05,
      "loss": 3.3432,
      "step": 380530
    },
    {
      "epoch": 0.7927916666666667,
      "grad_norm": 1.6406668424606323,
      "learning_rate": 3.0923019466291306e-05,
      "loss": 3.5531,
      "step": 380540
    },
    {
      "epoch": 0.7928125,
      "grad_norm": 1.777906060218811,
      "learning_rate": 3.091702455771282e-05,
      "loss": 3.3359,
      "step": 380550
    },
    {
      "epoch": 0.7928333333333333,
      "grad_norm": 1.718916416168213,
      "learning_rate": 3.0911030163525624e-05,
      "loss": 3.4987,
      "step": 380560
    },
    {
      "epoch": 0.7928541666666666,
      "grad_norm": 1.8075525760650635,
      "learning_rate": 3.090503628375566e-05,
      "loss": 3.465,
      "step": 380570
    },
    {
      "epoch": 0.792875,
      "grad_norm": 1.6249208450317383,
      "learning_rate": 3.089904291842878e-05,
      "loss": 3.4338,
      "step": 380580
    },
    {
      "epoch": 0.7928958333333334,
      "grad_norm": 1.8715912103652954,
      "learning_rate": 3.08930500675709e-05,
      "loss": 3.5266,
      "step": 380590
    },
    {
      "epoch": 0.7929166666666667,
      "grad_norm": 1.6113219261169434,
      "learning_rate": 3.08870577312079e-05,
      "loss": 3.5861,
      "step": 380600
    },
    {
      "epoch": 0.7929375,
      "grad_norm": 1.7303217649459839,
      "learning_rate": 3.0881065909365664e-05,
      "loss": 3.3265,
      "step": 380610
    },
    {
      "epoch": 0.7929583333333333,
      "grad_norm": 1.9898477792739868,
      "learning_rate": 3.0875074602070064e-05,
      "loss": 3.3918,
      "step": 380620
    },
    {
      "epoch": 0.7929791666666667,
      "grad_norm": 1.7510446310043335,
      "learning_rate": 3.0869083809347e-05,
      "loss": 3.4048,
      "step": 380630
    },
    {
      "epoch": 0.793,
      "grad_norm": 2.282414674758911,
      "learning_rate": 3.086309353122233e-05,
      "loss": 3.3812,
      "step": 380640
    },
    {
      "epoch": 0.7930208333333333,
      "grad_norm": 2.7442328929901123,
      "learning_rate": 3.085710376772194e-05,
      "loss": 3.4078,
      "step": 380650
    },
    {
      "epoch": 0.7930416666666666,
      "grad_norm": 1.6803339719772339,
      "learning_rate": 3.085111451887171e-05,
      "loss": 3.3985,
      "step": 380660
    },
    {
      "epoch": 0.7930625,
      "grad_norm": 1.6553239822387695,
      "learning_rate": 3.084512578469754e-05,
      "loss": 3.5321,
      "step": 380670
    },
    {
      "epoch": 0.7930833333333334,
      "grad_norm": 1.6160705089569092,
      "learning_rate": 3.083913756522517e-05,
      "loss": 3.5699,
      "step": 380680
    },
    {
      "epoch": 0.7931041666666667,
      "grad_norm": 1.664428472518921,
      "learning_rate": 3.083314986048066e-05,
      "loss": 3.4686,
      "step": 380690
    },
    {
      "epoch": 0.793125,
      "grad_norm": 1.7442055940628052,
      "learning_rate": 3.082716267048971e-05,
      "loss": 3.5225,
      "step": 380700
    },
    {
      "epoch": 0.7931458333333333,
      "grad_norm": 1.9882655143737793,
      "learning_rate": 3.082117599527822e-05,
      "loss": 3.5261,
      "step": 380710
    },
    {
      "epoch": 0.7931666666666667,
      "grad_norm": 1.7044439315795898,
      "learning_rate": 3.0815189834872155e-05,
      "loss": 3.4201,
      "step": 380720
    },
    {
      "epoch": 0.7931875,
      "grad_norm": 1.6911652088165283,
      "learning_rate": 3.080920418929725e-05,
      "loss": 3.4445,
      "step": 380730
    },
    {
      "epoch": 0.7932083333333333,
      "grad_norm": 1.9378206729888916,
      "learning_rate": 3.080321905857935e-05,
      "loss": 3.4352,
      "step": 380740
    },
    {
      "epoch": 0.7932291666666667,
      "grad_norm": 1.9538224935531616,
      "learning_rate": 3.0797234442744464e-05,
      "loss": 3.353,
      "step": 380750
    },
    {
      "epoch": 0.79325,
      "grad_norm": 1.638973355293274,
      "learning_rate": 3.0791250341818283e-05,
      "loss": 3.4029,
      "step": 380760
    },
    {
      "epoch": 0.7932708333333334,
      "grad_norm": 1.652475118637085,
      "learning_rate": 3.07852667558267e-05,
      "loss": 3.4462,
      "step": 380770
    },
    {
      "epoch": 0.7932916666666666,
      "grad_norm": 1.8796117305755615,
      "learning_rate": 3.0779283684795637e-05,
      "loss": 3.5265,
      "step": 380780
    },
    {
      "epoch": 0.7933125,
      "grad_norm": 1.7671988010406494,
      "learning_rate": 3.0773301128750826e-05,
      "loss": 3.4359,
      "step": 380790
    },
    {
      "epoch": 0.7933333333333333,
      "grad_norm": 1.7194311618804932,
      "learning_rate": 3.076731908771818e-05,
      "loss": 3.4606,
      "step": 380800
    },
    {
      "epoch": 0.7933541666666667,
      "grad_norm": 1.6924058198928833,
      "learning_rate": 3.076133756172352e-05,
      "loss": 3.4528,
      "step": 380810
    },
    {
      "epoch": 0.793375,
      "grad_norm": 1.716016173362732,
      "learning_rate": 3.075535655079268e-05,
      "loss": 3.4491,
      "step": 380820
    },
    {
      "epoch": 0.7933958333333333,
      "grad_norm": 1.7029248476028442,
      "learning_rate": 3.0749376054951495e-05,
      "loss": 3.4968,
      "step": 380830
    },
    {
      "epoch": 0.7934166666666667,
      "grad_norm": 1.7781707048416138,
      "learning_rate": 3.074339607422581e-05,
      "loss": 3.4118,
      "step": 380840
    },
    {
      "epoch": 0.7934375,
      "grad_norm": 1.7703189849853516,
      "learning_rate": 3.073741660864144e-05,
      "loss": 3.5361,
      "step": 380850
    },
    {
      "epoch": 0.7934583333333334,
      "grad_norm": 1.7774206399917603,
      "learning_rate": 3.073143765822423e-05,
      "loss": 3.3471,
      "step": 380860
    },
    {
      "epoch": 0.7934791666666666,
      "grad_norm": 2.256760597229004,
      "learning_rate": 3.0725459223e-05,
      "loss": 3.5577,
      "step": 380870
    },
    {
      "epoch": 0.7935,
      "grad_norm": 1.472951054573059,
      "learning_rate": 3.071948130299458e-05,
      "loss": 3.2911,
      "step": 380880
    },
    {
      "epoch": 0.7935208333333333,
      "grad_norm": 5.523055076599121,
      "learning_rate": 3.071350389823377e-05,
      "loss": 3.5654,
      "step": 380890
    },
    {
      "epoch": 0.7935416666666667,
      "grad_norm": 1.7043033838272095,
      "learning_rate": 3.0707527008743424e-05,
      "loss": 3.3982,
      "step": 380900
    },
    {
      "epoch": 0.7935625,
      "grad_norm": 1.8217653036117554,
      "learning_rate": 3.0701550634549326e-05,
      "loss": 3.372,
      "step": 380910
    },
    {
      "epoch": 0.7935833333333333,
      "grad_norm": 1.6221027374267578,
      "learning_rate": 3.069557477567732e-05,
      "loss": 3.3139,
      "step": 380920
    },
    {
      "epoch": 0.7936041666666667,
      "grad_norm": 1.908545732498169,
      "learning_rate": 3.06895994321532e-05,
      "loss": 3.4186,
      "step": 380930
    },
    {
      "epoch": 0.793625,
      "grad_norm": 1.8120052814483643,
      "learning_rate": 3.068362460400279e-05,
      "loss": 3.4335,
      "step": 380940
    },
    {
      "epoch": 0.7936458333333334,
      "grad_norm": 1.6509383916854858,
      "learning_rate": 3.0677650291251875e-05,
      "loss": 3.4955,
      "step": 380950
    },
    {
      "epoch": 0.7936666666666666,
      "grad_norm": 1.589390754699707,
      "learning_rate": 3.06716764939263e-05,
      "loss": 3.4439,
      "step": 380960
    },
    {
      "epoch": 0.7936875,
      "grad_norm": 2.0837979316711426,
      "learning_rate": 3.066570321205184e-05,
      "loss": 3.4869,
      "step": 380970
    },
    {
      "epoch": 0.7937083333333333,
      "grad_norm": 1.7682963609695435,
      "learning_rate": 3.065973044565436e-05,
      "loss": 3.5029,
      "step": 380980
    },
    {
      "epoch": 0.7937291666666667,
      "grad_norm": 1.5907987356185913,
      "learning_rate": 3.06537581947595e-05,
      "loss": 3.4998,
      "step": 380990
    },
    {
      "epoch": 0.79375,
      "grad_norm": 1.6880838871002197,
      "learning_rate": 3.064778645939323e-05,
      "loss": 3.73,
      "step": 381000
    },
    {
      "epoch": 0.79375,
      "eval_loss": 3.527952194213867,
      "eval_runtime": 7.4336,
      "eval_samples_per_second": 1.345,
      "eval_steps_per_second": 0.404,
      "step": 381000
    },
    {
      "epoch": 0.7937708333333333,
      "grad_norm": 1.7540282011032104,
      "learning_rate": 3.06418152395813e-05,
      "loss": 3.5071,
      "step": 381010
    },
    {
      "epoch": 0.7937916666666667,
      "grad_norm": 1.6797927618026733,
      "learning_rate": 3.063584453534941e-05,
      "loss": 3.4108,
      "step": 381020
    },
    {
      "epoch": 0.7938125,
      "grad_norm": 1.5844517946243286,
      "learning_rate": 3.062987434672347e-05,
      "loss": 3.396,
      "step": 381030
    },
    {
      "epoch": 0.7938333333333333,
      "grad_norm": 1.6662017107009888,
      "learning_rate": 3.0623904673729255e-05,
      "loss": 3.4313,
      "step": 381040
    },
    {
      "epoch": 0.7938541666666666,
      "grad_norm": 1.6362149715423584,
      "learning_rate": 3.0617935516392436e-05,
      "loss": 3.3332,
      "step": 381050
    },
    {
      "epoch": 0.793875,
      "grad_norm": 1.6472063064575195,
      "learning_rate": 3.0611966874738986e-05,
      "loss": 3.3506,
      "step": 381060
    },
    {
      "epoch": 0.7938958333333334,
      "grad_norm": 1.9288033246994019,
      "learning_rate": 3.0605998748794526e-05,
      "loss": 3.2238,
      "step": 381070
    },
    {
      "epoch": 0.7939166666666667,
      "grad_norm": 1.6561346054077148,
      "learning_rate": 3.060003113858483e-05,
      "loss": 3.5598,
      "step": 381080
    },
    {
      "epoch": 0.7939375,
      "grad_norm": 1.5725181102752686,
      "learning_rate": 3.0594064044135845e-05,
      "loss": 3.3786,
      "step": 381090
    },
    {
      "epoch": 0.7939583333333333,
      "grad_norm": 1.6815917491912842,
      "learning_rate": 3.058809746547319e-05,
      "loss": 3.3534,
      "step": 381100
    },
    {
      "epoch": 0.7939791666666667,
      "grad_norm": 1.7044953107833862,
      "learning_rate": 3.0582131402622656e-05,
      "loss": 3.435,
      "step": 381110
    },
    {
      "epoch": 0.794,
      "grad_norm": 1.7156041860580444,
      "learning_rate": 3.0576165855610116e-05,
      "loss": 3.357,
      "step": 381120
    },
    {
      "epoch": 0.7940208333333333,
      "grad_norm": 1.5938570499420166,
      "learning_rate": 3.057020082446124e-05,
      "loss": 3.4764,
      "step": 381130
    },
    {
      "epoch": 0.7940416666666666,
      "grad_norm": 1.7685567140579224,
      "learning_rate": 3.056423630920176e-05,
      "loss": 3.4777,
      "step": 381140
    },
    {
      "epoch": 0.7940625,
      "grad_norm": 1.9377506971359253,
      "learning_rate": 3.055827230985759e-05,
      "loss": 3.4977,
      "step": 381150
    },
    {
      "epoch": 0.7940833333333334,
      "grad_norm": 1.8826028108596802,
      "learning_rate": 3.055230882645439e-05,
      "loss": 3.4572,
      "step": 381160
    },
    {
      "epoch": 0.7941041666666667,
      "grad_norm": 1.831239938735962,
      "learning_rate": 3.054634585901788e-05,
      "loss": 3.4385,
      "step": 381170
    },
    {
      "epoch": 0.794125,
      "grad_norm": 1.7482837438583374,
      "learning_rate": 3.0540383407573935e-05,
      "loss": 3.4125,
      "step": 381180
    },
    {
      "epoch": 0.7941458333333333,
      "grad_norm": 1.8487141132354736,
      "learning_rate": 3.053442147214822e-05,
      "loss": 3.4695,
      "step": 381190
    },
    {
      "epoch": 0.7941666666666667,
      "grad_norm": 1.6038172245025635,
      "learning_rate": 3.0528460052766536e-05,
      "loss": 3.3302,
      "step": 381200
    },
    {
      "epoch": 0.7941875,
      "grad_norm": 1.8519704341888428,
      "learning_rate": 3.05224991494546e-05,
      "loss": 3.5609,
      "step": 381210
    },
    {
      "epoch": 0.7942083333333333,
      "grad_norm": 1.7213690280914307,
      "learning_rate": 3.0516538762238162e-05,
      "loss": 3.4231,
      "step": 381220
    },
    {
      "epoch": 0.7942291666666667,
      "grad_norm": 1.6309338808059692,
      "learning_rate": 3.051057889114299e-05,
      "loss": 3.3467,
      "step": 381230
    },
    {
      "epoch": 0.79425,
      "grad_norm": 1.946141242980957,
      "learning_rate": 3.0504619536194825e-05,
      "loss": 3.3515,
      "step": 381240
    },
    {
      "epoch": 0.7942708333333334,
      "grad_norm": 1.9707951545715332,
      "learning_rate": 3.0498660697419414e-05,
      "loss": 3.4254,
      "step": 381250
    },
    {
      "epoch": 0.7942916666666666,
      "grad_norm": 1.746403455734253,
      "learning_rate": 3.049270237484247e-05,
      "loss": 3.475,
      "step": 381260
    },
    {
      "epoch": 0.7943125,
      "grad_norm": 1.9067786931991577,
      "learning_rate": 3.048674456848976e-05,
      "loss": 3.5711,
      "step": 381270
    },
    {
      "epoch": 0.7943333333333333,
      "grad_norm": 1.9231384992599487,
      "learning_rate": 3.0480787278386986e-05,
      "loss": 3.5019,
      "step": 381280
    },
    {
      "epoch": 0.7943541666666667,
      "grad_norm": 1.5928343534469604,
      "learning_rate": 3.0474830504559956e-05,
      "loss": 3.3595,
      "step": 381290
    },
    {
      "epoch": 0.794375,
      "grad_norm": 1.7556885480880737,
      "learning_rate": 3.0468874247034274e-05,
      "loss": 3.3627,
      "step": 381300
    },
    {
      "epoch": 0.7943958333333333,
      "grad_norm": 2.208397626876831,
      "learning_rate": 3.0462918505835776e-05,
      "loss": 3.3191,
      "step": 381310
    },
    {
      "epoch": 0.7944166666666667,
      "grad_norm": 1.7104252576828003,
      "learning_rate": 3.045696328099019e-05,
      "loss": 3.4055,
      "step": 381320
    },
    {
      "epoch": 0.7944375,
      "grad_norm": 1.9888797998428345,
      "learning_rate": 3.0451008572523124e-05,
      "loss": 3.4693,
      "step": 381330
    },
    {
      "epoch": 0.7944583333333334,
      "grad_norm": 1.7464407682418823,
      "learning_rate": 3.0445054380460425e-05,
      "loss": 3.4523,
      "step": 381340
    },
    {
      "epoch": 0.7944791666666666,
      "grad_norm": 1.7695531845092773,
      "learning_rate": 3.0439100704827796e-05,
      "loss": 3.3575,
      "step": 381350
    },
    {
      "epoch": 0.7945,
      "grad_norm": 1.5843082666397095,
      "learning_rate": 3.043314754565086e-05,
      "loss": 3.3336,
      "step": 381360
    },
    {
      "epoch": 0.7945208333333333,
      "grad_norm": 2.037013292312622,
      "learning_rate": 3.042719490295543e-05,
      "loss": 3.5157,
      "step": 381370
    },
    {
      "epoch": 0.7945416666666667,
      "grad_norm": 2.0421273708343506,
      "learning_rate": 3.0421242776767242e-05,
      "loss": 3.3997,
      "step": 381380
    },
    {
      "epoch": 0.7945625,
      "grad_norm": 1.518849492073059,
      "learning_rate": 3.0415291167111867e-05,
      "loss": 3.4091,
      "step": 381390
    },
    {
      "epoch": 0.7945833333333333,
      "grad_norm": 1.6468642950057983,
      "learning_rate": 3.040934007401512e-05,
      "loss": 3.5144,
      "step": 381400
    },
    {
      "epoch": 0.7946041666666667,
      "grad_norm": 1.6422208547592163,
      "learning_rate": 3.040338949750275e-05,
      "loss": 3.5336,
      "step": 381410
    },
    {
      "epoch": 0.794625,
      "grad_norm": 1.7371249198913574,
      "learning_rate": 3.0397439437600302e-05,
      "loss": 3.4164,
      "step": 381420
    },
    {
      "epoch": 0.7946458333333334,
      "grad_norm": 1.77699613571167,
      "learning_rate": 3.039148989433367e-05,
      "loss": 3.5382,
      "step": 381430
    },
    {
      "epoch": 0.7946666666666666,
      "grad_norm": 1.5783158540725708,
      "learning_rate": 3.0385540867728403e-05,
      "loss": 3.58,
      "step": 381440
    },
    {
      "epoch": 0.7946875,
      "grad_norm": 1.7712188959121704,
      "learning_rate": 3.0379592357810228e-05,
      "loss": 3.3879,
      "step": 381450
    },
    {
      "epoch": 0.7947083333333333,
      "grad_norm": 2.2565841674804688,
      "learning_rate": 3.0373644364604926e-05,
      "loss": 3.3462,
      "step": 381460
    },
    {
      "epoch": 0.7947291666666667,
      "grad_norm": 1.6677234172821045,
      "learning_rate": 3.0367696888138094e-05,
      "loss": 3.4003,
      "step": 381470
    },
    {
      "epoch": 0.79475,
      "grad_norm": 2.06229567527771,
      "learning_rate": 3.0361749928435424e-05,
      "loss": 3.4908,
      "step": 381480
    },
    {
      "epoch": 0.7947708333333333,
      "grad_norm": 1.8947107791900635,
      "learning_rate": 3.0355803485522717e-05,
      "loss": 3.5461,
      "step": 381490
    },
    {
      "epoch": 0.7947916666666667,
      "grad_norm": 1.7378255128860474,
      "learning_rate": 3.034985755942555e-05,
      "loss": 3.3553,
      "step": 381500
    },
    {
      "epoch": 0.7948125,
      "grad_norm": 1.8282872438430786,
      "learning_rate": 3.0343912150169586e-05,
      "loss": 3.4156,
      "step": 381510
    },
    {
      "epoch": 0.7948333333333333,
      "grad_norm": 2.3394060134887695,
      "learning_rate": 3.0337967257780637e-05,
      "loss": 3.476,
      "step": 381520
    },
    {
      "epoch": 0.7948541666666666,
      "grad_norm": 1.7187345027923584,
      "learning_rate": 3.0332022882284267e-05,
      "loss": 3.4818,
      "step": 381530
    },
    {
      "epoch": 0.794875,
      "grad_norm": 1.9020558595657349,
      "learning_rate": 3.032607902370614e-05,
      "loss": 3.3567,
      "step": 381540
    },
    {
      "epoch": 0.7948958333333334,
      "grad_norm": 1.5369521379470825,
      "learning_rate": 3.0320135682072082e-05,
      "loss": 3.3871,
      "step": 381550
    },
    {
      "epoch": 0.7949166666666667,
      "grad_norm": 1.8758158683776855,
      "learning_rate": 3.031419285740761e-05,
      "loss": 3.436,
      "step": 381560
    },
    {
      "epoch": 0.7949375,
      "grad_norm": 1.9608485698699951,
      "learning_rate": 3.030825054973845e-05,
      "loss": 3.4249,
      "step": 381570
    },
    {
      "epoch": 0.7949583333333333,
      "grad_norm": 1.5831856727600098,
      "learning_rate": 3.030230875909028e-05,
      "loss": 3.4388,
      "step": 381580
    },
    {
      "epoch": 0.7949791666666667,
      "grad_norm": 1.7023218870162964,
      "learning_rate": 3.0296367485488755e-05,
      "loss": 3.5339,
      "step": 381590
    },
    {
      "epoch": 0.795,
      "grad_norm": 1.7839851379394531,
      "learning_rate": 3.0290426728959527e-05,
      "loss": 3.4923,
      "step": 381600
    },
    {
      "epoch": 0.7950208333333333,
      "grad_norm": 2.046372413635254,
      "learning_rate": 3.028448648952828e-05,
      "loss": 3.4692,
      "step": 381610
    },
    {
      "epoch": 0.7950416666666666,
      "grad_norm": 1.9700877666473389,
      "learning_rate": 3.0278546767220662e-05,
      "loss": 3.4025,
      "step": 381620
    },
    {
      "epoch": 0.7950625,
      "grad_norm": 1.8957345485687256,
      "learning_rate": 3.027260756206235e-05,
      "loss": 3.3793,
      "step": 381630
    },
    {
      "epoch": 0.7950833333333334,
      "grad_norm": 1.7360602617263794,
      "learning_rate": 3.026666887407896e-05,
      "loss": 3.4115,
      "step": 381640
    },
    {
      "epoch": 0.7951041666666666,
      "grad_norm": 1.622436285018921,
      "learning_rate": 3.026073070329618e-05,
      "loss": 3.4391,
      "step": 381650
    },
    {
      "epoch": 0.795125,
      "grad_norm": 1.6462254524230957,
      "learning_rate": 3.0254793049739633e-05,
      "loss": 3.324,
      "step": 381660
    },
    {
      "epoch": 0.7951458333333333,
      "grad_norm": 2.0269787311553955,
      "learning_rate": 3.0248855913434995e-05,
      "loss": 3.4954,
      "step": 381670
    },
    {
      "epoch": 0.7951666666666667,
      "grad_norm": 1.6261574029922485,
      "learning_rate": 3.024291929440789e-05,
      "loss": 3.3773,
      "step": 381680
    },
    {
      "epoch": 0.7951875,
      "grad_norm": 1.7737324237823486,
      "learning_rate": 3.0236983192684023e-05,
      "loss": 3.493,
      "step": 381690
    },
    {
      "epoch": 0.7952083333333333,
      "grad_norm": 1.7729830741882324,
      "learning_rate": 3.02310476082889e-05,
      "loss": 3.404,
      "step": 381700
    },
    {
      "epoch": 0.7952291666666667,
      "grad_norm": 2.339301824569702,
      "learning_rate": 3.022511254124827e-05,
      "loss": 3.4268,
      "step": 381710
    },
    {
      "epoch": 0.79525,
      "grad_norm": 1.6039259433746338,
      "learning_rate": 3.0219177991587794e-05,
      "loss": 3.5261,
      "step": 381720
    },
    {
      "epoch": 0.7952708333333334,
      "grad_norm": 2.0984153747558594,
      "learning_rate": 3.0213243959332973e-05,
      "loss": 3.3742,
      "step": 381730
    },
    {
      "epoch": 0.7952916666666666,
      "grad_norm": 2.033127546310425,
      "learning_rate": 3.0207310444509564e-05,
      "loss": 3.4774,
      "step": 381740
    },
    {
      "epoch": 0.7953125,
      "grad_norm": 1.8758161067962646,
      "learning_rate": 3.02013774471432e-05,
      "loss": 3.3741,
      "step": 381750
    },
    {
      "epoch": 0.7953333333333333,
      "grad_norm": 1.657660961151123,
      "learning_rate": 3.019544496725939e-05,
      "loss": 3.3697,
      "step": 381760
    },
    {
      "epoch": 0.7953541666666667,
      "grad_norm": 1.75350821018219,
      "learning_rate": 3.018951300488387e-05,
      "loss": 3.4835,
      "step": 381770
    },
    {
      "epoch": 0.795375,
      "grad_norm": 1.728964924812317,
      "learning_rate": 3.0183581560042262e-05,
      "loss": 3.398,
      "step": 381780
    },
    {
      "epoch": 0.7953958333333333,
      "grad_norm": 1.832276701927185,
      "learning_rate": 3.0177650632760087e-05,
      "loss": 3.4853,
      "step": 381790
    },
    {
      "epoch": 0.7954166666666667,
      "grad_norm": 2.27357816696167,
      "learning_rate": 3.01717202230631e-05,
      "loss": 3.4567,
      "step": 381800
    },
    {
      "epoch": 0.7954375,
      "grad_norm": 1.8591076135635376,
      "learning_rate": 3.0165790330976817e-05,
      "loss": 3.4941,
      "step": 381810
    },
    {
      "epoch": 0.7954583333333334,
      "grad_norm": 1.6893558502197266,
      "learning_rate": 3.0159860956526853e-05,
      "loss": 3.4477,
      "step": 381820
    },
    {
      "epoch": 0.7954791666666666,
      "grad_norm": 1.7826343774795532,
      "learning_rate": 3.015393209973892e-05,
      "loss": 3.3578,
      "step": 381830
    },
    {
      "epoch": 0.7955,
      "grad_norm": 1.6436514854431152,
      "learning_rate": 3.014800376063853e-05,
      "loss": 3.3457,
      "step": 381840
    },
    {
      "epoch": 0.7955208333333333,
      "grad_norm": 1.665120005607605,
      "learning_rate": 3.0142075939251327e-05,
      "loss": 3.3721,
      "step": 381850
    },
    {
      "epoch": 0.7955416666666667,
      "grad_norm": 1.4418476819992065,
      "learning_rate": 3.0136148635602908e-05,
      "loss": 3.3572,
      "step": 381860
    },
    {
      "epoch": 0.7955625,
      "grad_norm": 1.7492384910583496,
      "learning_rate": 3.0130221849718888e-05,
      "loss": 3.4689,
      "step": 381870
    },
    {
      "epoch": 0.7955833333333333,
      "grad_norm": 2.0571444034576416,
      "learning_rate": 3.0124295581624848e-05,
      "loss": 3.4859,
      "step": 381880
    },
    {
      "epoch": 0.7956041666666667,
      "grad_norm": 1.9374059438705444,
      "learning_rate": 3.011836983134641e-05,
      "loss": 3.4988,
      "step": 381890
    },
    {
      "epoch": 0.795625,
      "grad_norm": 1.7373701333999634,
      "learning_rate": 3.0112444598909164e-05,
      "loss": 3.5817,
      "step": 381900
    },
    {
      "epoch": 0.7956458333333334,
      "grad_norm": 1.5514581203460693,
      "learning_rate": 3.0106519884338696e-05,
      "loss": 3.4083,
      "step": 381910
    },
    {
      "epoch": 0.7956666666666666,
      "grad_norm": 1.7496446371078491,
      "learning_rate": 3.0100595687660612e-05,
      "loss": 3.3749,
      "step": 381920
    },
    {
      "epoch": 0.7956875,
      "grad_norm": 1.9826631546020508,
      "learning_rate": 3.0094672008900482e-05,
      "loss": 3.4543,
      "step": 381930
    },
    {
      "epoch": 0.7957083333333334,
      "grad_norm": 2.1537861824035645,
      "learning_rate": 3.0088748848083925e-05,
      "loss": 3.4659,
      "step": 381940
    },
    {
      "epoch": 0.7957291666666667,
      "grad_norm": 1.9267035722732544,
      "learning_rate": 3.0082826205236487e-05,
      "loss": 3.4756,
      "step": 381950
    },
    {
      "epoch": 0.79575,
      "grad_norm": 1.7529932260513306,
      "learning_rate": 3.0076904080383797e-05,
      "loss": 3.4513,
      "step": 381960
    },
    {
      "epoch": 0.7957708333333333,
      "grad_norm": 1.631792664527893,
      "learning_rate": 3.0070982473551396e-05,
      "loss": 3.3872,
      "step": 381970
    },
    {
      "epoch": 0.7957916666666667,
      "grad_norm": 1.7875728607177734,
      "learning_rate": 3.0065061384764887e-05,
      "loss": 3.4902,
      "step": 381980
    },
    {
      "epoch": 0.7958125,
      "grad_norm": 1.6202049255371094,
      "learning_rate": 3.005914081404983e-05,
      "loss": 3.4823,
      "step": 381990
    },
    {
      "epoch": 0.7958333333333333,
      "grad_norm": 1.7270225286483765,
      "learning_rate": 3.005322076143182e-05,
      "loss": 3.4414,
      "step": 382000
    },
    {
      "epoch": 0.7958333333333333,
      "eval_loss": 3.5298943519592285,
      "eval_runtime": 7.4542,
      "eval_samples_per_second": 1.342,
      "eval_steps_per_second": 0.402,
      "step": 382000
    },
    {
      "epoch": 0.7958541666666666,
      "grad_norm": 1.7884656190872192,
      "learning_rate": 3.004730122693641e-05,
      "loss": 3.4515,
      "step": 382010
    },
    {
      "epoch": 0.795875,
      "grad_norm": 1.8315446376800537,
      "learning_rate": 3.0041382210589186e-05,
      "loss": 3.5479,
      "step": 382020
    },
    {
      "epoch": 0.7958958333333334,
      "grad_norm": 1.7510349750518799,
      "learning_rate": 3.00354637124157e-05,
      "loss": 3.2976,
      "step": 382030
    },
    {
      "epoch": 0.7959166666666667,
      "grad_norm": 1.816875696182251,
      "learning_rate": 3.0029545732441533e-05,
      "loss": 3.4069,
      "step": 382040
    },
    {
      "epoch": 0.7959375,
      "grad_norm": 2.0867741107940674,
      "learning_rate": 3.0023628270692246e-05,
      "loss": 3.4543,
      "step": 382050
    },
    {
      "epoch": 0.7959583333333333,
      "grad_norm": 1.5864737033843994,
      "learning_rate": 3.0017711327193417e-05,
      "loss": 3.3482,
      "step": 382060
    },
    {
      "epoch": 0.7959791666666667,
      "grad_norm": 1.871237874031067,
      "learning_rate": 3.0011794901970525e-05,
      "loss": 3.5009,
      "step": 382070
    },
    {
      "epoch": 0.796,
      "grad_norm": 2.0354552268981934,
      "learning_rate": 3.0005878995049204e-05,
      "loss": 3.3933,
      "step": 382080
    },
    {
      "epoch": 0.7960208333333333,
      "grad_norm": 1.9819976091384888,
      "learning_rate": 2.9999963606455048e-05,
      "loss": 3.3922,
      "step": 382090
    },
    {
      "epoch": 0.7960416666666666,
      "grad_norm": 1.8727911710739136,
      "learning_rate": 2.999404873621345e-05,
      "loss": 3.4522,
      "step": 382100
    },
    {
      "epoch": 0.7960625,
      "grad_norm": 1.7921829223632812,
      "learning_rate": 2.998813438435011e-05,
      "loss": 3.5354,
      "step": 382110
    },
    {
      "epoch": 0.7960833333333334,
      "grad_norm": 1.4114396572113037,
      "learning_rate": 2.9982220550890558e-05,
      "loss": 3.5308,
      "step": 382120
    },
    {
      "epoch": 0.7961041666666666,
      "grad_norm": 1.940129280090332,
      "learning_rate": 2.9976307235860236e-05,
      "loss": 3.3814,
      "step": 382130
    },
    {
      "epoch": 0.796125,
      "grad_norm": 1.880731463432312,
      "learning_rate": 2.9970394439284795e-05,
      "loss": 3.3917,
      "step": 382140
    },
    {
      "epoch": 0.7961458333333333,
      "grad_norm": 1.7017122507095337,
      "learning_rate": 2.996448216118978e-05,
      "loss": 3.4201,
      "step": 382150
    },
    {
      "epoch": 0.7961666666666667,
      "grad_norm": 1.5421066284179688,
      "learning_rate": 2.995857040160065e-05,
      "loss": 3.3659,
      "step": 382160
    },
    {
      "epoch": 0.7961875,
      "grad_norm": 1.7911049127578735,
      "learning_rate": 2.9952659160542942e-05,
      "loss": 3.4734,
      "step": 382170
    },
    {
      "epoch": 0.7962083333333333,
      "grad_norm": 1.808260202407837,
      "learning_rate": 2.9946748438042296e-05,
      "loss": 3.4375,
      "step": 382180
    },
    {
      "epoch": 0.7962291666666667,
      "grad_norm": 1.7776098251342773,
      "learning_rate": 2.9940838234124142e-05,
      "loss": 3.4387,
      "step": 382190
    },
    {
      "epoch": 0.79625,
      "grad_norm": 1.6896612644195557,
      "learning_rate": 2.9934928548814046e-05,
      "loss": 3.4809,
      "step": 382200
    },
    {
      "epoch": 0.7962708333333334,
      "grad_norm": 1.8527321815490723,
      "learning_rate": 2.9929019382137538e-05,
      "loss": 3.4021,
      "step": 382210
    },
    {
      "epoch": 0.7962916666666666,
      "grad_norm": 1.7724004983901978,
      "learning_rate": 2.9923110734120127e-05,
      "loss": 3.3609,
      "step": 382220
    },
    {
      "epoch": 0.7963125,
      "grad_norm": 1.481175184249878,
      "learning_rate": 2.991720260478736e-05,
      "loss": 3.4814,
      "step": 382230
    },
    {
      "epoch": 0.7963333333333333,
      "grad_norm": 1.7012313604354858,
      "learning_rate": 2.9911294994164735e-05,
      "loss": 3.3976,
      "step": 382240
    },
    {
      "epoch": 0.7963541666666667,
      "grad_norm": 1.9249154329299927,
      "learning_rate": 2.99053879022778e-05,
      "loss": 3.4563,
      "step": 382250
    },
    {
      "epoch": 0.796375,
      "grad_norm": 1.8605526685714722,
      "learning_rate": 2.989948132915203e-05,
      "loss": 3.4578,
      "step": 382260
    },
    {
      "epoch": 0.7963958333333333,
      "grad_norm": 2.0994632244110107,
      "learning_rate": 2.9893575274812975e-05,
      "loss": 3.4014,
      "step": 382270
    },
    {
      "epoch": 0.7964166666666667,
      "grad_norm": 1.9012564420700073,
      "learning_rate": 2.988766973928613e-05,
      "loss": 3.4698,
      "step": 382280
    },
    {
      "epoch": 0.7964375,
      "grad_norm": 1.7667105197906494,
      "learning_rate": 2.9881764722597008e-05,
      "loss": 3.5134,
      "step": 382290
    },
    {
      "epoch": 0.7964583333333334,
      "grad_norm": 1.7161433696746826,
      "learning_rate": 2.987586022477112e-05,
      "loss": 3.4385,
      "step": 382300
    },
    {
      "epoch": 0.7964791666666666,
      "grad_norm": 1.8392218351364136,
      "learning_rate": 2.9869956245833966e-05,
      "loss": 3.446,
      "step": 382310
    },
    {
      "epoch": 0.7965,
      "grad_norm": 1.6318119764328003,
      "learning_rate": 2.986405278581104e-05,
      "loss": 3.4114,
      "step": 382320
    },
    {
      "epoch": 0.7965208333333333,
      "grad_norm": 1.6710823774337769,
      "learning_rate": 2.9858149844727868e-05,
      "loss": 3.3813,
      "step": 382330
    },
    {
      "epoch": 0.7965416666666667,
      "grad_norm": 1.7086114883422852,
      "learning_rate": 2.9852247422609922e-05,
      "loss": 3.3658,
      "step": 382340
    },
    {
      "epoch": 0.7965625,
      "grad_norm": 2.0436999797821045,
      "learning_rate": 2.9846345519482724e-05,
      "loss": 3.404,
      "step": 382350
    },
    {
      "epoch": 0.7965833333333333,
      "grad_norm": 1.77438485622406,
      "learning_rate": 2.984044413537174e-05,
      "loss": 3.446,
      "step": 382360
    },
    {
      "epoch": 0.7966041666666667,
      "grad_norm": 1.6510775089263916,
      "learning_rate": 2.983454327030248e-05,
      "loss": 3.4894,
      "step": 382370
    },
    {
      "epoch": 0.796625,
      "grad_norm": 2.0263822078704834,
      "learning_rate": 2.982864292430041e-05,
      "loss": 3.4943,
      "step": 382380
    },
    {
      "epoch": 0.7966458333333334,
      "grad_norm": 1.7018189430236816,
      "learning_rate": 2.982274309739106e-05,
      "loss": 3.4699,
      "step": 382390
    },
    {
      "epoch": 0.7966666666666666,
      "grad_norm": 1.9389759302139282,
      "learning_rate": 2.9816843789599875e-05,
      "loss": 3.2892,
      "step": 382400
    },
    {
      "epoch": 0.7966875,
      "grad_norm": 1.651837706565857,
      "learning_rate": 2.981094500095237e-05,
      "loss": 3.3537,
      "step": 382410
    },
    {
      "epoch": 0.7967083333333334,
      "grad_norm": 1.6236507892608643,
      "learning_rate": 2.9805046731474003e-05,
      "loss": 3.4346,
      "step": 382420
    },
    {
      "epoch": 0.7967291666666667,
      "grad_norm": 1.8244158029556274,
      "learning_rate": 2.979914898119029e-05,
      "loss": 3.3592,
      "step": 382430
    },
    {
      "epoch": 0.79675,
      "grad_norm": 2.4102840423583984,
      "learning_rate": 2.979325175012663e-05,
      "loss": 3.4265,
      "step": 382440
    },
    {
      "epoch": 0.7967708333333333,
      "grad_norm": 1.6092662811279297,
      "learning_rate": 2.9787355038308514e-05,
      "loss": 3.365,
      "step": 382450
    },
    {
      "epoch": 0.7967916666666667,
      "grad_norm": 1.8036140203475952,
      "learning_rate": 2.9781458845761508e-05,
      "loss": 3.3684,
      "step": 382460
    },
    {
      "epoch": 0.7968125,
      "grad_norm": 2.0432281494140625,
      "learning_rate": 2.977556317251099e-05,
      "loss": 3.4393,
      "step": 382470
    },
    {
      "epoch": 0.7968333333333333,
      "grad_norm": 1.8191766738891602,
      "learning_rate": 2.9769668018582395e-05,
      "loss": 3.4544,
      "step": 382480
    },
    {
      "epoch": 0.7968541666666666,
      "grad_norm": 1.7783933877944946,
      "learning_rate": 2.9763773384001327e-05,
      "loss": 3.3618,
      "step": 382490
    },
    {
      "epoch": 0.796875,
      "grad_norm": 1.8531428575515747,
      "learning_rate": 2.975787926879314e-05,
      "loss": 3.4528,
      "step": 382500
    },
    {
      "epoch": 0.7968958333333334,
      "grad_norm": 1.6933295726776123,
      "learning_rate": 2.9751985672983274e-05,
      "loss": 3.6156,
      "step": 382510
    },
    {
      "epoch": 0.7969166666666667,
      "grad_norm": 1.7678160667419434,
      "learning_rate": 2.97460925965973e-05,
      "loss": 3.66,
      "step": 382520
    },
    {
      "epoch": 0.7969375,
      "grad_norm": 1.774394154548645,
      "learning_rate": 2.9740200039660573e-05,
      "loss": 3.3792,
      "step": 382530
    },
    {
      "epoch": 0.7969583333333333,
      "grad_norm": 1.5741952657699585,
      "learning_rate": 2.973430800219854e-05,
      "loss": 3.4505,
      "step": 382540
    },
    {
      "epoch": 0.7969791666666667,
      "grad_norm": 1.6822459697723389,
      "learning_rate": 2.972841648423677e-05,
      "loss": 3.4959,
      "step": 382550
    },
    {
      "epoch": 0.797,
      "grad_norm": 1.8838779926300049,
      "learning_rate": 2.9722525485800592e-05,
      "loss": 3.3028,
      "step": 382560
    },
    {
      "epoch": 0.7970208333333333,
      "grad_norm": 1.6749933958053589,
      "learning_rate": 2.971663500691551e-05,
      "loss": 3.3743,
      "step": 382570
    },
    {
      "epoch": 0.7970416666666666,
      "grad_norm": 1.7513762712478638,
      "learning_rate": 2.971074504760693e-05,
      "loss": 3.4391,
      "step": 382580
    },
    {
      "epoch": 0.7970625,
      "grad_norm": 1.6308692693710327,
      "learning_rate": 2.970485560790033e-05,
      "loss": 3.3334,
      "step": 382590
    },
    {
      "epoch": 0.7970833333333334,
      "grad_norm": 1.6115375757217407,
      "learning_rate": 2.9698966687821153e-05,
      "loss": 3.4649,
      "step": 382600
    },
    {
      "epoch": 0.7971041666666666,
      "grad_norm": 1.9663559198379517,
      "learning_rate": 2.9693078287394794e-05,
      "loss": 3.4666,
      "step": 382610
    },
    {
      "epoch": 0.797125,
      "grad_norm": 2.009082555770874,
      "learning_rate": 2.9687190406646737e-05,
      "loss": 3.5089,
      "step": 382620
    },
    {
      "epoch": 0.7971458333333333,
      "grad_norm": 2.113100528717041,
      "learning_rate": 2.968130304560238e-05,
      "loss": 3.3521,
      "step": 382630
    },
    {
      "epoch": 0.7971666666666667,
      "grad_norm": 1.9363205432891846,
      "learning_rate": 2.9675416204287177e-05,
      "loss": 3.3467,
      "step": 382640
    },
    {
      "epoch": 0.7971875,
      "grad_norm": 2.034769296646118,
      "learning_rate": 2.9669529882726533e-05,
      "loss": 3.4448,
      "step": 382650
    },
    {
      "epoch": 0.7972083333333333,
      "grad_norm": 2.0592405796051025,
      "learning_rate": 2.966364408094591e-05,
      "loss": 3.4519,
      "step": 382660
    },
    {
      "epoch": 0.7972291666666667,
      "grad_norm": 1.848425269126892,
      "learning_rate": 2.96577587989707e-05,
      "loss": 3.488,
      "step": 382670
    },
    {
      "epoch": 0.79725,
      "grad_norm": 1.8135448694229126,
      "learning_rate": 2.9651874036826352e-05,
      "loss": 3.4024,
      "step": 382680
    },
    {
      "epoch": 0.7972708333333334,
      "grad_norm": 1.7495590448379517,
      "learning_rate": 2.964598979453826e-05,
      "loss": 3.4899,
      "step": 382690
    },
    {
      "epoch": 0.7972916666666666,
      "grad_norm": 1.738478422164917,
      "learning_rate": 2.9640106072131843e-05,
      "loss": 3.3669,
      "step": 382700
    },
    {
      "epoch": 0.7973125,
      "grad_norm": 1.6537219285964966,
      "learning_rate": 2.963422286963254e-05,
      "loss": 3.5146,
      "step": 382710
    },
    {
      "epoch": 0.7973333333333333,
      "grad_norm": 1.6307201385498047,
      "learning_rate": 2.9628340187065734e-05,
      "loss": 3.4127,
      "step": 382720
    },
    {
      "epoch": 0.7973541666666667,
      "grad_norm": 1.5772403478622437,
      "learning_rate": 2.9622458024456875e-05,
      "loss": 3.4764,
      "step": 382730
    },
    {
      "epoch": 0.797375,
      "grad_norm": 2.180762767791748,
      "learning_rate": 2.9616576381831338e-05,
      "loss": 3.4269,
      "step": 382740
    },
    {
      "epoch": 0.7973958333333333,
      "grad_norm": 1.8203866481781006,
      "learning_rate": 2.9610695259214583e-05,
      "loss": 3.6313,
      "step": 382750
    },
    {
      "epoch": 0.7974166666666667,
      "grad_norm": 1.7076557874679565,
      "learning_rate": 2.960481465663188e-05,
      "loss": 3.5151,
      "step": 382760
    },
    {
      "epoch": 0.7974375,
      "grad_norm": 1.8995048999786377,
      "learning_rate": 2.9598934574108772e-05,
      "loss": 3.4992,
      "step": 382770
    },
    {
      "epoch": 0.7974583333333334,
      "grad_norm": 1.828086018562317,
      "learning_rate": 2.959305501167064e-05,
      "loss": 3.4521,
      "step": 382780
    },
    {
      "epoch": 0.7974791666666666,
      "grad_norm": 1.9978859424591064,
      "learning_rate": 2.958717596934278e-05,
      "loss": 3.441,
      "step": 382790
    },
    {
      "epoch": 0.7975,
      "grad_norm": 1.869385838508606,
      "learning_rate": 2.958129744715074e-05,
      "loss": 3.4116,
      "step": 382800
    },
    {
      "epoch": 0.7975208333333333,
      "grad_norm": 2.231478691101074,
      "learning_rate": 2.9575419445119775e-05,
      "loss": 3.3392,
      "step": 382810
    },
    {
      "epoch": 0.7975416666666667,
      "grad_norm": 1.9322068691253662,
      "learning_rate": 2.9569541963275305e-05,
      "loss": 3.3413,
      "step": 382820
    },
    {
      "epoch": 0.7975625,
      "grad_norm": 1.7487967014312744,
      "learning_rate": 2.956366500164281e-05,
      "loss": 3.4489,
      "step": 382830
    },
    {
      "epoch": 0.7975833333333333,
      "grad_norm": 2.119547128677368,
      "learning_rate": 2.9557788560247585e-05,
      "loss": 3.3754,
      "step": 382840
    },
    {
      "epoch": 0.7976041666666667,
      "grad_norm": 2.190051555633545,
      "learning_rate": 2.9551912639114995e-05,
      "loss": 3.45,
      "step": 382850
    },
    {
      "epoch": 0.797625,
      "grad_norm": 1.703811526298523,
      "learning_rate": 2.954603723827053e-05,
      "loss": 3.3925,
      "step": 382860
    },
    {
      "epoch": 0.7976458333333334,
      "grad_norm": 2.077143430709839,
      "learning_rate": 2.9540162357739478e-05,
      "loss": 3.5297,
      "step": 382870
    },
    {
      "epoch": 0.7976666666666666,
      "grad_norm": 1.8461048603057861,
      "learning_rate": 2.9534287997547213e-05,
      "loss": 3.5384,
      "step": 382880
    },
    {
      "epoch": 0.7976875,
      "grad_norm": 1.8027093410491943,
      "learning_rate": 2.95284141577192e-05,
      "loss": 3.5107,
      "step": 382890
    },
    {
      "epoch": 0.7977083333333334,
      "grad_norm": 1.6361618041992188,
      "learning_rate": 2.9522540838280735e-05,
      "loss": 3.2904,
      "step": 382900
    },
    {
      "epoch": 0.7977291666666667,
      "grad_norm": 1.5800933837890625,
      "learning_rate": 2.9516668039257145e-05,
      "loss": 3.4357,
      "step": 382910
    },
    {
      "epoch": 0.79775,
      "grad_norm": 1.8128976821899414,
      "learning_rate": 2.951079576067395e-05,
      "loss": 3.3563,
      "step": 382920
    },
    {
      "epoch": 0.7977708333333333,
      "grad_norm": 1.7419135570526123,
      "learning_rate": 2.9504924002556374e-05,
      "loss": 3.3012,
      "step": 382930
    },
    {
      "epoch": 0.7977916666666667,
      "grad_norm": 1.8025394678115845,
      "learning_rate": 2.949905276492985e-05,
      "loss": 3.3783,
      "step": 382940
    },
    {
      "epoch": 0.7978125,
      "grad_norm": 1.7235246896743774,
      "learning_rate": 2.94931820478197e-05,
      "loss": 3.2505,
      "step": 382950
    },
    {
      "epoch": 0.7978333333333333,
      "grad_norm": 1.8461315631866455,
      "learning_rate": 2.9487311851251315e-05,
      "loss": 3.4397,
      "step": 382960
    },
    {
      "epoch": 0.7978541666666666,
      "grad_norm": 1.6981894969940186,
      "learning_rate": 2.9481442175250036e-05,
      "loss": 3.5658,
      "step": 382970
    },
    {
      "epoch": 0.797875,
      "grad_norm": 1.7064971923828125,
      "learning_rate": 2.9475573019841224e-05,
      "loss": 3.5888,
      "step": 382980
    },
    {
      "epoch": 0.7978958333333334,
      "grad_norm": 1.937934160232544,
      "learning_rate": 2.9469704385050232e-05,
      "loss": 3.4363,
      "step": 382990
    },
    {
      "epoch": 0.7979166666666667,
      "grad_norm": 1.7265236377716064,
      "learning_rate": 2.9463836270902396e-05,
      "loss": 3.5196,
      "step": 383000
    },
    {
      "epoch": 0.7979166666666667,
      "eval_loss": 3.531134843826294,
      "eval_runtime": 7.2654,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 383000
    },
    {
      "epoch": 0.7979375,
      "grad_norm": 1.818413257598877,
      "learning_rate": 2.9457968677423087e-05,
      "loss": 3.5548,
      "step": 383010
    },
    {
      "epoch": 0.7979583333333333,
      "grad_norm": 1.7946802377700806,
      "learning_rate": 2.9452101604637635e-05,
      "loss": 3.5312,
      "step": 383020
    },
    {
      "epoch": 0.7979791666666667,
      "grad_norm": 1.7304950952529907,
      "learning_rate": 2.94462350525714e-05,
      "loss": 3.3418,
      "step": 383030
    },
    {
      "epoch": 0.798,
      "grad_norm": 2.2199935913085938,
      "learning_rate": 2.9440369021249694e-05,
      "loss": 3.5252,
      "step": 383040
    },
    {
      "epoch": 0.7980208333333333,
      "grad_norm": 2.0026867389678955,
      "learning_rate": 2.943450351069788e-05,
      "loss": 3.4189,
      "step": 383050
    },
    {
      "epoch": 0.7980416666666666,
      "grad_norm": 1.8157482147216797,
      "learning_rate": 2.9428638520941328e-05,
      "loss": 3.2733,
      "step": 383060
    },
    {
      "epoch": 0.7980625,
      "grad_norm": 1.838917851448059,
      "learning_rate": 2.9422774052005242e-05,
      "loss": 3.4763,
      "step": 383070
    },
    {
      "epoch": 0.7980833333333334,
      "grad_norm": 1.6984323263168335,
      "learning_rate": 2.941691010391511e-05,
      "loss": 3.4998,
      "step": 383080
    },
    {
      "epoch": 0.7981041666666666,
      "grad_norm": 2.0681848526000977,
      "learning_rate": 2.941104667669622e-05,
      "loss": 3.4806,
      "step": 383090
    },
    {
      "epoch": 0.798125,
      "grad_norm": 1.7306551933288574,
      "learning_rate": 2.940518377037379e-05,
      "loss": 3.4834,
      "step": 383100
    },
    {
      "epoch": 0.7981458333333333,
      "grad_norm": 1.9709190130233765,
      "learning_rate": 2.9399321384973285e-05,
      "loss": 3.5112,
      "step": 383110
    },
    {
      "epoch": 0.7981666666666667,
      "grad_norm": 1.6072978973388672,
      "learning_rate": 2.9393459520519995e-05,
      "loss": 3.5195,
      "step": 383120
    },
    {
      "epoch": 0.7981875,
      "grad_norm": 1.687166690826416,
      "learning_rate": 2.9387598177039157e-05,
      "loss": 3.5247,
      "step": 383130
    },
    {
      "epoch": 0.7982083333333333,
      "grad_norm": 1.6677579879760742,
      "learning_rate": 2.9381737354556196e-05,
      "loss": 3.4715,
      "step": 383140
    },
    {
      "epoch": 0.7982291666666667,
      "grad_norm": 1.5991328954696655,
      "learning_rate": 2.9375877053096408e-05,
      "loss": 3.5115,
      "step": 383150
    },
    {
      "epoch": 0.79825,
      "grad_norm": 1.905590534210205,
      "learning_rate": 2.9370017272685027e-05,
      "loss": 3.4677,
      "step": 383160
    },
    {
      "epoch": 0.7982708333333334,
      "grad_norm": 2.601372480392456,
      "learning_rate": 2.9364158013347445e-05,
      "loss": 3.4555,
      "step": 383170
    },
    {
      "epoch": 0.7982916666666666,
      "grad_norm": 1.7503561973571777,
      "learning_rate": 2.9358299275108993e-05,
      "loss": 3.3732,
      "step": 383180
    },
    {
      "epoch": 0.7983125,
      "grad_norm": 2.2233505249023438,
      "learning_rate": 2.9352441057994868e-05,
      "loss": 3.4592,
      "step": 383190
    },
    {
      "epoch": 0.7983333333333333,
      "grad_norm": 1.6948782205581665,
      "learning_rate": 2.9346583362030502e-05,
      "loss": 3.3567,
      "step": 383200
    },
    {
      "epoch": 0.7983541666666667,
      "grad_norm": 1.6400396823883057,
      "learning_rate": 2.9340726187241105e-05,
      "loss": 3.3414,
      "step": 383210
    },
    {
      "epoch": 0.798375,
      "grad_norm": 1.858277440071106,
      "learning_rate": 2.933486953365197e-05,
      "loss": 3.4736,
      "step": 383220
    },
    {
      "epoch": 0.7983958333333333,
      "grad_norm": 2.272279977798462,
      "learning_rate": 2.932901340128852e-05,
      "loss": 3.3834,
      "step": 383230
    },
    {
      "epoch": 0.7984166666666667,
      "grad_norm": 1.730087161064148,
      "learning_rate": 2.9323157790175928e-05,
      "loss": 3.4224,
      "step": 383240
    },
    {
      "epoch": 0.7984375,
      "grad_norm": 1.657860279083252,
      "learning_rate": 2.931730270033949e-05,
      "loss": 3.4249,
      "step": 383250
    },
    {
      "epoch": 0.7984583333333334,
      "grad_norm": 1.9622572660446167,
      "learning_rate": 2.9311448131804605e-05,
      "loss": 3.4005,
      "step": 383260
    },
    {
      "epoch": 0.7984791666666666,
      "grad_norm": 1.9834989309310913,
      "learning_rate": 2.9305594084596467e-05,
      "loss": 3.3665,
      "step": 383270
    },
    {
      "epoch": 0.7985,
      "grad_norm": 2.1462955474853516,
      "learning_rate": 2.9299740558740343e-05,
      "loss": 3.4066,
      "step": 383280
    },
    {
      "epoch": 0.7985208333333333,
      "grad_norm": 1.757348895072937,
      "learning_rate": 2.9293887554261625e-05,
      "loss": 3.5838,
      "step": 383290
    },
    {
      "epoch": 0.7985416666666667,
      "grad_norm": 2.6739189624786377,
      "learning_rate": 2.928803507118551e-05,
      "loss": 3.5452,
      "step": 383300
    },
    {
      "epoch": 0.7985625,
      "grad_norm": 1.9499167203903198,
      "learning_rate": 2.92821831095373e-05,
      "loss": 3.4846,
      "step": 383310
    },
    {
      "epoch": 0.7985833333333333,
      "grad_norm": 2.008734941482544,
      "learning_rate": 2.9276331669342285e-05,
      "loss": 3.5739,
      "step": 383320
    },
    {
      "epoch": 0.7986041666666667,
      "grad_norm": 1.7542648315429688,
      "learning_rate": 2.9270480750625713e-05,
      "loss": 3.5003,
      "step": 383330
    },
    {
      "epoch": 0.798625,
      "grad_norm": 2.1498725414276123,
      "learning_rate": 2.9264630353412882e-05,
      "loss": 3.3107,
      "step": 383340
    },
    {
      "epoch": 0.7986458333333334,
      "grad_norm": 1.7895561456680298,
      "learning_rate": 2.9258780477729073e-05,
      "loss": 3.4675,
      "step": 383350
    },
    {
      "epoch": 0.7986666666666666,
      "grad_norm": 1.6218750476837158,
      "learning_rate": 2.9252931123599526e-05,
      "loss": 3.4285,
      "step": 383360
    },
    {
      "epoch": 0.7986875,
      "grad_norm": 1.8364734649658203,
      "learning_rate": 2.9247082291049527e-05,
      "loss": 3.4704,
      "step": 383370
    },
    {
      "epoch": 0.7987083333333334,
      "grad_norm": 1.8590543270111084,
      "learning_rate": 2.924123398010432e-05,
      "loss": 3.456,
      "step": 383380
    },
    {
      "epoch": 0.7987291666666667,
      "grad_norm": 1.831889033317566,
      "learning_rate": 2.9235386190789207e-05,
      "loss": 3.3623,
      "step": 383390
    },
    {
      "epoch": 0.79875,
      "grad_norm": 1.6580002307891846,
      "learning_rate": 2.9229538923129407e-05,
      "loss": 3.3891,
      "step": 383400
    },
    {
      "epoch": 0.7987708333333333,
      "grad_norm": 1.5874608755111694,
      "learning_rate": 2.9223692177150193e-05,
      "loss": 3.3335,
      "step": 383410
    },
    {
      "epoch": 0.7987916666666667,
      "grad_norm": 1.9133200645446777,
      "learning_rate": 2.9217845952876822e-05,
      "loss": 3.3923,
      "step": 383420
    },
    {
      "epoch": 0.7988125,
      "grad_norm": 1.847711205482483,
      "learning_rate": 2.9212000250334595e-05,
      "loss": 3.3055,
      "step": 383430
    },
    {
      "epoch": 0.7988333333333333,
      "grad_norm": 1.8807973861694336,
      "learning_rate": 2.9206155069548637e-05,
      "loss": 3.4749,
      "step": 383440
    },
    {
      "epoch": 0.7988541666666666,
      "grad_norm": 1.791283369064331,
      "learning_rate": 2.9200310410544313e-05,
      "loss": 3.4942,
      "step": 383450
    },
    {
      "epoch": 0.798875,
      "grad_norm": 1.7462384700775146,
      "learning_rate": 2.9194466273346873e-05,
      "loss": 3.4623,
      "step": 383460
    },
    {
      "epoch": 0.7988958333333334,
      "grad_norm": 1.690060019493103,
      "learning_rate": 2.918862265798144e-05,
      "loss": 3.5079,
      "step": 383470
    },
    {
      "epoch": 0.7989166666666667,
      "grad_norm": 1.6224274635314941,
      "learning_rate": 2.9182779564473368e-05,
      "loss": 3.4606,
      "step": 383480
    },
    {
      "epoch": 0.7989375,
      "grad_norm": 1.9320284128189087,
      "learning_rate": 2.9176936992847914e-05,
      "loss": 3.4561,
      "step": 383490
    },
    {
      "epoch": 0.7989583333333333,
      "grad_norm": 1.981594443321228,
      "learning_rate": 2.9171094943130197e-05,
      "loss": 3.3473,
      "step": 383500
    },
    {
      "epoch": 0.7989791666666667,
      "grad_norm": 1.8249303102493286,
      "learning_rate": 2.916525341534554e-05,
      "loss": 3.495,
      "step": 383510
    },
    {
      "epoch": 0.799,
      "grad_norm": 1.8551928997039795,
      "learning_rate": 2.915941240951921e-05,
      "loss": 3.5609,
      "step": 383520
    },
    {
      "epoch": 0.7990208333333333,
      "grad_norm": 1.5634582042694092,
      "learning_rate": 2.9153571925676306e-05,
      "loss": 3.4761,
      "step": 383530
    },
    {
      "epoch": 0.7990416666666667,
      "grad_norm": 1.604231357574463,
      "learning_rate": 2.9147731963842186e-05,
      "loss": 3.4812,
      "step": 383540
    },
    {
      "epoch": 0.7990625,
      "grad_norm": 1.7128851413726807,
      "learning_rate": 2.914189252404205e-05,
      "loss": 3.4281,
      "step": 383550
    },
    {
      "epoch": 0.7990833333333334,
      "grad_norm": 1.8557459115982056,
      "learning_rate": 2.9136053606301042e-05,
      "loss": 3.4605,
      "step": 383560
    },
    {
      "epoch": 0.7991041666666666,
      "grad_norm": 1.829378366470337,
      "learning_rate": 2.9130215210644492e-05,
      "loss": 3.4642,
      "step": 383570
    },
    {
      "epoch": 0.799125,
      "grad_norm": 1.986680507659912,
      "learning_rate": 2.912437733709755e-05,
      "loss": 3.585,
      "step": 383580
    },
    {
      "epoch": 0.7991458333333333,
      "grad_norm": 1.630898118019104,
      "learning_rate": 2.9118539985685406e-05,
      "loss": 3.4871,
      "step": 383590
    },
    {
      "epoch": 0.7991666666666667,
      "grad_norm": 1.7283867597579956,
      "learning_rate": 2.9112703156433397e-05,
      "loss": 3.412,
      "step": 383600
    },
    {
      "epoch": 0.7991875,
      "grad_norm": 1.980602502822876,
      "learning_rate": 2.9106866849366633e-05,
      "loss": 3.5524,
      "step": 383610
    },
    {
      "epoch": 0.7992083333333333,
      "grad_norm": 1.8938648700714111,
      "learning_rate": 2.9101031064510344e-05,
      "loss": 3.4803,
      "step": 383620
    },
    {
      "epoch": 0.7992291666666667,
      "grad_norm": 1.7810654640197754,
      "learning_rate": 2.9095195801889742e-05,
      "loss": 3.444,
      "step": 383630
    },
    {
      "epoch": 0.79925,
      "grad_norm": 2.2286951541900635,
      "learning_rate": 2.908936106153004e-05,
      "loss": 3.3928,
      "step": 383640
    },
    {
      "epoch": 0.7992708333333334,
      "grad_norm": 1.7676244974136353,
      "learning_rate": 2.908352684345644e-05,
      "loss": 3.5505,
      "step": 383650
    },
    {
      "epoch": 0.7992916666666666,
      "grad_norm": 1.8623945713043213,
      "learning_rate": 2.9077693147694132e-05,
      "loss": 3.5172,
      "step": 383660
    },
    {
      "epoch": 0.7993125,
      "grad_norm": 1.6815483570098877,
      "learning_rate": 2.907185997426833e-05,
      "loss": 3.3407,
      "step": 383670
    },
    {
      "epoch": 0.7993333333333333,
      "grad_norm": 1.6802459955215454,
      "learning_rate": 2.906602732320423e-05,
      "loss": 3.5178,
      "step": 383680
    },
    {
      "epoch": 0.7993541666666667,
      "grad_norm": 1.6213527917861938,
      "learning_rate": 2.9060195194527018e-05,
      "loss": 3.6123,
      "step": 383690
    },
    {
      "epoch": 0.799375,
      "grad_norm": 1.7772325277328491,
      "learning_rate": 2.90543635882619e-05,
      "loss": 3.4047,
      "step": 383700
    },
    {
      "epoch": 0.7993958333333333,
      "grad_norm": 1.7609708309173584,
      "learning_rate": 2.9048532504434045e-05,
      "loss": 3.3948,
      "step": 383710
    },
    {
      "epoch": 0.7994166666666667,
      "grad_norm": 1.822379469871521,
      "learning_rate": 2.9042701943068664e-05,
      "loss": 3.3638,
      "step": 383720
    },
    {
      "epoch": 0.7994375,
      "grad_norm": 1.6979320049285889,
      "learning_rate": 2.9036871904190934e-05,
      "loss": 3.5558,
      "step": 383730
    },
    {
      "epoch": 0.7994583333333334,
      "grad_norm": 1.5119781494140625,
      "learning_rate": 2.9031042387826038e-05,
      "loss": 3.5001,
      "step": 383740
    },
    {
      "epoch": 0.7994791666666666,
      "grad_norm": 2.154858350753784,
      "learning_rate": 2.9025213393999154e-05,
      "loss": 3.5069,
      "step": 383750
    },
    {
      "epoch": 0.7995,
      "grad_norm": 1.7693116664886475,
      "learning_rate": 2.9019384922735444e-05,
      "loss": 3.5152,
      "step": 383760
    },
    {
      "epoch": 0.7995208333333333,
      "grad_norm": 2.085679292678833,
      "learning_rate": 2.9013556974060126e-05,
      "loss": 3.2543,
      "step": 383770
    },
    {
      "epoch": 0.7995416666666667,
      "grad_norm": 1.985109806060791,
      "learning_rate": 2.9007729547998343e-05,
      "loss": 3.5103,
      "step": 383780
    },
    {
      "epoch": 0.7995625,
      "grad_norm": 2.1569271087646484,
      "learning_rate": 2.9001902644575274e-05,
      "loss": 3.4881,
      "step": 383790
    },
    {
      "epoch": 0.7995833333333333,
      "grad_norm": 1.828014612197876,
      "learning_rate": 2.8996076263816136e-05,
      "loss": 3.5023,
      "step": 383800
    },
    {
      "epoch": 0.7996041666666667,
      "grad_norm": 1.7796754837036133,
      "learning_rate": 2.8990250405745972e-05,
      "loss": 3.4692,
      "step": 383810
    },
    {
      "epoch": 0.799625,
      "grad_norm": 1.965470552444458,
      "learning_rate": 2.8984425070390083e-05,
      "loss": 3.45,
      "step": 383820
    },
    {
      "epoch": 0.7996458333333333,
      "grad_norm": 1.8222107887268066,
      "learning_rate": 2.8978600257773594e-05,
      "loss": 3.3505,
      "step": 383830
    },
    {
      "epoch": 0.7996666666666666,
      "grad_norm": 1.786594033241272,
      "learning_rate": 2.8972775967921567e-05,
      "loss": 3.5662,
      "step": 383840
    },
    {
      "epoch": 0.7996875,
      "grad_norm": 2.050870180130005,
      "learning_rate": 2.896695220085929e-05,
      "loss": 3.3466,
      "step": 383850
    },
    {
      "epoch": 0.7997083333333334,
      "grad_norm": 1.797626256942749,
      "learning_rate": 2.896112895661192e-05,
      "loss": 3.3765,
      "step": 383860
    },
    {
      "epoch": 0.7997291666666667,
      "grad_norm": 1.6534546613693237,
      "learning_rate": 2.8955306235204468e-05,
      "loss": 3.413,
      "step": 383870
    },
    {
      "epoch": 0.79975,
      "grad_norm": 2.3440821170806885,
      "learning_rate": 2.8949484036662236e-05,
      "loss": 3.4414,
      "step": 383880
    },
    {
      "epoch": 0.7997708333333333,
      "grad_norm": 1.60762619972229,
      "learning_rate": 2.8943662361010333e-05,
      "loss": 3.4432,
      "step": 383890
    },
    {
      "epoch": 0.7997916666666667,
      "grad_norm": 1.9600995779037476,
      "learning_rate": 2.8937841208273877e-05,
      "loss": 3.5238,
      "step": 383900
    },
    {
      "epoch": 0.7998125,
      "grad_norm": 1.7129884958267212,
      "learning_rate": 2.8932020578477978e-05,
      "loss": 3.3705,
      "step": 383910
    },
    {
      "epoch": 0.7998333333333333,
      "grad_norm": 1.5641133785247803,
      "learning_rate": 2.89262004716479e-05,
      "loss": 3.3111,
      "step": 383920
    },
    {
      "epoch": 0.7998541666666666,
      "grad_norm": 2.168252468109131,
      "learning_rate": 2.892038088780867e-05,
      "loss": 3.3703,
      "step": 383930
    },
    {
      "epoch": 0.799875,
      "grad_norm": 1.765796184539795,
      "learning_rate": 2.891456182698549e-05,
      "loss": 3.516,
      "step": 383940
    },
    {
      "epoch": 0.7998958333333334,
      "grad_norm": 1.8910009860992432,
      "learning_rate": 2.890874328920345e-05,
      "loss": 3.4729,
      "step": 383950
    },
    {
      "epoch": 0.7999166666666667,
      "grad_norm": 1.8100520372390747,
      "learning_rate": 2.890292527448772e-05,
      "loss": 3.5301,
      "step": 383960
    },
    {
      "epoch": 0.7999375,
      "grad_norm": 1.7244771718978882,
      "learning_rate": 2.889710778286341e-05,
      "loss": 3.4634,
      "step": 383970
    },
    {
      "epoch": 0.7999583333333333,
      "grad_norm": 1.7349889278411865,
      "learning_rate": 2.8891290814355668e-05,
      "loss": 3.3344,
      "step": 383980
    },
    {
      "epoch": 0.7999791666666667,
      "grad_norm": 1.7685962915420532,
      "learning_rate": 2.8885474368989604e-05,
      "loss": 3.3971,
      "step": 383990
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9766156673431396,
      "learning_rate": 2.8879658446790367e-05,
      "loss": 3.5377,
      "step": 384000
    },
    {
      "epoch": 0.8,
      "eval_loss": 3.530517101287842,
      "eval_runtime": 7.2974,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 384000
    },
    {
      "epoch": 0.8000208333333333,
      "grad_norm": 1.7989747524261475,
      "learning_rate": 2.8873843047783052e-05,
      "loss": 3.3461,
      "step": 384010
    },
    {
      "epoch": 0.8000416666666667,
      "grad_norm": 1.9692134857177734,
      "learning_rate": 2.8868028171992773e-05,
      "loss": 3.5229,
      "step": 384020
    },
    {
      "epoch": 0.8000625,
      "grad_norm": 1.7176369428634644,
      "learning_rate": 2.8862213819444696e-05,
      "loss": 3.386,
      "step": 384030
    },
    {
      "epoch": 0.8000833333333334,
      "grad_norm": 1.9487223625183105,
      "learning_rate": 2.885639999016388e-05,
      "loss": 3.4774,
      "step": 384040
    },
    {
      "epoch": 0.8001041666666666,
      "grad_norm": 1.852411150932312,
      "learning_rate": 2.8850586684175474e-05,
      "loss": 3.395,
      "step": 384050
    },
    {
      "epoch": 0.800125,
      "grad_norm": 1.739693522453308,
      "learning_rate": 2.8844773901504574e-05,
      "loss": 3.3783,
      "step": 384060
    },
    {
      "epoch": 0.8001458333333333,
      "grad_norm": 1.5854785442352295,
      "learning_rate": 2.883896164217631e-05,
      "loss": 3.3647,
      "step": 384070
    },
    {
      "epoch": 0.8001666666666667,
      "grad_norm": 2.070342779159546,
      "learning_rate": 2.8833149906215764e-05,
      "loss": 3.473,
      "step": 384080
    },
    {
      "epoch": 0.8001875,
      "grad_norm": 2.0295417308807373,
      "learning_rate": 2.8827338693648045e-05,
      "loss": 3.5706,
      "step": 384090
    },
    {
      "epoch": 0.8002083333333333,
      "grad_norm": 1.7956708669662476,
      "learning_rate": 2.882152800449827e-05,
      "loss": 3.5392,
      "step": 384100
    },
    {
      "epoch": 0.8002291666666667,
      "grad_norm": 1.6611368656158447,
      "learning_rate": 2.8815717838791512e-05,
      "loss": 3.4167,
      "step": 384110
    },
    {
      "epoch": 0.80025,
      "grad_norm": 1.7718846797943115,
      "learning_rate": 2.8809908196552893e-05,
      "loss": 3.5087,
      "step": 384120
    },
    {
      "epoch": 0.8002708333333334,
      "grad_norm": 1.7152148485183716,
      "learning_rate": 2.8804099077807506e-05,
      "loss": 3.4526,
      "step": 384130
    },
    {
      "epoch": 0.8002916666666666,
      "grad_norm": 1.9346023797988892,
      "learning_rate": 2.8798290482580434e-05,
      "loss": 3.3559,
      "step": 384140
    },
    {
      "epoch": 0.8003125,
      "grad_norm": 1.9588931798934937,
      "learning_rate": 2.8792482410896767e-05,
      "loss": 3.4929,
      "step": 384150
    },
    {
      "epoch": 0.8003333333333333,
      "grad_norm": 1.9114004373550415,
      "learning_rate": 2.8786674862781606e-05,
      "loss": 3.4188,
      "step": 384160
    },
    {
      "epoch": 0.8003541666666667,
      "grad_norm": 1.64524245262146,
      "learning_rate": 2.8780867838260014e-05,
      "loss": 3.3791,
      "step": 384170
    },
    {
      "epoch": 0.800375,
      "grad_norm": 2.078645706176758,
      "learning_rate": 2.8775061337357104e-05,
      "loss": 3.4918,
      "step": 384180
    },
    {
      "epoch": 0.8003958333333333,
      "grad_norm": 1.709864854812622,
      "learning_rate": 2.8769255360097954e-05,
      "loss": 3.4844,
      "step": 384190
    },
    {
      "epoch": 0.8004166666666667,
      "grad_norm": 1.5725606679916382,
      "learning_rate": 2.8763449906507664e-05,
      "loss": 3.3708,
      "step": 384200
    },
    {
      "epoch": 0.8004375,
      "grad_norm": 1.6232481002807617,
      "learning_rate": 2.8757644976611242e-05,
      "loss": 3.5253,
      "step": 384210
    },
    {
      "epoch": 0.8004583333333334,
      "grad_norm": 1.5592939853668213,
      "learning_rate": 2.875184057043376e-05,
      "loss": 3.3456,
      "step": 384220
    },
    {
      "epoch": 0.8004791666666666,
      "grad_norm": 2.0200958251953125,
      "learning_rate": 2.8746036688000425e-05,
      "loss": 3.5152,
      "step": 384230
    },
    {
      "epoch": 0.8005,
      "grad_norm": 1.7532769441604614,
      "learning_rate": 2.8740233329336164e-05,
      "loss": 3.4564,
      "step": 384240
    },
    {
      "epoch": 0.8005208333333333,
      "grad_norm": 1.7996752262115479,
      "learning_rate": 2.8734430494466067e-05,
      "loss": 3.5044,
      "step": 384250
    },
    {
      "epoch": 0.8005416666666667,
      "grad_norm": 1.7859143018722534,
      "learning_rate": 2.8728628183415286e-05,
      "loss": 3.4152,
      "step": 384260
    },
    {
      "epoch": 0.8005625,
      "grad_norm": 2.005497455596924,
      "learning_rate": 2.872282639620881e-05,
      "loss": 3.3839,
      "step": 384270
    },
    {
      "epoch": 0.8005833333333333,
      "grad_norm": 1.7861093282699585,
      "learning_rate": 2.8717025132871678e-05,
      "loss": 3.4136,
      "step": 384280
    },
    {
      "epoch": 0.8006041666666667,
      "grad_norm": 1.7181963920593262,
      "learning_rate": 2.871122439342906e-05,
      "loss": 3.4029,
      "step": 384290
    },
    {
      "epoch": 0.800625,
      "grad_norm": 2.2458438873291016,
      "learning_rate": 2.8705424177905918e-05,
      "loss": 3.3662,
      "step": 384300
    },
    {
      "epoch": 0.8006458333333333,
      "grad_norm": 1.7916909456253052,
      "learning_rate": 2.869962448632733e-05,
      "loss": 3.4169,
      "step": 384310
    },
    {
      "epoch": 0.8006666666666666,
      "grad_norm": 1.5936447381973267,
      "learning_rate": 2.869382531871834e-05,
      "loss": 3.4121,
      "step": 384320
    },
    {
      "epoch": 0.8006875,
      "grad_norm": 1.6155558824539185,
      "learning_rate": 2.8688026675104014e-05,
      "loss": 3.3749,
      "step": 384330
    },
    {
      "epoch": 0.8007083333333334,
      "grad_norm": 1.5965754985809326,
      "learning_rate": 2.8682228555509402e-05,
      "loss": 3.4305,
      "step": 384340
    },
    {
      "epoch": 0.8007291666666667,
      "grad_norm": 1.8390141725540161,
      "learning_rate": 2.867643095995953e-05,
      "loss": 3.4257,
      "step": 384350
    },
    {
      "epoch": 0.80075,
      "grad_norm": 1.7886581420898438,
      "learning_rate": 2.8670633888479445e-05,
      "loss": 3.4304,
      "step": 384360
    },
    {
      "epoch": 0.8007708333333333,
      "grad_norm": 1.567831039428711,
      "learning_rate": 2.866483734109421e-05,
      "loss": 3.4692,
      "step": 384370
    },
    {
      "epoch": 0.8007916666666667,
      "grad_norm": 1.7854963541030884,
      "learning_rate": 2.8659041317828856e-05,
      "loss": 3.3216,
      "step": 384380
    },
    {
      "epoch": 0.8008125,
      "grad_norm": 1.7967493534088135,
      "learning_rate": 2.8653245818708398e-05,
      "loss": 3.5053,
      "step": 384390
    },
    {
      "epoch": 0.8008333333333333,
      "grad_norm": 1.598272442817688,
      "learning_rate": 2.8647450843757897e-05,
      "loss": 3.394,
      "step": 384400
    },
    {
      "epoch": 0.8008541666666666,
      "grad_norm": 1.8959438800811768,
      "learning_rate": 2.8641656393002366e-05,
      "loss": 3.4431,
      "step": 384410
    },
    {
      "epoch": 0.800875,
      "grad_norm": 2.042729139328003,
      "learning_rate": 2.8635862466466835e-05,
      "loss": 3.3749,
      "step": 384420
    },
    {
      "epoch": 0.8008958333333334,
      "grad_norm": 1.8855822086334229,
      "learning_rate": 2.8630069064176353e-05,
      "loss": 3.4384,
      "step": 384430
    },
    {
      "epoch": 0.8009166666666667,
      "grad_norm": 1.774678349494934,
      "learning_rate": 2.862427618615593e-05,
      "loss": 3.4792,
      "step": 384440
    },
    {
      "epoch": 0.8009375,
      "grad_norm": 1.6424468755722046,
      "learning_rate": 2.8618483832430584e-05,
      "loss": 3.4235,
      "step": 384450
    },
    {
      "epoch": 0.8009583333333333,
      "grad_norm": 2.2862462997436523,
      "learning_rate": 2.8612692003025357e-05,
      "loss": 3.4007,
      "step": 384460
    },
    {
      "epoch": 0.8009791666666667,
      "grad_norm": 1.8027268648147583,
      "learning_rate": 2.860690069796523e-05,
      "loss": 3.5286,
      "step": 384470
    },
    {
      "epoch": 0.801,
      "grad_norm": 1.664809226989746,
      "learning_rate": 2.860110991727525e-05,
      "loss": 3.4844,
      "step": 384480
    },
    {
      "epoch": 0.8010208333333333,
      "grad_norm": 1.9079055786132812,
      "learning_rate": 2.8595319660980465e-05,
      "loss": 3.3969,
      "step": 384490
    },
    {
      "epoch": 0.8010416666666667,
      "grad_norm": 1.7721202373504639,
      "learning_rate": 2.858952992910577e-05,
      "loss": 3.3914,
      "step": 384500
    },
    {
      "epoch": 0.8010625,
      "grad_norm": 2.0411884784698486,
      "learning_rate": 2.858374072167628e-05,
      "loss": 3.5074,
      "step": 384510
    },
    {
      "epoch": 0.8010833333333334,
      "grad_norm": 1.9846090078353882,
      "learning_rate": 2.8577952038717007e-05,
      "loss": 3.3324,
      "step": 384520
    },
    {
      "epoch": 0.8011041666666666,
      "grad_norm": 2.223248243331909,
      "learning_rate": 2.8572163880252847e-05,
      "loss": 3.4802,
      "step": 384530
    },
    {
      "epoch": 0.801125,
      "grad_norm": 1.7508331537246704,
      "learning_rate": 2.8566376246308913e-05,
      "loss": 3.3547,
      "step": 384540
    },
    {
      "epoch": 0.8011458333333333,
      "grad_norm": 2.112429618835449,
      "learning_rate": 2.856058913691019e-05,
      "loss": 3.4439,
      "step": 384550
    },
    {
      "epoch": 0.8011666666666667,
      "grad_norm": 1.8393608331680298,
      "learning_rate": 2.8554802552081603e-05,
      "loss": 3.4663,
      "step": 384560
    },
    {
      "epoch": 0.8011875,
      "grad_norm": 1.8036867380142212,
      "learning_rate": 2.854901649184825e-05,
      "loss": 3.4323,
      "step": 384570
    },
    {
      "epoch": 0.8012083333333333,
      "grad_norm": 2.034362316131592,
      "learning_rate": 2.854323095623504e-05,
      "loss": 3.4468,
      "step": 384580
    },
    {
      "epoch": 0.8012291666666667,
      "grad_norm": 2.158139228820801,
      "learning_rate": 2.8537445945266962e-05,
      "loss": 3.3839,
      "step": 384590
    },
    {
      "epoch": 0.80125,
      "grad_norm": 1.8043283224105835,
      "learning_rate": 2.8531661458969122e-05,
      "loss": 3.3491,
      "step": 384600
    },
    {
      "epoch": 0.8012708333333334,
      "grad_norm": 1.660809874534607,
      "learning_rate": 2.8525877497366374e-05,
      "loss": 3.3533,
      "step": 384610
    },
    {
      "epoch": 0.8012916666666666,
      "grad_norm": 1.6342836618423462,
      "learning_rate": 2.852009406048372e-05,
      "loss": 3.4087,
      "step": 384620
    },
    {
      "epoch": 0.8013125,
      "grad_norm": 1.7985905408859253,
      "learning_rate": 2.8514311148346253e-05,
      "loss": 3.3779,
      "step": 384630
    },
    {
      "epoch": 0.8013333333333333,
      "grad_norm": 1.830444097518921,
      "learning_rate": 2.8508528760978828e-05,
      "loss": 3.468,
      "step": 384640
    },
    {
      "epoch": 0.8013541666666667,
      "grad_norm": 1.793055534362793,
      "learning_rate": 2.850274689840644e-05,
      "loss": 3.452,
      "step": 384650
    },
    {
      "epoch": 0.801375,
      "grad_norm": 1.8785982131958008,
      "learning_rate": 2.849696556065416e-05,
      "loss": 3.5578,
      "step": 384660
    },
    {
      "epoch": 0.8013958333333333,
      "grad_norm": 1.8335943222045898,
      "learning_rate": 2.8491184747746864e-05,
      "loss": 3.4169,
      "step": 384670
    },
    {
      "epoch": 0.8014166666666667,
      "grad_norm": 1.6565598249435425,
      "learning_rate": 2.8485404459709515e-05,
      "loss": 3.584,
      "step": 384680
    },
    {
      "epoch": 0.8014375,
      "grad_norm": 1.806623935699463,
      "learning_rate": 2.847962469656721e-05,
      "loss": 3.462,
      "step": 384690
    },
    {
      "epoch": 0.8014583333333334,
      "grad_norm": 2.079418897628784,
      "learning_rate": 2.8473845458344762e-05,
      "loss": 3.5252,
      "step": 384700
    },
    {
      "epoch": 0.8014791666666666,
      "grad_norm": 1.8930875062942505,
      "learning_rate": 2.8468066745067202e-05,
      "loss": 3.5338,
      "step": 384710
    },
    {
      "epoch": 0.8015,
      "grad_norm": 1.7638211250305176,
      "learning_rate": 2.846228855675951e-05,
      "loss": 3.4291,
      "step": 384720
    },
    {
      "epoch": 0.8015208333333333,
      "grad_norm": 1.599237084388733,
      "learning_rate": 2.84565108934466e-05,
      "loss": 3.4328,
      "step": 384730
    },
    {
      "epoch": 0.8015416666666667,
      "grad_norm": 1.8322417736053467,
      "learning_rate": 2.8450733755153466e-05,
      "loss": 3.5344,
      "step": 384740
    },
    {
      "epoch": 0.8015625,
      "grad_norm": 1.7082008123397827,
      "learning_rate": 2.8444957141905038e-05,
      "loss": 3.4086,
      "step": 384750
    },
    {
      "epoch": 0.8015833333333333,
      "grad_norm": 1.677269458770752,
      "learning_rate": 2.8439181053726285e-05,
      "loss": 3.3795,
      "step": 384760
    },
    {
      "epoch": 0.8016041666666667,
      "grad_norm": 1.8708677291870117,
      "learning_rate": 2.8433405490642163e-05,
      "loss": 3.5736,
      "step": 384770
    },
    {
      "epoch": 0.801625,
      "grad_norm": 1.911293387413025,
      "learning_rate": 2.8427630452677593e-05,
      "loss": 3.4165,
      "step": 384780
    },
    {
      "epoch": 0.8016458333333333,
      "grad_norm": 1.76941978931427,
      "learning_rate": 2.8421855939857546e-05,
      "loss": 3.4156,
      "step": 384790
    },
    {
      "epoch": 0.8016666666666666,
      "grad_norm": 1.7742277383804321,
      "learning_rate": 2.8416081952206994e-05,
      "loss": 3.3571,
      "step": 384800
    },
    {
      "epoch": 0.8016875,
      "grad_norm": 1.7632330656051636,
      "learning_rate": 2.8410308489750777e-05,
      "loss": 3.5808,
      "step": 384810
    },
    {
      "epoch": 0.8017083333333334,
      "grad_norm": 2.0958411693573,
      "learning_rate": 2.840453555251393e-05,
      "loss": 3.4975,
      "step": 384820
    },
    {
      "epoch": 0.8017291666666667,
      "grad_norm": 1.6754794120788574,
      "learning_rate": 2.839876314052138e-05,
      "loss": 3.5139,
      "step": 384830
    },
    {
      "epoch": 0.80175,
      "grad_norm": 1.8579661846160889,
      "learning_rate": 2.8392991253797976e-05,
      "loss": 3.3406,
      "step": 384840
    },
    {
      "epoch": 0.8017708333333333,
      "grad_norm": 1.7213232517242432,
      "learning_rate": 2.8387219892368763e-05,
      "loss": 3.6354,
      "step": 384850
    },
    {
      "epoch": 0.8017916666666667,
      "grad_norm": 1.8141523599624634,
      "learning_rate": 2.8381449056258654e-05,
      "loss": 3.4051,
      "step": 384860
    },
    {
      "epoch": 0.8018125,
      "grad_norm": 1.6425273418426514,
      "learning_rate": 2.8375678745492464e-05,
      "loss": 3.2528,
      "step": 384870
    },
    {
      "epoch": 0.8018333333333333,
      "grad_norm": 1.8207533359527588,
      "learning_rate": 2.836990896009524e-05,
      "loss": 3.5408,
      "step": 384880
    },
    {
      "epoch": 0.8018541666666666,
      "grad_norm": 1.8790498971939087,
      "learning_rate": 2.836413970009191e-05,
      "loss": 3.3823,
      "step": 384890
    },
    {
      "epoch": 0.801875,
      "grad_norm": 1.978165864944458,
      "learning_rate": 2.8358370965507253e-05,
      "loss": 3.3838,
      "step": 384900
    },
    {
      "epoch": 0.8018958333333334,
      "grad_norm": 1.6003729104995728,
      "learning_rate": 2.835260275636634e-05,
      "loss": 3.4879,
      "step": 384910
    },
    {
      "epoch": 0.8019166666666667,
      "grad_norm": 1.7211726903915405,
      "learning_rate": 2.8346835072694075e-05,
      "loss": 3.4811,
      "step": 384920
    },
    {
      "epoch": 0.8019375,
      "grad_norm": 1.9491875171661377,
      "learning_rate": 2.8341067914515224e-05,
      "loss": 3.451,
      "step": 384930
    },
    {
      "epoch": 0.8019583333333333,
      "grad_norm": 1.820597767829895,
      "learning_rate": 2.8335301281854905e-05,
      "loss": 3.3713,
      "step": 384940
    },
    {
      "epoch": 0.8019791666666667,
      "grad_norm": 1.981153964996338,
      "learning_rate": 2.8329535174737896e-05,
      "loss": 3.3853,
      "step": 384950
    },
    {
      "epoch": 0.802,
      "grad_norm": 2.2694637775421143,
      "learning_rate": 2.8323769593189072e-05,
      "loss": 3.4579,
      "step": 384960
    },
    {
      "epoch": 0.8020208333333333,
      "grad_norm": 1.7767083644866943,
      "learning_rate": 2.8318004537233486e-05,
      "loss": 3.4272,
      "step": 384970
    },
    {
      "epoch": 0.8020416666666667,
      "grad_norm": 1.7137335538864136,
      "learning_rate": 2.8312240006895915e-05,
      "loss": 3.4416,
      "step": 384980
    },
    {
      "epoch": 0.8020625,
      "grad_norm": 1.6589120626449585,
      "learning_rate": 2.830647600220127e-05,
      "loss": 3.5903,
      "step": 384990
    },
    {
      "epoch": 0.8020833333333334,
      "grad_norm": 2.058910608291626,
      "learning_rate": 2.8300712523174556e-05,
      "loss": 3.3851,
      "step": 385000
    },
    {
      "epoch": 0.8020833333333334,
      "eval_loss": 3.529118776321411,
      "eval_runtime": 7.3638,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 385000
    },
    {
      "epoch": 0.8021041666666666,
      "grad_norm": 2.014836311340332,
      "learning_rate": 2.8294949569840548e-05,
      "loss": 3.3772,
      "step": 385010
    },
    {
      "epoch": 0.802125,
      "grad_norm": 1.7504723072052002,
      "learning_rate": 2.828918714222414e-05,
      "loss": 3.6364,
      "step": 385020
    },
    {
      "epoch": 0.8021458333333333,
      "grad_norm": 2.136489152908325,
      "learning_rate": 2.8283425240350348e-05,
      "loss": 3.553,
      "step": 385030
    },
    {
      "epoch": 0.8021666666666667,
      "grad_norm": 2.478142261505127,
      "learning_rate": 2.8277663864243956e-05,
      "loss": 3.3734,
      "step": 385040
    },
    {
      "epoch": 0.8021875,
      "grad_norm": 1.6339620351791382,
      "learning_rate": 2.827190301392982e-05,
      "loss": 3.336,
      "step": 385050
    },
    {
      "epoch": 0.8022083333333333,
      "grad_norm": 1.8083853721618652,
      "learning_rate": 2.826614268943296e-05,
      "loss": 3.3391,
      "step": 385060
    },
    {
      "epoch": 0.8022291666666667,
      "grad_norm": 1.93242609500885,
      "learning_rate": 2.8260382890778132e-05,
      "loss": 3.3525,
      "step": 385070
    },
    {
      "epoch": 0.80225,
      "grad_norm": 1.7658365964889526,
      "learning_rate": 2.8254623617990273e-05,
      "loss": 3.468,
      "step": 385080
    },
    {
      "epoch": 0.8022708333333334,
      "grad_norm": 1.8357676267623901,
      "learning_rate": 2.8248864871094244e-05,
      "loss": 3.4476,
      "step": 385090
    },
    {
      "epoch": 0.8022916666666666,
      "grad_norm": 1.6728790998458862,
      "learning_rate": 2.8243106650114928e-05,
      "loss": 3.3413,
      "step": 385100
    },
    {
      "epoch": 0.8023125,
      "grad_norm": 1.8298585414886475,
      "learning_rate": 2.82373489550772e-05,
      "loss": 3.4216,
      "step": 385110
    },
    {
      "epoch": 0.8023333333333333,
      "grad_norm": 2.4770901203155518,
      "learning_rate": 2.8231591786005926e-05,
      "loss": 3.4495,
      "step": 385120
    },
    {
      "epoch": 0.8023541666666667,
      "grad_norm": 1.8558984994888306,
      "learning_rate": 2.8225835142925984e-05,
      "loss": 3.5574,
      "step": 385130
    },
    {
      "epoch": 0.802375,
      "grad_norm": 1.5887373685836792,
      "learning_rate": 2.8220079025862223e-05,
      "loss": 3.4148,
      "step": 385140
    },
    {
      "epoch": 0.8023958333333333,
      "grad_norm": 1.9596498012542725,
      "learning_rate": 2.821432343483951e-05,
      "loss": 3.3918,
      "step": 385150
    },
    {
      "epoch": 0.8024166666666667,
      "grad_norm": 2.235715389251709,
      "learning_rate": 2.8208568369882715e-05,
      "loss": 3.5106,
      "step": 385160
    },
    {
      "epoch": 0.8024375,
      "grad_norm": 1.6563291549682617,
      "learning_rate": 2.8202813831016746e-05,
      "loss": 3.5118,
      "step": 385170
    },
    {
      "epoch": 0.8024583333333334,
      "grad_norm": 1.8362637758255005,
      "learning_rate": 2.8197059818266325e-05,
      "loss": 3.4255,
      "step": 385180
    },
    {
      "epoch": 0.8024791666666666,
      "grad_norm": 1.6609007120132446,
      "learning_rate": 2.8191306331656437e-05,
      "loss": 3.4163,
      "step": 385190
    },
    {
      "epoch": 0.8025,
      "grad_norm": 1.6597917079925537,
      "learning_rate": 2.8185553371211926e-05,
      "loss": 3.532,
      "step": 385200
    },
    {
      "epoch": 0.8025208333333333,
      "grad_norm": 1.886413812637329,
      "learning_rate": 2.817980093695754e-05,
      "loss": 3.6809,
      "step": 385210
    },
    {
      "epoch": 0.8025416666666667,
      "grad_norm": 1.6672425270080566,
      "learning_rate": 2.817404902891823e-05,
      "loss": 3.4856,
      "step": 385220
    },
    {
      "epoch": 0.8025625,
      "grad_norm": 2.0431394577026367,
      "learning_rate": 2.816829764711883e-05,
      "loss": 3.501,
      "step": 385230
    },
    {
      "epoch": 0.8025833333333333,
      "grad_norm": 1.9176857471466064,
      "learning_rate": 2.8162546791584083e-05,
      "loss": 3.5756,
      "step": 385240
    },
    {
      "epoch": 0.8026041666666667,
      "grad_norm": 1.5853790044784546,
      "learning_rate": 2.8156796462338965e-05,
      "loss": 3.4439,
      "step": 385250
    },
    {
      "epoch": 0.802625,
      "grad_norm": 1.80596923828125,
      "learning_rate": 2.815104665940829e-05,
      "loss": 3.4229,
      "step": 385260
    },
    {
      "epoch": 0.8026458333333333,
      "grad_norm": 1.6643455028533936,
      "learning_rate": 2.8145297382816766e-05,
      "loss": 3.4205,
      "step": 385270
    },
    {
      "epoch": 0.8026666666666666,
      "grad_norm": 2.006702423095703,
      "learning_rate": 2.813954863258938e-05,
      "loss": 3.557,
      "step": 385280
    },
    {
      "epoch": 0.8026875,
      "grad_norm": 1.6500401496887207,
      "learning_rate": 2.8133800408750946e-05,
      "loss": 3.4031,
      "step": 385290
    },
    {
      "epoch": 0.8027083333333334,
      "grad_norm": 1.938356637954712,
      "learning_rate": 2.812805271132617e-05,
      "loss": 3.4872,
      "step": 385300
    },
    {
      "epoch": 0.8027291666666667,
      "grad_norm": 2.0226590633392334,
      "learning_rate": 2.8122305540340058e-05,
      "loss": 3.5589,
      "step": 385310
    },
    {
      "epoch": 0.80275,
      "grad_norm": 1.630516767501831,
      "learning_rate": 2.8116558895817298e-05,
      "loss": 3.4062,
      "step": 385320
    },
    {
      "epoch": 0.8027708333333333,
      "grad_norm": 1.782883644104004,
      "learning_rate": 2.811081277778271e-05,
      "loss": 3.483,
      "step": 385330
    },
    {
      "epoch": 0.8027916666666667,
      "grad_norm": 1.541245698928833,
      "learning_rate": 2.8105067186261254e-05,
      "loss": 3.5632,
      "step": 385340
    },
    {
      "epoch": 0.8028125,
      "grad_norm": 1.794819951057434,
      "learning_rate": 2.8099322121277612e-05,
      "loss": 3.4395,
      "step": 385350
    },
    {
      "epoch": 0.8028333333333333,
      "grad_norm": 1.7572201490402222,
      "learning_rate": 2.8093577582856614e-05,
      "loss": 3.4178,
      "step": 385360
    },
    {
      "epoch": 0.8028541666666666,
      "grad_norm": 1.8984349966049194,
      "learning_rate": 2.808783357102317e-05,
      "loss": 3.3661,
      "step": 385370
    },
    {
      "epoch": 0.802875,
      "grad_norm": 2.4571444988250732,
      "learning_rate": 2.8082090085802018e-05,
      "loss": 3.4996,
      "step": 385380
    },
    {
      "epoch": 0.8028958333333334,
      "grad_norm": 1.9122300148010254,
      "learning_rate": 2.8076347127217948e-05,
      "loss": 3.4354,
      "step": 385390
    },
    {
      "epoch": 0.8029166666666666,
      "grad_norm": 1.8888146877288818,
      "learning_rate": 2.8070604695295824e-05,
      "loss": 3.4784,
      "step": 385400
    },
    {
      "epoch": 0.8029375,
      "grad_norm": 1.7406576871871948,
      "learning_rate": 2.806486279006041e-05,
      "loss": 3.407,
      "step": 385410
    },
    {
      "epoch": 0.8029583333333333,
      "grad_norm": 1.7666513919830322,
      "learning_rate": 2.8059121411536522e-05,
      "loss": 3.3986,
      "step": 385420
    },
    {
      "epoch": 0.8029791666666667,
      "grad_norm": 1.9227632284164429,
      "learning_rate": 2.8053380559748974e-05,
      "loss": 3.4525,
      "step": 385430
    },
    {
      "epoch": 0.803,
      "grad_norm": 1.8041386604309082,
      "learning_rate": 2.8047640234722542e-05,
      "loss": 3.4566,
      "step": 385440
    },
    {
      "epoch": 0.8030208333333333,
      "grad_norm": 2.3720333576202393,
      "learning_rate": 2.8041900436482024e-05,
      "loss": 3.4273,
      "step": 385450
    },
    {
      "epoch": 0.8030416666666667,
      "grad_norm": 1.9469192028045654,
      "learning_rate": 2.8036161165052235e-05,
      "loss": 3.4202,
      "step": 385460
    },
    {
      "epoch": 0.8030625,
      "grad_norm": 1.6215319633483887,
      "learning_rate": 2.8030422420457955e-05,
      "loss": 3.522,
      "step": 385470
    },
    {
      "epoch": 0.8030833333333334,
      "grad_norm": 1.8598276376724243,
      "learning_rate": 2.8024684202723962e-05,
      "loss": 3.308,
      "step": 385480
    },
    {
      "epoch": 0.8031041666666666,
      "grad_norm": 1.8343733549118042,
      "learning_rate": 2.8018946511875057e-05,
      "loss": 3.5131,
      "step": 385490
    },
    {
      "epoch": 0.803125,
      "grad_norm": 1.8170320987701416,
      "learning_rate": 2.8013209347936018e-05,
      "loss": 3.5132,
      "step": 385500
    },
    {
      "epoch": 0.8031458333333333,
      "grad_norm": 1.755969762802124,
      "learning_rate": 2.800747271093162e-05,
      "loss": 3.4448,
      "step": 385510
    },
    {
      "epoch": 0.8031666666666667,
      "grad_norm": 1.9037182331085205,
      "learning_rate": 2.8001736600886672e-05,
      "loss": 3.3653,
      "step": 385520
    },
    {
      "epoch": 0.8031875,
      "grad_norm": 1.7111666202545166,
      "learning_rate": 2.7996001017825924e-05,
      "loss": 3.3876,
      "step": 385530
    },
    {
      "epoch": 0.8032083333333333,
      "grad_norm": 1.7745803594589233,
      "learning_rate": 2.799026596177415e-05,
      "loss": 3.4819,
      "step": 385540
    },
    {
      "epoch": 0.8032291666666667,
      "grad_norm": 1.9654338359832764,
      "learning_rate": 2.798453143275614e-05,
      "loss": 3.567,
      "step": 385550
    },
    {
      "epoch": 0.80325,
      "grad_norm": 1.690872311592102,
      "learning_rate": 2.7978797430796663e-05,
      "loss": 3.3727,
      "step": 385560
    },
    {
      "epoch": 0.8032708333333334,
      "grad_norm": 1.803525447845459,
      "learning_rate": 2.797306395592051e-05,
      "loss": 3.4242,
      "step": 385570
    },
    {
      "epoch": 0.8032916666666666,
      "grad_norm": 1.8943135738372803,
      "learning_rate": 2.7967331008152333e-05,
      "loss": 3.5653,
      "step": 385580
    },
    {
      "epoch": 0.8033125,
      "grad_norm": 1.6568211317062378,
      "learning_rate": 2.7961598587517043e-05,
      "loss": 3.4315,
      "step": 385590
    },
    {
      "epoch": 0.8033333333333333,
      "grad_norm": 1.4308223724365234,
      "learning_rate": 2.795586669403937e-05,
      "loss": 3.5437,
      "step": 385600
    },
    {
      "epoch": 0.8033541666666667,
      "grad_norm": 1.7984453439712524,
      "learning_rate": 2.795013532774396e-05,
      "loss": 3.4554,
      "step": 385610
    },
    {
      "epoch": 0.803375,
      "grad_norm": 1.8339284658432007,
      "learning_rate": 2.7944404488655696e-05,
      "loss": 3.4257,
      "step": 385620
    },
    {
      "epoch": 0.8033958333333333,
      "grad_norm": 1.9943299293518066,
      "learning_rate": 2.793867417679934e-05,
      "loss": 3.5108,
      "step": 385630
    },
    {
      "epoch": 0.8034166666666667,
      "grad_norm": 1.8784900903701782,
      "learning_rate": 2.793294439219951e-05,
      "loss": 3.4346,
      "step": 385640
    },
    {
      "epoch": 0.8034375,
      "grad_norm": 1.8239377737045288,
      "learning_rate": 2.7927215134881093e-05,
      "loss": 3.4982,
      "step": 385650
    },
    {
      "epoch": 0.8034583333333334,
      "grad_norm": 1.9817907810211182,
      "learning_rate": 2.7921486404868808e-05,
      "loss": 3.4032,
      "step": 385660
    },
    {
      "epoch": 0.8034791666666666,
      "grad_norm": 1.7838313579559326,
      "learning_rate": 2.7915758202187354e-05,
      "loss": 3.3647,
      "step": 385670
    },
    {
      "epoch": 0.8035,
      "grad_norm": 1.787360668182373,
      "learning_rate": 2.791003052686146e-05,
      "loss": 3.4377,
      "step": 385680
    },
    {
      "epoch": 0.8035208333333334,
      "grad_norm": 1.8070505857467651,
      "learning_rate": 2.790430337891599e-05,
      "loss": 3.4748,
      "step": 385690
    },
    {
      "epoch": 0.8035416666666667,
      "grad_norm": 2.4941046237945557,
      "learning_rate": 2.7898576758375552e-05,
      "loss": 3.3169,
      "step": 385700
    },
    {
      "epoch": 0.8035625,
      "grad_norm": 2.1705493927001953,
      "learning_rate": 2.7892850665264934e-05,
      "loss": 3.2974,
      "step": 385710
    },
    {
      "epoch": 0.8035833333333333,
      "grad_norm": 1.9446638822555542,
      "learning_rate": 2.788712509960886e-05,
      "loss": 3.5135,
      "step": 385720
    },
    {
      "epoch": 0.8036041666666667,
      "grad_norm": 1.7945659160614014,
      "learning_rate": 2.788140006143208e-05,
      "loss": 3.4489,
      "step": 385730
    },
    {
      "epoch": 0.803625,
      "grad_norm": 1.882712483406067,
      "learning_rate": 2.7875675550759308e-05,
      "loss": 3.2725,
      "step": 385740
    },
    {
      "epoch": 0.8036458333333333,
      "grad_norm": 1.7317426204681396,
      "learning_rate": 2.7869951567615272e-05,
      "loss": 3.4385,
      "step": 385750
    },
    {
      "epoch": 0.8036666666666666,
      "grad_norm": 1.8215783834457397,
      "learning_rate": 2.7864228112024722e-05,
      "loss": 3.515,
      "step": 385760
    },
    {
      "epoch": 0.8036875,
      "grad_norm": 1.5672311782836914,
      "learning_rate": 2.7858505184012353e-05,
      "loss": 3.3687,
      "step": 385770
    },
    {
      "epoch": 0.8037083333333334,
      "grad_norm": 1.7318830490112305,
      "learning_rate": 2.7852782783602895e-05,
      "loss": 3.4931,
      "step": 385780
    },
    {
      "epoch": 0.8037291666666667,
      "grad_norm": 1.934754729270935,
      "learning_rate": 2.784706091082106e-05,
      "loss": 3.4091,
      "step": 385790
    },
    {
      "epoch": 0.80375,
      "grad_norm": 2.1312122344970703,
      "learning_rate": 2.7841339565691568e-05,
      "loss": 3.3768,
      "step": 385800
    },
    {
      "epoch": 0.8037708333333333,
      "grad_norm": 2.0552477836608887,
      "learning_rate": 2.7835618748239142e-05,
      "loss": 3.4983,
      "step": 385810
    },
    {
      "epoch": 0.8037916666666667,
      "grad_norm": 1.7506811618804932,
      "learning_rate": 2.7829898458488496e-05,
      "loss": 3.484,
      "step": 385820
    },
    {
      "epoch": 0.8038125,
      "grad_norm": 1.7733124494552612,
      "learning_rate": 2.7824178696464317e-05,
      "loss": 3.3961,
      "step": 385830
    },
    {
      "epoch": 0.8038333333333333,
      "grad_norm": 1.7862377166748047,
      "learning_rate": 2.781845946219133e-05,
      "loss": 3.3515,
      "step": 385840
    },
    {
      "epoch": 0.8038541666666666,
      "grad_norm": 2.6144955158233643,
      "learning_rate": 2.781274075569423e-05,
      "loss": 3.4471,
      "step": 385850
    },
    {
      "epoch": 0.803875,
      "grad_norm": 1.9013211727142334,
      "learning_rate": 2.7807022576997732e-05,
      "loss": 3.4328,
      "step": 385860
    },
    {
      "epoch": 0.8038958333333334,
      "grad_norm": 2.1583950519561768,
      "learning_rate": 2.780130492612652e-05,
      "loss": 3.4875,
      "step": 385870
    },
    {
      "epoch": 0.8039166666666666,
      "grad_norm": 1.946234107017517,
      "learning_rate": 2.7795587803105324e-05,
      "loss": 3.3902,
      "step": 385880
    },
    {
      "epoch": 0.8039375,
      "grad_norm": 1.9561432600021362,
      "learning_rate": 2.7789871207958786e-05,
      "loss": 3.4607,
      "step": 385890
    },
    {
      "epoch": 0.8039583333333333,
      "grad_norm": 1.6185052394866943,
      "learning_rate": 2.7784155140711655e-05,
      "loss": 3.4588,
      "step": 385900
    },
    {
      "epoch": 0.8039791666666667,
      "grad_norm": 1.7998367547988892,
      "learning_rate": 2.777843960138858e-05,
      "loss": 3.435,
      "step": 385910
    },
    {
      "epoch": 0.804,
      "grad_norm": 1.9334591627120972,
      "learning_rate": 2.7772724590014272e-05,
      "loss": 3.3705,
      "step": 385920
    },
    {
      "epoch": 0.8040208333333333,
      "grad_norm": 2.048251152038574,
      "learning_rate": 2.776701010661343e-05,
      "loss": 3.4178,
      "step": 385930
    },
    {
      "epoch": 0.8040416666666667,
      "grad_norm": 2.3226959705352783,
      "learning_rate": 2.7761296151210733e-05,
      "loss": 3.4857,
      "step": 385940
    },
    {
      "epoch": 0.8040625,
      "grad_norm": 2.1731934547424316,
      "learning_rate": 2.7755582723830795e-05,
      "loss": 3.433,
      "step": 385950
    },
    {
      "epoch": 0.8040833333333334,
      "grad_norm": 1.776564121246338,
      "learning_rate": 2.7749869824498376e-05,
      "loss": 3.3909,
      "step": 385960
    },
    {
      "epoch": 0.8041041666666666,
      "grad_norm": 2.0829579830169678,
      "learning_rate": 2.774415745323818e-05,
      "loss": 3.4362,
      "step": 385970
    },
    {
      "epoch": 0.804125,
      "grad_norm": 1.6731382608413696,
      "learning_rate": 2.7738445610074784e-05,
      "loss": 3.4148,
      "step": 385980
    },
    {
      "epoch": 0.8041458333333333,
      "grad_norm": 1.931707501411438,
      "learning_rate": 2.773273429503288e-05,
      "loss": 3.4863,
      "step": 385990
    },
    {
      "epoch": 0.8041666666666667,
      "grad_norm": 1.7031441926956177,
      "learning_rate": 2.7727023508137224e-05,
      "loss": 3.4128,
      "step": 386000
    },
    {
      "epoch": 0.8041666666666667,
      "eval_loss": 3.530949354171753,
      "eval_runtime": 7.4304,
      "eval_samples_per_second": 1.346,
      "eval_steps_per_second": 0.404,
      "step": 386000
    },
    {
      "epoch": 0.8041875,
      "grad_norm": 2.6258907318115234,
      "learning_rate": 2.772131324941241e-05,
      "loss": 3.3966,
      "step": 386010
    },
    {
      "epoch": 0.8042083333333333,
      "grad_norm": 1.6798086166381836,
      "learning_rate": 2.7715603518883077e-05,
      "loss": 3.4522,
      "step": 386020
    },
    {
      "epoch": 0.8042291666666667,
      "grad_norm": 1.7147499322891235,
      "learning_rate": 2.7709894316574e-05,
      "loss": 3.5667,
      "step": 386030
    },
    {
      "epoch": 0.80425,
      "grad_norm": 2.1189217567443848,
      "learning_rate": 2.770418564250975e-05,
      "loss": 3.4491,
      "step": 386040
    },
    {
      "epoch": 0.8042708333333334,
      "grad_norm": 1.8224443197250366,
      "learning_rate": 2.7698477496714967e-05,
      "loss": 3.414,
      "step": 386050
    },
    {
      "epoch": 0.8042916666666666,
      "grad_norm": 2.37196683883667,
      "learning_rate": 2.769276987921442e-05,
      "loss": 3.4965,
      "step": 386060
    },
    {
      "epoch": 0.8043125,
      "grad_norm": 1.9910684823989868,
      "learning_rate": 2.7687062790032665e-05,
      "loss": 3.3771,
      "step": 386070
    },
    {
      "epoch": 0.8043333333333333,
      "grad_norm": 1.8211419582366943,
      "learning_rate": 2.7681356229194378e-05,
      "loss": 3.3599,
      "step": 386080
    },
    {
      "epoch": 0.8043541666666667,
      "grad_norm": 2.319540500640869,
      "learning_rate": 2.7675650196724225e-05,
      "loss": 3.4399,
      "step": 386090
    },
    {
      "epoch": 0.804375,
      "grad_norm": 1.9783964157104492,
      "learning_rate": 2.7669944692646835e-05,
      "loss": 3.3851,
      "step": 386100
    },
    {
      "epoch": 0.8043958333333333,
      "grad_norm": 2.0987606048583984,
      "learning_rate": 2.766423971698687e-05,
      "loss": 3.4227,
      "step": 386110
    },
    {
      "epoch": 0.8044166666666667,
      "grad_norm": 2.0577359199523926,
      "learning_rate": 2.7658535269768944e-05,
      "loss": 3.4195,
      "step": 386120
    },
    {
      "epoch": 0.8044375,
      "grad_norm": 1.7530853748321533,
      "learning_rate": 2.765283135101774e-05,
      "loss": 3.4085,
      "step": 386130
    },
    {
      "epoch": 0.8044583333333334,
      "grad_norm": 1.763293981552124,
      "learning_rate": 2.764712796075787e-05,
      "loss": 3.4637,
      "step": 386140
    },
    {
      "epoch": 0.8044791666666666,
      "grad_norm": 1.7345294952392578,
      "learning_rate": 2.7641425099013982e-05,
      "loss": 3.4359,
      "step": 386150
    },
    {
      "epoch": 0.8045,
      "grad_norm": 2.610732078552246,
      "learning_rate": 2.7635722765810704e-05,
      "loss": 3.7538,
      "step": 386160
    },
    {
      "epoch": 0.8045208333333334,
      "grad_norm": 2.044231653213501,
      "learning_rate": 2.7630020961172666e-05,
      "loss": 3.3032,
      "step": 386170
    },
    {
      "epoch": 0.8045416666666667,
      "grad_norm": 2.16098952293396,
      "learning_rate": 2.76243196851245e-05,
      "loss": 3.4873,
      "step": 386180
    },
    {
      "epoch": 0.8045625,
      "grad_norm": 1.4926124811172485,
      "learning_rate": 2.7618618937690822e-05,
      "loss": 3.5133,
      "step": 386190
    },
    {
      "epoch": 0.8045833333333333,
      "grad_norm": 2.0072875022888184,
      "learning_rate": 2.7612918718896277e-05,
      "loss": 3.4552,
      "step": 386200
    },
    {
      "epoch": 0.8046041666666667,
      "grad_norm": 1.6046003103256226,
      "learning_rate": 2.7607219028765494e-05,
      "loss": 3.3565,
      "step": 386210
    },
    {
      "epoch": 0.804625,
      "grad_norm": 1.5840740203857422,
      "learning_rate": 2.760151986732305e-05,
      "loss": 3.3812,
      "step": 386220
    },
    {
      "epoch": 0.8046458333333333,
      "grad_norm": 2.1035687923431396,
      "learning_rate": 2.7595821234593617e-05,
      "loss": 3.4018,
      "step": 386230
    },
    {
      "epoch": 0.8046666666666666,
      "grad_norm": 1.961612343788147,
      "learning_rate": 2.7590123130601772e-05,
      "loss": 3.4606,
      "step": 386240
    },
    {
      "epoch": 0.8046875,
      "grad_norm": 1.8784579038619995,
      "learning_rate": 2.7584425555372142e-05,
      "loss": 3.3934,
      "step": 386250
    },
    {
      "epoch": 0.8047083333333334,
      "grad_norm": 1.915571689605713,
      "learning_rate": 2.7578728508929376e-05,
      "loss": 3.4348,
      "step": 386260
    },
    {
      "epoch": 0.8047291666666667,
      "grad_norm": 1.6703486442565918,
      "learning_rate": 2.7573031991297972e-05,
      "loss": 3.4352,
      "step": 386270
    },
    {
      "epoch": 0.80475,
      "grad_norm": 1.9993596076965332,
      "learning_rate": 2.7567336002502662e-05,
      "loss": 3.3924,
      "step": 386280
    },
    {
      "epoch": 0.8047708333333333,
      "grad_norm": 1.7679303884506226,
      "learning_rate": 2.7561640542568018e-05,
      "loss": 3.5342,
      "step": 386290
    },
    {
      "epoch": 0.8047916666666667,
      "grad_norm": 1.681530475616455,
      "learning_rate": 2.7555945611518548e-05,
      "loss": 3.4538,
      "step": 386300
    },
    {
      "epoch": 0.8048125,
      "grad_norm": 1.737194538116455,
      "learning_rate": 2.7550251209379008e-05,
      "loss": 3.2977,
      "step": 386310
    },
    {
      "epoch": 0.8048333333333333,
      "grad_norm": 1.9375091791152954,
      "learning_rate": 2.7544557336173868e-05,
      "loss": 3.465,
      "step": 386320
    },
    {
      "epoch": 0.8048541666666666,
      "grad_norm": 1.6662606000900269,
      "learning_rate": 2.7538863991927735e-05,
      "loss": 3.3871,
      "step": 386330
    },
    {
      "epoch": 0.804875,
      "grad_norm": 1.9726837873458862,
      "learning_rate": 2.753317117666531e-05,
      "loss": 3.5561,
      "step": 386340
    },
    {
      "epoch": 0.8048958333333334,
      "grad_norm": 1.9244422912597656,
      "learning_rate": 2.7527478890411087e-05,
      "loss": 3.3392,
      "step": 386350
    },
    {
      "epoch": 0.8049166666666666,
      "grad_norm": 1.838045597076416,
      "learning_rate": 2.7521787133189615e-05,
      "loss": 3.4244,
      "step": 386360
    },
    {
      "epoch": 0.8049375,
      "grad_norm": 1.6939603090286255,
      "learning_rate": 2.7516095905025626e-05,
      "loss": 3.3879,
      "step": 386370
    },
    {
      "epoch": 0.8049583333333333,
      "grad_norm": 2.015626907348633,
      "learning_rate": 2.7510405205943597e-05,
      "loss": 3.3494,
      "step": 386380
    },
    {
      "epoch": 0.8049791666666667,
      "grad_norm": 1.6344150304794312,
      "learning_rate": 2.7504715035968077e-05,
      "loss": 3.575,
      "step": 386390
    },
    {
      "epoch": 0.805,
      "grad_norm": 1.6926145553588867,
      "learning_rate": 2.749902539512378e-05,
      "loss": 3.3952,
      "step": 386400
    },
    {
      "epoch": 0.8050208333333333,
      "grad_norm": 2.2481889724731445,
      "learning_rate": 2.7493336283435186e-05,
      "loss": 3.4785,
      "step": 386410
    },
    {
      "epoch": 0.8050416666666667,
      "grad_norm": 1.9692378044128418,
      "learning_rate": 2.7487647700926824e-05,
      "loss": 3.5072,
      "step": 386420
    },
    {
      "epoch": 0.8050625,
      "grad_norm": 2.150942802429199,
      "learning_rate": 2.7481959647623424e-05,
      "loss": 3.3188,
      "step": 386430
    },
    {
      "epoch": 0.8050833333333334,
      "grad_norm": 1.9683469533920288,
      "learning_rate": 2.7476272123549405e-05,
      "loss": 3.545,
      "step": 386440
    },
    {
      "epoch": 0.8051041666666666,
      "grad_norm": 1.698065996170044,
      "learning_rate": 2.7470585128729404e-05,
      "loss": 3.3579,
      "step": 386450
    },
    {
      "epoch": 0.805125,
      "grad_norm": 1.8451532125473022,
      "learning_rate": 2.746489866318798e-05,
      "loss": 3.4757,
      "step": 386460
    },
    {
      "epoch": 0.8051458333333333,
      "grad_norm": 2.0186173915863037,
      "learning_rate": 2.7459212726949685e-05,
      "loss": 3.2953,
      "step": 386470
    },
    {
      "epoch": 0.8051666666666667,
      "grad_norm": 1.9973574876785278,
      "learning_rate": 2.745352732003909e-05,
      "loss": 3.5128,
      "step": 386480
    },
    {
      "epoch": 0.8051875,
      "grad_norm": 1.7904689311981201,
      "learning_rate": 2.7447842442480745e-05,
      "loss": 3.5298,
      "step": 386490
    },
    {
      "epoch": 0.8052083333333333,
      "grad_norm": 1.8428138494491577,
      "learning_rate": 2.7442158094299204e-05,
      "loss": 3.4771,
      "step": 386500
    },
    {
      "epoch": 0.8052291666666667,
      "grad_norm": 1.6721328496932983,
      "learning_rate": 2.7436474275519038e-05,
      "loss": 3.5501,
      "step": 386510
    },
    {
      "epoch": 0.80525,
      "grad_norm": 1.818625569343567,
      "learning_rate": 2.743079098616479e-05,
      "loss": 3.4878,
      "step": 386520
    },
    {
      "epoch": 0.8052708333333334,
      "grad_norm": 1.7830994129180908,
      "learning_rate": 2.742510822626101e-05,
      "loss": 3.3777,
      "step": 386530
    },
    {
      "epoch": 0.8052916666666666,
      "grad_norm": 2.1024789810180664,
      "learning_rate": 2.7419425995832244e-05,
      "loss": 3.5144,
      "step": 386540
    },
    {
      "epoch": 0.8053125,
      "grad_norm": 1.8447102308273315,
      "learning_rate": 2.7413744294903023e-05,
      "loss": 3.43,
      "step": 386550
    },
    {
      "epoch": 0.8053333333333333,
      "grad_norm": 1.6430248022079468,
      "learning_rate": 2.740806312349791e-05,
      "loss": 3.4934,
      "step": 386560
    },
    {
      "epoch": 0.8053541666666667,
      "grad_norm": 1.7835047245025635,
      "learning_rate": 2.740238248164148e-05,
      "loss": 3.5441,
      "step": 386570
    },
    {
      "epoch": 0.805375,
      "grad_norm": 2.407238245010376,
      "learning_rate": 2.739670236935816e-05,
      "loss": 3.2761,
      "step": 386580
    },
    {
      "epoch": 0.8053958333333333,
      "grad_norm": 2.128622531890869,
      "learning_rate": 2.7391022786672583e-05,
      "loss": 3.4167,
      "step": 386590
    },
    {
      "epoch": 0.8054166666666667,
      "grad_norm": 2.0524322986602783,
      "learning_rate": 2.7385343733609304e-05,
      "loss": 3.5425,
      "step": 386600
    },
    {
      "epoch": 0.8054375,
      "grad_norm": 1.6042377948760986,
      "learning_rate": 2.7379665210192736e-05,
      "loss": 3.531,
      "step": 386610
    },
    {
      "epoch": 0.8054583333333334,
      "grad_norm": 2.0523948669433594,
      "learning_rate": 2.737398721644749e-05,
      "loss": 3.4342,
      "step": 386620
    },
    {
      "epoch": 0.8054791666666666,
      "grad_norm": 1.7500602006912231,
      "learning_rate": 2.736830975239815e-05,
      "loss": 3.3852,
      "step": 386630
    },
    {
      "epoch": 0.8055,
      "grad_norm": 1.7847906351089478,
      "learning_rate": 2.7362632818069074e-05,
      "loss": 3.4757,
      "step": 386640
    },
    {
      "epoch": 0.8055208333333334,
      "grad_norm": 1.8288934230804443,
      "learning_rate": 2.7356956413484916e-05,
      "loss": 3.4302,
      "step": 386650
    },
    {
      "epoch": 0.8055416666666667,
      "grad_norm": 1.6059808731079102,
      "learning_rate": 2.735128053867022e-05,
      "loss": 3.3563,
      "step": 386660
    },
    {
      "epoch": 0.8055625,
      "grad_norm": 1.7458300590515137,
      "learning_rate": 2.7345605193649345e-05,
      "loss": 3.4267,
      "step": 386670
    },
    {
      "epoch": 0.8055833333333333,
      "grad_norm": 1.6215791702270508,
      "learning_rate": 2.7339930378446993e-05,
      "loss": 3.3545,
      "step": 386680
    },
    {
      "epoch": 0.8056041666666667,
      "grad_norm": 1.9482887983322144,
      "learning_rate": 2.733425609308755e-05,
      "loss": 3.468,
      "step": 386690
    },
    {
      "epoch": 0.805625,
      "grad_norm": 1.99026620388031,
      "learning_rate": 2.7328582337595534e-05,
      "loss": 3.3333,
      "step": 386700
    },
    {
      "epoch": 0.8056458333333333,
      "grad_norm": 1.9718997478485107,
      "learning_rate": 2.732290911199555e-05,
      "loss": 3.3594,
      "step": 386710
    },
    {
      "epoch": 0.8056666666666666,
      "grad_norm": 2.145827531814575,
      "learning_rate": 2.731723641631201e-05,
      "loss": 3.6618,
      "step": 386720
    },
    {
      "epoch": 0.8056875,
      "grad_norm": 2.0641961097717285,
      "learning_rate": 2.7311564250569394e-05,
      "loss": 3.4336,
      "step": 386730
    },
    {
      "epoch": 0.8057083333333334,
      "grad_norm": 1.7814524173736572,
      "learning_rate": 2.7305892614792353e-05,
      "loss": 3.3747,
      "step": 386740
    },
    {
      "epoch": 0.8057291666666667,
      "grad_norm": 1.6103471517562866,
      "learning_rate": 2.7300221509005243e-05,
      "loss": 3.2786,
      "step": 386750
    },
    {
      "epoch": 0.80575,
      "grad_norm": 1.8820587396621704,
      "learning_rate": 2.7294550933232567e-05,
      "loss": 3.3562,
      "step": 386760
    },
    {
      "epoch": 0.8057708333333333,
      "grad_norm": 1.9499566555023193,
      "learning_rate": 2.7288880887498954e-05,
      "loss": 3.6265,
      "step": 386770
    },
    {
      "epoch": 0.8057916666666667,
      "grad_norm": 2.1935999393463135,
      "learning_rate": 2.728321137182875e-05,
      "loss": 3.5058,
      "step": 386780
    },
    {
      "epoch": 0.8058125,
      "grad_norm": 1.7087081670761108,
      "learning_rate": 2.7277542386246454e-05,
      "loss": 3.5179,
      "step": 386790
    },
    {
      "epoch": 0.8058333333333333,
      "grad_norm": 2.0394651889801025,
      "learning_rate": 2.7271873930776694e-05,
      "loss": 3.3984,
      "step": 386800
    },
    {
      "epoch": 0.8058541666666666,
      "grad_norm": 1.773542046546936,
      "learning_rate": 2.7266206005443802e-05,
      "loss": 3.3843,
      "step": 386810
    },
    {
      "epoch": 0.805875,
      "grad_norm": 1.85130774974823,
      "learning_rate": 2.7260538610272326e-05,
      "loss": 3.5802,
      "step": 386820
    },
    {
      "epoch": 0.8058958333333334,
      "grad_norm": 2.1560845375061035,
      "learning_rate": 2.7254871745286743e-05,
      "loss": 3.3989,
      "step": 386830
    },
    {
      "epoch": 0.8059166666666666,
      "grad_norm": 2.1777725219726562,
      "learning_rate": 2.7249205410511537e-05,
      "loss": 3.2743,
      "step": 386840
    },
    {
      "epoch": 0.8059375,
      "grad_norm": 1.9146496057510376,
      "learning_rate": 2.7243539605971153e-05,
      "loss": 3.4518,
      "step": 386850
    },
    {
      "epoch": 0.8059583333333333,
      "grad_norm": 2.1082794666290283,
      "learning_rate": 2.7237874331690107e-05,
      "loss": 3.3737,
      "step": 386860
    },
    {
      "epoch": 0.8059791666666667,
      "grad_norm": 1.6581497192382812,
      "learning_rate": 2.7232209587692843e-05,
      "loss": 3.3845,
      "step": 386870
    },
    {
      "epoch": 0.806,
      "grad_norm": 1.988356351852417,
      "learning_rate": 2.7226545374003828e-05,
      "loss": 3.4824,
      "step": 386880
    },
    {
      "epoch": 0.8060208333333333,
      "grad_norm": 1.6573784351348877,
      "learning_rate": 2.7220881690647555e-05,
      "loss": 3.4354,
      "step": 386890
    },
    {
      "epoch": 0.8060416666666667,
      "grad_norm": 2.0001652240753174,
      "learning_rate": 2.7215218537648477e-05,
      "loss": 3.4414,
      "step": 386900
    },
    {
      "epoch": 0.8060625,
      "grad_norm": 2.2667393684387207,
      "learning_rate": 2.7209555915031033e-05,
      "loss": 3.2844,
      "step": 386910
    },
    {
      "epoch": 0.8060833333333334,
      "grad_norm": 1.6933629512786865,
      "learning_rate": 2.7203893822819728e-05,
      "loss": 3.4231,
      "step": 386920
    },
    {
      "epoch": 0.8061041666666666,
      "grad_norm": 1.9836891889572144,
      "learning_rate": 2.7198232261038987e-05,
      "loss": 3.4003,
      "step": 386930
    },
    {
      "epoch": 0.806125,
      "grad_norm": 1.7208471298217773,
      "learning_rate": 2.7192571229713294e-05,
      "loss": 3.4593,
      "step": 386940
    },
    {
      "epoch": 0.8061458333333333,
      "grad_norm": 1.974031686782837,
      "learning_rate": 2.718691072886703e-05,
      "loss": 3.4731,
      "step": 386950
    },
    {
      "epoch": 0.8061666666666667,
      "grad_norm": 1.8787529468536377,
      "learning_rate": 2.7181250758524736e-05,
      "loss": 3.4456,
      "step": 386960
    },
    {
      "epoch": 0.8061875,
      "grad_norm": 2.1136136054992676,
      "learning_rate": 2.7175591318710847e-05,
      "loss": 3.4168,
      "step": 386970
    },
    {
      "epoch": 0.8062083333333333,
      "grad_norm": 1.8089368343353271,
      "learning_rate": 2.7169932409449712e-05,
      "loss": 3.4469,
      "step": 386980
    },
    {
      "epoch": 0.8062291666666667,
      "grad_norm": 2.2341978549957275,
      "learning_rate": 2.7164274030765892e-05,
      "loss": 3.4316,
      "step": 386990
    },
    {
      "epoch": 0.80625,
      "grad_norm": 1.8004447221755981,
      "learning_rate": 2.7158616182683836e-05,
      "loss": 3.436,
      "step": 387000
    },
    {
      "epoch": 0.80625,
      "eval_loss": 3.533817768096924,
      "eval_runtime": 7.2537,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 387000
    },
    {
      "epoch": 0.8062708333333334,
      "grad_norm": 1.8673173189163208,
      "learning_rate": 2.7152958865227853e-05,
      "loss": 3.4658,
      "step": 387010
    },
    {
      "epoch": 0.8062916666666666,
      "grad_norm": 1.8304555416107178,
      "learning_rate": 2.7147302078422493e-05,
      "loss": 3.4581,
      "step": 387020
    },
    {
      "epoch": 0.8063125,
      "grad_norm": 1.9047621488571167,
      "learning_rate": 2.714164582229219e-05,
      "loss": 3.415,
      "step": 387030
    },
    {
      "epoch": 0.8063333333333333,
      "grad_norm": 1.9441437721252441,
      "learning_rate": 2.713599009686129e-05,
      "loss": 3.5905,
      "step": 387040
    },
    {
      "epoch": 0.8063541666666667,
      "grad_norm": 1.7247707843780518,
      "learning_rate": 2.71303349021543e-05,
      "loss": 3.4672,
      "step": 387050
    },
    {
      "epoch": 0.806375,
      "grad_norm": 2.357658624649048,
      "learning_rate": 2.7124680238195673e-05,
      "loss": 3.478,
      "step": 387060
    },
    {
      "epoch": 0.8063958333333333,
      "grad_norm": 1.7633765935897827,
      "learning_rate": 2.7119026105009707e-05,
      "loss": 3.4174,
      "step": 387070
    },
    {
      "epoch": 0.8064166666666667,
      "grad_norm": 1.841194748878479,
      "learning_rate": 2.7113372502620996e-05,
      "loss": 3.554,
      "step": 387080
    },
    {
      "epoch": 0.8064375,
      "grad_norm": 1.811840534210205,
      "learning_rate": 2.7107719431053837e-05,
      "loss": 3.4043,
      "step": 387090
    },
    {
      "epoch": 0.8064583333333334,
      "grad_norm": 2.089398145675659,
      "learning_rate": 2.7102066890332648e-05,
      "loss": 3.356,
      "step": 387100
    },
    {
      "epoch": 0.8064791666666666,
      "grad_norm": 1.8089663982391357,
      "learning_rate": 2.7096414880481955e-05,
      "loss": 3.3424,
      "step": 387110
    },
    {
      "epoch": 0.8065,
      "grad_norm": 2.4010517597198486,
      "learning_rate": 2.7090763401526055e-05,
      "loss": 3.4874,
      "step": 387120
    },
    {
      "epoch": 0.8065208333333334,
      "grad_norm": 2.9056270122528076,
      "learning_rate": 2.7085112453489367e-05,
      "loss": 3.578,
      "step": 387130
    },
    {
      "epoch": 0.8065416666666667,
      "grad_norm": 1.8008570671081543,
      "learning_rate": 2.7079462036396433e-05,
      "loss": 3.4292,
      "step": 387140
    },
    {
      "epoch": 0.8065625,
      "grad_norm": 2.0674190521240234,
      "learning_rate": 2.7073812150271517e-05,
      "loss": 3.5201,
      "step": 387150
    },
    {
      "epoch": 0.8065833333333333,
      "grad_norm": 2.2233433723449707,
      "learning_rate": 2.7068162795139086e-05,
      "loss": 3.4448,
      "step": 387160
    },
    {
      "epoch": 0.8066041666666667,
      "grad_norm": 1.719231367111206,
      "learning_rate": 2.706251397102352e-05,
      "loss": 3.4707,
      "step": 387170
    },
    {
      "epoch": 0.806625,
      "grad_norm": 1.7041668891906738,
      "learning_rate": 2.705686567794923e-05,
      "loss": 3.524,
      "step": 387180
    },
    {
      "epoch": 0.8066458333333333,
      "grad_norm": 1.9433809518814087,
      "learning_rate": 2.7051217915940632e-05,
      "loss": 3.4541,
      "step": 387190
    },
    {
      "epoch": 0.8066666666666666,
      "grad_norm": 2.054164171218872,
      "learning_rate": 2.704557068502209e-05,
      "loss": 3.4527,
      "step": 387200
    },
    {
      "epoch": 0.8066875,
      "grad_norm": 1.786740779876709,
      "learning_rate": 2.7039923985218032e-05,
      "loss": 3.3892,
      "step": 387210
    },
    {
      "epoch": 0.8067083333333334,
      "grad_norm": 2.6630911827087402,
      "learning_rate": 2.703427781655281e-05,
      "loss": 3.4384,
      "step": 387220
    },
    {
      "epoch": 0.8067291666666667,
      "grad_norm": 1.897788166999817,
      "learning_rate": 2.7028632179050847e-05,
      "loss": 3.388,
      "step": 387230
    },
    {
      "epoch": 0.80675,
      "grad_norm": 1.6538985967636108,
      "learning_rate": 2.702298707273651e-05,
      "loss": 3.5822,
      "step": 387240
    },
    {
      "epoch": 0.8067708333333333,
      "grad_norm": 1.9749404191970825,
      "learning_rate": 2.7017342497634202e-05,
      "loss": 3.3699,
      "step": 387250
    },
    {
      "epoch": 0.8067916666666667,
      "grad_norm": 1.7432842254638672,
      "learning_rate": 2.701169845376828e-05,
      "loss": 3.4475,
      "step": 387260
    },
    {
      "epoch": 0.8068125,
      "grad_norm": 2.1717476844787598,
      "learning_rate": 2.7006054941163163e-05,
      "loss": 3.4408,
      "step": 387270
    },
    {
      "epoch": 0.8068333333333333,
      "grad_norm": 2.516291856765747,
      "learning_rate": 2.7000411959843177e-05,
      "loss": 3.4502,
      "step": 387280
    },
    {
      "epoch": 0.8068541666666667,
      "grad_norm": 2.6328539848327637,
      "learning_rate": 2.6994769509832736e-05,
      "loss": 3.4238,
      "step": 387290
    },
    {
      "epoch": 0.806875,
      "grad_norm": 1.940853238105774,
      "learning_rate": 2.6989127591156206e-05,
      "loss": 3.5257,
      "step": 387300
    },
    {
      "epoch": 0.8068958333333334,
      "grad_norm": 1.7692469358444214,
      "learning_rate": 2.6983486203837983e-05,
      "loss": 3.4439,
      "step": 387310
    },
    {
      "epoch": 0.8069166666666666,
      "grad_norm": 1.7279444932937622,
      "learning_rate": 2.6977845347902348e-05,
      "loss": 3.4881,
      "step": 387320
    },
    {
      "epoch": 0.8069375,
      "grad_norm": 2.022385835647583,
      "learning_rate": 2.6972205023373748e-05,
      "loss": 3.5528,
      "step": 387330
    },
    {
      "epoch": 0.8069583333333333,
      "grad_norm": 1.8154511451721191,
      "learning_rate": 2.6966565230276567e-05,
      "loss": 3.4238,
      "step": 387340
    },
    {
      "epoch": 0.8069791666666667,
      "grad_norm": 2.0359890460968018,
      "learning_rate": 2.6960925968635043e-05,
      "loss": 3.6072,
      "step": 387350
    },
    {
      "epoch": 0.807,
      "grad_norm": 1.7355139255523682,
      "learning_rate": 2.695528723847365e-05,
      "loss": 3.4193,
      "step": 387360
    },
    {
      "epoch": 0.8070208333333333,
      "grad_norm": 2.246809720993042,
      "learning_rate": 2.6949649039816763e-05,
      "loss": 3.3136,
      "step": 387370
    },
    {
      "epoch": 0.8070416666666667,
      "grad_norm": 1.7849218845367432,
      "learning_rate": 2.6944011372688613e-05,
      "loss": 3.3997,
      "step": 387380
    },
    {
      "epoch": 0.8070625,
      "grad_norm": 1.7735263109207153,
      "learning_rate": 2.6938374237113648e-05,
      "loss": 3.3756,
      "step": 387390
    },
    {
      "epoch": 0.8070833333333334,
      "grad_norm": 1.621972680091858,
      "learning_rate": 2.693273763311623e-05,
      "loss": 3.4354,
      "step": 387400
    },
    {
      "epoch": 0.8071041666666666,
      "grad_norm": 1.737079381942749,
      "learning_rate": 2.692710156072061e-05,
      "loss": 3.4066,
      "step": 387410
    },
    {
      "epoch": 0.807125,
      "grad_norm": 1.904968023300171,
      "learning_rate": 2.692146601995123e-05,
      "loss": 3.4121,
      "step": 387420
    },
    {
      "epoch": 0.8071458333333333,
      "grad_norm": 1.6015877723693848,
      "learning_rate": 2.6915831010832446e-05,
      "loss": 3.476,
      "step": 387430
    },
    {
      "epoch": 0.8071666666666667,
      "grad_norm": 1.973763346672058,
      "learning_rate": 2.6910196533388496e-05,
      "loss": 3.5384,
      "step": 387440
    },
    {
      "epoch": 0.8071875,
      "grad_norm": 2.5380492210388184,
      "learning_rate": 2.690456258764378e-05,
      "loss": 3.4692,
      "step": 387450
    },
    {
      "epoch": 0.8072083333333333,
      "grad_norm": 1.9900968074798584,
      "learning_rate": 2.689892917362263e-05,
      "loss": 3.3292,
      "step": 387460
    },
    {
      "epoch": 0.8072291666666667,
      "grad_norm": 2.168945789337158,
      "learning_rate": 2.689329629134939e-05,
      "loss": 3.4595,
      "step": 387470
    },
    {
      "epoch": 0.80725,
      "grad_norm": 1.7082513570785522,
      "learning_rate": 2.6887663940848364e-05,
      "loss": 3.5338,
      "step": 387480
    },
    {
      "epoch": 0.8072708333333334,
      "grad_norm": 1.774247169494629,
      "learning_rate": 2.6882032122143908e-05,
      "loss": 3.4074,
      "step": 387490
    },
    {
      "epoch": 0.8072916666666666,
      "grad_norm": 2.7522382736206055,
      "learning_rate": 2.6876400835260344e-05,
      "loss": 3.3348,
      "step": 387500
    },
    {
      "epoch": 0.8073125,
      "grad_norm": 1.8171390295028687,
      "learning_rate": 2.6870770080221977e-05,
      "loss": 3.3205,
      "step": 387510
    },
    {
      "epoch": 0.8073333333333333,
      "grad_norm": 2.5463972091674805,
      "learning_rate": 2.686513985705316e-05,
      "loss": 3.3472,
      "step": 387520
    },
    {
      "epoch": 0.8073541666666667,
      "grad_norm": 2.13954758644104,
      "learning_rate": 2.6859510165778185e-05,
      "loss": 3.3619,
      "step": 387530
    },
    {
      "epoch": 0.807375,
      "grad_norm": 1.8311712741851807,
      "learning_rate": 2.6853881006421406e-05,
      "loss": 3.4307,
      "step": 387540
    },
    {
      "epoch": 0.8073958333333333,
      "grad_norm": 1.8200572729110718,
      "learning_rate": 2.6848252379007102e-05,
      "loss": 3.4519,
      "step": 387550
    },
    {
      "epoch": 0.8074166666666667,
      "grad_norm": 2.218607187271118,
      "learning_rate": 2.68426242835596e-05,
      "loss": 3.5146,
      "step": 387560
    },
    {
      "epoch": 0.8074375,
      "grad_norm": 1.8918828964233398,
      "learning_rate": 2.6836996720103217e-05,
      "loss": 3.5156,
      "step": 387570
    },
    {
      "epoch": 0.8074583333333333,
      "grad_norm": 1.758384108543396,
      "learning_rate": 2.6831369688662246e-05,
      "loss": 3.4787,
      "step": 387580
    },
    {
      "epoch": 0.8074791666666666,
      "grad_norm": 1.588062047958374,
      "learning_rate": 2.6825743189261005e-05,
      "loss": 3.2708,
      "step": 387590
    },
    {
      "epoch": 0.8075,
      "grad_norm": 1.8879776000976562,
      "learning_rate": 2.682011722192381e-05,
      "loss": 3.3603,
      "step": 387600
    },
    {
      "epoch": 0.8075208333333334,
      "grad_norm": 1.8864396810531616,
      "learning_rate": 2.6814491786674952e-05,
      "loss": 3.3748,
      "step": 387610
    },
    {
      "epoch": 0.8075416666666667,
      "grad_norm": 2.1390669345855713,
      "learning_rate": 2.6808866883538716e-05,
      "loss": 3.4705,
      "step": 387620
    },
    {
      "epoch": 0.8075625,
      "grad_norm": 1.5506795644760132,
      "learning_rate": 2.6803242512539412e-05,
      "loss": 3.4027,
      "step": 387630
    },
    {
      "epoch": 0.8075833333333333,
      "grad_norm": 1.621102213859558,
      "learning_rate": 2.679761867370136e-05,
      "loss": 3.506,
      "step": 387640
    },
    {
      "epoch": 0.8076041666666667,
      "grad_norm": 2.032121181488037,
      "learning_rate": 2.6791995367048802e-05,
      "loss": 3.4161,
      "step": 387650
    },
    {
      "epoch": 0.807625,
      "grad_norm": 1.908110499382019,
      "learning_rate": 2.678637259260607e-05,
      "loss": 3.4958,
      "step": 387660
    },
    {
      "epoch": 0.8076458333333333,
      "grad_norm": 1.7641953229904175,
      "learning_rate": 2.6780750350397428e-05,
      "loss": 3.4214,
      "step": 387670
    },
    {
      "epoch": 0.8076666666666666,
      "grad_norm": 1.7958215475082397,
      "learning_rate": 2.677512864044721e-05,
      "loss": 3.4186,
      "step": 387680
    },
    {
      "epoch": 0.8076875,
      "grad_norm": 3.175281524658203,
      "learning_rate": 2.676950746277959e-05,
      "loss": 3.4784,
      "step": 387690
    },
    {
      "epoch": 0.8077083333333334,
      "grad_norm": 2.026339054107666,
      "learning_rate": 2.676388681741895e-05,
      "loss": 3.3284,
      "step": 387700
    },
    {
      "epoch": 0.8077291666666667,
      "grad_norm": 2.013734817504883,
      "learning_rate": 2.6758266704389575e-05,
      "loss": 3.4036,
      "step": 387710
    },
    {
      "epoch": 0.80775,
      "grad_norm": 1.9069459438323975,
      "learning_rate": 2.6752647123715644e-05,
      "loss": 3.4352,
      "step": 387720
    },
    {
      "epoch": 0.8077708333333333,
      "grad_norm": 1.9150880575180054,
      "learning_rate": 2.6747028075421518e-05,
      "loss": 3.436,
      "step": 387730
    },
    {
      "epoch": 0.8077916666666667,
      "grad_norm": 2.0781137943267822,
      "learning_rate": 2.6741409559531495e-05,
      "loss": 3.4451,
      "step": 387740
    },
    {
      "epoch": 0.8078125,
      "grad_norm": 2.0866780281066895,
      "learning_rate": 2.673579157606974e-05,
      "loss": 3.5394,
      "step": 387750
    },
    {
      "epoch": 0.8078333333333333,
      "grad_norm": 1.832045078277588,
      "learning_rate": 2.6730174125060538e-05,
      "loss": 3.5608,
      "step": 387760
    },
    {
      "epoch": 0.8078541666666667,
      "grad_norm": 1.6631639003753662,
      "learning_rate": 2.672455720652828e-05,
      "loss": 3.3259,
      "step": 387770
    },
    {
      "epoch": 0.807875,
      "grad_norm": 2.482393741607666,
      "learning_rate": 2.671894082049708e-05,
      "loss": 3.438,
      "step": 387780
    },
    {
      "epoch": 0.8078958333333334,
      "grad_norm": 1.8641587495803833,
      "learning_rate": 2.671332496699124e-05,
      "loss": 3.436,
      "step": 387790
    },
    {
      "epoch": 0.8079166666666666,
      "grad_norm": 1.8793578147888184,
      "learning_rate": 2.67077096460351e-05,
      "loss": 3.4698,
      "step": 387800
    },
    {
      "epoch": 0.8079375,
      "grad_norm": 1.9786869287490845,
      "learning_rate": 2.6702094857652816e-05,
      "loss": 3.376,
      "step": 387810
    },
    {
      "epoch": 0.8079583333333333,
      "grad_norm": 2.0471854209899902,
      "learning_rate": 2.669648060186868e-05,
      "loss": 3.4262,
      "step": 387820
    },
    {
      "epoch": 0.8079791666666667,
      "grad_norm": 1.8261898756027222,
      "learning_rate": 2.669086687870694e-05,
      "loss": 3.4281,
      "step": 387830
    },
    {
      "epoch": 0.808,
      "grad_norm": 1.829767107963562,
      "learning_rate": 2.6685253688191842e-05,
      "loss": 3.3232,
      "step": 387840
    },
    {
      "epoch": 0.8080208333333333,
      "grad_norm": 1.9683029651641846,
      "learning_rate": 2.667964103034764e-05,
      "loss": 3.407,
      "step": 387850
    },
    {
      "epoch": 0.8080416666666667,
      "grad_norm": 2.594871759414673,
      "learning_rate": 2.6674028905198587e-05,
      "loss": 3.3965,
      "step": 387860
    },
    {
      "epoch": 0.8080625,
      "grad_norm": 2.452798366546631,
      "learning_rate": 2.66684173127689e-05,
      "loss": 3.3859,
      "step": 387870
    },
    {
      "epoch": 0.8080833333333334,
      "grad_norm": 1.7377101182937622,
      "learning_rate": 2.6662806253082834e-05,
      "loss": 3.4928,
      "step": 387880
    },
    {
      "epoch": 0.8081041666666666,
      "grad_norm": 2.239144802093506,
      "learning_rate": 2.6657195726164614e-05,
      "loss": 3.6165,
      "step": 387890
    },
    {
      "epoch": 0.808125,
      "grad_norm": 2.0666213035583496,
      "learning_rate": 2.6651585732038504e-05,
      "loss": 3.3065,
      "step": 387900
    },
    {
      "epoch": 0.8081458333333333,
      "grad_norm": 2.0534629821777344,
      "learning_rate": 2.6645976270728704e-05,
      "loss": 3.441,
      "step": 387910
    },
    {
      "epoch": 0.8081666666666667,
      "grad_norm": 2.1017332077026367,
      "learning_rate": 2.664036734225947e-05,
      "loss": 3.3733,
      "step": 387920
    },
    {
      "epoch": 0.8081875,
      "grad_norm": 2.3236682415008545,
      "learning_rate": 2.6634758946655026e-05,
      "loss": 3.6093,
      "step": 387930
    },
    {
      "epoch": 0.8082083333333333,
      "grad_norm": 1.8357020616531372,
      "learning_rate": 2.662915108393958e-05,
      "loss": 3.3318,
      "step": 387940
    },
    {
      "epoch": 0.8082291666666667,
      "grad_norm": 1.9928276538848877,
      "learning_rate": 2.6623543754137368e-05,
      "loss": 3.4806,
      "step": 387950
    },
    {
      "epoch": 0.80825,
      "grad_norm": 1.8175737857818604,
      "learning_rate": 2.661793695727261e-05,
      "loss": 3.4317,
      "step": 387960
    },
    {
      "epoch": 0.8082708333333334,
      "grad_norm": 2.450493574142456,
      "learning_rate": 2.6612330693369534e-05,
      "loss": 3.4915,
      "step": 387970
    },
    {
      "epoch": 0.8082916666666666,
      "grad_norm": 2.0531015396118164,
      "learning_rate": 2.6606724962452343e-05,
      "loss": 3.3276,
      "step": 387980
    },
    {
      "epoch": 0.8083125,
      "grad_norm": 1.6285959482192993,
      "learning_rate": 2.660111976454527e-05,
      "loss": 3.3514,
      "step": 387990
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 1.660400390625,
      "learning_rate": 2.65955150996725e-05,
      "loss": 3.5489,
      "step": 388000
    },
    {
      "epoch": 0.8083333333333333,
      "eval_loss": 3.527034282684326,
      "eval_runtime": 7.3805,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.406,
      "step": 388000
    },
    {
      "epoch": 0.8083541666666667,
      "grad_norm": 1.7955267429351807,
      "learning_rate": 2.658991096785826e-05,
      "loss": 3.3855,
      "step": 388010
    },
    {
      "epoch": 0.808375,
      "grad_norm": 2.1886980533599854,
      "learning_rate": 2.658430736912676e-05,
      "loss": 3.4548,
      "step": 388020
    },
    {
      "epoch": 0.8083958333333333,
      "grad_norm": 1.8707424402236938,
      "learning_rate": 2.657870430350224e-05,
      "loss": 3.3675,
      "step": 388030
    },
    {
      "epoch": 0.8084166666666667,
      "grad_norm": 1.8284716606140137,
      "learning_rate": 2.6573101771008776e-05,
      "loss": 3.3745,
      "step": 388040
    },
    {
      "epoch": 0.8084375,
      "grad_norm": 1.7757452726364136,
      "learning_rate": 2.6567499771670715e-05,
      "loss": 3.4851,
      "step": 388050
    },
    {
      "epoch": 0.8084583333333333,
      "grad_norm": 2.0360615253448486,
      "learning_rate": 2.656189830551222e-05,
      "loss": 3.5518,
      "step": 388060
    },
    {
      "epoch": 0.8084791666666666,
      "grad_norm": 1.6512442827224731,
      "learning_rate": 2.655629737255739e-05,
      "loss": 3.5425,
      "step": 388070
    },
    {
      "epoch": 0.8085,
      "grad_norm": 1.8853569030761719,
      "learning_rate": 2.655069697283057e-05,
      "loss": 3.3978,
      "step": 388080
    },
    {
      "epoch": 0.8085208333333334,
      "grad_norm": 1.6146457195281982,
      "learning_rate": 2.6545097106355845e-05,
      "loss": 3.4212,
      "step": 388090
    },
    {
      "epoch": 0.8085416666666667,
      "grad_norm": 1.7340552806854248,
      "learning_rate": 2.6539497773157377e-05,
      "loss": 3.5459,
      "step": 388100
    },
    {
      "epoch": 0.8085625,
      "grad_norm": 2.1881942749023438,
      "learning_rate": 2.653389897325951e-05,
      "loss": 3.6251,
      "step": 388110
    },
    {
      "epoch": 0.8085833333333333,
      "grad_norm": 1.724287986755371,
      "learning_rate": 2.652830070668626e-05,
      "loss": 3.4312,
      "step": 388120
    },
    {
      "epoch": 0.8086041666666667,
      "grad_norm": 1.9210094213485718,
      "learning_rate": 2.6522702973461862e-05,
      "loss": 3.385,
      "step": 388130
    },
    {
      "epoch": 0.808625,
      "grad_norm": 2.013127565383911,
      "learning_rate": 2.651710577361059e-05,
      "loss": 3.3614,
      "step": 388140
    },
    {
      "epoch": 0.8086458333333333,
      "grad_norm": 1.7566838264465332,
      "learning_rate": 2.6511509107156498e-05,
      "loss": 3.355,
      "step": 388150
    },
    {
      "epoch": 0.8086666666666666,
      "grad_norm": 1.7534736394882202,
      "learning_rate": 2.6505912974123762e-05,
      "loss": 3.4372,
      "step": 388160
    },
    {
      "epoch": 0.8086875,
      "grad_norm": 2.325188636779785,
      "learning_rate": 2.650031737453668e-05,
      "loss": 3.4181,
      "step": 388170
    },
    {
      "epoch": 0.8087083333333334,
      "grad_norm": 1.5500580072402954,
      "learning_rate": 2.6494722308419315e-05,
      "loss": 3.5338,
      "step": 388180
    },
    {
      "epoch": 0.8087291666666667,
      "grad_norm": 1.6278403997421265,
      "learning_rate": 2.6489127775795847e-05,
      "loss": 3.4475,
      "step": 388190
    },
    {
      "epoch": 0.80875,
      "grad_norm": 2.290562629699707,
      "learning_rate": 2.6483533776690464e-05,
      "loss": 3.4563,
      "step": 388200
    },
    {
      "epoch": 0.8087708333333333,
      "grad_norm": 1.7335846424102783,
      "learning_rate": 2.6477940311127323e-05,
      "loss": 3.3136,
      "step": 388210
    },
    {
      "epoch": 0.8087916666666667,
      "grad_norm": 1.8704551458358765,
      "learning_rate": 2.6472347379130588e-05,
      "loss": 3.436,
      "step": 388220
    },
    {
      "epoch": 0.8088125,
      "grad_norm": 1.7918566465377808,
      "learning_rate": 2.646675498072441e-05,
      "loss": 3.3779,
      "step": 388230
    },
    {
      "epoch": 0.8088333333333333,
      "grad_norm": 1.7670092582702637,
      "learning_rate": 2.6461163115932965e-05,
      "loss": 3.4622,
      "step": 388240
    },
    {
      "epoch": 0.8088541666666667,
      "grad_norm": 1.9508343935012817,
      "learning_rate": 2.6455571784780388e-05,
      "loss": 3.4669,
      "step": 388250
    },
    {
      "epoch": 0.808875,
      "grad_norm": 2.1313233375549316,
      "learning_rate": 2.644998098729084e-05,
      "loss": 3.381,
      "step": 388260
    },
    {
      "epoch": 0.8088958333333334,
      "grad_norm": 1.8460623025894165,
      "learning_rate": 2.6444390723488472e-05,
      "loss": 3.4354,
      "step": 388270
    },
    {
      "epoch": 0.8089166666666666,
      "grad_norm": 2.009031057357788,
      "learning_rate": 2.643880099339743e-05,
      "loss": 3.4624,
      "step": 388280
    },
    {
      "epoch": 0.8089375,
      "grad_norm": 2.0241072177886963,
      "learning_rate": 2.643321179704184e-05,
      "loss": 3.294,
      "step": 388290
    },
    {
      "epoch": 0.8089583333333333,
      "grad_norm": 1.688367247581482,
      "learning_rate": 2.642762313444589e-05,
      "loss": 3.4554,
      "step": 388300
    },
    {
      "epoch": 0.8089791666666667,
      "grad_norm": 1.754433035850525,
      "learning_rate": 2.6422035005633675e-05,
      "loss": 3.4962,
      "step": 388310
    },
    {
      "epoch": 0.809,
      "grad_norm": 1.9429658651351929,
      "learning_rate": 2.641644741062937e-05,
      "loss": 3.396,
      "step": 388320
    },
    {
      "epoch": 0.8090208333333333,
      "grad_norm": 1.9075089693069458,
      "learning_rate": 2.6410860349457082e-05,
      "loss": 3.6124,
      "step": 388330
    },
    {
      "epoch": 0.8090416666666667,
      "grad_norm": 2.047450065612793,
      "learning_rate": 2.6405273822141e-05,
      "loss": 3.4007,
      "step": 388340
    },
    {
      "epoch": 0.8090625,
      "grad_norm": 2.5517401695251465,
      "learning_rate": 2.639968782870514e-05,
      "loss": 3.4904,
      "step": 388350
    },
    {
      "epoch": 0.8090833333333334,
      "grad_norm": 2.3901195526123047,
      "learning_rate": 2.6394102369173737e-05,
      "loss": 3.2655,
      "step": 388360
    },
    {
      "epoch": 0.8091041666666666,
      "grad_norm": 2.064148426055908,
      "learning_rate": 2.6388517443570934e-05,
      "loss": 3.4685,
      "step": 388370
    },
    {
      "epoch": 0.809125,
      "grad_norm": 2.1056439876556396,
      "learning_rate": 2.6382933051920712e-05,
      "loss": 3.3278,
      "step": 388380
    },
    {
      "epoch": 0.8091458333333333,
      "grad_norm": 2.029141902923584,
      "learning_rate": 2.6377349194247338e-05,
      "loss": 3.4254,
      "step": 388390
    },
    {
      "epoch": 0.8091666666666667,
      "grad_norm": 1.9248603582382202,
      "learning_rate": 2.6371765870574925e-05,
      "loss": 3.4851,
      "step": 388400
    },
    {
      "epoch": 0.8091875,
      "grad_norm": 2.201380729675293,
      "learning_rate": 2.6366183080927468e-05,
      "loss": 3.3781,
      "step": 388410
    },
    {
      "epoch": 0.8092083333333333,
      "grad_norm": 1.6347824335098267,
      "learning_rate": 2.6360600825329198e-05,
      "loss": 3.328,
      "step": 388420
    },
    {
      "epoch": 0.8092291666666667,
      "grad_norm": 2.0921194553375244,
      "learning_rate": 2.6355019103804233e-05,
      "loss": 3.3533,
      "step": 388430
    },
    {
      "epoch": 0.80925,
      "grad_norm": 1.8336620330810547,
      "learning_rate": 2.6349437916376546e-05,
      "loss": 3.4486,
      "step": 388440
    },
    {
      "epoch": 0.8092708333333334,
      "grad_norm": 2.0932109355926514,
      "learning_rate": 2.6343857263070445e-05,
      "loss": 3.462,
      "step": 388450
    },
    {
      "epoch": 0.8092916666666666,
      "grad_norm": 1.9892889261245728,
      "learning_rate": 2.6338277143909887e-05,
      "loss": 3.3444,
      "step": 388460
    },
    {
      "epoch": 0.8093125,
      "grad_norm": 1.9666105508804321,
      "learning_rate": 2.6332697558918984e-05,
      "loss": 3.5503,
      "step": 388470
    },
    {
      "epoch": 0.8093333333333333,
      "grad_norm": 2.024627685546875,
      "learning_rate": 2.632711850812196e-05,
      "loss": 3.5479,
      "step": 388480
    },
    {
      "epoch": 0.8093541666666667,
      "grad_norm": 2.234696388244629,
      "learning_rate": 2.6321539991542784e-05,
      "loss": 3.5238,
      "step": 388490
    },
    {
      "epoch": 0.809375,
      "grad_norm": 1.846675157546997,
      "learning_rate": 2.6315962009205577e-05,
      "loss": 3.3788,
      "step": 388500
    },
    {
      "epoch": 0.8093958333333333,
      "grad_norm": 1.8857545852661133,
      "learning_rate": 2.6310384561134517e-05,
      "loss": 3.4424,
      "step": 388510
    },
    {
      "epoch": 0.8094166666666667,
      "grad_norm": 1.8528047800064087,
      "learning_rate": 2.6304807647353605e-05,
      "loss": 3.5003,
      "step": 388520
    },
    {
      "epoch": 0.8094375,
      "grad_norm": 1.886594295501709,
      "learning_rate": 2.6299231267886918e-05,
      "loss": 3.4924,
      "step": 388530
    },
    {
      "epoch": 0.8094583333333333,
      "grad_norm": 1.6816966533660889,
      "learning_rate": 2.629365542275867e-05,
      "loss": 3.4545,
      "step": 388540
    },
    {
      "epoch": 0.8094791666666666,
      "grad_norm": 1.9338990449905396,
      "learning_rate": 2.6288080111992828e-05,
      "loss": 3.4496,
      "step": 388550
    },
    {
      "epoch": 0.8095,
      "grad_norm": 1.7654367685317993,
      "learning_rate": 2.628250533561347e-05,
      "loss": 3.5488,
      "step": 388560
    },
    {
      "epoch": 0.8095208333333334,
      "grad_norm": 1.7907620668411255,
      "learning_rate": 2.6276931093644792e-05,
      "loss": 3.3999,
      "step": 388570
    },
    {
      "epoch": 0.8095416666666667,
      "grad_norm": 3.3875319957733154,
      "learning_rate": 2.6271357386110763e-05,
      "loss": 3.5673,
      "step": 388580
    },
    {
      "epoch": 0.8095625,
      "grad_norm": 1.9707800149917603,
      "learning_rate": 2.6265784213035496e-05,
      "loss": 3.3549,
      "step": 388590
    },
    {
      "epoch": 0.8095833333333333,
      "grad_norm": 1.7056456804275513,
      "learning_rate": 2.626021157444305e-05,
      "loss": 3.5502,
      "step": 388600
    },
    {
      "epoch": 0.8096041666666667,
      "grad_norm": 2.215294122695923,
      "learning_rate": 2.625463947035753e-05,
      "loss": 3.4281,
      "step": 388610
    },
    {
      "epoch": 0.809625,
      "grad_norm": 1.793460726737976,
      "learning_rate": 2.6249067900802977e-05,
      "loss": 3.3952,
      "step": 388620
    },
    {
      "epoch": 0.8096458333333333,
      "grad_norm": 2.8665878772735596,
      "learning_rate": 2.624349686580346e-05,
      "loss": 3.4148,
      "step": 388630
    },
    {
      "epoch": 0.8096666666666666,
      "grad_norm": 2.1998326778411865,
      "learning_rate": 2.623792636538307e-05,
      "loss": 3.2513,
      "step": 388640
    },
    {
      "epoch": 0.8096875,
      "grad_norm": 1.8155736923217773,
      "learning_rate": 2.623235639956583e-05,
      "loss": 3.4523,
      "step": 388650
    },
    {
      "epoch": 0.8097083333333334,
      "grad_norm": 1.9321318864822388,
      "learning_rate": 2.622678696837583e-05,
      "loss": 3.2934,
      "step": 388660
    },
    {
      "epoch": 0.8097291666666667,
      "grad_norm": 1.8930147886276245,
      "learning_rate": 2.622121807183712e-05,
      "loss": 3.554,
      "step": 388670
    },
    {
      "epoch": 0.80975,
      "grad_norm": 1.9744709730148315,
      "learning_rate": 2.6215649709973778e-05,
      "loss": 3.4421,
      "step": 388680
    },
    {
      "epoch": 0.8097708333333333,
      "grad_norm": 1.6913195848464966,
      "learning_rate": 2.621008188280976e-05,
      "loss": 3.28,
      "step": 388690
    },
    {
      "epoch": 0.8097916666666667,
      "grad_norm": 2.074688196182251,
      "learning_rate": 2.6204514590369236e-05,
      "loss": 3.4492,
      "step": 388700
    },
    {
      "epoch": 0.8098125,
      "grad_norm": 1.6716358661651611,
      "learning_rate": 2.6198947832676243e-05,
      "loss": 3.5612,
      "step": 388710
    },
    {
      "epoch": 0.8098333333333333,
      "grad_norm": 1.916380524635315,
      "learning_rate": 2.619338160975471e-05,
      "loss": 3.5043,
      "step": 388720
    },
    {
      "epoch": 0.8098541666666667,
      "grad_norm": 1.8175854682922363,
      "learning_rate": 2.6187815921628802e-05,
      "loss": 3.451,
      "step": 388730
    },
    {
      "epoch": 0.809875,
      "grad_norm": 1.7309825420379639,
      "learning_rate": 2.6182250768322565e-05,
      "loss": 3.4385,
      "step": 388740
    },
    {
      "epoch": 0.8098958333333334,
      "grad_norm": 1.799514651298523,
      "learning_rate": 2.61766861498599e-05,
      "loss": 3.4263,
      "step": 388750
    },
    {
      "epoch": 0.8099166666666666,
      "grad_norm": 1.9892171621322632,
      "learning_rate": 2.6171122066264998e-05,
      "loss": 3.5213,
      "step": 388760
    },
    {
      "epoch": 0.8099375,
      "grad_norm": 2.0591063499450684,
      "learning_rate": 2.616555851756186e-05,
      "loss": 3.41,
      "step": 388770
    },
    {
      "epoch": 0.8099583333333333,
      "grad_norm": 1.9022332429885864,
      "learning_rate": 2.615999550377442e-05,
      "loss": 3.5237,
      "step": 388780
    },
    {
      "epoch": 0.8099791666666667,
      "grad_norm": 1.764912486076355,
      "learning_rate": 2.6154433024926823e-05,
      "loss": 3.4304,
      "step": 388790
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6533665657043457,
      "learning_rate": 2.6148871081043083e-05,
      "loss": 3.4557,
      "step": 388800
    },
    {
      "epoch": 0.8100208333333333,
      "grad_norm": 1.9241286516189575,
      "learning_rate": 2.614330967214711e-05,
      "loss": 3.4717,
      "step": 388810
    },
    {
      "epoch": 0.8100416666666667,
      "grad_norm": 1.6746724843978882,
      "learning_rate": 2.6137748798263108e-05,
      "loss": 3.4493,
      "step": 388820
    },
    {
      "epoch": 0.8100625,
      "grad_norm": 1.783664345741272,
      "learning_rate": 2.6132188459414954e-05,
      "loss": 3.3848,
      "step": 388830
    },
    {
      "epoch": 0.8100833333333334,
      "grad_norm": 2.059802293777466,
      "learning_rate": 2.6126628655626698e-05,
      "loss": 3.3923,
      "step": 388840
    },
    {
      "epoch": 0.8101041666666666,
      "grad_norm": 2.1120049953460693,
      "learning_rate": 2.6121069386922433e-05,
      "loss": 3.4037,
      "step": 388850
    },
    {
      "epoch": 0.810125,
      "grad_norm": 2.098060131072998,
      "learning_rate": 2.611551065332608e-05,
      "loss": 3.3447,
      "step": 388860
    },
    {
      "epoch": 0.8101458333333333,
      "grad_norm": 2.004793167114258,
      "learning_rate": 2.6109952454861644e-05,
      "loss": 3.4136,
      "step": 388870
    },
    {
      "epoch": 0.8101666666666667,
      "grad_norm": 2.0176026821136475,
      "learning_rate": 2.6104394791553245e-05,
      "loss": 3.4817,
      "step": 388880
    },
    {
      "epoch": 0.8101875,
      "grad_norm": 2.041889190673828,
      "learning_rate": 2.6098837663424783e-05,
      "loss": 3.3012,
      "step": 388890
    },
    {
      "epoch": 0.8102083333333333,
      "grad_norm": 3.2755484580993652,
      "learning_rate": 2.6093281070500264e-05,
      "loss": 3.4516,
      "step": 388900
    },
    {
      "epoch": 0.8102291666666667,
      "grad_norm": 1.8299576044082642,
      "learning_rate": 2.6087725012803797e-05,
      "loss": 3.3779,
      "step": 388910
    },
    {
      "epoch": 0.81025,
      "grad_norm": 1.755476951599121,
      "learning_rate": 2.6082169490359283e-05,
      "loss": 3.3597,
      "step": 388920
    },
    {
      "epoch": 0.8102708333333334,
      "grad_norm": 1.811392068862915,
      "learning_rate": 2.607661450319073e-05,
      "loss": 3.4403,
      "step": 388930
    },
    {
      "epoch": 0.8102916666666666,
      "grad_norm": 1.9684990644454956,
      "learning_rate": 2.6071060051322162e-05,
      "loss": 3.4386,
      "step": 388940
    },
    {
      "epoch": 0.8103125,
      "grad_norm": 2.078317165374756,
      "learning_rate": 2.6065506134777565e-05,
      "loss": 3.4041,
      "step": 388950
    },
    {
      "epoch": 0.8103333333333333,
      "grad_norm": 2.3091466426849365,
      "learning_rate": 2.6059952753580913e-05,
      "loss": 3.5157,
      "step": 388960
    },
    {
      "epoch": 0.8103541666666667,
      "grad_norm": 1.9504942893981934,
      "learning_rate": 2.6054399907756214e-05,
      "loss": 3.2969,
      "step": 388970
    },
    {
      "epoch": 0.810375,
      "grad_norm": 2.2178895473480225,
      "learning_rate": 2.6048847597327437e-05,
      "loss": 3.5175,
      "step": 388980
    },
    {
      "epoch": 0.8103958333333333,
      "grad_norm": 1.677123785018921,
      "learning_rate": 2.6043295822318587e-05,
      "loss": 3.3944,
      "step": 388990
    },
    {
      "epoch": 0.8104166666666667,
      "grad_norm": 1.9069314002990723,
      "learning_rate": 2.6037744582753626e-05,
      "loss": 3.4035,
      "step": 389000
    },
    {
      "epoch": 0.8104166666666667,
      "eval_loss": 3.5287978649139404,
      "eval_runtime": 7.3253,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 389000
    },
    {
      "epoch": 0.8104375,
      "grad_norm": 1.5984818935394287,
      "learning_rate": 2.6032193878656538e-05,
      "loss": 3.4447,
      "step": 389010
    },
    {
      "epoch": 0.8104583333333333,
      "grad_norm": 1.753568172454834,
      "learning_rate": 2.6026643710051314e-05,
      "loss": 3.5961,
      "step": 389020
    },
    {
      "epoch": 0.8104791666666666,
      "grad_norm": 1.9461166858673096,
      "learning_rate": 2.6021094076961906e-05,
      "loss": 3.4519,
      "step": 389030
    },
    {
      "epoch": 0.8105,
      "grad_norm": 2.0102691650390625,
      "learning_rate": 2.601554497941231e-05,
      "loss": 3.3603,
      "step": 389040
    },
    {
      "epoch": 0.8105208333333334,
      "grad_norm": 2.3452391624450684,
      "learning_rate": 2.6009996417426475e-05,
      "loss": 3.5109,
      "step": 389050
    },
    {
      "epoch": 0.8105416666666667,
      "grad_norm": 1.5929120779037476,
      "learning_rate": 2.6004448391028365e-05,
      "loss": 3.4148,
      "step": 389060
    },
    {
      "epoch": 0.8105625,
      "grad_norm": 1.7352404594421387,
      "learning_rate": 2.5998900900241974e-05,
      "loss": 3.3634,
      "step": 389070
    },
    {
      "epoch": 0.8105833333333333,
      "grad_norm": 1.9461332559585571,
      "learning_rate": 2.5993353945091287e-05,
      "loss": 3.5053,
      "step": 389080
    },
    {
      "epoch": 0.8106041666666667,
      "grad_norm": 1.8193520307540894,
      "learning_rate": 2.5987807525600134e-05,
      "loss": 3.4365,
      "step": 389090
    },
    {
      "epoch": 0.810625,
      "grad_norm": 1.8841100931167603,
      "learning_rate": 2.5982261641792612e-05,
      "loss": 3.3933,
      "step": 389100
    },
    {
      "epoch": 0.8106458333333333,
      "grad_norm": 2.0112497806549072,
      "learning_rate": 2.5976716293692667e-05,
      "loss": 3.3732,
      "step": 389110
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 1.8385251760482788,
      "learning_rate": 2.597117148132415e-05,
      "loss": 3.3627,
      "step": 389120
    },
    {
      "epoch": 0.8106875,
      "grad_norm": 1.7193409204483032,
      "learning_rate": 2.5965627204711104e-05,
      "loss": 3.4386,
      "step": 389130
    },
    {
      "epoch": 0.8107083333333334,
      "grad_norm": 1.7721174955368042,
      "learning_rate": 2.5960083463877494e-05,
      "loss": 3.5383,
      "step": 389140
    },
    {
      "epoch": 0.8107291666666666,
      "grad_norm": 2.151681900024414,
      "learning_rate": 2.5954540258847156e-05,
      "loss": 3.4505,
      "step": 389150
    },
    {
      "epoch": 0.81075,
      "grad_norm": 1.9530619382858276,
      "learning_rate": 2.594899758964413e-05,
      "loss": 3.4595,
      "step": 389160
    },
    {
      "epoch": 0.8107708333333333,
      "grad_norm": 1.8390363454818726,
      "learning_rate": 2.5943455456292373e-05,
      "loss": 3.333,
      "step": 389170
    },
    {
      "epoch": 0.8107916666666667,
      "grad_norm": 2.270965814590454,
      "learning_rate": 2.5937913858815708e-05,
      "loss": 3.4643,
      "step": 389180
    },
    {
      "epoch": 0.8108125,
      "grad_norm": 1.779139757156372,
      "learning_rate": 2.593237279723823e-05,
      "loss": 3.3252,
      "step": 389190
    },
    {
      "epoch": 0.8108333333333333,
      "grad_norm": 2.6077234745025635,
      "learning_rate": 2.592683227158375e-05,
      "loss": 3.256,
      "step": 389200
    },
    {
      "epoch": 0.8108541666666667,
      "grad_norm": 1.8889415264129639,
      "learning_rate": 2.5921292281876234e-05,
      "loss": 3.3909,
      "step": 389210
    },
    {
      "epoch": 0.810875,
      "grad_norm": 1.967821478843689,
      "learning_rate": 2.5915752828139636e-05,
      "loss": 3.5672,
      "step": 389220
    },
    {
      "epoch": 0.8108958333333334,
      "grad_norm": 2.4338021278381348,
      "learning_rate": 2.5910213910397853e-05,
      "loss": 3.4989,
      "step": 389230
    },
    {
      "epoch": 0.8109166666666666,
      "grad_norm": 1.955188274383545,
      "learning_rate": 2.590467552867485e-05,
      "loss": 3.3834,
      "step": 389240
    },
    {
      "epoch": 0.8109375,
      "grad_norm": 1.7538198232650757,
      "learning_rate": 2.589913768299451e-05,
      "loss": 3.4509,
      "step": 389250
    },
    {
      "epoch": 0.8109583333333333,
      "grad_norm": 2.2644240856170654,
      "learning_rate": 2.5893600373380775e-05,
      "loss": 3.4314,
      "step": 389260
    },
    {
      "epoch": 0.8109791666666667,
      "grad_norm": 2.1684978008270264,
      "learning_rate": 2.5888063599857562e-05,
      "loss": 3.3293,
      "step": 389270
    },
    {
      "epoch": 0.811,
      "grad_norm": 1.7001205682754517,
      "learning_rate": 2.5882527362448802e-05,
      "loss": 3.4215,
      "step": 389280
    },
    {
      "epoch": 0.8110208333333333,
      "grad_norm": 1.9586114883422852,
      "learning_rate": 2.5876991661178376e-05,
      "loss": 3.4446,
      "step": 389290
    },
    {
      "epoch": 0.8110416666666667,
      "grad_norm": 1.9047859907150269,
      "learning_rate": 2.587145649607023e-05,
      "loss": 3.4437,
      "step": 389300
    },
    {
      "epoch": 0.8110625,
      "grad_norm": 2.096590757369995,
      "learning_rate": 2.586592186714825e-05,
      "loss": 3.5997,
      "step": 389310
    },
    {
      "epoch": 0.8110833333333334,
      "grad_norm": 2.4483230113983154,
      "learning_rate": 2.586038777443634e-05,
      "loss": 3.3111,
      "step": 389320
    },
    {
      "epoch": 0.8111041666666666,
      "grad_norm": 2.0837111473083496,
      "learning_rate": 2.5854854217958443e-05,
      "loss": 3.397,
      "step": 389330
    },
    {
      "epoch": 0.811125,
      "grad_norm": 2.145921230316162,
      "learning_rate": 2.5849321197738416e-05,
      "loss": 3.4041,
      "step": 389340
    },
    {
      "epoch": 0.8111458333333333,
      "grad_norm": 1.919983148574829,
      "learning_rate": 2.584378871380019e-05,
      "loss": 3.4518,
      "step": 389350
    },
    {
      "epoch": 0.8111666666666667,
      "grad_norm": 2.0354554653167725,
      "learning_rate": 2.5838256766167646e-05,
      "loss": 3.3874,
      "step": 389360
    },
    {
      "epoch": 0.8111875,
      "grad_norm": 1.9913166761398315,
      "learning_rate": 2.5832725354864686e-05,
      "loss": 3.2963,
      "step": 389370
    },
    {
      "epoch": 0.8112083333333333,
      "grad_norm": 1.7841590642929077,
      "learning_rate": 2.5827194479915203e-05,
      "loss": 3.4489,
      "step": 389380
    },
    {
      "epoch": 0.8112291666666667,
      "grad_norm": 1.75337553024292,
      "learning_rate": 2.5821664141343096e-05,
      "loss": 3.4118,
      "step": 389390
    },
    {
      "epoch": 0.81125,
      "grad_norm": 2.372467279434204,
      "learning_rate": 2.5816134339172244e-05,
      "loss": 3.5169,
      "step": 389400
    },
    {
      "epoch": 0.8112708333333334,
      "grad_norm": 1.7592989206314087,
      "learning_rate": 2.5810605073426532e-05,
      "loss": 3.3812,
      "step": 389410
    },
    {
      "epoch": 0.8112916666666666,
      "grad_norm": 1.816023826599121,
      "learning_rate": 2.5805076344129855e-05,
      "loss": 3.4471,
      "step": 389420
    },
    {
      "epoch": 0.8113125,
      "grad_norm": 1.600419521331787,
      "learning_rate": 2.5799548151306075e-05,
      "loss": 3.5674,
      "step": 389430
    },
    {
      "epoch": 0.8113333333333334,
      "grad_norm": 1.7362163066864014,
      "learning_rate": 2.5794020494979094e-05,
      "loss": 3.5169,
      "step": 389440
    },
    {
      "epoch": 0.8113541666666667,
      "grad_norm": 2.121499538421631,
      "learning_rate": 2.5788493375172827e-05,
      "loss": 3.3857,
      "step": 389450
    },
    {
      "epoch": 0.811375,
      "grad_norm": 1.8338477611541748,
      "learning_rate": 2.5782966791911015e-05,
      "loss": 3.4644,
      "step": 389460
    },
    {
      "epoch": 0.8113958333333333,
      "grad_norm": 1.6342158317565918,
      "learning_rate": 2.577744074521766e-05,
      "loss": 3.418,
      "step": 389470
    },
    {
      "epoch": 0.8114166666666667,
      "grad_norm": 2.260122299194336,
      "learning_rate": 2.5771915235116625e-05,
      "loss": 3.5042,
      "step": 389480
    },
    {
      "epoch": 0.8114375,
      "grad_norm": 1.6084797382354736,
      "learning_rate": 2.5766390261631676e-05,
      "loss": 3.5512,
      "step": 389490
    },
    {
      "epoch": 0.8114583333333333,
      "grad_norm": 1.8136796951293945,
      "learning_rate": 2.5760865824786776e-05,
      "loss": 3.5963,
      "step": 389500
    },
    {
      "epoch": 0.8114791666666666,
      "grad_norm": 2.289008378982544,
      "learning_rate": 2.575534192460579e-05,
      "loss": 3.372,
      "step": 389510
    },
    {
      "epoch": 0.8115,
      "grad_norm": 1.9275884628295898,
      "learning_rate": 2.574981856111251e-05,
      "loss": 3.4033,
      "step": 389520
    },
    {
      "epoch": 0.8115208333333334,
      "grad_norm": 1.8045521974563599,
      "learning_rate": 2.5744295734330812e-05,
      "loss": 3.3536,
      "step": 389530
    },
    {
      "epoch": 0.8115416666666667,
      "grad_norm": 1.8715251684188843,
      "learning_rate": 2.573877344428463e-05,
      "loss": 3.3352,
      "step": 389540
    },
    {
      "epoch": 0.8115625,
      "grad_norm": 2.3507232666015625,
      "learning_rate": 2.573325169099774e-05,
      "loss": 3.4556,
      "step": 389550
    },
    {
      "epoch": 0.8115833333333333,
      "grad_norm": 1.6623060703277588,
      "learning_rate": 2.572773047449397e-05,
      "loss": 3.4689,
      "step": 389560
    },
    {
      "epoch": 0.8116041666666667,
      "grad_norm": 2.0620059967041016,
      "learning_rate": 2.5722209794797276e-05,
      "loss": 3.5046,
      "step": 389570
    },
    {
      "epoch": 0.811625,
      "grad_norm": 2.5383987426757812,
      "learning_rate": 2.5716689651931417e-05,
      "loss": 3.4771,
      "step": 389580
    },
    {
      "epoch": 0.8116458333333333,
      "grad_norm": 2.1935322284698486,
      "learning_rate": 2.5711170045920265e-05,
      "loss": 3.4111,
      "step": 389590
    },
    {
      "epoch": 0.8116666666666666,
      "grad_norm": 2.0421407222747803,
      "learning_rate": 2.5705650976787655e-05,
      "loss": 3.517,
      "step": 389600
    },
    {
      "epoch": 0.8116875,
      "grad_norm": 1.862982153892517,
      "learning_rate": 2.5700132444557452e-05,
      "loss": 3.5062,
      "step": 389610
    },
    {
      "epoch": 0.8117083333333334,
      "grad_norm": 1.9418150186538696,
      "learning_rate": 2.5694614449253452e-05,
      "loss": 3.5016,
      "step": 389620
    },
    {
      "epoch": 0.8117291666666666,
      "grad_norm": 1.7303117513656616,
      "learning_rate": 2.568909699089952e-05,
      "loss": 3.3099,
      "step": 389630
    },
    {
      "epoch": 0.81175,
      "grad_norm": 2.3161513805389404,
      "learning_rate": 2.568358006951949e-05,
      "loss": 3.3169,
      "step": 389640
    },
    {
      "epoch": 0.8117708333333333,
      "grad_norm": 2.008657217025757,
      "learning_rate": 2.5678063685137185e-05,
      "loss": 3.4445,
      "step": 389650
    },
    {
      "epoch": 0.8117916666666667,
      "grad_norm": 2.2344136238098145,
      "learning_rate": 2.5672547837776443e-05,
      "loss": 3.5224,
      "step": 389660
    },
    {
      "epoch": 0.8118125,
      "grad_norm": 1.6897518634796143,
      "learning_rate": 2.5667032527461075e-05,
      "loss": 3.2987,
      "step": 389670
    },
    {
      "epoch": 0.8118333333333333,
      "grad_norm": 1.6627181768417358,
      "learning_rate": 2.5661517754214895e-05,
      "loss": 3.47,
      "step": 389680
    },
    {
      "epoch": 0.8118541666666667,
      "grad_norm": 1.8210043907165527,
      "learning_rate": 2.5656003518061767e-05,
      "loss": 3.4887,
      "step": 389690
    },
    {
      "epoch": 0.811875,
      "grad_norm": 2.081705093383789,
      "learning_rate": 2.565048981902548e-05,
      "loss": 3.4641,
      "step": 389700
    },
    {
      "epoch": 0.8118958333333334,
      "grad_norm": 1.6684484481811523,
      "learning_rate": 2.5644976657129835e-05,
      "loss": 3.5888,
      "step": 389710
    },
    {
      "epoch": 0.8119166666666666,
      "grad_norm": 2.3788774013519287,
      "learning_rate": 2.5639464032398687e-05,
      "loss": 3.4123,
      "step": 389720
    },
    {
      "epoch": 0.8119375,
      "grad_norm": 2.1529204845428467,
      "learning_rate": 2.5633951944855835e-05,
      "loss": 3.4746,
      "step": 389730
    },
    {
      "epoch": 0.8119583333333333,
      "grad_norm": 1.810389518737793,
      "learning_rate": 2.5628440394525073e-05,
      "loss": 3.3826,
      "step": 389740
    },
    {
      "epoch": 0.8119791666666667,
      "grad_norm": 1.849445104598999,
      "learning_rate": 2.562292938143022e-05,
      "loss": 3.3292,
      "step": 389750
    },
    {
      "epoch": 0.812,
      "grad_norm": 1.8561965227127075,
      "learning_rate": 2.5617418905595066e-05,
      "loss": 3.5469,
      "step": 389760
    },
    {
      "epoch": 0.8120208333333333,
      "grad_norm": 1.989109992980957,
      "learning_rate": 2.5611908967043448e-05,
      "loss": 3.389,
      "step": 389770
    },
    {
      "epoch": 0.8120416666666667,
      "grad_norm": 1.9621628522872925,
      "learning_rate": 2.5606399565799147e-05,
      "loss": 3.3192,
      "step": 389780
    },
    {
      "epoch": 0.8120625,
      "grad_norm": 1.8709039688110352,
      "learning_rate": 2.560089070188594e-05,
      "loss": 3.4186,
      "step": 389790
    },
    {
      "epoch": 0.8120833333333334,
      "grad_norm": 1.718625545501709,
      "learning_rate": 2.5595382375327712e-05,
      "loss": 3.5441,
      "step": 389800
    },
    {
      "epoch": 0.8121041666666666,
      "grad_norm": 2.0270848274230957,
      "learning_rate": 2.558987458614809e-05,
      "loss": 3.5328,
      "step": 389810
    },
    {
      "epoch": 0.812125,
      "grad_norm": 1.7204868793487549,
      "learning_rate": 2.558436733437106e-05,
      "loss": 3.4679,
      "step": 389820
    },
    {
      "epoch": 0.8121458333333333,
      "grad_norm": 1.7882440090179443,
      "learning_rate": 2.5578860620020264e-05,
      "loss": 3.4119,
      "step": 389830
    },
    {
      "epoch": 0.8121666666666667,
      "grad_norm": 2.140918254852295,
      "learning_rate": 2.5573354443119505e-05,
      "loss": 3.4931,
      "step": 389840
    },
    {
      "epoch": 0.8121875,
      "grad_norm": 2.3066325187683105,
      "learning_rate": 2.5567848803692674e-05,
      "loss": 3.4623,
      "step": 389850
    },
    {
      "epoch": 0.8122083333333333,
      "grad_norm": 2.0020480155944824,
      "learning_rate": 2.556234370176346e-05,
      "loss": 3.4878,
      "step": 389860
    },
    {
      "epoch": 0.8122291666666667,
      "grad_norm": 2.0364787578582764,
      "learning_rate": 2.5556839137355624e-05,
      "loss": 3.3368,
      "step": 389870
    },
    {
      "epoch": 0.81225,
      "grad_norm": 1.7427701950073242,
      "learning_rate": 2.5551335110493042e-05,
      "loss": 3.4488,
      "step": 389880
    },
    {
      "epoch": 0.8122708333333334,
      "grad_norm": 1.673527717590332,
      "learning_rate": 2.554583162119942e-05,
      "loss": 3.4641,
      "step": 389890
    },
    {
      "epoch": 0.8122916666666666,
      "grad_norm": 1.6464020013809204,
      "learning_rate": 2.5540328669498484e-05,
      "loss": 3.4438,
      "step": 389900
    },
    {
      "epoch": 0.8123125,
      "grad_norm": 3.220527172088623,
      "learning_rate": 2.5534826255414148e-05,
      "loss": 3.3633,
      "step": 389910
    },
    {
      "epoch": 0.8123333333333334,
      "grad_norm": 2.311328649520874,
      "learning_rate": 2.552932437897006e-05,
      "loss": 3.4111,
      "step": 389920
    },
    {
      "epoch": 0.8123541666666667,
      "grad_norm": 2.481748580932617,
      "learning_rate": 2.552382304018999e-05,
      "loss": 3.4636,
      "step": 389930
    },
    {
      "epoch": 0.812375,
      "grad_norm": 1.7675875425338745,
      "learning_rate": 2.5518322239097793e-05,
      "loss": 3.4108,
      "step": 389940
    },
    {
      "epoch": 0.8123958333333333,
      "grad_norm": 2.077962875366211,
      "learning_rate": 2.5512821975717142e-05,
      "loss": 3.5049,
      "step": 389950
    },
    {
      "epoch": 0.8124166666666667,
      "grad_norm": 2.1649577617645264,
      "learning_rate": 2.5507322250071826e-05,
      "loss": 3.4608,
      "step": 389960
    },
    {
      "epoch": 0.8124375,
      "grad_norm": 1.8125396966934204,
      "learning_rate": 2.55018230621856e-05,
      "loss": 3.392,
      "step": 389970
    },
    {
      "epoch": 0.8124583333333333,
      "grad_norm": 2.0765459537506104,
      "learning_rate": 2.5496324412082207e-05,
      "loss": 3.3161,
      "step": 389980
    },
    {
      "epoch": 0.8124791666666666,
      "grad_norm": 1.8462024927139282,
      "learning_rate": 2.5490826299785432e-05,
      "loss": 3.2912,
      "step": 389990
    },
    {
      "epoch": 0.8125,
      "grad_norm": 1.764260172843933,
      "learning_rate": 2.5485328725318986e-05,
      "loss": 3.6176,
      "step": 390000
    },
    {
      "epoch": 0.8125,
      "eval_loss": 3.524280071258545,
      "eval_runtime": 7.3322,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 390000
    },
    {
      "epoch": 0.8125208333333334,
      "grad_norm": 1.9381495714187622,
      "learning_rate": 2.5479831688706637e-05,
      "loss": 3.4625,
      "step": 390010
    },
    {
      "epoch": 0.8125416666666667,
      "grad_norm": 1.8025879859924316,
      "learning_rate": 2.547433518997213e-05,
      "loss": 3.4441,
      "step": 390020
    },
    {
      "epoch": 0.8125625,
      "grad_norm": 2.0148074626922607,
      "learning_rate": 2.546883922913921e-05,
      "loss": 3.4426,
      "step": 390030
    },
    {
      "epoch": 0.8125833333333333,
      "grad_norm": 2.2325246334075928,
      "learning_rate": 2.5463343806231595e-05,
      "loss": 3.4414,
      "step": 390040
    },
    {
      "epoch": 0.8126041666666667,
      "grad_norm": 1.9666298627853394,
      "learning_rate": 2.545784892127305e-05,
      "loss": 3.3444,
      "step": 390050
    },
    {
      "epoch": 0.812625,
      "grad_norm": 2.4341580867767334,
      "learning_rate": 2.5452354574287303e-05,
      "loss": 3.373,
      "step": 390060
    },
    {
      "epoch": 0.8126458333333333,
      "grad_norm": 1.9798336029052734,
      "learning_rate": 2.5446860765298072e-05,
      "loss": 3.602,
      "step": 390070
    },
    {
      "epoch": 0.8126666666666666,
      "grad_norm": 1.74489164352417,
      "learning_rate": 2.544136749432912e-05,
      "loss": 3.485,
      "step": 390080
    },
    {
      "epoch": 0.8126875,
      "grad_norm": 1.9743273258209229,
      "learning_rate": 2.543587476140414e-05,
      "loss": 3.5003,
      "step": 390090
    },
    {
      "epoch": 0.8127083333333334,
      "grad_norm": 2.531424045562744,
      "learning_rate": 2.5430382566546888e-05,
      "loss": 3.5258,
      "step": 390100
    },
    {
      "epoch": 0.8127291666666666,
      "grad_norm": 1.6715130805969238,
      "learning_rate": 2.5424890909781104e-05,
      "loss": 3.3745,
      "step": 390110
    },
    {
      "epoch": 0.81275,
      "grad_norm": 1.7777951955795288,
      "learning_rate": 2.5419399791130406e-05,
      "loss": 3.3629,
      "step": 390120
    },
    {
      "epoch": 0.8127708333333333,
      "grad_norm": 2.0579755306243896,
      "learning_rate": 2.5413909210618627e-05,
      "loss": 3.4328,
      "step": 390130
    },
    {
      "epoch": 0.8127916666666667,
      "grad_norm": 2.2227909564971924,
      "learning_rate": 2.5408419168269496e-05,
      "loss": 3.3553,
      "step": 390140
    },
    {
      "epoch": 0.8128125,
      "grad_norm": 1.9201304912567139,
      "learning_rate": 2.540292966410659e-05,
      "loss": 3.4612,
      "step": 390150
    },
    {
      "epoch": 0.8128333333333333,
      "grad_norm": 2.0313026905059814,
      "learning_rate": 2.539744069815375e-05,
      "loss": 3.4006,
      "step": 390160
    },
    {
      "epoch": 0.8128541666666667,
      "grad_norm": 1.8353878259658813,
      "learning_rate": 2.5391952270434678e-05,
      "loss": 3.2922,
      "step": 390170
    },
    {
      "epoch": 0.812875,
      "grad_norm": 1.9901618957519531,
      "learning_rate": 2.5386464380972983e-05,
      "loss": 3.3738,
      "step": 390180
    },
    {
      "epoch": 0.8128958333333334,
      "grad_norm": 1.8032952547073364,
      "learning_rate": 2.5380977029792504e-05,
      "loss": 3.3709,
      "step": 390190
    },
    {
      "epoch": 0.8129166666666666,
      "grad_norm": 1.7876344919204712,
      "learning_rate": 2.5375490216916827e-05,
      "loss": 3.4645,
      "step": 390200
    },
    {
      "epoch": 0.8129375,
      "grad_norm": 2.292314291000366,
      "learning_rate": 2.537000394236968e-05,
      "loss": 3.453,
      "step": 390210
    },
    {
      "epoch": 0.8129583333333333,
      "grad_norm": 1.6953465938568115,
      "learning_rate": 2.5364518206174867e-05,
      "loss": 3.2591,
      "step": 390220
    },
    {
      "epoch": 0.8129791666666667,
      "grad_norm": 1.8501290082931519,
      "learning_rate": 2.5359033008355945e-05,
      "loss": 3.3546,
      "step": 390230
    },
    {
      "epoch": 0.813,
      "grad_norm": 1.9344156980514526,
      "learning_rate": 2.535354834893663e-05,
      "loss": 3.392,
      "step": 390240
    },
    {
      "epoch": 0.8130208333333333,
      "grad_norm": 2.1512603759765625,
      "learning_rate": 2.534806422794074e-05,
      "loss": 3.3459,
      "step": 390250
    },
    {
      "epoch": 0.8130416666666667,
      "grad_norm": 1.7741618156433105,
      "learning_rate": 2.534258064539182e-05,
      "loss": 3.3877,
      "step": 390260
    },
    {
      "epoch": 0.8130625,
      "grad_norm": 1.9275656938552856,
      "learning_rate": 2.5337097601313565e-05,
      "loss": 3.3924,
      "step": 390270
    },
    {
      "epoch": 0.8130833333333334,
      "grad_norm": 1.6180756092071533,
      "learning_rate": 2.5331615095729794e-05,
      "loss": 3.3786,
      "step": 390280
    },
    {
      "epoch": 0.8131041666666666,
      "grad_norm": 1.9987412691116333,
      "learning_rate": 2.5326133128664056e-05,
      "loss": 3.3734,
      "step": 390290
    },
    {
      "epoch": 0.813125,
      "grad_norm": 1.6372013092041016,
      "learning_rate": 2.532065170014003e-05,
      "loss": 3.4926,
      "step": 390300
    },
    {
      "epoch": 0.8131458333333333,
      "grad_norm": 1.7443560361862183,
      "learning_rate": 2.5315170810181524e-05,
      "loss": 3.4894,
      "step": 390310
    },
    {
      "epoch": 0.8131666666666667,
      "grad_norm": 2.237168312072754,
      "learning_rate": 2.5309690458812078e-05,
      "loss": 3.4042,
      "step": 390320
    },
    {
      "epoch": 0.8131875,
      "grad_norm": 2.0818722248077393,
      "learning_rate": 2.530421064605542e-05,
      "loss": 3.4385,
      "step": 390330
    },
    {
      "epoch": 0.8132083333333333,
      "grad_norm": 2.555535078048706,
      "learning_rate": 2.529873137193521e-05,
      "loss": 3.5095,
      "step": 390340
    },
    {
      "epoch": 0.8132291666666667,
      "grad_norm": 2.066652297973633,
      "learning_rate": 2.529325263647512e-05,
      "loss": 3.5281,
      "step": 390350
    },
    {
      "epoch": 0.81325,
      "grad_norm": 1.8262171745300293,
      "learning_rate": 2.528777443969881e-05,
      "loss": 3.5075,
      "step": 390360
    },
    {
      "epoch": 0.8132708333333334,
      "grad_norm": 1.7488703727722168,
      "learning_rate": 2.528229678162996e-05,
      "loss": 3.472,
      "step": 390370
    },
    {
      "epoch": 0.8132916666666666,
      "grad_norm": 1.7775297164916992,
      "learning_rate": 2.5276819662292226e-05,
      "loss": 3.4903,
      "step": 390380
    },
    {
      "epoch": 0.8133125,
      "grad_norm": 1.8121376037597656,
      "learning_rate": 2.5271343081709244e-05,
      "loss": 3.4104,
      "step": 390390
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 1.9803727865219116,
      "learning_rate": 2.5265867039904703e-05,
      "loss": 3.51,
      "step": 390400
    },
    {
      "epoch": 0.8133541666666667,
      "grad_norm": 1.6849724054336548,
      "learning_rate": 2.526039153690223e-05,
      "loss": 3.392,
      "step": 390410
    },
    {
      "epoch": 0.813375,
      "grad_norm": 1.7062643766403198,
      "learning_rate": 2.525491657272551e-05,
      "loss": 3.6161,
      "step": 390420
    },
    {
      "epoch": 0.8133958333333333,
      "grad_norm": 2.058406114578247,
      "learning_rate": 2.5249442147398153e-05,
      "loss": 3.5082,
      "step": 390430
    },
    {
      "epoch": 0.8134166666666667,
      "grad_norm": 2.4551098346710205,
      "learning_rate": 2.524396826094384e-05,
      "loss": 3.4239,
      "step": 390440
    },
    {
      "epoch": 0.8134375,
      "grad_norm": 2.3511741161346436,
      "learning_rate": 2.523849491338624e-05,
      "loss": 3.4593,
      "step": 390450
    },
    {
      "epoch": 0.8134583333333333,
      "grad_norm": 2.507413864135742,
      "learning_rate": 2.523302210474887e-05,
      "loss": 3.4734,
      "step": 390460
    },
    {
      "epoch": 0.8134791666666666,
      "grad_norm": 1.8593357801437378,
      "learning_rate": 2.5227549835055514e-05,
      "loss": 3.5344,
      "step": 390470
    },
    {
      "epoch": 0.8135,
      "grad_norm": 2.3586652278900146,
      "learning_rate": 2.5222078104329783e-05,
      "loss": 3.3898,
      "step": 390480
    },
    {
      "epoch": 0.8135208333333334,
      "grad_norm": 1.9199304580688477,
      "learning_rate": 2.5216606912595206e-05,
      "loss": 3.5572,
      "step": 390490
    },
    {
      "epoch": 0.8135416666666667,
      "grad_norm": 2.2504687309265137,
      "learning_rate": 2.5211136259875524e-05,
      "loss": 3.479,
      "step": 390500
    },
    {
      "epoch": 0.8135625,
      "grad_norm": 2.1587584018707275,
      "learning_rate": 2.5205666146194392e-05,
      "loss": 3.3413,
      "step": 390510
    },
    {
      "epoch": 0.8135833333333333,
      "grad_norm": 1.8209681510925293,
      "learning_rate": 2.5200196571575304e-05,
      "loss": 3.4249,
      "step": 390520
    },
    {
      "epoch": 0.8136041666666667,
      "grad_norm": 1.9912091493606567,
      "learning_rate": 2.5194727536042007e-05,
      "loss": 3.4389,
      "step": 390530
    },
    {
      "epoch": 0.813625,
      "grad_norm": 1.9017821550369263,
      "learning_rate": 2.518925903961812e-05,
      "loss": 3.4184,
      "step": 390540
    },
    {
      "epoch": 0.8136458333333333,
      "grad_norm": 1.9061084985733032,
      "learning_rate": 2.5183791082327154e-05,
      "loss": 3.4209,
      "step": 390550
    },
    {
      "epoch": 0.8136666666666666,
      "grad_norm": 1.7860535383224487,
      "learning_rate": 2.5178323664192858e-05,
      "loss": 3.4429,
      "step": 390560
    },
    {
      "epoch": 0.8136875,
      "grad_norm": 1.8632408380508423,
      "learning_rate": 2.517285678523881e-05,
      "loss": 3.5651,
      "step": 390570
    },
    {
      "epoch": 0.8137083333333334,
      "grad_norm": 2.081089735031128,
      "learning_rate": 2.5167390445488544e-05,
      "loss": 3.4164,
      "step": 390580
    },
    {
      "epoch": 0.8137291666666666,
      "grad_norm": 1.6841143369674683,
      "learning_rate": 2.5161924644965824e-05,
      "loss": 3.4375,
      "step": 390590
    },
    {
      "epoch": 0.81375,
      "grad_norm": 2.246084690093994,
      "learning_rate": 2.5156459383694134e-05,
      "loss": 3.4745,
      "step": 390600
    },
    {
      "epoch": 0.8137708333333333,
      "grad_norm": 1.7028229236602783,
      "learning_rate": 2.5150994661697084e-05,
      "loss": 3.3686,
      "step": 390610
    },
    {
      "epoch": 0.8137916666666667,
      "grad_norm": 1.8921492099761963,
      "learning_rate": 2.514553047899839e-05,
      "loss": 3.5082,
      "step": 390620
    },
    {
      "epoch": 0.8138125,
      "grad_norm": 1.982094407081604,
      "learning_rate": 2.514006683562153e-05,
      "loss": 3.4532,
      "step": 390630
    },
    {
      "epoch": 0.8138333333333333,
      "grad_norm": 1.959505558013916,
      "learning_rate": 2.5134603731590142e-05,
      "loss": 3.4406,
      "step": 390640
    },
    {
      "epoch": 0.8138541666666667,
      "grad_norm": 2.0196313858032227,
      "learning_rate": 2.512914116692792e-05,
      "loss": 3.3302,
      "step": 390650
    },
    {
      "epoch": 0.813875,
      "grad_norm": 1.901641607284546,
      "learning_rate": 2.5123679141658326e-05,
      "loss": 3.4669,
      "step": 390660
    },
    {
      "epoch": 0.8138958333333334,
      "grad_norm": 2.127185821533203,
      "learning_rate": 2.511821765580503e-05,
      "loss": 3.5795,
      "step": 390670
    },
    {
      "epoch": 0.8139166666666666,
      "grad_norm": 1.7479621171951294,
      "learning_rate": 2.5112756709391575e-05,
      "loss": 3.403,
      "step": 390680
    },
    {
      "epoch": 0.8139375,
      "grad_norm": 1.803094506263733,
      "learning_rate": 2.5107296302441593e-05,
      "loss": 3.4829,
      "step": 390690
    },
    {
      "epoch": 0.8139583333333333,
      "grad_norm": 2.5629384517669678,
      "learning_rate": 2.510183643497865e-05,
      "loss": 3.4108,
      "step": 390700
    },
    {
      "epoch": 0.8139791666666667,
      "grad_norm": 1.9566177129745483,
      "learning_rate": 2.5096377107026343e-05,
      "loss": 3.4955,
      "step": 390710
    },
    {
      "epoch": 0.814,
      "grad_norm": 1.878160834312439,
      "learning_rate": 2.5090918318608255e-05,
      "loss": 3.2815,
      "step": 390720
    },
    {
      "epoch": 0.8140208333333333,
      "grad_norm": 2.248514413833618,
      "learning_rate": 2.508546006974793e-05,
      "loss": 3.3762,
      "step": 390730
    },
    {
      "epoch": 0.8140416666666667,
      "grad_norm": 2.141796112060547,
      "learning_rate": 2.5080002360469005e-05,
      "loss": 3.5496,
      "step": 390740
    },
    {
      "epoch": 0.8140625,
      "grad_norm": 1.717089295387268,
      "learning_rate": 2.5074545190795003e-05,
      "loss": 3.4699,
      "step": 390750
    },
    {
      "epoch": 0.8140833333333334,
      "grad_norm": 2.249971389770508,
      "learning_rate": 2.5069088560749513e-05,
      "loss": 3.4173,
      "step": 390760
    },
    {
      "epoch": 0.8141041666666666,
      "grad_norm": 1.60041344165802,
      "learning_rate": 2.506363247035611e-05,
      "loss": 3.4718,
      "step": 390770
    },
    {
      "epoch": 0.814125,
      "grad_norm": 2.028252363204956,
      "learning_rate": 2.505817691963838e-05,
      "loss": 3.4008,
      "step": 390780
    },
    {
      "epoch": 0.8141458333333333,
      "grad_norm": 2.256371021270752,
      "learning_rate": 2.5052721908619848e-05,
      "loss": 3.4016,
      "step": 390790
    },
    {
      "epoch": 0.8141666666666667,
      "grad_norm": 1.8787192106246948,
      "learning_rate": 2.504726743732412e-05,
      "loss": 3.3689,
      "step": 390800
    },
    {
      "epoch": 0.8141875,
      "grad_norm": 1.9497432708740234,
      "learning_rate": 2.504181350577472e-05,
      "loss": 3.3524,
      "step": 390810
    },
    {
      "epoch": 0.8142083333333333,
      "grad_norm": 1.895188808441162,
      "learning_rate": 2.503636011399527e-05,
      "loss": 3.4201,
      "step": 390820
    },
    {
      "epoch": 0.8142291666666667,
      "grad_norm": 1.75930917263031,
      "learning_rate": 2.503090726200921e-05,
      "loss": 3.385,
      "step": 390830
    },
    {
      "epoch": 0.81425,
      "grad_norm": 1.8848536014556885,
      "learning_rate": 2.502545494984019e-05,
      "loss": 3.4272,
      "step": 390840
    },
    {
      "epoch": 0.8142708333333334,
      "grad_norm": 1.8536971807479858,
      "learning_rate": 2.5020003177511776e-05,
      "loss": 3.4333,
      "step": 390850
    },
    {
      "epoch": 0.8142916666666666,
      "grad_norm": 1.8500909805297852,
      "learning_rate": 2.50145519450474e-05,
      "loss": 3.3482,
      "step": 390860
    },
    {
      "epoch": 0.8143125,
      "grad_norm": 2.3600597381591797,
      "learning_rate": 2.5009101252470744e-05,
      "loss": 3.5994,
      "step": 390870
    },
    {
      "epoch": 0.8143333333333334,
      "grad_norm": 1.8195708990097046,
      "learning_rate": 2.5003651099805318e-05,
      "loss": 3.4839,
      "step": 390880
    },
    {
      "epoch": 0.8143541666666667,
      "grad_norm": 1.9156782627105713,
      "learning_rate": 2.499820148707457e-05,
      "loss": 3.3316,
      "step": 390890
    },
    {
      "epoch": 0.814375,
      "grad_norm": 1.7726389169692993,
      "learning_rate": 2.4992752414302135e-05,
      "loss": 3.526,
      "step": 390900
    },
    {
      "epoch": 0.8143958333333333,
      "grad_norm": 2.049692392349243,
      "learning_rate": 2.4987303881511595e-05,
      "loss": 3.3066,
      "step": 390910
    },
    {
      "epoch": 0.8144166666666667,
      "grad_norm": 2.4177823066711426,
      "learning_rate": 2.4981855888726327e-05,
      "loss": 3.4082,
      "step": 390920
    },
    {
      "epoch": 0.8144375,
      "grad_norm": 2.329780340194702,
      "learning_rate": 2.4976408435969998e-05,
      "loss": 3.317,
      "step": 390930
    },
    {
      "epoch": 0.8144583333333333,
      "grad_norm": 2.0923945903778076,
      "learning_rate": 2.497096152326612e-05,
      "loss": 3.3999,
      "step": 390940
    },
    {
      "epoch": 0.8144791666666666,
      "grad_norm": 1.940269112586975,
      "learning_rate": 2.4965515150638143e-05,
      "loss": 3.4275,
      "step": 390950
    },
    {
      "epoch": 0.8145,
      "grad_norm": 2.400242567062378,
      "learning_rate": 2.4960069318109715e-05,
      "loss": 3.3961,
      "step": 390960
    },
    {
      "epoch": 0.8145208333333334,
      "grad_norm": 2.0077621936798096,
      "learning_rate": 2.495462402570425e-05,
      "loss": 3.4087,
      "step": 390970
    },
    {
      "epoch": 0.8145416666666667,
      "grad_norm": 1.7934355735778809,
      "learning_rate": 2.4949179273445313e-05,
      "loss": 3.3951,
      "step": 390980
    },
    {
      "epoch": 0.8145625,
      "grad_norm": 1.804229974746704,
      "learning_rate": 2.4943735061356436e-05,
      "loss": 3.4912,
      "step": 390990
    },
    {
      "epoch": 0.8145833333333333,
      "grad_norm": 1.7223063707351685,
      "learning_rate": 2.493829138946111e-05,
      "loss": 3.4391,
      "step": 391000
    },
    {
      "epoch": 0.8145833333333333,
      "eval_loss": 3.5284996032714844,
      "eval_runtime": 7.3348,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 391000
    },
    {
      "epoch": 0.8146041666666667,
      "grad_norm": 1.9916982650756836,
      "learning_rate": 2.493284825778286e-05,
      "loss": 3.3492,
      "step": 391010
    },
    {
      "epoch": 0.814625,
      "grad_norm": 1.9351848363876343,
      "learning_rate": 2.4927405666345212e-05,
      "loss": 3.4528,
      "step": 391020
    },
    {
      "epoch": 0.8146458333333333,
      "grad_norm": 2.165639638900757,
      "learning_rate": 2.4921963615171662e-05,
      "loss": 3.3072,
      "step": 391030
    },
    {
      "epoch": 0.8146666666666667,
      "grad_norm": 1.7784017324447632,
      "learning_rate": 2.491652210428573e-05,
      "loss": 3.26,
      "step": 391040
    },
    {
      "epoch": 0.8146875,
      "grad_norm": 1.8675936460494995,
      "learning_rate": 2.491108113371089e-05,
      "loss": 3.3881,
      "step": 391050
    },
    {
      "epoch": 0.8147083333333334,
      "grad_norm": 2.8232054710388184,
      "learning_rate": 2.4905640703470682e-05,
      "loss": 3.5251,
      "step": 391060
    },
    {
      "epoch": 0.8147291666666666,
      "grad_norm": 1.7080336809158325,
      "learning_rate": 2.490020081358858e-05,
      "loss": 3.3782,
      "step": 391070
    },
    {
      "epoch": 0.81475,
      "grad_norm": 2.083137273788452,
      "learning_rate": 2.48947614640881e-05,
      "loss": 3.4448,
      "step": 391080
    },
    {
      "epoch": 0.8147708333333333,
      "grad_norm": 2.0778415203094482,
      "learning_rate": 2.4889322654992722e-05,
      "loss": 3.4751,
      "step": 391090
    },
    {
      "epoch": 0.8147916666666667,
      "grad_norm": 1.8525218963623047,
      "learning_rate": 2.4883884386325947e-05,
      "loss": 3.345,
      "step": 391100
    },
    {
      "epoch": 0.8148125,
      "grad_norm": 2.1073358058929443,
      "learning_rate": 2.4878446658111272e-05,
      "loss": 3.5062,
      "step": 391110
    },
    {
      "epoch": 0.8148333333333333,
      "grad_norm": 1.9620546102523804,
      "learning_rate": 2.487300947037218e-05,
      "loss": 3.3531,
      "step": 391120
    },
    {
      "epoch": 0.8148541666666667,
      "grad_norm": 2.878127098083496,
      "learning_rate": 2.4867572823132163e-05,
      "loss": 3.4585,
      "step": 391130
    },
    {
      "epoch": 0.814875,
      "grad_norm": 1.984743356704712,
      "learning_rate": 2.4862136716414692e-05,
      "loss": 3.4224,
      "step": 391140
    },
    {
      "epoch": 0.8148958333333334,
      "grad_norm": 1.8904145956039429,
      "learning_rate": 2.4856701150243263e-05,
      "loss": 3.4118,
      "step": 391150
    },
    {
      "epoch": 0.8149166666666666,
      "grad_norm": 2.087129592895508,
      "learning_rate": 2.4851266124641356e-05,
      "loss": 3.398,
      "step": 391160
    },
    {
      "epoch": 0.8149375,
      "grad_norm": 1.9322210550308228,
      "learning_rate": 2.4845831639632434e-05,
      "loss": 3.3142,
      "step": 391170
    },
    {
      "epoch": 0.8149583333333333,
      "grad_norm": 2.5112907886505127,
      "learning_rate": 2.4840397695239983e-05,
      "loss": 3.4032,
      "step": 391180
    },
    {
      "epoch": 0.8149791666666667,
      "grad_norm": 2.0142147541046143,
      "learning_rate": 2.4834964291487514e-05,
      "loss": 3.3526,
      "step": 391190
    },
    {
      "epoch": 0.815,
      "grad_norm": 2.198880672454834,
      "learning_rate": 2.4829531428398373e-05,
      "loss": 3.3663,
      "step": 391200
    },
    {
      "epoch": 0.8150208333333333,
      "grad_norm": 1.8072340488433838,
      "learning_rate": 2.4824099105996147e-05,
      "loss": 3.4549,
      "step": 391210
    },
    {
      "epoch": 0.8150416666666667,
      "grad_norm": 1.9186986684799194,
      "learning_rate": 2.4818667324304297e-05,
      "loss": 3.3939,
      "step": 391220
    },
    {
      "epoch": 0.8150625,
      "grad_norm": 2.074528694152832,
      "learning_rate": 2.481323608334619e-05,
      "loss": 3.4283,
      "step": 391230
    },
    {
      "epoch": 0.8150833333333334,
      "grad_norm": 2.511518716812134,
      "learning_rate": 2.4807805383145386e-05,
      "loss": 3.5588,
      "step": 391240
    },
    {
      "epoch": 0.8151041666666666,
      "grad_norm": 2.130120277404785,
      "learning_rate": 2.4802375223725352e-05,
      "loss": 3.5079,
      "step": 391250
    },
    {
      "epoch": 0.815125,
      "grad_norm": 1.7649022340774536,
      "learning_rate": 2.4796945605109454e-05,
      "loss": 3.4139,
      "step": 391260
    },
    {
      "epoch": 0.8151458333333333,
      "grad_norm": 2.311051607131958,
      "learning_rate": 2.4791516527321153e-05,
      "loss": 3.2645,
      "step": 391270
    },
    {
      "epoch": 0.8151666666666667,
      "grad_norm": 1.8671737909317017,
      "learning_rate": 2.4786087990384018e-05,
      "loss": 3.4048,
      "step": 391280
    },
    {
      "epoch": 0.8151875,
      "grad_norm": 2.5491960048675537,
      "learning_rate": 2.4780659994321378e-05,
      "loss": 3.3816,
      "step": 391290
    },
    {
      "epoch": 0.8152083333333333,
      "grad_norm": 1.7859715223312378,
      "learning_rate": 2.47752325391567e-05,
      "loss": 3.3908,
      "step": 391300
    },
    {
      "epoch": 0.8152291666666667,
      "grad_norm": 1.9894939661026,
      "learning_rate": 2.4769805624913507e-05,
      "loss": 3.4607,
      "step": 391310
    },
    {
      "epoch": 0.81525,
      "grad_norm": 1.88271164894104,
      "learning_rate": 2.4764379251615157e-05,
      "loss": 3.3868,
      "step": 391320
    },
    {
      "epoch": 0.8152708333333333,
      "grad_norm": 1.8967986106872559,
      "learning_rate": 2.475895341928511e-05,
      "loss": 3.421,
      "step": 391330
    },
    {
      "epoch": 0.8152916666666666,
      "grad_norm": 2.020508050918579,
      "learning_rate": 2.4753528127946813e-05,
      "loss": 3.4233,
      "step": 391340
    },
    {
      "epoch": 0.8153125,
      "grad_norm": 2.1996495723724365,
      "learning_rate": 2.4748103377623703e-05,
      "loss": 3.3194,
      "step": 391350
    },
    {
      "epoch": 0.8153333333333334,
      "grad_norm": 1.6864196062088013,
      "learning_rate": 2.47426791683392e-05,
      "loss": 3.4985,
      "step": 391360
    },
    {
      "epoch": 0.8153541666666667,
      "grad_norm": 1.770368218421936,
      "learning_rate": 2.4737255500116748e-05,
      "loss": 3.4196,
      "step": 391370
    },
    {
      "epoch": 0.815375,
      "grad_norm": 1.9854618310928345,
      "learning_rate": 2.473183237297977e-05,
      "loss": 3.3462,
      "step": 391380
    },
    {
      "epoch": 0.8153958333333333,
      "grad_norm": 1.8122714757919312,
      "learning_rate": 2.4726409786951683e-05,
      "loss": 3.5529,
      "step": 391390
    },
    {
      "epoch": 0.8154166666666667,
      "grad_norm": 1.6631580591201782,
      "learning_rate": 2.4720987742055936e-05,
      "loss": 3.3558,
      "step": 391400
    },
    {
      "epoch": 0.8154375,
      "grad_norm": 1.9091006517410278,
      "learning_rate": 2.471556623831591e-05,
      "loss": 3.4768,
      "step": 391410
    },
    {
      "epoch": 0.8154583333333333,
      "grad_norm": 1.974148154258728,
      "learning_rate": 2.4710145275755068e-05,
      "loss": 3.2517,
      "step": 391420
    },
    {
      "epoch": 0.8154791666666666,
      "grad_norm": 2.5912532806396484,
      "learning_rate": 2.470472485439679e-05,
      "loss": 3.4131,
      "step": 391430
    },
    {
      "epoch": 0.8155,
      "grad_norm": 2.052851676940918,
      "learning_rate": 2.469930497426451e-05,
      "loss": 3.4633,
      "step": 391440
    },
    {
      "epoch": 0.8155208333333334,
      "grad_norm": 2.037369966506958,
      "learning_rate": 2.4693885635381643e-05,
      "loss": 3.5237,
      "step": 391450
    },
    {
      "epoch": 0.8155416666666667,
      "grad_norm": 1.7912765741348267,
      "learning_rate": 2.4688466837771587e-05,
      "loss": 3.3416,
      "step": 391460
    },
    {
      "epoch": 0.8155625,
      "grad_norm": 1.9205456972122192,
      "learning_rate": 2.4683048581457752e-05,
      "loss": 3.4466,
      "step": 391470
    },
    {
      "epoch": 0.8155833333333333,
      "grad_norm": 1.7252357006072998,
      "learning_rate": 2.4677630866463542e-05,
      "loss": 3.4195,
      "step": 391480
    },
    {
      "epoch": 0.8156041666666667,
      "grad_norm": 1.7608646154403687,
      "learning_rate": 2.4672213692812354e-05,
      "loss": 3.5717,
      "step": 391490
    },
    {
      "epoch": 0.815625,
      "grad_norm": 1.911665678024292,
      "learning_rate": 2.4666797060527617e-05,
      "loss": 3.4393,
      "step": 391500
    },
    {
      "epoch": 0.8156458333333333,
      "grad_norm": 1.991033673286438,
      "learning_rate": 2.466138096963268e-05,
      "loss": 3.4662,
      "step": 391510
    },
    {
      "epoch": 0.8156666666666667,
      "grad_norm": 1.7130134105682373,
      "learning_rate": 2.4655965420150968e-05,
      "loss": 3.3408,
      "step": 391520
    },
    {
      "epoch": 0.8156875,
      "grad_norm": 2.0305991172790527,
      "learning_rate": 2.465055041210589e-05,
      "loss": 3.4141,
      "step": 391530
    },
    {
      "epoch": 0.8157083333333334,
      "grad_norm": 2.2851812839508057,
      "learning_rate": 2.4645135945520807e-05,
      "loss": 3.5933,
      "step": 391540
    },
    {
      "epoch": 0.8157291666666666,
      "grad_norm": 2.4614078998565674,
      "learning_rate": 2.4639722020419112e-05,
      "loss": 3.5889,
      "step": 391550
    },
    {
      "epoch": 0.81575,
      "grad_norm": 2.0292108058929443,
      "learning_rate": 2.4634308636824206e-05,
      "loss": 3.3717,
      "step": 391560
    },
    {
      "epoch": 0.8157708333333333,
      "grad_norm": 1.955554723739624,
      "learning_rate": 2.462889579475949e-05,
      "loss": 3.3349,
      "step": 391570
    },
    {
      "epoch": 0.8157916666666667,
      "grad_norm": 2.010434865951538,
      "learning_rate": 2.4623483494248257e-05,
      "loss": 3.5001,
      "step": 391580
    },
    {
      "epoch": 0.8158125,
      "grad_norm": 1.9583748579025269,
      "learning_rate": 2.461807173531401e-05,
      "loss": 3.3366,
      "step": 391590
    },
    {
      "epoch": 0.8158333333333333,
      "grad_norm": 2.15948224067688,
      "learning_rate": 2.4612660517980027e-05,
      "loss": 3.4723,
      "step": 391600
    },
    {
      "epoch": 0.8158541666666667,
      "grad_norm": 1.879493236541748,
      "learning_rate": 2.460724984226969e-05,
      "loss": 3.5209,
      "step": 391610
    },
    {
      "epoch": 0.815875,
      "grad_norm": 2.0486087799072266,
      "learning_rate": 2.460183970820648e-05,
      "loss": 3.3286,
      "step": 391620
    },
    {
      "epoch": 0.8158958333333334,
      "grad_norm": 2.362945795059204,
      "learning_rate": 2.4596430115813625e-05,
      "loss": 3.5946,
      "step": 391630
    },
    {
      "epoch": 0.8159166666666666,
      "grad_norm": 1.7826532125473022,
      "learning_rate": 2.459102106511453e-05,
      "loss": 3.4615,
      "step": 391640
    },
    {
      "epoch": 0.8159375,
      "grad_norm": 1.8336117267608643,
      "learning_rate": 2.458561255613267e-05,
      "loss": 3.373,
      "step": 391650
    },
    {
      "epoch": 0.8159583333333333,
      "grad_norm": 2.1488986015319824,
      "learning_rate": 2.4580204588891267e-05,
      "loss": 3.3042,
      "step": 391660
    },
    {
      "epoch": 0.8159791666666667,
      "grad_norm": 1.9393035173416138,
      "learning_rate": 2.4574797163413712e-05,
      "loss": 3.3438,
      "step": 391670
    },
    {
      "epoch": 0.816,
      "grad_norm": 1.62533438205719,
      "learning_rate": 2.4569390279723454e-05,
      "loss": 3.317,
      "step": 391680
    },
    {
      "epoch": 0.8160208333333333,
      "grad_norm": 2.1565723419189453,
      "learning_rate": 2.4563983937843747e-05,
      "loss": 3.476,
      "step": 391690
    },
    {
      "epoch": 0.8160416666666667,
      "grad_norm": 2.0759341716766357,
      "learning_rate": 2.455857813779796e-05,
      "loss": 3.423,
      "step": 391700
    },
    {
      "epoch": 0.8160625,
      "grad_norm": 1.9146473407745361,
      "learning_rate": 2.455317287960949e-05,
      "loss": 3.5132,
      "step": 391710
    },
    {
      "epoch": 0.8160833333333334,
      "grad_norm": 1.7943888902664185,
      "learning_rate": 2.4547768163301638e-05,
      "loss": 3.3159,
      "step": 391720
    },
    {
      "epoch": 0.8161041666666666,
      "grad_norm": 1.9546477794647217,
      "learning_rate": 2.454236398889778e-05,
      "loss": 3.3073,
      "step": 391730
    },
    {
      "epoch": 0.816125,
      "grad_norm": 1.894103765487671,
      "learning_rate": 2.4536960356421252e-05,
      "loss": 3.3787,
      "step": 391740
    },
    {
      "epoch": 0.8161458333333333,
      "grad_norm": 1.9521254301071167,
      "learning_rate": 2.453155726589538e-05,
      "loss": 3.5434,
      "step": 391750
    },
    {
      "epoch": 0.8161666666666667,
      "grad_norm": 1.8985211849212646,
      "learning_rate": 2.4526154717343523e-05,
      "loss": 3.5241,
      "step": 391760
    },
    {
      "epoch": 0.8161875,
      "grad_norm": 2.2853939533233643,
      "learning_rate": 2.4520752710789025e-05,
      "loss": 3.4947,
      "step": 391770
    },
    {
      "epoch": 0.8162083333333333,
      "grad_norm": 2.0448343753814697,
      "learning_rate": 2.4515351246255194e-05,
      "loss": 3.5121,
      "step": 391780
    },
    {
      "epoch": 0.8162291666666667,
      "grad_norm": 1.9192795753479004,
      "learning_rate": 2.450995032376537e-05,
      "loss": 3.4581,
      "step": 391790
    },
    {
      "epoch": 0.81625,
      "grad_norm": 1.7494769096374512,
      "learning_rate": 2.4504549943342904e-05,
      "loss": 3.4598,
      "step": 391800
    },
    {
      "epoch": 0.8162708333333333,
      "grad_norm": 2.116612672805786,
      "learning_rate": 2.4499150105011093e-05,
      "loss": 3.395,
      "step": 391810
    },
    {
      "epoch": 0.8162916666666666,
      "grad_norm": 1.8159518241882324,
      "learning_rate": 2.4493750808793288e-05,
      "loss": 3.4697,
      "step": 391820
    },
    {
      "epoch": 0.8163125,
      "grad_norm": 2.5769777297973633,
      "learning_rate": 2.4488352054712802e-05,
      "loss": 3.4575,
      "step": 391830
    },
    {
      "epoch": 0.8163333333333334,
      "grad_norm": 2.1959455013275146,
      "learning_rate": 2.4482953842792945e-05,
      "loss": 3.3791,
      "step": 391840
    },
    {
      "epoch": 0.8163541666666667,
      "grad_norm": 2.6658170223236084,
      "learning_rate": 2.447755617305707e-05,
      "loss": 3.5136,
      "step": 391850
    },
    {
      "epoch": 0.816375,
      "grad_norm": 1.803837776184082,
      "learning_rate": 2.447215904552841e-05,
      "loss": 3.3602,
      "step": 391860
    },
    {
      "epoch": 0.8163958333333333,
      "grad_norm": 1.987683653831482,
      "learning_rate": 2.446676246023038e-05,
      "loss": 3.482,
      "step": 391870
    },
    {
      "epoch": 0.8164166666666667,
      "grad_norm": 2.0107760429382324,
      "learning_rate": 2.4461366417186267e-05,
      "loss": 3.4938,
      "step": 391880
    },
    {
      "epoch": 0.8164375,
      "grad_norm": 1.9674454927444458,
      "learning_rate": 2.44559709164193e-05,
      "loss": 3.3935,
      "step": 391890
    },
    {
      "epoch": 0.8164583333333333,
      "grad_norm": 1.8554551601409912,
      "learning_rate": 2.4450575957952868e-05,
      "loss": 3.5188,
      "step": 391900
    },
    {
      "epoch": 0.8164791666666666,
      "grad_norm": 1.9271243810653687,
      "learning_rate": 2.4445181541810306e-05,
      "loss": 3.4884,
      "step": 391910
    },
    {
      "epoch": 0.8165,
      "grad_norm": 2.3043107986450195,
      "learning_rate": 2.4439787668014777e-05,
      "loss": 3.4172,
      "step": 391920
    },
    {
      "epoch": 0.8165208333333334,
      "grad_norm": 1.9769165515899658,
      "learning_rate": 2.4434394336589695e-05,
      "loss": 3.49,
      "step": 391930
    },
    {
      "epoch": 0.8165416666666667,
      "grad_norm": 1.7935307025909424,
      "learning_rate": 2.4429001547558362e-05,
      "loss": 3.395,
      "step": 391940
    },
    {
      "epoch": 0.8165625,
      "grad_norm": 1.923789381980896,
      "learning_rate": 2.4423609300943975e-05,
      "loss": 3.4579,
      "step": 391950
    },
    {
      "epoch": 0.8165833333333333,
      "grad_norm": 2.0277810096740723,
      "learning_rate": 2.441821759676996e-05,
      "loss": 3.3933,
      "step": 391960
    },
    {
      "epoch": 0.8166041666666667,
      "grad_norm": 1.9128388166427612,
      "learning_rate": 2.4412826435059505e-05,
      "loss": 3.448,
      "step": 391970
    },
    {
      "epoch": 0.816625,
      "grad_norm": 2.0973854064941406,
      "learning_rate": 2.4407435815835892e-05,
      "loss": 3.3134,
      "step": 391980
    },
    {
      "epoch": 0.8166458333333333,
      "grad_norm": 2.038928270339966,
      "learning_rate": 2.4402045739122513e-05,
      "loss": 3.259,
      "step": 391990
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 1.6560990810394287,
      "learning_rate": 2.4396656204942548e-05,
      "loss": 3.5153,
      "step": 392000
    },
    {
      "epoch": 0.8166666666666667,
      "eval_loss": 3.528264284133911,
      "eval_runtime": 7.3422,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 392000
    },
    {
      "epoch": 0.8166875,
      "grad_norm": 1.799534797668457,
      "learning_rate": 2.4391267213319272e-05,
      "loss": 3.5164,
      "step": 392010
    },
    {
      "epoch": 0.8167083333333334,
      "grad_norm": 1.6809738874435425,
      "learning_rate": 2.4385878764276073e-05,
      "loss": 3.4985,
      "step": 392020
    },
    {
      "epoch": 0.8167291666666666,
      "grad_norm": 1.6379139423370361,
      "learning_rate": 2.438049085783612e-05,
      "loss": 3.4483,
      "step": 392030
    },
    {
      "epoch": 0.81675,
      "grad_norm": 1.6608372926712036,
      "learning_rate": 2.437510349402268e-05,
      "loss": 3.3234,
      "step": 392040
    },
    {
      "epoch": 0.8167708333333333,
      "grad_norm": 1.8237535953521729,
      "learning_rate": 2.4369716672859146e-05,
      "loss": 3.3518,
      "step": 392050
    },
    {
      "epoch": 0.8167916666666667,
      "grad_norm": 2.3027498722076416,
      "learning_rate": 2.436433039436867e-05,
      "loss": 3.5017,
      "step": 392060
    },
    {
      "epoch": 0.8168125,
      "grad_norm": 1.909140706062317,
      "learning_rate": 2.4358944658574532e-05,
      "loss": 3.5201,
      "step": 392070
    },
    {
      "epoch": 0.8168333333333333,
      "grad_norm": 1.8354488611221313,
      "learning_rate": 2.4353559465500076e-05,
      "loss": 3.4429,
      "step": 392080
    },
    {
      "epoch": 0.8168541666666667,
      "grad_norm": 1.8272556066513062,
      "learning_rate": 2.4348174815168476e-05,
      "loss": 3.4776,
      "step": 392090
    },
    {
      "epoch": 0.816875,
      "grad_norm": 1.7602448463439941,
      "learning_rate": 2.434279070760304e-05,
      "loss": 3.4229,
      "step": 392100
    },
    {
      "epoch": 0.8168958333333334,
      "grad_norm": 1.9956300258636475,
      "learning_rate": 2.4337407142826998e-05,
      "loss": 3.5085,
      "step": 392110
    },
    {
      "epoch": 0.8169166666666666,
      "grad_norm": 1.9189859628677368,
      "learning_rate": 2.4332024120863618e-05,
      "loss": 3.2291,
      "step": 392120
    },
    {
      "epoch": 0.8169375,
      "grad_norm": 1.9208662509918213,
      "learning_rate": 2.432664164173615e-05,
      "loss": 3.4683,
      "step": 392130
    },
    {
      "epoch": 0.8169583333333333,
      "grad_norm": 1.9498817920684814,
      "learning_rate": 2.4321259705467838e-05,
      "loss": 3.3609,
      "step": 392140
    },
    {
      "epoch": 0.8169791666666667,
      "grad_norm": 2.51676082611084,
      "learning_rate": 2.431587831208195e-05,
      "loss": 3.3302,
      "step": 392150
    },
    {
      "epoch": 0.817,
      "grad_norm": 1.8988635540008545,
      "learning_rate": 2.4310497461601713e-05,
      "loss": 3.3575,
      "step": 392160
    },
    {
      "epoch": 0.8170208333333333,
      "grad_norm": 1.7504957914352417,
      "learning_rate": 2.430511715405038e-05,
      "loss": 3.4754,
      "step": 392170
    },
    {
      "epoch": 0.8170416666666667,
      "grad_norm": 1.8583050966262817,
      "learning_rate": 2.429973738945118e-05,
      "loss": 3.4299,
      "step": 392180
    },
    {
      "epoch": 0.8170625,
      "grad_norm": 2.0759217739105225,
      "learning_rate": 2.4294358167827392e-05,
      "loss": 3.2977,
      "step": 392190
    },
    {
      "epoch": 0.8170833333333334,
      "grad_norm": 1.8732149600982666,
      "learning_rate": 2.4288979489202154e-05,
      "loss": 3.4281,
      "step": 392200
    },
    {
      "epoch": 0.8171041666666666,
      "grad_norm": 1.9034690856933594,
      "learning_rate": 2.428360135359879e-05,
      "loss": 3.4717,
      "step": 392210
    },
    {
      "epoch": 0.817125,
      "grad_norm": 2.2184054851531982,
      "learning_rate": 2.4278223761040553e-05,
      "loss": 3.433,
      "step": 392220
    },
    {
      "epoch": 0.8171458333333333,
      "grad_norm": 1.9163084030151367,
      "learning_rate": 2.4272846711550558e-05,
      "loss": 3.4467,
      "step": 392230
    },
    {
      "epoch": 0.8171666666666667,
      "grad_norm": 2.2651331424713135,
      "learning_rate": 2.4267470205152134e-05,
      "loss": 3.6179,
      "step": 392240
    },
    {
      "epoch": 0.8171875,
      "grad_norm": 2.5620687007904053,
      "learning_rate": 2.4262094241868496e-05,
      "loss": 3.3553,
      "step": 392250
    },
    {
      "epoch": 0.8172083333333333,
      "grad_norm": 2.3198060989379883,
      "learning_rate": 2.4256718821722776e-05,
      "loss": 3.327,
      "step": 392260
    },
    {
      "epoch": 0.8172291666666667,
      "grad_norm": 1.8886070251464844,
      "learning_rate": 2.425134394473829e-05,
      "loss": 3.4408,
      "step": 392270
    },
    {
      "epoch": 0.81725,
      "grad_norm": 2.0464580059051514,
      "learning_rate": 2.4245969610938264e-05,
      "loss": 3.3066,
      "step": 392280
    },
    {
      "epoch": 0.8172708333333333,
      "grad_norm": 1.9334505796432495,
      "learning_rate": 2.4240595820345788e-05,
      "loss": 3.4219,
      "step": 392290
    },
    {
      "epoch": 0.8172916666666666,
      "grad_norm": 1.8356926441192627,
      "learning_rate": 2.4235222572984204e-05,
      "loss": 3.4599,
      "step": 392300
    },
    {
      "epoch": 0.8173125,
      "grad_norm": 1.8996692895889282,
      "learning_rate": 2.422984986887671e-05,
      "loss": 3.5119,
      "step": 392310
    },
    {
      "epoch": 0.8173333333333334,
      "grad_norm": 1.890963077545166,
      "learning_rate": 2.4224477708046423e-05,
      "loss": 3.2523,
      "step": 392320
    },
    {
      "epoch": 0.8173541666666667,
      "grad_norm": 2.0686230659484863,
      "learning_rate": 2.421910609051666e-05,
      "loss": 3.5088,
      "step": 392330
    },
    {
      "epoch": 0.817375,
      "grad_norm": 2.077214479446411,
      "learning_rate": 2.421373501631055e-05,
      "loss": 3.3793,
      "step": 392340
    },
    {
      "epoch": 0.8173958333333333,
      "grad_norm": 1.5983195304870605,
      "learning_rate": 2.420836448545127e-05,
      "loss": 3.2875,
      "step": 392350
    },
    {
      "epoch": 0.8174166666666667,
      "grad_norm": 1.8183702230453491,
      "learning_rate": 2.420299449796214e-05,
      "loss": 3.4774,
      "step": 392360
    },
    {
      "epoch": 0.8174375,
      "grad_norm": 2.135132074356079,
      "learning_rate": 2.4197625053866242e-05,
      "loss": 3.2728,
      "step": 392370
    },
    {
      "epoch": 0.8174583333333333,
      "grad_norm": 2.421459197998047,
      "learning_rate": 2.4192256153186774e-05,
      "loss": 3.3582,
      "step": 392380
    },
    {
      "epoch": 0.8174791666666666,
      "grad_norm": 2.2911784648895264,
      "learning_rate": 2.418688779594703e-05,
      "loss": 3.3788,
      "step": 392390
    },
    {
      "epoch": 0.8175,
      "grad_norm": 2.911844491958618,
      "learning_rate": 2.4181519982170096e-05,
      "loss": 3.3772,
      "step": 392400
    },
    {
      "epoch": 0.8175208333333334,
      "grad_norm": 2.306098222732544,
      "learning_rate": 2.417615271187915e-05,
      "loss": 3.4943,
      "step": 392410
    },
    {
      "epoch": 0.8175416666666667,
      "grad_norm": 1.8305264711380005,
      "learning_rate": 2.4170785985097506e-05,
      "loss": 3.4607,
      "step": 392420
    },
    {
      "epoch": 0.8175625,
      "grad_norm": 2.0941224098205566,
      "learning_rate": 2.4165419801848218e-05,
      "loss": 3.3977,
      "step": 392430
    },
    {
      "epoch": 0.8175833333333333,
      "grad_norm": 2.0936338901519775,
      "learning_rate": 2.4160054162154497e-05,
      "loss": 3.4402,
      "step": 392440
    },
    {
      "epoch": 0.8176041666666667,
      "grad_norm": 2.1395952701568604,
      "learning_rate": 2.415468906603954e-05,
      "loss": 3.3404,
      "step": 392450
    },
    {
      "epoch": 0.817625,
      "grad_norm": 2.0045948028564453,
      "learning_rate": 2.4149324513526513e-05,
      "loss": 3.4214,
      "step": 392460
    },
    {
      "epoch": 0.8176458333333333,
      "grad_norm": 1.7982207536697388,
      "learning_rate": 2.41439605046386e-05,
      "loss": 3.4072,
      "step": 392470
    },
    {
      "epoch": 0.8176666666666667,
      "grad_norm": 1.9227616786956787,
      "learning_rate": 2.4138597039398943e-05,
      "loss": 3.5049,
      "step": 392480
    },
    {
      "epoch": 0.8176875,
      "grad_norm": 1.9140691757202148,
      "learning_rate": 2.4133234117830747e-05,
      "loss": 3.5976,
      "step": 392490
    },
    {
      "epoch": 0.8177083333333334,
      "grad_norm": 2.7941272258758545,
      "learning_rate": 2.4127871739957138e-05,
      "loss": 3.4381,
      "step": 392500
    },
    {
      "epoch": 0.8177291666666666,
      "grad_norm": 1.9204306602478027,
      "learning_rate": 2.4122509905801302e-05,
      "loss": 3.4773,
      "step": 392510
    },
    {
      "epoch": 0.81775,
      "grad_norm": 2.473525285720825,
      "learning_rate": 2.4117148615386402e-05,
      "loss": 3.3877,
      "step": 392520
    },
    {
      "epoch": 0.8177708333333333,
      "grad_norm": 1.8439239263534546,
      "learning_rate": 2.4111787868735598e-05,
      "loss": 3.3553,
      "step": 392530
    },
    {
      "epoch": 0.8177916666666667,
      "grad_norm": 2.008989095687866,
      "learning_rate": 2.410642766587203e-05,
      "loss": 3.3843,
      "step": 392540
    },
    {
      "epoch": 0.8178125,
      "grad_norm": 1.793169617652893,
      "learning_rate": 2.4101068006818874e-05,
      "loss": 3.5579,
      "step": 392550
    },
    {
      "epoch": 0.8178333333333333,
      "grad_norm": 1.714455246925354,
      "learning_rate": 2.4095708891599263e-05,
      "loss": 3.2379,
      "step": 392560
    },
    {
      "epoch": 0.8178541666666667,
      "grad_norm": 2.3624022006988525,
      "learning_rate": 2.4090350320236346e-05,
      "loss": 3.3755,
      "step": 392570
    },
    {
      "epoch": 0.817875,
      "grad_norm": 2.1918065547943115,
      "learning_rate": 2.4084992292753284e-05,
      "loss": 3.4726,
      "step": 392580
    },
    {
      "epoch": 0.8178958333333334,
      "grad_norm": 2.144418954849243,
      "learning_rate": 2.407963480917325e-05,
      "loss": 3.5286,
      "step": 392590
    },
    {
      "epoch": 0.8179166666666666,
      "grad_norm": 1.8855527639389038,
      "learning_rate": 2.407427786951928e-05,
      "loss": 3.4449,
      "step": 392600
    },
    {
      "epoch": 0.8179375,
      "grad_norm": 2.0520684719085693,
      "learning_rate": 2.4068921473814618e-05,
      "loss": 3.3918,
      "step": 392610
    },
    {
      "epoch": 0.8179583333333333,
      "grad_norm": 1.758836030960083,
      "learning_rate": 2.4063565622082422e-05,
      "loss": 3.4624,
      "step": 392620
    },
    {
      "epoch": 0.8179791666666667,
      "grad_norm": 1.9353446960449219,
      "learning_rate": 2.405821031434567e-05,
      "loss": 3.441,
      "step": 392630
    },
    {
      "epoch": 0.818,
      "grad_norm": 1.8410680294036865,
      "learning_rate": 2.4052855550627654e-05,
      "loss": 3.3969,
      "step": 392640
    },
    {
      "epoch": 0.8180208333333333,
      "grad_norm": 1.8073476552963257,
      "learning_rate": 2.404750133095148e-05,
      "loss": 3.3516,
      "step": 392650
    },
    {
      "epoch": 0.8180416666666667,
      "grad_norm": 2.220632791519165,
      "learning_rate": 2.4042147655340182e-05,
      "loss": 3.5645,
      "step": 392660
    },
    {
      "epoch": 0.8180625,
      "grad_norm": 1.9310985803604126,
      "learning_rate": 2.4036794523816976e-05,
      "loss": 3.4187,
      "step": 392670
    },
    {
      "epoch": 0.8180833333333334,
      "grad_norm": 1.7430734634399414,
      "learning_rate": 2.4031441936404993e-05,
      "loss": 3.3633,
      "step": 392680
    },
    {
      "epoch": 0.8181041666666666,
      "grad_norm": 2.2200369834899902,
      "learning_rate": 2.4026089893127247e-05,
      "loss": 3.4389,
      "step": 392690
    },
    {
      "epoch": 0.818125,
      "grad_norm": 2.0863592624664307,
      "learning_rate": 2.4020738394007004e-05,
      "loss": 3.43,
      "step": 392700
    },
    {
      "epoch": 0.8181458333333333,
      "grad_norm": 1.4947564601898193,
      "learning_rate": 2.401538743906726e-05,
      "loss": 3.4456,
      "step": 392710
    },
    {
      "epoch": 0.8181666666666667,
      "grad_norm": 2.2916760444641113,
      "learning_rate": 2.401003702833115e-05,
      "loss": 3.4221,
      "step": 392720
    },
    {
      "epoch": 0.8181875,
      "grad_norm": 1.8150643110275269,
      "learning_rate": 2.4004687161821872e-05,
      "loss": 3.3383,
      "step": 392730
    },
    {
      "epoch": 0.8182083333333333,
      "grad_norm": 1.796372413635254,
      "learning_rate": 2.3999337839562456e-05,
      "loss": 3.4719,
      "step": 392740
    },
    {
      "epoch": 0.8182291666666667,
      "grad_norm": 2.0820400714874268,
      "learning_rate": 2.3993989061576013e-05,
      "loss": 3.554,
      "step": 392750
    },
    {
      "epoch": 0.81825,
      "grad_norm": 1.8725552558898926,
      "learning_rate": 2.3988640827885648e-05,
      "loss": 3.3242,
      "step": 392760
    },
    {
      "epoch": 0.8182708333333333,
      "grad_norm": 2.198896646499634,
      "learning_rate": 2.3983293138514487e-05,
      "loss": 3.3582,
      "step": 392770
    },
    {
      "epoch": 0.8182916666666666,
      "grad_norm": 1.8115754127502441,
      "learning_rate": 2.397794599348563e-05,
      "loss": 3.3975,
      "step": 392780
    },
    {
      "epoch": 0.8183125,
      "grad_norm": 1.7123136520385742,
      "learning_rate": 2.3972599392822146e-05,
      "loss": 3.4424,
      "step": 392790
    },
    {
      "epoch": 0.8183333333333334,
      "grad_norm": 1.8763631582260132,
      "learning_rate": 2.396725333654716e-05,
      "loss": 3.3102,
      "step": 392800
    },
    {
      "epoch": 0.8183541666666667,
      "grad_norm": 2.2279670238494873,
      "learning_rate": 2.396190782468374e-05,
      "loss": 3.2588,
      "step": 392810
    },
    {
      "epoch": 0.818375,
      "grad_norm": 1.794018030166626,
      "learning_rate": 2.3956562857255e-05,
      "loss": 3.3651,
      "step": 392820
    },
    {
      "epoch": 0.8183958333333333,
      "grad_norm": 2.079782724380493,
      "learning_rate": 2.395121843428401e-05,
      "loss": 3.2921,
      "step": 392830
    },
    {
      "epoch": 0.8184166666666667,
      "grad_norm": 1.994707703590393,
      "learning_rate": 2.3945874555793858e-05,
      "loss": 3.3455,
      "step": 392840
    },
    {
      "epoch": 0.8184375,
      "grad_norm": 1.829345941543579,
      "learning_rate": 2.3940531221807653e-05,
      "loss": 3.4873,
      "step": 392850
    },
    {
      "epoch": 0.8184583333333333,
      "grad_norm": 2.063204288482666,
      "learning_rate": 2.3935188432348433e-05,
      "loss": 3.4862,
      "step": 392860
    },
    {
      "epoch": 0.8184791666666666,
      "grad_norm": 2.9602108001708984,
      "learning_rate": 2.3929846187439306e-05,
      "loss": 3.5821,
      "step": 392870
    },
    {
      "epoch": 0.8185,
      "grad_norm": 1.937700867652893,
      "learning_rate": 2.3924504487103347e-05,
      "loss": 3.3781,
      "step": 392880
    },
    {
      "epoch": 0.8185208333333334,
      "grad_norm": 2.0591442584991455,
      "learning_rate": 2.391916333136362e-05,
      "loss": 3.411,
      "step": 392890
    },
    {
      "epoch": 0.8185416666666666,
      "grad_norm": 1.9231899976730347,
      "learning_rate": 2.39138227202432e-05,
      "loss": 3.3903,
      "step": 392900
    },
    {
      "epoch": 0.8185625,
      "grad_norm": 2.0224552154541016,
      "learning_rate": 2.390848265376517e-05,
      "loss": 3.4162,
      "step": 392910
    },
    {
      "epoch": 0.8185833333333333,
      "grad_norm": 1.924842357635498,
      "learning_rate": 2.3903143131952574e-05,
      "loss": 3.3513,
      "step": 392920
    },
    {
      "epoch": 0.8186041666666667,
      "grad_norm": 2.404763698577881,
      "learning_rate": 2.3897804154828486e-05,
      "loss": 3.4925,
      "step": 392930
    },
    {
      "epoch": 0.818625,
      "grad_norm": 2.176130533218384,
      "learning_rate": 2.389246572241596e-05,
      "loss": 3.5196,
      "step": 392940
    },
    {
      "epoch": 0.8186458333333333,
      "grad_norm": 2.1108407974243164,
      "learning_rate": 2.3887127834738072e-05,
      "loss": 3.4268,
      "step": 392950
    },
    {
      "epoch": 0.8186666666666667,
      "grad_norm": 2.000605583190918,
      "learning_rate": 2.3881790491817926e-05,
      "loss": 3.3115,
      "step": 392960
    },
    {
      "epoch": 0.8186875,
      "grad_norm": 2.0797901153564453,
      "learning_rate": 2.387645369367843e-05,
      "loss": 3.3795,
      "step": 392970
    },
    {
      "epoch": 0.8187083333333334,
      "grad_norm": 2.22957444190979,
      "learning_rate": 2.3871117440342775e-05,
      "loss": 3.4271,
      "step": 392980
    },
    {
      "epoch": 0.8187291666666666,
      "grad_norm": 2.158935546875,
      "learning_rate": 2.3865781731834e-05,
      "loss": 3.3965,
      "step": 392990
    },
    {
      "epoch": 0.81875,
      "grad_norm": 2.2584197521209717,
      "learning_rate": 2.3860446568175056e-05,
      "loss": 3.4573,
      "step": 393000
    },
    {
      "epoch": 0.81875,
      "eval_loss": 3.5285956859588623,
      "eval_runtime": 6.875,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.436,
      "step": 393000
    },
    {
      "epoch": 0.8187708333333333,
      "grad_norm": 1.9316601753234863,
      "learning_rate": 2.3855111949389094e-05,
      "loss": 3.4643,
      "step": 393010
    },
    {
      "epoch": 0.8187916666666667,
      "grad_norm": 2.0239553451538086,
      "learning_rate": 2.3849777875499143e-05,
      "loss": 3.3499,
      "step": 393020
    },
    {
      "epoch": 0.8188125,
      "grad_norm": 1.893977165222168,
      "learning_rate": 2.3844444346528184e-05,
      "loss": 3.3424,
      "step": 393030
    },
    {
      "epoch": 0.8188333333333333,
      "grad_norm": 1.8785532712936401,
      "learning_rate": 2.3839111362499253e-05,
      "loss": 3.4669,
      "step": 393040
    },
    {
      "epoch": 0.8188541666666667,
      "grad_norm": 2.3546900749206543,
      "learning_rate": 2.3833778923435494e-05,
      "loss": 3.466,
      "step": 393050
    },
    {
      "epoch": 0.818875,
      "grad_norm": 1.8385958671569824,
      "learning_rate": 2.3828447029359838e-05,
      "loss": 3.2579,
      "step": 393060
    },
    {
      "epoch": 0.8188958333333334,
      "grad_norm": 1.9001892805099487,
      "learning_rate": 2.38231156802953e-05,
      "loss": 3.4074,
      "step": 393070
    },
    {
      "epoch": 0.8189166666666666,
      "grad_norm": 2.2992334365844727,
      "learning_rate": 2.3817784876265034e-05,
      "loss": 3.3452,
      "step": 393080
    },
    {
      "epoch": 0.8189375,
      "grad_norm": 2.18099045753479,
      "learning_rate": 2.3812454617291964e-05,
      "loss": 3.3516,
      "step": 393090
    },
    {
      "epoch": 0.8189583333333333,
      "grad_norm": 1.9877049922943115,
      "learning_rate": 2.3807124903399144e-05,
      "loss": 3.4398,
      "step": 393100
    },
    {
      "epoch": 0.8189791666666667,
      "grad_norm": 2.1421265602111816,
      "learning_rate": 2.3801795734609584e-05,
      "loss": 3.4438,
      "step": 393110
    },
    {
      "epoch": 0.819,
      "grad_norm": 1.9526454210281372,
      "learning_rate": 2.379646711094632e-05,
      "loss": 3.4278,
      "step": 393120
    },
    {
      "epoch": 0.8190208333333333,
      "grad_norm": 1.849599003791809,
      "learning_rate": 2.379113903243235e-05,
      "loss": 3.4326,
      "step": 393130
    },
    {
      "epoch": 0.8190416666666667,
      "grad_norm": 1.8224884271621704,
      "learning_rate": 2.3785811499090717e-05,
      "loss": 3.4102,
      "step": 393140
    },
    {
      "epoch": 0.8190625,
      "grad_norm": 2.1332671642303467,
      "learning_rate": 2.3780484510944426e-05,
      "loss": 3.5234,
      "step": 393150
    },
    {
      "epoch": 0.8190833333333334,
      "grad_norm": 2.0426063537597656,
      "learning_rate": 2.377515806801647e-05,
      "loss": 3.509,
      "step": 393160
    },
    {
      "epoch": 0.8191041666666666,
      "grad_norm": 1.8949289321899414,
      "learning_rate": 2.3769832170329867e-05,
      "loss": 3.5115,
      "step": 393170
    },
    {
      "epoch": 0.819125,
      "grad_norm": 2.4190971851348877,
      "learning_rate": 2.3764506817907613e-05,
      "loss": 3.5291,
      "step": 393180
    },
    {
      "epoch": 0.8191458333333334,
      "grad_norm": 2.0034265518188477,
      "learning_rate": 2.3759182010772743e-05,
      "loss": 3.3722,
      "step": 393190
    },
    {
      "epoch": 0.8191666666666667,
      "grad_norm": 2.010937452316284,
      "learning_rate": 2.3753857748948218e-05,
      "loss": 3.425,
      "step": 393200
    },
    {
      "epoch": 0.8191875,
      "grad_norm": 1.89492928981781,
      "learning_rate": 2.3748534032457074e-05,
      "loss": 3.4889,
      "step": 393210
    },
    {
      "epoch": 0.8192083333333333,
      "grad_norm": 2.3697376251220703,
      "learning_rate": 2.3743210861322272e-05,
      "loss": 3.3879,
      "step": 393220
    },
    {
      "epoch": 0.8192291666666667,
      "grad_norm": 1.9671066999435425,
      "learning_rate": 2.3737888235566845e-05,
      "loss": 3.3979,
      "step": 393230
    },
    {
      "epoch": 0.81925,
      "grad_norm": 1.7815130949020386,
      "learning_rate": 2.373256615521374e-05,
      "loss": 3.4094,
      "step": 393240
    },
    {
      "epoch": 0.8192708333333333,
      "grad_norm": 2.4406137466430664,
      "learning_rate": 2.3727244620285974e-05,
      "loss": 3.4064,
      "step": 393250
    },
    {
      "epoch": 0.8192916666666666,
      "grad_norm": 2.02252459526062,
      "learning_rate": 2.3721923630806544e-05,
      "loss": 3.4286,
      "step": 393260
    },
    {
      "epoch": 0.8193125,
      "grad_norm": 2.2531754970550537,
      "learning_rate": 2.37166031867984e-05,
      "loss": 3.4811,
      "step": 393270
    },
    {
      "epoch": 0.8193333333333334,
      "grad_norm": 2.0423331260681152,
      "learning_rate": 2.3711283288284555e-05,
      "loss": 3.4658,
      "step": 393280
    },
    {
      "epoch": 0.8193541666666667,
      "grad_norm": 2.0515778064727783,
      "learning_rate": 2.3705963935287975e-05,
      "loss": 3.3277,
      "step": 393290
    },
    {
      "epoch": 0.819375,
      "grad_norm": 2.507962226867676,
      "learning_rate": 2.3700645127831642e-05,
      "loss": 3.3686,
      "step": 393300
    },
    {
      "epoch": 0.8193958333333333,
      "grad_norm": 1.8729392290115356,
      "learning_rate": 2.3695326865938534e-05,
      "loss": 3.4825,
      "step": 393310
    },
    {
      "epoch": 0.8194166666666667,
      "grad_norm": 1.7681363821029663,
      "learning_rate": 2.3690009149631606e-05,
      "loss": 3.3563,
      "step": 393320
    },
    {
      "epoch": 0.8194375,
      "grad_norm": 1.995119333267212,
      "learning_rate": 2.3684691978933883e-05,
      "loss": 3.386,
      "step": 393330
    },
    {
      "epoch": 0.8194583333333333,
      "grad_norm": 1.7799021005630493,
      "learning_rate": 2.367937535386827e-05,
      "loss": 3.5442,
      "step": 393340
    },
    {
      "epoch": 0.8194791666666666,
      "grad_norm": 2.0527071952819824,
      "learning_rate": 2.3674059274457708e-05,
      "loss": 3.3691,
      "step": 393350
    },
    {
      "epoch": 0.8195,
      "grad_norm": 1.9348621368408203,
      "learning_rate": 2.3668743740725264e-05,
      "loss": 3.4849,
      "step": 393360
    },
    {
      "epoch": 0.8195208333333334,
      "grad_norm": 2.29758620262146,
      "learning_rate": 2.3663428752693824e-05,
      "loss": 3.3729,
      "step": 393370
    },
    {
      "epoch": 0.8195416666666666,
      "grad_norm": 2.313037157058716,
      "learning_rate": 2.3658114310386317e-05,
      "loss": 3.6226,
      "step": 393380
    },
    {
      "epoch": 0.8195625,
      "grad_norm": 2.1397900581359863,
      "learning_rate": 2.3652800413825822e-05,
      "loss": 3.3505,
      "step": 393390
    },
    {
      "epoch": 0.8195833333333333,
      "grad_norm": 1.9549616575241089,
      "learning_rate": 2.364748706303519e-05,
      "loss": 3.5139,
      "step": 393400
    },
    {
      "epoch": 0.8196041666666667,
      "grad_norm": 2.811061143875122,
      "learning_rate": 2.3642174258037357e-05,
      "loss": 3.37,
      "step": 393410
    },
    {
      "epoch": 0.819625,
      "grad_norm": 2.1098339557647705,
      "learning_rate": 2.3636861998855394e-05,
      "loss": 3.4388,
      "step": 393420
    },
    {
      "epoch": 0.8196458333333333,
      "grad_norm": 2.225088596343994,
      "learning_rate": 2.3631550285512125e-05,
      "loss": 3.491,
      "step": 393430
    },
    {
      "epoch": 0.8196666666666667,
      "grad_norm": 1.782687783241272,
      "learning_rate": 2.3626239118030508e-05,
      "loss": 3.4064,
      "step": 393440
    },
    {
      "epoch": 0.8196875,
      "grad_norm": 1.9631059169769287,
      "learning_rate": 2.3620928496433582e-05,
      "loss": 3.4448,
      "step": 393450
    },
    {
      "epoch": 0.8197083333333334,
      "grad_norm": 1.9565602540969849,
      "learning_rate": 2.3615618420744193e-05,
      "loss": 3.475,
      "step": 393460
    },
    {
      "epoch": 0.8197291666666666,
      "grad_norm": 1.9920510053634644,
      "learning_rate": 2.3610308890985285e-05,
      "loss": 3.3646,
      "step": 393470
    },
    {
      "epoch": 0.81975,
      "grad_norm": 1.9762250185012817,
      "learning_rate": 2.3604999907179828e-05,
      "loss": 3.3309,
      "step": 393480
    },
    {
      "epoch": 0.8197708333333333,
      "grad_norm": 2.4784657955169678,
      "learning_rate": 2.359969146935075e-05,
      "loss": 3.5768,
      "step": 393490
    },
    {
      "epoch": 0.8197916666666667,
      "grad_norm": 1.9220826625823975,
      "learning_rate": 2.359438357752097e-05,
      "loss": 3.3892,
      "step": 393500
    },
    {
      "epoch": 0.8198125,
      "grad_norm": 1.9641269445419312,
      "learning_rate": 2.35890762317134e-05,
      "loss": 3.53,
      "step": 393510
    },
    {
      "epoch": 0.8198333333333333,
      "grad_norm": 1.756705641746521,
      "learning_rate": 2.3583769431951005e-05,
      "loss": 3.4075,
      "step": 393520
    },
    {
      "epoch": 0.8198541666666667,
      "grad_norm": 2.378836154937744,
      "learning_rate": 2.3578463178256668e-05,
      "loss": 3.5428,
      "step": 393530
    },
    {
      "epoch": 0.819875,
      "grad_norm": 1.9049466848373413,
      "learning_rate": 2.3573157470653355e-05,
      "loss": 3.4112,
      "step": 393540
    },
    {
      "epoch": 0.8198958333333334,
      "grad_norm": 2.45419979095459,
      "learning_rate": 2.3567852309163926e-05,
      "loss": 3.4235,
      "step": 393550
    },
    {
      "epoch": 0.8199166666666666,
      "grad_norm": 2.3590755462646484,
      "learning_rate": 2.356254769381135e-05,
      "loss": 3.5332,
      "step": 393560
    },
    {
      "epoch": 0.8199375,
      "grad_norm": 1.8831313848495483,
      "learning_rate": 2.3557243624618527e-05,
      "loss": 3.3881,
      "step": 393570
    },
    {
      "epoch": 0.8199583333333333,
      "grad_norm": 2.3939645290374756,
      "learning_rate": 2.355194010160835e-05,
      "loss": 3.4274,
      "step": 393580
    },
    {
      "epoch": 0.8199791666666667,
      "grad_norm": 1.9682512283325195,
      "learning_rate": 2.3546637124803742e-05,
      "loss": 3.4985,
      "step": 393590
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.96496319770813,
      "learning_rate": 2.3541334694227608e-05,
      "loss": 3.4384,
      "step": 393600
    },
    {
      "epoch": 0.8200208333333333,
      "grad_norm": 2.127035617828369,
      "learning_rate": 2.3536032809902855e-05,
      "loss": 3.3995,
      "step": 393610
    },
    {
      "epoch": 0.8200416666666667,
      "grad_norm": 2.010374069213867,
      "learning_rate": 2.353073147185241e-05,
      "loss": 3.4118,
      "step": 393620
    },
    {
      "epoch": 0.8200625,
      "grad_norm": 1.821294903755188,
      "learning_rate": 2.3525430680099073e-05,
      "loss": 3.4073,
      "step": 393630
    },
    {
      "epoch": 0.8200833333333334,
      "grad_norm": 1.8826857805252075,
      "learning_rate": 2.3520130434665857e-05,
      "loss": 3.4982,
      "step": 393640
    },
    {
      "epoch": 0.8201041666666666,
      "grad_norm": 2.1203207969665527,
      "learning_rate": 2.3514830735575645e-05,
      "loss": 3.5411,
      "step": 393650
    },
    {
      "epoch": 0.820125,
      "grad_norm": 1.6194276809692383,
      "learning_rate": 2.350953158285124e-05,
      "loss": 3.5478,
      "step": 393660
    },
    {
      "epoch": 0.8201458333333334,
      "grad_norm": 1.8443390130996704,
      "learning_rate": 2.3504232976515613e-05,
      "loss": 3.3017,
      "step": 393670
    },
    {
      "epoch": 0.8201666666666667,
      "grad_norm": 1.8121198415756226,
      "learning_rate": 2.3498934916591655e-05,
      "loss": 3.395,
      "step": 393680
    },
    {
      "epoch": 0.8201875,
      "grad_norm": 2.097174644470215,
      "learning_rate": 2.349363740310218e-05,
      "loss": 3.6677,
      "step": 393690
    },
    {
      "epoch": 0.8202083333333333,
      "grad_norm": 2.2303860187530518,
      "learning_rate": 2.3488340436070162e-05,
      "loss": 3.472,
      "step": 393700
    },
    {
      "epoch": 0.8202291666666667,
      "grad_norm": 2.958967685699463,
      "learning_rate": 2.3483044015518408e-05,
      "loss": 3.4597,
      "step": 393710
    },
    {
      "epoch": 0.82025,
      "grad_norm": 1.965384840965271,
      "learning_rate": 2.3477748141469798e-05,
      "loss": 3.3854,
      "step": 393720
    },
    {
      "epoch": 0.8202708333333333,
      "grad_norm": 1.8071584701538086,
      "learning_rate": 2.3472452813947296e-05,
      "loss": 3.4149,
      "step": 393730
    },
    {
      "epoch": 0.8202916666666666,
      "grad_norm": 2.0584871768951416,
      "learning_rate": 2.3467158032973698e-05,
      "loss": 3.343,
      "step": 393740
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 2.2293310165405273,
      "learning_rate": 2.346186379857184e-05,
      "loss": 3.3622,
      "step": 393750
    },
    {
      "epoch": 0.8203333333333334,
      "grad_norm": 1.9577726125717163,
      "learning_rate": 2.3456570110764716e-05,
      "loss": 3.3893,
      "step": 393760
    },
    {
      "epoch": 0.8203541666666667,
      "grad_norm": 1.9231585264205933,
      "learning_rate": 2.345127696957508e-05,
      "loss": 3.344,
      "step": 393770
    },
    {
      "epoch": 0.820375,
      "grad_norm": 1.819684624671936,
      "learning_rate": 2.3445984375025804e-05,
      "loss": 3.4199,
      "step": 393780
    },
    {
      "epoch": 0.8203958333333333,
      "grad_norm": 2.0891153812408447,
      "learning_rate": 2.3440692327139864e-05,
      "loss": 3.4469,
      "step": 393790
    },
    {
      "epoch": 0.8204166666666667,
      "grad_norm": 1.7639639377593994,
      "learning_rate": 2.3435400825939986e-05,
      "loss": 3.3491,
      "step": 393800
    },
    {
      "epoch": 0.8204375,
      "grad_norm": 1.9655156135559082,
      "learning_rate": 2.3430109871449054e-05,
      "loss": 3.4149,
      "step": 393810
    },
    {
      "epoch": 0.8204583333333333,
      "grad_norm": 2.2761359214782715,
      "learning_rate": 2.3424819463690015e-05,
      "loss": 3.3566,
      "step": 393820
    },
    {
      "epoch": 0.8204791666666666,
      "grad_norm": 1.8180208206176758,
      "learning_rate": 2.3419529602685617e-05,
      "loss": 3.5208,
      "step": 393830
    },
    {
      "epoch": 0.8205,
      "grad_norm": 2.1728122234344482,
      "learning_rate": 2.3414240288458757e-05,
      "loss": 3.344,
      "step": 393840
    },
    {
      "epoch": 0.8205208333333334,
      "grad_norm": 2.3298277854919434,
      "learning_rate": 2.3408951521032255e-05,
      "loss": 3.4648,
      "step": 393850
    },
    {
      "epoch": 0.8205416666666666,
      "grad_norm": 2.1030609607696533,
      "learning_rate": 2.3403663300428986e-05,
      "loss": 3.3216,
      "step": 393860
    },
    {
      "epoch": 0.8205625,
      "grad_norm": 2.3102879524230957,
      "learning_rate": 2.339837562667179e-05,
      "loss": 3.5643,
      "step": 393870
    },
    {
      "epoch": 0.8205833333333333,
      "grad_norm": 2.612245798110962,
      "learning_rate": 2.3393088499783475e-05,
      "loss": 3.3947,
      "step": 393880
    },
    {
      "epoch": 0.8206041666666667,
      "grad_norm": 1.8683991432189941,
      "learning_rate": 2.3387801919786924e-05,
      "loss": 3.5328,
      "step": 393890
    },
    {
      "epoch": 0.820625,
      "grad_norm": 1.657457709312439,
      "learning_rate": 2.3382515886704938e-05,
      "loss": 3.3626,
      "step": 393900
    },
    {
      "epoch": 0.8206458333333333,
      "grad_norm": 2.2487242221832275,
      "learning_rate": 2.3377230400560365e-05,
      "loss": 3.3903,
      "step": 393910
    },
    {
      "epoch": 0.8206666666666667,
      "grad_norm": 2.0525145530700684,
      "learning_rate": 2.337194546137605e-05,
      "loss": 3.6045,
      "step": 393920
    },
    {
      "epoch": 0.8206875,
      "grad_norm": 1.753678321838379,
      "learning_rate": 2.3366661069174797e-05,
      "loss": 3.3182,
      "step": 393930
    },
    {
      "epoch": 0.8207083333333334,
      "grad_norm": 1.9670169353485107,
      "learning_rate": 2.336137722397945e-05,
      "loss": 3.3725,
      "step": 393940
    },
    {
      "epoch": 0.8207291666666666,
      "grad_norm": 1.8339322805404663,
      "learning_rate": 2.3356093925812824e-05,
      "loss": 3.4186,
      "step": 393950
    },
    {
      "epoch": 0.82075,
      "grad_norm": 2.117846727371216,
      "learning_rate": 2.335081117469777e-05,
      "loss": 3.4449,
      "step": 393960
    },
    {
      "epoch": 0.8207708333333333,
      "grad_norm": 2.14552640914917,
      "learning_rate": 2.3345528970657018e-05,
      "loss": 3.351,
      "step": 393970
    },
    {
      "epoch": 0.8207916666666667,
      "grad_norm": 1.799019694328308,
      "learning_rate": 2.3340247313713484e-05,
      "loss": 3.347,
      "step": 393980
    },
    {
      "epoch": 0.8208125,
      "grad_norm": 1.7708752155303955,
      "learning_rate": 2.333496620388998e-05,
      "loss": 3.4044,
      "step": 393990
    },
    {
      "epoch": 0.8208333333333333,
      "grad_norm": 1.9403966665267944,
      "learning_rate": 2.332968564120921e-05,
      "loss": 3.6216,
      "step": 394000
    },
    {
      "epoch": 0.8208333333333333,
      "eval_loss": 3.5250377655029297,
      "eval_runtime": 7.3039,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 394000
    },
    {
      "epoch": 0.8208541666666667,
      "grad_norm": 2.0580098628997803,
      "learning_rate": 2.3324405625694087e-05,
      "loss": 3.4391,
      "step": 394010
    },
    {
      "epoch": 0.820875,
      "grad_norm": 1.9434001445770264,
      "learning_rate": 2.3319126157367442e-05,
      "loss": 3.4562,
      "step": 394020
    },
    {
      "epoch": 0.8208958333333334,
      "grad_norm": 2.2883105278015137,
      "learning_rate": 2.3313847236251955e-05,
      "loss": 3.4733,
      "step": 394030
    },
    {
      "epoch": 0.8209166666666666,
      "grad_norm": 2.539217710494995,
      "learning_rate": 2.3308568862370523e-05,
      "loss": 3.3061,
      "step": 394040
    },
    {
      "epoch": 0.8209375,
      "grad_norm": 2.1399712562561035,
      "learning_rate": 2.330329103574597e-05,
      "loss": 3.3877,
      "step": 394050
    },
    {
      "epoch": 0.8209583333333333,
      "grad_norm": 1.7875454425811768,
      "learning_rate": 2.3298013756400986e-05,
      "loss": 3.2581,
      "step": 394060
    },
    {
      "epoch": 0.8209791666666667,
      "grad_norm": 1.9042036533355713,
      "learning_rate": 2.3292737024358454e-05,
      "loss": 3.4292,
      "step": 394070
    },
    {
      "epoch": 0.821,
      "grad_norm": 2.0608506202697754,
      "learning_rate": 2.3287460839641193e-05,
      "loss": 3.4409,
      "step": 394080
    },
    {
      "epoch": 0.8210208333333333,
      "grad_norm": 2.1696295738220215,
      "learning_rate": 2.3282185202271862e-05,
      "loss": 3.5538,
      "step": 394090
    },
    {
      "epoch": 0.8210416666666667,
      "grad_norm": 2.023390769958496,
      "learning_rate": 2.32769101122734e-05,
      "loss": 3.3958,
      "step": 394100
    },
    {
      "epoch": 0.8210625,
      "grad_norm": 2.051772117614746,
      "learning_rate": 2.32716355696685e-05,
      "loss": 3.4832,
      "step": 394110
    },
    {
      "epoch": 0.8210833333333334,
      "grad_norm": 1.928792119026184,
      "learning_rate": 2.3266361574479932e-05,
      "loss": 3.4679,
      "step": 394120
    },
    {
      "epoch": 0.8211041666666666,
      "grad_norm": 1.7658302783966064,
      "learning_rate": 2.3261088126730603e-05,
      "loss": 3.4333,
      "step": 394130
    },
    {
      "epoch": 0.821125,
      "grad_norm": 1.8518563508987427,
      "learning_rate": 2.325581522644315e-05,
      "loss": 3.4637,
      "step": 394140
    },
    {
      "epoch": 0.8211458333333334,
      "grad_norm": 1.8989214897155762,
      "learning_rate": 2.3250542873640375e-05,
      "loss": 3.462,
      "step": 394150
    },
    {
      "epoch": 0.8211666666666667,
      "grad_norm": 2.0581552982330322,
      "learning_rate": 2.3245271068345157e-05,
      "loss": 3.3611,
      "step": 394160
    },
    {
      "epoch": 0.8211875,
      "grad_norm": 2.17964768409729,
      "learning_rate": 2.3239999810580175e-05,
      "loss": 3.5282,
      "step": 394170
    },
    {
      "epoch": 0.8212083333333333,
      "grad_norm": 2.6750144958496094,
      "learning_rate": 2.3234729100368162e-05,
      "loss": 3.5217,
      "step": 394180
    },
    {
      "epoch": 0.8212291666666667,
      "grad_norm": 1.7501850128173828,
      "learning_rate": 2.3229458937732016e-05,
      "loss": 3.311,
      "step": 394190
    },
    {
      "epoch": 0.82125,
      "grad_norm": 2.2075393199920654,
      "learning_rate": 2.3224189322694403e-05,
      "loss": 3.3491,
      "step": 394200
    },
    {
      "epoch": 0.8212708333333333,
      "grad_norm": 2.193645477294922,
      "learning_rate": 2.3218920255278106e-05,
      "loss": 3.6659,
      "step": 394210
    },
    {
      "epoch": 0.8212916666666666,
      "grad_norm": 1.9609687328338623,
      "learning_rate": 2.3213651735505888e-05,
      "loss": 3.4516,
      "step": 394220
    },
    {
      "epoch": 0.8213125,
      "grad_norm": 1.8664475679397583,
      "learning_rate": 2.320838376340052e-05,
      "loss": 3.3601,
      "step": 394230
    },
    {
      "epoch": 0.8213333333333334,
      "grad_norm": 2.3923826217651367,
      "learning_rate": 2.3203116338984722e-05,
      "loss": 3.4712,
      "step": 394240
    },
    {
      "epoch": 0.8213541666666667,
      "grad_norm": 1.9050968885421753,
      "learning_rate": 2.3197849462281286e-05,
      "loss": 3.3285,
      "step": 394250
    },
    {
      "epoch": 0.821375,
      "grad_norm": 2.5547099113464355,
      "learning_rate": 2.319258313331296e-05,
      "loss": 3.4833,
      "step": 394260
    },
    {
      "epoch": 0.8213958333333333,
      "grad_norm": 2.297086477279663,
      "learning_rate": 2.318731735210247e-05,
      "loss": 3.368,
      "step": 394270
    },
    {
      "epoch": 0.8214166666666667,
      "grad_norm": 1.74357008934021,
      "learning_rate": 2.3182052118672567e-05,
      "loss": 3.3297,
      "step": 394280
    },
    {
      "epoch": 0.8214375,
      "grad_norm": 1.9398906230926514,
      "learning_rate": 2.3176787433046e-05,
      "loss": 3.4174,
      "step": 394290
    },
    {
      "epoch": 0.8214583333333333,
      "grad_norm": 1.8835835456848145,
      "learning_rate": 2.317152329524552e-05,
      "loss": 3.3774,
      "step": 394300
    },
    {
      "epoch": 0.8214791666666666,
      "grad_norm": 2.151890754699707,
      "learning_rate": 2.3166259705293855e-05,
      "loss": 3.5915,
      "step": 394310
    },
    {
      "epoch": 0.8215,
      "grad_norm": 2.271514654159546,
      "learning_rate": 2.3160996663213753e-05,
      "loss": 3.496,
      "step": 394320
    },
    {
      "epoch": 0.8215208333333334,
      "grad_norm": 1.779453992843628,
      "learning_rate": 2.3155734169027968e-05,
      "loss": 3.3502,
      "step": 394330
    },
    {
      "epoch": 0.8215416666666666,
      "grad_norm": 2.065255880355835,
      "learning_rate": 2.3150472222759126e-05,
      "loss": 3.4131,
      "step": 394340
    },
    {
      "epoch": 0.8215625,
      "grad_norm": 2.1148269176483154,
      "learning_rate": 2.314521082443006e-05,
      "loss": 3.569,
      "step": 394350
    },
    {
      "epoch": 0.8215833333333333,
      "grad_norm": 2.694995164871216,
      "learning_rate": 2.313994997406352e-05,
      "loss": 3.2304,
      "step": 394360
    },
    {
      "epoch": 0.8216041666666667,
      "grad_norm": 1.9034181833267212,
      "learning_rate": 2.313468967168212e-05,
      "loss": 3.4277,
      "step": 394370
    },
    {
      "epoch": 0.821625,
      "grad_norm": 2.3691811561584473,
      "learning_rate": 2.312942991730866e-05,
      "loss": 3.4969,
      "step": 394380
    },
    {
      "epoch": 0.8216458333333333,
      "grad_norm": 2.1257331371307373,
      "learning_rate": 2.312417071096589e-05,
      "loss": 3.3856,
      "step": 394390
    },
    {
      "epoch": 0.8216666666666667,
      "grad_norm": 2.536076307296753,
      "learning_rate": 2.3118912052676402e-05,
      "loss": 3.4452,
      "step": 394400
    },
    {
      "epoch": 0.8216875,
      "grad_norm": 2.0557050704956055,
      "learning_rate": 2.3113653942463033e-05,
      "loss": 3.2642,
      "step": 394410
    },
    {
      "epoch": 0.8217083333333334,
      "grad_norm": 1.9900622367858887,
      "learning_rate": 2.31083963803485e-05,
      "loss": 3.5197,
      "step": 394420
    },
    {
      "epoch": 0.8217291666666666,
      "grad_norm": 2.2066023349761963,
      "learning_rate": 2.310313936635538e-05,
      "loss": 3.3982,
      "step": 394430
    },
    {
      "epoch": 0.82175,
      "grad_norm": 2.0096757411956787,
      "learning_rate": 2.3097882900506505e-05,
      "loss": 3.418,
      "step": 394440
    },
    {
      "epoch": 0.8217708333333333,
      "grad_norm": 1.9740078449249268,
      "learning_rate": 2.309262698282459e-05,
      "loss": 3.3778,
      "step": 394450
    },
    {
      "epoch": 0.8217916666666667,
      "grad_norm": 1.9174391031265259,
      "learning_rate": 2.3087371613332223e-05,
      "loss": 3.3782,
      "step": 394460
    },
    {
      "epoch": 0.8218125,
      "grad_norm": 1.742156982421875,
      "learning_rate": 2.308211679205223e-05,
      "loss": 3.4056,
      "step": 394470
    },
    {
      "epoch": 0.8218333333333333,
      "grad_norm": 1.8688695430755615,
      "learning_rate": 2.3076862519007226e-05,
      "loss": 3.3228,
      "step": 394480
    },
    {
      "epoch": 0.8218541666666667,
      "grad_norm": 2.108752965927124,
      "learning_rate": 2.3071608794219914e-05,
      "loss": 3.3356,
      "step": 394490
    },
    {
      "epoch": 0.821875,
      "grad_norm": 1.824588418006897,
      "learning_rate": 2.306635561771307e-05,
      "loss": 3.3683,
      "step": 394500
    },
    {
      "epoch": 0.8218958333333334,
      "grad_norm": 1.8184173107147217,
      "learning_rate": 2.3061102989509284e-05,
      "loss": 3.5273,
      "step": 394510
    },
    {
      "epoch": 0.8219166666666666,
      "grad_norm": 1.9295635223388672,
      "learning_rate": 2.3055850909631295e-05,
      "loss": 3.5543,
      "step": 394520
    },
    {
      "epoch": 0.8219375,
      "grad_norm": 1.7942097187042236,
      "learning_rate": 2.3050599378101792e-05,
      "loss": 3.4312,
      "step": 394530
    },
    {
      "epoch": 0.8219583333333333,
      "grad_norm": 2.398414134979248,
      "learning_rate": 2.3045348394943436e-05,
      "loss": 3.3104,
      "step": 394540
    },
    {
      "epoch": 0.8219791666666667,
      "grad_norm": 2.816167116165161,
      "learning_rate": 2.3040097960178926e-05,
      "loss": 3.3901,
      "step": 394550
    },
    {
      "epoch": 0.822,
      "grad_norm": 1.9456535577774048,
      "learning_rate": 2.3034848073830932e-05,
      "loss": 3.4576,
      "step": 394560
    },
    {
      "epoch": 0.8220208333333333,
      "grad_norm": 1.9732650518417358,
      "learning_rate": 2.3029598735922145e-05,
      "loss": 3.5317,
      "step": 394570
    },
    {
      "epoch": 0.8220416666666667,
      "grad_norm": 2.057234287261963,
      "learning_rate": 2.3024349946475235e-05,
      "loss": 3.3865,
      "step": 394580
    },
    {
      "epoch": 0.8220625,
      "grad_norm": 1.963901162147522,
      "learning_rate": 2.3019101705512882e-05,
      "loss": 3.4744,
      "step": 394590
    },
    {
      "epoch": 0.8220833333333334,
      "grad_norm": 2.306854009628296,
      "learning_rate": 2.3013854013057735e-05,
      "loss": 3.4137,
      "step": 394600
    },
    {
      "epoch": 0.8221041666666666,
      "grad_norm": 1.792702555656433,
      "learning_rate": 2.3008606869132462e-05,
      "loss": 3.3699,
      "step": 394610
    },
    {
      "epoch": 0.822125,
      "grad_norm": 2.090334892272949,
      "learning_rate": 2.300336027375976e-05,
      "loss": 3.3477,
      "step": 394620
    },
    {
      "epoch": 0.8221458333333334,
      "grad_norm": 2.032245635986328,
      "learning_rate": 2.2998114226962272e-05,
      "loss": 3.447,
      "step": 394630
    },
    {
      "epoch": 0.8221666666666667,
      "grad_norm": 1.9007128477096558,
      "learning_rate": 2.2992868728762652e-05,
      "loss": 3.4718,
      "step": 394640
    },
    {
      "epoch": 0.8221875,
      "grad_norm": 2.1875314712524414,
      "learning_rate": 2.2987623779183568e-05,
      "loss": 3.398,
      "step": 394650
    },
    {
      "epoch": 0.8222083333333333,
      "grad_norm": 2.2965078353881836,
      "learning_rate": 2.298237937824768e-05,
      "loss": 3.5173,
      "step": 394660
    },
    {
      "epoch": 0.8222291666666667,
      "grad_norm": 1.9365506172180176,
      "learning_rate": 2.297713552597762e-05,
      "loss": 3.4952,
      "step": 394670
    },
    {
      "epoch": 0.82225,
      "grad_norm": 1.8218852281570435,
      "learning_rate": 2.297189222239607e-05,
      "loss": 3.6398,
      "step": 394680
    },
    {
      "epoch": 0.8222708333333333,
      "grad_norm": 2.7360880374908447,
      "learning_rate": 2.2966649467525665e-05,
      "loss": 3.3229,
      "step": 394690
    },
    {
      "epoch": 0.8222916666666666,
      "grad_norm": 2.0693674087524414,
      "learning_rate": 2.296140726138907e-05,
      "loss": 3.5647,
      "step": 394700
    },
    {
      "epoch": 0.8223125,
      "grad_norm": 2.0407793521881104,
      "learning_rate": 2.2956165604008864e-05,
      "loss": 3.4357,
      "step": 394710
    },
    {
      "epoch": 0.8223333333333334,
      "grad_norm": 2.13499116897583,
      "learning_rate": 2.2950924495407748e-05,
      "loss": 3.3814,
      "step": 394720
    },
    {
      "epoch": 0.8223541666666667,
      "grad_norm": 2.2601680755615234,
      "learning_rate": 2.29456839356084e-05,
      "loss": 3.4926,
      "step": 394730
    },
    {
      "epoch": 0.822375,
      "grad_norm": 1.9014922380447388,
      "learning_rate": 2.2940443924633324e-05,
      "loss": 3.3783,
      "step": 394740
    },
    {
      "epoch": 0.8223958333333333,
      "grad_norm": 2.012786388397217,
      "learning_rate": 2.293520446250528e-05,
      "loss": 3.3905,
      "step": 394750
    },
    {
      "epoch": 0.8224166666666667,
      "grad_norm": 2.499326229095459,
      "learning_rate": 2.2929965549246887e-05,
      "loss": 3.4882,
      "step": 394760
    },
    {
      "epoch": 0.8224375,
      "grad_norm": 2.0852696895599365,
      "learning_rate": 2.2924727184880677e-05,
      "loss": 3.4499,
      "step": 394770
    },
    {
      "epoch": 0.8224583333333333,
      "grad_norm": 2.2307443618774414,
      "learning_rate": 2.2919489369429377e-05,
      "loss": 3.4515,
      "step": 394780
    },
    {
      "epoch": 0.8224791666666667,
      "grad_norm": 2.469326972961426,
      "learning_rate": 2.2914252102915625e-05,
      "loss": 3.3796,
      "step": 394790
    },
    {
      "epoch": 0.8225,
      "grad_norm": 1.9781372547149658,
      "learning_rate": 2.290901538536195e-05,
      "loss": 3.4166,
      "step": 394800
    },
    {
      "epoch": 0.8225208333333334,
      "grad_norm": 1.8736857175827026,
      "learning_rate": 2.2903779216791e-05,
      "loss": 3.3774,
      "step": 394810
    },
    {
      "epoch": 0.8225416666666666,
      "grad_norm": 2.2808380126953125,
      "learning_rate": 2.2898543597225494e-05,
      "loss": 3.4595,
      "step": 394820
    },
    {
      "epoch": 0.8225625,
      "grad_norm": 1.8498789072036743,
      "learning_rate": 2.289330852668791e-05,
      "loss": 3.4691,
      "step": 394830
    },
    {
      "epoch": 0.8225833333333333,
      "grad_norm": 2.3950724601745605,
      "learning_rate": 2.2888074005200946e-05,
      "loss": 3.4734,
      "step": 394840
    },
    {
      "epoch": 0.8226041666666667,
      "grad_norm": 2.0791311264038086,
      "learning_rate": 2.2882840032787168e-05,
      "loss": 3.3982,
      "step": 394850
    },
    {
      "epoch": 0.822625,
      "grad_norm": 2.254659652709961,
      "learning_rate": 2.2877606609469214e-05,
      "loss": 3.4244,
      "step": 394860
    },
    {
      "epoch": 0.8226458333333333,
      "grad_norm": 1.9878993034362793,
      "learning_rate": 2.287237373526967e-05,
      "loss": 3.4141,
      "step": 394870
    },
    {
      "epoch": 0.8226666666666667,
      "grad_norm": 2.0703885555267334,
      "learning_rate": 2.2867141410211164e-05,
      "loss": 3.5177,
      "step": 394880
    },
    {
      "epoch": 0.8226875,
      "grad_norm": 2.0579452514648438,
      "learning_rate": 2.286190963431629e-05,
      "loss": 3.4261,
      "step": 394890
    },
    {
      "epoch": 0.8227083333333334,
      "grad_norm": 2.3919804096221924,
      "learning_rate": 2.2856678407607627e-05,
      "loss": 3.4412,
      "step": 394900
    },
    {
      "epoch": 0.8227291666666666,
      "grad_norm": 2.351919412612915,
      "learning_rate": 2.2851447730107792e-05,
      "loss": 3.5816,
      "step": 394910
    },
    {
      "epoch": 0.82275,
      "grad_norm": 2.091221332550049,
      "learning_rate": 2.2846217601839367e-05,
      "loss": 3.5293,
      "step": 394920
    },
    {
      "epoch": 0.8227708333333333,
      "grad_norm": 2.2562503814697266,
      "learning_rate": 2.2840988022824967e-05,
      "loss": 3.5074,
      "step": 394930
    },
    {
      "epoch": 0.8227916666666667,
      "grad_norm": 1.9085947275161743,
      "learning_rate": 2.2835758993087144e-05,
      "loss": 3.3346,
      "step": 394940
    },
    {
      "epoch": 0.8228125,
      "grad_norm": 2.0622129440307617,
      "learning_rate": 2.2830530512648527e-05,
      "loss": 3.4179,
      "step": 394950
    },
    {
      "epoch": 0.8228333333333333,
      "grad_norm": 2.748666763305664,
      "learning_rate": 2.2825302581531678e-05,
      "loss": 3.5381,
      "step": 394960
    },
    {
      "epoch": 0.8228541666666667,
      "grad_norm": 2.4041693210601807,
      "learning_rate": 2.2820075199759168e-05,
      "loss": 3.5125,
      "step": 394970
    },
    {
      "epoch": 0.822875,
      "grad_norm": 2.410935878753662,
      "learning_rate": 2.281484836735361e-05,
      "loss": 3.4894,
      "step": 394980
    },
    {
      "epoch": 0.8228958333333334,
      "grad_norm": 2.4079391956329346,
      "learning_rate": 2.2809622084337552e-05,
      "loss": 3.4323,
      "step": 394990
    },
    {
      "epoch": 0.8229166666666666,
      "grad_norm": 2.321211814880371,
      "learning_rate": 2.280439635073358e-05,
      "loss": 3.3743,
      "step": 395000
    },
    {
      "epoch": 0.8229166666666666,
      "eval_loss": 3.5279624462127686,
      "eval_runtime": 6.8853,
      "eval_samples_per_second": 1.452,
      "eval_steps_per_second": 0.436,
      "step": 395000
    },
    {
      "epoch": 0.8229375,
      "grad_norm": 1.7263867855072021,
      "learning_rate": 2.2799171166564283e-05,
      "loss": 3.4568,
      "step": 395010
    },
    {
      "epoch": 0.8229583333333333,
      "grad_norm": 1.657558798789978,
      "learning_rate": 2.2793946531852202e-05,
      "loss": 3.3858,
      "step": 395020
    },
    {
      "epoch": 0.8229791666666667,
      "grad_norm": 2.1235005855560303,
      "learning_rate": 2.278872244661992e-05,
      "loss": 3.3941,
      "step": 395030
    },
    {
      "epoch": 0.823,
      "grad_norm": 2.179394483566284,
      "learning_rate": 2.2783498910890006e-05,
      "loss": 3.4514,
      "step": 395040
    },
    {
      "epoch": 0.8230208333333333,
      "grad_norm": 1.8106439113616943,
      "learning_rate": 2.2778275924685025e-05,
      "loss": 3.4739,
      "step": 395050
    },
    {
      "epoch": 0.8230416666666667,
      "grad_norm": 2.1803672313690186,
      "learning_rate": 2.277305348802753e-05,
      "loss": 3.5209,
      "step": 395060
    },
    {
      "epoch": 0.8230625,
      "grad_norm": 1.8715609312057495,
      "learning_rate": 2.276783160094013e-05,
      "loss": 3.4244,
      "step": 395070
    },
    {
      "epoch": 0.8230833333333333,
      "grad_norm": 2.419323444366455,
      "learning_rate": 2.2762610263445246e-05,
      "loss": 3.4827,
      "step": 395080
    },
    {
      "epoch": 0.8231041666666666,
      "grad_norm": 2.1513683795928955,
      "learning_rate": 2.2757389475565567e-05,
      "loss": 3.4297,
      "step": 395090
    },
    {
      "epoch": 0.823125,
      "grad_norm": 1.8425973653793335,
      "learning_rate": 2.2752169237323643e-05,
      "loss": 3.4287,
      "step": 395100
    },
    {
      "epoch": 0.8231458333333334,
      "grad_norm": 1.9577395915985107,
      "learning_rate": 2.2746949548741934e-05,
      "loss": 3.3643,
      "step": 395110
    },
    {
      "epoch": 0.8231666666666667,
      "grad_norm": 1.9469596147537231,
      "learning_rate": 2.2741730409843005e-05,
      "loss": 3.5025,
      "step": 395120
    },
    {
      "epoch": 0.8231875,
      "grad_norm": 2.1343770027160645,
      "learning_rate": 2.2736511820649496e-05,
      "loss": 3.3903,
      "step": 395130
    },
    {
      "epoch": 0.8232083333333333,
      "grad_norm": 1.9474605321884155,
      "learning_rate": 2.2731293781183845e-05,
      "loss": 3.352,
      "step": 395140
    },
    {
      "epoch": 0.8232291666666667,
      "grad_norm": 1.9496275186538696,
      "learning_rate": 2.272607629146859e-05,
      "loss": 3.4712,
      "step": 395150
    },
    {
      "epoch": 0.82325,
      "grad_norm": 1.8235104084014893,
      "learning_rate": 2.2720859351526384e-05,
      "loss": 3.4318,
      "step": 395160
    },
    {
      "epoch": 0.8232708333333333,
      "grad_norm": 2.0770511627197266,
      "learning_rate": 2.2715642961379632e-05,
      "loss": 3.3484,
      "step": 395170
    },
    {
      "epoch": 0.8232916666666666,
      "grad_norm": 2.3978023529052734,
      "learning_rate": 2.2710427121050907e-05,
      "loss": 3.3583,
      "step": 395180
    },
    {
      "epoch": 0.8233125,
      "grad_norm": 2.5912461280822754,
      "learning_rate": 2.2705211830562802e-05,
      "loss": 3.4442,
      "step": 395190
    },
    {
      "epoch": 0.8233333333333334,
      "grad_norm": 2.226411819458008,
      "learning_rate": 2.2699997089937787e-05,
      "loss": 3.5226,
      "step": 395200
    },
    {
      "epoch": 0.8233541666666667,
      "grad_norm": 2.339506149291992,
      "learning_rate": 2.269478289919838e-05,
      "loss": 3.3969,
      "step": 395210
    },
    {
      "epoch": 0.823375,
      "grad_norm": 1.6705607175827026,
      "learning_rate": 2.2689569258367118e-05,
      "loss": 3.4192,
      "step": 395220
    },
    {
      "epoch": 0.8233958333333333,
      "grad_norm": 1.8931965827941895,
      "learning_rate": 2.2684356167466527e-05,
      "loss": 3.3106,
      "step": 395230
    },
    {
      "epoch": 0.8234166666666667,
      "grad_norm": 1.97899329662323,
      "learning_rate": 2.267914362651912e-05,
      "loss": 3.4105,
      "step": 395240
    },
    {
      "epoch": 0.8234375,
      "grad_norm": 2.0111799240112305,
      "learning_rate": 2.267393163554741e-05,
      "loss": 3.4767,
      "step": 395250
    },
    {
      "epoch": 0.8234583333333333,
      "grad_norm": 1.9407662153244019,
      "learning_rate": 2.266872019457393e-05,
      "loss": 3.4577,
      "step": 395260
    },
    {
      "epoch": 0.8234791666666667,
      "grad_norm": 2.1256470680236816,
      "learning_rate": 2.2663509303621164e-05,
      "loss": 3.3149,
      "step": 395270
    },
    {
      "epoch": 0.8235,
      "grad_norm": 1.84800386428833,
      "learning_rate": 2.265829896271164e-05,
      "loss": 3.4817,
      "step": 395280
    },
    {
      "epoch": 0.8235208333333334,
      "grad_norm": 2.108691692352295,
      "learning_rate": 2.2653089171867862e-05,
      "loss": 3.3668,
      "step": 395290
    },
    {
      "epoch": 0.8235416666666666,
      "grad_norm": 2.196791172027588,
      "learning_rate": 2.2647879931112324e-05,
      "loss": 3.5163,
      "step": 395300
    },
    {
      "epoch": 0.8235625,
      "grad_norm": 2.045875072479248,
      "learning_rate": 2.264267124046754e-05,
      "loss": 3.5043,
      "step": 395310
    },
    {
      "epoch": 0.8235833333333333,
      "grad_norm": 1.9752328395843506,
      "learning_rate": 2.2637463099956017e-05,
      "loss": 3.3739,
      "step": 395320
    },
    {
      "epoch": 0.8236041666666667,
      "grad_norm": 2.012289524078369,
      "learning_rate": 2.263225550960023e-05,
      "loss": 3.3732,
      "step": 395330
    },
    {
      "epoch": 0.823625,
      "grad_norm": 2.5007565021514893,
      "learning_rate": 2.2627048469422678e-05,
      "loss": 3.4244,
      "step": 395340
    },
    {
      "epoch": 0.8236458333333333,
      "grad_norm": 2.3223462104797363,
      "learning_rate": 2.262184197944586e-05,
      "loss": 3.4952,
      "step": 395350
    },
    {
      "epoch": 0.8236666666666667,
      "grad_norm": 2.2153100967407227,
      "learning_rate": 2.261663603969226e-05,
      "loss": 3.4006,
      "step": 395360
    },
    {
      "epoch": 0.8236875,
      "grad_norm": 2.0473687648773193,
      "learning_rate": 2.261143065018439e-05,
      "loss": 3.5405,
      "step": 395370
    },
    {
      "epoch": 0.8237083333333334,
      "grad_norm": 2.702500581741333,
      "learning_rate": 2.2606225810944704e-05,
      "loss": 3.4129,
      "step": 395380
    },
    {
      "epoch": 0.8237291666666666,
      "grad_norm": 2.0873661041259766,
      "learning_rate": 2.2601021521995733e-05,
      "loss": 3.4833,
      "step": 395390
    },
    {
      "epoch": 0.82375,
      "grad_norm": 2.760524034500122,
      "learning_rate": 2.259581778335984e-05,
      "loss": 3.5647,
      "step": 395400
    },
    {
      "epoch": 0.8237708333333333,
      "grad_norm": 2.4977493286132812,
      "learning_rate": 2.2590614595059638e-05,
      "loss": 3.4175,
      "step": 395410
    },
    {
      "epoch": 0.8237916666666667,
      "grad_norm": 1.8440674543380737,
      "learning_rate": 2.258541195711756e-05,
      "loss": 3.45,
      "step": 395420
    },
    {
      "epoch": 0.8238125,
      "grad_norm": 2.375063180923462,
      "learning_rate": 2.2580209869556027e-05,
      "loss": 3.5402,
      "step": 395430
    },
    {
      "epoch": 0.8238333333333333,
      "grad_norm": 1.949733018875122,
      "learning_rate": 2.2575008332397563e-05,
      "loss": 3.3929,
      "step": 395440
    },
    {
      "epoch": 0.8238541666666667,
      "grad_norm": 1.9331462383270264,
      "learning_rate": 2.2569807345664677e-05,
      "loss": 3.4519,
      "step": 395450
    },
    {
      "epoch": 0.823875,
      "grad_norm": 1.776149034500122,
      "learning_rate": 2.256460690937969e-05,
      "loss": 3.3876,
      "step": 395460
    },
    {
      "epoch": 0.8238958333333334,
      "grad_norm": 2.3250527381896973,
      "learning_rate": 2.2559407023565258e-05,
      "loss": 3.3735,
      "step": 395470
    },
    {
      "epoch": 0.8239166666666666,
      "grad_norm": 1.7364904880523682,
      "learning_rate": 2.2554207688243693e-05,
      "loss": 3.4016,
      "step": 395480
    },
    {
      "epoch": 0.8239375,
      "grad_norm": 1.9630939960479736,
      "learning_rate": 2.254900890343746e-05,
      "loss": 3.4102,
      "step": 395490
    },
    {
      "epoch": 0.8239583333333333,
      "grad_norm": 2.308558940887451,
      "learning_rate": 2.2543810669169144e-05,
      "loss": 3.3652,
      "step": 395500
    },
    {
      "epoch": 0.8239791666666667,
      "grad_norm": 2.5624802112579346,
      "learning_rate": 2.2538612985461073e-05,
      "loss": 3.5415,
      "step": 395510
    },
    {
      "epoch": 0.824,
      "grad_norm": 2.4126689434051514,
      "learning_rate": 2.25334158523357e-05,
      "loss": 3.2391,
      "step": 395520
    },
    {
      "epoch": 0.8240208333333333,
      "grad_norm": 2.618093967437744,
      "learning_rate": 2.2528219269815607e-05,
      "loss": 3.4657,
      "step": 395530
    },
    {
      "epoch": 0.8240416666666667,
      "grad_norm": 2.023244619369507,
      "learning_rate": 2.252302323792309e-05,
      "loss": 3.5675,
      "step": 395540
    },
    {
      "epoch": 0.8240625,
      "grad_norm": 2.257981777191162,
      "learning_rate": 2.2517827756680627e-05,
      "loss": 3.4259,
      "step": 395550
    },
    {
      "epoch": 0.8240833333333333,
      "grad_norm": 2.03515625,
      "learning_rate": 2.2512632826110775e-05,
      "loss": 3.4337,
      "step": 395560
    },
    {
      "epoch": 0.8241041666666666,
      "grad_norm": 2.009080410003662,
      "learning_rate": 2.250743844623583e-05,
      "loss": 3.3917,
      "step": 395570
    },
    {
      "epoch": 0.824125,
      "grad_norm": 2.1178019046783447,
      "learning_rate": 2.2502244617078257e-05,
      "loss": 3.4796,
      "step": 395580
    },
    {
      "epoch": 0.8241458333333334,
      "grad_norm": 1.692192792892456,
      "learning_rate": 2.249705133866059e-05,
      "loss": 3.5636,
      "step": 395590
    },
    {
      "epoch": 0.8241666666666667,
      "grad_norm": 2.4306325912475586,
      "learning_rate": 2.249185861100517e-05,
      "loss": 3.501,
      "step": 395600
    },
    {
      "epoch": 0.8241875,
      "grad_norm": 2.303295373916626,
      "learning_rate": 2.2486666434134438e-05,
      "loss": 3.4521,
      "step": 395610
    },
    {
      "epoch": 0.8242083333333333,
      "grad_norm": 2.015665292739868,
      "learning_rate": 2.248147480807082e-05,
      "loss": 3.4944,
      "step": 395620
    },
    {
      "epoch": 0.8242291666666667,
      "grad_norm": 2.062523126602173,
      "learning_rate": 2.247628373283677e-05,
      "loss": 3.4079,
      "step": 395630
    },
    {
      "epoch": 0.82425,
      "grad_norm": 2.2058191299438477,
      "learning_rate": 2.24710932084547e-05,
      "loss": 3.5287,
      "step": 395640
    },
    {
      "epoch": 0.8242708333333333,
      "grad_norm": 2.2485523223876953,
      "learning_rate": 2.2465903234947023e-05,
      "loss": 3.4069,
      "step": 395650
    },
    {
      "epoch": 0.8242916666666666,
      "grad_norm": 2.1290135383605957,
      "learning_rate": 2.2460713812336162e-05,
      "loss": 3.4641,
      "step": 395660
    },
    {
      "epoch": 0.8243125,
      "grad_norm": 1.9922902584075928,
      "learning_rate": 2.2455524940644543e-05,
      "loss": 3.5435,
      "step": 395670
    },
    {
      "epoch": 0.8243333333333334,
      "grad_norm": 1.7705081701278687,
      "learning_rate": 2.2450336619894567e-05,
      "loss": 3.4363,
      "step": 395680
    },
    {
      "epoch": 0.8243541666666667,
      "grad_norm": 1.9124603271484375,
      "learning_rate": 2.244514885010863e-05,
      "loss": 3.6258,
      "step": 395690
    },
    {
      "epoch": 0.824375,
      "grad_norm": 2.122896432876587,
      "learning_rate": 2.2439961631309216e-05,
      "loss": 3.4673,
      "step": 395700
    },
    {
      "epoch": 0.8243958333333333,
      "grad_norm": 2.189988613128662,
      "learning_rate": 2.243477496351859e-05,
      "loss": 3.4511,
      "step": 395710
    },
    {
      "epoch": 0.8244166666666667,
      "grad_norm": 2.166426658630371,
      "learning_rate": 2.2429588846759305e-05,
      "loss": 3.4135,
      "step": 395720
    },
    {
      "epoch": 0.8244375,
      "grad_norm": 1.9198265075683594,
      "learning_rate": 2.2424403281053704e-05,
      "loss": 3.3566,
      "step": 395730
    },
    {
      "epoch": 0.8244583333333333,
      "grad_norm": 1.710225224494934,
      "learning_rate": 2.2419218266424137e-05,
      "loss": 3.3354,
      "step": 395740
    },
    {
      "epoch": 0.8244791666666667,
      "grad_norm": 1.9216396808624268,
      "learning_rate": 2.241403380289307e-05,
      "loss": 3.4803,
      "step": 395750
    },
    {
      "epoch": 0.8245,
      "grad_norm": 2.335676670074463,
      "learning_rate": 2.2408849890482904e-05,
      "loss": 3.4126,
      "step": 395760
    },
    {
      "epoch": 0.8245208333333334,
      "grad_norm": 2.2200915813446045,
      "learning_rate": 2.2403666529215954e-05,
      "loss": 3.5728,
      "step": 395770
    },
    {
      "epoch": 0.8245416666666666,
      "grad_norm": 1.8271013498306274,
      "learning_rate": 2.2398483719114678e-05,
      "loss": 3.3879,
      "step": 395780
    },
    {
      "epoch": 0.8245625,
      "grad_norm": 2.6779839992523193,
      "learning_rate": 2.2393301460201468e-05,
      "loss": 3.4417,
      "step": 395790
    },
    {
      "epoch": 0.8245833333333333,
      "grad_norm": 2.427333354949951,
      "learning_rate": 2.2388119752498634e-05,
      "loss": 3.4356,
      "step": 395800
    },
    {
      "epoch": 0.8246041666666667,
      "grad_norm": 1.8958011865615845,
      "learning_rate": 2.2382938596028644e-05,
      "loss": 3.4415,
      "step": 395810
    },
    {
      "epoch": 0.824625,
      "grad_norm": 2.0741665363311768,
      "learning_rate": 2.2377757990813876e-05,
      "loss": 3.4884,
      "step": 395820
    },
    {
      "epoch": 0.8246458333333333,
      "grad_norm": 2.0645599365234375,
      "learning_rate": 2.23725779368766e-05,
      "loss": 3.3927,
      "step": 395830
    },
    {
      "epoch": 0.8246666666666667,
      "grad_norm": 2.118835210800171,
      "learning_rate": 2.2367398434239348e-05,
      "loss": 3.3507,
      "step": 395840
    },
    {
      "epoch": 0.8246875,
      "grad_norm": 1.6952447891235352,
      "learning_rate": 2.2362219482924382e-05,
      "loss": 3.1946,
      "step": 395850
    },
    {
      "epoch": 0.8247083333333334,
      "grad_norm": 2.0912728309631348,
      "learning_rate": 2.235704108295405e-05,
      "loss": 3.434,
      "step": 395860
    },
    {
      "epoch": 0.8247291666666666,
      "grad_norm": 2.0855584144592285,
      "learning_rate": 2.2351863234350876e-05,
      "loss": 3.4598,
      "step": 395870
    },
    {
      "epoch": 0.82475,
      "grad_norm": 1.8175740242004395,
      "learning_rate": 2.2346685937137066e-05,
      "loss": 3.3989,
      "step": 395880
    },
    {
      "epoch": 0.8247708333333333,
      "grad_norm": 2.036240339279175,
      "learning_rate": 2.2341509191335023e-05,
      "loss": 3.4927,
      "step": 395890
    },
    {
      "epoch": 0.8247916666666667,
      "grad_norm": 1.8678085803985596,
      "learning_rate": 2.2336332996967194e-05,
      "loss": 3.5239,
      "step": 395900
    },
    {
      "epoch": 0.8248125,
      "grad_norm": 2.865250587463379,
      "learning_rate": 2.2331157354055845e-05,
      "loss": 3.4888,
      "step": 395910
    },
    {
      "epoch": 0.8248333333333333,
      "grad_norm": 2.0998172760009766,
      "learning_rate": 2.2325982262623328e-05,
      "loss": 3.3294,
      "step": 395920
    },
    {
      "epoch": 0.8248541666666667,
      "grad_norm": 2.404888391494751,
      "learning_rate": 2.2320807722692086e-05,
      "loss": 3.5303,
      "step": 395930
    },
    {
      "epoch": 0.824875,
      "grad_norm": 2.2601094245910645,
      "learning_rate": 2.231563373428439e-05,
      "loss": 3.4522,
      "step": 395940
    },
    {
      "epoch": 0.8248958333333334,
      "grad_norm": 1.9294291734695435,
      "learning_rate": 2.2310460297422582e-05,
      "loss": 3.2325,
      "step": 395950
    },
    {
      "epoch": 0.8249166666666666,
      "grad_norm": 1.8657195568084717,
      "learning_rate": 2.2305287412129104e-05,
      "loss": 3.4118,
      "step": 395960
    },
    {
      "epoch": 0.8249375,
      "grad_norm": 2.2287235260009766,
      "learning_rate": 2.2300115078426213e-05,
      "loss": 3.4987,
      "step": 395970
    },
    {
      "epoch": 0.8249583333333333,
      "grad_norm": 2.3533308506011963,
      "learning_rate": 2.2294943296336276e-05,
      "loss": 3.4761,
      "step": 395980
    },
    {
      "epoch": 0.8249791666666667,
      "grad_norm": 2.2115478515625,
      "learning_rate": 2.2289772065881628e-05,
      "loss": 3.3422,
      "step": 395990
    },
    {
      "epoch": 0.825,
      "grad_norm": 2.0425608158111572,
      "learning_rate": 2.2284601387084617e-05,
      "loss": 3.5928,
      "step": 396000
    },
    {
      "epoch": 0.825,
      "eval_loss": 3.5267395973205566,
      "eval_runtime": 7.2649,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 396000
    },
    {
      "epoch": 0.8250208333333333,
      "grad_norm": 2.136178731918335,
      "learning_rate": 2.2279431259967588e-05,
      "loss": 3.4884,
      "step": 396010
    },
    {
      "epoch": 0.8250416666666667,
      "grad_norm": 1.7673189640045166,
      "learning_rate": 2.2274261684552846e-05,
      "loss": 3.473,
      "step": 396020
    },
    {
      "epoch": 0.8250625,
      "grad_norm": 2.2018063068389893,
      "learning_rate": 2.2269092660862737e-05,
      "loss": 3.5878,
      "step": 396030
    },
    {
      "epoch": 0.8250833333333333,
      "grad_norm": 1.8352919816970825,
      "learning_rate": 2.226392418891959e-05,
      "loss": 3.4242,
      "step": 396040
    },
    {
      "epoch": 0.8251041666666666,
      "grad_norm": 1.8898577690124512,
      "learning_rate": 2.2258756268745743e-05,
      "loss": 3.3395,
      "step": 396050
    },
    {
      "epoch": 0.825125,
      "grad_norm": 1.8014512062072754,
      "learning_rate": 2.225358890036349e-05,
      "loss": 3.3769,
      "step": 396060
    },
    {
      "epoch": 0.8251458333333334,
      "grad_norm": 1.8503265380859375,
      "learning_rate": 2.2248422083795196e-05,
      "loss": 3.4149,
      "step": 396070
    },
    {
      "epoch": 0.8251666666666667,
      "grad_norm": 1.8155759572982788,
      "learning_rate": 2.22432558190631e-05,
      "loss": 3.3874,
      "step": 396080
    },
    {
      "epoch": 0.8251875,
      "grad_norm": 1.9000734090805054,
      "learning_rate": 2.2238090106189592e-05,
      "loss": 3.4182,
      "step": 396090
    },
    {
      "epoch": 0.8252083333333333,
      "grad_norm": 1.8891518115997314,
      "learning_rate": 2.2232924945196996e-05,
      "loss": 3.4608,
      "step": 396100
    },
    {
      "epoch": 0.8252291666666667,
      "grad_norm": 2.3607687950134277,
      "learning_rate": 2.222776033610752e-05,
      "loss": 3.325,
      "step": 396110
    },
    {
      "epoch": 0.82525,
      "grad_norm": 1.996931552886963,
      "learning_rate": 2.2222596278943584e-05,
      "loss": 3.4488,
      "step": 396120
    },
    {
      "epoch": 0.8252708333333333,
      "grad_norm": 1.79421865940094,
      "learning_rate": 2.22174327737275e-05,
      "loss": 3.5578,
      "step": 396130
    },
    {
      "epoch": 0.8252916666666666,
      "grad_norm": 2.119374990463257,
      "learning_rate": 2.221226982048144e-05,
      "loss": 3.45,
      "step": 396140
    },
    {
      "epoch": 0.8253125,
      "grad_norm": 2.3091771602630615,
      "learning_rate": 2.2207107419227826e-05,
      "loss": 3.2973,
      "step": 396150
    },
    {
      "epoch": 0.8253333333333334,
      "grad_norm": 2.0516374111175537,
      "learning_rate": 2.2201945569988966e-05,
      "loss": 3.5217,
      "step": 396160
    },
    {
      "epoch": 0.8253541666666667,
      "grad_norm": 2.3659403324127197,
      "learning_rate": 2.2196784272787056e-05,
      "loss": 3.3698,
      "step": 396170
    },
    {
      "epoch": 0.825375,
      "grad_norm": 2.6182608604431152,
      "learning_rate": 2.219162352764446e-05,
      "loss": 3.3116,
      "step": 396180
    },
    {
      "epoch": 0.8253958333333333,
      "grad_norm": 2.2496678829193115,
      "learning_rate": 2.218646333458351e-05,
      "loss": 3.3442,
      "step": 396190
    },
    {
      "epoch": 0.8254166666666667,
      "grad_norm": 2.034226179122925,
      "learning_rate": 2.2181303693626372e-05,
      "loss": 3.3999,
      "step": 396200
    },
    {
      "epoch": 0.8254375,
      "grad_norm": 2.058468818664551,
      "learning_rate": 2.2176144604795497e-05,
      "loss": 3.4601,
      "step": 396210
    },
    {
      "epoch": 0.8254583333333333,
      "grad_norm": 2.5004608631134033,
      "learning_rate": 2.2170986068113016e-05,
      "loss": 3.3703,
      "step": 396220
    },
    {
      "epoch": 0.8254791666666667,
      "grad_norm": 2.5246193408966064,
      "learning_rate": 2.216582808360126e-05,
      "loss": 3.4288,
      "step": 396230
    },
    {
      "epoch": 0.8255,
      "grad_norm": 2.492856502532959,
      "learning_rate": 2.2160670651282597e-05,
      "loss": 3.3019,
      "step": 396240
    },
    {
      "epoch": 0.8255208333333334,
      "grad_norm": 1.8432167768478394,
      "learning_rate": 2.215551377117919e-05,
      "loss": 3.524,
      "step": 396250
    },
    {
      "epoch": 0.8255416666666666,
      "grad_norm": 2.0480146408081055,
      "learning_rate": 2.2150357443313337e-05,
      "loss": 3.3451,
      "step": 396260
    },
    {
      "epoch": 0.8255625,
      "grad_norm": 2.1253480911254883,
      "learning_rate": 2.214520166770739e-05,
      "loss": 3.3245,
      "step": 396270
    },
    {
      "epoch": 0.8255833333333333,
      "grad_norm": 1.853341817855835,
      "learning_rate": 2.214004644438353e-05,
      "loss": 3.4962,
      "step": 396280
    },
    {
      "epoch": 0.8256041666666667,
      "grad_norm": 2.4593396186828613,
      "learning_rate": 2.2134891773364072e-05,
      "loss": 3.5116,
      "step": 396290
    },
    {
      "epoch": 0.825625,
      "grad_norm": 2.1204469203948975,
      "learning_rate": 2.2129737654671264e-05,
      "loss": 3.5178,
      "step": 396300
    },
    {
      "epoch": 0.8256458333333333,
      "grad_norm": 2.4054529666900635,
      "learning_rate": 2.2124584088327374e-05,
      "loss": 3.4614,
      "step": 396310
    },
    {
      "epoch": 0.8256666666666667,
      "grad_norm": 1.9105446338653564,
      "learning_rate": 2.2119431074354648e-05,
      "loss": 3.4666,
      "step": 396320
    },
    {
      "epoch": 0.8256875,
      "grad_norm": 2.0824122428894043,
      "learning_rate": 2.211427861277537e-05,
      "loss": 3.5582,
      "step": 396330
    },
    {
      "epoch": 0.8257083333333334,
      "grad_norm": 2.190422534942627,
      "learning_rate": 2.2109126703611807e-05,
      "loss": 3.3485,
      "step": 396340
    },
    {
      "epoch": 0.8257291666666666,
      "grad_norm": 2.035813808441162,
      "learning_rate": 2.210397534688617e-05,
      "loss": 3.4179,
      "step": 396350
    },
    {
      "epoch": 0.82575,
      "grad_norm": 3.03602933883667,
      "learning_rate": 2.2098824542620746e-05,
      "loss": 3.4645,
      "step": 396360
    },
    {
      "epoch": 0.8257708333333333,
      "grad_norm": 3.246598720550537,
      "learning_rate": 2.2093674290837765e-05,
      "loss": 3.3761,
      "step": 396370
    },
    {
      "epoch": 0.8257916666666667,
      "grad_norm": 3.0225400924682617,
      "learning_rate": 2.2088524591559492e-05,
      "loss": 3.4345,
      "step": 396380
    },
    {
      "epoch": 0.8258125,
      "grad_norm": 2.432427167892456,
      "learning_rate": 2.208337544480816e-05,
      "loss": 3.6321,
      "step": 396390
    },
    {
      "epoch": 0.8258333333333333,
      "grad_norm": 2.318345069885254,
      "learning_rate": 2.207822685060602e-05,
      "loss": 3.4235,
      "step": 396400
    },
    {
      "epoch": 0.8258541666666667,
      "grad_norm": 2.090909481048584,
      "learning_rate": 2.207307880897528e-05,
      "loss": 3.4626,
      "step": 396410
    },
    {
      "epoch": 0.825875,
      "grad_norm": 1.9010465145111084,
      "learning_rate": 2.2067931319938233e-05,
      "loss": 3.5559,
      "step": 396420
    },
    {
      "epoch": 0.8258958333333334,
      "grad_norm": 2.7507455348968506,
      "learning_rate": 2.206278438351707e-05,
      "loss": 3.4145,
      "step": 396430
    },
    {
      "epoch": 0.8259166666666666,
      "grad_norm": 2.034658432006836,
      "learning_rate": 2.2057637999734022e-05,
      "loss": 3.4839,
      "step": 396440
    },
    {
      "epoch": 0.8259375,
      "grad_norm": 1.8859466314315796,
      "learning_rate": 2.2052492168611362e-05,
      "loss": 3.4562,
      "step": 396450
    },
    {
      "epoch": 0.8259583333333333,
      "grad_norm": 2.0182080268859863,
      "learning_rate": 2.204734689017127e-05,
      "loss": 3.4914,
      "step": 396460
    },
    {
      "epoch": 0.8259791666666667,
      "grad_norm": 2.049445152282715,
      "learning_rate": 2.204220216443604e-05,
      "loss": 3.3743,
      "step": 396470
    },
    {
      "epoch": 0.826,
      "grad_norm": 1.988521695137024,
      "learning_rate": 2.2037057991427777e-05,
      "loss": 3.5174,
      "step": 396480
    },
    {
      "epoch": 0.8260208333333333,
      "grad_norm": 1.9764569997787476,
      "learning_rate": 2.203191437116879e-05,
      "loss": 3.3088,
      "step": 396490
    },
    {
      "epoch": 0.8260416666666667,
      "grad_norm": 2.166685104370117,
      "learning_rate": 2.2026771303681333e-05,
      "loss": 3.4348,
      "step": 396500
    },
    {
      "epoch": 0.8260625,
      "grad_norm": 1.961351752281189,
      "learning_rate": 2.202162878898749e-05,
      "loss": 3.5144,
      "step": 396510
    },
    {
      "epoch": 0.8260833333333333,
      "grad_norm": 2.347172260284424,
      "learning_rate": 2.2016486827109587e-05,
      "loss": 3.3492,
      "step": 396520
    },
    {
      "epoch": 0.8261041666666666,
      "grad_norm": 2.029811143875122,
      "learning_rate": 2.2011345418069842e-05,
      "loss": 3.5022,
      "step": 396530
    },
    {
      "epoch": 0.826125,
      "grad_norm": 2.0326364040374756,
      "learning_rate": 2.2006204561890355e-05,
      "loss": 3.3625,
      "step": 396540
    },
    {
      "epoch": 0.8261458333333334,
      "grad_norm": 2.1165497303009033,
      "learning_rate": 2.2001064258593443e-05,
      "loss": 3.577,
      "step": 396550
    },
    {
      "epoch": 0.8261666666666667,
      "grad_norm": 2.366624116897583,
      "learning_rate": 2.1995924508201286e-05,
      "loss": 3.4813,
      "step": 396560
    },
    {
      "epoch": 0.8261875,
      "grad_norm": 2.1579110622406006,
      "learning_rate": 2.1990785310736048e-05,
      "loss": 3.5525,
      "step": 396570
    },
    {
      "epoch": 0.8262083333333333,
      "grad_norm": 2.3029510974884033,
      "learning_rate": 2.1985646666219932e-05,
      "loss": 3.4076,
      "step": 396580
    },
    {
      "epoch": 0.8262291666666667,
      "grad_norm": 2.154813528060913,
      "learning_rate": 2.1980508574675164e-05,
      "loss": 3.4013,
      "step": 396590
    },
    {
      "epoch": 0.82625,
      "grad_norm": 2.079815626144409,
      "learning_rate": 2.197537103612392e-05,
      "loss": 3.4843,
      "step": 396600
    },
    {
      "epoch": 0.8262708333333333,
      "grad_norm": 2.23561692237854,
      "learning_rate": 2.1970234050588387e-05,
      "loss": 3.3661,
      "step": 396610
    },
    {
      "epoch": 0.8262916666666666,
      "grad_norm": 2.0807089805603027,
      "learning_rate": 2.1965097618090786e-05,
      "loss": 3.4165,
      "step": 396620
    },
    {
      "epoch": 0.8263125,
      "grad_norm": 1.9121721982955933,
      "learning_rate": 2.195996173865327e-05,
      "loss": 3.5033,
      "step": 396630
    },
    {
      "epoch": 0.8263333333333334,
      "grad_norm": 2.1908857822418213,
      "learning_rate": 2.1954826412298034e-05,
      "loss": 3.5989,
      "step": 396640
    },
    {
      "epoch": 0.8263541666666666,
      "grad_norm": 1.8656888008117676,
      "learning_rate": 2.1949691639047273e-05,
      "loss": 3.4633,
      "step": 396650
    },
    {
      "epoch": 0.826375,
      "grad_norm": 1.9343608617782593,
      "learning_rate": 2.194455741892316e-05,
      "loss": 3.4747,
      "step": 396660
    },
    {
      "epoch": 0.8263958333333333,
      "grad_norm": 2.0377681255340576,
      "learning_rate": 2.193942375194787e-05,
      "loss": 3.4706,
      "step": 396670
    },
    {
      "epoch": 0.8264166666666667,
      "grad_norm": 1.8222941160202026,
      "learning_rate": 2.1934290638143574e-05,
      "loss": 3.5967,
      "step": 396680
    },
    {
      "epoch": 0.8264375,
      "grad_norm": 2.9361519813537598,
      "learning_rate": 2.1929158077532455e-05,
      "loss": 3.4345,
      "step": 396690
    },
    {
      "epoch": 0.8264583333333333,
      "grad_norm": 1.8033150434494019,
      "learning_rate": 2.1924026070136676e-05,
      "loss": 3.4183,
      "step": 396700
    },
    {
      "epoch": 0.8264791666666667,
      "grad_norm": 2.326913833618164,
      "learning_rate": 2.19188946159784e-05,
      "loss": 3.4172,
      "step": 396710
    },
    {
      "epoch": 0.8265,
      "grad_norm": 2.1608967781066895,
      "learning_rate": 2.1913763715079812e-05,
      "loss": 3.361,
      "step": 396720
    },
    {
      "epoch": 0.8265208333333334,
      "grad_norm": 1.910120964050293,
      "learning_rate": 2.1908633367463065e-05,
      "loss": 3.4719,
      "step": 396730
    },
    {
      "epoch": 0.8265416666666666,
      "grad_norm": 2.0992414951324463,
      "learning_rate": 2.1903503573150315e-05,
      "loss": 3.48,
      "step": 396740
    },
    {
      "epoch": 0.8265625,
      "grad_norm": 2.4676480293273926,
      "learning_rate": 2.1898374332163736e-05,
      "loss": 3.3292,
      "step": 396750
    },
    {
      "epoch": 0.8265833333333333,
      "grad_norm": 2.074561595916748,
      "learning_rate": 2.1893245644525458e-05,
      "loss": 3.4172,
      "step": 396760
    },
    {
      "epoch": 0.8266041666666667,
      "grad_norm": 1.883127212524414,
      "learning_rate": 2.1888117510257663e-05,
      "loss": 3.3837,
      "step": 396770
    },
    {
      "epoch": 0.826625,
      "grad_norm": 1.9083822965621948,
      "learning_rate": 2.1882989929382483e-05,
      "loss": 3.477,
      "step": 396780
    },
    {
      "epoch": 0.8266458333333333,
      "grad_norm": 2.228609085083008,
      "learning_rate": 2.1877862901922084e-05,
      "loss": 3.4595,
      "step": 396790
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 1.9715392589569092,
      "learning_rate": 2.1872736427898595e-05,
      "loss": 3.3596,
      "step": 396800
    },
    {
      "epoch": 0.8266875,
      "grad_norm": 1.9245167970657349,
      "learning_rate": 2.1867610507334173e-05,
      "loss": 3.4876,
      "step": 396810
    },
    {
      "epoch": 0.8267083333333334,
      "grad_norm": 1.8201669454574585,
      "learning_rate": 2.1862485140250958e-05,
      "loss": 3.35,
      "step": 396820
    },
    {
      "epoch": 0.8267291666666666,
      "grad_norm": 1.8947761058807373,
      "learning_rate": 2.185736032667107e-05,
      "loss": 3.3929,
      "step": 396830
    },
    {
      "epoch": 0.82675,
      "grad_norm": 2.21964955329895,
      "learning_rate": 2.1852236066616708e-05,
      "loss": 3.4058,
      "step": 396840
    },
    {
      "epoch": 0.8267708333333333,
      "grad_norm": 1.9445315599441528,
      "learning_rate": 2.1847112360109904e-05,
      "loss": 3.5332,
      "step": 396850
    },
    {
      "epoch": 0.8267916666666667,
      "grad_norm": 2.025804281234741,
      "learning_rate": 2.1841989207172873e-05,
      "loss": 3.534,
      "step": 396860
    },
    {
      "epoch": 0.8268125,
      "grad_norm": 2.175558567047119,
      "learning_rate": 2.1836866607827747e-05,
      "loss": 3.3859,
      "step": 396870
    },
    {
      "epoch": 0.8268333333333333,
      "grad_norm": 2.186556816101074,
      "learning_rate": 2.1831744562096593e-05,
      "loss": 3.3244,
      "step": 396880
    },
    {
      "epoch": 0.8268541666666667,
      "grad_norm": 1.926707148551941,
      "learning_rate": 2.1826623070001542e-05,
      "loss": 3.4524,
      "step": 396890
    },
    {
      "epoch": 0.826875,
      "grad_norm": 2.0775625705718994,
      "learning_rate": 2.182150213156481e-05,
      "loss": 3.3895,
      "step": 396900
    },
    {
      "epoch": 0.8268958333333334,
      "grad_norm": 2.202223539352417,
      "learning_rate": 2.1816381746808432e-05,
      "loss": 3.3735,
      "step": 396910
    },
    {
      "epoch": 0.8269166666666666,
      "grad_norm": 1.959869384765625,
      "learning_rate": 2.18112619157545e-05,
      "loss": 3.3714,
      "step": 396920
    },
    {
      "epoch": 0.8269375,
      "grad_norm": 1.9066885709762573,
      "learning_rate": 2.180614263842524e-05,
      "loss": 3.4967,
      "step": 396930
    },
    {
      "epoch": 0.8269583333333334,
      "grad_norm": 2.18673038482666,
      "learning_rate": 2.1801023914842674e-05,
      "loss": 3.4135,
      "step": 396940
    },
    {
      "epoch": 0.8269791666666667,
      "grad_norm": 2.1679346561431885,
      "learning_rate": 2.179590574502891e-05,
      "loss": 3.4022,
      "step": 396950
    },
    {
      "epoch": 0.827,
      "grad_norm": 1.949103593826294,
      "learning_rate": 2.179078812900614e-05,
      "loss": 3.4379,
      "step": 396960
    },
    {
      "epoch": 0.8270208333333333,
      "grad_norm": 2.9042975902557373,
      "learning_rate": 2.1785671066796396e-05,
      "loss": 3.4729,
      "step": 396970
    },
    {
      "epoch": 0.8270416666666667,
      "grad_norm": 1.8104099035263062,
      "learning_rate": 2.17805545584218e-05,
      "loss": 3.3884,
      "step": 396980
    },
    {
      "epoch": 0.8270625,
      "grad_norm": 2.548394203186035,
      "learning_rate": 2.1775438603904444e-05,
      "loss": 3.5869,
      "step": 396990
    },
    {
      "epoch": 0.8270833333333333,
      "grad_norm": 2.5796008110046387,
      "learning_rate": 2.1770323203266447e-05,
      "loss": 3.5176,
      "step": 397000
    },
    {
      "epoch": 0.8270833333333333,
      "eval_loss": 3.5233852863311768,
      "eval_runtime": 7.2527,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 397000
    },
    {
      "epoch": 0.8271041666666666,
      "grad_norm": 1.8605122566223145,
      "learning_rate": 2.1765208356529894e-05,
      "loss": 3.3906,
      "step": 397010
    },
    {
      "epoch": 0.827125,
      "grad_norm": 2.3487911224365234,
      "learning_rate": 2.1760094063716897e-05,
      "loss": 3.4406,
      "step": 397020
    },
    {
      "epoch": 0.8271458333333334,
      "grad_norm": 1.9412121772766113,
      "learning_rate": 2.1754980324849508e-05,
      "loss": 3.4443,
      "step": 397030
    },
    {
      "epoch": 0.8271666666666667,
      "grad_norm": 1.9644155502319336,
      "learning_rate": 2.1749867139949856e-05,
      "loss": 3.5113,
      "step": 397040
    },
    {
      "epoch": 0.8271875,
      "grad_norm": 2.3284764289855957,
      "learning_rate": 2.1744754509040025e-05,
      "loss": 3.4316,
      "step": 397050
    },
    {
      "epoch": 0.8272083333333333,
      "grad_norm": 2.2529780864715576,
      "learning_rate": 2.1739642432142063e-05,
      "loss": 3.4848,
      "step": 397060
    },
    {
      "epoch": 0.8272291666666667,
      "grad_norm": 2.076110601425171,
      "learning_rate": 2.1734530909278087e-05,
      "loss": 3.591,
      "step": 397070
    },
    {
      "epoch": 0.82725,
      "grad_norm": 2.4713563919067383,
      "learning_rate": 2.1729419940470176e-05,
      "loss": 3.41,
      "step": 397080
    },
    {
      "epoch": 0.8272708333333333,
      "grad_norm": 2.3772692680358887,
      "learning_rate": 2.1724309525740387e-05,
      "loss": 3.4489,
      "step": 397090
    },
    {
      "epoch": 0.8272916666666666,
      "grad_norm": 1.9460508823394775,
      "learning_rate": 2.171919966511081e-05,
      "loss": 3.3227,
      "step": 397100
    },
    {
      "epoch": 0.8273125,
      "grad_norm": 2.105079174041748,
      "learning_rate": 2.1714090358603496e-05,
      "loss": 3.5669,
      "step": 397110
    },
    {
      "epoch": 0.8273333333333334,
      "grad_norm": 1.8931621313095093,
      "learning_rate": 2.170898160624055e-05,
      "loss": 3.4318,
      "step": 397120
    },
    {
      "epoch": 0.8273541666666666,
      "grad_norm": 2.221912384033203,
      "learning_rate": 2.170387340804403e-05,
      "loss": 3.3993,
      "step": 397130
    },
    {
      "epoch": 0.827375,
      "grad_norm": 2.0365538597106934,
      "learning_rate": 2.1698765764035974e-05,
      "loss": 3.3362,
      "step": 397140
    },
    {
      "epoch": 0.8273958333333333,
      "grad_norm": 2.1150479316711426,
      "learning_rate": 2.1693658674238477e-05,
      "loss": 3.4808,
      "step": 397150
    },
    {
      "epoch": 0.8274166666666667,
      "grad_norm": 2.195565700531006,
      "learning_rate": 2.1688552138673625e-05,
      "loss": 3.4383,
      "step": 397160
    },
    {
      "epoch": 0.8274375,
      "grad_norm": 2.2685494422912598,
      "learning_rate": 2.1683446157363366e-05,
      "loss": 3.2575,
      "step": 397170
    },
    {
      "epoch": 0.8274583333333333,
      "grad_norm": 2.0292649269104004,
      "learning_rate": 2.1678340730329864e-05,
      "loss": 3.4493,
      "step": 397180
    },
    {
      "epoch": 0.8274791666666667,
      "grad_norm": 2.0643362998962402,
      "learning_rate": 2.1673235857595167e-05,
      "loss": 3.3475,
      "step": 397190
    },
    {
      "epoch": 0.8275,
      "grad_norm": 2.333444833755493,
      "learning_rate": 2.1668131539181226e-05,
      "loss": 3.375,
      "step": 397200
    },
    {
      "epoch": 0.8275208333333334,
      "grad_norm": 2.4203577041625977,
      "learning_rate": 2.1663027775110224e-05,
      "loss": 3.4167,
      "step": 397210
    },
    {
      "epoch": 0.8275416666666666,
      "grad_norm": 2.410421848297119,
      "learning_rate": 2.165792456540411e-05,
      "loss": 3.5535,
      "step": 397220
    },
    {
      "epoch": 0.8275625,
      "grad_norm": 2.9337706565856934,
      "learning_rate": 2.1652821910084933e-05,
      "loss": 3.4842,
      "step": 397230
    },
    {
      "epoch": 0.8275833333333333,
      "grad_norm": 2.1179518699645996,
      "learning_rate": 2.164771980917484e-05,
      "loss": 3.4927,
      "step": 397240
    },
    {
      "epoch": 0.8276041666666667,
      "grad_norm": 2.1219160556793213,
      "learning_rate": 2.1642618262695733e-05,
      "loss": 3.5162,
      "step": 397250
    },
    {
      "epoch": 0.827625,
      "grad_norm": 2.15849232673645,
      "learning_rate": 2.163751727066969e-05,
      "loss": 3.3162,
      "step": 397260
    },
    {
      "epoch": 0.8276458333333333,
      "grad_norm": 2.1863791942596436,
      "learning_rate": 2.1632416833118832e-05,
      "loss": 3.3908,
      "step": 397270
    },
    {
      "epoch": 0.8276666666666667,
      "grad_norm": 2.1893205642700195,
      "learning_rate": 2.162731695006509e-05,
      "loss": 3.4266,
      "step": 397280
    },
    {
      "epoch": 0.8276875,
      "grad_norm": 2.2739992141723633,
      "learning_rate": 2.1622217621530474e-05,
      "loss": 3.3394,
      "step": 397290
    },
    {
      "epoch": 0.8277083333333334,
      "grad_norm": 1.9357496500015259,
      "learning_rate": 2.161711884753714e-05,
      "loss": 3.4125,
      "step": 397300
    },
    {
      "epoch": 0.8277291666666666,
      "grad_norm": 1.841530203819275,
      "learning_rate": 2.1612020628107003e-05,
      "loss": 3.3477,
      "step": 397310
    },
    {
      "epoch": 0.82775,
      "grad_norm": 2.321043014526367,
      "learning_rate": 2.160692296326209e-05,
      "loss": 3.3292,
      "step": 397320
    },
    {
      "epoch": 0.8277708333333333,
      "grad_norm": 1.8325726985931396,
      "learning_rate": 2.1601825853024508e-05,
      "loss": 3.3691,
      "step": 397330
    },
    {
      "epoch": 0.8277916666666667,
      "grad_norm": 1.901198148727417,
      "learning_rate": 2.159672929741618e-05,
      "loss": 3.4479,
      "step": 397340
    },
    {
      "epoch": 0.8278125,
      "grad_norm": 2.5301153659820557,
      "learning_rate": 2.1591633296459165e-05,
      "loss": 3.383,
      "step": 397350
    },
    {
      "epoch": 0.8278333333333333,
      "grad_norm": 2.0497913360595703,
      "learning_rate": 2.1586537850175455e-05,
      "loss": 3.454,
      "step": 397360
    },
    {
      "epoch": 0.8278541666666667,
      "grad_norm": 2.544280767440796,
      "learning_rate": 2.158144295858707e-05,
      "loss": 3.4638,
      "step": 397370
    },
    {
      "epoch": 0.827875,
      "grad_norm": 2.042205333709717,
      "learning_rate": 2.1576348621716037e-05,
      "loss": 3.3517,
      "step": 397380
    },
    {
      "epoch": 0.8278958333333334,
      "grad_norm": 2.4018218517303467,
      "learning_rate": 2.1571254839584328e-05,
      "loss": 3.4469,
      "step": 397390
    },
    {
      "epoch": 0.8279166666666666,
      "grad_norm": 2.8595569133758545,
      "learning_rate": 2.156616161221397e-05,
      "loss": 3.3946,
      "step": 397400
    },
    {
      "epoch": 0.8279375,
      "grad_norm": 2.4955222606658936,
      "learning_rate": 2.1561068939626952e-05,
      "loss": 3.4615,
      "step": 397410
    },
    {
      "epoch": 0.8279583333333334,
      "grad_norm": 2.4790425300598145,
      "learning_rate": 2.1555976821845283e-05,
      "loss": 3.3029,
      "step": 397420
    },
    {
      "epoch": 0.8279791666666667,
      "grad_norm": 2.195197582244873,
      "learning_rate": 2.1550885258890948e-05,
      "loss": 3.3692,
      "step": 397430
    },
    {
      "epoch": 0.828,
      "grad_norm": 2.0886714458465576,
      "learning_rate": 2.1545794250785947e-05,
      "loss": 3.4451,
      "step": 397440
    },
    {
      "epoch": 0.8280208333333333,
      "grad_norm": 2.087155342102051,
      "learning_rate": 2.154070379755226e-05,
      "loss": 3.515,
      "step": 397450
    },
    {
      "epoch": 0.8280416666666667,
      "grad_norm": 1.7846856117248535,
      "learning_rate": 2.153561389921189e-05,
      "loss": 3.4515,
      "step": 397460
    },
    {
      "epoch": 0.8280625,
      "grad_norm": 2.0836000442504883,
      "learning_rate": 2.1530524555786864e-05,
      "loss": 3.4566,
      "step": 397470
    },
    {
      "epoch": 0.8280833333333333,
      "grad_norm": 2.069255828857422,
      "learning_rate": 2.1525435767299037e-05,
      "loss": 3.5053,
      "step": 397480
    },
    {
      "epoch": 0.8281041666666666,
      "grad_norm": 2.2861249446868896,
      "learning_rate": 2.152034753377052e-05,
      "loss": 3.4443,
      "step": 397490
    },
    {
      "epoch": 0.828125,
      "grad_norm": 2.134582042694092,
      "learning_rate": 2.1515259855223266e-05,
      "loss": 3.448,
      "step": 397500
    },
    {
      "epoch": 0.8281458333333334,
      "grad_norm": 1.946610450744629,
      "learning_rate": 2.1510172731679172e-05,
      "loss": 3.3446,
      "step": 397510
    },
    {
      "epoch": 0.8281666666666667,
      "grad_norm": 2.0225298404693604,
      "learning_rate": 2.15050861631603e-05,
      "loss": 3.4393,
      "step": 397520
    },
    {
      "epoch": 0.8281875,
      "grad_norm": 1.8306429386138916,
      "learning_rate": 2.150000014968864e-05,
      "loss": 3.4361,
      "step": 397530
    },
    {
      "epoch": 0.8282083333333333,
      "grad_norm": 1.8231443166732788,
      "learning_rate": 2.1494914691286036e-05,
      "loss": 3.5214,
      "step": 397540
    },
    {
      "epoch": 0.8282291666666667,
      "grad_norm": 2.2367024421691895,
      "learning_rate": 2.1489829787974573e-05,
      "loss": 3.5402,
      "step": 397550
    },
    {
      "epoch": 0.82825,
      "grad_norm": 2.3810713291168213,
      "learning_rate": 2.1484745439776214e-05,
      "loss": 3.3956,
      "step": 397560
    },
    {
      "epoch": 0.8282708333333333,
      "grad_norm": 2.4657950401306152,
      "learning_rate": 2.147966164671281e-05,
      "loss": 3.5102,
      "step": 397570
    },
    {
      "epoch": 0.8282916666666666,
      "grad_norm": 2.48466157913208,
      "learning_rate": 2.1474578408806475e-05,
      "loss": 3.5048,
      "step": 397580
    },
    {
      "epoch": 0.8283125,
      "grad_norm": 1.873084306716919,
      "learning_rate": 2.1469495726079046e-05,
      "loss": 3.4259,
      "step": 397590
    },
    {
      "epoch": 0.8283333333333334,
      "grad_norm": 2.2668557167053223,
      "learning_rate": 2.146441359855248e-05,
      "loss": 3.5126,
      "step": 397600
    },
    {
      "epoch": 0.8283541666666666,
      "grad_norm": 2.150592803955078,
      "learning_rate": 2.1459332026248854e-05,
      "loss": 3.5234,
      "step": 397610
    },
    {
      "epoch": 0.828375,
      "grad_norm": 1.8299795389175415,
      "learning_rate": 2.1454251009189977e-05,
      "loss": 3.4074,
      "step": 397620
    },
    {
      "epoch": 0.8283958333333333,
      "grad_norm": 1.9865645170211792,
      "learning_rate": 2.1449170547397833e-05,
      "loss": 3.3719,
      "step": 397630
    },
    {
      "epoch": 0.8284166666666667,
      "grad_norm": 2.1086716651916504,
      "learning_rate": 2.144409064089447e-05,
      "loss": 3.542,
      "step": 397640
    },
    {
      "epoch": 0.8284375,
      "grad_norm": 1.9292222261428833,
      "learning_rate": 2.1439011289701686e-05,
      "loss": 3.3393,
      "step": 397650
    },
    {
      "epoch": 0.8284583333333333,
      "grad_norm": 2.2620890140533447,
      "learning_rate": 2.1433932493841464e-05,
      "loss": 3.4269,
      "step": 397660
    },
    {
      "epoch": 0.8284791666666667,
      "grad_norm": 2.8044357299804688,
      "learning_rate": 2.1428854253335843e-05,
      "loss": 3.2559,
      "step": 397670
    },
    {
      "epoch": 0.8285,
      "grad_norm": 2.0309135913848877,
      "learning_rate": 2.142377656820663e-05,
      "loss": 3.4016,
      "step": 397680
    },
    {
      "epoch": 0.8285208333333334,
      "grad_norm": 2.1481316089630127,
      "learning_rate": 2.141869943847578e-05,
      "loss": 3.3889,
      "step": 397690
    },
    {
      "epoch": 0.8285416666666666,
      "grad_norm": 2.2647645473480225,
      "learning_rate": 2.1413622864165318e-05,
      "loss": 3.3779,
      "step": 397700
    },
    {
      "epoch": 0.8285625,
      "grad_norm": 2.398949384689331,
      "learning_rate": 2.1408546845297088e-05,
      "loss": 3.4565,
      "step": 397710
    },
    {
      "epoch": 0.8285833333333333,
      "grad_norm": 1.8326095342636108,
      "learning_rate": 2.140347138189301e-05,
      "loss": 3.405,
      "step": 397720
    },
    {
      "epoch": 0.8286041666666667,
      "grad_norm": 1.9231499433517456,
      "learning_rate": 2.139839647397506e-05,
      "loss": 3.2633,
      "step": 397730
    },
    {
      "epoch": 0.828625,
      "grad_norm": 1.9087013006210327,
      "learning_rate": 2.1393322121565116e-05,
      "loss": 3.5724,
      "step": 397740
    },
    {
      "epoch": 0.8286458333333333,
      "grad_norm": 2.202662229537964,
      "learning_rate": 2.1388248324685124e-05,
      "loss": 3.4497,
      "step": 397750
    },
    {
      "epoch": 0.8286666666666667,
      "grad_norm": 2.784487009048462,
      "learning_rate": 2.1383175083356974e-05,
      "loss": 3.3086,
      "step": 397760
    },
    {
      "epoch": 0.8286875,
      "grad_norm": 1.9741605520248413,
      "learning_rate": 2.137810239760261e-05,
      "loss": 3.3454,
      "step": 397770
    },
    {
      "epoch": 0.8287083333333334,
      "grad_norm": 2.78487229347229,
      "learning_rate": 2.137303026744393e-05,
      "loss": 3.2364,
      "step": 397780
    },
    {
      "epoch": 0.8287291666666666,
      "grad_norm": 2.301504373550415,
      "learning_rate": 2.1367958692902852e-05,
      "loss": 3.3057,
      "step": 397790
    },
    {
      "epoch": 0.82875,
      "grad_norm": 1.949407935142517,
      "learning_rate": 2.1362887674001277e-05,
      "loss": 3.4861,
      "step": 397800
    },
    {
      "epoch": 0.8287708333333333,
      "grad_norm": 1.7904646396636963,
      "learning_rate": 2.1357817210761103e-05,
      "loss": 3.496,
      "step": 397810
    },
    {
      "epoch": 0.8287916666666667,
      "grad_norm": 1.9628961086273193,
      "learning_rate": 2.1352747303204227e-05,
      "loss": 3.3556,
      "step": 397820
    },
    {
      "epoch": 0.8288125,
      "grad_norm": 2.014796018600464,
      "learning_rate": 2.1347677951352582e-05,
      "loss": 3.3643,
      "step": 397830
    },
    {
      "epoch": 0.8288333333333333,
      "grad_norm": 2.178849697113037,
      "learning_rate": 2.134260915522807e-05,
      "loss": 3.4743,
      "step": 397840
    },
    {
      "epoch": 0.8288541666666667,
      "grad_norm": 1.865227222442627,
      "learning_rate": 2.1337540914852486e-05,
      "loss": 3.3839,
      "step": 397850
    },
    {
      "epoch": 0.828875,
      "grad_norm": 2.191481828689575,
      "learning_rate": 2.1332473230247833e-05,
      "loss": 3.3252,
      "step": 397860
    },
    {
      "epoch": 0.8288958333333334,
      "grad_norm": 2.03914213180542,
      "learning_rate": 2.1327406101436005e-05,
      "loss": 3.4332,
      "step": 397870
    },
    {
      "epoch": 0.8289166666666666,
      "grad_norm": 1.9604055881500244,
      "learning_rate": 2.1322339528438774e-05,
      "loss": 3.4198,
      "step": 397880
    },
    {
      "epoch": 0.8289375,
      "grad_norm": 1.9046266078948975,
      "learning_rate": 2.131727351127814e-05,
      "loss": 3.3611,
      "step": 397890
    },
    {
      "epoch": 0.8289583333333334,
      "grad_norm": 2.430213451385498,
      "learning_rate": 2.1312208049975992e-05,
      "loss": 3.4569,
      "step": 397900
    },
    {
      "epoch": 0.8289791666666667,
      "grad_norm": 2.0461585521698,
      "learning_rate": 2.130714314455409e-05,
      "loss": 3.3209,
      "step": 397910
    },
    {
      "epoch": 0.829,
      "grad_norm": 1.9180898666381836,
      "learning_rate": 2.130207879503443e-05,
      "loss": 3.4173,
      "step": 397920
    },
    {
      "epoch": 0.8290208333333333,
      "grad_norm": 2.1641619205474854,
      "learning_rate": 2.1297015001438872e-05,
      "loss": 3.5745,
      "step": 397930
    },
    {
      "epoch": 0.8290416666666667,
      "grad_norm": 2.10404896736145,
      "learning_rate": 2.129195176378919e-05,
      "loss": 3.3846,
      "step": 397940
    },
    {
      "epoch": 0.8290625,
      "grad_norm": 2.426239490509033,
      "learning_rate": 2.1286889082107377e-05,
      "loss": 3.466,
      "step": 397950
    },
    {
      "epoch": 0.8290833333333333,
      "grad_norm": 2.7998571395874023,
      "learning_rate": 2.1281826956415287e-05,
      "loss": 3.4602,
      "step": 397960
    },
    {
      "epoch": 0.8291041666666666,
      "grad_norm": 2.1555099487304688,
      "learning_rate": 2.1276765386734685e-05,
      "loss": 3.5246,
      "step": 397970
    },
    {
      "epoch": 0.829125,
      "grad_norm": 3.277294397354126,
      "learning_rate": 2.1271704373087584e-05,
      "loss": 3.3993,
      "step": 397980
    },
    {
      "epoch": 0.8291458333333334,
      "grad_norm": 2.170496940612793,
      "learning_rate": 2.126664391549572e-05,
      "loss": 3.463,
      "step": 397990
    },
    {
      "epoch": 0.8291666666666667,
      "grad_norm": 2.074582099914551,
      "learning_rate": 2.1261584013980952e-05,
      "loss": 3.5475,
      "step": 398000
    },
    {
      "epoch": 0.8291666666666667,
      "eval_loss": 3.526790142059326,
      "eval_runtime": 7.3493,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 398000
    },
    {
      "epoch": 0.8291875,
      "grad_norm": 2.6124212741851807,
      "learning_rate": 2.125652466856527e-05,
      "loss": 3.4484,
      "step": 398010
    },
    {
      "epoch": 0.8292083333333333,
      "grad_norm": 1.7813441753387451,
      "learning_rate": 2.1251465879270407e-05,
      "loss": 3.3977,
      "step": 398020
    },
    {
      "epoch": 0.8292291666666667,
      "grad_norm": 1.7757328748703003,
      "learning_rate": 2.124640764611824e-05,
      "loss": 3.4242,
      "step": 398030
    },
    {
      "epoch": 0.82925,
      "grad_norm": 1.8686375617980957,
      "learning_rate": 2.124134996913064e-05,
      "loss": 3.5006,
      "step": 398040
    },
    {
      "epoch": 0.8292708333333333,
      "grad_norm": 1.7487242221832275,
      "learning_rate": 2.1236292848329416e-05,
      "loss": 3.4774,
      "step": 398050
    },
    {
      "epoch": 0.8292916666666666,
      "grad_norm": 2.1716854572296143,
      "learning_rate": 2.1231236283736457e-05,
      "loss": 3.3935,
      "step": 398060
    },
    {
      "epoch": 0.8293125,
      "grad_norm": 1.6485590934753418,
      "learning_rate": 2.1226180275373595e-05,
      "loss": 3.232,
      "step": 398070
    },
    {
      "epoch": 0.8293333333333334,
      "grad_norm": 1.926268219947815,
      "learning_rate": 2.122112482326266e-05,
      "loss": 3.4213,
      "step": 398080
    },
    {
      "epoch": 0.8293541666666666,
      "grad_norm": 2.083653450012207,
      "learning_rate": 2.121606992742548e-05,
      "loss": 3.5136,
      "step": 398090
    },
    {
      "epoch": 0.829375,
      "grad_norm": 2.001801013946533,
      "learning_rate": 2.12110155878839e-05,
      "loss": 3.4986,
      "step": 398100
    },
    {
      "epoch": 0.8293958333333333,
      "grad_norm": 1.949231505393982,
      "learning_rate": 2.120596180465976e-05,
      "loss": 3.4863,
      "step": 398110
    },
    {
      "epoch": 0.8294166666666667,
      "grad_norm": 2.017380475997925,
      "learning_rate": 2.1200908577774896e-05,
      "loss": 3.3915,
      "step": 398120
    },
    {
      "epoch": 0.8294375,
      "grad_norm": 1.8518986701965332,
      "learning_rate": 2.1195855907251103e-05,
      "loss": 3.3947,
      "step": 398130
    },
    {
      "epoch": 0.8294583333333333,
      "grad_norm": 1.8401169776916504,
      "learning_rate": 2.119080379311025e-05,
      "loss": 3.3577,
      "step": 398140
    },
    {
      "epoch": 0.8294791666666667,
      "grad_norm": 2.0475783348083496,
      "learning_rate": 2.118575223537412e-05,
      "loss": 3.4267,
      "step": 398150
    },
    {
      "epoch": 0.8295,
      "grad_norm": 2.1301987171173096,
      "learning_rate": 2.1180701234064563e-05,
      "loss": 3.5472,
      "step": 398160
    },
    {
      "epoch": 0.8295208333333334,
      "grad_norm": 2.479266405105591,
      "learning_rate": 2.117565078920339e-05,
      "loss": 3.4014,
      "step": 398170
    },
    {
      "epoch": 0.8295416666666666,
      "grad_norm": 2.362837076187134,
      "learning_rate": 2.1170600900812408e-05,
      "loss": 3.4089,
      "step": 398180
    },
    {
      "epoch": 0.8295625,
      "grad_norm": 2.2255914211273193,
      "learning_rate": 2.1165551568913425e-05,
      "loss": 3.4363,
      "step": 398190
    },
    {
      "epoch": 0.8295833333333333,
      "grad_norm": 1.986319661140442,
      "learning_rate": 2.116050279352828e-05,
      "loss": 3.4736,
      "step": 398200
    },
    {
      "epoch": 0.8296041666666667,
      "grad_norm": 2.1246280670166016,
      "learning_rate": 2.115545457467878e-05,
      "loss": 3.4347,
      "step": 398210
    },
    {
      "epoch": 0.829625,
      "grad_norm": 2.1610772609710693,
      "learning_rate": 2.115040691238667e-05,
      "loss": 3.5324,
      "step": 398220
    },
    {
      "epoch": 0.8296458333333333,
      "grad_norm": 2.152599334716797,
      "learning_rate": 2.1145359806673823e-05,
      "loss": 3.5147,
      "step": 398230
    },
    {
      "epoch": 0.8296666666666667,
      "grad_norm": 1.9389872550964355,
      "learning_rate": 2.1140313257562042e-05,
      "loss": 3.5296,
      "step": 398240
    },
    {
      "epoch": 0.8296875,
      "grad_norm": 2.09562087059021,
      "learning_rate": 2.1135267265073042e-05,
      "loss": 3.3407,
      "step": 398250
    },
    {
      "epoch": 0.8297083333333334,
      "grad_norm": 1.9394174814224243,
      "learning_rate": 2.1130221829228722e-05,
      "loss": 3.3712,
      "step": 398260
    },
    {
      "epoch": 0.8297291666666666,
      "grad_norm": 1.989611268043518,
      "learning_rate": 2.1125176950050866e-05,
      "loss": 3.4059,
      "step": 398270
    },
    {
      "epoch": 0.82975,
      "grad_norm": 1.929275631904602,
      "learning_rate": 2.1120132627561153e-05,
      "loss": 3.5406,
      "step": 398280
    },
    {
      "epoch": 0.8297708333333333,
      "grad_norm": 2.0474185943603516,
      "learning_rate": 2.1115088861781486e-05,
      "loss": 3.4118,
      "step": 398290
    },
    {
      "epoch": 0.8297916666666667,
      "grad_norm": 2.136259078979492,
      "learning_rate": 2.1110045652733665e-05,
      "loss": 3.2672,
      "step": 398300
    },
    {
      "epoch": 0.8298125,
      "grad_norm": 2.5357697010040283,
      "learning_rate": 2.1105003000439353e-05,
      "loss": 3.4555,
      "step": 398310
    },
    {
      "epoch": 0.8298333333333333,
      "grad_norm": 2.089695930480957,
      "learning_rate": 2.1099960904920448e-05,
      "loss": 3.4461,
      "step": 398320
    },
    {
      "epoch": 0.8298541666666667,
      "grad_norm": 1.8145281076431274,
      "learning_rate": 2.1094919366198722e-05,
      "loss": 3.2325,
      "step": 398330
    },
    {
      "epoch": 0.829875,
      "grad_norm": 1.8518109321594238,
      "learning_rate": 2.1089878384295883e-05,
      "loss": 3.401,
      "step": 398340
    },
    {
      "epoch": 0.8298958333333334,
      "grad_norm": 2.290865182876587,
      "learning_rate": 2.1084837959233753e-05,
      "loss": 3.4638,
      "step": 398350
    },
    {
      "epoch": 0.8299166666666666,
      "grad_norm": 2.1785058975219727,
      "learning_rate": 2.107979809103408e-05,
      "loss": 3.4205,
      "step": 398360
    },
    {
      "epoch": 0.8299375,
      "grad_norm": 2.1040985584259033,
      "learning_rate": 2.1074758779718658e-05,
      "loss": 3.3338,
      "step": 398370
    },
    {
      "epoch": 0.8299583333333334,
      "grad_norm": 2.3291280269622803,
      "learning_rate": 2.1069720025309243e-05,
      "loss": 3.3824,
      "step": 398380
    },
    {
      "epoch": 0.8299791666666667,
      "grad_norm": 2.3839762210845947,
      "learning_rate": 2.10646818278276e-05,
      "loss": 3.4467,
      "step": 398390
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.003349781036377,
      "learning_rate": 2.105964418729551e-05,
      "loss": 3.3977,
      "step": 398400
    },
    {
      "epoch": 0.8300208333333333,
      "grad_norm": 2.197653293609619,
      "learning_rate": 2.1054607103734705e-05,
      "loss": 3.4163,
      "step": 398410
    },
    {
      "epoch": 0.8300416666666667,
      "grad_norm": 2.587634563446045,
      "learning_rate": 2.1049570577166953e-05,
      "loss": 3.449,
      "step": 398420
    },
    {
      "epoch": 0.8300625,
      "grad_norm": 2.2950849533081055,
      "learning_rate": 2.1044534607614034e-05,
      "loss": 3.5283,
      "step": 398430
    },
    {
      "epoch": 0.8300833333333333,
      "grad_norm": 2.317946672439575,
      "learning_rate": 2.1039499195097666e-05,
      "loss": 3.2322,
      "step": 398440
    },
    {
      "epoch": 0.8301041666666666,
      "grad_norm": 2.0209579467773438,
      "learning_rate": 2.103446433963961e-05,
      "loss": 3.4309,
      "step": 398450
    },
    {
      "epoch": 0.830125,
      "grad_norm": 1.9290040731430054,
      "learning_rate": 2.1029430041261625e-05,
      "loss": 3.32,
      "step": 398460
    },
    {
      "epoch": 0.8301458333333334,
      "grad_norm": 1.9602527618408203,
      "learning_rate": 2.102439629998547e-05,
      "loss": 3.4514,
      "step": 398470
    },
    {
      "epoch": 0.8301666666666667,
      "grad_norm": 1.9544941186904907,
      "learning_rate": 2.1019363115832843e-05,
      "loss": 3.4054,
      "step": 398480
    },
    {
      "epoch": 0.8301875,
      "grad_norm": 3.1921346187591553,
      "learning_rate": 2.101433048882553e-05,
      "loss": 3.4145,
      "step": 398490
    },
    {
      "epoch": 0.8302083333333333,
      "grad_norm": 2.2242727279663086,
      "learning_rate": 2.1009298418985247e-05,
      "loss": 3.3859,
      "step": 398500
    },
    {
      "epoch": 0.8302291666666667,
      "grad_norm": 2.6329848766326904,
      "learning_rate": 2.1004266906333743e-05,
      "loss": 3.5165,
      "step": 398510
    },
    {
      "epoch": 0.83025,
      "grad_norm": 2.4523818492889404,
      "learning_rate": 2.0999235950892752e-05,
      "loss": 3.3757,
      "step": 398520
    },
    {
      "epoch": 0.8302708333333333,
      "grad_norm": 2.0034425258636475,
      "learning_rate": 2.0994205552683984e-05,
      "loss": 3.3642,
      "step": 398530
    },
    {
      "epoch": 0.8302916666666667,
      "grad_norm": 2.3285677433013916,
      "learning_rate": 2.0989175711729196e-05,
      "loss": 3.4833,
      "step": 398540
    },
    {
      "epoch": 0.8303125,
      "grad_norm": 2.5124592781066895,
      "learning_rate": 2.0984146428050096e-05,
      "loss": 3.5131,
      "step": 398550
    },
    {
      "epoch": 0.8303333333333334,
      "grad_norm": 1.9277935028076172,
      "learning_rate": 2.097911770166841e-05,
      "loss": 3.3952,
      "step": 398560
    },
    {
      "epoch": 0.8303541666666666,
      "grad_norm": 2.305354118347168,
      "learning_rate": 2.0974089532605877e-05,
      "loss": 3.4124,
      "step": 398570
    },
    {
      "epoch": 0.830375,
      "grad_norm": 2.0287935733795166,
      "learning_rate": 2.0969061920884234e-05,
      "loss": 3.4094,
      "step": 398580
    },
    {
      "epoch": 0.8303958333333333,
      "grad_norm": 2.012979030609131,
      "learning_rate": 2.0964034866525097e-05,
      "loss": 3.4589,
      "step": 398590
    },
    {
      "epoch": 0.8304166666666667,
      "grad_norm": 2.010509490966797,
      "learning_rate": 2.0959008369550286e-05,
      "loss": 3.574,
      "step": 398600
    },
    {
      "epoch": 0.8304375,
      "grad_norm": 2.2714874744415283,
      "learning_rate": 2.0953982429981524e-05,
      "loss": 3.3826,
      "step": 398610
    },
    {
      "epoch": 0.8304583333333333,
      "grad_norm": 1.8483920097351074,
      "learning_rate": 2.0948957047840436e-05,
      "loss": 3.343,
      "step": 398620
    },
    {
      "epoch": 0.8304791666666667,
      "grad_norm": 2.002598762512207,
      "learning_rate": 2.0943932223148752e-05,
      "loss": 3.342,
      "step": 398630
    },
    {
      "epoch": 0.8305,
      "grad_norm": 2.4437663555145264,
      "learning_rate": 2.093890795592825e-05,
      "loss": 3.3977,
      "step": 398640
    },
    {
      "epoch": 0.8305208333333334,
      "grad_norm": 1.9406237602233887,
      "learning_rate": 2.0933884246200554e-05,
      "loss": 3.4687,
      "step": 398650
    },
    {
      "epoch": 0.8305416666666666,
      "grad_norm": 2.7428736686706543,
      "learning_rate": 2.092886109398736e-05,
      "loss": 3.3746,
      "step": 398660
    },
    {
      "epoch": 0.8305625,
      "grad_norm": 1.759666085243225,
      "learning_rate": 2.0923838499310447e-05,
      "loss": 3.3683,
      "step": 398670
    },
    {
      "epoch": 0.8305833333333333,
      "grad_norm": 2.2866814136505127,
      "learning_rate": 2.0918816462191433e-05,
      "loss": 3.4224,
      "step": 398680
    },
    {
      "epoch": 0.8306041666666667,
      "grad_norm": 2.2558541297912598,
      "learning_rate": 2.0913794982652022e-05,
      "loss": 3.1925,
      "step": 398690
    },
    {
      "epoch": 0.830625,
      "grad_norm": 2.213019847869873,
      "learning_rate": 2.0908774060713974e-05,
      "loss": 3.304,
      "step": 398700
    },
    {
      "epoch": 0.8306458333333333,
      "grad_norm": 2.6844825744628906,
      "learning_rate": 2.090375369639889e-05,
      "loss": 3.4014,
      "step": 398710
    },
    {
      "epoch": 0.8306666666666667,
      "grad_norm": 1.9862746000289917,
      "learning_rate": 2.0898733889728487e-05,
      "loss": 3.3343,
      "step": 398720
    },
    {
      "epoch": 0.8306875,
      "grad_norm": 2.43831729888916,
      "learning_rate": 2.0893714640724447e-05,
      "loss": 3.2969,
      "step": 398730
    },
    {
      "epoch": 0.8307083333333334,
      "grad_norm": 2.563404083251953,
      "learning_rate": 2.0888695949408468e-05,
      "loss": 3.3334,
      "step": 398740
    },
    {
      "epoch": 0.8307291666666666,
      "grad_norm": 2.164177417755127,
      "learning_rate": 2.0883677815802217e-05,
      "loss": 3.5425,
      "step": 398750
    },
    {
      "epoch": 0.83075,
      "grad_norm": 2.0379562377929688,
      "learning_rate": 2.0878660239927366e-05,
      "loss": 3.3491,
      "step": 398760
    },
    {
      "epoch": 0.8307708333333333,
      "grad_norm": 2.060920000076294,
      "learning_rate": 2.0873643221805586e-05,
      "loss": 3.4773,
      "step": 398770
    },
    {
      "epoch": 0.8307916666666667,
      "grad_norm": 2.6690833568573,
      "learning_rate": 2.0868626761458567e-05,
      "loss": 3.3594,
      "step": 398780
    },
    {
      "epoch": 0.8308125,
      "grad_norm": 2.0250942707061768,
      "learning_rate": 2.0863610858907958e-05,
      "loss": 3.4044,
      "step": 398790
    },
    {
      "epoch": 0.8308333333333333,
      "grad_norm": 2.322859525680542,
      "learning_rate": 2.085859551417544e-05,
      "loss": 3.418,
      "step": 398800
    },
    {
      "epoch": 0.8308541666666667,
      "grad_norm": 2.2299726009368896,
      "learning_rate": 2.0853580727282667e-05,
      "loss": 3.3646,
      "step": 398810
    },
    {
      "epoch": 0.830875,
      "grad_norm": 1.9670178890228271,
      "learning_rate": 2.084856649825131e-05,
      "loss": 3.4779,
      "step": 398820
    },
    {
      "epoch": 0.8308958333333333,
      "grad_norm": 2.241637706756592,
      "learning_rate": 2.0843552827103018e-05,
      "loss": 3.3098,
      "step": 398830
    },
    {
      "epoch": 0.8309166666666666,
      "grad_norm": 2.0979151725769043,
      "learning_rate": 2.083853971385946e-05,
      "loss": 3.3092,
      "step": 398840
    },
    {
      "epoch": 0.8309375,
      "grad_norm": 2.512988567352295,
      "learning_rate": 2.083352715854229e-05,
      "loss": 3.3856,
      "step": 398850
    },
    {
      "epoch": 0.8309583333333334,
      "grad_norm": 1.9870142936706543,
      "learning_rate": 2.082851516117314e-05,
      "loss": 3.3845,
      "step": 398860
    },
    {
      "epoch": 0.8309791666666667,
      "grad_norm": 2.1727468967437744,
      "learning_rate": 2.082350372177368e-05,
      "loss": 3.4059,
      "step": 398870
    },
    {
      "epoch": 0.831,
      "grad_norm": 2.264430284500122,
      "learning_rate": 2.0818492840365557e-05,
      "loss": 3.481,
      "step": 398880
    },
    {
      "epoch": 0.8310208333333333,
      "grad_norm": 2.7373979091644287,
      "learning_rate": 2.081348251697042e-05,
      "loss": 3.4764,
      "step": 398890
    },
    {
      "epoch": 0.8310416666666667,
      "grad_norm": 2.0625133514404297,
      "learning_rate": 2.0808472751609884e-05,
      "loss": 3.3282,
      "step": 398900
    },
    {
      "epoch": 0.8310625,
      "grad_norm": 2.251058578491211,
      "learning_rate": 2.0803463544305615e-05,
      "loss": 3.5054,
      "step": 398910
    },
    {
      "epoch": 0.8310833333333333,
      "grad_norm": 2.1250267028808594,
      "learning_rate": 2.0798454895079246e-05,
      "loss": 3.4815,
      "step": 398920
    },
    {
      "epoch": 0.8311041666666666,
      "grad_norm": 1.787886381149292,
      "learning_rate": 2.0793446803952447e-05,
      "loss": 3.3684,
      "step": 398930
    },
    {
      "epoch": 0.831125,
      "grad_norm": 2.074540853500366,
      "learning_rate": 2.0788439270946743e-05,
      "loss": 3.5074,
      "step": 398940
    },
    {
      "epoch": 0.8311458333333334,
      "grad_norm": 2.0144667625427246,
      "learning_rate": 2.0783432296083873e-05,
      "loss": 3.5214,
      "step": 398950
    },
    {
      "epoch": 0.8311666666666667,
      "grad_norm": 2.226206064224243,
      "learning_rate": 2.0778425879385468e-05,
      "loss": 3.4543,
      "step": 398960
    },
    {
      "epoch": 0.8311875,
      "grad_norm": 2.1244091987609863,
      "learning_rate": 2.0773420020873028e-05,
      "loss": 3.4548,
      "step": 398970
    },
    {
      "epoch": 0.8312083333333333,
      "grad_norm": 2.4249751567840576,
      "learning_rate": 2.076841472056835e-05,
      "loss": 3.2556,
      "step": 398980
    },
    {
      "epoch": 0.8312291666666667,
      "grad_norm": 2.5606560707092285,
      "learning_rate": 2.0763409978492918e-05,
      "loss": 3.3733,
      "step": 398990
    },
    {
      "epoch": 0.83125,
      "grad_norm": 2.190685272216797,
      "learning_rate": 2.0758405794668366e-05,
      "loss": 3.4649,
      "step": 399000
    },
    {
      "epoch": 0.83125,
      "eval_loss": 3.5280251502990723,
      "eval_runtime": 7.0311,
      "eval_samples_per_second": 1.422,
      "eval_steps_per_second": 0.427,
      "step": 399000
    },
    {
      "epoch": 0.8312708333333333,
      "grad_norm": 2.0648608207702637,
      "learning_rate": 2.0753402169116422e-05,
      "loss": 3.3717,
      "step": 399010
    },
    {
      "epoch": 0.8312916666666667,
      "grad_norm": 2.2386398315429688,
      "learning_rate": 2.0748399101858575e-05,
      "loss": 3.3163,
      "step": 399020
    },
    {
      "epoch": 0.8313125,
      "grad_norm": 1.9907753467559814,
      "learning_rate": 2.0743396592916457e-05,
      "loss": 3.3166,
      "step": 399030
    },
    {
      "epoch": 0.8313333333333334,
      "grad_norm": 2.257732629776001,
      "learning_rate": 2.0738394642311763e-05,
      "loss": 3.5116,
      "step": 399040
    },
    {
      "epoch": 0.8313541666666666,
      "grad_norm": 2.021071672439575,
      "learning_rate": 2.073339325006601e-05,
      "loss": 3.3691,
      "step": 399050
    },
    {
      "epoch": 0.831375,
      "grad_norm": 2.0059592723846436,
      "learning_rate": 2.07283924162008e-05,
      "loss": 3.3576,
      "step": 399060
    },
    {
      "epoch": 0.8313958333333333,
      "grad_norm": 2.5195677280426025,
      "learning_rate": 2.072339214073783e-05,
      "loss": 3.3076,
      "step": 399070
    },
    {
      "epoch": 0.8314166666666667,
      "grad_norm": 2.3821423053741455,
      "learning_rate": 2.0718392423698606e-05,
      "loss": 3.5055,
      "step": 399080
    },
    {
      "epoch": 0.8314375,
      "grad_norm": 2.1140341758728027,
      "learning_rate": 2.071339326510475e-05,
      "loss": 3.3987,
      "step": 399090
    },
    {
      "epoch": 0.8314583333333333,
      "grad_norm": 2.579760789871216,
      "learning_rate": 2.0708394664977852e-05,
      "loss": 3.4053,
      "step": 399100
    },
    {
      "epoch": 0.8314791666666667,
      "grad_norm": 2.4230849742889404,
      "learning_rate": 2.0703396623339506e-05,
      "loss": 3.3908,
      "step": 399110
    },
    {
      "epoch": 0.8315,
      "grad_norm": 1.9905152320861816,
      "learning_rate": 2.0698399140211334e-05,
      "loss": 3.4055,
      "step": 399120
    },
    {
      "epoch": 0.8315208333333334,
      "grad_norm": 2.0107176303863525,
      "learning_rate": 2.0693402215614886e-05,
      "loss": 3.4557,
      "step": 399130
    },
    {
      "epoch": 0.8315416666666666,
      "grad_norm": 2.3538424968719482,
      "learning_rate": 2.068840584957174e-05,
      "loss": 3.4111,
      "step": 399140
    },
    {
      "epoch": 0.8315625,
      "grad_norm": 1.920853853225708,
      "learning_rate": 2.068341004210351e-05,
      "loss": 3.4954,
      "step": 399150
    },
    {
      "epoch": 0.8315833333333333,
      "grad_norm": 2.231330394744873,
      "learning_rate": 2.067841479323177e-05,
      "loss": 3.3127,
      "step": 399160
    },
    {
      "epoch": 0.8316041666666667,
      "grad_norm": 2.438839912414551,
      "learning_rate": 2.0673420102978077e-05,
      "loss": 3.5476,
      "step": 399170
    },
    {
      "epoch": 0.831625,
      "grad_norm": 2.439718246459961,
      "learning_rate": 2.0668425971364023e-05,
      "loss": 3.4371,
      "step": 399180
    },
    {
      "epoch": 0.8316458333333333,
      "grad_norm": 2.4278597831726074,
      "learning_rate": 2.0663432398411166e-05,
      "loss": 3.5249,
      "step": 399190
    },
    {
      "epoch": 0.8316666666666667,
      "grad_norm": 2.553032159805298,
      "learning_rate": 2.0658439384141095e-05,
      "loss": 3.4345,
      "step": 399200
    },
    {
      "epoch": 0.8316875,
      "grad_norm": 2.0862793922424316,
      "learning_rate": 2.0653446928575407e-05,
      "loss": 3.4754,
      "step": 399210
    },
    {
      "epoch": 0.8317083333333334,
      "grad_norm": 1.8705017566680908,
      "learning_rate": 2.064845503173555e-05,
      "loss": 3.4124,
      "step": 399220
    },
    {
      "epoch": 0.8317291666666666,
      "grad_norm": 2.344425916671753,
      "learning_rate": 2.0643463693643207e-05,
      "loss": 3.4675,
      "step": 399230
    },
    {
      "epoch": 0.83175,
      "grad_norm": 2.1168015003204346,
      "learning_rate": 2.0638472914319932e-05,
      "loss": 3.2863,
      "step": 399240
    },
    {
      "epoch": 0.8317708333333333,
      "grad_norm": 2.0001299381256104,
      "learning_rate": 2.0633482693787183e-05,
      "loss": 3.5026,
      "step": 399250
    },
    {
      "epoch": 0.8317916666666667,
      "grad_norm": 2.897021770477295,
      "learning_rate": 2.062849303206662e-05,
      "loss": 3.4252,
      "step": 399260
    },
    {
      "epoch": 0.8318125,
      "grad_norm": 2.4485180377960205,
      "learning_rate": 2.062350392917978e-05,
      "loss": 3.4449,
      "step": 399270
    },
    {
      "epoch": 0.8318333333333333,
      "grad_norm": 1.9413785934448242,
      "learning_rate": 2.061851538514812e-05,
      "loss": 3.3688,
      "step": 399280
    },
    {
      "epoch": 0.8318541666666667,
      "grad_norm": 3.2940497398376465,
      "learning_rate": 2.0613527399993307e-05,
      "loss": 3.3451,
      "step": 399290
    },
    {
      "epoch": 0.831875,
      "grad_norm": 2.637882709503174,
      "learning_rate": 2.060853997373687e-05,
      "loss": 3.3498,
      "step": 399300
    },
    {
      "epoch": 0.8318958333333333,
      "grad_norm": 1.9225419759750366,
      "learning_rate": 2.0603553106400262e-05,
      "loss": 3.3415,
      "step": 399310
    },
    {
      "epoch": 0.8319166666666666,
      "grad_norm": 2.3099775314331055,
      "learning_rate": 2.059856679800511e-05,
      "loss": 3.348,
      "step": 399320
    },
    {
      "epoch": 0.8319375,
      "grad_norm": 1.9863998889923096,
      "learning_rate": 2.0593581048572972e-05,
      "loss": 3.3529,
      "step": 399330
    },
    {
      "epoch": 0.8319583333333334,
      "grad_norm": 2.765918254852295,
      "learning_rate": 2.058859585812527e-05,
      "loss": 3.5248,
      "step": 399340
    },
    {
      "epoch": 0.8319791666666667,
      "grad_norm": 1.9799832105636597,
      "learning_rate": 2.0583611226683683e-05,
      "loss": 3.345,
      "step": 399350
    },
    {
      "epoch": 0.832,
      "grad_norm": 2.1898932456970215,
      "learning_rate": 2.0578627154269633e-05,
      "loss": 3.2718,
      "step": 399360
    },
    {
      "epoch": 0.8320208333333333,
      "grad_norm": 2.464094400405884,
      "learning_rate": 2.057364364090464e-05,
      "loss": 3.4368,
      "step": 399370
    },
    {
      "epoch": 0.8320416666666667,
      "grad_norm": 2.6924407482147217,
      "learning_rate": 2.0568660686610354e-05,
      "loss": 3.404,
      "step": 399380
    },
    {
      "epoch": 0.8320625,
      "grad_norm": 2.2020840644836426,
      "learning_rate": 2.056367829140819e-05,
      "loss": 3.3696,
      "step": 399390
    },
    {
      "epoch": 0.8320833333333333,
      "grad_norm": 2.361863374710083,
      "learning_rate": 2.055869645531965e-05,
      "loss": 3.3698,
      "step": 399400
    },
    {
      "epoch": 0.8321041666666666,
      "grad_norm": 2.411893367767334,
      "learning_rate": 2.05537151783664e-05,
      "loss": 3.5994,
      "step": 399410
    },
    {
      "epoch": 0.832125,
      "grad_norm": 2.0267879962921143,
      "learning_rate": 2.05487344605698e-05,
      "loss": 3.423,
      "step": 399420
    },
    {
      "epoch": 0.8321458333333334,
      "grad_norm": 2.1633100509643555,
      "learning_rate": 2.0543754301951405e-05,
      "loss": 3.46,
      "step": 399430
    },
    {
      "epoch": 0.8321666666666667,
      "grad_norm": 2.085165023803711,
      "learning_rate": 2.053877470253283e-05,
      "loss": 3.484,
      "step": 399440
    },
    {
      "epoch": 0.8321875,
      "grad_norm": 2.0363245010375977,
      "learning_rate": 2.0533795662335458e-05,
      "loss": 3.4215,
      "step": 399450
    },
    {
      "epoch": 0.8322083333333333,
      "grad_norm": 2.3086013793945312,
      "learning_rate": 2.05288171813808e-05,
      "loss": 3.2939,
      "step": 399460
    },
    {
      "epoch": 0.8322291666666667,
      "grad_norm": 2.05916690826416,
      "learning_rate": 2.0523839259690484e-05,
      "loss": 3.4926,
      "step": 399470
    },
    {
      "epoch": 0.83225,
      "grad_norm": 1.7286105155944824,
      "learning_rate": 2.05188618972859e-05,
      "loss": 3.2938,
      "step": 399480
    },
    {
      "epoch": 0.8322708333333333,
      "grad_norm": 1.832131266593933,
      "learning_rate": 2.0513885094188565e-05,
      "loss": 3.3234,
      "step": 399490
    },
    {
      "epoch": 0.8322916666666667,
      "grad_norm": 1.7790488004684448,
      "learning_rate": 2.0508908850419996e-05,
      "loss": 3.5073,
      "step": 399500
    },
    {
      "epoch": 0.8323125,
      "grad_norm": 2.2538180351257324,
      "learning_rate": 2.0503933166001695e-05,
      "loss": 3.4597,
      "step": 399510
    },
    {
      "epoch": 0.8323333333333334,
      "grad_norm": 1.9697132110595703,
      "learning_rate": 2.0498958040955144e-05,
      "loss": 3.5089,
      "step": 399520
    },
    {
      "epoch": 0.8323541666666666,
      "grad_norm": 2.3011081218719482,
      "learning_rate": 2.0493983475301822e-05,
      "loss": 3.393,
      "step": 399530
    },
    {
      "epoch": 0.832375,
      "grad_norm": 2.795574903488159,
      "learning_rate": 2.048900946906325e-05,
      "loss": 3.3029,
      "step": 399540
    },
    {
      "epoch": 0.8323958333333333,
      "grad_norm": 2.0811805725097656,
      "learning_rate": 2.0484036022260874e-05,
      "loss": 3.4558,
      "step": 399550
    },
    {
      "epoch": 0.8324166666666667,
      "grad_norm": 2.6434292793273926,
      "learning_rate": 2.0479063134916194e-05,
      "loss": 3.4402,
      "step": 399560
    },
    {
      "epoch": 0.8324375,
      "grad_norm": 2.0778563022613525,
      "learning_rate": 2.0474090807050712e-05,
      "loss": 3.4408,
      "step": 399570
    },
    {
      "epoch": 0.8324583333333333,
      "grad_norm": 2.149177074432373,
      "learning_rate": 2.046911903868591e-05,
      "loss": 3.328,
      "step": 399580
    },
    {
      "epoch": 0.8324791666666667,
      "grad_norm": 2.4001426696777344,
      "learning_rate": 2.046414782984317e-05,
      "loss": 3.4758,
      "step": 399590
    },
    {
      "epoch": 0.8325,
      "grad_norm": 1.9354647397994995,
      "learning_rate": 2.045917718054409e-05,
      "loss": 3.5404,
      "step": 399600
    },
    {
      "epoch": 0.8325208333333334,
      "grad_norm": 2.4619078636169434,
      "learning_rate": 2.0454207090810105e-05,
      "loss": 3.4417,
      "step": 399610
    },
    {
      "epoch": 0.8325416666666666,
      "grad_norm": 1.9112138748168945,
      "learning_rate": 2.0449237560662612e-05,
      "loss": 3.5968,
      "step": 399620
    },
    {
      "epoch": 0.8325625,
      "grad_norm": 2.1034128665924072,
      "learning_rate": 2.0444268590123147e-05,
      "loss": 3.5255,
      "step": 399630
    },
    {
      "epoch": 0.8325833333333333,
      "grad_norm": 1.6950925588607788,
      "learning_rate": 2.0439300179213208e-05,
      "loss": 3.3499,
      "step": 399640
    },
    {
      "epoch": 0.8326041666666667,
      "grad_norm": 2.617274284362793,
      "learning_rate": 2.0434332327954145e-05,
      "loss": 3.4357,
      "step": 399650
    },
    {
      "epoch": 0.832625,
      "grad_norm": 2.3907711505889893,
      "learning_rate": 2.0429365036367508e-05,
      "loss": 3.3946,
      "step": 399660
    },
    {
      "epoch": 0.8326458333333333,
      "grad_norm": 2.226102828979492,
      "learning_rate": 2.042439830447476e-05,
      "loss": 3.5122,
      "step": 399670
    },
    {
      "epoch": 0.8326666666666667,
      "grad_norm": 1.8599216938018799,
      "learning_rate": 2.0419432132297253e-05,
      "loss": 3.4692,
      "step": 399680
    },
    {
      "epoch": 0.8326875,
      "grad_norm": 2.731333017349243,
      "learning_rate": 2.0414466519856554e-05,
      "loss": 3.4399,
      "step": 399690
    },
    {
      "epoch": 0.8327083333333334,
      "grad_norm": 2.8301761150360107,
      "learning_rate": 2.0409501467174077e-05,
      "loss": 3.3465,
      "step": 399700
    },
    {
      "epoch": 0.8327291666666666,
      "grad_norm": 2.3442296981811523,
      "learning_rate": 2.0404536974271207e-05,
      "loss": 3.5273,
      "step": 399710
    },
    {
      "epoch": 0.83275,
      "grad_norm": 1.8798127174377441,
      "learning_rate": 2.0399573041169508e-05,
      "loss": 3.4802,
      "step": 399720
    },
    {
      "epoch": 0.8327708333333333,
      "grad_norm": 2.1413815021514893,
      "learning_rate": 2.0394609667890315e-05,
      "loss": 3.4788,
      "step": 399730
    },
    {
      "epoch": 0.8327916666666667,
      "grad_norm": 2.172734260559082,
      "learning_rate": 2.0389646854455078e-05,
      "loss": 3.5651,
      "step": 399740
    },
    {
      "epoch": 0.8328125,
      "grad_norm": 2.2646431922912598,
      "learning_rate": 2.0384684600885326e-05,
      "loss": 3.4465,
      "step": 399750
    },
    {
      "epoch": 0.8328333333333333,
      "grad_norm": 2.116539716720581,
      "learning_rate": 2.0379722907202394e-05,
      "loss": 3.3671,
      "step": 399760
    },
    {
      "epoch": 0.8328541666666667,
      "grad_norm": 1.8797835111618042,
      "learning_rate": 2.0374761773427716e-05,
      "loss": 3.415,
      "step": 399770
    },
    {
      "epoch": 0.832875,
      "grad_norm": 1.7711892127990723,
      "learning_rate": 2.036980119958284e-05,
      "loss": 3.5158,
      "step": 399780
    },
    {
      "epoch": 0.8328958333333333,
      "grad_norm": 2.0741701126098633,
      "learning_rate": 2.0364841185689067e-05,
      "loss": 3.3743,
      "step": 399790
    },
    {
      "epoch": 0.8329166666666666,
      "grad_norm": 2.8381640911102295,
      "learning_rate": 2.0359881731767863e-05,
      "loss": 3.4251,
      "step": 399800
    },
    {
      "epoch": 0.8329375,
      "grad_norm": 2.359038829803467,
      "learning_rate": 2.0354922837840675e-05,
      "loss": 3.2737,
      "step": 399810
    },
    {
      "epoch": 0.8329583333333334,
      "grad_norm": 2.45957350730896,
      "learning_rate": 2.034996450392889e-05,
      "loss": 3.5459,
      "step": 399820
    },
    {
      "epoch": 0.8329791666666667,
      "grad_norm": 2.00062894821167,
      "learning_rate": 2.0345006730053935e-05,
      "loss": 3.3906,
      "step": 399830
    },
    {
      "epoch": 0.833,
      "grad_norm": 2.247788906097412,
      "learning_rate": 2.0340049516237232e-05,
      "loss": 3.351,
      "step": 399840
    },
    {
      "epoch": 0.8330208333333333,
      "grad_norm": 2.5499956607818604,
      "learning_rate": 2.0335092862500195e-05,
      "loss": 3.4319,
      "step": 399850
    },
    {
      "epoch": 0.8330416666666667,
      "grad_norm": 1.8547335863113403,
      "learning_rate": 2.0330136768864226e-05,
      "loss": 3.3924,
      "step": 399860
    },
    {
      "epoch": 0.8330625,
      "grad_norm": 1.8536921739578247,
      "learning_rate": 2.0325181235350752e-05,
      "loss": 3.4772,
      "step": 399870
    },
    {
      "epoch": 0.8330833333333333,
      "grad_norm": 1.9140304327011108,
      "learning_rate": 2.0320226261981158e-05,
      "loss": 3.5238,
      "step": 399880
    },
    {
      "epoch": 0.8331041666666666,
      "grad_norm": 2.160762310028076,
      "learning_rate": 2.0315271848776848e-05,
      "loss": 3.3256,
      "step": 399890
    },
    {
      "epoch": 0.833125,
      "grad_norm": 2.3848700523376465,
      "learning_rate": 2.0310317995759235e-05,
      "loss": 3.4197,
      "step": 399900
    },
    {
      "epoch": 0.8331458333333334,
      "grad_norm": 1.9858390092849731,
      "learning_rate": 2.0305364702949718e-05,
      "loss": 3.3413,
      "step": 399910
    },
    {
      "epoch": 0.8331666666666667,
      "grad_norm": 1.8039146661758423,
      "learning_rate": 2.0300411970369696e-05,
      "loss": 3.4318,
      "step": 399920
    },
    {
      "epoch": 0.8331875,
      "grad_norm": 2.474914312362671,
      "learning_rate": 2.029545979804055e-05,
      "loss": 3.3369,
      "step": 399930
    },
    {
      "epoch": 0.8332083333333333,
      "grad_norm": 1.8646126985549927,
      "learning_rate": 2.029050818598367e-05,
      "loss": 3.4313,
      "step": 399940
    },
    {
      "epoch": 0.8332291666666667,
      "grad_norm": 2.5477724075317383,
      "learning_rate": 2.0285557134220455e-05,
      "loss": 3.4358,
      "step": 399950
    },
    {
      "epoch": 0.83325,
      "grad_norm": 2.181621551513672,
      "learning_rate": 2.0280606642772297e-05,
      "loss": 3.6129,
      "step": 399960
    },
    {
      "epoch": 0.8332708333333333,
      "grad_norm": 2.2131271362304688,
      "learning_rate": 2.0275656711660564e-05,
      "loss": 3.5692,
      "step": 399970
    },
    {
      "epoch": 0.8332916666666667,
      "grad_norm": 2.0656228065490723,
      "learning_rate": 2.0270707340906676e-05,
      "loss": 3.6106,
      "step": 399980
    },
    {
      "epoch": 0.8333125,
      "grad_norm": 2.51530122756958,
      "learning_rate": 2.0265758530531917e-05,
      "loss": 3.4099,
      "step": 399990
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 3.0804049968719482,
      "learning_rate": 2.0260810280557764e-05,
      "loss": 3.3833,
      "step": 400000
    },
    {
      "epoch": 0.8333333333333334,
      "eval_loss": 3.5288262367248535,
      "eval_runtime": 6.8421,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.438,
      "step": 400000
    },
    {
      "epoch": 0.8333541666666666,
      "grad_norm": 2.2194252014160156,
      "learning_rate": 2.025586259100559e-05,
      "loss": 3.3364,
      "step": 400010
    },
    {
      "epoch": 0.833375,
      "grad_norm": 2.325751543045044,
      "learning_rate": 2.0250915461896672e-05,
      "loss": 3.4038,
      "step": 400020
    },
    {
      "epoch": 0.8333958333333333,
      "grad_norm": 2.0114927291870117,
      "learning_rate": 2.0245968893252464e-05,
      "loss": 3.5201,
      "step": 400030
    },
    {
      "epoch": 0.8334166666666667,
      "grad_norm": 2.0622165203094482,
      "learning_rate": 2.024102288509436e-05,
      "loss": 3.3621,
      "step": 400040
    },
    {
      "epoch": 0.8334375,
      "grad_norm": 2.1625990867614746,
      "learning_rate": 2.0236077437443597e-05,
      "loss": 3.363,
      "step": 400050
    },
    {
      "epoch": 0.8334583333333333,
      "grad_norm": 1.9721918106079102,
      "learning_rate": 2.0231132550321644e-05,
      "loss": 3.5142,
      "step": 400060
    },
    {
      "epoch": 0.8334791666666667,
      "grad_norm": 2.798427104949951,
      "learning_rate": 2.0226188223749862e-05,
      "loss": 3.519,
      "step": 400070
    },
    {
      "epoch": 0.8335,
      "grad_norm": 2.2202892303466797,
      "learning_rate": 2.022124445774952e-05,
      "loss": 3.4133,
      "step": 400080
    },
    {
      "epoch": 0.8335208333333334,
      "grad_norm": 1.9160679578781128,
      "learning_rate": 2.02163012523421e-05,
      "loss": 3.4144,
      "step": 400090
    },
    {
      "epoch": 0.8335416666666666,
      "grad_norm": 2.1997604370117188,
      "learning_rate": 2.0211358607548848e-05,
      "loss": 3.3798,
      "step": 400100
    },
    {
      "epoch": 0.8335625,
      "grad_norm": 2.177696943283081,
      "learning_rate": 2.0206416523391173e-05,
      "loss": 3.3991,
      "step": 400110
    },
    {
      "epoch": 0.8335833333333333,
      "grad_norm": 2.265648126602173,
      "learning_rate": 2.020147499989038e-05,
      "loss": 3.4781,
      "step": 400120
    },
    {
      "epoch": 0.8336041666666667,
      "grad_norm": 1.910746455192566,
      "learning_rate": 2.0196534037067848e-05,
      "loss": 3.3755,
      "step": 400130
    },
    {
      "epoch": 0.833625,
      "grad_norm": 2.5183703899383545,
      "learning_rate": 2.01915936349449e-05,
      "loss": 3.4919,
      "step": 400140
    },
    {
      "epoch": 0.8336458333333333,
      "grad_norm": 2.5089797973632812,
      "learning_rate": 2.01866537935429e-05,
      "loss": 3.5015,
      "step": 400150
    },
    {
      "epoch": 0.8336666666666667,
      "grad_norm": 2.3991239070892334,
      "learning_rate": 2.0181714512883158e-05,
      "loss": 3.3794,
      "step": 400160
    },
    {
      "epoch": 0.8336875,
      "grad_norm": 3.034254550933838,
      "learning_rate": 2.0176775792987032e-05,
      "loss": 3.4243,
      "step": 400170
    },
    {
      "epoch": 0.8337083333333334,
      "grad_norm": 2.5724663734436035,
      "learning_rate": 2.0171837633875842e-05,
      "loss": 3.5221,
      "step": 400180
    },
    {
      "epoch": 0.8337291666666666,
      "grad_norm": 2.6517460346221924,
      "learning_rate": 2.016690003557092e-05,
      "loss": 3.5732,
      "step": 400190
    },
    {
      "epoch": 0.83375,
      "grad_norm": 2.2471792697906494,
      "learning_rate": 2.01619629980936e-05,
      "loss": 3.4045,
      "step": 400200
    },
    {
      "epoch": 0.8337708333333333,
      "grad_norm": 2.2527053356170654,
      "learning_rate": 2.0157026521465214e-05,
      "loss": 3.4207,
      "step": 400210
    },
    {
      "epoch": 0.8337916666666667,
      "grad_norm": 1.875502347946167,
      "learning_rate": 2.0152090605707076e-05,
      "loss": 3.4372,
      "step": 400220
    },
    {
      "epoch": 0.8338125,
      "grad_norm": 2.1202800273895264,
      "learning_rate": 2.014715525084051e-05,
      "loss": 3.3916,
      "step": 400230
    },
    {
      "epoch": 0.8338333333333333,
      "grad_norm": 2.0166773796081543,
      "learning_rate": 2.014222045688682e-05,
      "loss": 3.3178,
      "step": 400240
    },
    {
      "epoch": 0.8338541666666667,
      "grad_norm": 1.9563697576522827,
      "learning_rate": 2.0137286223867348e-05,
      "loss": 3.4394,
      "step": 400250
    },
    {
      "epoch": 0.833875,
      "grad_norm": 2.4915831089019775,
      "learning_rate": 2.013235255180341e-05,
      "loss": 3.4853,
      "step": 400260
    },
    {
      "epoch": 0.8338958333333333,
      "grad_norm": 2.462002754211426,
      "learning_rate": 2.0127419440716286e-05,
      "loss": 3.4046,
      "step": 400270
    },
    {
      "epoch": 0.8339166666666666,
      "grad_norm": 2.134176015853882,
      "learning_rate": 2.0122486890627308e-05,
      "loss": 3.5163,
      "step": 400280
    },
    {
      "epoch": 0.8339375,
      "grad_norm": 2.558000326156616,
      "learning_rate": 2.0117554901557782e-05,
      "loss": 3.4115,
      "step": 400290
    },
    {
      "epoch": 0.8339583333333334,
      "grad_norm": 2.0646119117736816,
      "learning_rate": 2.0112623473529e-05,
      "loss": 3.3144,
      "step": 400300
    },
    {
      "epoch": 0.8339791666666667,
      "grad_norm": 2.780442476272583,
      "learning_rate": 2.0107692606562264e-05,
      "loss": 3.3725,
      "step": 400310
    },
    {
      "epoch": 0.834,
      "grad_norm": 2.770261526107788,
      "learning_rate": 2.0102762300678894e-05,
      "loss": 3.3605,
      "step": 400320
    },
    {
      "epoch": 0.8340208333333333,
      "grad_norm": 1.815169095993042,
      "learning_rate": 2.0097832555900168e-05,
      "loss": 3.4398,
      "step": 400330
    },
    {
      "epoch": 0.8340416666666667,
      "grad_norm": 1.963654637336731,
      "learning_rate": 2.009290337224739e-05,
      "loss": 3.4487,
      "step": 400340
    },
    {
      "epoch": 0.8340625,
      "grad_norm": 2.359445571899414,
      "learning_rate": 2.0087974749741886e-05,
      "loss": 3.3328,
      "step": 400350
    },
    {
      "epoch": 0.8340833333333333,
      "grad_norm": 2.1032562255859375,
      "learning_rate": 2.008304668840483e-05,
      "loss": 3.3938,
      "step": 400360
    },
    {
      "epoch": 0.8341041666666666,
      "grad_norm": 2.4349448680877686,
      "learning_rate": 2.0078119188257635e-05,
      "loss": 3.3424,
      "step": 400370
    },
    {
      "epoch": 0.834125,
      "grad_norm": 2.5469472408294678,
      "learning_rate": 2.007319224932155e-05,
      "loss": 3.5107,
      "step": 400380
    },
    {
      "epoch": 0.8341458333333334,
      "grad_norm": 2.035701274871826,
      "learning_rate": 2.0068265871617828e-05,
      "loss": 3.5225,
      "step": 400390
    },
    {
      "epoch": 0.8341666666666666,
      "grad_norm": 2.0935420989990234,
      "learning_rate": 2.0063340055167748e-05,
      "loss": 3.5104,
      "step": 400400
    },
    {
      "epoch": 0.8341875,
      "grad_norm": 2.46370792388916,
      "learning_rate": 2.0058414799992643e-05,
      "loss": 3.4606,
      "step": 400410
    },
    {
      "epoch": 0.8342083333333333,
      "grad_norm": 2.6315503120422363,
      "learning_rate": 2.0053490106113733e-05,
      "loss": 3.4878,
      "step": 400420
    },
    {
      "epoch": 0.8342291666666667,
      "grad_norm": 2.0407614707946777,
      "learning_rate": 2.0048565973552284e-05,
      "loss": 3.3985,
      "step": 400430
    },
    {
      "epoch": 0.83425,
      "grad_norm": 2.768310546875,
      "learning_rate": 2.0043642402329656e-05,
      "loss": 3.3768,
      "step": 400440
    },
    {
      "epoch": 0.8342708333333333,
      "grad_norm": 2.531341552734375,
      "learning_rate": 2.0038719392467008e-05,
      "loss": 3.3445,
      "step": 400450
    },
    {
      "epoch": 0.8342916666666667,
      "grad_norm": 2.1732795238494873,
      "learning_rate": 2.0033796943985613e-05,
      "loss": 3.3752,
      "step": 400460
    },
    {
      "epoch": 0.8343125,
      "grad_norm": 2.4767937660217285,
      "learning_rate": 2.0028875056906864e-05,
      "loss": 3.4959,
      "step": 400470
    },
    {
      "epoch": 0.8343333333333334,
      "grad_norm": 2.2186615467071533,
      "learning_rate": 2.002395373125187e-05,
      "loss": 3.3334,
      "step": 400480
    },
    {
      "epoch": 0.8343541666666666,
      "grad_norm": 1.8906177282333374,
      "learning_rate": 2.0019032967041948e-05,
      "loss": 3.3316,
      "step": 400490
    },
    {
      "epoch": 0.834375,
      "grad_norm": 1.919969916343689,
      "learning_rate": 2.001411276429837e-05,
      "loss": 3.5275,
      "step": 400500
    },
    {
      "epoch": 0.8343958333333333,
      "grad_norm": 2.204850673675537,
      "learning_rate": 2.000919312304236e-05,
      "loss": 3.5075,
      "step": 400510
    },
    {
      "epoch": 0.8344166666666667,
      "grad_norm": 2.228163242340088,
      "learning_rate": 2.0004274043295194e-05,
      "loss": 3.4117,
      "step": 400520
    },
    {
      "epoch": 0.8344375,
      "grad_norm": 2.2369940280914307,
      "learning_rate": 1.9999355525078096e-05,
      "loss": 3.5076,
      "step": 400530
    },
    {
      "epoch": 0.8344583333333333,
      "grad_norm": 2.166090488433838,
      "learning_rate": 1.9994437568412326e-05,
      "loss": 3.4163,
      "step": 400540
    },
    {
      "epoch": 0.8344791666666667,
      "grad_norm": 2.2257115840911865,
      "learning_rate": 1.9989520173319123e-05,
      "loss": 3.5282,
      "step": 400550
    },
    {
      "epoch": 0.8345,
      "grad_norm": 2.1675333976745605,
      "learning_rate": 1.9984603339819742e-05,
      "loss": 3.508,
      "step": 400560
    },
    {
      "epoch": 0.8345208333333334,
      "grad_norm": 1.9339632987976074,
      "learning_rate": 1.9979687067935402e-05,
      "loss": 3.3757,
      "step": 400570
    },
    {
      "epoch": 0.8345416666666666,
      "grad_norm": 2.062544822692871,
      "learning_rate": 1.9974771357687365e-05,
      "loss": 3.3834,
      "step": 400580
    },
    {
      "epoch": 0.8345625,
      "grad_norm": 2.084653615951538,
      "learning_rate": 1.996985620909683e-05,
      "loss": 3.499,
      "step": 400590
    },
    {
      "epoch": 0.8345833333333333,
      "grad_norm": 2.241117000579834,
      "learning_rate": 1.9964941622185048e-05,
      "loss": 3.3889,
      "step": 400600
    },
    {
      "epoch": 0.8346041666666667,
      "grad_norm": 1.955564022064209,
      "learning_rate": 1.9960027596973255e-05,
      "loss": 3.3404,
      "step": 400610
    },
    {
      "epoch": 0.834625,
      "grad_norm": 2.06278133392334,
      "learning_rate": 1.9955114133482665e-05,
      "loss": 3.368,
      "step": 400620
    },
    {
      "epoch": 0.8346458333333333,
      "grad_norm": 2.034761905670166,
      "learning_rate": 1.995020123173451e-05,
      "loss": 3.3559,
      "step": 400630
    },
    {
      "epoch": 0.8346666666666667,
      "grad_norm": 2.25640869140625,
      "learning_rate": 1.994528889174999e-05,
      "loss": 3.4395,
      "step": 400640
    },
    {
      "epoch": 0.8346875,
      "grad_norm": 2.0764646530151367,
      "learning_rate": 1.994037711355037e-05,
      "loss": 3.4086,
      "step": 400650
    },
    {
      "epoch": 0.8347083333333334,
      "grad_norm": 1.9791076183319092,
      "learning_rate": 1.993546589715682e-05,
      "loss": 3.4612,
      "step": 400660
    },
    {
      "epoch": 0.8347291666666666,
      "grad_norm": 2.583174228668213,
      "learning_rate": 1.993055524259059e-05,
      "loss": 3.3799,
      "step": 400670
    },
    {
      "epoch": 0.83475,
      "grad_norm": 2.069458246231079,
      "learning_rate": 1.992564514987286e-05,
      "loss": 3.4524,
      "step": 400680
    },
    {
      "epoch": 0.8347708333333334,
      "grad_norm": 2.215437650680542,
      "learning_rate": 1.9920735619024864e-05,
      "loss": 3.3952,
      "step": 400690
    },
    {
      "epoch": 0.8347916666666667,
      "grad_norm": 2.0065321922302246,
      "learning_rate": 1.9915826650067834e-05,
      "loss": 3.3359,
      "step": 400700
    },
    {
      "epoch": 0.8348125,
      "grad_norm": 2.104475975036621,
      "learning_rate": 1.9910918243022872e-05,
      "loss": 3.451,
      "step": 400710
    },
    {
      "epoch": 0.8348333333333333,
      "grad_norm": 2.0075087547302246,
      "learning_rate": 1.9906010397911324e-05,
      "loss": 3.4156,
      "step": 400720
    },
    {
      "epoch": 0.8348541666666667,
      "grad_norm": 2.451974391937256,
      "learning_rate": 1.990110311475428e-05,
      "loss": 3.5682,
      "step": 400730
    },
    {
      "epoch": 0.834875,
      "grad_norm": 2.1547632217407227,
      "learning_rate": 1.9896196393572934e-05,
      "loss": 3.4949,
      "step": 400740
    },
    {
      "epoch": 0.8348958333333333,
      "grad_norm": 1.9212522506713867,
      "learning_rate": 1.9891290234388602e-05,
      "loss": 3.5382,
      "step": 400750
    },
    {
      "epoch": 0.8349166666666666,
      "grad_norm": 2.22886323928833,
      "learning_rate": 1.9886384637222354e-05,
      "loss": 3.4129,
      "step": 400760
    },
    {
      "epoch": 0.8349375,
      "grad_norm": 2.284348487854004,
      "learning_rate": 1.9881479602095385e-05,
      "loss": 3.4361,
      "step": 400770
    },
    {
      "epoch": 0.8349583333333334,
      "grad_norm": 2.1722218990325928,
      "learning_rate": 1.9876575129028983e-05,
      "loss": 3.4189,
      "step": 400780
    },
    {
      "epoch": 0.8349791666666667,
      "grad_norm": 2.2403573989868164,
      "learning_rate": 1.9871671218044243e-05,
      "loss": 3.4257,
      "step": 400790
    },
    {
      "epoch": 0.835,
      "grad_norm": 2.220743179321289,
      "learning_rate": 1.9866767869162355e-05,
      "loss": 3.4447,
      "step": 400800
    },
    {
      "epoch": 0.8350208333333333,
      "grad_norm": 2.649683952331543,
      "learning_rate": 1.986186508240456e-05,
      "loss": 3.3752,
      "step": 400810
    },
    {
      "epoch": 0.8350416666666667,
      "grad_norm": 2.1166796684265137,
      "learning_rate": 1.985696285779198e-05,
      "loss": 3.5065,
      "step": 400820
    },
    {
      "epoch": 0.8350625,
      "grad_norm": 2.1058082580566406,
      "learning_rate": 1.9852061195345763e-05,
      "loss": 3.4163,
      "step": 400830
    },
    {
      "epoch": 0.8350833333333333,
      "grad_norm": 1.8591052293777466,
      "learning_rate": 1.984716009508721e-05,
      "loss": 3.371,
      "step": 400840
    },
    {
      "epoch": 0.8351041666666666,
      "grad_norm": 2.034024953842163,
      "learning_rate": 1.9842259557037353e-05,
      "loss": 3.401,
      "step": 400850
    },
    {
      "epoch": 0.835125,
      "grad_norm": 1.9292136430740356,
      "learning_rate": 1.9837359581217426e-05,
      "loss": 3.513,
      "step": 400860
    },
    {
      "epoch": 0.8351458333333334,
      "grad_norm": 1.9612754583358765,
      "learning_rate": 1.9832460167648577e-05,
      "loss": 3.3778,
      "step": 400870
    },
    {
      "epoch": 0.8351666666666666,
      "grad_norm": 2.9427239894866943,
      "learning_rate": 1.9827561316351993e-05,
      "loss": 3.4818,
      "step": 400880
    },
    {
      "epoch": 0.8351875,
      "grad_norm": 2.010955810546875,
      "learning_rate": 1.98226630273488e-05,
      "loss": 3.4327,
      "step": 400890
    },
    {
      "epoch": 0.8352083333333333,
      "grad_norm": 2.0431036949157715,
      "learning_rate": 1.981776530066017e-05,
      "loss": 3.3739,
      "step": 400900
    },
    {
      "epoch": 0.8352291666666667,
      "grad_norm": 2.1357247829437256,
      "learning_rate": 1.9812868136307287e-05,
      "loss": 3.4307,
      "step": 400910
    },
    {
      "epoch": 0.83525,
      "grad_norm": 1.8322880268096924,
      "learning_rate": 1.980797153431126e-05,
      "loss": 3.2336,
      "step": 400920
    },
    {
      "epoch": 0.8352708333333333,
      "grad_norm": 2.0587360858917236,
      "learning_rate": 1.980307549469328e-05,
      "loss": 3.3921,
      "step": 400930
    },
    {
      "epoch": 0.8352916666666667,
      "grad_norm": 2.009686231613159,
      "learning_rate": 1.9798180017474464e-05,
      "loss": 3.4358,
      "step": 400940
    },
    {
      "epoch": 0.8353125,
      "grad_norm": 2.2475647926330566,
      "learning_rate": 1.9793285102675987e-05,
      "loss": 3.4366,
      "step": 400950
    },
    {
      "epoch": 0.8353333333333334,
      "grad_norm": 2.0329954624176025,
      "learning_rate": 1.978839075031897e-05,
      "loss": 3.4214,
      "step": 400960
    },
    {
      "epoch": 0.8353541666666666,
      "grad_norm": 2.386504888534546,
      "learning_rate": 1.9783496960424567e-05,
      "loss": 3.4237,
      "step": 400970
    },
    {
      "epoch": 0.835375,
      "grad_norm": 2.2213966846466064,
      "learning_rate": 1.9778603733013936e-05,
      "loss": 3.5522,
      "step": 400980
    },
    {
      "epoch": 0.8353958333333333,
      "grad_norm": 1.8664220571517944,
      "learning_rate": 1.9773711068108134e-05,
      "loss": 3.3557,
      "step": 400990
    },
    {
      "epoch": 0.8354166666666667,
      "grad_norm": 2.3921022415161133,
      "learning_rate": 1.9768818965728388e-05,
      "loss": 3.3906,
      "step": 401000
    },
    {
      "epoch": 0.8354166666666667,
      "eval_loss": 3.524906635284424,
      "eval_runtime": 6.8747,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.436,
      "step": 401000
    },
    {
      "epoch": 0.8354375,
      "grad_norm": 2.0993378162384033,
      "learning_rate": 1.976392742589582e-05,
      "loss": 3.3019,
      "step": 401010
    },
    {
      "epoch": 0.8354583333333333,
      "grad_norm": 3.038662910461426,
      "learning_rate": 1.9759036448631475e-05,
      "loss": 3.4791,
      "step": 401020
    },
    {
      "epoch": 0.8354791666666667,
      "grad_norm": 2.4171719551086426,
      "learning_rate": 1.9754146033956575e-05,
      "loss": 3.4037,
      "step": 401030
    },
    {
      "epoch": 0.8355,
      "grad_norm": 1.9249240159988403,
      "learning_rate": 1.974925618189225e-05,
      "loss": 3.3001,
      "step": 401040
    },
    {
      "epoch": 0.8355208333333334,
      "grad_norm": 2.433591604232788,
      "learning_rate": 1.9744366892459494e-05,
      "loss": 3.5217,
      "step": 401050
    },
    {
      "epoch": 0.8355416666666666,
      "grad_norm": 2.102006435394287,
      "learning_rate": 1.9739478165679566e-05,
      "loss": 3.4239,
      "step": 401060
    },
    {
      "epoch": 0.8355625,
      "grad_norm": 2.3148951530456543,
      "learning_rate": 1.973459000157355e-05,
      "loss": 3.5175,
      "step": 401070
    },
    {
      "epoch": 0.8355833333333333,
      "grad_norm": 2.7374422550201416,
      "learning_rate": 1.9729702400162485e-05,
      "loss": 3.3524,
      "step": 401080
    },
    {
      "epoch": 0.8356041666666667,
      "grad_norm": 2.058436870574951,
      "learning_rate": 1.972481536146761e-05,
      "loss": 3.5216,
      "step": 401090
    },
    {
      "epoch": 0.835625,
      "grad_norm": 2.1752753257751465,
      "learning_rate": 1.9719928885509928e-05,
      "loss": 3.4766,
      "step": 401100
    },
    {
      "epoch": 0.8356458333333333,
      "grad_norm": 2.044938802719116,
      "learning_rate": 1.971504297231055e-05,
      "loss": 3.4047,
      "step": 401110
    },
    {
      "epoch": 0.8356666666666667,
      "grad_norm": 2.1909117698669434,
      "learning_rate": 1.971015762189068e-05,
      "loss": 3.2354,
      "step": 401120
    },
    {
      "epoch": 0.8356875,
      "grad_norm": 1.8717371225357056,
      "learning_rate": 1.9705272834271335e-05,
      "loss": 3.4806,
      "step": 401130
    },
    {
      "epoch": 0.8357083333333334,
      "grad_norm": 2.257629871368408,
      "learning_rate": 1.9700388609473595e-05,
      "loss": 3.4593,
      "step": 401140
    },
    {
      "epoch": 0.8357291666666666,
      "grad_norm": 2.429259777069092,
      "learning_rate": 1.9695504947518674e-05,
      "loss": 3.3944,
      "step": 401150
    },
    {
      "epoch": 0.83575,
      "grad_norm": 2.477480173110962,
      "learning_rate": 1.9690621848427545e-05,
      "loss": 3.4865,
      "step": 401160
    },
    {
      "epoch": 0.8357708333333334,
      "grad_norm": 2.5758349895477295,
      "learning_rate": 1.968573931222134e-05,
      "loss": 3.5488,
      "step": 401170
    },
    {
      "epoch": 0.8357916666666667,
      "grad_norm": 2.5927581787109375,
      "learning_rate": 1.96808573389212e-05,
      "loss": 3.4089,
      "step": 401180
    },
    {
      "epoch": 0.8358125,
      "grad_norm": 2.0501928329467773,
      "learning_rate": 1.9675975928548153e-05,
      "loss": 3.3644,
      "step": 401190
    },
    {
      "epoch": 0.8358333333333333,
      "grad_norm": 2.491274833679199,
      "learning_rate": 1.967109508112326e-05,
      "loss": 3.5276,
      "step": 401200
    },
    {
      "epoch": 0.8358541666666667,
      "grad_norm": 2.1217777729034424,
      "learning_rate": 1.966621479666774e-05,
      "loss": 3.427,
      "step": 401210
    },
    {
      "epoch": 0.835875,
      "grad_norm": 2.4488484859466553,
      "learning_rate": 1.9661335075202523e-05,
      "loss": 3.5254,
      "step": 401220
    },
    {
      "epoch": 0.8358958333333333,
      "grad_norm": 2.5467324256896973,
      "learning_rate": 1.965645591674876e-05,
      "loss": 3.5222,
      "step": 401230
    },
    {
      "epoch": 0.8359166666666666,
      "grad_norm": 2.455677032470703,
      "learning_rate": 1.9651577321327516e-05,
      "loss": 3.4644,
      "step": 401240
    },
    {
      "epoch": 0.8359375,
      "grad_norm": 2.0091795921325684,
      "learning_rate": 1.9646699288959845e-05,
      "loss": 3.4292,
      "step": 401250
    },
    {
      "epoch": 0.8359583333333334,
      "grad_norm": 2.671189785003662,
      "learning_rate": 1.9641821819666857e-05,
      "loss": 3.3061,
      "step": 401260
    },
    {
      "epoch": 0.8359791666666667,
      "grad_norm": 1.8914631605148315,
      "learning_rate": 1.9636944913469592e-05,
      "loss": 3.4416,
      "step": 401270
    },
    {
      "epoch": 0.836,
      "grad_norm": 2.444889783859253,
      "learning_rate": 1.9632068570389114e-05,
      "loss": 3.5306,
      "step": 401280
    },
    {
      "epoch": 0.8360208333333333,
      "grad_norm": 1.8447178602218628,
      "learning_rate": 1.9627192790446507e-05,
      "loss": 3.4137,
      "step": 401290
    },
    {
      "epoch": 0.8360416666666667,
      "grad_norm": 1.9926146268844604,
      "learning_rate": 1.9622317573662815e-05,
      "loss": 3.5179,
      "step": 401300
    },
    {
      "epoch": 0.8360625,
      "grad_norm": 2.5354983806610107,
      "learning_rate": 1.961744292005911e-05,
      "loss": 3.4732,
      "step": 401310
    },
    {
      "epoch": 0.8360833333333333,
      "grad_norm": 2.381092071533203,
      "learning_rate": 1.9612568829656444e-05,
      "loss": 3.3619,
      "step": 401320
    },
    {
      "epoch": 0.8361041666666666,
      "grad_norm": 2.0909645557403564,
      "learning_rate": 1.9607695302475864e-05,
      "loss": 3.354,
      "step": 401330
    },
    {
      "epoch": 0.836125,
      "grad_norm": 2.114006757736206,
      "learning_rate": 1.9602822338538434e-05,
      "loss": 3.4133,
      "step": 401340
    },
    {
      "epoch": 0.8361458333333334,
      "grad_norm": 2.1747782230377197,
      "learning_rate": 1.959794993786522e-05,
      "loss": 3.396,
      "step": 401350
    },
    {
      "epoch": 0.8361666666666666,
      "grad_norm": 2.091949701309204,
      "learning_rate": 1.9593078100477193e-05,
      "loss": 3.4792,
      "step": 401360
    },
    {
      "epoch": 0.8361875,
      "grad_norm": 2.5175371170043945,
      "learning_rate": 1.958820682639547e-05,
      "loss": 3.4134,
      "step": 401370
    },
    {
      "epoch": 0.8362083333333333,
      "grad_norm": 2.332106828689575,
      "learning_rate": 1.9583336115641113e-05,
      "loss": 3.3332,
      "step": 401380
    },
    {
      "epoch": 0.8362291666666667,
      "grad_norm": 2.3698859214782715,
      "learning_rate": 1.9578465968235058e-05,
      "loss": 3.4931,
      "step": 401390
    },
    {
      "epoch": 0.83625,
      "grad_norm": 2.2531380653381348,
      "learning_rate": 1.957359638419844e-05,
      "loss": 3.3268,
      "step": 401400
    },
    {
      "epoch": 0.8362708333333333,
      "grad_norm": 2.207810163497925,
      "learning_rate": 1.9568727363552282e-05,
      "loss": 3.3124,
      "step": 401410
    },
    {
      "epoch": 0.8362916666666667,
      "grad_norm": 1.8629194498062134,
      "learning_rate": 1.956385890631753e-05,
      "loss": 3.4261,
      "step": 401420
    },
    {
      "epoch": 0.8363125,
      "grad_norm": 2.2454416751861572,
      "learning_rate": 1.9558991012515314e-05,
      "loss": 3.388,
      "step": 401430
    },
    {
      "epoch": 0.8363333333333334,
      "grad_norm": 2.3115334510803223,
      "learning_rate": 1.955412368216666e-05,
      "loss": 3.3816,
      "step": 401440
    },
    {
      "epoch": 0.8363541666666666,
      "grad_norm": 2.2127034664154053,
      "learning_rate": 1.9549256915292492e-05,
      "loss": 3.1902,
      "step": 401450
    },
    {
      "epoch": 0.836375,
      "grad_norm": 2.1401500701904297,
      "learning_rate": 1.9544390711913928e-05,
      "loss": 3.3968,
      "step": 401460
    },
    {
      "epoch": 0.8363958333333333,
      "grad_norm": 2.5166549682617188,
      "learning_rate": 1.9539525072051977e-05,
      "loss": 3.4095,
      "step": 401470
    },
    {
      "epoch": 0.8364166666666667,
      "grad_norm": 2.641669511795044,
      "learning_rate": 1.953465999572759e-05,
      "loss": 3.2803,
      "step": 401480
    },
    {
      "epoch": 0.8364375,
      "grad_norm": 2.487144708633423,
      "learning_rate": 1.952979548296189e-05,
      "loss": 3.3705,
      "step": 401490
    },
    {
      "epoch": 0.8364583333333333,
      "grad_norm": 2.43965220451355,
      "learning_rate": 1.9524931533775808e-05,
      "loss": 3.4932,
      "step": 401500
    },
    {
      "epoch": 0.8364791666666667,
      "grad_norm": 1.9021254777908325,
      "learning_rate": 1.952006814819032e-05,
      "loss": 3.3194,
      "step": 401510
    },
    {
      "epoch": 0.8365,
      "grad_norm": 2.083688735961914,
      "learning_rate": 1.9515205326226567e-05,
      "loss": 3.3517,
      "step": 401520
    },
    {
      "epoch": 0.8365208333333334,
      "grad_norm": 2.366286516189575,
      "learning_rate": 1.951034306790545e-05,
      "loss": 3.4452,
      "step": 401530
    },
    {
      "epoch": 0.8365416666666666,
      "grad_norm": 2.0256800651550293,
      "learning_rate": 1.950548137324796e-05,
      "loss": 3.4447,
      "step": 401540
    },
    {
      "epoch": 0.8365625,
      "grad_norm": 1.8043558597564697,
      "learning_rate": 1.9500620242275224e-05,
      "loss": 3.5126,
      "step": 401550
    },
    {
      "epoch": 0.8365833333333333,
      "grad_norm": 1.9108328819274902,
      "learning_rate": 1.94957596750081e-05,
      "loss": 3.3982,
      "step": 401560
    },
    {
      "epoch": 0.8366041666666667,
      "grad_norm": 1.9596598148345947,
      "learning_rate": 1.9490899671467643e-05,
      "loss": 3.3011,
      "step": 401570
    },
    {
      "epoch": 0.836625,
      "grad_norm": 2.743989944458008,
      "learning_rate": 1.9486040231674833e-05,
      "loss": 3.4152,
      "step": 401580
    },
    {
      "epoch": 0.8366458333333333,
      "grad_norm": 2.2143056392669678,
      "learning_rate": 1.948118135565067e-05,
      "loss": 3.3403,
      "step": 401590
    },
    {
      "epoch": 0.8366666666666667,
      "grad_norm": 1.9778472185134888,
      "learning_rate": 1.9476323043416142e-05,
      "loss": 3.3869,
      "step": 401600
    },
    {
      "epoch": 0.8366875,
      "grad_norm": 3.097459554672241,
      "learning_rate": 1.9471465294992227e-05,
      "loss": 3.3192,
      "step": 401610
    },
    {
      "epoch": 0.8367083333333334,
      "grad_norm": 2.8770604133605957,
      "learning_rate": 1.946660811039993e-05,
      "loss": 3.5056,
      "step": 401620
    },
    {
      "epoch": 0.8367291666666666,
      "grad_norm": 2.034064531326294,
      "learning_rate": 1.946175148966021e-05,
      "loss": 3.3923,
      "step": 401630
    },
    {
      "epoch": 0.83675,
      "grad_norm": 2.0791285037994385,
      "learning_rate": 1.9456895432794056e-05,
      "loss": 3.4473,
      "step": 401640
    },
    {
      "epoch": 0.8367708333333334,
      "grad_norm": 2.019455671310425,
      "learning_rate": 1.9452039939822435e-05,
      "loss": 3.2819,
      "step": 401650
    },
    {
      "epoch": 0.8367916666666667,
      "grad_norm": 2.212130546569824,
      "learning_rate": 1.9447185010766325e-05,
      "loss": 3.4011,
      "step": 401660
    },
    {
      "epoch": 0.8368125,
      "grad_norm": 2.0959768295288086,
      "learning_rate": 1.9442330645646714e-05,
      "loss": 3.3728,
      "step": 401670
    },
    {
      "epoch": 0.8368333333333333,
      "grad_norm": 2.3162312507629395,
      "learning_rate": 1.9437476844484533e-05,
      "loss": 3.3227,
      "step": 401680
    },
    {
      "epoch": 0.8368541666666667,
      "grad_norm": 2.0781188011169434,
      "learning_rate": 1.94326236073008e-05,
      "loss": 3.3675,
      "step": 401690
    },
    {
      "epoch": 0.836875,
      "grad_norm": 2.3346548080444336,
      "learning_rate": 1.9427770934116434e-05,
      "loss": 3.2967,
      "step": 401700
    },
    {
      "epoch": 0.8368958333333333,
      "grad_norm": 1.9129728078842163,
      "learning_rate": 1.942291882495241e-05,
      "loss": 3.3305,
      "step": 401710
    },
    {
      "epoch": 0.8369166666666666,
      "grad_norm": 2.4827544689178467,
      "learning_rate": 1.9418067279829734e-05,
      "loss": 3.5214,
      "step": 401720
    },
    {
      "epoch": 0.8369375,
      "grad_norm": 2.013727903366089,
      "learning_rate": 1.9413216298769242e-05,
      "loss": 3.4169,
      "step": 401730
    },
    {
      "epoch": 0.8369583333333334,
      "grad_norm": 2.517765760421753,
      "learning_rate": 1.940836588179201e-05,
      "loss": 3.3849,
      "step": 401740
    },
    {
      "epoch": 0.8369791666666667,
      "grad_norm": 2.21882963180542,
      "learning_rate": 1.9403516028918974e-05,
      "loss": 3.3998,
      "step": 401750
    },
    {
      "epoch": 0.837,
      "grad_norm": 2.081331491470337,
      "learning_rate": 1.9398666740170987e-05,
      "loss": 3.3558,
      "step": 401760
    },
    {
      "epoch": 0.8370208333333333,
      "grad_norm": 2.5468807220458984,
      "learning_rate": 1.9393818015569096e-05,
      "loss": 3.3463,
      "step": 401770
    },
    {
      "epoch": 0.8370416666666667,
      "grad_norm": 2.0897774696350098,
      "learning_rate": 1.938896985513425e-05,
      "loss": 3.5123,
      "step": 401780
    },
    {
      "epoch": 0.8370625,
      "grad_norm": 2.1485300064086914,
      "learning_rate": 1.9384122258887302e-05,
      "loss": 3.4009,
      "step": 401790
    },
    {
      "epoch": 0.8370833333333333,
      "grad_norm": 2.469515323638916,
      "learning_rate": 1.9379275226849268e-05,
      "loss": 3.3705,
      "step": 401800
    },
    {
      "epoch": 0.8371041666666666,
      "grad_norm": 2.2829039096832275,
      "learning_rate": 1.9374428759041076e-05,
      "loss": 3.307,
      "step": 401810
    },
    {
      "epoch": 0.837125,
      "grad_norm": 2.3491342067718506,
      "learning_rate": 1.93695828554836e-05,
      "loss": 3.4039,
      "step": 401820
    },
    {
      "epoch": 0.8371458333333334,
      "grad_norm": 2.5240285396575928,
      "learning_rate": 1.9364737516197852e-05,
      "loss": 3.2679,
      "step": 401830
    },
    {
      "epoch": 0.8371666666666666,
      "grad_norm": 2.2196993827819824,
      "learning_rate": 1.935989274120475e-05,
      "loss": 3.4691,
      "step": 401840
    },
    {
      "epoch": 0.8371875,
      "grad_norm": 2.1094324588775635,
      "learning_rate": 1.9355048530525146e-05,
      "loss": 3.4265,
      "step": 401850
    },
    {
      "epoch": 0.8372083333333333,
      "grad_norm": 2.4171957969665527,
      "learning_rate": 1.9350204884180086e-05,
      "loss": 3.3863,
      "step": 401860
    },
    {
      "epoch": 0.8372291666666667,
      "grad_norm": 2.076878309249878,
      "learning_rate": 1.934536180219039e-05,
      "loss": 3.4967,
      "step": 401870
    },
    {
      "epoch": 0.83725,
      "grad_norm": 2.293332576751709,
      "learning_rate": 1.9340519284577006e-05,
      "loss": 3.3162,
      "step": 401880
    },
    {
      "epoch": 0.8372708333333333,
      "grad_norm": 2.7247519493103027,
      "learning_rate": 1.9335677331360867e-05,
      "loss": 3.3819,
      "step": 401890
    },
    {
      "epoch": 0.8372916666666667,
      "grad_norm": 2.4826362133026123,
      "learning_rate": 1.933083594256289e-05,
      "loss": 3.4825,
      "step": 401900
    },
    {
      "epoch": 0.8373125,
      "grad_norm": 2.5325779914855957,
      "learning_rate": 1.9325995118203957e-05,
      "loss": 3.4871,
      "step": 401910
    },
    {
      "epoch": 0.8373333333333334,
      "grad_norm": 1.7898889780044556,
      "learning_rate": 1.9321154858305023e-05,
      "loss": 3.3779,
      "step": 401920
    },
    {
      "epoch": 0.8373541666666666,
      "grad_norm": 2.505464553833008,
      "learning_rate": 1.9316315162886964e-05,
      "loss": 3.4881,
      "step": 401930
    },
    {
      "epoch": 0.837375,
      "grad_norm": 3.757188320159912,
      "learning_rate": 1.93114760319707e-05,
      "loss": 3.4477,
      "step": 401940
    },
    {
      "epoch": 0.8373958333333333,
      "grad_norm": 2.290663480758667,
      "learning_rate": 1.9306637465577118e-05,
      "loss": 3.3736,
      "step": 401950
    },
    {
      "epoch": 0.8374166666666667,
      "grad_norm": 2.03900146484375,
      "learning_rate": 1.9301799463727146e-05,
      "loss": 3.4058,
      "step": 401960
    },
    {
      "epoch": 0.8374375,
      "grad_norm": 2.3249728679656982,
      "learning_rate": 1.9296962026441652e-05,
      "loss": 3.1767,
      "step": 401970
    },
    {
      "epoch": 0.8374583333333333,
      "grad_norm": 2.401024580001831,
      "learning_rate": 1.9292125153741555e-05,
      "loss": 3.2577,
      "step": 401980
    },
    {
      "epoch": 0.8374791666666667,
      "grad_norm": 2.0590507984161377,
      "learning_rate": 1.9287288845647735e-05,
      "loss": 3.4964,
      "step": 401990
    },
    {
      "epoch": 0.8375,
      "grad_norm": 2.233828544616699,
      "learning_rate": 1.9282453102181093e-05,
      "loss": 3.3326,
      "step": 402000
    },
    {
      "epoch": 0.8375,
      "eval_loss": 3.5260605812072754,
      "eval_runtime": 7.3623,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 402000
    },
    {
      "epoch": 0.8375208333333334,
      "grad_norm": 2.0214052200317383,
      "learning_rate": 1.9277617923362515e-05,
      "loss": 3.4752,
      "step": 402010
    },
    {
      "epoch": 0.8375416666666666,
      "grad_norm": 2.131620168685913,
      "learning_rate": 1.927278330921288e-05,
      "loss": 3.614,
      "step": 402020
    },
    {
      "epoch": 0.8375625,
      "grad_norm": 2.6390435695648193,
      "learning_rate": 1.9267949259753075e-05,
      "loss": 3.4208,
      "step": 402030
    },
    {
      "epoch": 0.8375833333333333,
      "grad_norm": 2.0869994163513184,
      "learning_rate": 1.926311577500398e-05,
      "loss": 3.3811,
      "step": 402040
    },
    {
      "epoch": 0.8376041666666667,
      "grad_norm": 2.4229071140289307,
      "learning_rate": 1.9258282854986464e-05,
      "loss": 3.4547,
      "step": 402050
    },
    {
      "epoch": 0.837625,
      "grad_norm": 2.5689010620117188,
      "learning_rate": 1.9253450499721424e-05,
      "loss": 3.4362,
      "step": 402060
    },
    {
      "epoch": 0.8376458333333333,
      "grad_norm": 1.9603497982025146,
      "learning_rate": 1.924861870922973e-05,
      "loss": 3.5044,
      "step": 402070
    },
    {
      "epoch": 0.8376666666666667,
      "grad_norm": 2.272341728210449,
      "learning_rate": 1.9243787483532246e-05,
      "loss": 3.411,
      "step": 402080
    },
    {
      "epoch": 0.8376875,
      "grad_norm": 2.4444031715393066,
      "learning_rate": 1.9238956822649877e-05,
      "loss": 3.3872,
      "step": 402090
    },
    {
      "epoch": 0.8377083333333334,
      "grad_norm": 2.243295669555664,
      "learning_rate": 1.92341267266034e-05,
      "loss": 3.3905,
      "step": 402100
    },
    {
      "epoch": 0.8377291666666666,
      "grad_norm": 2.074789524078369,
      "learning_rate": 1.922929719541375e-05,
      "loss": 3.5089,
      "step": 402110
    },
    {
      "epoch": 0.83775,
      "grad_norm": 2.069746732711792,
      "learning_rate": 1.9224468229101814e-05,
      "loss": 3.2845,
      "step": 402120
    },
    {
      "epoch": 0.8377708333333334,
      "grad_norm": 2.3147006034851074,
      "learning_rate": 1.921963982768834e-05,
      "loss": 3.3602,
      "step": 402130
    },
    {
      "epoch": 0.8377916666666667,
      "grad_norm": 2.5891387462615967,
      "learning_rate": 1.921481199119429e-05,
      "loss": 3.5167,
      "step": 402140
    },
    {
      "epoch": 0.8378125,
      "grad_norm": 3.587402105331421,
      "learning_rate": 1.920998471964052e-05,
      "loss": 3.4283,
      "step": 402150
    },
    {
      "epoch": 0.8378333333333333,
      "grad_norm": 2.3909671306610107,
      "learning_rate": 1.920515801304781e-05,
      "loss": 3.2725,
      "step": 402160
    },
    {
      "epoch": 0.8378541666666667,
      "grad_norm": 2.054321527481079,
      "learning_rate": 1.9200331871437015e-05,
      "loss": 3.4218,
      "step": 402170
    },
    {
      "epoch": 0.837875,
      "grad_norm": 1.9579737186431885,
      "learning_rate": 1.9195506294829078e-05,
      "loss": 3.3985,
      "step": 402180
    },
    {
      "epoch": 0.8378958333333333,
      "grad_norm": 2.1268818378448486,
      "learning_rate": 1.9190681283244752e-05,
      "loss": 3.4874,
      "step": 402190
    },
    {
      "epoch": 0.8379166666666666,
      "grad_norm": 2.5928242206573486,
      "learning_rate": 1.9185856836704856e-05,
      "loss": 3.3196,
      "step": 402200
    },
    {
      "epoch": 0.8379375,
      "grad_norm": 2.140488386154175,
      "learning_rate": 1.9181032955230353e-05,
      "loss": 3.4263,
      "step": 402210
    },
    {
      "epoch": 0.8379583333333334,
      "grad_norm": 1.9749414920806885,
      "learning_rate": 1.917620963884198e-05,
      "loss": 3.4249,
      "step": 402220
    },
    {
      "epoch": 0.8379791666666667,
      "grad_norm": 2.679581880569458,
      "learning_rate": 1.917138688756058e-05,
      "loss": 3.5611,
      "step": 402230
    },
    {
      "epoch": 0.838,
      "grad_norm": 2.1633706092834473,
      "learning_rate": 1.916656470140701e-05,
      "loss": 3.2598,
      "step": 402240
    },
    {
      "epoch": 0.8380208333333333,
      "grad_norm": 2.153261423110962,
      "learning_rate": 1.9161743080402103e-05,
      "loss": 3.3902,
      "step": 402250
    },
    {
      "epoch": 0.8380416666666667,
      "grad_norm": 2.0023858547210693,
      "learning_rate": 1.9156922024566672e-05,
      "loss": 3.4385,
      "step": 402260
    },
    {
      "epoch": 0.8380625,
      "grad_norm": 2.111027240753174,
      "learning_rate": 1.915210153392154e-05,
      "loss": 3.4189,
      "step": 402270
    },
    {
      "epoch": 0.8380833333333333,
      "grad_norm": 2.5370664596557617,
      "learning_rate": 1.9147281608487548e-05,
      "loss": 3.4754,
      "step": 402280
    },
    {
      "epoch": 0.8381041666666667,
      "grad_norm": 2.1788558959960938,
      "learning_rate": 1.9142462248285484e-05,
      "loss": 3.3503,
      "step": 402290
    },
    {
      "epoch": 0.838125,
      "grad_norm": 1.938501000404358,
      "learning_rate": 1.91376434533362e-05,
      "loss": 3.3027,
      "step": 402300
    },
    {
      "epoch": 0.8381458333333334,
      "grad_norm": 2.359424591064453,
      "learning_rate": 1.913282522366051e-05,
      "loss": 3.4651,
      "step": 402310
    },
    {
      "epoch": 0.8381666666666666,
      "grad_norm": 2.046621799468994,
      "learning_rate": 1.9128007559279195e-05,
      "loss": 3.3771,
      "step": 402320
    },
    {
      "epoch": 0.8381875,
      "grad_norm": 2.031647205352783,
      "learning_rate": 1.9123190460213095e-05,
      "loss": 3.4308,
      "step": 402330
    },
    {
      "epoch": 0.8382083333333333,
      "grad_norm": 1.9840435981750488,
      "learning_rate": 1.9118373926482987e-05,
      "loss": 3.4938,
      "step": 402340
    },
    {
      "epoch": 0.8382291666666667,
      "grad_norm": 2.3303911685943604,
      "learning_rate": 1.9113557958109726e-05,
      "loss": 3.3895,
      "step": 402350
    },
    {
      "epoch": 0.83825,
      "grad_norm": 2.2789697647094727,
      "learning_rate": 1.910874255511406e-05,
      "loss": 3.3939,
      "step": 402360
    },
    {
      "epoch": 0.8382708333333333,
      "grad_norm": 2.330075979232788,
      "learning_rate": 1.9103927717516838e-05,
      "loss": 3.5157,
      "step": 402370
    },
    {
      "epoch": 0.8382916666666667,
      "grad_norm": 1.7634810209274292,
      "learning_rate": 1.9099113445338828e-05,
      "loss": 3.3248,
      "step": 402380
    },
    {
      "epoch": 0.8383125,
      "grad_norm": 2.0745527744293213,
      "learning_rate": 1.9094299738600826e-05,
      "loss": 3.6088,
      "step": 402390
    },
    {
      "epoch": 0.8383333333333334,
      "grad_norm": 2.4480247497558594,
      "learning_rate": 1.908948659732364e-05,
      "loss": 3.4363,
      "step": 402400
    },
    {
      "epoch": 0.8383541666666666,
      "grad_norm": 2.5373706817626953,
      "learning_rate": 1.9084674021528063e-05,
      "loss": 3.4421,
      "step": 402410
    },
    {
      "epoch": 0.838375,
      "grad_norm": 2.676232099533081,
      "learning_rate": 1.9079862011234865e-05,
      "loss": 3.4981,
      "step": 402420
    },
    {
      "epoch": 0.8383958333333333,
      "grad_norm": 2.2442898750305176,
      "learning_rate": 1.9075050566464826e-05,
      "loss": 3.4375,
      "step": 402430
    },
    {
      "epoch": 0.8384166666666667,
      "grad_norm": 3.1256816387176514,
      "learning_rate": 1.9070239687238768e-05,
      "loss": 3.3793,
      "step": 402440
    },
    {
      "epoch": 0.8384375,
      "grad_norm": 2.022148847579956,
      "learning_rate": 1.906542937357744e-05,
      "loss": 3.439,
      "step": 402450
    },
    {
      "epoch": 0.8384583333333333,
      "grad_norm": 1.8841662406921387,
      "learning_rate": 1.9060619625501638e-05,
      "loss": 3.2514,
      "step": 402460
    },
    {
      "epoch": 0.8384791666666667,
      "grad_norm": 2.5464248657226562,
      "learning_rate": 1.905581044303215e-05,
      "loss": 3.4374,
      "step": 402470
    },
    {
      "epoch": 0.8385,
      "grad_norm": 2.421889543533325,
      "learning_rate": 1.9051001826189673e-05,
      "loss": 3.5223,
      "step": 402480
    },
    {
      "epoch": 0.8385208333333334,
      "grad_norm": 2.1067941188812256,
      "learning_rate": 1.904619377499509e-05,
      "loss": 3.4571,
      "step": 402490
    },
    {
      "epoch": 0.8385416666666666,
      "grad_norm": 1.8505886793136597,
      "learning_rate": 1.9041386289469084e-05,
      "loss": 3.5179,
      "step": 402500
    },
    {
      "epoch": 0.8385625,
      "grad_norm": 1.9412848949432373,
      "learning_rate": 1.9036579369632428e-05,
      "loss": 3.4447,
      "step": 402510
    },
    {
      "epoch": 0.8385833333333333,
      "grad_norm": 2.3543450832366943,
      "learning_rate": 1.903177301550598e-05,
      "loss": 3.3023,
      "step": 402520
    },
    {
      "epoch": 0.8386041666666667,
      "grad_norm": 1.9358491897583008,
      "learning_rate": 1.902696722711038e-05,
      "loss": 3.5669,
      "step": 402530
    },
    {
      "epoch": 0.838625,
      "grad_norm": 2.056058406829834,
      "learning_rate": 1.9022162004466423e-05,
      "loss": 3.3875,
      "step": 402540
    },
    {
      "epoch": 0.8386458333333333,
      "grad_norm": 2.231243848800659,
      "learning_rate": 1.9017357347594946e-05,
      "loss": 3.4382,
      "step": 402550
    },
    {
      "epoch": 0.8386666666666667,
      "grad_norm": 2.283416271209717,
      "learning_rate": 1.90125532565166e-05,
      "loss": 3.4109,
      "step": 402560
    },
    {
      "epoch": 0.8386875,
      "grad_norm": 2.03934383392334,
      "learning_rate": 1.900774973125213e-05,
      "loss": 3.3931,
      "step": 402570
    },
    {
      "epoch": 0.8387083333333333,
      "grad_norm": 2.1566836833953857,
      "learning_rate": 1.9002946771822425e-05,
      "loss": 3.5178,
      "step": 402580
    },
    {
      "epoch": 0.8387291666666666,
      "grad_norm": 2.0788381099700928,
      "learning_rate": 1.8998144378248082e-05,
      "loss": 3.4082,
      "step": 402590
    },
    {
      "epoch": 0.83875,
      "grad_norm": 2.141266107559204,
      "learning_rate": 1.8993342550549916e-05,
      "loss": 3.3918,
      "step": 402600
    },
    {
      "epoch": 0.8387708333333334,
      "grad_norm": 1.86060631275177,
      "learning_rate": 1.8988541288748648e-05,
      "loss": 3.3639,
      "step": 402610
    },
    {
      "epoch": 0.8387916666666667,
      "grad_norm": 2.196751594543457,
      "learning_rate": 1.898374059286501e-05,
      "loss": 3.4151,
      "step": 402620
    },
    {
      "epoch": 0.8388125,
      "grad_norm": 2.049285411834717,
      "learning_rate": 1.8978940462919767e-05,
      "loss": 3.5331,
      "step": 402630
    },
    {
      "epoch": 0.8388333333333333,
      "grad_norm": 2.5176024436950684,
      "learning_rate": 1.897414089893364e-05,
      "loss": 3.2721,
      "step": 402640
    },
    {
      "epoch": 0.8388541666666667,
      "grad_norm": 2.1230204105377197,
      "learning_rate": 1.8969341900927353e-05,
      "loss": 3.539,
      "step": 402650
    },
    {
      "epoch": 0.838875,
      "grad_norm": 2.333036422729492,
      "learning_rate": 1.896454346892165e-05,
      "loss": 3.4882,
      "step": 402660
    },
    {
      "epoch": 0.8388958333333333,
      "grad_norm": 2.936829090118408,
      "learning_rate": 1.895974560293726e-05,
      "loss": 3.3929,
      "step": 402670
    },
    {
      "epoch": 0.8389166666666666,
      "grad_norm": 2.729870557785034,
      "learning_rate": 1.895494830299488e-05,
      "loss": 3.366,
      "step": 402680
    },
    {
      "epoch": 0.8389375,
      "grad_norm": 2.792161464691162,
      "learning_rate": 1.8950151569115267e-05,
      "loss": 3.5485,
      "step": 402690
    },
    {
      "epoch": 0.8389583333333334,
      "grad_norm": 2.0740270614624023,
      "learning_rate": 1.8945355401319135e-05,
      "loss": 3.2807,
      "step": 402700
    },
    {
      "epoch": 0.8389791666666667,
      "grad_norm": 2.531733989715576,
      "learning_rate": 1.8940559799627163e-05,
      "loss": 3.4756,
      "step": 402710
    },
    {
      "epoch": 0.839,
      "grad_norm": 2.216496706008911,
      "learning_rate": 1.8935764764060125e-05,
      "loss": 3.4729,
      "step": 402720
    },
    {
      "epoch": 0.8390208333333333,
      "grad_norm": 1.8731458187103271,
      "learning_rate": 1.893097029463868e-05,
      "loss": 3.485,
      "step": 402730
    },
    {
      "epoch": 0.8390416666666667,
      "grad_norm": 2.313250780105591,
      "learning_rate": 1.8926176391383584e-05,
      "loss": 3.4681,
      "step": 402740
    },
    {
      "epoch": 0.8390625,
      "grad_norm": 2.3406333923339844,
      "learning_rate": 1.8921383054315535e-05,
      "loss": 3.3676,
      "step": 402750
    },
    {
      "epoch": 0.8390833333333333,
      "grad_norm": 2.019566774368286,
      "learning_rate": 1.8916590283455185e-05,
      "loss": 3.3272,
      "step": 402760
    },
    {
      "epoch": 0.8391041666666667,
      "grad_norm": 2.1610777378082275,
      "learning_rate": 1.89117980788233e-05,
      "loss": 3.4635,
      "step": 402770
    },
    {
      "epoch": 0.839125,
      "grad_norm": 1.897953748703003,
      "learning_rate": 1.8907006440440592e-05,
      "loss": 3.2382,
      "step": 402780
    },
    {
      "epoch": 0.8391458333333334,
      "grad_norm": 2.1062886714935303,
      "learning_rate": 1.890221536832765e-05,
      "loss": 3.4304,
      "step": 402790
    },
    {
      "epoch": 0.8391666666666666,
      "grad_norm": 2.3399741649627686,
      "learning_rate": 1.889742486250529e-05,
      "loss": 3.4778,
      "step": 402800
    },
    {
      "epoch": 0.8391875,
      "grad_norm": 2.7847516536712646,
      "learning_rate": 1.8892634922994194e-05,
      "loss": 3.3025,
      "step": 402810
    },
    {
      "epoch": 0.8392083333333333,
      "grad_norm": 2.7694594860076904,
      "learning_rate": 1.8887845549814946e-05,
      "loss": 3.5074,
      "step": 402820
    },
    {
      "epoch": 0.8392291666666667,
      "grad_norm": 2.17271089553833,
      "learning_rate": 1.8883056742988345e-05,
      "loss": 3.439,
      "step": 402830
    },
    {
      "epoch": 0.83925,
      "grad_norm": 2.3494224548339844,
      "learning_rate": 1.8878268502535077e-05,
      "loss": 3.3661,
      "step": 402840
    },
    {
      "epoch": 0.8392708333333333,
      "grad_norm": 2.877786159515381,
      "learning_rate": 1.8873480828475706e-05,
      "loss": 3.4286,
      "step": 402850
    },
    {
      "epoch": 0.8392916666666667,
      "grad_norm": 2.31695818901062,
      "learning_rate": 1.8868693720831068e-05,
      "loss": 3.5077,
      "step": 402860
    },
    {
      "epoch": 0.8393125,
      "grad_norm": 2.1248977184295654,
      "learning_rate": 1.8863907179621746e-05,
      "loss": 3.4578,
      "step": 402870
    },
    {
      "epoch": 0.8393333333333334,
      "grad_norm": 2.352231025695801,
      "learning_rate": 1.8859121204868404e-05,
      "loss": 3.4595,
      "step": 402880
    },
    {
      "epoch": 0.8393541666666666,
      "grad_norm": 2.500926971435547,
      "learning_rate": 1.8854335796591796e-05,
      "loss": 3.4099,
      "step": 402890
    },
    {
      "epoch": 0.839375,
      "grad_norm": 1.8347158432006836,
      "learning_rate": 1.884955095481252e-05,
      "loss": 3.4041,
      "step": 402900
    },
    {
      "epoch": 0.8393958333333333,
      "grad_norm": 2.190080165863037,
      "learning_rate": 1.8844766679551243e-05,
      "loss": 3.4563,
      "step": 402910
    },
    {
      "epoch": 0.8394166666666667,
      "grad_norm": 2.3498117923736572,
      "learning_rate": 1.8839982970828734e-05,
      "loss": 3.5011,
      "step": 402920
    },
    {
      "epoch": 0.8394375,
      "grad_norm": 2.0285143852233887,
      "learning_rate": 1.883519982866554e-05,
      "loss": 3.452,
      "step": 402930
    },
    {
      "epoch": 0.8394583333333333,
      "grad_norm": 2.701584577560425,
      "learning_rate": 1.8830417253082326e-05,
      "loss": 3.5286,
      "step": 402940
    },
    {
      "epoch": 0.8394791666666667,
      "grad_norm": 2.449228525161743,
      "learning_rate": 1.8825635244099863e-05,
      "loss": 3.4476,
      "step": 402950
    },
    {
      "epoch": 0.8395,
      "grad_norm": 3.8179757595062256,
      "learning_rate": 1.88208538017387e-05,
      "loss": 3.3428,
      "step": 402960
    },
    {
      "epoch": 0.8395208333333334,
      "grad_norm": 2.4229488372802734,
      "learning_rate": 1.881607292601949e-05,
      "loss": 3.4192,
      "step": 402970
    },
    {
      "epoch": 0.8395416666666666,
      "grad_norm": 2.8284597396850586,
      "learning_rate": 1.8811292616962975e-05,
      "loss": 3.4735,
      "step": 402980
    },
    {
      "epoch": 0.8395625,
      "grad_norm": 2.0647947788238525,
      "learning_rate": 1.880651287458973e-05,
      "loss": 3.4571,
      "step": 402990
    },
    {
      "epoch": 0.8395833333333333,
      "grad_norm": 2.3527333736419678,
      "learning_rate": 1.88017336989204e-05,
      "loss": 3.3773,
      "step": 403000
    },
    {
      "epoch": 0.8395833333333333,
      "eval_loss": 3.524510622024536,
      "eval_runtime": 7.3034,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 403000
    },
    {
      "epoch": 0.8396041666666667,
      "grad_norm": 2.216649293899536,
      "learning_rate": 1.8796955089975675e-05,
      "loss": 3.3619,
      "step": 403010
    },
    {
      "epoch": 0.839625,
      "grad_norm": 2.5822408199310303,
      "learning_rate": 1.8792177047776148e-05,
      "loss": 3.5292,
      "step": 403020
    },
    {
      "epoch": 0.8396458333333333,
      "grad_norm": 2.89378023147583,
      "learning_rate": 1.8787399572342486e-05,
      "loss": 3.4691,
      "step": 403030
    },
    {
      "epoch": 0.8396666666666667,
      "grad_norm": 1.8966951370239258,
      "learning_rate": 1.8782622663695328e-05,
      "loss": 3.5495,
      "step": 403040
    },
    {
      "epoch": 0.8396875,
      "grad_norm": 2.6640894412994385,
      "learning_rate": 1.877784632185529e-05,
      "loss": 3.4392,
      "step": 403050
    },
    {
      "epoch": 0.8397083333333333,
      "grad_norm": 3.0954787731170654,
      "learning_rate": 1.8773070546843017e-05,
      "loss": 3.4178,
      "step": 403060
    },
    {
      "epoch": 0.8397291666666666,
      "grad_norm": 2.0411534309387207,
      "learning_rate": 1.8768295338679145e-05,
      "loss": 3.3425,
      "step": 403070
    },
    {
      "epoch": 0.83975,
      "grad_norm": 2.1466457843780518,
      "learning_rate": 1.8763520697384278e-05,
      "loss": 3.3016,
      "step": 403080
    },
    {
      "epoch": 0.8397708333333334,
      "grad_norm": 2.384537696838379,
      "learning_rate": 1.875874662297911e-05,
      "loss": 3.3891,
      "step": 403090
    },
    {
      "epoch": 0.8397916666666667,
      "grad_norm": 2.2613003253936768,
      "learning_rate": 1.8753973115484113e-05,
      "loss": 3.4852,
      "step": 403100
    },
    {
      "epoch": 0.8398125,
      "grad_norm": 2.208327531814575,
      "learning_rate": 1.874920017492005e-05,
      "loss": 3.382,
      "step": 403110
    },
    {
      "epoch": 0.8398333333333333,
      "grad_norm": 2.5212910175323486,
      "learning_rate": 1.874442780130752e-05,
      "loss": 3.3967,
      "step": 403120
    },
    {
      "epoch": 0.8398541666666667,
      "grad_norm": 2.364354372024536,
      "learning_rate": 1.8739655994667046e-05,
      "loss": 3.5639,
      "step": 403130
    },
    {
      "epoch": 0.839875,
      "grad_norm": 1.7787572145462036,
      "learning_rate": 1.873488475501934e-05,
      "loss": 3.6086,
      "step": 403140
    },
    {
      "epoch": 0.8398958333333333,
      "grad_norm": 2.138289451599121,
      "learning_rate": 1.873011408238499e-05,
      "loss": 3.3838,
      "step": 403150
    },
    {
      "epoch": 0.8399166666666666,
      "grad_norm": 2.2684590816497803,
      "learning_rate": 1.8725343976784523e-05,
      "loss": 3.3908,
      "step": 403160
    },
    {
      "epoch": 0.8399375,
      "grad_norm": 2.2691469192504883,
      "learning_rate": 1.8720574438238645e-05,
      "loss": 3.3138,
      "step": 403170
    },
    {
      "epoch": 0.8399583333333334,
      "grad_norm": 2.4600231647491455,
      "learning_rate": 1.871580546676797e-05,
      "loss": 3.4432,
      "step": 403180
    },
    {
      "epoch": 0.8399791666666667,
      "grad_norm": 2.0686185359954834,
      "learning_rate": 1.8711037062392964e-05,
      "loss": 3.3511,
      "step": 403190
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.263166666030884,
      "learning_rate": 1.8706269225134347e-05,
      "loss": 3.2937,
      "step": 403200
    },
    {
      "epoch": 0.8400208333333333,
      "grad_norm": 2.1172866821289062,
      "learning_rate": 1.8701501955012714e-05,
      "loss": 3.4275,
      "step": 403210
    },
    {
      "epoch": 0.8400416666666667,
      "grad_norm": 2.2002687454223633,
      "learning_rate": 1.8696735252048557e-05,
      "loss": 3.4483,
      "step": 403220
    },
    {
      "epoch": 0.8400625,
      "grad_norm": 2.19693660736084,
      "learning_rate": 1.8691969116262585e-05,
      "loss": 3.4056,
      "step": 403230
    },
    {
      "epoch": 0.8400833333333333,
      "grad_norm": 2.5456554889678955,
      "learning_rate": 1.86872035476753e-05,
      "loss": 3.2926,
      "step": 403240
    },
    {
      "epoch": 0.8401041666666667,
      "grad_norm": 2.8520877361297607,
      "learning_rate": 1.8682438546307306e-05,
      "loss": 3.5162,
      "step": 403250
    },
    {
      "epoch": 0.840125,
      "grad_norm": 2.072655200958252,
      "learning_rate": 1.8677674112179232e-05,
      "loss": 3.4814,
      "step": 403260
    },
    {
      "epoch": 0.8401458333333334,
      "grad_norm": 2.2416486740112305,
      "learning_rate": 1.8672910245311613e-05,
      "loss": 3.483,
      "step": 403270
    },
    {
      "epoch": 0.8401666666666666,
      "grad_norm": 2.5857226848602295,
      "learning_rate": 1.8668146945725e-05,
      "loss": 3.4326,
      "step": 403280
    },
    {
      "epoch": 0.8401875,
      "grad_norm": 2.3910512924194336,
      "learning_rate": 1.8663384213440076e-05,
      "loss": 3.4618,
      "step": 403290
    },
    {
      "epoch": 0.8402083333333333,
      "grad_norm": 2.6338248252868652,
      "learning_rate": 1.8658622048477323e-05,
      "loss": 3.453,
      "step": 403300
    },
    {
      "epoch": 0.8402291666666667,
      "grad_norm": 2.0201375484466553,
      "learning_rate": 1.865386045085728e-05,
      "loss": 3.4468,
      "step": 403310
    },
    {
      "epoch": 0.84025,
      "grad_norm": 2.339449644088745,
      "learning_rate": 1.8649099420600656e-05,
      "loss": 3.4963,
      "step": 403320
    },
    {
      "epoch": 0.8402708333333333,
      "grad_norm": 2.528904676437378,
      "learning_rate": 1.8644338957727872e-05,
      "loss": 3.4158,
      "step": 403330
    },
    {
      "epoch": 0.8402916666666667,
      "grad_norm": 2.1536104679107666,
      "learning_rate": 1.8639579062259564e-05,
      "loss": 3.5972,
      "step": 403340
    },
    {
      "epoch": 0.8403125,
      "grad_norm": 2.677083969116211,
      "learning_rate": 1.863481973421628e-05,
      "loss": 3.4044,
      "step": 403350
    },
    {
      "epoch": 0.8403333333333334,
      "grad_norm": 2.8000035285949707,
      "learning_rate": 1.8630060973618583e-05,
      "loss": 3.5453,
      "step": 403360
    },
    {
      "epoch": 0.8403541666666666,
      "grad_norm": 3.258801221847534,
      "learning_rate": 1.862530278048701e-05,
      "loss": 3.4342,
      "step": 403370
    },
    {
      "epoch": 0.840375,
      "grad_norm": 2.0993311405181885,
      "learning_rate": 1.862054515484213e-05,
      "loss": 3.4685,
      "step": 403380
    },
    {
      "epoch": 0.8403958333333333,
      "grad_norm": 2.1132006645202637,
      "learning_rate": 1.8615788096704494e-05,
      "loss": 3.3538,
      "step": 403390
    },
    {
      "epoch": 0.8404166666666667,
      "grad_norm": 2.0800366401672363,
      "learning_rate": 1.8611031606094646e-05,
      "loss": 3.4953,
      "step": 403400
    },
    {
      "epoch": 0.8404375,
      "grad_norm": 1.9114806652069092,
      "learning_rate": 1.860627568303314e-05,
      "loss": 3.4281,
      "step": 403410
    },
    {
      "epoch": 0.8404583333333333,
      "grad_norm": 3.0831592082977295,
      "learning_rate": 1.8601520327540508e-05,
      "loss": 3.4497,
      "step": 403420
    },
    {
      "epoch": 0.8404791666666667,
      "grad_norm": 2.3446784019470215,
      "learning_rate": 1.8596765539637303e-05,
      "loss": 3.4392,
      "step": 403430
    },
    {
      "epoch": 0.8405,
      "grad_norm": 3.0193872451782227,
      "learning_rate": 1.8592011319344056e-05,
      "loss": 3.5212,
      "step": 403440
    },
    {
      "epoch": 0.8405208333333334,
      "grad_norm": 2.356086254119873,
      "learning_rate": 1.8587257666681303e-05,
      "loss": 3.5392,
      "step": 403450
    },
    {
      "epoch": 0.8405416666666666,
      "grad_norm": 2.080104351043701,
      "learning_rate": 1.858250458166961e-05,
      "loss": 3.4998,
      "step": 403460
    },
    {
      "epoch": 0.8405625,
      "grad_norm": 2.571005344390869,
      "learning_rate": 1.857775206432941e-05,
      "loss": 3.3202,
      "step": 403470
    },
    {
      "epoch": 0.8405833333333333,
      "grad_norm": 2.0218515396118164,
      "learning_rate": 1.8573000114681336e-05,
      "loss": 3.3684,
      "step": 403480
    },
    {
      "epoch": 0.8406041666666667,
      "grad_norm": 2.601673126220703,
      "learning_rate": 1.8568248732745923e-05,
      "loss": 3.3974,
      "step": 403490
    },
    {
      "epoch": 0.840625,
      "grad_norm": 1.8777016401290894,
      "learning_rate": 1.856349791854357e-05,
      "loss": 3.5196,
      "step": 403500
    },
    {
      "epoch": 0.8406458333333333,
      "grad_norm": 2.7598369121551514,
      "learning_rate": 1.8558747672094925e-05,
      "loss": 3.4415,
      "step": 403510
    },
    {
      "epoch": 0.8406666666666667,
      "grad_norm": 3.2944273948669434,
      "learning_rate": 1.8553997993420495e-05,
      "loss": 3.4459,
      "step": 403520
    },
    {
      "epoch": 0.8406875,
      "grad_norm": 2.0786819458007812,
      "learning_rate": 1.854924888254069e-05,
      "loss": 3.4118,
      "step": 403530
    },
    {
      "epoch": 0.8407083333333333,
      "grad_norm": 2.0861704349517822,
      "learning_rate": 1.8544500339476133e-05,
      "loss": 3.3798,
      "step": 403540
    },
    {
      "epoch": 0.8407291666666666,
      "grad_norm": 2.1604807376861572,
      "learning_rate": 1.8539752364247336e-05,
      "loss": 3.4724,
      "step": 403550
    },
    {
      "epoch": 0.84075,
      "grad_norm": 2.1235148906707764,
      "learning_rate": 1.8535004956874698e-05,
      "loss": 3.2811,
      "step": 403560
    },
    {
      "epoch": 0.8407708333333334,
      "grad_norm": 2.5452778339385986,
      "learning_rate": 1.8530258117378844e-05,
      "loss": 3.3512,
      "step": 403570
    },
    {
      "epoch": 0.8407916666666667,
      "grad_norm": 2.63045597076416,
      "learning_rate": 1.8525511845780268e-05,
      "loss": 3.4441,
      "step": 403580
    },
    {
      "epoch": 0.8408125,
      "grad_norm": 2.3091559410095215,
      "learning_rate": 1.852076614209937e-05,
      "loss": 3.4694,
      "step": 403590
    },
    {
      "epoch": 0.8408333333333333,
      "grad_norm": 2.8032402992248535,
      "learning_rate": 1.8516021006356783e-05,
      "loss": 3.3287,
      "step": 403600
    },
    {
      "epoch": 0.8408541666666667,
      "grad_norm": 3.1197328567504883,
      "learning_rate": 1.8511276438572912e-05,
      "loss": 3.3593,
      "step": 403610
    },
    {
      "epoch": 0.840875,
      "grad_norm": 1.9525138139724731,
      "learning_rate": 1.8506532438768258e-05,
      "loss": 3.3831,
      "step": 403620
    },
    {
      "epoch": 0.8408958333333333,
      "grad_norm": 2.2209439277648926,
      "learning_rate": 1.850178900696338e-05,
      "loss": 3.5708,
      "step": 403630
    },
    {
      "epoch": 0.8409166666666666,
      "grad_norm": 3.1250486373901367,
      "learning_rate": 1.84970461431787e-05,
      "loss": 3.3188,
      "step": 403640
    },
    {
      "epoch": 0.8409375,
      "grad_norm": 2.4764418601989746,
      "learning_rate": 1.849230384743472e-05,
      "loss": 3.3884,
      "step": 403650
    },
    {
      "epoch": 0.8409583333333334,
      "grad_norm": 2.467442750930786,
      "learning_rate": 1.8487562119751955e-05,
      "loss": 3.5093,
      "step": 403660
    },
    {
      "epoch": 0.8409791666666667,
      "grad_norm": 2.2200212478637695,
      "learning_rate": 1.848282096015085e-05,
      "loss": 3.3683,
      "step": 403670
    },
    {
      "epoch": 0.841,
      "grad_norm": 2.090641975402832,
      "learning_rate": 1.8478080368651897e-05,
      "loss": 3.3368,
      "step": 403680
    },
    {
      "epoch": 0.8410208333333333,
      "grad_norm": 2.7081820964813232,
      "learning_rate": 1.8473340345275577e-05,
      "loss": 3.5605,
      "step": 403690
    },
    {
      "epoch": 0.8410416666666667,
      "grad_norm": 2.523466110229492,
      "learning_rate": 1.8468600890042375e-05,
      "loss": 3.4383,
      "step": 403700
    },
    {
      "epoch": 0.8410625,
      "grad_norm": 1.9670053720474243,
      "learning_rate": 1.846386200297275e-05,
      "loss": 3.4517,
      "step": 403710
    },
    {
      "epoch": 0.8410833333333333,
      "grad_norm": 2.133671998977661,
      "learning_rate": 1.8459123684087163e-05,
      "loss": 3.4928,
      "step": 403720
    },
    {
      "epoch": 0.8411041666666667,
      "grad_norm": 2.343639373779297,
      "learning_rate": 1.8454385933406106e-05,
      "loss": 3.4085,
      "step": 403730
    },
    {
      "epoch": 0.841125,
      "grad_norm": 2.567188024520874,
      "learning_rate": 1.8449648750950034e-05,
      "loss": 3.3214,
      "step": 403740
    },
    {
      "epoch": 0.8411458333333334,
      "grad_norm": 2.4208474159240723,
      "learning_rate": 1.8444912136739398e-05,
      "loss": 3.313,
      "step": 403750
    },
    {
      "epoch": 0.8411666666666666,
      "grad_norm": 2.433685779571533,
      "learning_rate": 1.844017609079468e-05,
      "loss": 3.5958,
      "step": 403760
    },
    {
      "epoch": 0.8411875,
      "grad_norm": 2.366513252258301,
      "learning_rate": 1.8435440613136328e-05,
      "loss": 3.3898,
      "step": 403770
    },
    {
      "epoch": 0.8412083333333333,
      "grad_norm": 2.6295952796936035,
      "learning_rate": 1.8430705703784775e-05,
      "loss": 3.4741,
      "step": 403780
    },
    {
      "epoch": 0.8412291666666667,
      "grad_norm": 3.0990233421325684,
      "learning_rate": 1.842597136276051e-05,
      "loss": 3.3773,
      "step": 403790
    },
    {
      "epoch": 0.84125,
      "grad_norm": 2.2562081813812256,
      "learning_rate": 1.8421237590083965e-05,
      "loss": 3.4407,
      "step": 403800
    },
    {
      "epoch": 0.8412708333333333,
      "grad_norm": 2.712611436843872,
      "learning_rate": 1.8416504385775606e-05,
      "loss": 3.3817,
      "step": 403810
    },
    {
      "epoch": 0.8412916666666667,
      "grad_norm": 2.057586193084717,
      "learning_rate": 1.841177174985585e-05,
      "loss": 3.51,
      "step": 403820
    },
    {
      "epoch": 0.8413125,
      "grad_norm": 2.040640115737915,
      "learning_rate": 1.8407039682345143e-05,
      "loss": 3.4635,
      "step": 403830
    },
    {
      "epoch": 0.8413333333333334,
      "grad_norm": 2.2570319175720215,
      "learning_rate": 1.8402308183263957e-05,
      "loss": 3.3579,
      "step": 403840
    },
    {
      "epoch": 0.8413541666666666,
      "grad_norm": 2.0023539066314697,
      "learning_rate": 1.8397577252632695e-05,
      "loss": 3.3652,
      "step": 403850
    },
    {
      "epoch": 0.841375,
      "grad_norm": 2.448171854019165,
      "learning_rate": 1.8392846890471853e-05,
      "loss": 3.4309,
      "step": 403860
    },
    {
      "epoch": 0.8413958333333333,
      "grad_norm": 2.1058542728424072,
      "learning_rate": 1.8388117096801745e-05,
      "loss": 3.421,
      "step": 403870
    },
    {
      "epoch": 0.8414166666666667,
      "grad_norm": 2.6687097549438477,
      "learning_rate": 1.8383387871642912e-05,
      "loss": 3.3878,
      "step": 403880
    },
    {
      "epoch": 0.8414375,
      "grad_norm": 2.1357743740081787,
      "learning_rate": 1.8378659215015768e-05,
      "loss": 3.5168,
      "step": 403890
    },
    {
      "epoch": 0.8414583333333333,
      "grad_norm": 2.3495395183563232,
      "learning_rate": 1.8373931126940662e-05,
      "loss": 3.2728,
      "step": 403900
    },
    {
      "epoch": 0.8414791666666667,
      "grad_norm": 2.5736196041107178,
      "learning_rate": 1.8369203607438093e-05,
      "loss": 3.4759,
      "step": 403910
    },
    {
      "epoch": 0.8415,
      "grad_norm": 2.336721181869507,
      "learning_rate": 1.8364476656528516e-05,
      "loss": 3.4699,
      "step": 403920
    },
    {
      "epoch": 0.8415208333333334,
      "grad_norm": 2.4481024742126465,
      "learning_rate": 1.8359750274232243e-05,
      "loss": 3.5731,
      "step": 403930
    },
    {
      "epoch": 0.8415416666666666,
      "grad_norm": 2.230818033218384,
      "learning_rate": 1.835502446056971e-05,
      "loss": 3.483,
      "step": 403940
    },
    {
      "epoch": 0.8415625,
      "grad_norm": 2.3388147354125977,
      "learning_rate": 1.835029921556144e-05,
      "loss": 3.4019,
      "step": 403950
    },
    {
      "epoch": 0.8415833333333333,
      "grad_norm": 3.4253063201904297,
      "learning_rate": 1.8345574539227718e-05,
      "loss": 3.5374,
      "step": 403960
    },
    {
      "epoch": 0.8416041666666667,
      "grad_norm": 2.6135056018829346,
      "learning_rate": 1.8340850431588995e-05,
      "loss": 3.2992,
      "step": 403970
    },
    {
      "epoch": 0.841625,
      "grad_norm": 2.1407079696655273,
      "learning_rate": 1.8336126892665726e-05,
      "loss": 3.4835,
      "step": 403980
    },
    {
      "epoch": 0.8416458333333333,
      "grad_norm": 2.0844881534576416,
      "learning_rate": 1.833140392247825e-05,
      "loss": 3.4639,
      "step": 403990
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 1.9985086917877197,
      "learning_rate": 1.832668152104698e-05,
      "loss": 3.3516,
      "step": 404000
    },
    {
      "epoch": 0.8416666666666667,
      "eval_loss": 3.5282883644104004,
      "eval_runtime": 7.3288,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 404000
    },
    {
      "epoch": 0.8416875,
      "grad_norm": 2.0619149208068848,
      "learning_rate": 1.832195968839234e-05,
      "loss": 3.4296,
      "step": 404010
    },
    {
      "epoch": 0.8417083333333333,
      "grad_norm": 1.9219082593917847,
      "learning_rate": 1.8317238424534708e-05,
      "loss": 3.5046,
      "step": 404020
    },
    {
      "epoch": 0.8417291666666666,
      "grad_norm": 2.385829448699951,
      "learning_rate": 1.8312517729494486e-05,
      "loss": 3.4356,
      "step": 404030
    },
    {
      "epoch": 0.84175,
      "grad_norm": 2.1307835578918457,
      "learning_rate": 1.830779760329204e-05,
      "loss": 3.4878,
      "step": 404040
    },
    {
      "epoch": 0.8417708333333334,
      "grad_norm": 2.069180727005005,
      "learning_rate": 1.8303078045947804e-05,
      "loss": 3.4638,
      "step": 404050
    },
    {
      "epoch": 0.8417916666666667,
      "grad_norm": 2.6870739459991455,
      "learning_rate": 1.829835905748213e-05,
      "loss": 3.3766,
      "step": 404060
    },
    {
      "epoch": 0.8418125,
      "grad_norm": 3.357409715652466,
      "learning_rate": 1.829364063791542e-05,
      "loss": 3.4893,
      "step": 404070
    },
    {
      "epoch": 0.8418333333333333,
      "grad_norm": 1.7674793004989624,
      "learning_rate": 1.828892278726805e-05,
      "loss": 3.4093,
      "step": 404080
    },
    {
      "epoch": 0.8418541666666667,
      "grad_norm": 2.4978814125061035,
      "learning_rate": 1.8284205505560394e-05,
      "loss": 3.4001,
      "step": 404090
    },
    {
      "epoch": 0.841875,
      "grad_norm": 2.048736572265625,
      "learning_rate": 1.8279488792812834e-05,
      "loss": 3.4244,
      "step": 404100
    },
    {
      "epoch": 0.8418958333333333,
      "grad_norm": 2.112940788269043,
      "learning_rate": 1.8274772649045755e-05,
      "loss": 3.5368,
      "step": 404110
    },
    {
      "epoch": 0.8419166666666666,
      "grad_norm": 2.3271703720092773,
      "learning_rate": 1.8270057074279503e-05,
      "loss": 3.4449,
      "step": 404120
    },
    {
      "epoch": 0.8419375,
      "grad_norm": 2.3690500259399414,
      "learning_rate": 1.8265342068534467e-05,
      "loss": 3.417,
      "step": 404130
    },
    {
      "epoch": 0.8419583333333334,
      "grad_norm": 2.3924014568328857,
      "learning_rate": 1.826062763183101e-05,
      "loss": 3.3891,
      "step": 404140
    },
    {
      "epoch": 0.8419791666666666,
      "grad_norm": 1.8117378950119019,
      "learning_rate": 1.82559137641895e-05,
      "loss": 3.4626,
      "step": 404150
    },
    {
      "epoch": 0.842,
      "grad_norm": 2.8701012134552,
      "learning_rate": 1.825120046563029e-05,
      "loss": 3.4288,
      "step": 404160
    },
    {
      "epoch": 0.8420208333333333,
      "grad_norm": 2.4741718769073486,
      "learning_rate": 1.8246487736173743e-05,
      "loss": 3.4596,
      "step": 404170
    },
    {
      "epoch": 0.8420416666666667,
      "grad_norm": 2.383288860321045,
      "learning_rate": 1.824177557584023e-05,
      "loss": 3.4814,
      "step": 404180
    },
    {
      "epoch": 0.8420625,
      "grad_norm": 2.3280043601989746,
      "learning_rate": 1.823706398465008e-05,
      "loss": 3.3183,
      "step": 404190
    },
    {
      "epoch": 0.8420833333333333,
      "grad_norm": 2.6377875804901123,
      "learning_rate": 1.8232352962623648e-05,
      "loss": 3.4589,
      "step": 404200
    },
    {
      "epoch": 0.8421041666666667,
      "grad_norm": 2.0521466732025146,
      "learning_rate": 1.8227642509781348e-05,
      "loss": 3.4911,
      "step": 404210
    },
    {
      "epoch": 0.842125,
      "grad_norm": 2.0445709228515625,
      "learning_rate": 1.82229326261434e-05,
      "loss": 3.4217,
      "step": 404220
    },
    {
      "epoch": 0.8421458333333334,
      "grad_norm": 2.2250325679779053,
      "learning_rate": 1.8218223311730284e-05,
      "loss": 3.3306,
      "step": 404230
    },
    {
      "epoch": 0.8421666666666666,
      "grad_norm": 2.227982759475708,
      "learning_rate": 1.8213514566562255e-05,
      "loss": 3.3535,
      "step": 404240
    },
    {
      "epoch": 0.8421875,
      "grad_norm": 3.329288959503174,
      "learning_rate": 1.8208806390659626e-05,
      "loss": 3.3536,
      "step": 404250
    },
    {
      "epoch": 0.8422083333333333,
      "grad_norm": 2.2278988361358643,
      "learning_rate": 1.8204098784042863e-05,
      "loss": 3.3323,
      "step": 404260
    },
    {
      "epoch": 0.8422291666666667,
      "grad_norm": 2.3012259006500244,
      "learning_rate": 1.8199391746732208e-05,
      "loss": 3.4195,
      "step": 404270
    },
    {
      "epoch": 0.84225,
      "grad_norm": 2.1665706634521484,
      "learning_rate": 1.8194685278747968e-05,
      "loss": 3.3848,
      "step": 404280
    },
    {
      "epoch": 0.8422708333333333,
      "grad_norm": 1.9261950254440308,
      "learning_rate": 1.8189979380110565e-05,
      "loss": 3.5181,
      "step": 404290
    },
    {
      "epoch": 0.8422916666666667,
      "grad_norm": 2.7711076736450195,
      "learning_rate": 1.8185274050840265e-05,
      "loss": 3.3632,
      "step": 404300
    },
    {
      "epoch": 0.8423125,
      "grad_norm": 2.386925458908081,
      "learning_rate": 1.818056929095737e-05,
      "loss": 3.4441,
      "step": 404310
    },
    {
      "epoch": 0.8423333333333334,
      "grad_norm": 1.8363653421401978,
      "learning_rate": 1.8175865100482296e-05,
      "loss": 3.449,
      "step": 404320
    },
    {
      "epoch": 0.8423541666666666,
      "grad_norm": 2.5160088539123535,
      "learning_rate": 1.8171161479435274e-05,
      "loss": 3.478,
      "step": 404330
    },
    {
      "epoch": 0.842375,
      "grad_norm": 2.8406100273132324,
      "learning_rate": 1.816645842783661e-05,
      "loss": 3.5676,
      "step": 404340
    },
    {
      "epoch": 0.8423958333333333,
      "grad_norm": 2.253913402557373,
      "learning_rate": 1.8161755945706753e-05,
      "loss": 3.4991,
      "step": 404350
    },
    {
      "epoch": 0.8424166666666667,
      "grad_norm": 2.1524031162261963,
      "learning_rate": 1.8157054033065866e-05,
      "loss": 3.4171,
      "step": 404360
    },
    {
      "epoch": 0.8424375,
      "grad_norm": 2.3601465225219727,
      "learning_rate": 1.8152352689934334e-05,
      "loss": 3.4397,
      "step": 404370
    },
    {
      "epoch": 0.8424583333333333,
      "grad_norm": 2.2833077907562256,
      "learning_rate": 1.8147651916332445e-05,
      "loss": 3.3968,
      "step": 404380
    },
    {
      "epoch": 0.8424791666666667,
      "grad_norm": 2.459886312484741,
      "learning_rate": 1.8142951712280514e-05,
      "loss": 3.5098,
      "step": 404390
    },
    {
      "epoch": 0.8425,
      "grad_norm": 2.6261000633239746,
      "learning_rate": 1.813825207779884e-05,
      "loss": 3.4694,
      "step": 404400
    },
    {
      "epoch": 0.8425208333333334,
      "grad_norm": 2.304744243621826,
      "learning_rate": 1.8133553012907705e-05,
      "loss": 3.3526,
      "step": 404410
    },
    {
      "epoch": 0.8425416666666666,
      "grad_norm": 2.0059850215911865,
      "learning_rate": 1.8128854517627444e-05,
      "loss": 3.5459,
      "step": 404420
    },
    {
      "epoch": 0.8425625,
      "grad_norm": 2.3668622970581055,
      "learning_rate": 1.8124156591978328e-05,
      "loss": 3.4589,
      "step": 404430
    },
    {
      "epoch": 0.8425833333333334,
      "grad_norm": 2.2207672595977783,
      "learning_rate": 1.8119459235980654e-05,
      "loss": 3.427,
      "step": 404440
    },
    {
      "epoch": 0.8426041666666667,
      "grad_norm": 1.9337865114212036,
      "learning_rate": 1.811476244965471e-05,
      "loss": 3.3916,
      "step": 404450
    },
    {
      "epoch": 0.842625,
      "grad_norm": 3.0209732055664062,
      "learning_rate": 1.8110066233020788e-05,
      "loss": 3.3298,
      "step": 404460
    },
    {
      "epoch": 0.8426458333333333,
      "grad_norm": 2.5973963737487793,
      "learning_rate": 1.810537058609918e-05,
      "loss": 3.4914,
      "step": 404470
    },
    {
      "epoch": 0.8426666666666667,
      "grad_norm": 1.9413024187088013,
      "learning_rate": 1.810067550891016e-05,
      "loss": 3.3869,
      "step": 404480
    },
    {
      "epoch": 0.8426875,
      "grad_norm": 3.0339972972869873,
      "learning_rate": 1.8095981001474026e-05,
      "loss": 3.4474,
      "step": 404490
    },
    {
      "epoch": 0.8427083333333333,
      "grad_norm": 2.299913167953491,
      "learning_rate": 1.8091287063811032e-05,
      "loss": 3.43,
      "step": 404500
    },
    {
      "epoch": 0.8427291666666666,
      "grad_norm": 2.0945940017700195,
      "learning_rate": 1.8086593695941455e-05,
      "loss": 3.4422,
      "step": 404510
    },
    {
      "epoch": 0.84275,
      "grad_norm": 2.4748923778533936,
      "learning_rate": 1.808190089788562e-05,
      "loss": 3.4166,
      "step": 404520
    },
    {
      "epoch": 0.8427708333333334,
      "grad_norm": 2.576521158218384,
      "learning_rate": 1.80772086696637e-05,
      "loss": 3.4949,
      "step": 404530
    },
    {
      "epoch": 0.8427916666666667,
      "grad_norm": 2.4530551433563232,
      "learning_rate": 1.8072517011296045e-05,
      "loss": 3.3287,
      "step": 404540
    },
    {
      "epoch": 0.8428125,
      "grad_norm": 2.792705535888672,
      "learning_rate": 1.806782592280292e-05,
      "loss": 3.5395,
      "step": 404550
    },
    {
      "epoch": 0.8428333333333333,
      "grad_norm": 2.4962449073791504,
      "learning_rate": 1.806313540420451e-05,
      "loss": 3.369,
      "step": 404560
    },
    {
      "epoch": 0.8428541666666667,
      "grad_norm": 2.247150182723999,
      "learning_rate": 1.805844545552115e-05,
      "loss": 3.3713,
      "step": 404570
    },
    {
      "epoch": 0.842875,
      "grad_norm": 2.225229501724243,
      "learning_rate": 1.8053756076773135e-05,
      "loss": 3.4081,
      "step": 404580
    },
    {
      "epoch": 0.8428958333333333,
      "grad_norm": 2.4617462158203125,
      "learning_rate": 1.8049067267980587e-05,
      "loss": 3.5315,
      "step": 404590
    },
    {
      "epoch": 0.8429166666666666,
      "grad_norm": 2.7035958766937256,
      "learning_rate": 1.8044379029163892e-05,
      "loss": 3.4128,
      "step": 404600
    },
    {
      "epoch": 0.8429375,
      "grad_norm": 2.316800832748413,
      "learning_rate": 1.8039691360343226e-05,
      "loss": 3.33,
      "step": 404610
    },
    {
      "epoch": 0.8429583333333334,
      "grad_norm": 2.378237009048462,
      "learning_rate": 1.803500426153883e-05,
      "loss": 3.4865,
      "step": 404620
    },
    {
      "epoch": 0.8429791666666666,
      "grad_norm": 2.4816083908081055,
      "learning_rate": 1.8030317732771054e-05,
      "loss": 3.3389,
      "step": 404630
    },
    {
      "epoch": 0.843,
      "grad_norm": 2.3386566638946533,
      "learning_rate": 1.802563177406003e-05,
      "loss": 3.2837,
      "step": 404640
    },
    {
      "epoch": 0.8430208333333333,
      "grad_norm": 2.114306688308716,
      "learning_rate": 1.802094638542599e-05,
      "loss": 3.4067,
      "step": 404650
    },
    {
      "epoch": 0.8430416666666667,
      "grad_norm": 1.9448578357696533,
      "learning_rate": 1.80162615668893e-05,
      "loss": 3.3426,
      "step": 404660
    },
    {
      "epoch": 0.8430625,
      "grad_norm": 2.9825279712677,
      "learning_rate": 1.8011577318470083e-05,
      "loss": 3.4719,
      "step": 404670
    },
    {
      "epoch": 0.8430833333333333,
      "grad_norm": 2.194321870803833,
      "learning_rate": 1.800689364018857e-05,
      "loss": 3.463,
      "step": 404680
    },
    {
      "epoch": 0.8431041666666667,
      "grad_norm": 2.0818660259246826,
      "learning_rate": 1.800221053206511e-05,
      "loss": 3.489,
      "step": 404690
    },
    {
      "epoch": 0.843125,
      "grad_norm": 1.9770262241363525,
      "learning_rate": 1.7997527994119804e-05,
      "loss": 3.4712,
      "step": 404700
    },
    {
      "epoch": 0.8431458333333334,
      "grad_norm": 2.0671534538269043,
      "learning_rate": 1.7992846026372904e-05,
      "loss": 3.3691,
      "step": 404710
    },
    {
      "epoch": 0.8431666666666666,
      "grad_norm": 1.8379420042037964,
      "learning_rate": 1.798816462884471e-05,
      "loss": 3.5219,
      "step": 404720
    },
    {
      "epoch": 0.8431875,
      "grad_norm": 3.4434831142425537,
      "learning_rate": 1.7983483801555354e-05,
      "loss": 3.3603,
      "step": 404730
    },
    {
      "epoch": 0.8432083333333333,
      "grad_norm": 2.8482680320739746,
      "learning_rate": 1.7978803544525104e-05,
      "loss": 3.4254,
      "step": 404740
    },
    {
      "epoch": 0.8432291666666667,
      "grad_norm": 2.8475186824798584,
      "learning_rate": 1.7974123857774163e-05,
      "loss": 3.5173,
      "step": 404750
    },
    {
      "epoch": 0.84325,
      "grad_norm": 2.1279022693634033,
      "learning_rate": 1.7969444741322763e-05,
      "loss": 3.4692,
      "step": 404760
    },
    {
      "epoch": 0.8432708333333333,
      "grad_norm": 2.0601236820220947,
      "learning_rate": 1.7964766195191087e-05,
      "loss": 3.4609,
      "step": 404770
    },
    {
      "epoch": 0.8432916666666667,
      "grad_norm": 2.369194984436035,
      "learning_rate": 1.7960088219399353e-05,
      "loss": 3.4932,
      "step": 404780
    },
    {
      "epoch": 0.8433125,
      "grad_norm": 2.0992977619171143,
      "learning_rate": 1.795541081396778e-05,
      "loss": 3.5775,
      "step": 404790
    },
    {
      "epoch": 0.8433333333333334,
      "grad_norm": 2.8814187049865723,
      "learning_rate": 1.7950733978916547e-05,
      "loss": 3.4529,
      "step": 404800
    },
    {
      "epoch": 0.8433541666666666,
      "grad_norm": 2.152961254119873,
      "learning_rate": 1.7946057714265893e-05,
      "loss": 3.4551,
      "step": 404810
    },
    {
      "epoch": 0.843375,
      "grad_norm": 2.0600502490997314,
      "learning_rate": 1.7941382020036e-05,
      "loss": 3.371,
      "step": 404820
    },
    {
      "epoch": 0.8433958333333333,
      "grad_norm": 2.50840425491333,
      "learning_rate": 1.7936706896247066e-05,
      "loss": 3.5422,
      "step": 404830
    },
    {
      "epoch": 0.8434166666666667,
      "grad_norm": 2.9838645458221436,
      "learning_rate": 1.7932032342919277e-05,
      "loss": 3.4449,
      "step": 404840
    },
    {
      "epoch": 0.8434375,
      "grad_norm": 2.158735752105713,
      "learning_rate": 1.7927358360072834e-05,
      "loss": 3.4692,
      "step": 404850
    },
    {
      "epoch": 0.8434583333333333,
      "grad_norm": 2.217783212661743,
      "learning_rate": 1.7922684947727956e-05,
      "loss": 3.2917,
      "step": 404860
    },
    {
      "epoch": 0.8434791666666667,
      "grad_norm": 2.0431017875671387,
      "learning_rate": 1.791801210590474e-05,
      "loss": 3.5139,
      "step": 404870
    },
    {
      "epoch": 0.8435,
      "grad_norm": 2.2896194458007812,
      "learning_rate": 1.7913339834623454e-05,
      "loss": 3.4564,
      "step": 404880
    },
    {
      "epoch": 0.8435208333333334,
      "grad_norm": 2.12253737449646,
      "learning_rate": 1.790866813390428e-05,
      "loss": 3.3907,
      "step": 404890
    },
    {
      "epoch": 0.8435416666666666,
      "grad_norm": 2.6677398681640625,
      "learning_rate": 1.7903997003767323e-05,
      "loss": 3.3617,
      "step": 404900
    },
    {
      "epoch": 0.8435625,
      "grad_norm": 2.572841167449951,
      "learning_rate": 1.7899326444232847e-05,
      "loss": 3.3074,
      "step": 404910
    },
    {
      "epoch": 0.8435833333333334,
      "grad_norm": 2.153075933456421,
      "learning_rate": 1.7894656455321022e-05,
      "loss": 3.4478,
      "step": 404920
    },
    {
      "epoch": 0.8436041666666667,
      "grad_norm": 2.132049322128296,
      "learning_rate": 1.788998703705193e-05,
      "loss": 3.388,
      "step": 404930
    },
    {
      "epoch": 0.843625,
      "grad_norm": 2.5611066818237305,
      "learning_rate": 1.788531818944582e-05,
      "loss": 3.4922,
      "step": 404940
    },
    {
      "epoch": 0.8436458333333333,
      "grad_norm": 2.5203840732574463,
      "learning_rate": 1.7880649912522875e-05,
      "loss": 3.5327,
      "step": 404950
    },
    {
      "epoch": 0.8436666666666667,
      "grad_norm": 2.550666570663452,
      "learning_rate": 1.787598220630317e-05,
      "loss": 3.3983,
      "step": 404960
    },
    {
      "epoch": 0.8436875,
      "grad_norm": 2.0582969188690186,
      "learning_rate": 1.787131507080698e-05,
      "loss": 3.5409,
      "step": 404970
    },
    {
      "epoch": 0.8437083333333333,
      "grad_norm": 2.673060178756714,
      "learning_rate": 1.7866648506054377e-05,
      "loss": 3.4544,
      "step": 404980
    },
    {
      "epoch": 0.8437291666666666,
      "grad_norm": 2.2899158000946045,
      "learning_rate": 1.7861982512065525e-05,
      "loss": 3.4592,
      "step": 404990
    },
    {
      "epoch": 0.84375,
      "grad_norm": 2.1081788539886475,
      "learning_rate": 1.7857317088860664e-05,
      "loss": 3.5058,
      "step": 405000
    },
    {
      "epoch": 0.84375,
      "eval_loss": 3.5256409645080566,
      "eval_runtime": 7.3246,
      "eval_samples_per_second": 1.365,
      "eval_steps_per_second": 0.41,
      "step": 405000
    },
    {
      "epoch": 0.8437708333333334,
      "grad_norm": 2.2247745990753174,
      "learning_rate": 1.785265223645987e-05,
      "loss": 3.5248,
      "step": 405010
    },
    {
      "epoch": 0.8437916666666667,
      "grad_norm": 1.977168083190918,
      "learning_rate": 1.7847987954883264e-05,
      "loss": 3.3416,
      "step": 405020
    },
    {
      "epoch": 0.8438125,
      "grad_norm": 2.270995855331421,
      "learning_rate": 1.7843324244151096e-05,
      "loss": 3.613,
      "step": 405030
    },
    {
      "epoch": 0.8438333333333333,
      "grad_norm": 2.9315261840820312,
      "learning_rate": 1.7838661104283436e-05,
      "loss": 3.5162,
      "step": 405040
    },
    {
      "epoch": 0.8438541666666667,
      "grad_norm": 1.93936026096344,
      "learning_rate": 1.7833998535300415e-05,
      "loss": 3.3348,
      "step": 405050
    },
    {
      "epoch": 0.843875,
      "grad_norm": 1.9717808961868286,
      "learning_rate": 1.7829336537222265e-05,
      "loss": 3.4341,
      "step": 405060
    },
    {
      "epoch": 0.8438958333333333,
      "grad_norm": 2.1290576457977295,
      "learning_rate": 1.7824675110069042e-05,
      "loss": 3.4855,
      "step": 405070
    },
    {
      "epoch": 0.8439166666666666,
      "grad_norm": 2.2063872814178467,
      "learning_rate": 1.782001425386086e-05,
      "loss": 3.4468,
      "step": 405080
    },
    {
      "epoch": 0.8439375,
      "grad_norm": 2.2562015056610107,
      "learning_rate": 1.7815353968617968e-05,
      "loss": 3.4265,
      "step": 405090
    },
    {
      "epoch": 0.8439583333333334,
      "grad_norm": 2.2519655227661133,
      "learning_rate": 1.7810694254360385e-05,
      "loss": 3.2769,
      "step": 405100
    },
    {
      "epoch": 0.8439791666666666,
      "grad_norm": 2.518306255340576,
      "learning_rate": 1.7806035111108298e-05,
      "loss": 3.4855,
      "step": 405110
    },
    {
      "epoch": 0.844,
      "grad_norm": 2.1632776260375977,
      "learning_rate": 1.7801376538881785e-05,
      "loss": 3.4415,
      "step": 405120
    },
    {
      "epoch": 0.8440208333333333,
      "grad_norm": 2.6992998123168945,
      "learning_rate": 1.7796718537701015e-05,
      "loss": 3.5558,
      "step": 405130
    },
    {
      "epoch": 0.8440416666666667,
      "grad_norm": 2.9528305530548096,
      "learning_rate": 1.779206110758609e-05,
      "loss": 3.4937,
      "step": 405140
    },
    {
      "epoch": 0.8440625,
      "grad_norm": 2.175154685974121,
      "learning_rate": 1.778740424855713e-05,
      "loss": 3.3883,
      "step": 405150
    },
    {
      "epoch": 0.8440833333333333,
      "grad_norm": 2.219835042953491,
      "learning_rate": 1.778274796063425e-05,
      "loss": 3.4518,
      "step": 405160
    },
    {
      "epoch": 0.8441041666666667,
      "grad_norm": 2.294008255004883,
      "learning_rate": 1.777809224383756e-05,
      "loss": 3.3451,
      "step": 405170
    },
    {
      "epoch": 0.844125,
      "grad_norm": 2.0528292655944824,
      "learning_rate": 1.777343709818717e-05,
      "loss": 3.5728,
      "step": 405180
    },
    {
      "epoch": 0.8441458333333334,
      "grad_norm": 2.1950523853302,
      "learning_rate": 1.7768782523703194e-05,
      "loss": 3.5594,
      "step": 405190
    },
    {
      "epoch": 0.8441666666666666,
      "grad_norm": 2.4479048252105713,
      "learning_rate": 1.776412852040575e-05,
      "loss": 3.4182,
      "step": 405200
    },
    {
      "epoch": 0.8441875,
      "grad_norm": 2.9159724712371826,
      "learning_rate": 1.775947508831492e-05,
      "loss": 3.3725,
      "step": 405210
    },
    {
      "epoch": 0.8442083333333333,
      "grad_norm": 2.2208750247955322,
      "learning_rate": 1.775482222745081e-05,
      "loss": 3.554,
      "step": 405220
    },
    {
      "epoch": 0.8442291666666667,
      "grad_norm": 3.0425589084625244,
      "learning_rate": 1.7750169937833548e-05,
      "loss": 3.3694,
      "step": 405230
    },
    {
      "epoch": 0.84425,
      "grad_norm": 2.363494873046875,
      "learning_rate": 1.774551821948315e-05,
      "loss": 3.5553,
      "step": 405240
    },
    {
      "epoch": 0.8442708333333333,
      "grad_norm": 2.4075675010681152,
      "learning_rate": 1.774086707241979e-05,
      "loss": 3.492,
      "step": 405250
    },
    {
      "epoch": 0.8442916666666667,
      "grad_norm": 2.6950130462646484,
      "learning_rate": 1.773621649666358e-05,
      "loss": 3.4222,
      "step": 405260
    },
    {
      "epoch": 0.8443125,
      "grad_norm": 2.8113808631896973,
      "learning_rate": 1.7731566492234473e-05,
      "loss": 3.4339,
      "step": 405270
    },
    {
      "epoch": 0.8443333333333334,
      "grad_norm": 2.0686583518981934,
      "learning_rate": 1.77269170591527e-05,
      "loss": 3.4483,
      "step": 405280
    },
    {
      "epoch": 0.8443541666666666,
      "grad_norm": 2.809021472930908,
      "learning_rate": 1.77222681974383e-05,
      "loss": 3.3683,
      "step": 405290
    },
    {
      "epoch": 0.844375,
      "grad_norm": 2.3201687335968018,
      "learning_rate": 1.7717619907111286e-05,
      "loss": 3.5692,
      "step": 405300
    },
    {
      "epoch": 0.8443958333333333,
      "grad_norm": 2.1435306072235107,
      "learning_rate": 1.7712972188191827e-05,
      "loss": 3.3316,
      "step": 405310
    },
    {
      "epoch": 0.8444166666666667,
      "grad_norm": 2.487938165664673,
      "learning_rate": 1.770832504069999e-05,
      "loss": 3.4911,
      "step": 405320
    },
    {
      "epoch": 0.8444375,
      "grad_norm": 2.625875473022461,
      "learning_rate": 1.7703678464655757e-05,
      "loss": 3.357,
      "step": 405330
    },
    {
      "epoch": 0.8444583333333333,
      "grad_norm": 2.296168327331543,
      "learning_rate": 1.7699032460079317e-05,
      "loss": 3.3865,
      "step": 405340
    },
    {
      "epoch": 0.8444791666666667,
      "grad_norm": 2.5431606769561768,
      "learning_rate": 1.7694387026990714e-05,
      "loss": 3.3505,
      "step": 405350
    },
    {
      "epoch": 0.8445,
      "grad_norm": 2.6883060932159424,
      "learning_rate": 1.768974216540992e-05,
      "loss": 3.4552,
      "step": 405360
    },
    {
      "epoch": 0.8445208333333334,
      "grad_norm": 2.168668031692505,
      "learning_rate": 1.768509787535712e-05,
      "loss": 3.5215,
      "step": 405370
    },
    {
      "epoch": 0.8445416666666666,
      "grad_norm": 2.9071433544158936,
      "learning_rate": 1.768045415685231e-05,
      "loss": 3.3191,
      "step": 405380
    },
    {
      "epoch": 0.8445625,
      "grad_norm": 3.0234768390655518,
      "learning_rate": 1.767581100991556e-05,
      "loss": 3.4389,
      "step": 405390
    },
    {
      "epoch": 0.8445833333333334,
      "grad_norm": 2.480628728866577,
      "learning_rate": 1.7671168434566917e-05,
      "loss": 3.3137,
      "step": 405400
    },
    {
      "epoch": 0.8446041666666667,
      "grad_norm": 1.9603763818740845,
      "learning_rate": 1.7666526430826455e-05,
      "loss": 3.2843,
      "step": 405410
    },
    {
      "epoch": 0.844625,
      "grad_norm": 2.0065102577209473,
      "learning_rate": 1.766188499871422e-05,
      "loss": 3.4385,
      "step": 405420
    },
    {
      "epoch": 0.8446458333333333,
      "grad_norm": 2.0380115509033203,
      "learning_rate": 1.765724413825025e-05,
      "loss": 3.6381,
      "step": 405430
    },
    {
      "epoch": 0.8446666666666667,
      "grad_norm": 2.2605466842651367,
      "learning_rate": 1.7652603849454604e-05,
      "loss": 3.537,
      "step": 405440
    },
    {
      "epoch": 0.8446875,
      "grad_norm": 2.3784115314483643,
      "learning_rate": 1.7647964132347325e-05,
      "loss": 3.2931,
      "step": 405450
    },
    {
      "epoch": 0.8447083333333333,
      "grad_norm": 2.4350507259368896,
      "learning_rate": 1.7643324986948458e-05,
      "loss": 3.5287,
      "step": 405460
    },
    {
      "epoch": 0.8447291666666666,
      "grad_norm": 3.0730514526367188,
      "learning_rate": 1.7638686413278023e-05,
      "loss": 3.5016,
      "step": 405470
    },
    {
      "epoch": 0.84475,
      "grad_norm": 2.3934338092803955,
      "learning_rate": 1.7634048411356088e-05,
      "loss": 3.441,
      "step": 405480
    },
    {
      "epoch": 0.8447708333333334,
      "grad_norm": 2.433795213699341,
      "learning_rate": 1.762941098120267e-05,
      "loss": 3.5295,
      "step": 405490
    },
    {
      "epoch": 0.8447916666666667,
      "grad_norm": 2.320310354232788,
      "learning_rate": 1.7624774122837782e-05,
      "loss": 3.3959,
      "step": 405500
    },
    {
      "epoch": 0.8448125,
      "grad_norm": 2.1574196815490723,
      "learning_rate": 1.762013783628148e-05,
      "loss": 3.5288,
      "step": 405510
    },
    {
      "epoch": 0.8448333333333333,
      "grad_norm": 2.803187847137451,
      "learning_rate": 1.7615502121553775e-05,
      "loss": 3.3901,
      "step": 405520
    },
    {
      "epoch": 0.8448541666666667,
      "grad_norm": 2.880215883255005,
      "learning_rate": 1.7610866978674727e-05,
      "loss": 3.5005,
      "step": 405530
    },
    {
      "epoch": 0.844875,
      "grad_norm": 1.955462098121643,
      "learning_rate": 1.7606232407664295e-05,
      "loss": 3.4017,
      "step": 405540
    },
    {
      "epoch": 0.8448958333333333,
      "grad_norm": 2.663782835006714,
      "learning_rate": 1.760159840854255e-05,
      "loss": 3.3756,
      "step": 405550
    },
    {
      "epoch": 0.8449166666666666,
      "grad_norm": 2.190251350402832,
      "learning_rate": 1.759696498132951e-05,
      "loss": 3.3896,
      "step": 405560
    },
    {
      "epoch": 0.8449375,
      "grad_norm": 2.0680558681488037,
      "learning_rate": 1.7592332126045155e-05,
      "loss": 3.4683,
      "step": 405570
    },
    {
      "epoch": 0.8449583333333334,
      "grad_norm": 2.5836119651794434,
      "learning_rate": 1.7587699842709506e-05,
      "loss": 3.5578,
      "step": 405580
    },
    {
      "epoch": 0.8449791666666666,
      "grad_norm": 2.6651248931884766,
      "learning_rate": 1.75830681313426e-05,
      "loss": 3.4603,
      "step": 405590
    },
    {
      "epoch": 0.845,
      "grad_norm": 2.3640975952148438,
      "learning_rate": 1.7578436991964445e-05,
      "loss": 3.3269,
      "step": 405600
    },
    {
      "epoch": 0.8450208333333333,
      "grad_norm": 3.0045411586761475,
      "learning_rate": 1.7573806424594968e-05,
      "loss": 3.3733,
      "step": 405610
    },
    {
      "epoch": 0.8450416666666667,
      "grad_norm": 2.250110626220703,
      "learning_rate": 1.756917642925426e-05,
      "loss": 3.3659,
      "step": 405620
    },
    {
      "epoch": 0.8450625,
      "grad_norm": 2.4244935512542725,
      "learning_rate": 1.7564547005962315e-05,
      "loss": 3.4047,
      "step": 405630
    },
    {
      "epoch": 0.8450833333333333,
      "grad_norm": 1.8269516229629517,
      "learning_rate": 1.7559918154739045e-05,
      "loss": 3.5597,
      "step": 405640
    },
    {
      "epoch": 0.8451041666666667,
      "grad_norm": 2.0700154304504395,
      "learning_rate": 1.7555289875604535e-05,
      "loss": 3.3498,
      "step": 405650
    },
    {
      "epoch": 0.845125,
      "grad_norm": 2.3143136501312256,
      "learning_rate": 1.755066216857878e-05,
      "loss": 3.3821,
      "step": 405660
    },
    {
      "epoch": 0.8451458333333334,
      "grad_norm": 2.1807384490966797,
      "learning_rate": 1.7546035033681693e-05,
      "loss": 3.4504,
      "step": 405670
    },
    {
      "epoch": 0.8451666666666666,
      "grad_norm": 1.9800114631652832,
      "learning_rate": 1.7541408470933317e-05,
      "loss": 3.4502,
      "step": 405680
    },
    {
      "epoch": 0.8451875,
      "grad_norm": 3.084341287612915,
      "learning_rate": 1.7536782480353667e-05,
      "loss": 3.4514,
      "step": 405690
    },
    {
      "epoch": 0.8452083333333333,
      "grad_norm": 2.2726526260375977,
      "learning_rate": 1.753215706196265e-05,
      "loss": 3.4463,
      "step": 405700
    },
    {
      "epoch": 0.8452291666666667,
      "grad_norm": 2.0484607219696045,
      "learning_rate": 1.7527532215780243e-05,
      "loss": 3.4397,
      "step": 405710
    },
    {
      "epoch": 0.84525,
      "grad_norm": 1.9257360696792603,
      "learning_rate": 1.752290794182652e-05,
      "loss": 3.4349,
      "step": 405720
    },
    {
      "epoch": 0.8452708333333333,
      "grad_norm": 2.165127754211426,
      "learning_rate": 1.7518284240121376e-05,
      "loss": 3.4715,
      "step": 405730
    },
    {
      "epoch": 0.8452916666666667,
      "grad_norm": 2.338853120803833,
      "learning_rate": 1.7513661110684802e-05,
      "loss": 3.3893,
      "step": 405740
    },
    {
      "epoch": 0.8453125,
      "grad_norm": 2.2049105167388916,
      "learning_rate": 1.7509038553536758e-05,
      "loss": 3.395,
      "step": 405750
    },
    {
      "epoch": 0.8453333333333334,
      "grad_norm": 2.393059730529785,
      "learning_rate": 1.750441656869723e-05,
      "loss": 3.4832,
      "step": 405760
    },
    {
      "epoch": 0.8453541666666666,
      "grad_norm": 2.434373378753662,
      "learning_rate": 1.7499795156186192e-05,
      "loss": 3.5025,
      "step": 405770
    },
    {
      "epoch": 0.845375,
      "grad_norm": 2.8811635971069336,
      "learning_rate": 1.7495174316023585e-05,
      "loss": 3.425,
      "step": 405780
    },
    {
      "epoch": 0.8453958333333333,
      "grad_norm": 2.86398983001709,
      "learning_rate": 1.7490554048229367e-05,
      "loss": 3.5114,
      "step": 405790
    },
    {
      "epoch": 0.8454166666666667,
      "grad_norm": 2.4921109676361084,
      "learning_rate": 1.7485934352823515e-05,
      "loss": 3.3865,
      "step": 405800
    },
    {
      "epoch": 0.8454375,
      "grad_norm": 2.690809488296509,
      "learning_rate": 1.748131522982597e-05,
      "loss": 3.5421,
      "step": 405810
    },
    {
      "epoch": 0.8454583333333333,
      "grad_norm": 2.722172975540161,
      "learning_rate": 1.747669667925668e-05,
      "loss": 3.4257,
      "step": 405820
    },
    {
      "epoch": 0.8454791666666667,
      "grad_norm": 2.463979959487915,
      "learning_rate": 1.747207870113561e-05,
      "loss": 3.6526,
      "step": 405830
    },
    {
      "epoch": 0.8455,
      "grad_norm": 2.0781190395355225,
      "learning_rate": 1.74674612954827e-05,
      "loss": 3.4539,
      "step": 405840
    },
    {
      "epoch": 0.8455208333333334,
      "grad_norm": 1.9973889589309692,
      "learning_rate": 1.746284446231791e-05,
      "loss": 3.4077,
      "step": 405850
    },
    {
      "epoch": 0.8455416666666666,
      "grad_norm": 2.944793939590454,
      "learning_rate": 1.7458228201661162e-05,
      "loss": 3.2562,
      "step": 405860
    },
    {
      "epoch": 0.8455625,
      "grad_norm": 2.03045392036438,
      "learning_rate": 1.7453612513532387e-05,
      "loss": 3.3137,
      "step": 405870
    },
    {
      "epoch": 0.8455833333333334,
      "grad_norm": 2.524099349975586,
      "learning_rate": 1.744899739795156e-05,
      "loss": 3.4967,
      "step": 405880
    },
    {
      "epoch": 0.8456041666666667,
      "grad_norm": 2.6286420822143555,
      "learning_rate": 1.7444382854938603e-05,
      "loss": 3.4018,
      "step": 405890
    },
    {
      "epoch": 0.845625,
      "grad_norm": 2.2203290462493896,
      "learning_rate": 1.7439768884513428e-05,
      "loss": 3.3829,
      "step": 405900
    },
    {
      "epoch": 0.8456458333333333,
      "grad_norm": 2.443796157836914,
      "learning_rate": 1.743515548669598e-05,
      "loss": 3.4721,
      "step": 405910
    },
    {
      "epoch": 0.8456666666666667,
      "grad_norm": 2.4651787281036377,
      "learning_rate": 1.7430542661506193e-05,
      "loss": 3.32,
      "step": 405920
    },
    {
      "epoch": 0.8456875,
      "grad_norm": 2.0336949825286865,
      "learning_rate": 1.7425930408964e-05,
      "loss": 3.5568,
      "step": 405930
    },
    {
      "epoch": 0.8457083333333333,
      "grad_norm": 2.833848714828491,
      "learning_rate": 1.742131872908929e-05,
      "loss": 3.5151,
      "step": 405940
    },
    {
      "epoch": 0.8457291666666666,
      "grad_norm": 2.032407522201538,
      "learning_rate": 1.741670762190201e-05,
      "loss": 3.4874,
      "step": 405950
    },
    {
      "epoch": 0.84575,
      "grad_norm": 2.035656690597534,
      "learning_rate": 1.7412097087422078e-05,
      "loss": 3.4545,
      "step": 405960
    },
    {
      "epoch": 0.8457708333333334,
      "grad_norm": 2.69185209274292,
      "learning_rate": 1.7407487125669427e-05,
      "loss": 3.3639,
      "step": 405970
    },
    {
      "epoch": 0.8457916666666667,
      "grad_norm": 2.126046657562256,
      "learning_rate": 1.7402877736663927e-05,
      "loss": 3.4442,
      "step": 405980
    },
    {
      "epoch": 0.8458125,
      "grad_norm": 2.465710401535034,
      "learning_rate": 1.7398268920425477e-05,
      "loss": 3.4742,
      "step": 405990
    },
    {
      "epoch": 0.8458333333333333,
      "grad_norm": 2.041015863418579,
      "learning_rate": 1.739366067697408e-05,
      "loss": 3.426,
      "step": 406000
    },
    {
      "epoch": 0.8458333333333333,
      "eval_loss": 3.5306060314178467,
      "eval_runtime": 6.9407,
      "eval_samples_per_second": 1.441,
      "eval_steps_per_second": 0.432,
      "step": 406000
    },
    {
      "epoch": 0.8458541666666667,
      "grad_norm": 3.0204594135284424,
      "learning_rate": 1.738905300632955e-05,
      "loss": 3.5164,
      "step": 406010
    },
    {
      "epoch": 0.845875,
      "grad_norm": 2.214937210083008,
      "learning_rate": 1.738444590851179e-05,
      "loss": 3.354,
      "step": 406020
    },
    {
      "epoch": 0.8458958333333333,
      "grad_norm": 2.2079784870147705,
      "learning_rate": 1.7379839383540783e-05,
      "loss": 3.3913,
      "step": 406030
    },
    {
      "epoch": 0.8459166666666667,
      "grad_norm": 2.0506675243377686,
      "learning_rate": 1.7375233431436346e-05,
      "loss": 3.4886,
      "step": 406040
    },
    {
      "epoch": 0.8459375,
      "grad_norm": 2.8515801429748535,
      "learning_rate": 1.737062805221838e-05,
      "loss": 3.3857,
      "step": 406050
    },
    {
      "epoch": 0.8459583333333334,
      "grad_norm": 2.4445719718933105,
      "learning_rate": 1.7366023245906857e-05,
      "loss": 3.4894,
      "step": 406060
    },
    {
      "epoch": 0.8459791666666666,
      "grad_norm": 2.109182834625244,
      "learning_rate": 1.7361419012521588e-05,
      "loss": 3.3801,
      "step": 406070
    },
    {
      "epoch": 0.846,
      "grad_norm": 1.9323445558547974,
      "learning_rate": 1.735681535208246e-05,
      "loss": 3.3826,
      "step": 406080
    },
    {
      "epoch": 0.8460208333333333,
      "grad_norm": 2.383478879928589,
      "learning_rate": 1.735221226460944e-05,
      "loss": 3.5059,
      "step": 406090
    },
    {
      "epoch": 0.8460416666666667,
      "grad_norm": 2.403956890106201,
      "learning_rate": 1.7347609750122327e-05,
      "loss": 3.4706,
      "step": 406100
    },
    {
      "epoch": 0.8460625,
      "grad_norm": 2.492511510848999,
      "learning_rate": 1.7343007808641025e-05,
      "loss": 3.3923,
      "step": 406110
    },
    {
      "epoch": 0.8460833333333333,
      "grad_norm": 2.003521203994751,
      "learning_rate": 1.733840644018543e-05,
      "loss": 3.4785,
      "step": 406120
    },
    {
      "epoch": 0.8461041666666667,
      "grad_norm": 3.1589009761810303,
      "learning_rate": 1.733380564477542e-05,
      "loss": 3.4233,
      "step": 406130
    },
    {
      "epoch": 0.846125,
      "grad_norm": 2.371354341506958,
      "learning_rate": 1.7329205422430832e-05,
      "loss": 3.3492,
      "step": 406140
    },
    {
      "epoch": 0.8461458333333334,
      "grad_norm": 2.3135128021240234,
      "learning_rate": 1.7324605773171573e-05,
      "loss": 3.384,
      "step": 406150
    },
    {
      "epoch": 0.8461666666666666,
      "grad_norm": 2.200239658355713,
      "learning_rate": 1.7320006697017497e-05,
      "loss": 3.52,
      "step": 406160
    },
    {
      "epoch": 0.8461875,
      "grad_norm": 2.6750681400299072,
      "learning_rate": 1.7315408193988484e-05,
      "loss": 3.3642,
      "step": 406170
    },
    {
      "epoch": 0.8462083333333333,
      "grad_norm": 3.4264914989471436,
      "learning_rate": 1.7310810264104386e-05,
      "loss": 3.6433,
      "step": 406180
    },
    {
      "epoch": 0.8462291666666667,
      "grad_norm": 2.203618288040161,
      "learning_rate": 1.7306212907385054e-05,
      "loss": 3.5179,
      "step": 406190
    },
    {
      "epoch": 0.84625,
      "grad_norm": 2.1670446395874023,
      "learning_rate": 1.730161612385037e-05,
      "loss": 3.454,
      "step": 406200
    },
    {
      "epoch": 0.8462708333333333,
      "grad_norm": 2.4154937267303467,
      "learning_rate": 1.729701991352017e-05,
      "loss": 3.4918,
      "step": 406210
    },
    {
      "epoch": 0.8462916666666667,
      "grad_norm": 2.1793394088745117,
      "learning_rate": 1.7292424276414325e-05,
      "loss": 3.4394,
      "step": 406220
    },
    {
      "epoch": 0.8463125,
      "grad_norm": 2.1824357509613037,
      "learning_rate": 1.7287829212552662e-05,
      "loss": 3.3561,
      "step": 406230
    },
    {
      "epoch": 0.8463333333333334,
      "grad_norm": 2.3553061485290527,
      "learning_rate": 1.728323472195507e-05,
      "loss": 3.3308,
      "step": 406240
    },
    {
      "epoch": 0.8463541666666666,
      "grad_norm": 2.625494956970215,
      "learning_rate": 1.7278640804641347e-05,
      "loss": 3.4081,
      "step": 406250
    },
    {
      "epoch": 0.846375,
      "grad_norm": 2.143108606338501,
      "learning_rate": 1.727404746063138e-05,
      "loss": 3.3058,
      "step": 406260
    },
    {
      "epoch": 0.8463958333333333,
      "grad_norm": 2.4271297454833984,
      "learning_rate": 1.7269454689944984e-05,
      "loss": 3.3538,
      "step": 406270
    },
    {
      "epoch": 0.8464166666666667,
      "grad_norm": 2.277698040008545,
      "learning_rate": 1.7264862492601993e-05,
      "loss": 3.3798,
      "step": 406280
    },
    {
      "epoch": 0.8464375,
      "grad_norm": 1.8549853563308716,
      "learning_rate": 1.7260270868622312e-05,
      "loss": 3.4578,
      "step": 406290
    },
    {
      "epoch": 0.8464583333333333,
      "grad_norm": 2.4549989700317383,
      "learning_rate": 1.7255679818025637e-05,
      "loss": 3.4106,
      "step": 406300
    },
    {
      "epoch": 0.8464791666666667,
      "grad_norm": 2.232948064804077,
      "learning_rate": 1.725108934083192e-05,
      "loss": 3.5789,
      "step": 406310
    },
    {
      "epoch": 0.8465,
      "grad_norm": 2.265484094619751,
      "learning_rate": 1.724649943706098e-05,
      "loss": 3.3885,
      "step": 406320
    },
    {
      "epoch": 0.8465208333333333,
      "grad_norm": 2.277784585952759,
      "learning_rate": 1.7241910106732547e-05,
      "loss": 3.6053,
      "step": 406330
    },
    {
      "epoch": 0.8465416666666666,
      "grad_norm": 2.242659091949463,
      "learning_rate": 1.723732134986656e-05,
      "loss": 3.5064,
      "step": 406340
    },
    {
      "epoch": 0.8465625,
      "grad_norm": 2.2478678226470947,
      "learning_rate": 1.7232733166482803e-05,
      "loss": 3.3549,
      "step": 406350
    },
    {
      "epoch": 0.8465833333333334,
      "grad_norm": 2.5216147899627686,
      "learning_rate": 1.7228145556601042e-05,
      "loss": 3.3809,
      "step": 406360
    },
    {
      "epoch": 0.8466041666666667,
      "grad_norm": 2.6979572772979736,
      "learning_rate": 1.7223558520241193e-05,
      "loss": 3.4218,
      "step": 406370
    },
    {
      "epoch": 0.846625,
      "grad_norm": 2.38527774810791,
      "learning_rate": 1.7218972057422992e-05,
      "loss": 3.335,
      "step": 406380
    },
    {
      "epoch": 0.8466458333333333,
      "grad_norm": 2.4640846252441406,
      "learning_rate": 1.721438616816624e-05,
      "loss": 3.3603,
      "step": 406390
    },
    {
      "epoch": 0.8466666666666667,
      "grad_norm": 2.2918965816497803,
      "learning_rate": 1.7209800852490834e-05,
      "loss": 3.4035,
      "step": 406400
    },
    {
      "epoch": 0.8466875,
      "grad_norm": 4.637787818908691,
      "learning_rate": 1.7205216110416497e-05,
      "loss": 3.5061,
      "step": 406410
    },
    {
      "epoch": 0.8467083333333333,
      "grad_norm": 2.3007941246032715,
      "learning_rate": 1.7200631941963027e-05,
      "loss": 3.5709,
      "step": 406420
    },
    {
      "epoch": 0.8467291666666666,
      "grad_norm": 2.224419355392456,
      "learning_rate": 1.7196048347150325e-05,
      "loss": 3.3061,
      "step": 406430
    },
    {
      "epoch": 0.84675,
      "grad_norm": 2.709872007369995,
      "learning_rate": 1.7191465325998093e-05,
      "loss": 3.3483,
      "step": 406440
    },
    {
      "epoch": 0.8467708333333334,
      "grad_norm": 2.436925172805786,
      "learning_rate": 1.7186882878526148e-05,
      "loss": 3.5438,
      "step": 406450
    },
    {
      "epoch": 0.8467916666666667,
      "grad_norm": 2.4890294075012207,
      "learning_rate": 1.718230100475434e-05,
      "loss": 3.4115,
      "step": 406460
    },
    {
      "epoch": 0.8468125,
      "grad_norm": 2.0338828563690186,
      "learning_rate": 1.71777197047024e-05,
      "loss": 3.5339,
      "step": 406470
    },
    {
      "epoch": 0.8468333333333333,
      "grad_norm": 2.852788209915161,
      "learning_rate": 1.717313897839014e-05,
      "loss": 3.357,
      "step": 406480
    },
    {
      "epoch": 0.8468541666666667,
      "grad_norm": 2.9245073795318604,
      "learning_rate": 1.7168558825837332e-05,
      "loss": 3.2909,
      "step": 406490
    },
    {
      "epoch": 0.846875,
      "grad_norm": 2.07735276222229,
      "learning_rate": 1.716397924706378e-05,
      "loss": 3.317,
      "step": 406500
    },
    {
      "epoch": 0.8468958333333333,
      "grad_norm": 2.414947986602783,
      "learning_rate": 1.7159400242089237e-05,
      "loss": 3.3919,
      "step": 406510
    },
    {
      "epoch": 0.8469166666666667,
      "grad_norm": 2.2015202045440674,
      "learning_rate": 1.7154821810933522e-05,
      "loss": 3.3634,
      "step": 406520
    },
    {
      "epoch": 0.8469375,
      "grad_norm": 2.1339402198791504,
      "learning_rate": 1.71502439536164e-05,
      "loss": 3.3784,
      "step": 406530
    },
    {
      "epoch": 0.8469583333333334,
      "grad_norm": 2.687391996383667,
      "learning_rate": 1.7145666670157622e-05,
      "loss": 3.4407,
      "step": 406540
    },
    {
      "epoch": 0.8469791666666666,
      "grad_norm": 2.4491868019104004,
      "learning_rate": 1.7141089960576986e-05,
      "loss": 3.3839,
      "step": 406550
    },
    {
      "epoch": 0.847,
      "grad_norm": 2.2556722164154053,
      "learning_rate": 1.713651382489425e-05,
      "loss": 3.5229,
      "step": 406560
    },
    {
      "epoch": 0.8470208333333333,
      "grad_norm": 2.0575294494628906,
      "learning_rate": 1.7131938263129174e-05,
      "loss": 3.3095,
      "step": 406570
    },
    {
      "epoch": 0.8470416666666667,
      "grad_norm": 2.184567451477051,
      "learning_rate": 1.7127363275301548e-05,
      "loss": 3.4347,
      "step": 406580
    },
    {
      "epoch": 0.8470625,
      "grad_norm": 1.8875951766967773,
      "learning_rate": 1.7122788861431103e-05,
      "loss": 3.518,
      "step": 406590
    },
    {
      "epoch": 0.8470833333333333,
      "grad_norm": 2.606698513031006,
      "learning_rate": 1.711821502153766e-05,
      "loss": 3.2739,
      "step": 406600
    },
    {
      "epoch": 0.8471041666666667,
      "grad_norm": 2.277815341949463,
      "learning_rate": 1.711364175564086e-05,
      "loss": 3.3883,
      "step": 406610
    },
    {
      "epoch": 0.847125,
      "grad_norm": 2.3345236778259277,
      "learning_rate": 1.710906906376055e-05,
      "loss": 3.4104,
      "step": 406620
    },
    {
      "epoch": 0.8471458333333334,
      "grad_norm": 2.1648483276367188,
      "learning_rate": 1.7104496945916506e-05,
      "loss": 3.4712,
      "step": 406630
    },
    {
      "epoch": 0.8471666666666666,
      "grad_norm": 2.645679235458374,
      "learning_rate": 1.709992540212835e-05,
      "loss": 3.3412,
      "step": 406640
    },
    {
      "epoch": 0.8471875,
      "grad_norm": 2.4023869037628174,
      "learning_rate": 1.7095354432415964e-05,
      "loss": 3.3919,
      "step": 406650
    },
    {
      "epoch": 0.8472083333333333,
      "grad_norm": 2.531259536743164,
      "learning_rate": 1.7090784036799067e-05,
      "loss": 3.4576,
      "step": 406660
    },
    {
      "epoch": 0.8472291666666667,
      "grad_norm": 2.1839160919189453,
      "learning_rate": 1.708621421529729e-05,
      "loss": 3.3732,
      "step": 406670
    },
    {
      "epoch": 0.84725,
      "grad_norm": 2.172217845916748,
      "learning_rate": 1.70816449679305e-05,
      "loss": 3.4651,
      "step": 406680
    },
    {
      "epoch": 0.8472708333333333,
      "grad_norm": 2.8850531578063965,
      "learning_rate": 1.707707629471844e-05,
      "loss": 3.4553,
      "step": 406690
    },
    {
      "epoch": 0.8472916666666667,
      "grad_norm": 3.743256092071533,
      "learning_rate": 1.7072508195680716e-05,
      "loss": 3.4649,
      "step": 406700
    },
    {
      "epoch": 0.8473125,
      "grad_norm": 2.393179416656494,
      "learning_rate": 1.706794067083717e-05,
      "loss": 3.537,
      "step": 406710
    },
    {
      "epoch": 0.8473333333333334,
      "grad_norm": 2.687025547027588,
      "learning_rate": 1.7063373720207534e-05,
      "loss": 3.4238,
      "step": 406720
    },
    {
      "epoch": 0.8473541666666666,
      "grad_norm": 2.164407968521118,
      "learning_rate": 1.705880734381144e-05,
      "loss": 3.4192,
      "step": 406730
    },
    {
      "epoch": 0.847375,
      "grad_norm": 2.864474058151245,
      "learning_rate": 1.7054241541668763e-05,
      "loss": 3.4441,
      "step": 406740
    },
    {
      "epoch": 0.8473958333333333,
      "grad_norm": 2.448489189147949,
      "learning_rate": 1.7049676313799078e-05,
      "loss": 3.5354,
      "step": 406750
    },
    {
      "epoch": 0.8474166666666667,
      "grad_norm": 1.9017908573150635,
      "learning_rate": 1.7045111660222156e-05,
      "loss": 3.3477,
      "step": 406760
    },
    {
      "epoch": 0.8474375,
      "grad_norm": 2.406066417694092,
      "learning_rate": 1.7040547580957763e-05,
      "loss": 3.3458,
      "step": 406770
    },
    {
      "epoch": 0.8474583333333333,
      "grad_norm": 2.383288860321045,
      "learning_rate": 1.7035984076025554e-05,
      "loss": 3.361,
      "step": 406780
    },
    {
      "epoch": 0.8474791666666667,
      "grad_norm": 2.539531707763672,
      "learning_rate": 1.7031421145445245e-05,
      "loss": 3.3621,
      "step": 406790
    },
    {
      "epoch": 0.8475,
      "grad_norm": 2.488124370574951,
      "learning_rate": 1.702685878923662e-05,
      "loss": 3.3109,
      "step": 406800
    },
    {
      "epoch": 0.8475208333333333,
      "grad_norm": 2.2477970123291016,
      "learning_rate": 1.7022297007419293e-05,
      "loss": 3.3595,
      "step": 406810
    },
    {
      "epoch": 0.8475416666666666,
      "grad_norm": 2.6323049068450928,
      "learning_rate": 1.7017735800012973e-05,
      "loss": 3.3933,
      "step": 406820
    },
    {
      "epoch": 0.8475625,
      "grad_norm": 1.979323148727417,
      "learning_rate": 1.701317516703747e-05,
      "loss": 3.2922,
      "step": 406830
    },
    {
      "epoch": 0.8475833333333334,
      "grad_norm": 2.3322105407714844,
      "learning_rate": 1.700861510851237e-05,
      "loss": 3.4032,
      "step": 406840
    },
    {
      "epoch": 0.8476041666666667,
      "grad_norm": 2.7007253170013428,
      "learning_rate": 1.7004055624457374e-05,
      "loss": 3.4763,
      "step": 406850
    },
    {
      "epoch": 0.847625,
      "grad_norm": 2.256070375442505,
      "learning_rate": 1.6999496714892285e-05,
      "loss": 3.4056,
      "step": 406860
    },
    {
      "epoch": 0.8476458333333333,
      "grad_norm": 2.6832339763641357,
      "learning_rate": 1.6994938379836702e-05,
      "loss": 3.4938,
      "step": 406870
    },
    {
      "epoch": 0.8476666666666667,
      "grad_norm": 2.5158917903900146,
      "learning_rate": 1.699038061931033e-05,
      "loss": 3.4467,
      "step": 406880
    },
    {
      "epoch": 0.8476875,
      "grad_norm": 2.4310717582702637,
      "learning_rate": 1.6985823433332863e-05,
      "loss": 3.4138,
      "step": 406890
    },
    {
      "epoch": 0.8477083333333333,
      "grad_norm": 2.928652286529541,
      "learning_rate": 1.698126682192399e-05,
      "loss": 3.4894,
      "step": 406900
    },
    {
      "epoch": 0.8477291666666666,
      "grad_norm": 2.5844523906707764,
      "learning_rate": 1.6976710785103394e-05,
      "loss": 3.4471,
      "step": 406910
    },
    {
      "epoch": 0.84775,
      "grad_norm": 3.2723331451416016,
      "learning_rate": 1.6972155322890755e-05,
      "loss": 3.4122,
      "step": 406920
    },
    {
      "epoch": 0.8477708333333334,
      "grad_norm": 2.5225653648376465,
      "learning_rate": 1.696760043530575e-05,
      "loss": 3.2857,
      "step": 406930
    },
    {
      "epoch": 0.8477916666666667,
      "grad_norm": 2.566154718399048,
      "learning_rate": 1.696304612236804e-05,
      "loss": 3.4411,
      "step": 406940
    },
    {
      "epoch": 0.8478125,
      "grad_norm": 2.007913112640381,
      "learning_rate": 1.6958492384097327e-05,
      "loss": 3.3966,
      "step": 406950
    },
    {
      "epoch": 0.8478333333333333,
      "grad_norm": 2.156982183456421,
      "learning_rate": 1.695393922051326e-05,
      "loss": 3.3085,
      "step": 406960
    },
    {
      "epoch": 0.8478541666666667,
      "grad_norm": 2.395573616027832,
      "learning_rate": 1.694938663163553e-05,
      "loss": 3.5417,
      "step": 406970
    },
    {
      "epoch": 0.847875,
      "grad_norm": 2.738299608230591,
      "learning_rate": 1.694483461748375e-05,
      "loss": 3.3093,
      "step": 406980
    },
    {
      "epoch": 0.8478958333333333,
      "grad_norm": 2.093046188354492,
      "learning_rate": 1.694028317807762e-05,
      "loss": 3.4286,
      "step": 406990
    },
    {
      "epoch": 0.8479166666666667,
      "grad_norm": 2.1221015453338623,
      "learning_rate": 1.693573231343684e-05,
      "loss": 3.5362,
      "step": 407000
    },
    {
      "epoch": 0.8479166666666667,
      "eval_loss": 3.5298912525177,
      "eval_runtime": 7.3567,
      "eval_samples_per_second": 1.359,
      "eval_steps_per_second": 0.408,
      "step": 407000
    },
    {
      "epoch": 0.8479375,
      "grad_norm": 1.9576259851455688,
      "learning_rate": 1.6931182023580962e-05,
      "loss": 3.4645,
      "step": 407010
    },
    {
      "epoch": 0.8479583333333334,
      "grad_norm": 2.186429023742676,
      "learning_rate": 1.692663230852974e-05,
      "loss": 3.4867,
      "step": 407020
    },
    {
      "epoch": 0.8479791666666666,
      "grad_norm": 3.1359875202178955,
      "learning_rate": 1.6922083168302826e-05,
      "loss": 3.3934,
      "step": 407030
    },
    {
      "epoch": 0.848,
      "grad_norm": 2.30143404006958,
      "learning_rate": 1.691753460291978e-05,
      "loss": 3.2981,
      "step": 407040
    },
    {
      "epoch": 0.8480208333333333,
      "grad_norm": 2.7322120666503906,
      "learning_rate": 1.6912986612400325e-05,
      "loss": 3.2287,
      "step": 407050
    },
    {
      "epoch": 0.8480416666666667,
      "grad_norm": 2.8509178161621094,
      "learning_rate": 1.690843919676413e-05,
      "loss": 3.5671,
      "step": 407060
    },
    {
      "epoch": 0.8480625,
      "grad_norm": 2.856938123703003,
      "learning_rate": 1.6903892356030723e-05,
      "loss": 3.428,
      "step": 407070
    },
    {
      "epoch": 0.8480833333333333,
      "grad_norm": 2.557992935180664,
      "learning_rate": 1.6899346090219863e-05,
      "loss": 3.4335,
      "step": 407080
    },
    {
      "epoch": 0.8481041666666667,
      "grad_norm": 2.0230581760406494,
      "learning_rate": 1.6894800399351162e-05,
      "loss": 3.4149,
      "step": 407090
    },
    {
      "epoch": 0.848125,
      "grad_norm": 2.2435977458953857,
      "learning_rate": 1.689025528344417e-05,
      "loss": 3.4879,
      "step": 407100
    },
    {
      "epoch": 0.8481458333333334,
      "grad_norm": 2.4099254608154297,
      "learning_rate": 1.688571074251866e-05,
      "loss": 3.4215,
      "step": 407110
    },
    {
      "epoch": 0.8481666666666666,
      "grad_norm": 2.2790565490722656,
      "learning_rate": 1.6881166776594162e-05,
      "loss": 3.4204,
      "step": 407120
    },
    {
      "epoch": 0.8481875,
      "grad_norm": 2.1677300930023193,
      "learning_rate": 1.6876623385690296e-05,
      "loss": 3.5109,
      "step": 407130
    },
    {
      "epoch": 0.8482083333333333,
      "grad_norm": 2.1902966499328613,
      "learning_rate": 1.6872080569826778e-05,
      "loss": 3.4489,
      "step": 407140
    },
    {
      "epoch": 0.8482291666666667,
      "grad_norm": 2.1984786987304688,
      "learning_rate": 1.6867538329023146e-05,
      "loss": 3.4786,
      "step": 407150
    },
    {
      "epoch": 0.84825,
      "grad_norm": 2.566917657852173,
      "learning_rate": 1.686299666329906e-05,
      "loss": 3.4385,
      "step": 407160
    },
    {
      "epoch": 0.8482708333333333,
      "grad_norm": 2.447521924972534,
      "learning_rate": 1.685845557267413e-05,
      "loss": 3.424,
      "step": 407170
    },
    {
      "epoch": 0.8482916666666667,
      "grad_norm": 2.5530827045440674,
      "learning_rate": 1.685391505716795e-05,
      "loss": 3.3495,
      "step": 407180
    },
    {
      "epoch": 0.8483125,
      "grad_norm": 2.0252814292907715,
      "learning_rate": 1.6849375116800175e-05,
      "loss": 3.3916,
      "step": 407190
    },
    {
      "epoch": 0.8483333333333334,
      "grad_norm": 2.4062304496765137,
      "learning_rate": 1.6844835751590387e-05,
      "loss": 3.2916,
      "step": 407200
    },
    {
      "epoch": 0.8483541666666666,
      "grad_norm": 2.663693428039551,
      "learning_rate": 1.6840296961558203e-05,
      "loss": 3.4399,
      "step": 407210
    },
    {
      "epoch": 0.848375,
      "grad_norm": 2.2772836685180664,
      "learning_rate": 1.6835758746723227e-05,
      "loss": 3.6065,
      "step": 407220
    },
    {
      "epoch": 0.8483958333333333,
      "grad_norm": 2.606191396713257,
      "learning_rate": 1.6831221107105076e-05,
      "loss": 3.5441,
      "step": 407230
    },
    {
      "epoch": 0.8484166666666667,
      "grad_norm": 2.610285997390747,
      "learning_rate": 1.6826684042723314e-05,
      "loss": 3.4482,
      "step": 407240
    },
    {
      "epoch": 0.8484375,
      "grad_norm": 2.9884378910064697,
      "learning_rate": 1.682214755359758e-05,
      "loss": 3.4462,
      "step": 407250
    },
    {
      "epoch": 0.8484583333333333,
      "grad_norm": 2.505220651626587,
      "learning_rate": 1.6817611639747458e-05,
      "loss": 3.4798,
      "step": 407260
    },
    {
      "epoch": 0.8484791666666667,
      "grad_norm": 1.962149977684021,
      "learning_rate": 1.681307630119253e-05,
      "loss": 3.3885,
      "step": 407270
    },
    {
      "epoch": 0.8485,
      "grad_norm": 2.3055527210235596,
      "learning_rate": 1.680854153795238e-05,
      "loss": 3.3749,
      "step": 407280
    },
    {
      "epoch": 0.8485208333333333,
      "grad_norm": 2.4821598529815674,
      "learning_rate": 1.6804007350046628e-05,
      "loss": 3.3681,
      "step": 407290
    },
    {
      "epoch": 0.8485416666666666,
      "grad_norm": 2.692241907119751,
      "learning_rate": 1.6799473737494823e-05,
      "loss": 3.3516,
      "step": 407300
    },
    {
      "epoch": 0.8485625,
      "grad_norm": 2.774108648300171,
      "learning_rate": 1.6794940700316585e-05,
      "loss": 3.4839,
      "step": 407310
    },
    {
      "epoch": 0.8485833333333334,
      "grad_norm": 2.725902557373047,
      "learning_rate": 1.6790408238531477e-05,
      "loss": 3.5186,
      "step": 407320
    },
    {
      "epoch": 0.8486041666666667,
      "grad_norm": 2.2100162506103516,
      "learning_rate": 1.6785876352159073e-05,
      "loss": 3.5184,
      "step": 407330
    },
    {
      "epoch": 0.848625,
      "grad_norm": 2.455026865005493,
      "learning_rate": 1.6781345041218935e-05,
      "loss": 3.423,
      "step": 407340
    },
    {
      "epoch": 0.8486458333333333,
      "grad_norm": 2.0084784030914307,
      "learning_rate": 1.6776814305730684e-05,
      "loss": 3.4312,
      "step": 407350
    },
    {
      "epoch": 0.8486666666666667,
      "grad_norm": 2.346200942993164,
      "learning_rate": 1.677228414571384e-05,
      "loss": 3.413,
      "step": 407360
    },
    {
      "epoch": 0.8486875,
      "grad_norm": 2.087148427963257,
      "learning_rate": 1.6767754561188028e-05,
      "loss": 3.3538,
      "step": 407370
    },
    {
      "epoch": 0.8487083333333333,
      "grad_norm": 2.7455949783325195,
      "learning_rate": 1.6763225552172725e-05,
      "loss": 3.6163,
      "step": 407380
    },
    {
      "epoch": 0.8487291666666666,
      "grad_norm": 2.556349515914917,
      "learning_rate": 1.675869711868758e-05,
      "loss": 3.4455,
      "step": 407390
    },
    {
      "epoch": 0.84875,
      "grad_norm": 2.186671257019043,
      "learning_rate": 1.675416926075216e-05,
      "loss": 3.5234,
      "step": 407400
    },
    {
      "epoch": 0.8487708333333334,
      "grad_norm": 2.651667594909668,
      "learning_rate": 1.6749641978385913e-05,
      "loss": 3.3769,
      "step": 407410
    },
    {
      "epoch": 0.8487916666666667,
      "grad_norm": 2.0540497303009033,
      "learning_rate": 1.6745115271608495e-05,
      "loss": 3.4053,
      "step": 407420
    },
    {
      "epoch": 0.8488125,
      "grad_norm": 2.243805170059204,
      "learning_rate": 1.674058914043947e-05,
      "loss": 3.6459,
      "step": 407430
    },
    {
      "epoch": 0.8488333333333333,
      "grad_norm": 2.347703218460083,
      "learning_rate": 1.673606358489829e-05,
      "loss": 3.3851,
      "step": 407440
    },
    {
      "epoch": 0.8488541666666667,
      "grad_norm": 2.2205052375793457,
      "learning_rate": 1.6731538605004607e-05,
      "loss": 3.4978,
      "step": 407450
    },
    {
      "epoch": 0.848875,
      "grad_norm": 2.3098373413085938,
      "learning_rate": 1.6727014200777938e-05,
      "loss": 3.4221,
      "step": 407460
    },
    {
      "epoch": 0.8488958333333333,
      "grad_norm": 2.4319183826446533,
      "learning_rate": 1.67224903722378e-05,
      "loss": 3.4574,
      "step": 407470
    },
    {
      "epoch": 0.8489166666666667,
      "grad_norm": 2.071842908859253,
      "learning_rate": 1.6717967119403746e-05,
      "loss": 3.4585,
      "step": 407480
    },
    {
      "epoch": 0.8489375,
      "grad_norm": 2.1407124996185303,
      "learning_rate": 1.6713444442295308e-05,
      "loss": 3.4443,
      "step": 407490
    },
    {
      "epoch": 0.8489583333333334,
      "grad_norm": 2.2548720836639404,
      "learning_rate": 1.670892234093204e-05,
      "loss": 3.5911,
      "step": 407500
    },
    {
      "epoch": 0.8489791666666666,
      "grad_norm": 2.2445850372314453,
      "learning_rate": 1.6704400815333456e-05,
      "loss": 3.298,
      "step": 407510
    },
    {
      "epoch": 0.849,
      "grad_norm": 3.742907762527466,
      "learning_rate": 1.669987986551911e-05,
      "loss": 3.3309,
      "step": 407520
    },
    {
      "epoch": 0.8490208333333333,
      "grad_norm": 2.0416207313537598,
      "learning_rate": 1.669535949150852e-05,
      "loss": 3.4135,
      "step": 407530
    },
    {
      "epoch": 0.8490416666666667,
      "grad_norm": 2.4253246784210205,
      "learning_rate": 1.66908396933212e-05,
      "loss": 3.3468,
      "step": 407540
    },
    {
      "epoch": 0.8490625,
      "grad_norm": 2.0074827671051025,
      "learning_rate": 1.6686320470976707e-05,
      "loss": 3.4045,
      "step": 407550
    },
    {
      "epoch": 0.8490833333333333,
      "grad_norm": 2.11667537689209,
      "learning_rate": 1.6681801824494518e-05,
      "loss": 3.3277,
      "step": 407560
    },
    {
      "epoch": 0.8491041666666667,
      "grad_norm": 2.3405210971832275,
      "learning_rate": 1.667728375389417e-05,
      "loss": 3.5658,
      "step": 407570
    },
    {
      "epoch": 0.849125,
      "grad_norm": 2.3124966621398926,
      "learning_rate": 1.6672766259195203e-05,
      "loss": 3.4116,
      "step": 407580
    },
    {
      "epoch": 0.8491458333333334,
      "grad_norm": 2.1538000106811523,
      "learning_rate": 1.6668249340417112e-05,
      "loss": 3.3869,
      "step": 407590
    },
    {
      "epoch": 0.8491666666666666,
      "grad_norm": 2.455922842025757,
      "learning_rate": 1.6663732997579398e-05,
      "loss": 3.384,
      "step": 407600
    },
    {
      "epoch": 0.8491875,
      "grad_norm": 2.223825693130493,
      "learning_rate": 1.6659217230701567e-05,
      "loss": 3.4043,
      "step": 407610
    },
    {
      "epoch": 0.8492083333333333,
      "grad_norm": 2.4505419731140137,
      "learning_rate": 1.6654702039803163e-05,
      "loss": 3.3509,
      "step": 407620
    },
    {
      "epoch": 0.8492291666666667,
      "grad_norm": 2.649153470993042,
      "learning_rate": 1.6650187424903642e-05,
      "loss": 3.3264,
      "step": 407630
    },
    {
      "epoch": 0.84925,
      "grad_norm": 2.1444265842437744,
      "learning_rate": 1.664567338602254e-05,
      "loss": 3.4687,
      "step": 407640
    },
    {
      "epoch": 0.8492708333333333,
      "grad_norm": 1.9698418378829956,
      "learning_rate": 1.6641159923179336e-05,
      "loss": 3.3545,
      "step": 407650
    },
    {
      "epoch": 0.8492916666666667,
      "grad_norm": 2.628185272216797,
      "learning_rate": 1.663664703639355e-05,
      "loss": 3.3841,
      "step": 407660
    },
    {
      "epoch": 0.8493125,
      "grad_norm": 2.372069835662842,
      "learning_rate": 1.6632134725684655e-05,
      "loss": 3.4744,
      "step": 407670
    },
    {
      "epoch": 0.8493333333333334,
      "grad_norm": 2.0482025146484375,
      "learning_rate": 1.6627622991072126e-05,
      "loss": 3.388,
      "step": 407680
    },
    {
      "epoch": 0.8493541666666666,
      "grad_norm": 2.388792037963867,
      "learning_rate": 1.6623111832575505e-05,
      "loss": 3.3418,
      "step": 407690
    },
    {
      "epoch": 0.849375,
      "grad_norm": 2.25860857963562,
      "learning_rate": 1.661860125021422e-05,
      "loss": 3.3974,
      "step": 407700
    },
    {
      "epoch": 0.8493958333333333,
      "grad_norm": 2.346234083175659,
      "learning_rate": 1.6614091244007793e-05,
      "loss": 3.5076,
      "step": 407710
    },
    {
      "epoch": 0.8494166666666667,
      "grad_norm": 2.736905813217163,
      "learning_rate": 1.6609581813975693e-05,
      "loss": 3.5679,
      "step": 407720
    },
    {
      "epoch": 0.8494375,
      "grad_norm": 2.0316202640533447,
      "learning_rate": 1.66050729601374e-05,
      "loss": 3.5304,
      "step": 407730
    },
    {
      "epoch": 0.8494583333333333,
      "grad_norm": 2.3698811531066895,
      "learning_rate": 1.660056468251242e-05,
      "loss": 3.4778,
      "step": 407740
    },
    {
      "epoch": 0.8494791666666667,
      "grad_norm": 2.2699472904205322,
      "learning_rate": 1.6596056981120165e-05,
      "loss": 3.3697,
      "step": 407750
    },
    {
      "epoch": 0.8495,
      "grad_norm": 2.686481475830078,
      "learning_rate": 1.6591549855980125e-05,
      "loss": 3.4141,
      "step": 407760
    },
    {
      "epoch": 0.8495208333333333,
      "grad_norm": 1.8352941274642944,
      "learning_rate": 1.658704330711183e-05,
      "loss": 3.1934,
      "step": 407770
    },
    {
      "epoch": 0.8495416666666666,
      "grad_norm": 2.121009588241577,
      "learning_rate": 1.6582537334534667e-05,
      "loss": 3.4094,
      "step": 407780
    },
    {
      "epoch": 0.8495625,
      "grad_norm": 2.720637083053589,
      "learning_rate": 1.6578031938268104e-05,
      "loss": 3.4726,
      "step": 407790
    },
    {
      "epoch": 0.8495833333333334,
      "grad_norm": 2.2882118225097656,
      "learning_rate": 1.6573527118331692e-05,
      "loss": 3.638,
      "step": 407800
    },
    {
      "epoch": 0.8496041666666667,
      "grad_norm": 3.0013649463653564,
      "learning_rate": 1.6569022874744796e-05,
      "loss": 3.3804,
      "step": 407810
    },
    {
      "epoch": 0.849625,
      "grad_norm": 3.1340982913970947,
      "learning_rate": 1.6564519207526873e-05,
      "loss": 3.5204,
      "step": 407820
    },
    {
      "epoch": 0.8496458333333333,
      "grad_norm": 2.08825421333313,
      "learning_rate": 1.6560016116697482e-05,
      "loss": 3.6816,
      "step": 407830
    },
    {
      "epoch": 0.8496666666666667,
      "grad_norm": 2.1781296730041504,
      "learning_rate": 1.6555513602275967e-05,
      "loss": 3.474,
      "step": 407840
    },
    {
      "epoch": 0.8496875,
      "grad_norm": 2.2422780990600586,
      "learning_rate": 1.6551011664281772e-05,
      "loss": 3.5419,
      "step": 407850
    },
    {
      "epoch": 0.8497083333333333,
      "grad_norm": 2.6138694286346436,
      "learning_rate": 1.654651030273445e-05,
      "loss": 3.464,
      "step": 407860
    },
    {
      "epoch": 0.8497291666666666,
      "grad_norm": 2.8128304481506348,
      "learning_rate": 1.6542009517653354e-05,
      "loss": 3.4596,
      "step": 407870
    },
    {
      "epoch": 0.84975,
      "grad_norm": 2.903304100036621,
      "learning_rate": 1.6537509309057952e-05,
      "loss": 3.4555,
      "step": 407880
    },
    {
      "epoch": 0.8497708333333334,
      "grad_norm": 3.173293113708496,
      "learning_rate": 1.6533009676967675e-05,
      "loss": 3.4484,
      "step": 407890
    },
    {
      "epoch": 0.8497916666666666,
      "grad_norm": 2.5338685512542725,
      "learning_rate": 1.6528510621401974e-05,
      "loss": 3.3801,
      "step": 407900
    },
    {
      "epoch": 0.8498125,
      "grad_norm": 2.185236930847168,
      "learning_rate": 1.6524012142380254e-05,
      "loss": 3.4008,
      "step": 407910
    },
    {
      "epoch": 0.8498333333333333,
      "grad_norm": 2.223198413848877,
      "learning_rate": 1.6519514239922e-05,
      "loss": 3.4435,
      "step": 407920
    },
    {
      "epoch": 0.8498541666666667,
      "grad_norm": 2.198821783065796,
      "learning_rate": 1.6515016914046593e-05,
      "loss": 3.2926,
      "step": 407930
    },
    {
      "epoch": 0.849875,
      "grad_norm": 2.7476353645324707,
      "learning_rate": 1.6510520164773467e-05,
      "loss": 3.4356,
      "step": 407940
    },
    {
      "epoch": 0.8498958333333333,
      "grad_norm": 2.330425977706909,
      "learning_rate": 1.6506023992122058e-05,
      "loss": 3.369,
      "step": 407950
    },
    {
      "epoch": 0.8499166666666667,
      "grad_norm": 2.0760936737060547,
      "learning_rate": 1.65015283961118e-05,
      "loss": 3.6168,
      "step": 407960
    },
    {
      "epoch": 0.8499375,
      "grad_norm": 2.4511983394622803,
      "learning_rate": 1.649703337676208e-05,
      "loss": 3.4525,
      "step": 407970
    },
    {
      "epoch": 0.8499583333333334,
      "grad_norm": 2.274491310119629,
      "learning_rate": 1.6492538934092348e-05,
      "loss": 3.431,
      "step": 407980
    },
    {
      "epoch": 0.8499791666666666,
      "grad_norm": 2.5058724880218506,
      "learning_rate": 1.6488045068121986e-05,
      "loss": 3.4594,
      "step": 407990
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.3698861598968506,
      "learning_rate": 1.648355177887043e-05,
      "loss": 3.4152,
      "step": 408000
    },
    {
      "epoch": 0.85,
      "eval_loss": 3.5256857872009277,
      "eval_runtime": 6.9192,
      "eval_samples_per_second": 1.445,
      "eval_steps_per_second": 0.434,
      "step": 408000
    },
    {
      "epoch": 0.8500208333333333,
      "grad_norm": 2.526698112487793,
      "learning_rate": 1.647905906635708e-05,
      "loss": 3.4425,
      "step": 408010
    },
    {
      "epoch": 0.8500416666666667,
      "grad_norm": 2.1521832942962646,
      "learning_rate": 1.647456693060134e-05,
      "loss": 3.4906,
      "step": 408020
    },
    {
      "epoch": 0.8500625,
      "grad_norm": 2.832395315170288,
      "learning_rate": 1.6470075371622626e-05,
      "loss": 3.4064,
      "step": 408030
    },
    {
      "epoch": 0.8500833333333333,
      "grad_norm": 2.4126439094543457,
      "learning_rate": 1.646558438944032e-05,
      "loss": 3.3666,
      "step": 408040
    },
    {
      "epoch": 0.8501041666666667,
      "grad_norm": 2.220207929611206,
      "learning_rate": 1.6461093984073847e-05,
      "loss": 3.4486,
      "step": 408050
    },
    {
      "epoch": 0.850125,
      "grad_norm": 2.4123623371124268,
      "learning_rate": 1.645660415554262e-05,
      "loss": 3.2999,
      "step": 408060
    },
    {
      "epoch": 0.8501458333333334,
      "grad_norm": 2.093492269515991,
      "learning_rate": 1.6452114903865937e-05,
      "loss": 3.4789,
      "step": 408070
    },
    {
      "epoch": 0.8501666666666666,
      "grad_norm": 2.3574249744415283,
      "learning_rate": 1.6447626229063272e-05,
      "loss": 3.4193,
      "step": 408080
    },
    {
      "epoch": 0.8501875,
      "grad_norm": 2.4928348064422607,
      "learning_rate": 1.6443138131154055e-05,
      "loss": 3.4577,
      "step": 408090
    },
    {
      "epoch": 0.8502083333333333,
      "grad_norm": 2.991166591644287,
      "learning_rate": 1.643865061015754e-05,
      "loss": 3.4057,
      "step": 408100
    },
    {
      "epoch": 0.8502291666666667,
      "grad_norm": 2.6736302375793457,
      "learning_rate": 1.6434163666093243e-05,
      "loss": 3.5527,
      "step": 408110
    },
    {
      "epoch": 0.85025,
      "grad_norm": 2.188135862350464,
      "learning_rate": 1.6429677298980465e-05,
      "loss": 3.4402,
      "step": 408120
    },
    {
      "epoch": 0.8502708333333333,
      "grad_norm": 2.21540904045105,
      "learning_rate": 1.6425191508838575e-05,
      "loss": 3.5018,
      "step": 408130
    },
    {
      "epoch": 0.8502916666666667,
      "grad_norm": 2.2801167964935303,
      "learning_rate": 1.642070629568706e-05,
      "loss": 3.4476,
      "step": 408140
    },
    {
      "epoch": 0.8503125,
      "grad_norm": 2.339393138885498,
      "learning_rate": 1.6416221659545163e-05,
      "loss": 3.3298,
      "step": 408150
    },
    {
      "epoch": 0.8503333333333334,
      "grad_norm": 1.9778715372085571,
      "learning_rate": 1.641173760043231e-05,
      "loss": 3.5456,
      "step": 408160
    },
    {
      "epoch": 0.8503541666666666,
      "grad_norm": 2.205216646194458,
      "learning_rate": 1.640725411836792e-05,
      "loss": 3.451,
      "step": 408170
    },
    {
      "epoch": 0.850375,
      "grad_norm": 2.752495050430298,
      "learning_rate": 1.6402771213371285e-05,
      "loss": 3.4539,
      "step": 408180
    },
    {
      "epoch": 0.8503958333333334,
      "grad_norm": 2.5980842113494873,
      "learning_rate": 1.6398288885461764e-05,
      "loss": 3.3907,
      "step": 408190
    },
    {
      "epoch": 0.8504166666666667,
      "grad_norm": 2.3701329231262207,
      "learning_rate": 1.639380713465882e-05,
      "loss": 3.4435,
      "step": 408200
    },
    {
      "epoch": 0.8504375,
      "grad_norm": 2.1014106273651123,
      "learning_rate": 1.638932596098171e-05,
      "loss": 3.4152,
      "step": 408210
    },
    {
      "epoch": 0.8504583333333333,
      "grad_norm": 2.1408660411834717,
      "learning_rate": 1.638484536444978e-05,
      "loss": 3.5462,
      "step": 408220
    },
    {
      "epoch": 0.8504791666666667,
      "grad_norm": 2.2210426330566406,
      "learning_rate": 1.6380365345082514e-05,
      "loss": 3.4222,
      "step": 408230
    },
    {
      "epoch": 0.8505,
      "grad_norm": 2.467360734939575,
      "learning_rate": 1.6375885902899133e-05,
      "loss": 3.4614,
      "step": 408240
    },
    {
      "epoch": 0.8505208333333333,
      "grad_norm": 2.1983389854431152,
      "learning_rate": 1.637140703791904e-05,
      "loss": 3.4691,
      "step": 408250
    },
    {
      "epoch": 0.8505416666666666,
      "grad_norm": 2.1665189266204834,
      "learning_rate": 1.636692875016156e-05,
      "loss": 3.3838,
      "step": 408260
    },
    {
      "epoch": 0.8505625,
      "grad_norm": 2.448395013809204,
      "learning_rate": 1.6362451039646076e-05,
      "loss": 3.4511,
      "step": 408270
    },
    {
      "epoch": 0.8505833333333334,
      "grad_norm": 2.0127451419830322,
      "learning_rate": 1.6357973906391892e-05,
      "loss": 3.4935,
      "step": 408280
    },
    {
      "epoch": 0.8506041666666667,
      "grad_norm": 2.070091724395752,
      "learning_rate": 1.6353497350418364e-05,
      "loss": 3.4499,
      "step": 408290
    },
    {
      "epoch": 0.850625,
      "grad_norm": 2.4045636653900146,
      "learning_rate": 1.634902137174483e-05,
      "loss": 3.3147,
      "step": 408300
    },
    {
      "epoch": 0.8506458333333333,
      "grad_norm": 2.8121306896209717,
      "learning_rate": 1.634454597039062e-05,
      "loss": 3.3631,
      "step": 408310
    },
    {
      "epoch": 0.8506666666666667,
      "grad_norm": 2.3216443061828613,
      "learning_rate": 1.6340071146375056e-05,
      "loss": 3.29,
      "step": 408320
    },
    {
      "epoch": 0.8506875,
      "grad_norm": 2.979870557785034,
      "learning_rate": 1.6335596899717484e-05,
      "loss": 3.3748,
      "step": 408330
    },
    {
      "epoch": 0.8507083333333333,
      "grad_norm": 2.344447374343872,
      "learning_rate": 1.6331123230437227e-05,
      "loss": 3.397,
      "step": 408340
    },
    {
      "epoch": 0.8507291666666666,
      "grad_norm": 2.294825792312622,
      "learning_rate": 1.6326650138553615e-05,
      "loss": 3.485,
      "step": 408350
    },
    {
      "epoch": 0.85075,
      "grad_norm": 2.7811996936798096,
      "learning_rate": 1.6322177624085952e-05,
      "loss": 3.4003,
      "step": 408360
    },
    {
      "epoch": 0.8507708333333334,
      "grad_norm": 2.2595160007476807,
      "learning_rate": 1.6317705687053606e-05,
      "loss": 3.3362,
      "step": 408370
    },
    {
      "epoch": 0.8507916666666666,
      "grad_norm": 2.329481363296509,
      "learning_rate": 1.6313234327475793e-05,
      "loss": 3.4715,
      "step": 408380
    },
    {
      "epoch": 0.8508125,
      "grad_norm": 2.0808205604553223,
      "learning_rate": 1.630876354537192e-05,
      "loss": 3.372,
      "step": 408390
    },
    {
      "epoch": 0.8508333333333333,
      "grad_norm": 2.193020820617676,
      "learning_rate": 1.630429334076131e-05,
      "loss": 3.3466,
      "step": 408400
    },
    {
      "epoch": 0.8508541666666667,
      "grad_norm": 2.5904383659362793,
      "learning_rate": 1.6299823713663157e-05,
      "loss": 3.374,
      "step": 408410
    },
    {
      "epoch": 0.850875,
      "grad_norm": 2.712718963623047,
      "learning_rate": 1.6295354664096877e-05,
      "loss": 3.3789,
      "step": 408420
    },
    {
      "epoch": 0.8508958333333333,
      "grad_norm": 2.8677244186401367,
      "learning_rate": 1.6290886192081785e-05,
      "loss": 3.5118,
      "step": 408430
    },
    {
      "epoch": 0.8509166666666667,
      "grad_norm": 2.414820909500122,
      "learning_rate": 1.6286418297637054e-05,
      "loss": 3.4277,
      "step": 408440
    },
    {
      "epoch": 0.8509375,
      "grad_norm": 1.9823439121246338,
      "learning_rate": 1.6281950980782117e-05,
      "loss": 3.46,
      "step": 408450
    },
    {
      "epoch": 0.8509583333333334,
      "grad_norm": 2.4550137519836426,
      "learning_rate": 1.6277484241536254e-05,
      "loss": 3.3215,
      "step": 408460
    },
    {
      "epoch": 0.8509791666666666,
      "grad_norm": 2.3515913486480713,
      "learning_rate": 1.6273018079918654e-05,
      "loss": 3.3355,
      "step": 408470
    },
    {
      "epoch": 0.851,
      "grad_norm": 2.5984530448913574,
      "learning_rate": 1.626855249594875e-05,
      "loss": 3.477,
      "step": 408480
    },
    {
      "epoch": 0.8510208333333333,
      "grad_norm": 2.1330795288085938,
      "learning_rate": 1.6264087489645745e-05,
      "loss": 3.4811,
      "step": 408490
    },
    {
      "epoch": 0.8510416666666667,
      "grad_norm": 2.4956343173980713,
      "learning_rate": 1.6259623061028902e-05,
      "loss": 3.5864,
      "step": 408500
    },
    {
      "epoch": 0.8510625,
      "grad_norm": 2.0306878089904785,
      "learning_rate": 1.6255159210117613e-05,
      "loss": 3.469,
      "step": 408510
    },
    {
      "epoch": 0.8510833333333333,
      "grad_norm": 2.1209731101989746,
      "learning_rate": 1.6250695936931058e-05,
      "loss": 3.2826,
      "step": 408520
    },
    {
      "epoch": 0.8511041666666667,
      "grad_norm": 2.7301278114318848,
      "learning_rate": 1.6246233241488538e-05,
      "loss": 3.5198,
      "step": 408530
    },
    {
      "epoch": 0.851125,
      "grad_norm": 2.2781248092651367,
      "learning_rate": 1.6241771123809405e-05,
      "loss": 3.3578,
      "step": 408540
    },
    {
      "epoch": 0.8511458333333334,
      "grad_norm": 2.6213417053222656,
      "learning_rate": 1.6237309583912844e-05,
      "loss": 3.5529,
      "step": 408550
    },
    {
      "epoch": 0.8511666666666666,
      "grad_norm": 2.9506516456604004,
      "learning_rate": 1.6232848621818124e-05,
      "loss": 3.4805,
      "step": 408560
    },
    {
      "epoch": 0.8511875,
      "grad_norm": 2.5461909770965576,
      "learning_rate": 1.622838823754461e-05,
      "loss": 3.4814,
      "step": 408570
    },
    {
      "epoch": 0.8512083333333333,
      "grad_norm": 2.454874038696289,
      "learning_rate": 1.6223928431111488e-05,
      "loss": 3.4122,
      "step": 408580
    },
    {
      "epoch": 0.8512291666666667,
      "grad_norm": 2.4174861907958984,
      "learning_rate": 1.621946920253801e-05,
      "loss": 3.5255,
      "step": 408590
    },
    {
      "epoch": 0.85125,
      "grad_norm": 2.140019178390503,
      "learning_rate": 1.6215010551843528e-05,
      "loss": 3.3706,
      "step": 408600
    },
    {
      "epoch": 0.8512708333333333,
      "grad_norm": 2.4035332202911377,
      "learning_rate": 1.6210552479047207e-05,
      "loss": 3.4373,
      "step": 408610
    },
    {
      "epoch": 0.8512916666666667,
      "grad_norm": 3.045542001724243,
      "learning_rate": 1.6206094984168348e-05,
      "loss": 3.5581,
      "step": 408620
    },
    {
      "epoch": 0.8513125,
      "grad_norm": 2.4897758960723877,
      "learning_rate": 1.6201638067226208e-05,
      "loss": 3.4264,
      "step": 408630
    },
    {
      "epoch": 0.8513333333333334,
      "grad_norm": 2.600562334060669,
      "learning_rate": 1.6197181728240015e-05,
      "loss": 3.4329,
      "step": 408640
    },
    {
      "epoch": 0.8513541666666666,
      "grad_norm": 2.470001220703125,
      "learning_rate": 1.6192725967229043e-05,
      "loss": 3.4014,
      "step": 408650
    },
    {
      "epoch": 0.851375,
      "grad_norm": 2.409215211868286,
      "learning_rate": 1.6188270784212535e-05,
      "loss": 3.507,
      "step": 408660
    },
    {
      "epoch": 0.8513958333333334,
      "grad_norm": 2.903778076171875,
      "learning_rate": 1.6183816179209718e-05,
      "loss": 3.3315,
      "step": 408670
    },
    {
      "epoch": 0.8514166666666667,
      "grad_norm": 2.030902862548828,
      "learning_rate": 1.6179362152239856e-05,
      "loss": 3.4563,
      "step": 408680
    },
    {
      "epoch": 0.8514375,
      "grad_norm": 2.5998427867889404,
      "learning_rate": 1.617490870332218e-05,
      "loss": 3.5038,
      "step": 408690
    },
    {
      "epoch": 0.8514583333333333,
      "grad_norm": 2.139629602432251,
      "learning_rate": 1.6170455832475914e-05,
      "loss": 3.4027,
      "step": 408700
    },
    {
      "epoch": 0.8514791666666667,
      "grad_norm": 2.3063347339630127,
      "learning_rate": 1.6166003539720323e-05,
      "loss": 3.2998,
      "step": 408710
    },
    {
      "epoch": 0.8515,
      "grad_norm": 2.7035715579986572,
      "learning_rate": 1.6161551825074608e-05,
      "loss": 3.4762,
      "step": 408720
    },
    {
      "epoch": 0.8515208333333333,
      "grad_norm": 2.1017978191375732,
      "learning_rate": 1.615710068855802e-05,
      "loss": 3.4421,
      "step": 408730
    },
    {
      "epoch": 0.8515416666666666,
      "grad_norm": 2.2715370655059814,
      "learning_rate": 1.6152650130189816e-05,
      "loss": 3.2806,
      "step": 408740
    },
    {
      "epoch": 0.8515625,
      "grad_norm": 2.133633852005005,
      "learning_rate": 1.6148200149989103e-05,
      "loss": 3.4373,
      "step": 408750
    },
    {
      "epoch": 0.8515833333333334,
      "grad_norm": 3.0142695903778076,
      "learning_rate": 1.6143750747975225e-05,
      "loss": 3.407,
      "step": 408760
    },
    {
      "epoch": 0.8516041666666667,
      "grad_norm": 2.2369587421417236,
      "learning_rate": 1.61393019241674e-05,
      "loss": 3.5045,
      "step": 408770
    },
    {
      "epoch": 0.851625,
      "grad_norm": 3.247164487838745,
      "learning_rate": 1.613485367858472e-05,
      "loss": 3.5143,
      "step": 408780
    },
    {
      "epoch": 0.8516458333333333,
      "grad_norm": 1.925549030303955,
      "learning_rate": 1.6130406011246528e-05,
      "loss": 3.3456,
      "step": 408790
    },
    {
      "epoch": 0.8516666666666667,
      "grad_norm": 2.2189748287200928,
      "learning_rate": 1.6125958922172023e-05,
      "loss": 3.4716,
      "step": 408800
    },
    {
      "epoch": 0.8516875,
      "grad_norm": 3.4073128700256348,
      "learning_rate": 1.6121512411380322e-05,
      "loss": 3.5044,
      "step": 408810
    },
    {
      "epoch": 0.8517083333333333,
      "grad_norm": 2.2412736415863037,
      "learning_rate": 1.6117066478890726e-05,
      "loss": 3.454,
      "step": 408820
    },
    {
      "epoch": 0.8517291666666666,
      "grad_norm": 3.0946123600006104,
      "learning_rate": 1.611262112472244e-05,
      "loss": 3.4449,
      "step": 408830
    },
    {
      "epoch": 0.85175,
      "grad_norm": 2.7680649757385254,
      "learning_rate": 1.610817634889458e-05,
      "loss": 3.6171,
      "step": 408840
    },
    {
      "epoch": 0.8517708333333334,
      "grad_norm": 2.7385663986206055,
      "learning_rate": 1.610373215142641e-05,
      "loss": 3.5107,
      "step": 408850
    },
    {
      "epoch": 0.8517916666666666,
      "grad_norm": 2.105282783508301,
      "learning_rate": 1.6099288532337172e-05,
      "loss": 3.3729,
      "step": 408860
    },
    {
      "epoch": 0.8518125,
      "grad_norm": 3.0247080326080322,
      "learning_rate": 1.609484549164593e-05,
      "loss": 3.3898,
      "step": 408870
    },
    {
      "epoch": 0.8518333333333333,
      "grad_norm": 2.719376802444458,
      "learning_rate": 1.609040302937202e-05,
      "loss": 3.5685,
      "step": 408880
    },
    {
      "epoch": 0.8518541666666667,
      "grad_norm": 2.0491607189178467,
      "learning_rate": 1.6085961145534536e-05,
      "loss": 3.457,
      "step": 408890
    },
    {
      "epoch": 0.851875,
      "grad_norm": 2.5601937770843506,
      "learning_rate": 1.6081519840152658e-05,
      "loss": 3.3471,
      "step": 408900
    },
    {
      "epoch": 0.8518958333333333,
      "grad_norm": 2.2566723823547363,
      "learning_rate": 1.607707911324566e-05,
      "loss": 3.4495,
      "step": 408910
    },
    {
      "epoch": 0.8519166666666667,
      "grad_norm": 2.4611613750457764,
      "learning_rate": 1.607263896483265e-05,
      "loss": 3.5124,
      "step": 408920
    },
    {
      "epoch": 0.8519375,
      "grad_norm": 2.244802474975586,
      "learning_rate": 1.6068199394932812e-05,
      "loss": 3.3237,
      "step": 408930
    },
    {
      "epoch": 0.8519583333333334,
      "grad_norm": 1.8587323427200317,
      "learning_rate": 1.6063760403565362e-05,
      "loss": 3.349,
      "step": 408940
    },
    {
      "epoch": 0.8519791666666666,
      "grad_norm": 2.5709104537963867,
      "learning_rate": 1.6059321990749435e-05,
      "loss": 3.3716,
      "step": 408950
    },
    {
      "epoch": 0.852,
      "grad_norm": 3.0778095722198486,
      "learning_rate": 1.6054884156504215e-05,
      "loss": 3.5127,
      "step": 408960
    },
    {
      "epoch": 0.8520208333333333,
      "grad_norm": 2.2698585987091064,
      "learning_rate": 1.605044690084889e-05,
      "loss": 3.4487,
      "step": 408970
    },
    {
      "epoch": 0.8520416666666667,
      "grad_norm": 2.519634962081909,
      "learning_rate": 1.6046010223802607e-05,
      "loss": 3.4278,
      "step": 408980
    },
    {
      "epoch": 0.8520625,
      "grad_norm": 2.284067153930664,
      "learning_rate": 1.6041574125384537e-05,
      "loss": 3.3811,
      "step": 408990
    },
    {
      "epoch": 0.8520833333333333,
      "grad_norm": 2.604788303375244,
      "learning_rate": 1.6037138605613846e-05,
      "loss": 3.4078,
      "step": 409000
    },
    {
      "epoch": 0.8520833333333333,
      "eval_loss": 3.529545545578003,
      "eval_runtime": 7.4092,
      "eval_samples_per_second": 1.35,
      "eval_steps_per_second": 0.405,
      "step": 409000
    },
    {
      "epoch": 0.8521041666666667,
      "grad_norm": 2.6028456687927246,
      "learning_rate": 1.6032703664509688e-05,
      "loss": 3.407,
      "step": 409010
    },
    {
      "epoch": 0.852125,
      "grad_norm": 2.306635618209839,
      "learning_rate": 1.602826930209123e-05,
      "loss": 3.408,
      "step": 409020
    },
    {
      "epoch": 0.8521458333333334,
      "grad_norm": 2.2835729122161865,
      "learning_rate": 1.6023835518377604e-05,
      "loss": 3.4064,
      "step": 409030
    },
    {
      "epoch": 0.8521666666666666,
      "grad_norm": 2.609201192855835,
      "learning_rate": 1.601940231338798e-05,
      "loss": 3.4614,
      "step": 409040
    },
    {
      "epoch": 0.8521875,
      "grad_norm": 2.35690975189209,
      "learning_rate": 1.601496968714151e-05,
      "loss": 3.4148,
      "step": 409050
    },
    {
      "epoch": 0.8522083333333333,
      "grad_norm": 2.1479082107543945,
      "learning_rate": 1.6010537639657343e-05,
      "loss": 3.3622,
      "step": 409060
    },
    {
      "epoch": 0.8522291666666667,
      "grad_norm": 2.8312220573425293,
      "learning_rate": 1.6006106170954602e-05,
      "loss": 3.4328,
      "step": 409070
    },
    {
      "epoch": 0.85225,
      "grad_norm": 2.946190595626831,
      "learning_rate": 1.6001675281052452e-05,
      "loss": 3.4476,
      "step": 409080
    },
    {
      "epoch": 0.8522708333333333,
      "grad_norm": 2.0122885704040527,
      "learning_rate": 1.5997244969970025e-05,
      "loss": 3.5454,
      "step": 409090
    },
    {
      "epoch": 0.8522916666666667,
      "grad_norm": 2.1608939170837402,
      "learning_rate": 1.599281523772646e-05,
      "loss": 3.3809,
      "step": 409100
    },
    {
      "epoch": 0.8523125,
      "grad_norm": 2.189591884613037,
      "learning_rate": 1.5988386084340903e-05,
      "loss": 3.4947,
      "step": 409110
    },
    {
      "epoch": 0.8523333333333334,
      "grad_norm": 2.353917121887207,
      "learning_rate": 1.5983957509832428e-05,
      "loss": 3.3351,
      "step": 409120
    },
    {
      "epoch": 0.8523541666666666,
      "grad_norm": 2.4682350158691406,
      "learning_rate": 1.5979529514220236e-05,
      "loss": 3.2991,
      "step": 409130
    },
    {
      "epoch": 0.852375,
      "grad_norm": 2.378225803375244,
      "learning_rate": 1.5975102097523458e-05,
      "loss": 3.3028,
      "step": 409140
    },
    {
      "epoch": 0.8523958333333334,
      "grad_norm": 2.4869577884674072,
      "learning_rate": 1.597067525976113e-05,
      "loss": 3.2693,
      "step": 409150
    },
    {
      "epoch": 0.8524166666666667,
      "grad_norm": 2.2427613735198975,
      "learning_rate": 1.5966249000952452e-05,
      "loss": 3.4879,
      "step": 409160
    },
    {
      "epoch": 0.8524375,
      "grad_norm": 2.303623676300049,
      "learning_rate": 1.5961823321116563e-05,
      "loss": 3.4738,
      "step": 409170
    },
    {
      "epoch": 0.8524583333333333,
      "grad_norm": 2.9992003440856934,
      "learning_rate": 1.5957398220272495e-05,
      "loss": 3.3774,
      "step": 409180
    },
    {
      "epoch": 0.8524791666666667,
      "grad_norm": 2.2960565090179443,
      "learning_rate": 1.5952973698439415e-05,
      "loss": 3.5011,
      "step": 409190
    },
    {
      "epoch": 0.8525,
      "grad_norm": 2.7602381706237793,
      "learning_rate": 1.5948549755636475e-05,
      "loss": 3.5617,
      "step": 409200
    },
    {
      "epoch": 0.8525208333333333,
      "grad_norm": 2.262812376022339,
      "learning_rate": 1.5944126391882663e-05,
      "loss": 3.4465,
      "step": 409210
    },
    {
      "epoch": 0.8525416666666666,
      "grad_norm": 2.2711145877838135,
      "learning_rate": 1.593970360719721e-05,
      "loss": 3.3613,
      "step": 409220
    },
    {
      "epoch": 0.8525625,
      "grad_norm": 2.554765462875366,
      "learning_rate": 1.59352814015992e-05,
      "loss": 3.3756,
      "step": 409230
    },
    {
      "epoch": 0.8525833333333334,
      "grad_norm": 2.236663818359375,
      "learning_rate": 1.5930859775107668e-05,
      "loss": 3.416,
      "step": 409240
    },
    {
      "epoch": 0.8526041666666667,
      "grad_norm": 2.2294812202453613,
      "learning_rate": 1.592643872774175e-05,
      "loss": 3.5262,
      "step": 409250
    },
    {
      "epoch": 0.852625,
      "grad_norm": 2.2715651988983154,
      "learning_rate": 1.592201825952055e-05,
      "loss": 3.416,
      "step": 409260
    },
    {
      "epoch": 0.8526458333333333,
      "grad_norm": 3.8509538173675537,
      "learning_rate": 1.591759837046317e-05,
      "loss": 3.5454,
      "step": 409270
    },
    {
      "epoch": 0.8526666666666667,
      "grad_norm": 2.7584266662597656,
      "learning_rate": 1.5913179060588688e-05,
      "loss": 3.4157,
      "step": 409280
    },
    {
      "epoch": 0.8526875,
      "grad_norm": 2.701026439666748,
      "learning_rate": 1.5908760329916192e-05,
      "loss": 3.4494,
      "step": 409290
    },
    {
      "epoch": 0.8527083333333333,
      "grad_norm": 2.942906618118286,
      "learning_rate": 1.5904342178464768e-05,
      "loss": 3.3916,
      "step": 409300
    },
    {
      "epoch": 0.8527291666666666,
      "grad_norm": 2.1249239444732666,
      "learning_rate": 1.5899924606253518e-05,
      "loss": 3.468,
      "step": 409310
    },
    {
      "epoch": 0.85275,
      "grad_norm": 2.3414344787597656,
      "learning_rate": 1.5895507613301523e-05,
      "loss": 3.4525,
      "step": 409320
    },
    {
      "epoch": 0.8527708333333334,
      "grad_norm": 3.162231922149658,
      "learning_rate": 1.5891091199627837e-05,
      "loss": 3.4974,
      "step": 409330
    },
    {
      "epoch": 0.8527916666666666,
      "grad_norm": 2.338012933731079,
      "learning_rate": 1.588667536525156e-05,
      "loss": 3.6826,
      "step": 409340
    },
    {
      "epoch": 0.8528125,
      "grad_norm": 2.4665658473968506,
      "learning_rate": 1.5882260110191745e-05,
      "loss": 3.4641,
      "step": 409350
    },
    {
      "epoch": 0.8528333333333333,
      "grad_norm": 2.0402350425720215,
      "learning_rate": 1.5877845434467497e-05,
      "loss": 3.4069,
      "step": 409360
    },
    {
      "epoch": 0.8528541666666667,
      "grad_norm": 2.8667476177215576,
      "learning_rate": 1.5873431338097857e-05,
      "loss": 3.4742,
      "step": 409370
    },
    {
      "epoch": 0.852875,
      "grad_norm": 1.844580054283142,
      "learning_rate": 1.5869017821101904e-05,
      "loss": 3.5487,
      "step": 409380
    },
    {
      "epoch": 0.8528958333333333,
      "grad_norm": 2.2566092014312744,
      "learning_rate": 1.5864604883498717e-05,
      "loss": 3.6746,
      "step": 409390
    },
    {
      "epoch": 0.8529166666666667,
      "grad_norm": 2.284287452697754,
      "learning_rate": 1.5860192525307312e-05,
      "loss": 3.3905,
      "step": 409400
    },
    {
      "epoch": 0.8529375,
      "grad_norm": 2.792046546936035,
      "learning_rate": 1.5855780746546796e-05,
      "loss": 3.2883,
      "step": 409410
    },
    {
      "epoch": 0.8529583333333334,
      "grad_norm": 2.0949578285217285,
      "learning_rate": 1.585136954723622e-05,
      "loss": 3.5071,
      "step": 409420
    },
    {
      "epoch": 0.8529791666666666,
      "grad_norm": 4.458021640777588,
      "learning_rate": 1.5846958927394616e-05,
      "loss": 3.3888,
      "step": 409430
    },
    {
      "epoch": 0.853,
      "grad_norm": 2.1005804538726807,
      "learning_rate": 1.5842548887041052e-05,
      "loss": 3.5226,
      "step": 409440
    },
    {
      "epoch": 0.8530208333333333,
      "grad_norm": 2.2137508392333984,
      "learning_rate": 1.583813942619456e-05,
      "loss": 3.3249,
      "step": 409450
    },
    {
      "epoch": 0.8530416666666667,
      "grad_norm": 2.3381855487823486,
      "learning_rate": 1.5833730544874217e-05,
      "loss": 3.4573,
      "step": 409460
    },
    {
      "epoch": 0.8530625,
      "grad_norm": 3.754621744155884,
      "learning_rate": 1.5829322243099053e-05,
      "loss": 3.4943,
      "step": 409470
    },
    {
      "epoch": 0.8530833333333333,
      "grad_norm": 2.749692440032959,
      "learning_rate": 1.5824914520888132e-05,
      "loss": 3.4038,
      "step": 409480
    },
    {
      "epoch": 0.8531041666666667,
      "grad_norm": 3.0025405883789062,
      "learning_rate": 1.5820507378260413e-05,
      "loss": 3.4693,
      "step": 409490
    },
    {
      "epoch": 0.853125,
      "grad_norm": 2.0097358226776123,
      "learning_rate": 1.5816100815235004e-05,
      "loss": 3.5933,
      "step": 409500
    },
    {
      "epoch": 0.8531458333333334,
      "grad_norm": 2.393784284591675,
      "learning_rate": 1.581169483183097e-05,
      "loss": 3.463,
      "step": 409510
    },
    {
      "epoch": 0.8531666666666666,
      "grad_norm": 2.456699848175049,
      "learning_rate": 1.5807289428067267e-05,
      "loss": 3.324,
      "step": 409520
    },
    {
      "epoch": 0.8531875,
      "grad_norm": 2.1045563220977783,
      "learning_rate": 1.5802884603962935e-05,
      "loss": 3.5683,
      "step": 409530
    },
    {
      "epoch": 0.8532083333333333,
      "grad_norm": 2.518599271774292,
      "learning_rate": 1.5798480359537073e-05,
      "loss": 3.3603,
      "step": 409540
    },
    {
      "epoch": 0.8532291666666667,
      "grad_norm": 2.484248399734497,
      "learning_rate": 1.579407669480862e-05,
      "loss": 3.4303,
      "step": 409550
    },
    {
      "epoch": 0.85325,
      "grad_norm": 2.69892954826355,
      "learning_rate": 1.5789673609796612e-05,
      "loss": 3.5168,
      "step": 409560
    },
    {
      "epoch": 0.8532708333333333,
      "grad_norm": 2.1664116382598877,
      "learning_rate": 1.5785271104520142e-05,
      "loss": 3.4671,
      "step": 409570
    },
    {
      "epoch": 0.8532916666666667,
      "grad_norm": 2.2298691272735596,
      "learning_rate": 1.5780869178998152e-05,
      "loss": 3.6311,
      "step": 409580
    },
    {
      "epoch": 0.8533125,
      "grad_norm": 2.017202854156494,
      "learning_rate": 1.5776467833249658e-05,
      "loss": 3.4599,
      "step": 409590
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 2.170835018157959,
      "learning_rate": 1.5772067067293743e-05,
      "loss": 3.3202,
      "step": 409600
    },
    {
      "epoch": 0.8533541666666666,
      "grad_norm": 3.473984479904175,
      "learning_rate": 1.5767666881149342e-05,
      "loss": 3.4944,
      "step": 409610
    },
    {
      "epoch": 0.853375,
      "grad_norm": 2.3049914836883545,
      "learning_rate": 1.5763267274835478e-05,
      "loss": 3.3979,
      "step": 409620
    },
    {
      "epoch": 0.8533958333333334,
      "grad_norm": 2.3977530002593994,
      "learning_rate": 1.5758868248371166e-05,
      "loss": 3.4505,
      "step": 409630
    },
    {
      "epoch": 0.8534166666666667,
      "grad_norm": 2.283137083053589,
      "learning_rate": 1.5754469801775423e-05,
      "loss": 3.5206,
      "step": 409640
    },
    {
      "epoch": 0.8534375,
      "grad_norm": 2.0744576454162598,
      "learning_rate": 1.5750071935067217e-05,
      "loss": 3.5432,
      "step": 409650
    },
    {
      "epoch": 0.8534583333333333,
      "grad_norm": 2.478513717651367,
      "learning_rate": 1.5745674648265566e-05,
      "loss": 3.2825,
      "step": 409660
    },
    {
      "epoch": 0.8534791666666667,
      "grad_norm": 2.09657621383667,
      "learning_rate": 1.574127794138944e-05,
      "loss": 3.5481,
      "step": 409670
    },
    {
      "epoch": 0.8535,
      "grad_norm": 2.480865001678467,
      "learning_rate": 1.5736881814457876e-05,
      "loss": 3.3926,
      "step": 409680
    },
    {
      "epoch": 0.8535208333333333,
      "grad_norm": 2.369143486022949,
      "learning_rate": 1.5732486267489834e-05,
      "loss": 3.4555,
      "step": 409690
    },
    {
      "epoch": 0.8535416666666666,
      "grad_norm": 2.213895082473755,
      "learning_rate": 1.5728091300504293e-05,
      "loss": 3.4287,
      "step": 409700
    },
    {
      "epoch": 0.8535625,
      "grad_norm": 2.308109760284424,
      "learning_rate": 1.5723696913520262e-05,
      "loss": 3.481,
      "step": 409710
    },
    {
      "epoch": 0.8535833333333334,
      "grad_norm": 2.3907310962677,
      "learning_rate": 1.5719303106556696e-05,
      "loss": 3.426,
      "step": 409720
    },
    {
      "epoch": 0.8536041666666667,
      "grad_norm": 2.643110990524292,
      "learning_rate": 1.5714909879632598e-05,
      "loss": 3.4428,
      "step": 409730
    },
    {
      "epoch": 0.853625,
      "grad_norm": 1.9533956050872803,
      "learning_rate": 1.5710517232766935e-05,
      "loss": 3.3016,
      "step": 409740
    },
    {
      "epoch": 0.8536458333333333,
      "grad_norm": 2.094656229019165,
      "learning_rate": 1.570612516597867e-05,
      "loss": 3.4749,
      "step": 409750
    },
    {
      "epoch": 0.8536666666666667,
      "grad_norm": 2.2626841068267822,
      "learning_rate": 1.57017336792868e-05,
      "loss": 3.4449,
      "step": 409760
    },
    {
      "epoch": 0.8536875,
      "grad_norm": 2.0672850608825684,
      "learning_rate": 1.569734277271028e-05,
      "loss": 3.5491,
      "step": 409770
    },
    {
      "epoch": 0.8537083333333333,
      "grad_norm": 1.9483356475830078,
      "learning_rate": 1.5692952446268086e-05,
      "loss": 3.4443,
      "step": 409780
    },
    {
      "epoch": 0.8537291666666667,
      "grad_norm": 4.771939754486084,
      "learning_rate": 1.568856269997915e-05,
      "loss": 3.454,
      "step": 409790
    },
    {
      "epoch": 0.85375,
      "grad_norm": 2.411738872528076,
      "learning_rate": 1.5684173533862492e-05,
      "loss": 3.3614,
      "step": 409800
    },
    {
      "epoch": 0.8537708333333334,
      "grad_norm": 2.555009126663208,
      "learning_rate": 1.5679784947937012e-05,
      "loss": 3.3682,
      "step": 409810
    },
    {
      "epoch": 0.8537916666666666,
      "grad_norm": 2.9177658557891846,
      "learning_rate": 1.5675396942221712e-05,
      "loss": 3.4507,
      "step": 409820
    },
    {
      "epoch": 0.8538125,
      "grad_norm": 2.309014081954956,
      "learning_rate": 1.5671009516735544e-05,
      "loss": 3.48,
      "step": 409830
    },
    {
      "epoch": 0.8538333333333333,
      "grad_norm": 2.47316837310791,
      "learning_rate": 1.566662267149739e-05,
      "loss": 3.4102,
      "step": 409840
    },
    {
      "epoch": 0.8538541666666667,
      "grad_norm": 2.397780418395996,
      "learning_rate": 1.5662236406526272e-05,
      "loss": 3.5033,
      "step": 409850
    },
    {
      "epoch": 0.853875,
      "grad_norm": 2.2773640155792236,
      "learning_rate": 1.5657850721841157e-05,
      "loss": 3.4541,
      "step": 409860
    },
    {
      "epoch": 0.8538958333333333,
      "grad_norm": 2.0939013957977295,
      "learning_rate": 1.56534656174609e-05,
      "loss": 3.4931,
      "step": 409870
    },
    {
      "epoch": 0.8539166666666667,
      "grad_norm": 2.6026103496551514,
      "learning_rate": 1.5649081093404543e-05,
      "loss": 3.4937,
      "step": 409880
    },
    {
      "epoch": 0.8539375,
      "grad_norm": 2.0040435791015625,
      "learning_rate": 1.5644697149690943e-05,
      "loss": 3.4113,
      "step": 409890
    },
    {
      "epoch": 0.8539583333333334,
      "grad_norm": 2.272038459777832,
      "learning_rate": 1.5640313786339054e-05,
      "loss": 3.378,
      "step": 409900
    },
    {
      "epoch": 0.8539791666666666,
      "grad_norm": 2.552438735961914,
      "learning_rate": 1.5635931003367873e-05,
      "loss": 3.3533,
      "step": 409910
    },
    {
      "epoch": 0.854,
      "grad_norm": 2.348858594894409,
      "learning_rate": 1.5631548800796257e-05,
      "loss": 3.5064,
      "step": 409920
    },
    {
      "epoch": 0.8540208333333333,
      "grad_norm": 2.39670991897583,
      "learning_rate": 1.5627167178643136e-05,
      "loss": 3.3612,
      "step": 409930
    },
    {
      "epoch": 0.8540416666666667,
      "grad_norm": 2.52225399017334,
      "learning_rate": 1.562278613692753e-05,
      "loss": 3.3349,
      "step": 409940
    },
    {
      "epoch": 0.8540625,
      "grad_norm": 2.093045949935913,
      "learning_rate": 1.5618405675668255e-05,
      "loss": 3.3181,
      "step": 409950
    },
    {
      "epoch": 0.8540833333333333,
      "grad_norm": 2.746429443359375,
      "learning_rate": 1.5614025794884268e-05,
      "loss": 3.492,
      "step": 409960
    },
    {
      "epoch": 0.8541041666666667,
      "grad_norm": 2.798053026199341,
      "learning_rate": 1.560964649459453e-05,
      "loss": 3.3257,
      "step": 409970
    },
    {
      "epoch": 0.854125,
      "grad_norm": 2.532282590866089,
      "learning_rate": 1.5605267774817897e-05,
      "loss": 3.4375,
      "step": 409980
    },
    {
      "epoch": 0.8541458333333334,
      "grad_norm": 2.7453839778900146,
      "learning_rate": 1.560088963557332e-05,
      "loss": 3.3514,
      "step": 409990
    },
    {
      "epoch": 0.8541666666666666,
      "grad_norm": 3.4888432025909424,
      "learning_rate": 1.5596512076879704e-05,
      "loss": 3.4935,
      "step": 410000
    },
    {
      "epoch": 0.8541666666666666,
      "eval_loss": 3.527719497680664,
      "eval_runtime": 6.9237,
      "eval_samples_per_second": 1.444,
      "eval_steps_per_second": 0.433,
      "step": 410000
    },
    {
      "epoch": 0.8541875,
      "grad_norm": 2.10893177986145,
      "learning_rate": 1.5592135098755942e-05,
      "loss": 3.4041,
      "step": 410010
    },
    {
      "epoch": 0.8542083333333333,
      "grad_norm": 2.5522913932800293,
      "learning_rate": 1.558775870122096e-05,
      "loss": 3.3179,
      "step": 410020
    },
    {
      "epoch": 0.8542291666666667,
      "grad_norm": 2.251544952392578,
      "learning_rate": 1.558338288429367e-05,
      "loss": 3.4462,
      "step": 410030
    },
    {
      "epoch": 0.85425,
      "grad_norm": 2.367737054824829,
      "learning_rate": 1.5579007647992948e-05,
      "loss": 3.4103,
      "step": 410040
    },
    {
      "epoch": 0.8542708333333333,
      "grad_norm": 2.6044836044311523,
      "learning_rate": 1.5574632992337705e-05,
      "loss": 3.3891,
      "step": 410050
    },
    {
      "epoch": 0.8542916666666667,
      "grad_norm": 2.3284268379211426,
      "learning_rate": 1.5570258917346827e-05,
      "loss": 3.5193,
      "step": 410060
    },
    {
      "epoch": 0.8543125,
      "grad_norm": 2.292351245880127,
      "learning_rate": 1.5565885423039237e-05,
      "loss": 3.4786,
      "step": 410070
    },
    {
      "epoch": 0.8543333333333333,
      "grad_norm": 2.356330633163452,
      "learning_rate": 1.55615125094338e-05,
      "loss": 3.5067,
      "step": 410080
    },
    {
      "epoch": 0.8543541666666666,
      "grad_norm": 2.786375045776367,
      "learning_rate": 1.5557140176549415e-05,
      "loss": 3.4724,
      "step": 410090
    },
    {
      "epoch": 0.854375,
      "grad_norm": 2.2811601161956787,
      "learning_rate": 1.555276842440497e-05,
      "loss": 3.3312,
      "step": 410100
    },
    {
      "epoch": 0.8543958333333334,
      "grad_norm": 2.9566142559051514,
      "learning_rate": 1.5548397253019384e-05,
      "loss": 3.5911,
      "step": 410110
    },
    {
      "epoch": 0.8544166666666667,
      "grad_norm": 1.9673022031784058,
      "learning_rate": 1.554402666241144e-05,
      "loss": 3.4502,
      "step": 410120
    },
    {
      "epoch": 0.8544375,
      "grad_norm": 2.2235171794891357,
      "learning_rate": 1.5539656652600108e-05,
      "loss": 3.3603,
      "step": 410130
    },
    {
      "epoch": 0.8544583333333333,
      "grad_norm": 2.334177017211914,
      "learning_rate": 1.5535287223604255e-05,
      "loss": 3.408,
      "step": 410140
    },
    {
      "epoch": 0.8544791666666667,
      "grad_norm": 2.899780035018921,
      "learning_rate": 1.55309183754427e-05,
      "loss": 3.411,
      "step": 410150
    },
    {
      "epoch": 0.8545,
      "grad_norm": 2.5314149856567383,
      "learning_rate": 1.5526550108134355e-05,
      "loss": 3.4425,
      "step": 410160
    },
    {
      "epoch": 0.8545208333333333,
      "grad_norm": 2.2737720012664795,
      "learning_rate": 1.552218242169813e-05,
      "loss": 3.5127,
      "step": 410170
    },
    {
      "epoch": 0.8545416666666666,
      "grad_norm": 2.400818347930908,
      "learning_rate": 1.5517815316152778e-05,
      "loss": 3.4447,
      "step": 410180
    },
    {
      "epoch": 0.8545625,
      "grad_norm": 2.0383715629577637,
      "learning_rate": 1.5513448791517274e-05,
      "loss": 3.4266,
      "step": 410190
    },
    {
      "epoch": 0.8545833333333334,
      "grad_norm": 2.574038028717041,
      "learning_rate": 1.550908284781046e-05,
      "loss": 3.3843,
      "step": 410200
    },
    {
      "epoch": 0.8546041666666667,
      "grad_norm": 2.154529333114624,
      "learning_rate": 1.550471748505112e-05,
      "loss": 3.3814,
      "step": 410210
    },
    {
      "epoch": 0.854625,
      "grad_norm": 2.122497081756592,
      "learning_rate": 1.5500352703258175e-05,
      "loss": 3.3129,
      "step": 410220
    },
    {
      "epoch": 0.8546458333333333,
      "grad_norm": 2.7037980556488037,
      "learning_rate": 1.5495988502450518e-05,
      "loss": 3.4468,
      "step": 410230
    },
    {
      "epoch": 0.8546666666666667,
      "grad_norm": 3.1163017749786377,
      "learning_rate": 1.5491624882646876e-05,
      "loss": 3.5325,
      "step": 410240
    },
    {
      "epoch": 0.8546875,
      "grad_norm": 3.62459397315979,
      "learning_rate": 1.5487261843866243e-05,
      "loss": 3.4718,
      "step": 410250
    },
    {
      "epoch": 0.8547083333333333,
      "grad_norm": 2.1085269451141357,
      "learning_rate": 1.5482899386127363e-05,
      "loss": 3.3908,
      "step": 410260
    },
    {
      "epoch": 0.8547291666666667,
      "grad_norm": 2.1970486640930176,
      "learning_rate": 1.547853750944908e-05,
      "loss": 3.4418,
      "step": 410270
    },
    {
      "epoch": 0.85475,
      "grad_norm": 2.6082100868225098,
      "learning_rate": 1.547417621385033e-05,
      "loss": 3.3759,
      "step": 410280
    },
    {
      "epoch": 0.8547708333333334,
      "grad_norm": 2.8145718574523926,
      "learning_rate": 1.5469815499349853e-05,
      "loss": 3.4613,
      "step": 410290
    },
    {
      "epoch": 0.8547916666666666,
      "grad_norm": 2.3694610595703125,
      "learning_rate": 1.5465455365966494e-05,
      "loss": 3.3669,
      "step": 410300
    },
    {
      "epoch": 0.8548125,
      "grad_norm": 3.0286169052124023,
      "learning_rate": 1.5461095813719192e-05,
      "loss": 3.356,
      "step": 410310
    },
    {
      "epoch": 0.8548333333333333,
      "grad_norm": 2.4089996814727783,
      "learning_rate": 1.545673684262665e-05,
      "loss": 3.4601,
      "step": 410320
    },
    {
      "epoch": 0.8548541666666667,
      "grad_norm": 2.9736602306365967,
      "learning_rate": 1.545237845270773e-05,
      "loss": 3.3785,
      "step": 410330
    },
    {
      "epoch": 0.854875,
      "grad_norm": 2.1110265254974365,
      "learning_rate": 1.544802064398134e-05,
      "loss": 3.4511,
      "step": 410340
    },
    {
      "epoch": 0.8548958333333333,
      "grad_norm": 2.648695230484009,
      "learning_rate": 1.5443663416466196e-05,
      "loss": 3.5601,
      "step": 410350
    },
    {
      "epoch": 0.8549166666666667,
      "grad_norm": 2.343086004257202,
      "learning_rate": 1.543930677018115e-05,
      "loss": 3.3707,
      "step": 410360
    },
    {
      "epoch": 0.8549375,
      "grad_norm": 4.079155445098877,
      "learning_rate": 1.5434950705145083e-05,
      "loss": 3.3427,
      "step": 410370
    },
    {
      "epoch": 0.8549583333333334,
      "grad_norm": 3.075739622116089,
      "learning_rate": 1.543059522137675e-05,
      "loss": 3.3875,
      "step": 410380
    },
    {
      "epoch": 0.8549791666666666,
      "grad_norm": 2.2383182048797607,
      "learning_rate": 1.5426240318894973e-05,
      "loss": 3.5193,
      "step": 410390
    },
    {
      "epoch": 0.855,
      "grad_norm": 2.5653367042541504,
      "learning_rate": 1.5421885997718565e-05,
      "loss": 3.5428,
      "step": 410400
    },
    {
      "epoch": 0.8550208333333333,
      "grad_norm": 2.3644652366638184,
      "learning_rate": 1.5417532257866343e-05,
      "loss": 3.2825,
      "step": 410410
    },
    {
      "epoch": 0.8550416666666667,
      "grad_norm": 2.1886308193206787,
      "learning_rate": 1.5413179099357113e-05,
      "loss": 3.4256,
      "step": 410420
    },
    {
      "epoch": 0.8550625,
      "grad_norm": 2.216116189956665,
      "learning_rate": 1.5408826522209678e-05,
      "loss": 3.4128,
      "step": 410430
    },
    {
      "epoch": 0.8550833333333333,
      "grad_norm": 2.886857271194458,
      "learning_rate": 1.5404474526442835e-05,
      "loss": 3.4247,
      "step": 410440
    },
    {
      "epoch": 0.8551041666666667,
      "grad_norm": 3.149616003036499,
      "learning_rate": 1.5400123112075386e-05,
      "loss": 3.4524,
      "step": 410450
    },
    {
      "epoch": 0.855125,
      "grad_norm": 2.341508150100708,
      "learning_rate": 1.5395772279126117e-05,
      "loss": 3.4372,
      "step": 410460
    },
    {
      "epoch": 0.8551458333333334,
      "grad_norm": 2.4312057495117188,
      "learning_rate": 1.5391422027613847e-05,
      "loss": 3.2968,
      "step": 410470
    },
    {
      "epoch": 0.8551666666666666,
      "grad_norm": 2.336479663848877,
      "learning_rate": 1.538707235755736e-05,
      "loss": 3.3943,
      "step": 410480
    },
    {
      "epoch": 0.8551875,
      "grad_norm": 2.3072965145111084,
      "learning_rate": 1.5382723268975394e-05,
      "loss": 3.3903,
      "step": 410490
    },
    {
      "epoch": 0.8552083333333333,
      "grad_norm": 2.053709030151367,
      "learning_rate": 1.5378374761886814e-05,
      "loss": 3.428,
      "step": 410500
    },
    {
      "epoch": 0.8552291666666667,
      "grad_norm": 2.8886477947235107,
      "learning_rate": 1.5374026836310388e-05,
      "loss": 3.487,
      "step": 410510
    },
    {
      "epoch": 0.85525,
      "grad_norm": 1.9901498556137085,
      "learning_rate": 1.536967949226482e-05,
      "loss": 3.3471,
      "step": 410520
    },
    {
      "epoch": 0.8552708333333333,
      "grad_norm": 2.1675469875335693,
      "learning_rate": 1.5365332729768975e-05,
      "loss": 3.5481,
      "step": 410530
    },
    {
      "epoch": 0.8552916666666667,
      "grad_norm": 2.5450849533081055,
      "learning_rate": 1.5360986548841625e-05,
      "loss": 3.3585,
      "step": 410540
    },
    {
      "epoch": 0.8553125,
      "grad_norm": 2.819751262664795,
      "learning_rate": 1.535664094950147e-05,
      "loss": 3.4943,
      "step": 410550
    },
    {
      "epoch": 0.8553333333333333,
      "grad_norm": 3.205476760864258,
      "learning_rate": 1.535229593176736e-05,
      "loss": 3.5275,
      "step": 410560
    },
    {
      "epoch": 0.8553541666666666,
      "grad_norm": 2.0883519649505615,
      "learning_rate": 1.534795149565805e-05,
      "loss": 3.427,
      "step": 410570
    },
    {
      "epoch": 0.855375,
      "grad_norm": 2.476983070373535,
      "learning_rate": 1.534360764119224e-05,
      "loss": 3.3393,
      "step": 410580
    },
    {
      "epoch": 0.8553958333333334,
      "grad_norm": 2.397282361984253,
      "learning_rate": 1.5339264368388783e-05,
      "loss": 3.4209,
      "step": 410590
    },
    {
      "epoch": 0.8554166666666667,
      "grad_norm": 2.095752239227295,
      "learning_rate": 1.5334921677266425e-05,
      "loss": 3.4874,
      "step": 410600
    },
    {
      "epoch": 0.8554375,
      "grad_norm": 2.601515293121338,
      "learning_rate": 1.5330579567843825e-05,
      "loss": 3.2897,
      "step": 410610
    },
    {
      "epoch": 0.8554583333333333,
      "grad_norm": 1.9873522520065308,
      "learning_rate": 1.53262380401399e-05,
      "loss": 3.562,
      "step": 410620
    },
    {
      "epoch": 0.8554791666666667,
      "grad_norm": 2.0568127632141113,
      "learning_rate": 1.532189709417328e-05,
      "loss": 3.516,
      "step": 410630
    },
    {
      "epoch": 0.8555,
      "grad_norm": 2.754851818084717,
      "learning_rate": 1.531755672996272e-05,
      "loss": 3.412,
      "step": 410640
    },
    {
      "epoch": 0.8555208333333333,
      "grad_norm": 2.344733476638794,
      "learning_rate": 1.5313216947527076e-05,
      "loss": 3.3829,
      "step": 410650
    },
    {
      "epoch": 0.8555416666666666,
      "grad_norm": 2.6867382526397705,
      "learning_rate": 1.5308877746884975e-05,
      "loss": 3.4444,
      "step": 410660
    },
    {
      "epoch": 0.8555625,
      "grad_norm": 2.236344337463379,
      "learning_rate": 1.530453912805519e-05,
      "loss": 3.433,
      "step": 410670
    },
    {
      "epoch": 0.8555833333333334,
      "grad_norm": 2.177184820175171,
      "learning_rate": 1.5300201091056536e-05,
      "loss": 3.4569,
      "step": 410680
    },
    {
      "epoch": 0.8556041666666667,
      "grad_norm": 2.5778260231018066,
      "learning_rate": 1.5295863635907667e-05,
      "loss": 3.3753,
      "step": 410690
    },
    {
      "epoch": 0.855625,
      "grad_norm": 2.522711992263794,
      "learning_rate": 1.5291526762627353e-05,
      "loss": 3.4193,
      "step": 410700
    },
    {
      "epoch": 0.8556458333333333,
      "grad_norm": 2.3988194465637207,
      "learning_rate": 1.5287190471234313e-05,
      "loss": 3.362,
      "step": 410710
    },
    {
      "epoch": 0.8556666666666667,
      "grad_norm": 2.840998649597168,
      "learning_rate": 1.5282854761747293e-05,
      "loss": 3.4666,
      "step": 410720
    },
    {
      "epoch": 0.8556875,
      "grad_norm": 1.9918421506881714,
      "learning_rate": 1.5278519634185e-05,
      "loss": 3.3407,
      "step": 410730
    },
    {
      "epoch": 0.8557083333333333,
      "grad_norm": 2.5684621334075928,
      "learning_rate": 1.5274185088566198e-05,
      "loss": 3.3645,
      "step": 410740
    },
    {
      "epoch": 0.8557291666666667,
      "grad_norm": 2.949714183807373,
      "learning_rate": 1.5269851124909577e-05,
      "loss": 3.4709,
      "step": 410750
    },
    {
      "epoch": 0.85575,
      "grad_norm": 2.30794095993042,
      "learning_rate": 1.526551774323387e-05,
      "loss": 3.3739,
      "step": 410760
    },
    {
      "epoch": 0.8557708333333334,
      "grad_norm": 2.5435173511505127,
      "learning_rate": 1.526118494355779e-05,
      "loss": 3.3554,
      "step": 410770
    },
    {
      "epoch": 0.8557916666666666,
      "grad_norm": 2.275386333465576,
      "learning_rate": 1.5256852725900065e-05,
      "loss": 3.4631,
      "step": 410780
    },
    {
      "epoch": 0.8558125,
      "grad_norm": 3.4313414096832275,
      "learning_rate": 1.5252521090279407e-05,
      "loss": 3.4969,
      "step": 410790
    },
    {
      "epoch": 0.8558333333333333,
      "grad_norm": 2.49434494972229,
      "learning_rate": 1.5248190036714503e-05,
      "loss": 3.4218,
      "step": 410800
    },
    {
      "epoch": 0.8558541666666667,
      "grad_norm": 2.6884329319000244,
      "learning_rate": 1.5243859565224087e-05,
      "loss": 3.462,
      "step": 410810
    },
    {
      "epoch": 0.855875,
      "grad_norm": 2.4421095848083496,
      "learning_rate": 1.5239529675826861e-05,
      "loss": 3.3027,
      "step": 410820
    },
    {
      "epoch": 0.8558958333333333,
      "grad_norm": 2.5379295349121094,
      "learning_rate": 1.5235200368541528e-05,
      "loss": 3.5574,
      "step": 410830
    },
    {
      "epoch": 0.8559166666666667,
      "grad_norm": 2.701812982559204,
      "learning_rate": 1.5230871643386788e-05,
      "loss": 3.5619,
      "step": 410840
    },
    {
      "epoch": 0.8559375,
      "grad_norm": 2.270538568496704,
      "learning_rate": 1.5226543500381361e-05,
      "loss": 3.4124,
      "step": 410850
    },
    {
      "epoch": 0.8559583333333334,
      "grad_norm": 2.8531055450439453,
      "learning_rate": 1.5222215939543864e-05,
      "loss": 3.3756,
      "step": 410860
    },
    {
      "epoch": 0.8559791666666666,
      "grad_norm": 2.514335870742798,
      "learning_rate": 1.5217888960893065e-05,
      "loss": 3.3783,
      "step": 410870
    },
    {
      "epoch": 0.856,
      "grad_norm": 2.5793397426605225,
      "learning_rate": 1.5213562564447668e-05,
      "loss": 3.4132,
      "step": 410880
    },
    {
      "epoch": 0.8560208333333333,
      "grad_norm": 2.322389602661133,
      "learning_rate": 1.5209236750226272e-05,
      "loss": 3.5068,
      "step": 410890
    },
    {
      "epoch": 0.8560416666666667,
      "grad_norm": 2.4572463035583496,
      "learning_rate": 1.5204911518247648e-05,
      "loss": 3.5222,
      "step": 410900
    },
    {
      "epoch": 0.8560625,
      "grad_norm": 2.6806037425994873,
      "learning_rate": 1.5200586868530479e-05,
      "loss": 3.5236,
      "step": 410910
    },
    {
      "epoch": 0.8560833333333333,
      "grad_norm": 2.3127145767211914,
      "learning_rate": 1.5196262801093368e-05,
      "loss": 3.403,
      "step": 410920
    },
    {
      "epoch": 0.8561041666666667,
      "grad_norm": 2.7455151081085205,
      "learning_rate": 1.5191939315955066e-05,
      "loss": 3.5232,
      "step": 410930
    },
    {
      "epoch": 0.856125,
      "grad_norm": 2.086726188659668,
      "learning_rate": 1.5187616413134257e-05,
      "loss": 3.3939,
      "step": 410940
    },
    {
      "epoch": 0.8561458333333334,
      "grad_norm": 2.580876588821411,
      "learning_rate": 1.5183294092649512e-05,
      "loss": 3.4913,
      "step": 410950
    },
    {
      "epoch": 0.8561666666666666,
      "grad_norm": 2.330122232437134,
      "learning_rate": 1.5178972354519614e-05,
      "loss": 3.4902,
      "step": 410960
    },
    {
      "epoch": 0.8561875,
      "grad_norm": 2.7142937183380127,
      "learning_rate": 1.5174651198763216e-05,
      "loss": 3.5083,
      "step": 410970
    },
    {
      "epoch": 0.8562083333333333,
      "grad_norm": 2.1223220825195312,
      "learning_rate": 1.517033062539892e-05,
      "loss": 3.4015,
      "step": 410980
    },
    {
      "epoch": 0.8562291666666667,
      "grad_norm": 2.238417387008667,
      "learning_rate": 1.516601063444544e-05,
      "loss": 3.341,
      "step": 410990
    },
    {
      "epoch": 0.85625,
      "grad_norm": 3.150831699371338,
      "learning_rate": 1.5161691225921418e-05,
      "loss": 3.3589,
      "step": 411000
    },
    {
      "epoch": 0.85625,
      "eval_loss": 3.530243396759033,
      "eval_runtime": 7.3373,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 411000
    },
    {
      "epoch": 0.8562708333333333,
      "grad_norm": 2.4638075828552246,
      "learning_rate": 1.515737239984552e-05,
      "loss": 3.4622,
      "step": 411010
    },
    {
      "epoch": 0.8562916666666667,
      "grad_norm": 2.151571273803711,
      "learning_rate": 1.5153054156236394e-05,
      "loss": 3.4729,
      "step": 411020
    },
    {
      "epoch": 0.8563125,
      "grad_norm": 3.04964542388916,
      "learning_rate": 1.5148736495112695e-05,
      "loss": 3.4344,
      "step": 411030
    },
    {
      "epoch": 0.8563333333333333,
      "grad_norm": 2.5652360916137695,
      "learning_rate": 1.5144419416493075e-05,
      "loss": 3.4364,
      "step": 411040
    },
    {
      "epoch": 0.8563541666666666,
      "grad_norm": 2.4584293365478516,
      "learning_rate": 1.5140102920396185e-05,
      "loss": 3.5037,
      "step": 411050
    },
    {
      "epoch": 0.856375,
      "grad_norm": 2.7015488147735596,
      "learning_rate": 1.5135787006840676e-05,
      "loss": 3.4136,
      "step": 411060
    },
    {
      "epoch": 0.8563958333333334,
      "grad_norm": 2.7812578678131104,
      "learning_rate": 1.5131471675845186e-05,
      "loss": 3.4958,
      "step": 411070
    },
    {
      "epoch": 0.8564166666666667,
      "grad_norm": 2.6024186611175537,
      "learning_rate": 1.5127156927428347e-05,
      "loss": 3.3791,
      "step": 411080
    },
    {
      "epoch": 0.8564375,
      "grad_norm": 2.3734946250915527,
      "learning_rate": 1.5122842761608794e-05,
      "loss": 3.4037,
      "step": 411090
    },
    {
      "epoch": 0.8564583333333333,
      "grad_norm": 2.7509348392486572,
      "learning_rate": 1.5118529178405197e-05,
      "loss": 3.367,
      "step": 411100
    },
    {
      "epoch": 0.8564791666666667,
      "grad_norm": 3.403174638748169,
      "learning_rate": 1.5114216177836142e-05,
      "loss": 3.4519,
      "step": 411110
    },
    {
      "epoch": 0.8565,
      "grad_norm": 2.461352586746216,
      "learning_rate": 1.5109903759920295e-05,
      "loss": 3.4043,
      "step": 411120
    },
    {
      "epoch": 0.8565208333333333,
      "grad_norm": 2.718437910079956,
      "learning_rate": 1.5105591924676258e-05,
      "loss": 3.3972,
      "step": 411130
    },
    {
      "epoch": 0.8565416666666666,
      "grad_norm": 2.796959161758423,
      "learning_rate": 1.5101280672122684e-05,
      "loss": 3.3492,
      "step": 411140
    },
    {
      "epoch": 0.8565625,
      "grad_norm": 2.4824836254119873,
      "learning_rate": 1.5096970002278174e-05,
      "loss": 3.4953,
      "step": 411150
    },
    {
      "epoch": 0.8565833333333334,
      "grad_norm": 1.9568463563919067,
      "learning_rate": 1.5092659915161349e-05,
      "loss": 3.456,
      "step": 411160
    },
    {
      "epoch": 0.8566041666666667,
      "grad_norm": 2.558774709701538,
      "learning_rate": 1.508835041079084e-05,
      "loss": 3.3299,
      "step": 411170
    },
    {
      "epoch": 0.856625,
      "grad_norm": 3.04555344581604,
      "learning_rate": 1.508404148918525e-05,
      "loss": 3.4989,
      "step": 411180
    },
    {
      "epoch": 0.8566458333333333,
      "grad_norm": 1.9859905242919922,
      "learning_rate": 1.5079733150363216e-05,
      "loss": 3.5244,
      "step": 411190
    },
    {
      "epoch": 0.8566666666666667,
      "grad_norm": 2.5607125759124756,
      "learning_rate": 1.5075425394343305e-05,
      "loss": 3.4664,
      "step": 411200
    },
    {
      "epoch": 0.8566875,
      "grad_norm": 2.7886874675750732,
      "learning_rate": 1.5071118221144168e-05,
      "loss": 3.5327,
      "step": 411210
    },
    {
      "epoch": 0.8567083333333333,
      "grad_norm": 2.2104949951171875,
      "learning_rate": 1.5066811630784375e-05,
      "loss": 3.5012,
      "step": 411220
    },
    {
      "epoch": 0.8567291666666667,
      "grad_norm": 2.9891273975372314,
      "learning_rate": 1.506250562328256e-05,
      "loss": 3.2777,
      "step": 411230
    },
    {
      "epoch": 0.85675,
      "grad_norm": 2.2710626125335693,
      "learning_rate": 1.5058200198657294e-05,
      "loss": 3.3975,
      "step": 411240
    },
    {
      "epoch": 0.8567708333333334,
      "grad_norm": 2.6565210819244385,
      "learning_rate": 1.5053895356927225e-05,
      "loss": 3.4184,
      "step": 411250
    },
    {
      "epoch": 0.8567916666666666,
      "grad_norm": 2.6618947982788086,
      "learning_rate": 1.5049591098110858e-05,
      "loss": 3.4314,
      "step": 411260
    },
    {
      "epoch": 0.8568125,
      "grad_norm": 2.618507146835327,
      "learning_rate": 1.5045287422226875e-05,
      "loss": 3.2511,
      "step": 411270
    },
    {
      "epoch": 0.8568333333333333,
      "grad_norm": 2.1930928230285645,
      "learning_rate": 1.5040984329293848e-05,
      "loss": 3.3804,
      "step": 411280
    },
    {
      "epoch": 0.8568541666666667,
      "grad_norm": 2.640815019607544,
      "learning_rate": 1.5036681819330326e-05,
      "loss": 3.4322,
      "step": 411290
    },
    {
      "epoch": 0.856875,
      "grad_norm": 3.6317617893218994,
      "learning_rate": 1.5032379892354895e-05,
      "loss": 3.5164,
      "step": 411300
    },
    {
      "epoch": 0.8568958333333333,
      "grad_norm": 2.4573211669921875,
      "learning_rate": 1.5028078548386207e-05,
      "loss": 3.5837,
      "step": 411310
    },
    {
      "epoch": 0.8569166666666667,
      "grad_norm": 2.0790092945098877,
      "learning_rate": 1.5023777787442765e-05,
      "loss": 3.4111,
      "step": 411320
    },
    {
      "epoch": 0.8569375,
      "grad_norm": 2.371281623840332,
      "learning_rate": 1.5019477609543152e-05,
      "loss": 3.3911,
      "step": 411330
    },
    {
      "epoch": 0.8569583333333334,
      "grad_norm": 2.2577884197235107,
      "learning_rate": 1.501517801470602e-05,
      "loss": 3.3956,
      "step": 411340
    },
    {
      "epoch": 0.8569791666666666,
      "grad_norm": 3.262943744659424,
      "learning_rate": 1.5010879002949855e-05,
      "loss": 3.4504,
      "step": 411350
    },
    {
      "epoch": 0.857,
      "grad_norm": 2.937269926071167,
      "learning_rate": 1.5006580574293242e-05,
      "loss": 3.5314,
      "step": 411360
    },
    {
      "epoch": 0.8570208333333333,
      "grad_norm": 4.052066802978516,
      "learning_rate": 1.5002282728754816e-05,
      "loss": 3.4902,
      "step": 411370
    },
    {
      "epoch": 0.8570416666666667,
      "grad_norm": 2.1812117099761963,
      "learning_rate": 1.4997985466353063e-05,
      "loss": 3.355,
      "step": 411380
    },
    {
      "epoch": 0.8570625,
      "grad_norm": 2.8486976623535156,
      "learning_rate": 1.4993688787106583e-05,
      "loss": 3.4475,
      "step": 411390
    },
    {
      "epoch": 0.8570833333333333,
      "grad_norm": 2.7293953895568848,
      "learning_rate": 1.498939269103393e-05,
      "loss": 3.5477,
      "step": 411400
    },
    {
      "epoch": 0.8571041666666667,
      "grad_norm": 2.6660118103027344,
      "learning_rate": 1.4985097178153655e-05,
      "loss": 3.4083,
      "step": 411410
    },
    {
      "epoch": 0.857125,
      "grad_norm": 2.4022064208984375,
      "learning_rate": 1.4980802248484307e-05,
      "loss": 3.4027,
      "step": 411420
    },
    {
      "epoch": 0.8571458333333334,
      "grad_norm": 2.5589003562927246,
      "learning_rate": 1.497650790204446e-05,
      "loss": 3.5342,
      "step": 411430
    },
    {
      "epoch": 0.8571666666666666,
      "grad_norm": 2.8854806423187256,
      "learning_rate": 1.4972214138852644e-05,
      "loss": 3.6316,
      "step": 411440
    },
    {
      "epoch": 0.8571875,
      "grad_norm": 2.5030083656311035,
      "learning_rate": 1.4967920958927432e-05,
      "loss": 3.3683,
      "step": 411450
    },
    {
      "epoch": 0.8572083333333333,
      "grad_norm": 2.779390335083008,
      "learning_rate": 1.4963628362287339e-05,
      "loss": 3.3909,
      "step": 411460
    },
    {
      "epoch": 0.8572291666666667,
      "grad_norm": 2.2486395835876465,
      "learning_rate": 1.4959336348950934e-05,
      "loss": 3.4612,
      "step": 411470
    },
    {
      "epoch": 0.85725,
      "grad_norm": 3.154876470565796,
      "learning_rate": 1.495504491893672e-05,
      "loss": 3.5706,
      "step": 411480
    },
    {
      "epoch": 0.8572708333333333,
      "grad_norm": 3.084791421890259,
      "learning_rate": 1.4950754072263283e-05,
      "loss": 3.3226,
      "step": 411490
    },
    {
      "epoch": 0.8572916666666667,
      "grad_norm": 2.488276958465576,
      "learning_rate": 1.4946463808949122e-05,
      "loss": 3.3546,
      "step": 411500
    },
    {
      "epoch": 0.8573125,
      "grad_norm": 2.1587789058685303,
      "learning_rate": 1.4942174129012774e-05,
      "loss": 3.4383,
      "step": 411510
    },
    {
      "epoch": 0.8573333333333333,
      "grad_norm": 2.794221878051758,
      "learning_rate": 1.4937885032472774e-05,
      "loss": 3.3916,
      "step": 411520
    },
    {
      "epoch": 0.8573541666666666,
      "grad_norm": 2.6788487434387207,
      "learning_rate": 1.4933596519347656e-05,
      "loss": 3.282,
      "step": 411530
    },
    {
      "epoch": 0.857375,
      "grad_norm": 2.4941790103912354,
      "learning_rate": 1.4929308589655925e-05,
      "loss": 3.451,
      "step": 411540
    },
    {
      "epoch": 0.8573958333333334,
      "grad_norm": 2.633108139038086,
      "learning_rate": 1.492502124341613e-05,
      "loss": 3.5144,
      "step": 411550
    },
    {
      "epoch": 0.8574166666666667,
      "grad_norm": 2.905015468597412,
      "learning_rate": 1.4920734480646773e-05,
      "loss": 3.5385,
      "step": 411560
    },
    {
      "epoch": 0.8574375,
      "grad_norm": 2.424243211746216,
      "learning_rate": 1.4916448301366408e-05,
      "loss": 3.3995,
      "step": 411570
    },
    {
      "epoch": 0.8574583333333333,
      "grad_norm": 2.3555662631988525,
      "learning_rate": 1.491216270559345e-05,
      "loss": 3.4474,
      "step": 411580
    },
    {
      "epoch": 0.8574791666666667,
      "grad_norm": 2.238201141357422,
      "learning_rate": 1.490787769334652e-05,
      "loss": 3.3797,
      "step": 411590
    },
    {
      "epoch": 0.8575,
      "grad_norm": 2.7074835300445557,
      "learning_rate": 1.4903593264644104e-05,
      "loss": 3.4148,
      "step": 411600
    },
    {
      "epoch": 0.8575208333333333,
      "grad_norm": 2.255932092666626,
      "learning_rate": 1.4899309419504635e-05,
      "loss": 3.489,
      "step": 411610
    },
    {
      "epoch": 0.8575416666666666,
      "grad_norm": 3.53627610206604,
      "learning_rate": 1.4895026157946715e-05,
      "loss": 3.4849,
      "step": 411620
    },
    {
      "epoch": 0.8575625,
      "grad_norm": 2.215726613998413,
      "learning_rate": 1.4890743479988798e-05,
      "loss": 3.3629,
      "step": 411630
    },
    {
      "epoch": 0.8575833333333334,
      "grad_norm": 2.664888381958008,
      "learning_rate": 1.4886461385649351e-05,
      "loss": 3.3502,
      "step": 411640
    },
    {
      "epoch": 0.8576041666666666,
      "grad_norm": 2.608944892883301,
      "learning_rate": 1.4882179874946976e-05,
      "loss": 3.349,
      "step": 411650
    },
    {
      "epoch": 0.857625,
      "grad_norm": 2.417426824569702,
      "learning_rate": 1.4877898947900058e-05,
      "loss": 3.4595,
      "step": 411660
    },
    {
      "epoch": 0.8576458333333333,
      "grad_norm": 2.251662015914917,
      "learning_rate": 1.48736186045271e-05,
      "loss": 3.4638,
      "step": 411670
    },
    {
      "epoch": 0.8576666666666667,
      "grad_norm": 2.624472141265869,
      "learning_rate": 1.4869338844846685e-05,
      "loss": 3.4198,
      "step": 411680
    },
    {
      "epoch": 0.8576875,
      "grad_norm": 2.316365957260132,
      "learning_rate": 1.4865059668877216e-05,
      "loss": 3.4655,
      "step": 411690
    },
    {
      "epoch": 0.8577083333333333,
      "grad_norm": 2.148789644241333,
      "learning_rate": 1.4860781076637162e-05,
      "loss": 3.4476,
      "step": 411700
    },
    {
      "epoch": 0.8577291666666667,
      "grad_norm": 2.4628453254699707,
      "learning_rate": 1.4856503068145109e-05,
      "loss": 3.3536,
      "step": 411710
    },
    {
      "epoch": 0.85775,
      "grad_norm": 2.344120740890503,
      "learning_rate": 1.485222564341944e-05,
      "loss": 3.4055,
      "step": 411720
    },
    {
      "epoch": 0.8577708333333334,
      "grad_norm": 2.409968614578247,
      "learning_rate": 1.4847948802478627e-05,
      "loss": 3.5129,
      "step": 411730
    },
    {
      "epoch": 0.8577916666666666,
      "grad_norm": 2.4433906078338623,
      "learning_rate": 1.4843672545341235e-05,
      "loss": 3.5277,
      "step": 411740
    },
    {
      "epoch": 0.8578125,
      "grad_norm": 2.1221835613250732,
      "learning_rate": 1.483939687202565e-05,
      "loss": 3.4466,
      "step": 411750
    },
    {
      "epoch": 0.8578333333333333,
      "grad_norm": 2.5157551765441895,
      "learning_rate": 1.4835121782550374e-05,
      "loss": 3.4688,
      "step": 411760
    },
    {
      "epoch": 0.8578541666666667,
      "grad_norm": 2.2841525077819824,
      "learning_rate": 1.4830847276933877e-05,
      "loss": 3.6094,
      "step": 411770
    },
    {
      "epoch": 0.857875,
      "grad_norm": 2.683553695678711,
      "learning_rate": 1.4826573355194594e-05,
      "loss": 3.5631,
      "step": 411780
    },
    {
      "epoch": 0.8578958333333333,
      "grad_norm": 3.0346457958221436,
      "learning_rate": 1.4822300017351025e-05,
      "loss": 3.4714,
      "step": 411790
    },
    {
      "epoch": 0.8579166666666667,
      "grad_norm": 2.2146494388580322,
      "learning_rate": 1.4818027263421605e-05,
      "loss": 3.6174,
      "step": 411800
    },
    {
      "epoch": 0.8579375,
      "grad_norm": 2.149235963821411,
      "learning_rate": 1.4813755093424806e-05,
      "loss": 3.5149,
      "step": 411810
    },
    {
      "epoch": 0.8579583333333334,
      "grad_norm": 2.0430455207824707,
      "learning_rate": 1.4809483507379078e-05,
      "loss": 3.4778,
      "step": 411820
    },
    {
      "epoch": 0.8579791666666666,
      "grad_norm": 2.1570425033569336,
      "learning_rate": 1.4805212505302854e-05,
      "loss": 3.4227,
      "step": 411830
    },
    {
      "epoch": 0.858,
      "grad_norm": 3.0003740787506104,
      "learning_rate": 1.4800942087214606e-05,
      "loss": 3.4878,
      "step": 411840
    },
    {
      "epoch": 0.8580208333333333,
      "grad_norm": 2.72298526763916,
      "learning_rate": 1.4796672253132784e-05,
      "loss": 3.559,
      "step": 411850
    },
    {
      "epoch": 0.8580416666666667,
      "grad_norm": 2.5502302646636963,
      "learning_rate": 1.479240300307581e-05,
      "loss": 3.5902,
      "step": 411860
    },
    {
      "epoch": 0.8580625,
      "grad_norm": 2.422450304031372,
      "learning_rate": 1.478813433706213e-05,
      "loss": 3.6108,
      "step": 411870
    },
    {
      "epoch": 0.8580833333333333,
      "grad_norm": 2.1618192195892334,
      "learning_rate": 1.4783866255110233e-05,
      "loss": 3.3478,
      "step": 411880
    },
    {
      "epoch": 0.8581041666666667,
      "grad_norm": 2.602236032485962,
      "learning_rate": 1.4779598757238437e-05,
      "loss": 3.3431,
      "step": 411890
    },
    {
      "epoch": 0.858125,
      "grad_norm": 2.5668652057647705,
      "learning_rate": 1.4775331843465294e-05,
      "loss": 3.4959,
      "step": 411900
    },
    {
      "epoch": 0.8581458333333334,
      "grad_norm": 2.5675394535064697,
      "learning_rate": 1.4771065513809204e-05,
      "loss": 3.2599,
      "step": 411910
    },
    {
      "epoch": 0.8581666666666666,
      "grad_norm": 2.3385255336761475,
      "learning_rate": 1.4766799768288539e-05,
      "loss": 3.4,
      "step": 411920
    },
    {
      "epoch": 0.8581875,
      "grad_norm": 2.296812057495117,
      "learning_rate": 1.47625346069218e-05,
      "loss": 3.3675,
      "step": 411930
    },
    {
      "epoch": 0.8582083333333334,
      "grad_norm": 2.534336805343628,
      "learning_rate": 1.4758270029727404e-05,
      "loss": 3.5348,
      "step": 411940
    },
    {
      "epoch": 0.8582291666666667,
      "grad_norm": 2.3791096210479736,
      "learning_rate": 1.4754006036723704e-05,
      "loss": 3.4721,
      "step": 411950
    },
    {
      "epoch": 0.85825,
      "grad_norm": 3.0446317195892334,
      "learning_rate": 1.4749742627929168e-05,
      "loss": 3.4517,
      "step": 411960
    },
    {
      "epoch": 0.8582708333333333,
      "grad_norm": 2.51503324508667,
      "learning_rate": 1.4745479803362265e-05,
      "loss": 3.3917,
      "step": 411970
    },
    {
      "epoch": 0.8582916666666667,
      "grad_norm": 3.2524800300598145,
      "learning_rate": 1.4741217563041264e-05,
      "loss": 3.5401,
      "step": 411980
    },
    {
      "epoch": 0.8583125,
      "grad_norm": 3.175966501235962,
      "learning_rate": 1.4736955906984748e-05,
      "loss": 3.4015,
      "step": 411990
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 2.288132667541504,
      "learning_rate": 1.4732694835211006e-05,
      "loss": 3.3062,
      "step": 412000
    },
    {
      "epoch": 0.8583333333333333,
      "eval_loss": 3.525686740875244,
      "eval_runtime": 7.3774,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.407,
      "step": 412000
    },
    {
      "epoch": 0.8583541666666666,
      "grad_norm": 2.93538498878479,
      "learning_rate": 1.4728434347738439e-05,
      "loss": 3.5317,
      "step": 412010
    },
    {
      "epoch": 0.858375,
      "grad_norm": 2.5551483631134033,
      "learning_rate": 1.4724174444585562e-05,
      "loss": 3.4058,
      "step": 412020
    },
    {
      "epoch": 0.8583958333333334,
      "grad_norm": 2.7352511882781982,
      "learning_rate": 1.4719915125770664e-05,
      "loss": 3.38,
      "step": 412030
    },
    {
      "epoch": 0.8584166666666667,
      "grad_norm": 1.9860743284225464,
      "learning_rate": 1.4715656391312164e-05,
      "loss": 3.4716,
      "step": 412040
    },
    {
      "epoch": 0.8584375,
      "grad_norm": 2.118720531463623,
      "learning_rate": 1.4711398241228545e-05,
      "loss": 3.5502,
      "step": 412050
    },
    {
      "epoch": 0.8584583333333333,
      "grad_norm": 2.167799711227417,
      "learning_rate": 1.4707140675538093e-05,
      "loss": 3.4967,
      "step": 412060
    },
    {
      "epoch": 0.8584791666666667,
      "grad_norm": 2.5953266620635986,
      "learning_rate": 1.470288369425921e-05,
      "loss": 3.4935,
      "step": 412070
    },
    {
      "epoch": 0.8585,
      "grad_norm": 2.0229132175445557,
      "learning_rate": 1.4698627297410382e-05,
      "loss": 3.4473,
      "step": 412080
    },
    {
      "epoch": 0.8585208333333333,
      "grad_norm": 2.4716503620147705,
      "learning_rate": 1.4694371485009909e-05,
      "loss": 3.3963,
      "step": 412090
    },
    {
      "epoch": 0.8585416666666666,
      "grad_norm": 2.9297547340393066,
      "learning_rate": 1.4690116257076145e-05,
      "loss": 3.4752,
      "step": 412100
    },
    {
      "epoch": 0.8585625,
      "grad_norm": 2.4597063064575195,
      "learning_rate": 1.4685861613627592e-05,
      "loss": 3.3253,
      "step": 412110
    },
    {
      "epoch": 0.8585833333333334,
      "grad_norm": 2.6862692832946777,
      "learning_rate": 1.4681607554682517e-05,
      "loss": 3.3481,
      "step": 412120
    },
    {
      "epoch": 0.8586041666666666,
      "grad_norm": 2.222555160522461,
      "learning_rate": 1.467735408025934e-05,
      "loss": 3.3867,
      "step": 412130
    },
    {
      "epoch": 0.858625,
      "grad_norm": 2.589829921722412,
      "learning_rate": 1.4673101190376413e-05,
      "loss": 3.6457,
      "step": 412140
    },
    {
      "epoch": 0.8586458333333333,
      "grad_norm": 2.6745543479919434,
      "learning_rate": 1.4668848885052137e-05,
      "loss": 3.3817,
      "step": 412150
    },
    {
      "epoch": 0.8586666666666667,
      "grad_norm": 2.8216288089752197,
      "learning_rate": 1.4664597164304865e-05,
      "loss": 3.4388,
      "step": 412160
    },
    {
      "epoch": 0.8586875,
      "grad_norm": 2.730825901031494,
      "learning_rate": 1.4660346028152965e-05,
      "loss": 3.5424,
      "step": 412170
    },
    {
      "epoch": 0.8587083333333333,
      "grad_norm": 2.6714959144592285,
      "learning_rate": 1.4656095476614804e-05,
      "loss": 3.4712,
      "step": 412180
    },
    {
      "epoch": 0.8587291666666667,
      "grad_norm": 2.7911789417266846,
      "learning_rate": 1.465184550970872e-05,
      "loss": 3.4167,
      "step": 412190
    },
    {
      "epoch": 0.85875,
      "grad_norm": 2.2102773189544678,
      "learning_rate": 1.4647596127453098e-05,
      "loss": 3.4513,
      "step": 412200
    },
    {
      "epoch": 0.8587708333333334,
      "grad_norm": 2.8158233165740967,
      "learning_rate": 1.464334732986629e-05,
      "loss": 3.5091,
      "step": 412210
    },
    {
      "epoch": 0.8587916666666666,
      "grad_norm": 2.4980387687683105,
      "learning_rate": 1.4639099116966647e-05,
      "loss": 3.2399,
      "step": 412220
    },
    {
      "epoch": 0.8588125,
      "grad_norm": 2.1121857166290283,
      "learning_rate": 1.4634851488772504e-05,
      "loss": 3.3232,
      "step": 412230
    },
    {
      "epoch": 0.8588333333333333,
      "grad_norm": 2.5553152561187744,
      "learning_rate": 1.463060444530223e-05,
      "loss": 3.3047,
      "step": 412240
    },
    {
      "epoch": 0.8588541666666667,
      "grad_norm": 2.210963010787964,
      "learning_rate": 1.4626357986574194e-05,
      "loss": 3.4492,
      "step": 412250
    },
    {
      "epoch": 0.858875,
      "grad_norm": 2.7092156410217285,
      "learning_rate": 1.4622112112606631e-05,
      "loss": 3.3726,
      "step": 412260
    },
    {
      "epoch": 0.8588958333333333,
      "grad_norm": 2.0668132305145264,
      "learning_rate": 1.4617866823418012e-05,
      "loss": 3.3882,
      "step": 412270
    },
    {
      "epoch": 0.8589166666666667,
      "grad_norm": 2.517531156539917,
      "learning_rate": 1.4613622119026618e-05,
      "loss": 3.4033,
      "step": 412280
    },
    {
      "epoch": 0.8589375,
      "grad_norm": 2.359160900115967,
      "learning_rate": 1.4609377999450756e-05,
      "loss": 3.5115,
      "step": 412290
    },
    {
      "epoch": 0.8589583333333334,
      "grad_norm": 2.5107004642486572,
      "learning_rate": 1.4605134464708807e-05,
      "loss": 3.4712,
      "step": 412300
    },
    {
      "epoch": 0.8589791666666666,
      "grad_norm": 2.6487481594085693,
      "learning_rate": 1.4600891514819124e-05,
      "loss": 3.4946,
      "step": 412310
    },
    {
      "epoch": 0.859,
      "grad_norm": 3.2069132328033447,
      "learning_rate": 1.4596649149799927e-05,
      "loss": 3.359,
      "step": 412320
    },
    {
      "epoch": 0.8590208333333333,
      "grad_norm": 2.542370557785034,
      "learning_rate": 1.4592407369669634e-05,
      "loss": 3.3773,
      "step": 412330
    },
    {
      "epoch": 0.8590416666666667,
      "grad_norm": 2.5262014865875244,
      "learning_rate": 1.458816617444658e-05,
      "loss": 3.3947,
      "step": 412340
    },
    {
      "epoch": 0.8590625,
      "grad_norm": 3.008821725845337,
      "learning_rate": 1.4583925564148986e-05,
      "loss": 3.4771,
      "step": 412350
    },
    {
      "epoch": 0.8590833333333333,
      "grad_norm": 1.9047880172729492,
      "learning_rate": 1.4579685538795282e-05,
      "loss": 3.4216,
      "step": 412360
    },
    {
      "epoch": 0.8591041666666667,
      "grad_norm": 2.356602430343628,
      "learning_rate": 1.4575446098403726e-05,
      "loss": 3.4456,
      "step": 412370
    },
    {
      "epoch": 0.859125,
      "grad_norm": 2.2419023513793945,
      "learning_rate": 1.45712072429926e-05,
      "loss": 3.4665,
      "step": 412380
    },
    {
      "epoch": 0.8591458333333334,
      "grad_norm": 2.652878999710083,
      "learning_rate": 1.4566968972580307e-05,
      "loss": 3.3703,
      "step": 412390
    },
    {
      "epoch": 0.8591666666666666,
      "grad_norm": 2.6305012702941895,
      "learning_rate": 1.4562731287185064e-05,
      "loss": 3.3164,
      "step": 412400
    },
    {
      "epoch": 0.8591875,
      "grad_norm": 2.858642339706421,
      "learning_rate": 1.4558494186825192e-05,
      "loss": 3.4023,
      "step": 412410
    },
    {
      "epoch": 0.8592083333333334,
      "grad_norm": 2.6231892108917236,
      "learning_rate": 1.4554257671519075e-05,
      "loss": 3.6091,
      "step": 412420
    },
    {
      "epoch": 0.8592291666666667,
      "grad_norm": 2.3341007232666016,
      "learning_rate": 1.4550021741284918e-05,
      "loss": 3.5226,
      "step": 412430
    },
    {
      "epoch": 0.85925,
      "grad_norm": 2.143972396850586,
      "learning_rate": 1.4545786396141018e-05,
      "loss": 3.4928,
      "step": 412440
    },
    {
      "epoch": 0.8592708333333333,
      "grad_norm": 2.1515557765960693,
      "learning_rate": 1.4541551636105764e-05,
      "loss": 3.4568,
      "step": 412450
    },
    {
      "epoch": 0.8592916666666667,
      "grad_norm": 2.1751761436462402,
      "learning_rate": 1.4537317461197373e-05,
      "loss": 3.4524,
      "step": 412460
    },
    {
      "epoch": 0.8593125,
      "grad_norm": 2.4240543842315674,
      "learning_rate": 1.4533083871434132e-05,
      "loss": 3.4782,
      "step": 412470
    },
    {
      "epoch": 0.8593333333333333,
      "grad_norm": 2.9708967208862305,
      "learning_rate": 1.4528850866834357e-05,
      "loss": 3.4429,
      "step": 412480
    },
    {
      "epoch": 0.8593541666666666,
      "grad_norm": 2.8003430366516113,
      "learning_rate": 1.452461844741632e-05,
      "loss": 3.5765,
      "step": 412490
    },
    {
      "epoch": 0.859375,
      "grad_norm": 2.1525373458862305,
      "learning_rate": 1.452038661319832e-05,
      "loss": 3.4651,
      "step": 412500
    },
    {
      "epoch": 0.8593958333333334,
      "grad_norm": 2.389552593231201,
      "learning_rate": 1.4516155364198611e-05,
      "loss": 3.4676,
      "step": 412510
    },
    {
      "epoch": 0.8594166666666667,
      "grad_norm": 3.2077929973602295,
      "learning_rate": 1.451192470043548e-05,
      "loss": 3.4069,
      "step": 412520
    },
    {
      "epoch": 0.8594375,
      "grad_norm": 2.266308069229126,
      "learning_rate": 1.4507694621927208e-05,
      "loss": 3.6361,
      "step": 412530
    },
    {
      "epoch": 0.8594583333333333,
      "grad_norm": 3.086282253265381,
      "learning_rate": 1.4503465128692066e-05,
      "loss": 3.383,
      "step": 412540
    },
    {
      "epoch": 0.8594791666666667,
      "grad_norm": 2.2305190563201904,
      "learning_rate": 1.4499236220748306e-05,
      "loss": 3.3811,
      "step": 412550
    },
    {
      "epoch": 0.8595,
      "grad_norm": 2.1553685665130615,
      "learning_rate": 1.449500789811423e-05,
      "loss": 3.467,
      "step": 412560
    },
    {
      "epoch": 0.8595208333333333,
      "grad_norm": 2.929560899734497,
      "learning_rate": 1.4490780160808074e-05,
      "loss": 3.4102,
      "step": 412570
    },
    {
      "epoch": 0.8595416666666666,
      "grad_norm": 2.515169620513916,
      "learning_rate": 1.4486553008848122e-05,
      "loss": 3.3982,
      "step": 412580
    },
    {
      "epoch": 0.8595625,
      "grad_norm": 2.2833847999572754,
      "learning_rate": 1.4482326442252612e-05,
      "loss": 3.296,
      "step": 412590
    },
    {
      "epoch": 0.8595833333333334,
      "grad_norm": 2.231015920639038,
      "learning_rate": 1.4478100461039809e-05,
      "loss": 3.3713,
      "step": 412600
    },
    {
      "epoch": 0.8596041666666666,
      "grad_norm": 2.5740013122558594,
      "learning_rate": 1.447387506522797e-05,
      "loss": 3.4789,
      "step": 412610
    },
    {
      "epoch": 0.859625,
      "grad_norm": 2.2739648818969727,
      "learning_rate": 1.4469650254835357e-05,
      "loss": 3.4983,
      "step": 412620
    },
    {
      "epoch": 0.8596458333333333,
      "grad_norm": 3.3484764099121094,
      "learning_rate": 1.4465426029880178e-05,
      "loss": 3.4039,
      "step": 412630
    },
    {
      "epoch": 0.8596666666666667,
      "grad_norm": 3.501682758331299,
      "learning_rate": 1.4461202390380733e-05,
      "loss": 3.4242,
      "step": 412640
    },
    {
      "epoch": 0.8596875,
      "grad_norm": 3.1007425785064697,
      "learning_rate": 1.4456979336355257e-05,
      "loss": 3.4135,
      "step": 412650
    },
    {
      "epoch": 0.8597083333333333,
      "grad_norm": 3.242558002471924,
      "learning_rate": 1.4452756867821936e-05,
      "loss": 3.4162,
      "step": 412660
    },
    {
      "epoch": 0.8597291666666667,
      "grad_norm": 3.0935099124908447,
      "learning_rate": 1.444853498479907e-05,
      "loss": 3.4416,
      "step": 412670
    },
    {
      "epoch": 0.85975,
      "grad_norm": 2.3232994079589844,
      "learning_rate": 1.4444313687304914e-05,
      "loss": 3.3967,
      "step": 412680
    },
    {
      "epoch": 0.8597708333333334,
      "grad_norm": 2.485295057296753,
      "learning_rate": 1.444009297535762e-05,
      "loss": 3.5883,
      "step": 412690
    },
    {
      "epoch": 0.8597916666666666,
      "grad_norm": 2.1835412979125977,
      "learning_rate": 1.4435872848975472e-05,
      "loss": 3.34,
      "step": 412700
    },
    {
      "epoch": 0.8598125,
      "grad_norm": 3.3884668350219727,
      "learning_rate": 1.4431653308176738e-05,
      "loss": 3.4623,
      "step": 412710
    },
    {
      "epoch": 0.8598333333333333,
      "grad_norm": 2.5571787357330322,
      "learning_rate": 1.4427434352979539e-05,
      "loss": 3.3334,
      "step": 412720
    },
    {
      "epoch": 0.8598541666666667,
      "grad_norm": 2.5554542541503906,
      "learning_rate": 1.4423215983402193e-05,
      "loss": 3.4621,
      "step": 412730
    },
    {
      "epoch": 0.859875,
      "grad_norm": 2.3430588245391846,
      "learning_rate": 1.44189981994629e-05,
      "loss": 3.5396,
      "step": 412740
    },
    {
      "epoch": 0.8598958333333333,
      "grad_norm": 2.294874668121338,
      "learning_rate": 1.4414781001179848e-05,
      "loss": 3.3327,
      "step": 412750
    },
    {
      "epoch": 0.8599166666666667,
      "grad_norm": 2.6439015865325928,
      "learning_rate": 1.4410564388571288e-05,
      "loss": 3.4274,
      "step": 412760
    },
    {
      "epoch": 0.8599375,
      "grad_norm": 2.603541851043701,
      "learning_rate": 1.4406348361655407e-05,
      "loss": 3.4749,
      "step": 412770
    },
    {
      "epoch": 0.8599583333333334,
      "grad_norm": 2.230464220046997,
      "learning_rate": 1.4402132920450437e-05,
      "loss": 3.4344,
      "step": 412780
    },
    {
      "epoch": 0.8599791666666666,
      "grad_norm": 2.242539644241333,
      "learning_rate": 1.4397918064974567e-05,
      "loss": 3.4107,
      "step": 412790
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.82450795173645,
      "learning_rate": 1.4393703795246014e-05,
      "loss": 3.4481,
      "step": 412800
    },
    {
      "epoch": 0.8600208333333333,
      "grad_norm": 3.149747371673584,
      "learning_rate": 1.4389490111282998e-05,
      "loss": 3.4998,
      "step": 412810
    },
    {
      "epoch": 0.8600416666666667,
      "grad_norm": 2.62276029586792,
      "learning_rate": 1.4385277013103703e-05,
      "loss": 3.5113,
      "step": 412820
    },
    {
      "epoch": 0.8600625,
      "grad_norm": 3.122990846633911,
      "learning_rate": 1.438106450072633e-05,
      "loss": 3.3239,
      "step": 412830
    },
    {
      "epoch": 0.8600833333333333,
      "grad_norm": 2.5538406372070312,
      "learning_rate": 1.4376852574169067e-05,
      "loss": 3.4011,
      "step": 412840
    },
    {
      "epoch": 0.8601041666666667,
      "grad_norm": 2.261155605316162,
      "learning_rate": 1.4372641233450133e-05,
      "loss": 3.5212,
      "step": 412850
    },
    {
      "epoch": 0.860125,
      "grad_norm": 2.2009332180023193,
      "learning_rate": 1.4368430478587695e-05,
      "loss": 3.4388,
      "step": 412860
    },
    {
      "epoch": 0.8601458333333334,
      "grad_norm": 2.6322920322418213,
      "learning_rate": 1.4364220309599955e-05,
      "loss": 3.2905,
      "step": 412870
    },
    {
      "epoch": 0.8601666666666666,
      "grad_norm": 2.89924693107605,
      "learning_rate": 1.4360010726505101e-05,
      "loss": 3.5038,
      "step": 412880
    },
    {
      "epoch": 0.8601875,
      "grad_norm": 2.5313665866851807,
      "learning_rate": 1.4355801729321299e-05,
      "loss": 3.5062,
      "step": 412890
    },
    {
      "epoch": 0.8602083333333334,
      "grad_norm": 2.830334186553955,
      "learning_rate": 1.4351593318066734e-05,
      "loss": 3.5386,
      "step": 412900
    },
    {
      "epoch": 0.8602291666666667,
      "grad_norm": 1.9208720922470093,
      "learning_rate": 1.4347385492759611e-05,
      "loss": 3.4683,
      "step": 412910
    },
    {
      "epoch": 0.86025,
      "grad_norm": 3.428068161010742,
      "learning_rate": 1.434317825341808e-05,
      "loss": 3.4372,
      "step": 412920
    },
    {
      "epoch": 0.8602708333333333,
      "grad_norm": 2.260115146636963,
      "learning_rate": 1.4338971600060329e-05,
      "loss": 3.3045,
      "step": 412930
    },
    {
      "epoch": 0.8602916666666667,
      "grad_norm": 2.5891995429992676,
      "learning_rate": 1.4334765532704506e-05,
      "loss": 3.6154,
      "step": 412940
    },
    {
      "epoch": 0.8603125,
      "grad_norm": 2.0504088401794434,
      "learning_rate": 1.4330560051368816e-05,
      "loss": 3.4893,
      "step": 412950
    },
    {
      "epoch": 0.8603333333333333,
      "grad_norm": 2.4315340518951416,
      "learning_rate": 1.4326355156071395e-05,
      "loss": 3.4824,
      "step": 412960
    },
    {
      "epoch": 0.8603541666666666,
      "grad_norm": 2.5213510990142822,
      "learning_rate": 1.432215084683041e-05,
      "loss": 3.4073,
      "step": 412970
    },
    {
      "epoch": 0.860375,
      "grad_norm": 2.376265287399292,
      "learning_rate": 1.4317947123664031e-05,
      "loss": 3.4368,
      "step": 412980
    },
    {
      "epoch": 0.8603958333333334,
      "grad_norm": 2.633009672164917,
      "learning_rate": 1.4313743986590442e-05,
      "loss": 3.4413,
      "step": 412990
    },
    {
      "epoch": 0.8604166666666667,
      "grad_norm": 2.4267523288726807,
      "learning_rate": 1.430954143562773e-05,
      "loss": 3.4587,
      "step": 413000
    },
    {
      "epoch": 0.8604166666666667,
      "eval_loss": 3.526935577392578,
      "eval_runtime": 7.3617,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.408,
      "step": 413000
    },
    {
      "epoch": 0.8604375,
      "grad_norm": 2.3559257984161377,
      "learning_rate": 1.4305339470794097e-05,
      "loss": 3.2437,
      "step": 413010
    },
    {
      "epoch": 0.8604583333333333,
      "grad_norm": 3.0486724376678467,
      "learning_rate": 1.4301138092107728e-05,
      "loss": 3.5191,
      "step": 413020
    },
    {
      "epoch": 0.8604791666666667,
      "grad_norm": 2.1384329795837402,
      "learning_rate": 1.4296937299586658e-05,
      "loss": 3.4169,
      "step": 413030
    },
    {
      "epoch": 0.8605,
      "grad_norm": 2.491488218307495,
      "learning_rate": 1.429273709324914e-05,
      "loss": 3.3194,
      "step": 413040
    },
    {
      "epoch": 0.8605208333333333,
      "grad_norm": 2.3629701137542725,
      "learning_rate": 1.4288537473113309e-05,
      "loss": 3.5923,
      "step": 413050
    },
    {
      "epoch": 0.8605416666666666,
      "grad_norm": 2.3301565647125244,
      "learning_rate": 1.4284338439197251e-05,
      "loss": 3.4384,
      "step": 413060
    },
    {
      "epoch": 0.8605625,
      "grad_norm": 2.097182035446167,
      "learning_rate": 1.4280139991519101e-05,
      "loss": 3.3648,
      "step": 413070
    },
    {
      "epoch": 0.8605833333333334,
      "grad_norm": 2.8793435096740723,
      "learning_rate": 1.4275942130097096e-05,
      "loss": 3.4116,
      "step": 413080
    },
    {
      "epoch": 0.8606041666666666,
      "grad_norm": 2.33917236328125,
      "learning_rate": 1.4271744854949252e-05,
      "loss": 3.4886,
      "step": 413090
    },
    {
      "epoch": 0.860625,
      "grad_norm": 2.9147510528564453,
      "learning_rate": 1.4267548166093723e-05,
      "loss": 3.4018,
      "step": 413100
    },
    {
      "epoch": 0.8606458333333333,
      "grad_norm": 2.7142064571380615,
      "learning_rate": 1.4263352063548711e-05,
      "loss": 3.2794,
      "step": 413110
    },
    {
      "epoch": 0.8606666666666667,
      "grad_norm": 2.297555923461914,
      "learning_rate": 1.4259156547332252e-05,
      "loss": 3.2312,
      "step": 413120
    },
    {
      "epoch": 0.8606875,
      "grad_norm": 2.3647286891937256,
      "learning_rate": 1.4254961617462529e-05,
      "loss": 3.382,
      "step": 413130
    },
    {
      "epoch": 0.8607083333333333,
      "grad_norm": 2.5930681228637695,
      "learning_rate": 1.425076727395763e-05,
      "loss": 3.4616,
      "step": 413140
    },
    {
      "epoch": 0.8607291666666667,
      "grad_norm": 2.248671293258667,
      "learning_rate": 1.4246573516835674e-05,
      "loss": 3.3997,
      "step": 413150
    },
    {
      "epoch": 0.86075,
      "grad_norm": 2.453287124633789,
      "learning_rate": 1.4242380346114796e-05,
      "loss": 3.5246,
      "step": 413160
    },
    {
      "epoch": 0.8607708333333334,
      "grad_norm": 2.5088510513305664,
      "learning_rate": 1.4238187761813096e-05,
      "loss": 3.3513,
      "step": 413170
    },
    {
      "epoch": 0.8607916666666666,
      "grad_norm": 2.6105027198791504,
      "learning_rate": 1.4233995763948696e-05,
      "loss": 3.3538,
      "step": 413180
    },
    {
      "epoch": 0.8608125,
      "grad_norm": 2.6057398319244385,
      "learning_rate": 1.4229804352539681e-05,
      "loss": 3.5204,
      "step": 413190
    },
    {
      "epoch": 0.8608333333333333,
      "grad_norm": 2.87138295173645,
      "learning_rate": 1.4225613527604169e-05,
      "loss": 3.4473,
      "step": 413200
    },
    {
      "epoch": 0.8608541666666667,
      "grad_norm": 2.1239469051361084,
      "learning_rate": 1.4221423289160277e-05,
      "loss": 3.5361,
      "step": 413210
    },
    {
      "epoch": 0.860875,
      "grad_norm": 2.4051146507263184,
      "learning_rate": 1.4217233637226078e-05,
      "loss": 3.3976,
      "step": 413220
    },
    {
      "epoch": 0.8608958333333333,
      "grad_norm": 3.1109554767608643,
      "learning_rate": 1.4213044571819687e-05,
      "loss": 3.4109,
      "step": 413230
    },
    {
      "epoch": 0.8609166666666667,
      "grad_norm": 4.434704303741455,
      "learning_rate": 1.4208856092959208e-05,
      "loss": 3.4264,
      "step": 413240
    },
    {
      "epoch": 0.8609375,
      "grad_norm": 2.251865863800049,
      "learning_rate": 1.4204668200662694e-05,
      "loss": 3.518,
      "step": 413250
    },
    {
      "epoch": 0.8609583333333334,
      "grad_norm": 2.364382266998291,
      "learning_rate": 1.4200480894948279e-05,
      "loss": 3.4175,
      "step": 413260
    },
    {
      "epoch": 0.8609791666666666,
      "grad_norm": 2.7044289112091064,
      "learning_rate": 1.4196294175834033e-05,
      "loss": 3.4225,
      "step": 413270
    },
    {
      "epoch": 0.861,
      "grad_norm": 2.037729501724243,
      "learning_rate": 1.419210804333804e-05,
      "loss": 3.4916,
      "step": 413280
    },
    {
      "epoch": 0.8610208333333333,
      "grad_norm": 2.3790946006774902,
      "learning_rate": 1.4187922497478388e-05,
      "loss": 3.3935,
      "step": 413290
    },
    {
      "epoch": 0.8610416666666667,
      "grad_norm": 2.161159038543701,
      "learning_rate": 1.4183737538273143e-05,
      "loss": 3.4493,
      "step": 413300
    },
    {
      "epoch": 0.8610625,
      "grad_norm": 2.1969051361083984,
      "learning_rate": 1.417955316574041e-05,
      "loss": 3.4063,
      "step": 413310
    },
    {
      "epoch": 0.8610833333333333,
      "grad_norm": 3.114748239517212,
      "learning_rate": 1.4175369379898222e-05,
      "loss": 3.4568,
      "step": 413320
    },
    {
      "epoch": 0.8611041666666667,
      "grad_norm": 2.7453269958496094,
      "learning_rate": 1.4171186180764682e-05,
      "loss": 3.4195,
      "step": 413330
    },
    {
      "epoch": 0.861125,
      "grad_norm": 2.4195480346679688,
      "learning_rate": 1.4167003568357893e-05,
      "loss": 3.3734,
      "step": 413340
    },
    {
      "epoch": 0.8611458333333334,
      "grad_norm": 3.0628721714019775,
      "learning_rate": 1.4162821542695824e-05,
      "loss": 3.3336,
      "step": 413350
    },
    {
      "epoch": 0.8611666666666666,
      "grad_norm": 2.174903631210327,
      "learning_rate": 1.4158640103796642e-05,
      "loss": 3.5759,
      "step": 413360
    },
    {
      "epoch": 0.8611875,
      "grad_norm": 2.3052382469177246,
      "learning_rate": 1.4154459251678352e-05,
      "loss": 3.3265,
      "step": 413370
    },
    {
      "epoch": 0.8612083333333334,
      "grad_norm": 2.4617104530334473,
      "learning_rate": 1.4150278986358987e-05,
      "loss": 3.3705,
      "step": 413380
    },
    {
      "epoch": 0.8612291666666667,
      "grad_norm": 2.0403079986572266,
      "learning_rate": 1.41460993078567e-05,
      "loss": 3.4815,
      "step": 413390
    },
    {
      "epoch": 0.86125,
      "grad_norm": 2.467738151550293,
      "learning_rate": 1.4141920216189462e-05,
      "loss": 3.4679,
      "step": 413400
    },
    {
      "epoch": 0.8612708333333333,
      "grad_norm": 1.9959070682525635,
      "learning_rate": 1.4137741711375322e-05,
      "loss": 3.3216,
      "step": 413410
    },
    {
      "epoch": 0.8612916666666667,
      "grad_norm": 2.8823928833007812,
      "learning_rate": 1.4133563793432418e-05,
      "loss": 3.3976,
      "step": 413420
    },
    {
      "epoch": 0.8613125,
      "grad_norm": 2.281240463256836,
      "learning_rate": 1.4129386462378717e-05,
      "loss": 3.3901,
      "step": 413430
    },
    {
      "epoch": 0.8613333333333333,
      "grad_norm": 2.8165507316589355,
      "learning_rate": 1.4125209718232256e-05,
      "loss": 3.4306,
      "step": 413440
    },
    {
      "epoch": 0.8613541666666666,
      "grad_norm": 2.8163464069366455,
      "learning_rate": 1.4121033561011152e-05,
      "loss": 3.4033,
      "step": 413450
    },
    {
      "epoch": 0.861375,
      "grad_norm": 2.3179359436035156,
      "learning_rate": 1.4116857990733377e-05,
      "loss": 3.4742,
      "step": 413460
    },
    {
      "epoch": 0.8613958333333334,
      "grad_norm": 2.4011638164520264,
      "learning_rate": 1.4112683007416964e-05,
      "loss": 3.6531,
      "step": 413470
    },
    {
      "epoch": 0.8614166666666667,
      "grad_norm": 2.5158092975616455,
      "learning_rate": 1.4108508611080033e-05,
      "loss": 3.504,
      "step": 413480
    },
    {
      "epoch": 0.8614375,
      "grad_norm": 2.8693151473999023,
      "learning_rate": 1.410433480174052e-05,
      "loss": 3.4019,
      "step": 413490
    },
    {
      "epoch": 0.8614583333333333,
      "grad_norm": 2.4838666915893555,
      "learning_rate": 1.4100161579416492e-05,
      "loss": 3.4508,
      "step": 413500
    },
    {
      "epoch": 0.8614791666666667,
      "grad_norm": 2.4966249465942383,
      "learning_rate": 1.4095988944125968e-05,
      "loss": 3.4337,
      "step": 413510
    },
    {
      "epoch": 0.8615,
      "grad_norm": 2.3151113986968994,
      "learning_rate": 1.409181689588697e-05,
      "loss": 3.3054,
      "step": 413520
    },
    {
      "epoch": 0.8615208333333333,
      "grad_norm": 2.5122408866882324,
      "learning_rate": 1.4087645434717548e-05,
      "loss": 3.41,
      "step": 413530
    },
    {
      "epoch": 0.8615416666666667,
      "grad_norm": 2.483107089996338,
      "learning_rate": 1.4083474560635687e-05,
      "loss": 3.3304,
      "step": 413540
    },
    {
      "epoch": 0.8615625,
      "grad_norm": 2.3329479694366455,
      "learning_rate": 1.4079304273659408e-05,
      "loss": 3.4226,
      "step": 413550
    },
    {
      "epoch": 0.8615833333333334,
      "grad_norm": 2.3655171394348145,
      "learning_rate": 1.4075134573806746e-05,
      "loss": 3.4102,
      "step": 413560
    },
    {
      "epoch": 0.8616041666666666,
      "grad_norm": 2.5237183570861816,
      "learning_rate": 1.40709654610957e-05,
      "loss": 3.3904,
      "step": 413570
    },
    {
      "epoch": 0.861625,
      "grad_norm": 3.106062650680542,
      "learning_rate": 1.4066796935544278e-05,
      "loss": 3.4476,
      "step": 413580
    },
    {
      "epoch": 0.8616458333333333,
      "grad_norm": 2.8361170291900635,
      "learning_rate": 1.4062628997170477e-05,
      "loss": 3.4716,
      "step": 413590
    },
    {
      "epoch": 0.8616666666666667,
      "grad_norm": 2.636934518814087,
      "learning_rate": 1.4058461645992336e-05,
      "loss": 3.4013,
      "step": 413600
    },
    {
      "epoch": 0.8616875,
      "grad_norm": 2.022688150405884,
      "learning_rate": 1.4054294882027806e-05,
      "loss": 3.3239,
      "step": 413610
    },
    {
      "epoch": 0.8617083333333333,
      "grad_norm": 2.388596296310425,
      "learning_rate": 1.4050128705294922e-05,
      "loss": 3.393,
      "step": 413620
    },
    {
      "epoch": 0.8617291666666667,
      "grad_norm": 2.5631043910980225,
      "learning_rate": 1.404596311581167e-05,
      "loss": 3.3774,
      "step": 413630
    },
    {
      "epoch": 0.86175,
      "grad_norm": 2.814349889755249,
      "learning_rate": 1.4041798113596037e-05,
      "loss": 3.6145,
      "step": 413640
    },
    {
      "epoch": 0.8617708333333334,
      "grad_norm": 2.270132064819336,
      "learning_rate": 1.4037633698666056e-05,
      "loss": 3.4727,
      "step": 413650
    },
    {
      "epoch": 0.8617916666666666,
      "grad_norm": 2.3013789653778076,
      "learning_rate": 1.4033469871039615e-05,
      "loss": 3.4852,
      "step": 413660
    },
    {
      "epoch": 0.8618125,
      "grad_norm": 2.263392448425293,
      "learning_rate": 1.40293066307348e-05,
      "loss": 3.4816,
      "step": 413670
    },
    {
      "epoch": 0.8618333333333333,
      "grad_norm": 2.120837450027466,
      "learning_rate": 1.4025143977769576e-05,
      "loss": 3.415,
      "step": 413680
    },
    {
      "epoch": 0.8618541666666667,
      "grad_norm": 2.4654788970947266,
      "learning_rate": 1.4020981912161866e-05,
      "loss": 3.5465,
      "step": 413690
    },
    {
      "epoch": 0.861875,
      "grad_norm": 2.561983585357666,
      "learning_rate": 1.4016820433929704e-05,
      "loss": 3.469,
      "step": 413700
    },
    {
      "epoch": 0.8618958333333333,
      "grad_norm": 2.5521793365478516,
      "learning_rate": 1.4012659543091093e-05,
      "loss": 3.4797,
      "step": 413710
    },
    {
      "epoch": 0.8619166666666667,
      "grad_norm": 2.632129669189453,
      "learning_rate": 1.40084992396639e-05,
      "loss": 3.4346,
      "step": 413720
    },
    {
      "epoch": 0.8619375,
      "grad_norm": 2.7701921463012695,
      "learning_rate": 1.4004339523666198e-05,
      "loss": 3.4009,
      "step": 413730
    },
    {
      "epoch": 0.8619583333333334,
      "grad_norm": 2.6626360416412354,
      "learning_rate": 1.4000180395115934e-05,
      "loss": 3.4422,
      "step": 413740
    },
    {
      "epoch": 0.8619791666666666,
      "grad_norm": 2.058729887008667,
      "learning_rate": 1.3996021854031013e-05,
      "loss": 3.5276,
      "step": 413750
    },
    {
      "epoch": 0.862,
      "grad_norm": 3.368598222732544,
      "learning_rate": 1.399186390042949e-05,
      "loss": 3.3376,
      "step": 413760
    },
    {
      "epoch": 0.8620208333333333,
      "grad_norm": 2.812814950942993,
      "learning_rate": 1.3987706534329262e-05,
      "loss": 3.5567,
      "step": 413770
    },
    {
      "epoch": 0.8620416666666667,
      "grad_norm": 2.425021171569824,
      "learning_rate": 1.3983549755748269e-05,
      "loss": 3.484,
      "step": 413780
    },
    {
      "epoch": 0.8620625,
      "grad_norm": 1.9305250644683838,
      "learning_rate": 1.3979393564704561e-05,
      "loss": 3.3833,
      "step": 413790
    },
    {
      "epoch": 0.8620833333333333,
      "grad_norm": 2.343550443649292,
      "learning_rate": 1.3975237961216007e-05,
      "loss": 3.3666,
      "step": 413800
    },
    {
      "epoch": 0.8621041666666667,
      "grad_norm": 1.9196609258651733,
      "learning_rate": 1.3971082945300543e-05,
      "loss": 3.4017,
      "step": 413810
    },
    {
      "epoch": 0.862125,
      "grad_norm": 3.041994333267212,
      "learning_rate": 1.3966928516976222e-05,
      "loss": 3.3599,
      "step": 413820
    },
    {
      "epoch": 0.8621458333333333,
      "grad_norm": 2.3313591480255127,
      "learning_rate": 1.3962774676260897e-05,
      "loss": 3.525,
      "step": 413830
    },
    {
      "epoch": 0.8621666666666666,
      "grad_norm": 2.444242000579834,
      "learning_rate": 1.3958621423172517e-05,
      "loss": 3.4743,
      "step": 413840
    },
    {
      "epoch": 0.8621875,
      "grad_norm": 2.444139242172241,
      "learning_rate": 1.3954468757729087e-05,
      "loss": 3.392,
      "step": 413850
    },
    {
      "epoch": 0.8622083333333334,
      "grad_norm": 2.4221251010894775,
      "learning_rate": 1.3950316679948476e-05,
      "loss": 3.4674,
      "step": 413860
    },
    {
      "epoch": 0.8622291666666667,
      "grad_norm": 2.218123197555542,
      "learning_rate": 1.3946165189848635e-05,
      "loss": 3.5292,
      "step": 413870
    },
    {
      "epoch": 0.86225,
      "grad_norm": 2.3176016807556152,
      "learning_rate": 1.3942014287447517e-05,
      "loss": 3.4686,
      "step": 413880
    },
    {
      "epoch": 0.8622708333333333,
      "grad_norm": 2.1235179901123047,
      "learning_rate": 1.3937863972763041e-05,
      "loss": 3.5208,
      "step": 413890
    },
    {
      "epoch": 0.8622916666666667,
      "grad_norm": 2.752152681350708,
      "learning_rate": 1.3933714245813144e-05,
      "loss": 3.5128,
      "step": 413900
    },
    {
      "epoch": 0.8623125,
      "grad_norm": 2.5094683170318604,
      "learning_rate": 1.3929565106615743e-05,
      "loss": 3.6137,
      "step": 413910
    },
    {
      "epoch": 0.8623333333333333,
      "grad_norm": 2.4703848361968994,
      "learning_rate": 1.3925416555188739e-05,
      "loss": 3.2912,
      "step": 413920
    },
    {
      "epoch": 0.8623541666666666,
      "grad_norm": 2.221839666366577,
      "learning_rate": 1.392126859155009e-05,
      "loss": 3.5375,
      "step": 413930
    },
    {
      "epoch": 0.862375,
      "grad_norm": 2.752903938293457,
      "learning_rate": 1.391712121571769e-05,
      "loss": 3.4248,
      "step": 413940
    },
    {
      "epoch": 0.8623958333333334,
      "grad_norm": 2.3154313564300537,
      "learning_rate": 1.3912974427709467e-05,
      "loss": 3.4153,
      "step": 413950
    },
    {
      "epoch": 0.8624166666666667,
      "grad_norm": 3.1148929595947266,
      "learning_rate": 1.3908828227543334e-05,
      "loss": 3.3633,
      "step": 413960
    },
    {
      "epoch": 0.8624375,
      "grad_norm": 2.749845504760742,
      "learning_rate": 1.3904682615237179e-05,
      "loss": 3.4916,
      "step": 413970
    },
    {
      "epoch": 0.8624583333333333,
      "grad_norm": 2.6682658195495605,
      "learning_rate": 1.3900537590808936e-05,
      "loss": 3.4161,
      "step": 413980
    },
    {
      "epoch": 0.8624791666666667,
      "grad_norm": 2.565898895263672,
      "learning_rate": 1.3896393154276525e-05,
      "loss": 3.4438,
      "step": 413990
    },
    {
      "epoch": 0.8625,
      "grad_norm": 2.434281826019287,
      "learning_rate": 1.3892249305657766e-05,
      "loss": 3.4145,
      "step": 414000
    },
    {
      "epoch": 0.8625,
      "eval_loss": 3.5246243476867676,
      "eval_runtime": 7.2968,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.411,
      "step": 414000
    },
    {
      "epoch": 0.8625208333333333,
      "grad_norm": 2.36737322807312,
      "learning_rate": 1.3888106044970643e-05,
      "loss": 3.4466,
      "step": 414010
    },
    {
      "epoch": 0.8625416666666667,
      "grad_norm": 2.531708002090454,
      "learning_rate": 1.3883963372233042e-05,
      "loss": 3.5134,
      "step": 414020
    },
    {
      "epoch": 0.8625625,
      "grad_norm": 3.140392780303955,
      "learning_rate": 1.38798212874628e-05,
      "loss": 3.4588,
      "step": 414030
    },
    {
      "epoch": 0.8625833333333334,
      "grad_norm": 2.6968464851379395,
      "learning_rate": 1.3875679790677867e-05,
      "loss": 3.4272,
      "step": 414040
    },
    {
      "epoch": 0.8626041666666666,
      "grad_norm": 2.2248024940490723,
      "learning_rate": 1.3871538881896149e-05,
      "loss": 3.3613,
      "step": 414050
    },
    {
      "epoch": 0.862625,
      "grad_norm": 3.457334041595459,
      "learning_rate": 1.3867398561135446e-05,
      "loss": 3.4448,
      "step": 414060
    },
    {
      "epoch": 0.8626458333333333,
      "grad_norm": 3.350684881210327,
      "learning_rate": 1.386325882841371e-05,
      "loss": 3.5367,
      "step": 414070
    },
    {
      "epoch": 0.8626666666666667,
      "grad_norm": 2.433412551879883,
      "learning_rate": 1.3859119683748844e-05,
      "loss": 3.4567,
      "step": 414080
    },
    {
      "epoch": 0.8626875,
      "grad_norm": 2.5204126834869385,
      "learning_rate": 1.385498112715865e-05,
      "loss": 3.535,
      "step": 414090
    },
    {
      "epoch": 0.8627083333333333,
      "grad_norm": 3.4054934978485107,
      "learning_rate": 1.3850843158661062e-05,
      "loss": 3.4296,
      "step": 414100
    },
    {
      "epoch": 0.8627291666666667,
      "grad_norm": 2.7212772369384766,
      "learning_rate": 1.384670577827397e-05,
      "loss": 3.5287,
      "step": 414110
    },
    {
      "epoch": 0.86275,
      "grad_norm": 2.2814788818359375,
      "learning_rate": 1.3842568986015156e-05,
      "loss": 3.5101,
      "step": 414120
    },
    {
      "epoch": 0.8627708333333334,
      "grad_norm": 2.876506805419922,
      "learning_rate": 1.3838432781902626e-05,
      "loss": 3.4356,
      "step": 414130
    },
    {
      "epoch": 0.8627916666666666,
      "grad_norm": 2.643805503845215,
      "learning_rate": 1.3834297165954111e-05,
      "loss": 3.3736,
      "step": 414140
    },
    {
      "epoch": 0.8628125,
      "grad_norm": 3.0037198066711426,
      "learning_rate": 1.3830162138187535e-05,
      "loss": 3.3376,
      "step": 414150
    },
    {
      "epoch": 0.8628333333333333,
      "grad_norm": 3.0933799743652344,
      "learning_rate": 1.3826027698620794e-05,
      "loss": 3.4434,
      "step": 414160
    },
    {
      "epoch": 0.8628541666666667,
      "grad_norm": 3.3716723918914795,
      "learning_rate": 1.3821893847271699e-05,
      "loss": 3.4936,
      "step": 414170
    },
    {
      "epoch": 0.862875,
      "grad_norm": 2.6658544540405273,
      "learning_rate": 1.3817760584158077e-05,
      "loss": 3.2762,
      "step": 414180
    },
    {
      "epoch": 0.8628958333333333,
      "grad_norm": 2.4103972911834717,
      "learning_rate": 1.3813627909297887e-05,
      "loss": 3.459,
      "step": 414190
    },
    {
      "epoch": 0.8629166666666667,
      "grad_norm": 2.7318406105041504,
      "learning_rate": 1.3809495822708894e-05,
      "loss": 3.3639,
      "step": 414200
    },
    {
      "epoch": 0.8629375,
      "grad_norm": 2.289396286010742,
      "learning_rate": 1.3805364324408935e-05,
      "loss": 3.4963,
      "step": 414210
    },
    {
      "epoch": 0.8629583333333334,
      "grad_norm": 2.992433786392212,
      "learning_rate": 1.3801233414415963e-05,
      "loss": 3.5098,
      "step": 414220
    },
    {
      "epoch": 0.8629791666666666,
      "grad_norm": 2.6108789443969727,
      "learning_rate": 1.3797103092747713e-05,
      "loss": 3.4375,
      "step": 414230
    },
    {
      "epoch": 0.863,
      "grad_norm": 2.03039813041687,
      "learning_rate": 1.3792973359422054e-05,
      "loss": 3.5138,
      "step": 414240
    },
    {
      "epoch": 0.8630208333333333,
      "grad_norm": 4.054375171661377,
      "learning_rate": 1.3788844214456856e-05,
      "loss": 3.5625,
      "step": 414250
    },
    {
      "epoch": 0.8630416666666667,
      "grad_norm": 3.124006986618042,
      "learning_rate": 1.3784715657869922e-05,
      "loss": 3.4525,
      "step": 414260
    },
    {
      "epoch": 0.8630625,
      "grad_norm": 2.4008474349975586,
      "learning_rate": 1.37805876896791e-05,
      "loss": 3.4629,
      "step": 414270
    },
    {
      "epoch": 0.8630833333333333,
      "grad_norm": 3.027427911758423,
      "learning_rate": 1.3776460309902232e-05,
      "loss": 3.4313,
      "step": 414280
    },
    {
      "epoch": 0.8631041666666667,
      "grad_norm": 2.184237241744995,
      "learning_rate": 1.3772333518557117e-05,
      "loss": 3.4728,
      "step": 414290
    },
    {
      "epoch": 0.863125,
      "grad_norm": 3.302328586578369,
      "learning_rate": 1.3768207315661606e-05,
      "loss": 3.4418,
      "step": 414300
    },
    {
      "epoch": 0.8631458333333333,
      "grad_norm": 2.7257683277130127,
      "learning_rate": 1.376408170123352e-05,
      "loss": 3.2949,
      "step": 414310
    },
    {
      "epoch": 0.8631666666666666,
      "grad_norm": 3.585886240005493,
      "learning_rate": 1.3759956675290678e-05,
      "loss": 3.5247,
      "step": 414320
    },
    {
      "epoch": 0.8631875,
      "grad_norm": 2.6015336513519287,
      "learning_rate": 1.3755832237850884e-05,
      "loss": 3.4137,
      "step": 414330
    },
    {
      "epoch": 0.8632083333333334,
      "grad_norm": 3.001966714859009,
      "learning_rate": 1.375170838893197e-05,
      "loss": 3.504,
      "step": 414340
    },
    {
      "epoch": 0.8632291666666667,
      "grad_norm": 2.500762701034546,
      "learning_rate": 1.3747585128551742e-05,
      "loss": 3.4241,
      "step": 414350
    },
    {
      "epoch": 0.86325,
      "grad_norm": 2.6276326179504395,
      "learning_rate": 1.374346245672805e-05,
      "loss": 3.4976,
      "step": 414360
    },
    {
      "epoch": 0.8632708333333333,
      "grad_norm": 2.624907970428467,
      "learning_rate": 1.3739340373478597e-05,
      "loss": 3.3298,
      "step": 414370
    },
    {
      "epoch": 0.8632916666666667,
      "grad_norm": 2.5290451049804688,
      "learning_rate": 1.3735218878821302e-05,
      "loss": 3.5079,
      "step": 414380
    },
    {
      "epoch": 0.8633125,
      "grad_norm": 2.222850799560547,
      "learning_rate": 1.3731097972773936e-05,
      "loss": 3.4256,
      "step": 414390
    },
    {
      "epoch": 0.8633333333333333,
      "grad_norm": 2.2774951457977295,
      "learning_rate": 1.372697765535425e-05,
      "loss": 3.4516,
      "step": 414400
    },
    {
      "epoch": 0.8633541666666666,
      "grad_norm": 3.175008535385132,
      "learning_rate": 1.3722857926580094e-05,
      "loss": 3.4802,
      "step": 414410
    },
    {
      "epoch": 0.863375,
      "grad_norm": 2.4856762886047363,
      "learning_rate": 1.3718738786469274e-05,
      "loss": 3.5463,
      "step": 414420
    },
    {
      "epoch": 0.8633958333333334,
      "grad_norm": 2.8995866775512695,
      "learning_rate": 1.3714620235039509e-05,
      "loss": 3.4163,
      "step": 414430
    },
    {
      "epoch": 0.8634166666666667,
      "grad_norm": 2.7133266925811768,
      "learning_rate": 1.3710502272308666e-05,
      "loss": 3.3625,
      "step": 414440
    },
    {
      "epoch": 0.8634375,
      "grad_norm": 2.3380908966064453,
      "learning_rate": 1.3706384898294547e-05,
      "loss": 3.3776,
      "step": 414450
    },
    {
      "epoch": 0.8634583333333333,
      "grad_norm": 2.521012306213379,
      "learning_rate": 1.3702268113014826e-05,
      "loss": 3.4767,
      "step": 414460
    },
    {
      "epoch": 0.8634791666666667,
      "grad_norm": 3.1071317195892334,
      "learning_rate": 1.3698151916487382e-05,
      "loss": 3.5225,
      "step": 414470
    },
    {
      "epoch": 0.8635,
      "grad_norm": 3.1055777072906494,
      "learning_rate": 1.3694036308730006e-05,
      "loss": 3.401,
      "step": 414480
    },
    {
      "epoch": 0.8635208333333333,
      "grad_norm": 2.215662717819214,
      "learning_rate": 1.3689921289760381e-05,
      "loss": 3.3744,
      "step": 414490
    },
    {
      "epoch": 0.8635416666666667,
      "grad_norm": 2.3866775035858154,
      "learning_rate": 1.3685806859596392e-05,
      "loss": 3.3888,
      "step": 414500
    },
    {
      "epoch": 0.8635625,
      "grad_norm": 2.7254042625427246,
      "learning_rate": 1.3681693018255746e-05,
      "loss": 3.3205,
      "step": 414510
    },
    {
      "epoch": 0.8635833333333334,
      "grad_norm": 3.07659649848938,
      "learning_rate": 1.3677579765756208e-05,
      "loss": 3.4393,
      "step": 414520
    },
    {
      "epoch": 0.8636041666666666,
      "grad_norm": 3.2361249923706055,
      "learning_rate": 1.3673467102115582e-05,
      "loss": 3.5248,
      "step": 414530
    },
    {
      "epoch": 0.863625,
      "grad_norm": 2.8167026042938232,
      "learning_rate": 1.3669355027351602e-05,
      "loss": 3.4215,
      "step": 414540
    },
    {
      "epoch": 0.8636458333333333,
      "grad_norm": 3.534472942352295,
      "learning_rate": 1.3665243541482058e-05,
      "loss": 3.4731,
      "step": 414550
    },
    {
      "epoch": 0.8636666666666667,
      "grad_norm": 2.8380205631256104,
      "learning_rate": 1.3661132644524698e-05,
      "loss": 3.4941,
      "step": 414560
    },
    {
      "epoch": 0.8636875,
      "grad_norm": 2.917811632156372,
      "learning_rate": 1.3657022336497276e-05,
      "loss": 3.3949,
      "step": 414570
    },
    {
      "epoch": 0.8637083333333333,
      "grad_norm": 3.3407819271087646,
      "learning_rate": 1.3652912617417544e-05,
      "loss": 3.3873,
      "step": 414580
    },
    {
      "epoch": 0.8637291666666667,
      "grad_norm": 2.389356851577759,
      "learning_rate": 1.3648803487303256e-05,
      "loss": 3.3872,
      "step": 414590
    },
    {
      "epoch": 0.86375,
      "grad_norm": 2.195030927658081,
      "learning_rate": 1.3644694946172164e-05,
      "loss": 3.4456,
      "step": 414600
    },
    {
      "epoch": 0.8637708333333334,
      "grad_norm": 2.373976469039917,
      "learning_rate": 1.3640586994042035e-05,
      "loss": 3.4068,
      "step": 414610
    },
    {
      "epoch": 0.8637916666666666,
      "grad_norm": 2.6094517707824707,
      "learning_rate": 1.3636479630930575e-05,
      "loss": 3.5825,
      "step": 414620
    },
    {
      "epoch": 0.8638125,
      "grad_norm": 2.5473673343658447,
      "learning_rate": 1.363237285685555e-05,
      "loss": 3.3874,
      "step": 414630
    },
    {
      "epoch": 0.8638333333333333,
      "grad_norm": 2.3245596885681152,
      "learning_rate": 1.3628266671834714e-05,
      "loss": 3.2914,
      "step": 414640
    },
    {
      "epoch": 0.8638541666666667,
      "grad_norm": 2.9510416984558105,
      "learning_rate": 1.362416107588577e-05,
      "loss": 3.3778,
      "step": 414650
    },
    {
      "epoch": 0.863875,
      "grad_norm": 3.155001640319824,
      "learning_rate": 1.362005606902647e-05,
      "loss": 3.4413,
      "step": 414660
    },
    {
      "epoch": 0.8638958333333333,
      "grad_norm": 2.6577136516571045,
      "learning_rate": 1.3615951651274549e-05,
      "loss": 3.4504,
      "step": 414670
    },
    {
      "epoch": 0.8639166666666667,
      "grad_norm": 3.281430721282959,
      "learning_rate": 1.3611847822647725e-05,
      "loss": 3.4412,
      "step": 414680
    },
    {
      "epoch": 0.8639375,
      "grad_norm": 2.269240379333496,
      "learning_rate": 1.3607744583163738e-05,
      "loss": 3.5678,
      "step": 414690
    },
    {
      "epoch": 0.8639583333333334,
      "grad_norm": 2.6905581951141357,
      "learning_rate": 1.3603641932840304e-05,
      "loss": 3.3691,
      "step": 414700
    },
    {
      "epoch": 0.8639791666666666,
      "grad_norm": 2.8992652893066406,
      "learning_rate": 1.359953987169516e-05,
      "loss": 3.3397,
      "step": 414710
    },
    {
      "epoch": 0.864,
      "grad_norm": 3.5252833366394043,
      "learning_rate": 1.3595438399745989e-05,
      "loss": 3.4394,
      "step": 414720
    },
    {
      "epoch": 0.8640208333333333,
      "grad_norm": 3.0570638179779053,
      "learning_rate": 1.3591337517010548e-05,
      "loss": 3.5108,
      "step": 414730
    },
    {
      "epoch": 0.8640416666666667,
      "grad_norm": 2.3685388565063477,
      "learning_rate": 1.3587237223506537e-05,
      "loss": 3.5319,
      "step": 414740
    },
    {
      "epoch": 0.8640625,
      "grad_norm": 2.9652230739593506,
      "learning_rate": 1.3583137519251658e-05,
      "loss": 3.4285,
      "step": 414750
    },
    {
      "epoch": 0.8640833333333333,
      "grad_norm": 2.7074778079986572,
      "learning_rate": 1.3579038404263664e-05,
      "loss": 3.4912,
      "step": 414760
    },
    {
      "epoch": 0.8641041666666667,
      "grad_norm": 3.111119031906128,
      "learning_rate": 1.357493987856016e-05,
      "loss": 3.4618,
      "step": 414770
    },
    {
      "epoch": 0.864125,
      "grad_norm": 2.707991123199463,
      "learning_rate": 1.3570841942158945e-05,
      "loss": 3.4997,
      "step": 414780
    },
    {
      "epoch": 0.8641458333333333,
      "grad_norm": 2.052233934402466,
      "learning_rate": 1.3566744595077722e-05,
      "loss": 3.5648,
      "step": 414790
    },
    {
      "epoch": 0.8641666666666666,
      "grad_norm": 2.026547908782959,
      "learning_rate": 1.3562647837334095e-05,
      "loss": 3.4167,
      "step": 414800
    },
    {
      "epoch": 0.8641875,
      "grad_norm": 2.6183125972747803,
      "learning_rate": 1.355855166894585e-05,
      "loss": 3.4556,
      "step": 414810
    },
    {
      "epoch": 0.8642083333333334,
      "grad_norm": 2.4305789470672607,
      "learning_rate": 1.3554456089930687e-05,
      "loss": 3.3687,
      "step": 414820
    },
    {
      "epoch": 0.8642291666666667,
      "grad_norm": 1.9059048891067505,
      "learning_rate": 1.3550361100306245e-05,
      "loss": 3.5133,
      "step": 414830
    },
    {
      "epoch": 0.86425,
      "grad_norm": 2.4265623092651367,
      "learning_rate": 1.3546266700090191e-05,
      "loss": 3.4273,
      "step": 414840
    },
    {
      "epoch": 0.8642708333333333,
      "grad_norm": 2.778099536895752,
      "learning_rate": 1.3542172889300312e-05,
      "loss": 3.3937,
      "step": 414850
    },
    {
      "epoch": 0.8642916666666667,
      "grad_norm": 2.3972036838531494,
      "learning_rate": 1.353807966795421e-05,
      "loss": 3.2879,
      "step": 414860
    },
    {
      "epoch": 0.8643125,
      "grad_norm": 2.4023120403289795,
      "learning_rate": 1.3533987036069587e-05,
      "loss": 3.4585,
      "step": 414870
    },
    {
      "epoch": 0.8643333333333333,
      "grad_norm": 2.1485023498535156,
      "learning_rate": 1.3529894993664131e-05,
      "loss": 3.4761,
      "step": 414880
    },
    {
      "epoch": 0.8643541666666666,
      "grad_norm": 2.346489906311035,
      "learning_rate": 1.3525803540755491e-05,
      "loss": 3.5044,
      "step": 414890
    },
    {
      "epoch": 0.864375,
      "grad_norm": 2.410823345184326,
      "learning_rate": 1.3521712677361375e-05,
      "loss": 3.4197,
      "step": 414900
    },
    {
      "epoch": 0.8643958333333334,
      "grad_norm": 2.7002742290496826,
      "learning_rate": 1.351762240349943e-05,
      "loss": 3.4859,
      "step": 414910
    },
    {
      "epoch": 0.8644166666666667,
      "grad_norm": 2.4661242961883545,
      "learning_rate": 1.3513532719187342e-05,
      "loss": 3.3591,
      "step": 414920
    },
    {
      "epoch": 0.8644375,
      "grad_norm": 2.422516107559204,
      "learning_rate": 1.350944362444275e-05,
      "loss": 3.434,
      "step": 414930
    },
    {
      "epoch": 0.8644583333333333,
      "grad_norm": 2.4962399005889893,
      "learning_rate": 1.3505355119283357e-05,
      "loss": 3.3533,
      "step": 414940
    },
    {
      "epoch": 0.8644791666666667,
      "grad_norm": 2.4761030673980713,
      "learning_rate": 1.350126720372678e-05,
      "loss": 3.3627,
      "step": 414950
    },
    {
      "epoch": 0.8645,
      "grad_norm": 2.813870906829834,
      "learning_rate": 1.3497179877790703e-05,
      "loss": 3.4515,
      "step": 414960
    },
    {
      "epoch": 0.8645208333333333,
      "grad_norm": 2.7635416984558105,
      "learning_rate": 1.3493093141492783e-05,
      "loss": 3.4807,
      "step": 414970
    },
    {
      "epoch": 0.8645416666666667,
      "grad_norm": 2.560293436050415,
      "learning_rate": 1.3489006994850671e-05,
      "loss": 3.4789,
      "step": 414980
    },
    {
      "epoch": 0.8645625,
      "grad_norm": 2.548269271850586,
      "learning_rate": 1.3484921437882018e-05,
      "loss": 3.2742,
      "step": 414990
    },
    {
      "epoch": 0.8645833333333334,
      "grad_norm": 2.6350622177124023,
      "learning_rate": 1.3480836470604461e-05,
      "loss": 3.3165,
      "step": 415000
    },
    {
      "epoch": 0.8645833333333334,
      "eval_loss": 3.524141788482666,
      "eval_runtime": 6.8707,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.437,
      "step": 415000
    },
    {
      "epoch": 0.8646041666666666,
      "grad_norm": 2.7203502655029297,
      "learning_rate": 1.3476752093035653e-05,
      "loss": 3.4219,
      "step": 415010
    },
    {
      "epoch": 0.864625,
      "grad_norm": 3.1404099464416504,
      "learning_rate": 1.347266830519323e-05,
      "loss": 3.4793,
      "step": 415020
    },
    {
      "epoch": 0.8646458333333333,
      "grad_norm": 2.8024840354919434,
      "learning_rate": 1.3468585107094842e-05,
      "loss": 3.3666,
      "step": 415030
    },
    {
      "epoch": 0.8646666666666667,
      "grad_norm": 3.509427070617676,
      "learning_rate": 1.346450249875813e-05,
      "loss": 3.4769,
      "step": 415040
    },
    {
      "epoch": 0.8646875,
      "grad_norm": 4.449719429016113,
      "learning_rate": 1.3460420480200724e-05,
      "loss": 3.3599,
      "step": 415050
    },
    {
      "epoch": 0.8647083333333333,
      "grad_norm": 2.5314218997955322,
      "learning_rate": 1.3456339051440245e-05,
      "loss": 3.3495,
      "step": 415060
    },
    {
      "epoch": 0.8647291666666667,
      "grad_norm": 3.3626725673675537,
      "learning_rate": 1.3452258212494332e-05,
      "loss": 3.4297,
      "step": 415070
    },
    {
      "epoch": 0.86475,
      "grad_norm": 2.175769329071045,
      "learning_rate": 1.3448177963380619e-05,
      "loss": 3.5983,
      "step": 415080
    },
    {
      "epoch": 0.8647708333333334,
      "grad_norm": 2.156780481338501,
      "learning_rate": 1.3444098304116741e-05,
      "loss": 3.503,
      "step": 415090
    },
    {
      "epoch": 0.8647916666666666,
      "grad_norm": 2.7923343181610107,
      "learning_rate": 1.3440019234720284e-05,
      "loss": 3.5934,
      "step": 415100
    },
    {
      "epoch": 0.8648125,
      "grad_norm": 2.2594218254089355,
      "learning_rate": 1.3435940755208935e-05,
      "loss": 3.4005,
      "step": 415110
    },
    {
      "epoch": 0.8648333333333333,
      "grad_norm": 2.389949321746826,
      "learning_rate": 1.3431862865600196e-05,
      "loss": 3.4486,
      "step": 415120
    },
    {
      "epoch": 0.8648541666666667,
      "grad_norm": 2.6358115673065186,
      "learning_rate": 1.3427785565911819e-05,
      "loss": 3.4366,
      "step": 415130
    },
    {
      "epoch": 0.864875,
      "grad_norm": 2.7691969871520996,
      "learning_rate": 1.3423708856161308e-05,
      "loss": 3.4209,
      "step": 415140
    },
    {
      "epoch": 0.8648958333333333,
      "grad_norm": 2.374687910079956,
      "learning_rate": 1.3419632736366297e-05,
      "loss": 3.4143,
      "step": 415150
    },
    {
      "epoch": 0.8649166666666667,
      "grad_norm": 2.1198105812072754,
      "learning_rate": 1.3415557206544459e-05,
      "loss": 3.3749,
      "step": 415160
    },
    {
      "epoch": 0.8649375,
      "grad_norm": 3.1460530757904053,
      "learning_rate": 1.3411482266713325e-05,
      "loss": 3.5002,
      "step": 415170
    },
    {
      "epoch": 0.8649583333333334,
      "grad_norm": 3.3477299213409424,
      "learning_rate": 1.34074079168905e-05,
      "loss": 3.3481,
      "step": 415180
    },
    {
      "epoch": 0.8649791666666666,
      "grad_norm": 2.2250616550445557,
      "learning_rate": 1.3403334157093653e-05,
      "loss": 3.447,
      "step": 415190
    },
    {
      "epoch": 0.865,
      "grad_norm": 2.361781597137451,
      "learning_rate": 1.3399260987340304e-05,
      "loss": 3.4571,
      "step": 415200
    },
    {
      "epoch": 0.8650208333333333,
      "grad_norm": 2.783618688583374,
      "learning_rate": 1.3395188407648056e-05,
      "loss": 3.3092,
      "step": 415210
    },
    {
      "epoch": 0.8650416666666667,
      "grad_norm": 2.052983522415161,
      "learning_rate": 1.3391116418034575e-05,
      "loss": 3.5341,
      "step": 415220
    },
    {
      "epoch": 0.8650625,
      "grad_norm": 3.4763171672821045,
      "learning_rate": 1.3387045018517384e-05,
      "loss": 3.3521,
      "step": 415230
    },
    {
      "epoch": 0.8650833333333333,
      "grad_norm": 2.1167819499969482,
      "learning_rate": 1.3382974209114033e-05,
      "loss": 3.498,
      "step": 415240
    },
    {
      "epoch": 0.8651041666666667,
      "grad_norm": 2.520453929901123,
      "learning_rate": 1.3378903989842228e-05,
      "loss": 3.3334,
      "step": 415250
    },
    {
      "epoch": 0.865125,
      "grad_norm": 3.2638959884643555,
      "learning_rate": 1.3374834360719449e-05,
      "loss": 3.3989,
      "step": 415260
    },
    {
      "epoch": 0.8651458333333333,
      "grad_norm": 2.5039279460906982,
      "learning_rate": 1.3370765321763305e-05,
      "loss": 3.3925,
      "step": 415270
    },
    {
      "epoch": 0.8651666666666666,
      "grad_norm": 2.157881259918213,
      "learning_rate": 1.3366696872991362e-05,
      "loss": 3.4855,
      "step": 415280
    },
    {
      "epoch": 0.8651875,
      "grad_norm": 3.2352893352508545,
      "learning_rate": 1.3362629014421223e-05,
      "loss": 3.6756,
      "step": 415290
    },
    {
      "epoch": 0.8652083333333334,
      "grad_norm": 2.5533199310302734,
      "learning_rate": 1.3358561746070423e-05,
      "loss": 3.3827,
      "step": 415300
    },
    {
      "epoch": 0.8652291666666667,
      "grad_norm": 2.5510315895080566,
      "learning_rate": 1.3354495067956566e-05,
      "loss": 3.4702,
      "step": 415310
    },
    {
      "epoch": 0.86525,
      "grad_norm": 3.2248287200927734,
      "learning_rate": 1.3350428980097188e-05,
      "loss": 3.4354,
      "step": 415320
    },
    {
      "epoch": 0.8652708333333333,
      "grad_norm": 2.118464946746826,
      "learning_rate": 1.3346363482509876e-05,
      "loss": 3.3612,
      "step": 415330
    },
    {
      "epoch": 0.8652916666666667,
      "grad_norm": 2.5044078826904297,
      "learning_rate": 1.3342298575212179e-05,
      "loss": 3.3611,
      "step": 415340
    },
    {
      "epoch": 0.8653125,
      "grad_norm": 2.9185056686401367,
      "learning_rate": 1.333823425822167e-05,
      "loss": 3.5917,
      "step": 415350
    },
    {
      "epoch": 0.8653333333333333,
      "grad_norm": 2.2800910472869873,
      "learning_rate": 1.3334170531555882e-05,
      "loss": 3.4227,
      "step": 415360
    },
    {
      "epoch": 0.8653541666666666,
      "grad_norm": 2.637044668197632,
      "learning_rate": 1.3330107395232387e-05,
      "loss": 3.3119,
      "step": 415370
    },
    {
      "epoch": 0.865375,
      "grad_norm": 3.036205530166626,
      "learning_rate": 1.3326044849268736e-05,
      "loss": 3.4238,
      "step": 415380
    },
    {
      "epoch": 0.8653958333333334,
      "grad_norm": 2.474447011947632,
      "learning_rate": 1.3321982893682465e-05,
      "loss": 3.3831,
      "step": 415390
    },
    {
      "epoch": 0.8654166666666666,
      "grad_norm": 3.1622862815856934,
      "learning_rate": 1.3317921528491126e-05,
      "loss": 3.4787,
      "step": 415400
    },
    {
      "epoch": 0.8654375,
      "grad_norm": 3.1601500511169434,
      "learning_rate": 1.3313860753712258e-05,
      "loss": 3.3939,
      "step": 415410
    },
    {
      "epoch": 0.8654583333333333,
      "grad_norm": 2.751089096069336,
      "learning_rate": 1.3309800569363444e-05,
      "loss": 3.3555,
      "step": 415420
    },
    {
      "epoch": 0.8654791666666667,
      "grad_norm": 2.355015516281128,
      "learning_rate": 1.330574097546212e-05,
      "loss": 3.3732,
      "step": 415430
    },
    {
      "epoch": 0.8655,
      "grad_norm": 3.081670045852661,
      "learning_rate": 1.3301681972025925e-05,
      "loss": 3.3975,
      "step": 415440
    },
    {
      "epoch": 0.8655208333333333,
      "grad_norm": 2.1866085529327393,
      "learning_rate": 1.329762355907239e-05,
      "loss": 3.3565,
      "step": 415450
    },
    {
      "epoch": 0.8655416666666667,
      "grad_norm": 2.3198390007019043,
      "learning_rate": 1.3293565736618938e-05,
      "loss": 3.4626,
      "step": 415460
    },
    {
      "epoch": 0.8655625,
      "grad_norm": 3.565997838973999,
      "learning_rate": 1.3289508504683205e-05,
      "loss": 3.4797,
      "step": 415470
    },
    {
      "epoch": 0.8655833333333334,
      "grad_norm": 2.4318478107452393,
      "learning_rate": 1.328545186328271e-05,
      "loss": 3.4291,
      "step": 415480
    },
    {
      "epoch": 0.8656041666666666,
      "grad_norm": 2.938642978668213,
      "learning_rate": 1.3281395812434886e-05,
      "loss": 3.4526,
      "step": 415490
    },
    {
      "epoch": 0.865625,
      "grad_norm": 2.3624744415283203,
      "learning_rate": 1.327734035215739e-05,
      "loss": 3.4023,
      "step": 415500
    },
    {
      "epoch": 0.8656458333333333,
      "grad_norm": 3.4154090881347656,
      "learning_rate": 1.3273285482467622e-05,
      "loss": 3.6302,
      "step": 415510
    },
    {
      "epoch": 0.8656666666666667,
      "grad_norm": 2.5655152797698975,
      "learning_rate": 1.3269231203383119e-05,
      "loss": 3.3872,
      "step": 415520
    },
    {
      "epoch": 0.8656875,
      "grad_norm": 2.6850249767303467,
      "learning_rate": 1.3265177514921466e-05,
      "loss": 3.4984,
      "step": 415530
    },
    {
      "epoch": 0.8657083333333333,
      "grad_norm": 2.5717885494232178,
      "learning_rate": 1.3261124417100084e-05,
      "loss": 3.3941,
      "step": 415540
    },
    {
      "epoch": 0.8657291666666667,
      "grad_norm": 2.854541540145874,
      "learning_rate": 1.3257071909936507e-05,
      "loss": 3.5271,
      "step": 415550
    },
    {
      "epoch": 0.86575,
      "grad_norm": 2.8826591968536377,
      "learning_rate": 1.3253019993448305e-05,
      "loss": 3.4332,
      "step": 415560
    },
    {
      "epoch": 0.8657708333333334,
      "grad_norm": 2.755187749862671,
      "learning_rate": 1.3248968667652898e-05,
      "loss": 3.4618,
      "step": 415570
    },
    {
      "epoch": 0.8657916666666666,
      "grad_norm": 2.8461554050445557,
      "learning_rate": 1.3244917932567788e-05,
      "loss": 3.3485,
      "step": 415580
    },
    {
      "epoch": 0.8658125,
      "grad_norm": 2.5997793674468994,
      "learning_rate": 1.3240867788210563e-05,
      "loss": 3.43,
      "step": 415590
    },
    {
      "epoch": 0.8658333333333333,
      "grad_norm": 2.2418816089630127,
      "learning_rate": 1.3236818234598624e-05,
      "loss": 3.4267,
      "step": 415600
    },
    {
      "epoch": 0.8658541666666667,
      "grad_norm": 2.5418975353240967,
      "learning_rate": 1.3232769271749472e-05,
      "loss": 3.3,
      "step": 415610
    },
    {
      "epoch": 0.865875,
      "grad_norm": 3.706789493560791,
      "learning_rate": 1.3228720899680679e-05,
      "loss": 3.4059,
      "step": 415620
    },
    {
      "epoch": 0.8658958333333333,
      "grad_norm": 2.2142810821533203,
      "learning_rate": 1.322467311840963e-05,
      "loss": 3.4122,
      "step": 415630
    },
    {
      "epoch": 0.8659166666666667,
      "grad_norm": 2.763167381286621,
      "learning_rate": 1.3220625927953859e-05,
      "loss": 3.4481,
      "step": 415640
    },
    {
      "epoch": 0.8659375,
      "grad_norm": 2.850874900817871,
      "learning_rate": 1.3216579328330856e-05,
      "loss": 3.3815,
      "step": 415650
    },
    {
      "epoch": 0.8659583333333334,
      "grad_norm": 2.8825857639312744,
      "learning_rate": 1.3212533319558071e-05,
      "loss": 3.388,
      "step": 415660
    },
    {
      "epoch": 0.8659791666666666,
      "grad_norm": 2.6916537284851074,
      "learning_rate": 1.3208487901653008e-05,
      "loss": 3.4091,
      "step": 415670
    },
    {
      "epoch": 0.866,
      "grad_norm": 3.5943329334259033,
      "learning_rate": 1.3204443074633136e-05,
      "loss": 3.3193,
      "step": 415680
    },
    {
      "epoch": 0.8660208333333334,
      "grad_norm": 2.2028493881225586,
      "learning_rate": 1.3200398838515908e-05,
      "loss": 3.4715,
      "step": 415690
    },
    {
      "epoch": 0.8660416666666667,
      "grad_norm": 2.565345287322998,
      "learning_rate": 1.3196355193318826e-05,
      "loss": 3.5422,
      "step": 415700
    },
    {
      "epoch": 0.8660625,
      "grad_norm": 2.5387320518493652,
      "learning_rate": 1.3192312139059325e-05,
      "loss": 3.3935,
      "step": 415710
    },
    {
      "epoch": 0.8660833333333333,
      "grad_norm": 2.449450969696045,
      "learning_rate": 1.3188269675754892e-05,
      "loss": 3.4292,
      "step": 415720
    },
    {
      "epoch": 0.8661041666666667,
      "grad_norm": 2.465386152267456,
      "learning_rate": 1.3184227803422963e-05,
      "loss": 3.3441,
      "step": 415730
    },
    {
      "epoch": 0.866125,
      "grad_norm": 2.0962233543395996,
      "learning_rate": 1.3180186522081027e-05,
      "loss": 3.4167,
      "step": 415740
    },
    {
      "epoch": 0.8661458333333333,
      "grad_norm": 2.7827227115631104,
      "learning_rate": 1.3176145831746532e-05,
      "loss": 3.5182,
      "step": 415750
    },
    {
      "epoch": 0.8661666666666666,
      "grad_norm": 2.541595220565796,
      "learning_rate": 1.317210573243695e-05,
      "loss": 3.4846,
      "step": 415760
    },
    {
      "epoch": 0.8661875,
      "grad_norm": 2.704127073287964,
      "learning_rate": 1.3168066224169665e-05,
      "loss": 3.4203,
      "step": 415770
    },
    {
      "epoch": 0.8662083333333334,
      "grad_norm": 2.389641761779785,
      "learning_rate": 1.3164027306962182e-05,
      "loss": 3.5127,
      "step": 415780
    },
    {
      "epoch": 0.8662291666666667,
      "grad_norm": 3.330524444580078,
      "learning_rate": 1.3159988980831988e-05,
      "loss": 3.3743,
      "step": 415790
    },
    {
      "epoch": 0.86625,
      "grad_norm": 2.2654335498809814,
      "learning_rate": 1.3155951245796398e-05,
      "loss": 3.3491,
      "step": 415800
    },
    {
      "epoch": 0.8662708333333333,
      "grad_norm": 2.912642478942871,
      "learning_rate": 1.3151914101872985e-05,
      "loss": 3.4239,
      "step": 415810
    },
    {
      "epoch": 0.8662916666666667,
      "grad_norm": 3.6351048946380615,
      "learning_rate": 1.3147877549079134e-05,
      "loss": 3.3583,
      "step": 415820
    },
    {
      "epoch": 0.8663125,
      "grad_norm": 2.600311517715454,
      "learning_rate": 1.3143841587432246e-05,
      "loss": 3.4005,
      "step": 415830
    },
    {
      "epoch": 0.8663333333333333,
      "grad_norm": 2.986722469329834,
      "learning_rate": 1.313980621694981e-05,
      "loss": 3.3776,
      "step": 415840
    },
    {
      "epoch": 0.8663541666666666,
      "grad_norm": 2.5515246391296387,
      "learning_rate": 1.3135771437649279e-05,
      "loss": 3.437,
      "step": 415850
    },
    {
      "epoch": 0.866375,
      "grad_norm": 2.80391001701355,
      "learning_rate": 1.313173724954797e-05,
      "loss": 3.349,
      "step": 415860
    },
    {
      "epoch": 0.8663958333333334,
      "grad_norm": 2.390714168548584,
      "learning_rate": 1.3127703652663434e-05,
      "loss": 3.3886,
      "step": 415870
    },
    {
      "epoch": 0.8664166666666666,
      "grad_norm": 2.5603485107421875,
      "learning_rate": 1.312367064701303e-05,
      "loss": 3.4216,
      "step": 415880
    },
    {
      "epoch": 0.8664375,
      "grad_norm": 2.350459098815918,
      "learning_rate": 1.3119638232614154e-05,
      "loss": 3.5215,
      "step": 415890
    },
    {
      "epoch": 0.8664583333333333,
      "grad_norm": 2.294743061065674,
      "learning_rate": 1.3115606409484314e-05,
      "loss": 3.4037,
      "step": 415900
    },
    {
      "epoch": 0.8664791666666667,
      "grad_norm": 2.4219250679016113,
      "learning_rate": 1.3111575177640827e-05,
      "loss": 3.4325,
      "step": 415910
    },
    {
      "epoch": 0.8665,
      "grad_norm": 2.3511228561401367,
      "learning_rate": 1.3107544537101144e-05,
      "loss": 3.5185,
      "step": 415920
    },
    {
      "epoch": 0.8665208333333333,
      "grad_norm": 2.309025764465332,
      "learning_rate": 1.3103514487882738e-05,
      "loss": 3.5614,
      "step": 415930
    },
    {
      "epoch": 0.8665416666666667,
      "grad_norm": 2.605034828186035,
      "learning_rate": 1.3099485030002926e-05,
      "loss": 3.4539,
      "step": 415940
    },
    {
      "epoch": 0.8665625,
      "grad_norm": 3.2606959342956543,
      "learning_rate": 1.3095456163479129e-05,
      "loss": 3.5439,
      "step": 415950
    },
    {
      "epoch": 0.8665833333333334,
      "grad_norm": 2.576746702194214,
      "learning_rate": 1.3091427888328814e-05,
      "loss": 3.4611,
      "step": 415960
    },
    {
      "epoch": 0.8666041666666666,
      "grad_norm": 2.359724283218384,
      "learning_rate": 1.308740020456932e-05,
      "loss": 3.4555,
      "step": 415970
    },
    {
      "epoch": 0.866625,
      "grad_norm": 2.2945396900177,
      "learning_rate": 1.3083373112218049e-05,
      "loss": 3.3357,
      "step": 415980
    },
    {
      "epoch": 0.8666458333333333,
      "grad_norm": 2.5908782482147217,
      "learning_rate": 1.3079346611292436e-05,
      "loss": 3.5664,
      "step": 415990
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 2.178342580795288,
      "learning_rate": 1.307532070180985e-05,
      "loss": 3.632,
      "step": 416000
    },
    {
      "epoch": 0.8666666666666667,
      "eval_loss": 3.5219550132751465,
      "eval_runtime": 6.8211,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.44,
      "step": 416000
    },
    {
      "epoch": 0.8666875,
      "grad_norm": 2.185041904449463,
      "learning_rate": 1.3071295383787661e-05,
      "loss": 3.4185,
      "step": 416010
    },
    {
      "epoch": 0.8667083333333333,
      "grad_norm": 2.630481481552124,
      "learning_rate": 1.306727065724329e-05,
      "loss": 3.5209,
      "step": 416020
    },
    {
      "epoch": 0.8667291666666667,
      "grad_norm": 2.31626033782959,
      "learning_rate": 1.3063246522194087e-05,
      "loss": 3.5232,
      "step": 416030
    },
    {
      "epoch": 0.86675,
      "grad_norm": 2.653306007385254,
      "learning_rate": 1.3059222978657475e-05,
      "loss": 3.3589,
      "step": 416040
    },
    {
      "epoch": 0.8667708333333334,
      "grad_norm": 2.6897335052490234,
      "learning_rate": 1.3055200026650802e-05,
      "loss": 3.6051,
      "step": 416050
    },
    {
      "epoch": 0.8667916666666666,
      "grad_norm": 3.3035905361175537,
      "learning_rate": 1.3051177666191476e-05,
      "loss": 3.3983,
      "step": 416060
    },
    {
      "epoch": 0.8668125,
      "grad_norm": 2.7112343311309814,
      "learning_rate": 1.3047155897296829e-05,
      "loss": 3.4296,
      "step": 416070
    },
    {
      "epoch": 0.8668333333333333,
      "grad_norm": 2.9567646980285645,
      "learning_rate": 1.3043134719984284e-05,
      "loss": 3.3879,
      "step": 416080
    },
    {
      "epoch": 0.8668541666666667,
      "grad_norm": 2.250041961669922,
      "learning_rate": 1.3039114134271172e-05,
      "loss": 3.5105,
      "step": 416090
    },
    {
      "epoch": 0.866875,
      "grad_norm": 2.2652695178985596,
      "learning_rate": 1.3035094140174868e-05,
      "loss": 3.468,
      "step": 416100
    },
    {
      "epoch": 0.8668958333333333,
      "grad_norm": 2.260749578475952,
      "learning_rate": 1.3031074737712754e-05,
      "loss": 3.5699,
      "step": 416110
    },
    {
      "epoch": 0.8669166666666667,
      "grad_norm": 2.2071726322174072,
      "learning_rate": 1.3027055926902186e-05,
      "loss": 3.4068,
      "step": 416120
    },
    {
      "epoch": 0.8669375,
      "grad_norm": 3.4600884914398193,
      "learning_rate": 1.302303770776053e-05,
      "loss": 3.4018,
      "step": 416130
    },
    {
      "epoch": 0.8669583333333334,
      "grad_norm": 3.434030055999756,
      "learning_rate": 1.3019020080305093e-05,
      "loss": 3.3781,
      "step": 416140
    },
    {
      "epoch": 0.8669791666666666,
      "grad_norm": 3.033215045928955,
      "learning_rate": 1.301500304455329e-05,
      "loss": 3.4507,
      "step": 416150
    },
    {
      "epoch": 0.867,
      "grad_norm": 2.682471990585327,
      "learning_rate": 1.3010986600522478e-05,
      "loss": 3.31,
      "step": 416160
    },
    {
      "epoch": 0.8670208333333334,
      "grad_norm": 2.746196746826172,
      "learning_rate": 1.3006970748229922e-05,
      "loss": 3.4616,
      "step": 416170
    },
    {
      "epoch": 0.8670416666666667,
      "grad_norm": 4.410624027252197,
      "learning_rate": 1.3002955487693063e-05,
      "loss": 3.421,
      "step": 416180
    },
    {
      "epoch": 0.8670625,
      "grad_norm": 3.0416882038116455,
      "learning_rate": 1.2998940818929215e-05,
      "loss": 3.3982,
      "step": 416190
    },
    {
      "epoch": 0.8670833333333333,
      "grad_norm": 2.6880106925964355,
      "learning_rate": 1.2994926741955685e-05,
      "loss": 3.3902,
      "step": 416200
    },
    {
      "epoch": 0.8671041666666667,
      "grad_norm": 2.7257425785064697,
      "learning_rate": 1.299091325678986e-05,
      "loss": 3.4402,
      "step": 416210
    },
    {
      "epoch": 0.867125,
      "grad_norm": 2.622227430343628,
      "learning_rate": 1.298690036344907e-05,
      "loss": 3.528,
      "step": 416220
    },
    {
      "epoch": 0.8671458333333333,
      "grad_norm": 3.1763274669647217,
      "learning_rate": 1.2982888061950609e-05,
      "loss": 3.3305,
      "step": 416230
    },
    {
      "epoch": 0.8671666666666666,
      "grad_norm": 3.1843693256378174,
      "learning_rate": 1.297887635231184e-05,
      "loss": 3.3254,
      "step": 416240
    },
    {
      "epoch": 0.8671875,
      "grad_norm": 2.708440065383911,
      "learning_rate": 1.2974865234550136e-05,
      "loss": 3.404,
      "step": 416250
    },
    {
      "epoch": 0.8672083333333334,
      "grad_norm": 3.1835899353027344,
      "learning_rate": 1.2970854708682698e-05,
      "loss": 3.3046,
      "step": 416260
    },
    {
      "epoch": 0.8672291666666667,
      "grad_norm": 3.963327646255493,
      "learning_rate": 1.2966844774726997e-05,
      "loss": 3.4562,
      "step": 416270
    },
    {
      "epoch": 0.86725,
      "grad_norm": 3.3793749809265137,
      "learning_rate": 1.2962835432700269e-05,
      "loss": 3.4787,
      "step": 416280
    },
    {
      "epoch": 0.8672708333333333,
      "grad_norm": 2.563872814178467,
      "learning_rate": 1.2958826682619834e-05,
      "loss": 3.4035,
      "step": 416290
    },
    {
      "epoch": 0.8672916666666667,
      "grad_norm": 2.1194193363189697,
      "learning_rate": 1.2954818524503024e-05,
      "loss": 3.5303,
      "step": 416300
    },
    {
      "epoch": 0.8673125,
      "grad_norm": 2.4185245037078857,
      "learning_rate": 1.2950810958367146e-05,
      "loss": 3.457,
      "step": 416310
    },
    {
      "epoch": 0.8673333333333333,
      "grad_norm": 3.0327908992767334,
      "learning_rate": 1.2946803984229521e-05,
      "loss": 3.4065,
      "step": 416320
    },
    {
      "epoch": 0.8673541666666666,
      "grad_norm": 2.467996597290039,
      "learning_rate": 1.2942797602107463e-05,
      "loss": 3.4196,
      "step": 416330
    },
    {
      "epoch": 0.867375,
      "grad_norm": 3.2782390117645264,
      "learning_rate": 1.2938791812018263e-05,
      "loss": 3.3907,
      "step": 416340
    },
    {
      "epoch": 0.8673958333333334,
      "grad_norm": 3.6939938068389893,
      "learning_rate": 1.293478661397922e-05,
      "loss": 3.3255,
      "step": 416350
    },
    {
      "epoch": 0.8674166666666666,
      "grad_norm": 2.9323630332946777,
      "learning_rate": 1.2930782008007657e-05,
      "loss": 3.4803,
      "step": 416360
    },
    {
      "epoch": 0.8674375,
      "grad_norm": 3.110323905944824,
      "learning_rate": 1.2926777994120857e-05,
      "loss": 3.4316,
      "step": 416370
    },
    {
      "epoch": 0.8674583333333333,
      "grad_norm": 2.777552366256714,
      "learning_rate": 1.2922774572336108e-05,
      "loss": 3.4766,
      "step": 416380
    },
    {
      "epoch": 0.8674791666666667,
      "grad_norm": 2.319077491760254,
      "learning_rate": 1.291877174267073e-05,
      "loss": 3.4469,
      "step": 416390
    },
    {
      "epoch": 0.8675,
      "grad_norm": 2.3300695419311523,
      "learning_rate": 1.2914769505141992e-05,
      "loss": 3.4877,
      "step": 416400
    },
    {
      "epoch": 0.8675208333333333,
      "grad_norm": 2.973175287246704,
      "learning_rate": 1.291076785976718e-05,
      "loss": 3.467,
      "step": 416410
    },
    {
      "epoch": 0.8675416666666667,
      "grad_norm": 2.3426990509033203,
      "learning_rate": 1.2906766806563595e-05,
      "loss": 3.4977,
      "step": 416420
    },
    {
      "epoch": 0.8675625,
      "grad_norm": 2.425140380859375,
      "learning_rate": 1.290276634554851e-05,
      "loss": 3.4237,
      "step": 416430
    },
    {
      "epoch": 0.8675833333333334,
      "grad_norm": 2.8186604976654053,
      "learning_rate": 1.2898766476739209e-05,
      "loss": 3.3332,
      "step": 416440
    },
    {
      "epoch": 0.8676041666666666,
      "grad_norm": 4.260015964508057,
      "learning_rate": 1.2894767200152978e-05,
      "loss": 3.3416,
      "step": 416450
    },
    {
      "epoch": 0.867625,
      "grad_norm": 3.611828088760376,
      "learning_rate": 1.289076851580707e-05,
      "loss": 3.3908,
      "step": 416460
    },
    {
      "epoch": 0.8676458333333333,
      "grad_norm": 3.0715420246124268,
      "learning_rate": 1.2886770423718774e-05,
      "loss": 3.4002,
      "step": 416470
    },
    {
      "epoch": 0.8676666666666667,
      "grad_norm": 2.4561896324157715,
      "learning_rate": 1.2882772923905354e-05,
      "loss": 3.4683,
      "step": 416480
    },
    {
      "epoch": 0.8676875,
      "grad_norm": 2.26290225982666,
      "learning_rate": 1.2878776016384084e-05,
      "loss": 3.4963,
      "step": 416490
    },
    {
      "epoch": 0.8677083333333333,
      "grad_norm": 3.119821548461914,
      "learning_rate": 1.2874779701172249e-05,
      "loss": 3.5207,
      "step": 416500
    },
    {
      "epoch": 0.8677291666666667,
      "grad_norm": 3.0021042823791504,
      "learning_rate": 1.2870783978287036e-05,
      "loss": 3.4522,
      "step": 416510
    },
    {
      "epoch": 0.86775,
      "grad_norm": 2.2655842304229736,
      "learning_rate": 1.2866788847745779e-05,
      "loss": 3.4324,
      "step": 416520
    },
    {
      "epoch": 0.8677708333333334,
      "grad_norm": 2.1841211318969727,
      "learning_rate": 1.2862794309565733e-05,
      "loss": 3.588,
      "step": 416530
    },
    {
      "epoch": 0.8677916666666666,
      "grad_norm": 2.1228978633880615,
      "learning_rate": 1.28588003637641e-05,
      "loss": 3.4877,
      "step": 416540
    },
    {
      "epoch": 0.8678125,
      "grad_norm": 3.137911319732666,
      "learning_rate": 1.2854807010358181e-05,
      "loss": 3.4055,
      "step": 416550
    },
    {
      "epoch": 0.8678333333333333,
      "grad_norm": 2.6739110946655273,
      "learning_rate": 1.2850814249365231e-05,
      "loss": 3.5372,
      "step": 416560
    },
    {
      "epoch": 0.8678541666666667,
      "grad_norm": 2.224447727203369,
      "learning_rate": 1.2846822080802438e-05,
      "loss": 3.5878,
      "step": 416570
    },
    {
      "epoch": 0.867875,
      "grad_norm": 2.560692071914673,
      "learning_rate": 1.2842830504687101e-05,
      "loss": 3.3612,
      "step": 416580
    },
    {
      "epoch": 0.8678958333333333,
      "grad_norm": 2.9724326133728027,
      "learning_rate": 1.283883952103646e-05,
      "loss": 3.3992,
      "step": 416590
    },
    {
      "epoch": 0.8679166666666667,
      "grad_norm": 2.6074910163879395,
      "learning_rate": 1.283484912986773e-05,
      "loss": 3.3334,
      "step": 416600
    },
    {
      "epoch": 0.8679375,
      "grad_norm": 2.5313339233398438,
      "learning_rate": 1.2830859331198135e-05,
      "loss": 3.315,
      "step": 416610
    },
    {
      "epoch": 0.8679583333333334,
      "grad_norm": 2.4147775173187256,
      "learning_rate": 1.2826870125044974e-05,
      "loss": 3.4372,
      "step": 416620
    },
    {
      "epoch": 0.8679791666666666,
      "grad_norm": 2.4339733123779297,
      "learning_rate": 1.282288151142542e-05,
      "loss": 3.3975,
      "step": 416630
    },
    {
      "epoch": 0.868,
      "grad_norm": 3.356252431869507,
      "learning_rate": 1.2818893490356707e-05,
      "loss": 3.3635,
      "step": 416640
    },
    {
      "epoch": 0.8680208333333334,
      "grad_norm": 2.3673667907714844,
      "learning_rate": 1.281490606185609e-05,
      "loss": 3.6718,
      "step": 416650
    },
    {
      "epoch": 0.8680416666666667,
      "grad_norm": 2.1646182537078857,
      "learning_rate": 1.2810919225940768e-05,
      "loss": 3.3137,
      "step": 416660
    },
    {
      "epoch": 0.8680625,
      "grad_norm": 2.128434181213379,
      "learning_rate": 1.2806932982627965e-05,
      "loss": 3.406,
      "step": 416670
    },
    {
      "epoch": 0.8680833333333333,
      "grad_norm": 2.9394235610961914,
      "learning_rate": 1.2802947331934915e-05,
      "loss": 3.3977,
      "step": 416680
    },
    {
      "epoch": 0.8681041666666667,
      "grad_norm": 2.33719539642334,
      "learning_rate": 1.2798962273878822e-05,
      "loss": 3.4231,
      "step": 416690
    },
    {
      "epoch": 0.868125,
      "grad_norm": 2.553529977798462,
      "learning_rate": 1.279497780847692e-05,
      "loss": 3.5279,
      "step": 416700
    },
    {
      "epoch": 0.8681458333333333,
      "grad_norm": 2.4960086345672607,
      "learning_rate": 1.279099393574638e-05,
      "loss": 3.46,
      "step": 416710
    },
    {
      "epoch": 0.8681666666666666,
      "grad_norm": 3.4559035301208496,
      "learning_rate": 1.2787010655704454e-05,
      "loss": 3.4368,
      "step": 416720
    },
    {
      "epoch": 0.8681875,
      "grad_norm": 2.859269857406616,
      "learning_rate": 1.2783027968368315e-05,
      "loss": 3.403,
      "step": 416730
    },
    {
      "epoch": 0.8682083333333334,
      "grad_norm": 3.061955213546753,
      "learning_rate": 1.2779045873755194e-05,
      "loss": 3.6003,
      "step": 416740
    },
    {
      "epoch": 0.8682291666666667,
      "grad_norm": 2.967621326446533,
      "learning_rate": 1.2775064371882266e-05,
      "loss": 3.5197,
      "step": 416750
    },
    {
      "epoch": 0.86825,
      "grad_norm": 2.2483718395233154,
      "learning_rate": 1.2771083462766763e-05,
      "loss": 3.4866,
      "step": 416760
    },
    {
      "epoch": 0.8682708333333333,
      "grad_norm": 2.56782603263855,
      "learning_rate": 1.2767103146425839e-05,
      "loss": 3.4616,
      "step": 416770
    },
    {
      "epoch": 0.8682916666666667,
      "grad_norm": 2.874988317489624,
      "learning_rate": 1.2763123422876714e-05,
      "loss": 3.3543,
      "step": 416780
    },
    {
      "epoch": 0.8683125,
      "grad_norm": 2.3643250465393066,
      "learning_rate": 1.2759144292136574e-05,
      "loss": 3.4026,
      "step": 416790
    },
    {
      "epoch": 0.8683333333333333,
      "grad_norm": 2.3894708156585693,
      "learning_rate": 1.2755165754222624e-05,
      "loss": 3.3815,
      "step": 416800
    },
    {
      "epoch": 0.8683541666666666,
      "grad_norm": 3.1436774730682373,
      "learning_rate": 1.2751187809152013e-05,
      "loss": 3.6637,
      "step": 416810
    },
    {
      "epoch": 0.868375,
      "grad_norm": 2.916229248046875,
      "learning_rate": 1.2747210456941947e-05,
      "loss": 3.3021,
      "step": 416820
    },
    {
      "epoch": 0.8683958333333334,
      "grad_norm": 2.4758923053741455,
      "learning_rate": 1.2743233697609612e-05,
      "loss": 3.3507,
      "step": 416830
    },
    {
      "epoch": 0.8684166666666666,
      "grad_norm": 3.760368585586548,
      "learning_rate": 1.273925753117216e-05,
      "loss": 3.3792,
      "step": 416840
    },
    {
      "epoch": 0.8684375,
      "grad_norm": 3.734076499938965,
      "learning_rate": 1.2735281957646793e-05,
      "loss": 3.3549,
      "step": 416850
    },
    {
      "epoch": 0.8684583333333333,
      "grad_norm": 2.787900686264038,
      "learning_rate": 1.2731306977050681e-05,
      "loss": 3.4537,
      "step": 416860
    },
    {
      "epoch": 0.8684791666666667,
      "grad_norm": 3.3781728744506836,
      "learning_rate": 1.2727332589401012e-05,
      "loss": 3.5724,
      "step": 416870
    },
    {
      "epoch": 0.8685,
      "grad_norm": 3.578639268875122,
      "learning_rate": 1.2723358794714905e-05,
      "loss": 3.427,
      "step": 416880
    },
    {
      "epoch": 0.8685208333333333,
      "grad_norm": 2.3339529037475586,
      "learning_rate": 1.2719385593009512e-05,
      "loss": 3.3727,
      "step": 416890
    },
    {
      "epoch": 0.8685416666666667,
      "grad_norm": 2.7976016998291016,
      "learning_rate": 1.2715412984302104e-05,
      "loss": 3.3698,
      "step": 416900
    },
    {
      "epoch": 0.8685625,
      "grad_norm": 2.5142269134521484,
      "learning_rate": 1.2711440968609732e-05,
      "loss": 3.3041,
      "step": 416910
    },
    {
      "epoch": 0.8685833333333334,
      "grad_norm": 3.472874641418457,
      "learning_rate": 1.2707469545949567e-05,
      "loss": 3.4779,
      "step": 416920
    },
    {
      "epoch": 0.8686041666666666,
      "grad_norm": 3.0582358837127686,
      "learning_rate": 1.2703498716338844e-05,
      "loss": 3.4752,
      "step": 416930
    },
    {
      "epoch": 0.868625,
      "grad_norm": 3.1841816902160645,
      "learning_rate": 1.2699528479794634e-05,
      "loss": 3.5454,
      "step": 416940
    },
    {
      "epoch": 0.8686458333333333,
      "grad_norm": 2.3654050827026367,
      "learning_rate": 1.269555883633409e-05,
      "loss": 3.4989,
      "step": 416950
    },
    {
      "epoch": 0.8686666666666667,
      "grad_norm": 2.143768787384033,
      "learning_rate": 1.2691589785974432e-05,
      "loss": 3.4376,
      "step": 416960
    },
    {
      "epoch": 0.8686875,
      "grad_norm": 2.9460434913635254,
      "learning_rate": 1.2687621328732744e-05,
      "loss": 3.4812,
      "step": 416970
    },
    {
      "epoch": 0.8687083333333333,
      "grad_norm": 2.444680690765381,
      "learning_rate": 1.2683653464626132e-05,
      "loss": 3.4162,
      "step": 416980
    },
    {
      "epoch": 0.8687291666666667,
      "grad_norm": 2.3734607696533203,
      "learning_rate": 1.2679686193671845e-05,
      "loss": 3.5604,
      "step": 416990
    },
    {
      "epoch": 0.86875,
      "grad_norm": 2.919081211090088,
      "learning_rate": 1.267571951588694e-05,
      "loss": 3.3613,
      "step": 417000
    },
    {
      "epoch": 0.86875,
      "eval_loss": 3.527015209197998,
      "eval_runtime": 7.343,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 417000
    },
    {
      "epoch": 0.8687708333333334,
      "grad_norm": 3.2121050357818604,
      "learning_rate": 1.267175343128855e-05,
      "loss": 3.4235,
      "step": 417010
    },
    {
      "epoch": 0.8687916666666666,
      "grad_norm": 2.8109774589538574,
      "learning_rate": 1.2667787939893847e-05,
      "loss": 3.3439,
      "step": 417020
    },
    {
      "epoch": 0.8688125,
      "grad_norm": 2.287949800491333,
      "learning_rate": 1.2663823041719934e-05,
      "loss": 3.4974,
      "step": 417030
    },
    {
      "epoch": 0.8688333333333333,
      "grad_norm": 2.659681558609009,
      "learning_rate": 1.2659858736783946e-05,
      "loss": 3.5586,
      "step": 417040
    },
    {
      "epoch": 0.8688541666666667,
      "grad_norm": 3.63230037689209,
      "learning_rate": 1.2655895025103002e-05,
      "loss": 3.4152,
      "step": 417050
    },
    {
      "epoch": 0.868875,
      "grad_norm": 2.2322885990142822,
      "learning_rate": 1.2651931906694224e-05,
      "loss": 3.5195,
      "step": 417060
    },
    {
      "epoch": 0.8688958333333333,
      "grad_norm": 2.540311813354492,
      "learning_rate": 1.264796938157473e-05,
      "loss": 3.4709,
      "step": 417070
    },
    {
      "epoch": 0.8689166666666667,
      "grad_norm": 2.8641107082366943,
      "learning_rate": 1.2644007449761656e-05,
      "loss": 3.5744,
      "step": 417080
    },
    {
      "epoch": 0.8689375,
      "grad_norm": 3.3914618492126465,
      "learning_rate": 1.264004611127209e-05,
      "loss": 3.3893,
      "step": 417090
    },
    {
      "epoch": 0.8689583333333334,
      "grad_norm": 3.8593087196350098,
      "learning_rate": 1.263608536612315e-05,
      "loss": 3.3766,
      "step": 417100
    },
    {
      "epoch": 0.8689791666666666,
      "grad_norm": 2.8560523986816406,
      "learning_rate": 1.2632125214331956e-05,
      "loss": 3.426,
      "step": 417110
    },
    {
      "epoch": 0.869,
      "grad_norm": 2.922724962234497,
      "learning_rate": 1.2628165655915612e-05,
      "loss": 3.3391,
      "step": 417120
    },
    {
      "epoch": 0.8690208333333334,
      "grad_norm": 3.122990608215332,
      "learning_rate": 1.2624206690891204e-05,
      "loss": 3.6178,
      "step": 417130
    },
    {
      "epoch": 0.8690416666666667,
      "grad_norm": 2.3268258571624756,
      "learning_rate": 1.262024831927585e-05,
      "loss": 3.483,
      "step": 417140
    },
    {
      "epoch": 0.8690625,
      "grad_norm": 2.6636226177215576,
      "learning_rate": 1.2616290541086655e-05,
      "loss": 3.3736,
      "step": 417150
    },
    {
      "epoch": 0.8690833333333333,
      "grad_norm": 2.89245343208313,
      "learning_rate": 1.261233335634072e-05,
      "loss": 3.4431,
      "step": 417160
    },
    {
      "epoch": 0.8691041666666667,
      "grad_norm": 3.406830310821533,
      "learning_rate": 1.2608376765055068e-05,
      "loss": 3.601,
      "step": 417170
    },
    {
      "epoch": 0.869125,
      "grad_norm": 2.8051340579986572,
      "learning_rate": 1.2604420767246881e-05,
      "loss": 3.4246,
      "step": 417180
    },
    {
      "epoch": 0.8691458333333333,
      "grad_norm": 2.4424235820770264,
      "learning_rate": 1.2600465362933231e-05,
      "loss": 3.2642,
      "step": 417190
    },
    {
      "epoch": 0.8691666666666666,
      "grad_norm": 2.7983570098876953,
      "learning_rate": 1.259651055213114e-05,
      "loss": 3.4564,
      "step": 417200
    },
    {
      "epoch": 0.8691875,
      "grad_norm": 2.9396889209747314,
      "learning_rate": 1.2592556334857757e-05,
      "loss": 3.4642,
      "step": 417210
    },
    {
      "epoch": 0.8692083333333334,
      "grad_norm": 2.768152952194214,
      "learning_rate": 1.2588602711130152e-05,
      "loss": 3.4875,
      "step": 417220
    },
    {
      "epoch": 0.8692291666666667,
      "grad_norm": 2.63006854057312,
      "learning_rate": 1.2584649680965364e-05,
      "loss": 3.3633,
      "step": 417230
    },
    {
      "epoch": 0.86925,
      "grad_norm": 3.0315940380096436,
      "learning_rate": 1.2580697244380511e-05,
      "loss": 3.4748,
      "step": 417240
    },
    {
      "epoch": 0.8692708333333333,
      "grad_norm": 3.153311014175415,
      "learning_rate": 1.2576745401392679e-05,
      "loss": 3.3608,
      "step": 417250
    },
    {
      "epoch": 0.8692916666666667,
      "grad_norm": 3.0295920372009277,
      "learning_rate": 1.2572794152018856e-05,
      "loss": 3.3568,
      "step": 417260
    },
    {
      "epoch": 0.8693125,
      "grad_norm": 2.862253427505493,
      "learning_rate": 1.2568843496276226e-05,
      "loss": 3.4768,
      "step": 417270
    },
    {
      "epoch": 0.8693333333333333,
      "grad_norm": 2.970888614654541,
      "learning_rate": 1.2564893434181762e-05,
      "loss": 3.3386,
      "step": 417280
    },
    {
      "epoch": 0.8693541666666667,
      "grad_norm": 2.937553882598877,
      "learning_rate": 1.2560943965752529e-05,
      "loss": 3.4412,
      "step": 417290
    },
    {
      "epoch": 0.869375,
      "grad_norm": 2.568660020828247,
      "learning_rate": 1.2556995091005667e-05,
      "loss": 3.2768,
      "step": 417300
    },
    {
      "epoch": 0.8693958333333334,
      "grad_norm": 2.6667399406433105,
      "learning_rate": 1.2553046809958162e-05,
      "loss": 3.3627,
      "step": 417310
    },
    {
      "epoch": 0.8694166666666666,
      "grad_norm": 2.089017629623413,
      "learning_rate": 1.2549099122627049e-05,
      "loss": 3.3289,
      "step": 417320
    },
    {
      "epoch": 0.8694375,
      "grad_norm": 2.630143880844116,
      "learning_rate": 1.2545152029029481e-05,
      "loss": 3.5591,
      "step": 417330
    },
    {
      "epoch": 0.8694583333333333,
      "grad_norm": 2.824476718902588,
      "learning_rate": 1.254120552918243e-05,
      "loss": 3.4597,
      "step": 417340
    },
    {
      "epoch": 0.8694791666666667,
      "grad_norm": 2.941812038421631,
      "learning_rate": 1.253725962310293e-05,
      "loss": 3.4948,
      "step": 417350
    },
    {
      "epoch": 0.8695,
      "grad_norm": 4.961245059967041,
      "learning_rate": 1.2533314310808117e-05,
      "loss": 3.4727,
      "step": 417360
    },
    {
      "epoch": 0.8695208333333333,
      "grad_norm": 4.93730354309082,
      "learning_rate": 1.252936959231493e-05,
      "loss": 3.5483,
      "step": 417370
    },
    {
      "epoch": 0.8695416666666667,
      "grad_norm": 2.1560850143432617,
      "learning_rate": 1.252542546764047e-05,
      "loss": 3.4948,
      "step": 417380
    },
    {
      "epoch": 0.8695625,
      "grad_norm": 2.736323833465576,
      "learning_rate": 1.2521481936801741e-05,
      "loss": 3.4262,
      "step": 417390
    },
    {
      "epoch": 0.8695833333333334,
      "grad_norm": 2.5280303955078125,
      "learning_rate": 1.2517538999815796e-05,
      "loss": 3.3838,
      "step": 417400
    },
    {
      "epoch": 0.8696041666666666,
      "grad_norm": 2.5769524574279785,
      "learning_rate": 1.2513596656699671e-05,
      "loss": 3.4557,
      "step": 417410
    },
    {
      "epoch": 0.869625,
      "grad_norm": 3.331834077835083,
      "learning_rate": 1.2509654907470385e-05,
      "loss": 3.5808,
      "step": 417420
    },
    {
      "epoch": 0.8696458333333333,
      "grad_norm": 4.457845211029053,
      "learning_rate": 1.2505713752144957e-05,
      "loss": 3.4422,
      "step": 417430
    },
    {
      "epoch": 0.8696666666666667,
      "grad_norm": 3.0714826583862305,
      "learning_rate": 1.2501773190740428e-05,
      "loss": 3.3157,
      "step": 417440
    },
    {
      "epoch": 0.8696875,
      "grad_norm": 2.2075114250183105,
      "learning_rate": 1.2497833223273812e-05,
      "loss": 3.5167,
      "step": 417450
    },
    {
      "epoch": 0.8697083333333333,
      "grad_norm": 2.3254168033599854,
      "learning_rate": 1.2493893849762131e-05,
      "loss": 3.6128,
      "step": 417460
    },
    {
      "epoch": 0.8697291666666667,
      "grad_norm": 2.3950390815734863,
      "learning_rate": 1.2489955070222407e-05,
      "loss": 3.4827,
      "step": 417470
    },
    {
      "epoch": 0.86975,
      "grad_norm": 3.0291926860809326,
      "learning_rate": 1.248601688467164e-05,
      "loss": 3.3728,
      "step": 417480
    },
    {
      "epoch": 0.8697708333333334,
      "grad_norm": 2.147200584411621,
      "learning_rate": 1.2482079293126833e-05,
      "loss": 3.3744,
      "step": 417490
    },
    {
      "epoch": 0.8697916666666666,
      "grad_norm": 2.6280815601348877,
      "learning_rate": 1.247814229560506e-05,
      "loss": 3.4948,
      "step": 417500
    },
    {
      "epoch": 0.8698125,
      "grad_norm": 2.101990222930908,
      "learning_rate": 1.2474205892123218e-05,
      "loss": 3.3539,
      "step": 417510
    },
    {
      "epoch": 0.8698333333333333,
      "grad_norm": 3.429964542388916,
      "learning_rate": 1.2470270082698398e-05,
      "loss": 3.3896,
      "step": 417520
    },
    {
      "epoch": 0.8698541666666667,
      "grad_norm": 2.2140777111053467,
      "learning_rate": 1.2466334867347599e-05,
      "loss": 3.5168,
      "step": 417530
    },
    {
      "epoch": 0.869875,
      "grad_norm": 2.5639283657073975,
      "learning_rate": 1.2462400246087728e-05,
      "loss": 3.4337,
      "step": 417540
    },
    {
      "epoch": 0.8698958333333333,
      "grad_norm": 2.4086976051330566,
      "learning_rate": 1.2458466218935887e-05,
      "loss": 3.2846,
      "step": 417550
    },
    {
      "epoch": 0.8699166666666667,
      "grad_norm": 2.997601270675659,
      "learning_rate": 1.2454532785909044e-05,
      "loss": 3.5083,
      "step": 417560
    },
    {
      "epoch": 0.8699375,
      "grad_norm": 2.541027307510376,
      "learning_rate": 1.2450599947024138e-05,
      "loss": 3.3994,
      "step": 417570
    },
    {
      "epoch": 0.8699583333333333,
      "grad_norm": 2.7830023765563965,
      "learning_rate": 1.2446667702298219e-05,
      "loss": 3.4192,
      "step": 417580
    },
    {
      "epoch": 0.8699791666666666,
      "grad_norm": 2.638106346130371,
      "learning_rate": 1.2442736051748259e-05,
      "loss": 3.4921,
      "step": 417590
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9343293905258179,
      "learning_rate": 1.2438804995391194e-05,
      "loss": 3.4519,
      "step": 417600
    },
    {
      "epoch": 0.8700208333333334,
      "grad_norm": 3.100308895111084,
      "learning_rate": 1.243487453324406e-05,
      "loss": 3.4833,
      "step": 417610
    },
    {
      "epoch": 0.8700416666666667,
      "grad_norm": 2.2372541427612305,
      "learning_rate": 1.2430944665323845e-05,
      "loss": 3.3468,
      "step": 417620
    },
    {
      "epoch": 0.8700625,
      "grad_norm": 3.016254425048828,
      "learning_rate": 1.2427015391647432e-05,
      "loss": 3.4925,
      "step": 417630
    },
    {
      "epoch": 0.8700833333333333,
      "grad_norm": 3.441305160522461,
      "learning_rate": 1.2423086712231928e-05,
      "loss": 3.4197,
      "step": 417640
    },
    {
      "epoch": 0.8701041666666667,
      "grad_norm": 4.056501388549805,
      "learning_rate": 1.2419158627094183e-05,
      "loss": 3.4043,
      "step": 417650
    },
    {
      "epoch": 0.870125,
      "grad_norm": 2.3154401779174805,
      "learning_rate": 1.2415231136251203e-05,
      "loss": 3.3578,
      "step": 417660
    },
    {
      "epoch": 0.8701458333333333,
      "grad_norm": 3.0770108699798584,
      "learning_rate": 1.2411304239720021e-05,
      "loss": 3.3954,
      "step": 417670
    },
    {
      "epoch": 0.8701666666666666,
      "grad_norm": 2.3616442680358887,
      "learning_rate": 1.2407377937517509e-05,
      "loss": 3.3917,
      "step": 417680
    },
    {
      "epoch": 0.8701875,
      "grad_norm": 4.287867069244385,
      "learning_rate": 1.2403452229660637e-05,
      "loss": 3.4475,
      "step": 417690
    },
    {
      "epoch": 0.8702083333333334,
      "grad_norm": 2.8266143798828125,
      "learning_rate": 1.2399527116166441e-05,
      "loss": 3.3003,
      "step": 417700
    },
    {
      "epoch": 0.8702291666666667,
      "grad_norm": 2.1359610557556152,
      "learning_rate": 1.2395602597051807e-05,
      "loss": 3.3939,
      "step": 417710
    },
    {
      "epoch": 0.87025,
      "grad_norm": 3.4501852989196777,
      "learning_rate": 1.2391678672333654e-05,
      "loss": 3.4239,
      "step": 417720
    },
    {
      "epoch": 0.8702708333333333,
      "grad_norm": 2.7069802284240723,
      "learning_rate": 1.2387755342029038e-05,
      "loss": 3.4009,
      "step": 417730
    },
    {
      "epoch": 0.8702916666666667,
      "grad_norm": 2.797288417816162,
      "learning_rate": 1.2383832606154825e-05,
      "loss": 3.4107,
      "step": 417740
    },
    {
      "epoch": 0.8703125,
      "grad_norm": 2.7328901290893555,
      "learning_rate": 1.2379910464727988e-05,
      "loss": 3.3452,
      "step": 417750
    },
    {
      "epoch": 0.8703333333333333,
      "grad_norm": 2.4433910846710205,
      "learning_rate": 1.2375988917765462e-05,
      "loss": 3.4439,
      "step": 417760
    },
    {
      "epoch": 0.8703541666666667,
      "grad_norm": 3.246546506881714,
      "learning_rate": 1.2372067965284182e-05,
      "loss": 3.4217,
      "step": 417770
    },
    {
      "epoch": 0.870375,
      "grad_norm": 2.7233455181121826,
      "learning_rate": 1.2368147607301105e-05,
      "loss": 3.3445,
      "step": 417780
    },
    {
      "epoch": 0.8703958333333334,
      "grad_norm": 2.893629312515259,
      "learning_rate": 1.2364227843833146e-05,
      "loss": 3.5449,
      "step": 417790
    },
    {
      "epoch": 0.8704166666666666,
      "grad_norm": 3.4476585388183594,
      "learning_rate": 1.2360308674897229e-05,
      "loss": 3.5102,
      "step": 417800
    },
    {
      "epoch": 0.8704375,
      "grad_norm": 2.483555316925049,
      "learning_rate": 1.2356390100510322e-05,
      "loss": 3.3882,
      "step": 417810
    },
    {
      "epoch": 0.8704583333333333,
      "grad_norm": 2.3621745109558105,
      "learning_rate": 1.235247212068931e-05,
      "loss": 3.3743,
      "step": 417820
    },
    {
      "epoch": 0.8704791666666667,
      "grad_norm": 3.193834066390991,
      "learning_rate": 1.2348554735451132e-05,
      "loss": 3.323,
      "step": 417830
    },
    {
      "epoch": 0.8705,
      "grad_norm": 2.9149363040924072,
      "learning_rate": 1.2344637944812725e-05,
      "loss": 3.5003,
      "step": 417840
    },
    {
      "epoch": 0.8705208333333333,
      "grad_norm": 2.333116292953491,
      "learning_rate": 1.2340721748790972e-05,
      "loss": 3.3065,
      "step": 417850
    },
    {
      "epoch": 0.8705416666666667,
      "grad_norm": 2.4996581077575684,
      "learning_rate": 1.2336806147402828e-05,
      "loss": 3.4668,
      "step": 417860
    },
    {
      "epoch": 0.8705625,
      "grad_norm": 2.6439623832702637,
      "learning_rate": 1.2332891140665214e-05,
      "loss": 3.4188,
      "step": 417870
    },
    {
      "epoch": 0.8705833333333334,
      "grad_norm": 3.0429391860961914,
      "learning_rate": 1.2328976728594964e-05,
      "loss": 3.5216,
      "step": 417880
    },
    {
      "epoch": 0.8706041666666666,
      "grad_norm": 3.706578254699707,
      "learning_rate": 1.2325062911209065e-05,
      "loss": 3.3418,
      "step": 417890
    },
    {
      "epoch": 0.870625,
      "grad_norm": 2.431668758392334,
      "learning_rate": 1.232114968852444e-05,
      "loss": 3.5571,
      "step": 417900
    },
    {
      "epoch": 0.8706458333333333,
      "grad_norm": 2.2364118099212646,
      "learning_rate": 1.2317237060557873e-05,
      "loss": 3.4192,
      "step": 417910
    },
    {
      "epoch": 0.8706666666666667,
      "grad_norm": 3.3806347846984863,
      "learning_rate": 1.2313325027326382e-05,
      "loss": 3.538,
      "step": 417920
    },
    {
      "epoch": 0.8706875,
      "grad_norm": 2.176637649536133,
      "learning_rate": 1.2309413588846856e-05,
      "loss": 3.426,
      "step": 417930
    },
    {
      "epoch": 0.8707083333333333,
      "grad_norm": 2.7441587448120117,
      "learning_rate": 1.2305502745136115e-05,
      "loss": 3.3612,
      "step": 417940
    },
    {
      "epoch": 0.8707291666666667,
      "grad_norm": 3.691098690032959,
      "learning_rate": 1.230159249621111e-05,
      "loss": 3.5855,
      "step": 417950
    },
    {
      "epoch": 0.87075,
      "grad_norm": 2.5796329975128174,
      "learning_rate": 1.2297682842088763e-05,
      "loss": 3.3639,
      "step": 417960
    },
    {
      "epoch": 0.8707708333333334,
      "grad_norm": 3.1284215450286865,
      "learning_rate": 1.229377378278586e-05,
      "loss": 3.3921,
      "step": 417970
    },
    {
      "epoch": 0.8707916666666666,
      "grad_norm": 2.648880958557129,
      "learning_rate": 1.2289865318319369e-05,
      "loss": 3.5102,
      "step": 417980
    },
    {
      "epoch": 0.8708125,
      "grad_norm": 2.412705898284912,
      "learning_rate": 1.228595744870618e-05,
      "loss": 3.428,
      "step": 417990
    },
    {
      "epoch": 0.8708333333333333,
      "grad_norm": 2.6994218826293945,
      "learning_rate": 1.2282050173963077e-05,
      "loss": 3.3347,
      "step": 418000
    },
    {
      "epoch": 0.8708333333333333,
      "eval_loss": 3.5267550945281982,
      "eval_runtime": 7.4435,
      "eval_samples_per_second": 1.343,
      "eval_steps_per_second": 0.403,
      "step": 418000
    },
    {
      "epoch": 0.8708541666666667,
      "grad_norm": 4.168178558349609,
      "learning_rate": 1.227814349410708e-05,
      "loss": 3.3906,
      "step": 418010
    },
    {
      "epoch": 0.870875,
      "grad_norm": 2.4564945697784424,
      "learning_rate": 1.2274237409154942e-05,
      "loss": 3.3782,
      "step": 418020
    },
    {
      "epoch": 0.8708958333333333,
      "grad_norm": 2.73201060295105,
      "learning_rate": 1.2270331919123566e-05,
      "loss": 3.3989,
      "step": 418030
    },
    {
      "epoch": 0.8709166666666667,
      "grad_norm": 2.5199782848358154,
      "learning_rate": 1.2266427024029907e-05,
      "loss": 3.4136,
      "step": 418040
    },
    {
      "epoch": 0.8709375,
      "grad_norm": 2.666536808013916,
      "learning_rate": 1.2262522723890716e-05,
      "loss": 3.5283,
      "step": 418050
    },
    {
      "epoch": 0.8709583333333333,
      "grad_norm": 2.3516480922698975,
      "learning_rate": 1.2258619018722915e-05,
      "loss": 3.2484,
      "step": 418060
    },
    {
      "epoch": 0.8709791666666666,
      "grad_norm": 2.7443063259124756,
      "learning_rate": 1.2254715908543356e-05,
      "loss": 3.4331,
      "step": 418070
    },
    {
      "epoch": 0.871,
      "grad_norm": 2.261176347732544,
      "learning_rate": 1.2250813393368908e-05,
      "loss": 3.3485,
      "step": 418080
    },
    {
      "epoch": 0.8710208333333334,
      "grad_norm": 2.235530376434326,
      "learning_rate": 1.224691147321641e-05,
      "loss": 3.3812,
      "step": 418090
    },
    {
      "epoch": 0.8710416666666667,
      "grad_norm": 3.3804919719696045,
      "learning_rate": 1.2243010148102727e-05,
      "loss": 3.4152,
      "step": 418100
    },
    {
      "epoch": 0.8710625,
      "grad_norm": 2.9603118896484375,
      "learning_rate": 1.2239109418044718e-05,
      "loss": 3.3974,
      "step": 418110
    },
    {
      "epoch": 0.8710833333333333,
      "grad_norm": 2.4559268951416016,
      "learning_rate": 1.2235209283059233e-05,
      "loss": 3.4756,
      "step": 418120
    },
    {
      "epoch": 0.8711041666666667,
      "grad_norm": 2.6458845138549805,
      "learning_rate": 1.2231309743163108e-05,
      "loss": 3.4538,
      "step": 418130
    },
    {
      "epoch": 0.871125,
      "grad_norm": 2.5696351528167725,
      "learning_rate": 1.22274107983732e-05,
      "loss": 3.596,
      "step": 418140
    },
    {
      "epoch": 0.8711458333333333,
      "grad_norm": 2.318331718444824,
      "learning_rate": 1.2223512448706324e-05,
      "loss": 3.4525,
      "step": 418150
    },
    {
      "epoch": 0.8711666666666666,
      "grad_norm": 3.2727253437042236,
      "learning_rate": 1.2219614694179352e-05,
      "loss": 3.5018,
      "step": 418160
    },
    {
      "epoch": 0.8711875,
      "grad_norm": 2.853062152862549,
      "learning_rate": 1.2215717534809105e-05,
      "loss": 3.4744,
      "step": 418170
    },
    {
      "epoch": 0.8712083333333334,
      "grad_norm": 4.192126274108887,
      "learning_rate": 1.2211820970612419e-05,
      "loss": 3.4443,
      "step": 418180
    },
    {
      "epoch": 0.8712291666666667,
      "grad_norm": 3.073531150817871,
      "learning_rate": 1.2207925001606127e-05,
      "loss": 3.4296,
      "step": 418190
    },
    {
      "epoch": 0.87125,
      "grad_norm": 2.626119613647461,
      "learning_rate": 1.2204029627807054e-05,
      "loss": 3.6099,
      "step": 418200
    },
    {
      "epoch": 0.8712708333333333,
      "grad_norm": 3.6483569145202637,
      "learning_rate": 1.2200134849232034e-05,
      "loss": 3.5412,
      "step": 418210
    },
    {
      "epoch": 0.8712916666666667,
      "grad_norm": 2.0454370975494385,
      "learning_rate": 1.2196240665897889e-05,
      "loss": 3.4565,
      "step": 418220
    },
    {
      "epoch": 0.8713125,
      "grad_norm": 3.7047855854034424,
      "learning_rate": 1.2192347077821435e-05,
      "loss": 3.3284,
      "step": 418230
    },
    {
      "epoch": 0.8713333333333333,
      "grad_norm": 3.183391809463501,
      "learning_rate": 1.2188454085019478e-05,
      "loss": 3.5394,
      "step": 418240
    },
    {
      "epoch": 0.8713541666666667,
      "grad_norm": 2.576822519302368,
      "learning_rate": 1.2184561687508871e-05,
      "loss": 3.44,
      "step": 418250
    },
    {
      "epoch": 0.871375,
      "grad_norm": 1.9899379014968872,
      "learning_rate": 1.2180669885306399e-05,
      "loss": 3.354,
      "step": 418260
    },
    {
      "epoch": 0.8713958333333334,
      "grad_norm": 2.686054229736328,
      "learning_rate": 1.21767786784289e-05,
      "loss": 3.4444,
      "step": 418270
    },
    {
      "epoch": 0.8714166666666666,
      "grad_norm": 2.2927355766296387,
      "learning_rate": 1.2172888066893126e-05,
      "loss": 3.4587,
      "step": 418280
    },
    {
      "epoch": 0.8714375,
      "grad_norm": 2.6580655574798584,
      "learning_rate": 1.2168998050715933e-05,
      "loss": 3.4971,
      "step": 418290
    },
    {
      "epoch": 0.8714583333333333,
      "grad_norm": 2.682798147201538,
      "learning_rate": 1.2165108629914139e-05,
      "loss": 3.5131,
      "step": 418300
    },
    {
      "epoch": 0.8714791666666667,
      "grad_norm": 2.8667361736297607,
      "learning_rate": 1.2161219804504463e-05,
      "loss": 3.3781,
      "step": 418310
    },
    {
      "epoch": 0.8715,
      "grad_norm": 2.656639337539673,
      "learning_rate": 1.2157331574503792e-05,
      "loss": 3.2951,
      "step": 418320
    },
    {
      "epoch": 0.8715208333333333,
      "grad_norm": 2.649646520614624,
      "learning_rate": 1.2153443939928915e-05,
      "loss": 3.3748,
      "step": 418330
    },
    {
      "epoch": 0.8715416666666667,
      "grad_norm": 3.167405128479004,
      "learning_rate": 1.2149556900796547e-05,
      "loss": 3.3418,
      "step": 418340
    },
    {
      "epoch": 0.8715625,
      "grad_norm": 2.944647789001465,
      "learning_rate": 1.214567045712353e-05,
      "loss": 3.4433,
      "step": 418350
    },
    {
      "epoch": 0.8715833333333334,
      "grad_norm": 2.54317045211792,
      "learning_rate": 1.214178460892668e-05,
      "loss": 3.3962,
      "step": 418360
    },
    {
      "epoch": 0.8716041666666666,
      "grad_norm": 2.3059279918670654,
      "learning_rate": 1.2137899356222735e-05,
      "loss": 3.3492,
      "step": 418370
    },
    {
      "epoch": 0.871625,
      "grad_norm": 2.2729837894439697,
      "learning_rate": 1.21340146990285e-05,
      "loss": 3.4445,
      "step": 418380
    },
    {
      "epoch": 0.8716458333333333,
      "grad_norm": 2.9660418033599854,
      "learning_rate": 1.2130130637360757e-05,
      "loss": 3.4833,
      "step": 418390
    },
    {
      "epoch": 0.8716666666666667,
      "grad_norm": 2.209365129470825,
      "learning_rate": 1.2126247171236265e-05,
      "loss": 3.4357,
      "step": 418400
    },
    {
      "epoch": 0.8716875,
      "grad_norm": 3.098299264907837,
      "learning_rate": 1.2122364300671805e-05,
      "loss": 3.4611,
      "step": 418410
    },
    {
      "epoch": 0.8717083333333333,
      "grad_norm": 3.4559073448181152,
      "learning_rate": 1.2118482025684167e-05,
      "loss": 3.4622,
      "step": 418420
    },
    {
      "epoch": 0.8717291666666667,
      "grad_norm": 3.099611759185791,
      "learning_rate": 1.2114600346290104e-05,
      "loss": 3.3352,
      "step": 418430
    },
    {
      "epoch": 0.87175,
      "grad_norm": 2.7767627239227295,
      "learning_rate": 1.2110719262506403e-05,
      "loss": 3.4521,
      "step": 418440
    },
    {
      "epoch": 0.8717708333333334,
      "grad_norm": 2.2619595527648926,
      "learning_rate": 1.2106838774349797e-05,
      "loss": 3.3671,
      "step": 418450
    },
    {
      "epoch": 0.8717916666666666,
      "grad_norm": 2.5892913341522217,
      "learning_rate": 1.2102958881837076e-05,
      "loss": 3.5307,
      "step": 418460
    },
    {
      "epoch": 0.8718125,
      "grad_norm": 3.0714240074157715,
      "learning_rate": 1.2099079584984977e-05,
      "loss": 3.434,
      "step": 418470
    },
    {
      "epoch": 0.8718333333333333,
      "grad_norm": 2.496450424194336,
      "learning_rate": 1.2095200883810285e-05,
      "loss": 3.5868,
      "step": 418480
    },
    {
      "epoch": 0.8718541666666667,
      "grad_norm": 2.5962135791778564,
      "learning_rate": 1.2091322778329721e-05,
      "loss": 3.3915,
      "step": 418490
    },
    {
      "epoch": 0.871875,
      "grad_norm": 2.855849027633667,
      "learning_rate": 1.208744526856007e-05,
      "loss": 3.4789,
      "step": 418500
    },
    {
      "epoch": 0.8718958333333333,
      "grad_norm": 2.7959272861480713,
      "learning_rate": 1.2083568354518052e-05,
      "loss": 3.3782,
      "step": 418510
    },
    {
      "epoch": 0.8719166666666667,
      "grad_norm": 3.330684185028076,
      "learning_rate": 1.207969203622044e-05,
      "loss": 3.3617,
      "step": 418520
    },
    {
      "epoch": 0.8719375,
      "grad_norm": 2.940964698791504,
      "learning_rate": 1.2075816313683967e-05,
      "loss": 3.4136,
      "step": 418530
    },
    {
      "epoch": 0.8719583333333333,
      "grad_norm": 3.389512062072754,
      "learning_rate": 1.2071941186925354e-05,
      "loss": 3.2922,
      "step": 418540
    },
    {
      "epoch": 0.8719791666666666,
      "grad_norm": 2.249582052230835,
      "learning_rate": 1.2068066655961372e-05,
      "loss": 3.4718,
      "step": 418550
    },
    {
      "epoch": 0.872,
      "grad_norm": 2.2322006225585938,
      "learning_rate": 1.2064192720808757e-05,
      "loss": 3.3777,
      "step": 418560
    },
    {
      "epoch": 0.8720208333333334,
      "grad_norm": 3.2248430252075195,
      "learning_rate": 1.2060319381484213e-05,
      "loss": 3.4157,
      "step": 418570
    },
    {
      "epoch": 0.8720416666666667,
      "grad_norm": 2.389240026473999,
      "learning_rate": 1.205644663800449e-05,
      "loss": 3.4694,
      "step": 418580
    },
    {
      "epoch": 0.8720625,
      "grad_norm": 3.2978105545043945,
      "learning_rate": 1.205257449038633e-05,
      "loss": 3.3487,
      "step": 418590
    },
    {
      "epoch": 0.8720833333333333,
      "grad_norm": 3.3220531940460205,
      "learning_rate": 1.2048702938646432e-05,
      "loss": 3.3437,
      "step": 418600
    },
    {
      "epoch": 0.8721041666666667,
      "grad_norm": 2.2175674438476562,
      "learning_rate": 1.2044831982801534e-05,
      "loss": 3.443,
      "step": 418610
    },
    {
      "epoch": 0.872125,
      "grad_norm": 3.2550837993621826,
      "learning_rate": 1.2040961622868356e-05,
      "loss": 3.4614,
      "step": 418620
    },
    {
      "epoch": 0.8721458333333333,
      "grad_norm": 3.078559398651123,
      "learning_rate": 1.2037091858863618e-05,
      "loss": 3.4868,
      "step": 418630
    },
    {
      "epoch": 0.8721666666666666,
      "grad_norm": 2.770707607269287,
      "learning_rate": 1.2033222690804056e-05,
      "loss": 3.4357,
      "step": 418640
    },
    {
      "epoch": 0.8721875,
      "grad_norm": 2.326220989227295,
      "learning_rate": 1.2029354118706341e-05,
      "loss": 3.4135,
      "step": 418650
    },
    {
      "epoch": 0.8722083333333334,
      "grad_norm": 2.5654335021972656,
      "learning_rate": 1.2025486142587177e-05,
      "loss": 3.4423,
      "step": 418660
    },
    {
      "epoch": 0.8722291666666667,
      "grad_norm": 3.3181543350219727,
      "learning_rate": 1.2021618762463348e-05,
      "loss": 3.4514,
      "step": 418670
    },
    {
      "epoch": 0.87225,
      "grad_norm": 2.6929662227630615,
      "learning_rate": 1.2017751978351475e-05,
      "loss": 3.3272,
      "step": 418680
    },
    {
      "epoch": 0.8722708333333333,
      "grad_norm": 2.42993426322937,
      "learning_rate": 1.201388579026828e-05,
      "loss": 3.5391,
      "step": 418690
    },
    {
      "epoch": 0.8722916666666667,
      "grad_norm": 2.203967809677124,
      "learning_rate": 1.201002019823053e-05,
      "loss": 3.4538,
      "step": 418700
    },
    {
      "epoch": 0.8723125,
      "grad_norm": 3.3326327800750732,
      "learning_rate": 1.2006155202254846e-05,
      "loss": 3.376,
      "step": 418710
    },
    {
      "epoch": 0.8723333333333333,
      "grad_norm": 2.6511733531951904,
      "learning_rate": 1.2002290802357934e-05,
      "loss": 3.5032,
      "step": 418720
    },
    {
      "epoch": 0.8723541666666667,
      "grad_norm": 2.1010758876800537,
      "learning_rate": 1.1998426998556543e-05,
      "loss": 3.4788,
      "step": 418730
    },
    {
      "epoch": 0.872375,
      "grad_norm": 2.6892545223236084,
      "learning_rate": 1.1994563790867296e-05,
      "loss": 3.4978,
      "step": 418740
    },
    {
      "epoch": 0.8723958333333334,
      "grad_norm": 2.8105201721191406,
      "learning_rate": 1.1990701179306895e-05,
      "loss": 3.434,
      "step": 418750
    },
    {
      "epoch": 0.8724166666666666,
      "grad_norm": 3.393606424331665,
      "learning_rate": 1.1986839163892076e-05,
      "loss": 3.5725,
      "step": 418760
    },
    {
      "epoch": 0.8724375,
      "grad_norm": 2.502514123916626,
      "learning_rate": 1.198297774463946e-05,
      "loss": 3.4393,
      "step": 418770
    },
    {
      "epoch": 0.8724583333333333,
      "grad_norm": 2.5866880416870117,
      "learning_rate": 1.1979116921565752e-05,
      "loss": 3.3733,
      "step": 418780
    },
    {
      "epoch": 0.8724791666666667,
      "grad_norm": 2.39693021774292,
      "learning_rate": 1.1975256694687619e-05,
      "loss": 3.2841,
      "step": 418790
    },
    {
      "epoch": 0.8725,
      "grad_norm": 2.5344011783599854,
      "learning_rate": 1.1971397064021749e-05,
      "loss": 3.5198,
      "step": 418800
    },
    {
      "epoch": 0.8725208333333333,
      "grad_norm": 2.8272593021392822,
      "learning_rate": 1.1967538029584795e-05,
      "loss": 3.4467,
      "step": 418810
    },
    {
      "epoch": 0.8725416666666667,
      "grad_norm": 3.5613162517547607,
      "learning_rate": 1.196367959139346e-05,
      "loss": 3.3834,
      "step": 418820
    },
    {
      "epoch": 0.8725625,
      "grad_norm": 3.300424814224243,
      "learning_rate": 1.1959821749464382e-05,
      "loss": 3.314,
      "step": 418830
    },
    {
      "epoch": 0.8725833333333334,
      "grad_norm": 2.7804038524627686,
      "learning_rate": 1.195596450381423e-05,
      "loss": 3.5579,
      "step": 418840
    },
    {
      "epoch": 0.8726041666666666,
      "grad_norm": 2.967052459716797,
      "learning_rate": 1.1952107854459676e-05,
      "loss": 3.4247,
      "step": 418850
    },
    {
      "epoch": 0.872625,
      "grad_norm": 2.811490774154663,
      "learning_rate": 1.1948251801417368e-05,
      "loss": 3.4958,
      "step": 418860
    },
    {
      "epoch": 0.8726458333333333,
      "grad_norm": 2.082139730453491,
      "learning_rate": 1.1944396344703965e-05,
      "loss": 3.5079,
      "step": 418870
    },
    {
      "epoch": 0.8726666666666667,
      "grad_norm": 2.8235933780670166,
      "learning_rate": 1.1940541484336135e-05,
      "loss": 3.2589,
      "step": 418880
    },
    {
      "epoch": 0.8726875,
      "grad_norm": 2.4188458919525146,
      "learning_rate": 1.1936687220330498e-05,
      "loss": 3.5637,
      "step": 418890
    },
    {
      "epoch": 0.8727083333333333,
      "grad_norm": 2.8611245155334473,
      "learning_rate": 1.193283355270374e-05,
      "loss": 3.5133,
      "step": 418900
    },
    {
      "epoch": 0.8727291666666667,
      "grad_norm": 4.361184120178223,
      "learning_rate": 1.1928980481472483e-05,
      "loss": 3.4903,
      "step": 418910
    },
    {
      "epoch": 0.87275,
      "grad_norm": 2.4470860958099365,
      "learning_rate": 1.1925128006653395e-05,
      "loss": 3.4028,
      "step": 418920
    },
    {
      "epoch": 0.8727708333333334,
      "grad_norm": 3.250140905380249,
      "learning_rate": 1.1921276128263112e-05,
      "loss": 3.3983,
      "step": 418930
    },
    {
      "epoch": 0.8727916666666666,
      "grad_norm": 3.474562168121338,
      "learning_rate": 1.1917424846318208e-05,
      "loss": 3.4126,
      "step": 418940
    },
    {
      "epoch": 0.8728125,
      "grad_norm": 2.7236580848693848,
      "learning_rate": 1.1913574160835398e-05,
      "loss": 3.4086,
      "step": 418950
    },
    {
      "epoch": 0.8728333333333333,
      "grad_norm": 3.3813583850860596,
      "learning_rate": 1.1909724071831306e-05,
      "loss": 3.5592,
      "step": 418960
    },
    {
      "epoch": 0.8728541666666667,
      "grad_norm": 2.4803550243377686,
      "learning_rate": 1.1905874579322517e-05,
      "loss": 3.6437,
      "step": 418970
    },
    {
      "epoch": 0.872875,
      "grad_norm": 3.6877589225769043,
      "learning_rate": 1.19020256833257e-05,
      "loss": 3.4636,
      "step": 418980
    },
    {
      "epoch": 0.8728958333333333,
      "grad_norm": 2.913844585418701,
      "learning_rate": 1.1898177383857493e-05,
      "loss": 3.5546,
      "step": 418990
    },
    {
      "epoch": 0.8729166666666667,
      "grad_norm": 2.373185873031616,
      "learning_rate": 1.189432968093445e-05,
      "loss": 3.3628,
      "step": 419000
    },
    {
      "epoch": 0.8729166666666667,
      "eval_loss": 3.524212598800659,
      "eval_runtime": 7.362,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 419000
    },
    {
      "epoch": 0.8729375,
      "grad_norm": 2.455367088317871,
      "learning_rate": 1.189048257457329e-05,
      "loss": 3.5459,
      "step": 419010
    },
    {
      "epoch": 0.8729583333333333,
      "grad_norm": 2.7978508472442627,
      "learning_rate": 1.1886636064790534e-05,
      "loss": 3.3482,
      "step": 419020
    },
    {
      "epoch": 0.8729791666666666,
      "grad_norm": 2.9790713787078857,
      "learning_rate": 1.1882790151602833e-05,
      "loss": 3.5516,
      "step": 419030
    },
    {
      "epoch": 0.873,
      "grad_norm": 2.6353721618652344,
      "learning_rate": 1.187894483502686e-05,
      "loss": 3.4076,
      "step": 419040
    },
    {
      "epoch": 0.8730208333333334,
      "grad_norm": 3.295459508895874,
      "learning_rate": 1.1875100115079134e-05,
      "loss": 3.3441,
      "step": 419050
    },
    {
      "epoch": 0.8730416666666667,
      "grad_norm": 2.525085687637329,
      "learning_rate": 1.187125599177629e-05,
      "loss": 3.2886,
      "step": 419060
    },
    {
      "epoch": 0.8730625,
      "grad_norm": 2.81146240234375,
      "learning_rate": 1.1867412465134984e-05,
      "loss": 3.494,
      "step": 419070
    },
    {
      "epoch": 0.8730833333333333,
      "grad_norm": 2.5436618328094482,
      "learning_rate": 1.1863569535171768e-05,
      "loss": 3.3733,
      "step": 419080
    },
    {
      "epoch": 0.8731041666666667,
      "grad_norm": 2.9347901344299316,
      "learning_rate": 1.185972720190323e-05,
      "loss": 3.3786,
      "step": 419090
    },
    {
      "epoch": 0.873125,
      "grad_norm": 3.071826457977295,
      "learning_rate": 1.1855885465346022e-05,
      "loss": 3.5782,
      "step": 419100
    },
    {
      "epoch": 0.8731458333333333,
      "grad_norm": 2.946451425552368,
      "learning_rate": 1.1852044325516696e-05,
      "loss": 3.3111,
      "step": 419110
    },
    {
      "epoch": 0.8731666666666666,
      "grad_norm": 2.6791250705718994,
      "learning_rate": 1.1848203782431826e-05,
      "loss": 3.431,
      "step": 419120
    },
    {
      "epoch": 0.8731875,
      "grad_norm": 2.582110643386841,
      "learning_rate": 1.1844363836108079e-05,
      "loss": 3.4001,
      "step": 419130
    },
    {
      "epoch": 0.8732083333333334,
      "grad_norm": 3.6536929607391357,
      "learning_rate": 1.1840524486561975e-05,
      "loss": 3.4764,
      "step": 419140
    },
    {
      "epoch": 0.8732291666666666,
      "grad_norm": 2.8983333110809326,
      "learning_rate": 1.183668573381012e-05,
      "loss": 3.3723,
      "step": 419150
    },
    {
      "epoch": 0.87325,
      "grad_norm": 2.4779052734375,
      "learning_rate": 1.1832847577869099e-05,
      "loss": 3.5391,
      "step": 419160
    },
    {
      "epoch": 0.8732708333333333,
      "grad_norm": 3.1066174507141113,
      "learning_rate": 1.1829010018755463e-05,
      "loss": 3.4016,
      "step": 419170
    },
    {
      "epoch": 0.8732916666666667,
      "grad_norm": 2.4586429595947266,
      "learning_rate": 1.1825173056485836e-05,
      "loss": 3.3557,
      "step": 419180
    },
    {
      "epoch": 0.8733125,
      "grad_norm": 2.8223180770874023,
      "learning_rate": 1.1821336691076755e-05,
      "loss": 3.405,
      "step": 419190
    },
    {
      "epoch": 0.8733333333333333,
      "grad_norm": 2.981595516204834,
      "learning_rate": 1.1817500922544803e-05,
      "loss": 3.3539,
      "step": 419200
    },
    {
      "epoch": 0.8733541666666667,
      "grad_norm": 3.298564910888672,
      "learning_rate": 1.1813665750906554e-05,
      "loss": 3.3807,
      "step": 419210
    },
    {
      "epoch": 0.873375,
      "grad_norm": 3.514331340789795,
      "learning_rate": 1.1809831176178575e-05,
      "loss": 3.2777,
      "step": 419220
    },
    {
      "epoch": 0.8733958333333334,
      "grad_norm": 2.704085111618042,
      "learning_rate": 1.180599719837742e-05,
      "loss": 3.4011,
      "step": 419230
    },
    {
      "epoch": 0.8734166666666666,
      "grad_norm": 2.886089563369751,
      "learning_rate": 1.1802163817519694e-05,
      "loss": 3.3741,
      "step": 419240
    },
    {
      "epoch": 0.8734375,
      "grad_norm": 3.0646660327911377,
      "learning_rate": 1.179833103362185e-05,
      "loss": 3.3773,
      "step": 419250
    },
    {
      "epoch": 0.8734583333333333,
      "grad_norm": 2.3738224506378174,
      "learning_rate": 1.179449884670054e-05,
      "loss": 3.4112,
      "step": 419260
    },
    {
      "epoch": 0.8734791666666667,
      "grad_norm": 2.3547608852386475,
      "learning_rate": 1.1790667256772334e-05,
      "loss": 3.3534,
      "step": 419270
    },
    {
      "epoch": 0.8735,
      "grad_norm": 2.6455576419830322,
      "learning_rate": 1.1786836263853672e-05,
      "loss": 3.591,
      "step": 419280
    },
    {
      "epoch": 0.8735208333333333,
      "grad_norm": 2.4972054958343506,
      "learning_rate": 1.1783005867961187e-05,
      "loss": 3.38,
      "step": 419290
    },
    {
      "epoch": 0.8735416666666667,
      "grad_norm": 2.4973652362823486,
      "learning_rate": 1.1779176069111451e-05,
      "loss": 3.3547,
      "step": 419300
    },
    {
      "epoch": 0.8735625,
      "grad_norm": 3.0164597034454346,
      "learning_rate": 1.17753468673209e-05,
      "loss": 3.3809,
      "step": 419310
    },
    {
      "epoch": 0.8735833333333334,
      "grad_norm": 3.0294554233551025,
      "learning_rate": 1.1771518262606155e-05,
      "loss": 3.3259,
      "step": 419320
    },
    {
      "epoch": 0.8736041666666666,
      "grad_norm": 2.5453686714172363,
      "learning_rate": 1.176769025498377e-05,
      "loss": 3.4904,
      "step": 419330
    },
    {
      "epoch": 0.873625,
      "grad_norm": 2.659008026123047,
      "learning_rate": 1.1763862844470195e-05,
      "loss": 3.3926,
      "step": 419340
    },
    {
      "epoch": 0.8736458333333333,
      "grad_norm": 2.1246728897094727,
      "learning_rate": 1.1760036031082055e-05,
      "loss": 3.3493,
      "step": 419350
    },
    {
      "epoch": 0.8736666666666667,
      "grad_norm": 2.7888636589050293,
      "learning_rate": 1.1756209814835848e-05,
      "loss": 3.3962,
      "step": 419360
    },
    {
      "epoch": 0.8736875,
      "grad_norm": 3.5432541370391846,
      "learning_rate": 1.175238419574805e-05,
      "loss": 3.3838,
      "step": 419370
    },
    {
      "epoch": 0.8737083333333333,
      "grad_norm": 3.581089735031128,
      "learning_rate": 1.1748559173835277e-05,
      "loss": 3.536,
      "step": 419380
    },
    {
      "epoch": 0.8737291666666667,
      "grad_norm": 2.865339756011963,
      "learning_rate": 1.1744734749113983e-05,
      "loss": 3.4803,
      "step": 419390
    },
    {
      "epoch": 0.87375,
      "grad_norm": 2.908158540725708,
      "learning_rate": 1.1740910921600688e-05,
      "loss": 3.3265,
      "step": 419400
    },
    {
      "epoch": 0.8737708333333334,
      "grad_norm": 3.470276355743408,
      "learning_rate": 1.1737087691311963e-05,
      "loss": 3.429,
      "step": 419410
    },
    {
      "epoch": 0.8737916666666666,
      "grad_norm": 2.25579571723938,
      "learning_rate": 1.173326505826428e-05,
      "loss": 3.4283,
      "step": 419420
    },
    {
      "epoch": 0.8738125,
      "grad_norm": 2.251979351043701,
      "learning_rate": 1.1729443022474138e-05,
      "loss": 3.3519,
      "step": 419430
    },
    {
      "epoch": 0.8738333333333334,
      "grad_norm": 3.040573835372925,
      "learning_rate": 1.1725621583958128e-05,
      "loss": 3.5129,
      "step": 419440
    },
    {
      "epoch": 0.8738541666666667,
      "grad_norm": 2.8663792610168457,
      "learning_rate": 1.1721800742732668e-05,
      "loss": 3.4968,
      "step": 419450
    },
    {
      "epoch": 0.873875,
      "grad_norm": 2.6613452434539795,
      "learning_rate": 1.1717980498814261e-05,
      "loss": 3.4285,
      "step": 419460
    },
    {
      "epoch": 0.8738958333333333,
      "grad_norm": 2.3506338596343994,
      "learning_rate": 1.1714160852219495e-05,
      "loss": 3.5476,
      "step": 419470
    },
    {
      "epoch": 0.8739166666666667,
      "grad_norm": 2.3943276405334473,
      "learning_rate": 1.171034180296479e-05,
      "loss": 3.3708,
      "step": 419480
    },
    {
      "epoch": 0.8739375,
      "grad_norm": 2.6729533672332764,
      "learning_rate": 1.1706523351066666e-05,
      "loss": 3.2769,
      "step": 419490
    },
    {
      "epoch": 0.8739583333333333,
      "grad_norm": 2.9157652854919434,
      "learning_rate": 1.1702705496541643e-05,
      "loss": 3.4066,
      "step": 419500
    },
    {
      "epoch": 0.8739791666666666,
      "grad_norm": 3.843313217163086,
      "learning_rate": 1.1698888239406173e-05,
      "loss": 3.5447,
      "step": 419510
    },
    {
      "epoch": 0.874,
      "grad_norm": 2.248464345932007,
      "learning_rate": 1.1695071579676779e-05,
      "loss": 3.4623,
      "step": 419520
    },
    {
      "epoch": 0.8740208333333334,
      "grad_norm": 2.999788522720337,
      "learning_rate": 1.1691255517369913e-05,
      "loss": 3.3976,
      "step": 419530
    },
    {
      "epoch": 0.8740416666666667,
      "grad_norm": 2.8701157569885254,
      "learning_rate": 1.1687440052502079e-05,
      "loss": 3.2994,
      "step": 419540
    },
    {
      "epoch": 0.8740625,
      "grad_norm": 3.0037519931793213,
      "learning_rate": 1.1683625185089761e-05,
      "loss": 3.4287,
      "step": 419550
    },
    {
      "epoch": 0.8740833333333333,
      "grad_norm": 2.126364231109619,
      "learning_rate": 1.1679810915149435e-05,
      "loss": 3.4886,
      "step": 419560
    },
    {
      "epoch": 0.8741041666666667,
      "grad_norm": 2.5964138507843018,
      "learning_rate": 1.1675997242697565e-05,
      "loss": 3.4103,
      "step": 419570
    },
    {
      "epoch": 0.874125,
      "grad_norm": 2.70188570022583,
      "learning_rate": 1.1672184167750643e-05,
      "loss": 3.4524,
      "step": 419580
    },
    {
      "epoch": 0.8741458333333333,
      "grad_norm": 3.0351133346557617,
      "learning_rate": 1.1668371690325134e-05,
      "loss": 3.3859,
      "step": 419590
    },
    {
      "epoch": 0.8741666666666666,
      "grad_norm": 3.1514906883239746,
      "learning_rate": 1.1664559810437497e-05,
      "loss": 3.4922,
      "step": 419600
    },
    {
      "epoch": 0.8741875,
      "grad_norm": 2.4945483207702637,
      "learning_rate": 1.1660748528104214e-05,
      "loss": 3.3805,
      "step": 419610
    },
    {
      "epoch": 0.8742083333333334,
      "grad_norm": 3.5930750370025635,
      "learning_rate": 1.1656937843341723e-05,
      "loss": 3.3765,
      "step": 419620
    },
    {
      "epoch": 0.8742291666666666,
      "grad_norm": 2.868680000305176,
      "learning_rate": 1.1653127756166515e-05,
      "loss": 3.4305,
      "step": 419630
    },
    {
      "epoch": 0.87425,
      "grad_norm": 2.3626046180725098,
      "learning_rate": 1.1649318266595053e-05,
      "loss": 3.3488,
      "step": 419640
    },
    {
      "epoch": 0.8742708333333333,
      "grad_norm": 2.4533042907714844,
      "learning_rate": 1.1645509374643713e-05,
      "loss": 3.4763,
      "step": 419650
    },
    {
      "epoch": 0.8742916666666667,
      "grad_norm": 3.0204248428344727,
      "learning_rate": 1.1641701080329047e-05,
      "loss": 3.5746,
      "step": 419660
    },
    {
      "epoch": 0.8743125,
      "grad_norm": 3.311278820037842,
      "learning_rate": 1.163789338366749e-05,
      "loss": 3.4401,
      "step": 419670
    },
    {
      "epoch": 0.8743333333333333,
      "grad_norm": 2.8115055561065674,
      "learning_rate": 1.1634086284675415e-05,
      "loss": 3.3513,
      "step": 419680
    },
    {
      "epoch": 0.8743541666666667,
      "grad_norm": 2.9716475009918213,
      "learning_rate": 1.163027978336934e-05,
      "loss": 3.3863,
      "step": 419690
    },
    {
      "epoch": 0.874375,
      "grad_norm": 2.3000566959381104,
      "learning_rate": 1.1626473879765703e-05,
      "loss": 3.3615,
      "step": 419700
    },
    {
      "epoch": 0.8743958333333334,
      "grad_norm": 3.2048377990722656,
      "learning_rate": 1.1622668573880889e-05,
      "loss": 3.2896,
      "step": 419710
    },
    {
      "epoch": 0.8744166666666666,
      "grad_norm": 3.0382230281829834,
      "learning_rate": 1.1618863865731403e-05,
      "loss": 3.4129,
      "step": 419720
    },
    {
      "epoch": 0.8744375,
      "grad_norm": 3.2581496238708496,
      "learning_rate": 1.1615059755333666e-05,
      "loss": 3.4199,
      "step": 419730
    },
    {
      "epoch": 0.8744583333333333,
      "grad_norm": 2.4705543518066406,
      "learning_rate": 1.1611256242704048e-05,
      "loss": 3.4766,
      "step": 419740
    },
    {
      "epoch": 0.8744791666666667,
      "grad_norm": 3.413161039352417,
      "learning_rate": 1.1607453327859034e-05,
      "loss": 3.2289,
      "step": 419750
    },
    {
      "epoch": 0.8745,
      "grad_norm": 2.5910112857818604,
      "learning_rate": 1.1603651010815096e-05,
      "loss": 3.4409,
      "step": 419760
    },
    {
      "epoch": 0.8745208333333333,
      "grad_norm": 2.797010898590088,
      "learning_rate": 1.1599849291588537e-05,
      "loss": 3.2817,
      "step": 419770
    },
    {
      "epoch": 0.8745416666666667,
      "grad_norm": 2.154208183288574,
      "learning_rate": 1.1596048170195892e-05,
      "loss": 3.5762,
      "step": 419780
    },
    {
      "epoch": 0.8745625,
      "grad_norm": 2.907961845397949,
      "learning_rate": 1.1592247646653518e-05,
      "loss": 3.5288,
      "step": 419790
    },
    {
      "epoch": 0.8745833333333334,
      "grad_norm": 2.2880170345306396,
      "learning_rate": 1.1588447720977817e-05,
      "loss": 3.363,
      "step": 419800
    },
    {
      "epoch": 0.8746041666666666,
      "grad_norm": 2.3231353759765625,
      "learning_rate": 1.1584648393185292e-05,
      "loss": 3.4252,
      "step": 419810
    },
    {
      "epoch": 0.874625,
      "grad_norm": 4.362112522125244,
      "learning_rate": 1.158084966329228e-05,
      "loss": 3.4324,
      "step": 419820
    },
    {
      "epoch": 0.8746458333333333,
      "grad_norm": 3.157236099243164,
      "learning_rate": 1.1577051531315184e-05,
      "loss": 3.3387,
      "step": 419830
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 2.4511256217956543,
      "learning_rate": 1.1573253997270459e-05,
      "loss": 3.502,
      "step": 419840
    },
    {
      "epoch": 0.8746875,
      "grad_norm": 3.872352123260498,
      "learning_rate": 1.1569457061174458e-05,
      "loss": 3.4172,
      "step": 419850
    },
    {
      "epoch": 0.8747083333333333,
      "grad_norm": 2.3653910160064697,
      "learning_rate": 1.1565660723043635e-05,
      "loss": 3.3927,
      "step": 419860
    },
    {
      "epoch": 0.8747291666666667,
      "grad_norm": 3.2841382026672363,
      "learning_rate": 1.1561864982894342e-05,
      "loss": 3.2955,
      "step": 419870
    },
    {
      "epoch": 0.87475,
      "grad_norm": 2.2152159214019775,
      "learning_rate": 1.1558069840743001e-05,
      "loss": 3.4358,
      "step": 419880
    },
    {
      "epoch": 0.8747708333333334,
      "grad_norm": 2.782224416732788,
      "learning_rate": 1.1554275296605997e-05,
      "loss": 3.4213,
      "step": 419890
    },
    {
      "epoch": 0.8747916666666666,
      "grad_norm": 2.3765182495117188,
      "learning_rate": 1.1550481350499718e-05,
      "loss": 3.3197,
      "step": 419900
    },
    {
      "epoch": 0.8748125,
      "grad_norm": 2.351935386657715,
      "learning_rate": 1.154668800244057e-05,
      "loss": 3.6097,
      "step": 419910
    },
    {
      "epoch": 0.8748333333333334,
      "grad_norm": 2.851640224456787,
      "learning_rate": 1.1542895252444918e-05,
      "loss": 3.4241,
      "step": 419920
    },
    {
      "epoch": 0.8748541666666667,
      "grad_norm": 3.043264389038086,
      "learning_rate": 1.1539103100529168e-05,
      "loss": 3.4971,
      "step": 419930
    },
    {
      "epoch": 0.874875,
      "grad_norm": 2.4193050861358643,
      "learning_rate": 1.1535311546709675e-05,
      "loss": 3.3414,
      "step": 419940
    },
    {
      "epoch": 0.8748958333333333,
      "grad_norm": 2.452484130859375,
      "learning_rate": 1.1531520591002823e-05,
      "loss": 3.5333,
      "step": 419950
    },
    {
      "epoch": 0.8749166666666667,
      "grad_norm": 2.4365971088409424,
      "learning_rate": 1.1527730233424987e-05,
      "loss": 3.5359,
      "step": 419960
    },
    {
      "epoch": 0.8749375,
      "grad_norm": 2.3154819011688232,
      "learning_rate": 1.1523940473992566e-05,
      "loss": 3.4933,
      "step": 419970
    },
    {
      "epoch": 0.8749583333333333,
      "grad_norm": 2.3143227100372314,
      "learning_rate": 1.1520151312721899e-05,
      "loss": 3.3594,
      "step": 419980
    },
    {
      "epoch": 0.8749791666666666,
      "grad_norm": 3.0100865364074707,
      "learning_rate": 1.1516362749629354e-05,
      "loss": 3.4227,
      "step": 419990
    },
    {
      "epoch": 0.875,
      "grad_norm": 2.4182446002960205,
      "learning_rate": 1.151257478473132e-05,
      "loss": 3.455,
      "step": 420000
    },
    {
      "epoch": 0.875,
      "eval_loss": 3.528463363647461,
      "eval_runtime": 6.9266,
      "eval_samples_per_second": 1.444,
      "eval_steps_per_second": 0.433,
      "step": 420000
    },
    {
      "epoch": 0.8750208333333334,
      "grad_norm": 3.2201058864593506,
      "learning_rate": 1.1508787418044168e-05,
      "loss": 3.4476,
      "step": 420010
    },
    {
      "epoch": 0.8750416666666667,
      "grad_norm": 3.1418204307556152,
      "learning_rate": 1.1505000649584184e-05,
      "loss": 3.4424,
      "step": 420020
    },
    {
      "epoch": 0.8750625,
      "grad_norm": 2.531890630722046,
      "learning_rate": 1.1501214479367804e-05,
      "loss": 3.4045,
      "step": 420030
    },
    {
      "epoch": 0.8750833333333333,
      "grad_norm": 2.9501640796661377,
      "learning_rate": 1.1497428907411383e-05,
      "loss": 3.4891,
      "step": 420040
    },
    {
      "epoch": 0.8751041666666667,
      "grad_norm": 2.6201932430267334,
      "learning_rate": 1.149364393373119e-05,
      "loss": 3.2486,
      "step": 420050
    },
    {
      "epoch": 0.875125,
      "grad_norm": 2.254088878631592,
      "learning_rate": 1.1489859558343645e-05,
      "loss": 3.3859,
      "step": 420060
    },
    {
      "epoch": 0.8751458333333333,
      "grad_norm": 3.0558254718780518,
      "learning_rate": 1.148607578126512e-05,
      "loss": 3.4789,
      "step": 420070
    },
    {
      "epoch": 0.8751666666666666,
      "grad_norm": 3.168238401412964,
      "learning_rate": 1.1482292602511867e-05,
      "loss": 3.4378,
      "step": 420080
    },
    {
      "epoch": 0.8751875,
      "grad_norm": 2.273892641067505,
      "learning_rate": 1.1478510022100307e-05,
      "loss": 3.544,
      "step": 420090
    },
    {
      "epoch": 0.8752083333333334,
      "grad_norm": 2.076164484024048,
      "learning_rate": 1.1474728040046793e-05,
      "loss": 3.5034,
      "step": 420100
    },
    {
      "epoch": 0.8752291666666666,
      "grad_norm": 2.4762213230133057,
      "learning_rate": 1.147094665636758e-05,
      "loss": 3.2308,
      "step": 420110
    },
    {
      "epoch": 0.87525,
      "grad_norm": 2.946565866470337,
      "learning_rate": 1.146716587107902e-05,
      "loss": 3.4091,
      "step": 420120
    },
    {
      "epoch": 0.8752708333333333,
      "grad_norm": 2.271303415298462,
      "learning_rate": 1.1463385684197517e-05,
      "loss": 3.4552,
      "step": 420130
    },
    {
      "epoch": 0.8752916666666667,
      "grad_norm": 2.727165460586548,
      "learning_rate": 1.1459606095739327e-05,
      "loss": 3.3744,
      "step": 420140
    },
    {
      "epoch": 0.8753125,
      "grad_norm": 2.64015531539917,
      "learning_rate": 1.14558271057208e-05,
      "loss": 3.2481,
      "step": 420150
    },
    {
      "epoch": 0.8753333333333333,
      "grad_norm": 2.3989627361297607,
      "learning_rate": 1.1452048714158258e-05,
      "loss": 3.4476,
      "step": 420160
    },
    {
      "epoch": 0.8753541666666667,
      "grad_norm": 2.855247735977173,
      "learning_rate": 1.1448270921068036e-05,
      "loss": 3.4634,
      "step": 420170
    },
    {
      "epoch": 0.875375,
      "grad_norm": 2.8093361854553223,
      "learning_rate": 1.1444493726466424e-05,
      "loss": 3.659,
      "step": 420180
    },
    {
      "epoch": 0.8753958333333334,
      "grad_norm": 2.907764434814453,
      "learning_rate": 1.1440717130369775e-05,
      "loss": 3.4124,
      "step": 420190
    },
    {
      "epoch": 0.8754166666666666,
      "grad_norm": 2.377197265625,
      "learning_rate": 1.1436941132794376e-05,
      "loss": 3.5644,
      "step": 420200
    },
    {
      "epoch": 0.8754375,
      "grad_norm": 3.4270169734954834,
      "learning_rate": 1.1433165733756528e-05,
      "loss": 3.3938,
      "step": 420210
    },
    {
      "epoch": 0.8754583333333333,
      "grad_norm": 3.423401355743408,
      "learning_rate": 1.142939093327257e-05,
      "loss": 3.326,
      "step": 420220
    },
    {
      "epoch": 0.8754791666666667,
      "grad_norm": 3.1971399784088135,
      "learning_rate": 1.1425616731358789e-05,
      "loss": 3.4226,
      "step": 420230
    },
    {
      "epoch": 0.8755,
      "grad_norm": 3.12748384475708,
      "learning_rate": 1.1421843128031506e-05,
      "loss": 3.5721,
      "step": 420240
    },
    {
      "epoch": 0.8755208333333333,
      "grad_norm": 2.795180082321167,
      "learning_rate": 1.1418070123306989e-05,
      "loss": 3.4646,
      "step": 420250
    },
    {
      "epoch": 0.8755416666666667,
      "grad_norm": 2.6531310081481934,
      "learning_rate": 1.1414297717201558e-05,
      "loss": 3.3595,
      "step": 420260
    },
    {
      "epoch": 0.8755625,
      "grad_norm": 2.8816616535186768,
      "learning_rate": 1.1410525909731522e-05,
      "loss": 3.4393,
      "step": 420270
    },
    {
      "epoch": 0.8755833333333334,
      "grad_norm": 3.4318978786468506,
      "learning_rate": 1.1406754700913128e-05,
      "loss": 3.2248,
      "step": 420280
    },
    {
      "epoch": 0.8756041666666666,
      "grad_norm": 2.744818925857544,
      "learning_rate": 1.1402984090762718e-05,
      "loss": 3.4269,
      "step": 420290
    },
    {
      "epoch": 0.875625,
      "grad_norm": 2.5978739261627197,
      "learning_rate": 1.1399214079296542e-05,
      "loss": 3.5275,
      "step": 420300
    },
    {
      "epoch": 0.8756458333333333,
      "grad_norm": 2.856581449508667,
      "learning_rate": 1.1395444666530907e-05,
      "loss": 3.4308,
      "step": 420310
    },
    {
      "epoch": 0.8756666666666667,
      "grad_norm": 2.1837620735168457,
      "learning_rate": 1.1391675852482096e-05,
      "loss": 3.6247,
      "step": 420320
    },
    {
      "epoch": 0.8756875,
      "grad_norm": 2.784586191177368,
      "learning_rate": 1.1387907637166366e-05,
      "loss": 3.5342,
      "step": 420330
    },
    {
      "epoch": 0.8757083333333333,
      "grad_norm": 2.592066764831543,
      "learning_rate": 1.1384140020600002e-05,
      "loss": 3.4377,
      "step": 420340
    },
    {
      "epoch": 0.8757291666666667,
      "grad_norm": 3.209670305252075,
      "learning_rate": 1.1380373002799308e-05,
      "loss": 3.3255,
      "step": 420350
    },
    {
      "epoch": 0.87575,
      "grad_norm": 3.0121939182281494,
      "learning_rate": 1.1376606583780506e-05,
      "loss": 3.4675,
      "step": 420360
    },
    {
      "epoch": 0.8757708333333334,
      "grad_norm": 3.3606464862823486,
      "learning_rate": 1.1372840763559915e-05,
      "loss": 3.4963,
      "step": 420370
    },
    {
      "epoch": 0.8757916666666666,
      "grad_norm": 2.5678584575653076,
      "learning_rate": 1.1369075542153805e-05,
      "loss": 3.4219,
      "step": 420380
    },
    {
      "epoch": 0.8758125,
      "grad_norm": 2.3978679180145264,
      "learning_rate": 1.1365310919578346e-05,
      "loss": 3.4575,
      "step": 420390
    },
    {
      "epoch": 0.8758333333333334,
      "grad_norm": 2.750007152557373,
      "learning_rate": 1.136154689584991e-05,
      "loss": 3.2824,
      "step": 420400
    },
    {
      "epoch": 0.8758541666666667,
      "grad_norm": 2.5156662464141846,
      "learning_rate": 1.1357783470984732e-05,
      "loss": 3.2789,
      "step": 420410
    },
    {
      "epoch": 0.875875,
      "grad_norm": 4.521395683288574,
      "learning_rate": 1.1354020644999018e-05,
      "loss": 3.3187,
      "step": 420420
    },
    {
      "epoch": 0.8758958333333333,
      "grad_norm": 2.135347843170166,
      "learning_rate": 1.1350258417909053e-05,
      "loss": 3.4379,
      "step": 420430
    },
    {
      "epoch": 0.8759166666666667,
      "grad_norm": 3.2310943603515625,
      "learning_rate": 1.1346496789731124e-05,
      "loss": 3.4929,
      "step": 420440
    },
    {
      "epoch": 0.8759375,
      "grad_norm": 3.1442036628723145,
      "learning_rate": 1.134273576048142e-05,
      "loss": 3.6737,
      "step": 420450
    },
    {
      "epoch": 0.8759583333333333,
      "grad_norm": 2.5650408267974854,
      "learning_rate": 1.1338975330176192e-05,
      "loss": 3.3731,
      "step": 420460
    },
    {
      "epoch": 0.8759791666666666,
      "grad_norm": 2.378333806991577,
      "learning_rate": 1.1335215498831762e-05,
      "loss": 3.5555,
      "step": 420470
    },
    {
      "epoch": 0.876,
      "grad_norm": 2.4306116104125977,
      "learning_rate": 1.1331456266464267e-05,
      "loss": 3.5671,
      "step": 420480
    },
    {
      "epoch": 0.8760208333333334,
      "grad_norm": 2.620302200317383,
      "learning_rate": 1.1327697633089994e-05,
      "loss": 3.3002,
      "step": 420490
    },
    {
      "epoch": 0.8760416666666667,
      "grad_norm": 2.7032763957977295,
      "learning_rate": 1.1323939598725212e-05,
      "loss": 3.3992,
      "step": 420500
    },
    {
      "epoch": 0.8760625,
      "grad_norm": 4.022644996643066,
      "learning_rate": 1.1320182163386094e-05,
      "loss": 3.3484,
      "step": 420510
    },
    {
      "epoch": 0.8760833333333333,
      "grad_norm": 2.4347057342529297,
      "learning_rate": 1.131642532708889e-05,
      "loss": 3.4342,
      "step": 420520
    },
    {
      "epoch": 0.8761041666666667,
      "grad_norm": 2.5810530185699463,
      "learning_rate": 1.1312669089849841e-05,
      "loss": 3.4189,
      "step": 420530
    },
    {
      "epoch": 0.876125,
      "grad_norm": 3.395805835723877,
      "learning_rate": 1.1308913451685181e-05,
      "loss": 3.501,
      "step": 420540
    },
    {
      "epoch": 0.8761458333333333,
      "grad_norm": 3.2898948192596436,
      "learning_rate": 1.1305158412611099e-05,
      "loss": 3.4222,
      "step": 420550
    },
    {
      "epoch": 0.8761666666666666,
      "grad_norm": 2.4336230754852295,
      "learning_rate": 1.130140397264383e-05,
      "loss": 3.4917,
      "step": 420560
    },
    {
      "epoch": 0.8761875,
      "grad_norm": 2.4278478622436523,
      "learning_rate": 1.1297650131799596e-05,
      "loss": 3.3984,
      "step": 420570
    },
    {
      "epoch": 0.8762083333333334,
      "grad_norm": 3.719186544418335,
      "learning_rate": 1.1293896890094618e-05,
      "loss": 3.432,
      "step": 420580
    },
    {
      "epoch": 0.8762291666666666,
      "grad_norm": 2.7980077266693115,
      "learning_rate": 1.1290144247545114e-05,
      "loss": 3.3626,
      "step": 420590
    },
    {
      "epoch": 0.87625,
      "grad_norm": 3.704246759414673,
      "learning_rate": 1.1286392204167255e-05,
      "loss": 3.4675,
      "step": 420600
    },
    {
      "epoch": 0.8762708333333333,
      "grad_norm": 2.67327880859375,
      "learning_rate": 1.1282640759977297e-05,
      "loss": 3.4902,
      "step": 420610
    },
    {
      "epoch": 0.8762916666666667,
      "grad_norm": 3.208848714828491,
      "learning_rate": 1.1278889914991406e-05,
      "loss": 3.4032,
      "step": 420620
    },
    {
      "epoch": 0.8763125,
      "grad_norm": 4.073280334472656,
      "learning_rate": 1.1275139669225824e-05,
      "loss": 3.396,
      "step": 420630
    },
    {
      "epoch": 0.8763333333333333,
      "grad_norm": 3.0553979873657227,
      "learning_rate": 1.1271390022696703e-05,
      "loss": 3.4122,
      "step": 420640
    },
    {
      "epoch": 0.8763541666666667,
      "grad_norm": 3.2371511459350586,
      "learning_rate": 1.1267640975420279e-05,
      "loss": 3.4474,
      "step": 420650
    },
    {
      "epoch": 0.876375,
      "grad_norm": 2.554640293121338,
      "learning_rate": 1.126389252741272e-05,
      "loss": 3.421,
      "step": 420660
    },
    {
      "epoch": 0.8763958333333334,
      "grad_norm": 2.880051612854004,
      "learning_rate": 1.1260144678690236e-05,
      "loss": 3.5442,
      "step": 420670
    },
    {
      "epoch": 0.8764166666666666,
      "grad_norm": 3.711782217025757,
      "learning_rate": 1.125639742926901e-05,
      "loss": 3.4651,
      "step": 420680
    },
    {
      "epoch": 0.8764375,
      "grad_norm": 2.6469411849975586,
      "learning_rate": 1.1252650779165228e-05,
      "loss": 3.4789,
      "step": 420690
    },
    {
      "epoch": 0.8764583333333333,
      "grad_norm": 3.5635571479797363,
      "learning_rate": 1.1248904728395113e-05,
      "loss": 3.4146,
      "step": 420700
    },
    {
      "epoch": 0.8764791666666667,
      "grad_norm": 2.5795929431915283,
      "learning_rate": 1.1245159276974735e-05,
      "loss": 3.3895,
      "step": 420710
    },
    {
      "epoch": 0.8765,
      "grad_norm": 2.3946847915649414,
      "learning_rate": 1.124141442492038e-05,
      "loss": 3.5448,
      "step": 420720
    },
    {
      "epoch": 0.8765208333333333,
      "grad_norm": 3.1693358421325684,
      "learning_rate": 1.123767017224822e-05,
      "loss": 3.4514,
      "step": 420730
    },
    {
      "epoch": 0.8765416666666667,
      "grad_norm": 2.7499427795410156,
      "learning_rate": 1.1233926518974356e-05,
      "loss": 3.3949,
      "step": 420740
    },
    {
      "epoch": 0.8765625,
      "grad_norm": 3.0339479446411133,
      "learning_rate": 1.1230183465115044e-05,
      "loss": 3.4607,
      "step": 420750
    },
    {
      "epoch": 0.8765833333333334,
      "grad_norm": 2.972529411315918,
      "learning_rate": 1.1226441010686371e-05,
      "loss": 3.4772,
      "step": 420760
    },
    {
      "epoch": 0.8766041666666666,
      "grad_norm": 2.746561288833618,
      "learning_rate": 1.122269915570454e-05,
      "loss": 3.449,
      "step": 420770
    },
    {
      "epoch": 0.876625,
      "grad_norm": 2.7221267223358154,
      "learning_rate": 1.1218957900185755e-05,
      "loss": 3.4385,
      "step": 420780
    },
    {
      "epoch": 0.8766458333333333,
      "grad_norm": 2.2340500354766846,
      "learning_rate": 1.121521724414612e-05,
      "loss": 3.4258,
      "step": 420790
    },
    {
      "epoch": 0.8766666666666667,
      "grad_norm": 2.7932937145233154,
      "learning_rate": 1.121147718760177e-05,
      "loss": 3.4222,
      "step": 420800
    },
    {
      "epoch": 0.8766875,
      "grad_norm": 2.355760097503662,
      "learning_rate": 1.1207737730568977e-05,
      "loss": 3.4111,
      "step": 420810
    },
    {
      "epoch": 0.8767083333333333,
      "grad_norm": 2.6489853858947754,
      "learning_rate": 1.120399887306378e-05,
      "loss": 3.5214,
      "step": 420820
    },
    {
      "epoch": 0.8767291666666667,
      "grad_norm": 2.3811392784118652,
      "learning_rate": 1.1200260615102347e-05,
      "loss": 3.4332,
      "step": 420830
    },
    {
      "epoch": 0.87675,
      "grad_norm": 2.5392653942108154,
      "learning_rate": 1.1196522956700882e-05,
      "loss": 3.4189,
      "step": 420840
    },
    {
      "epoch": 0.8767708333333334,
      "grad_norm": 2.790025234222412,
      "learning_rate": 1.119278589787549e-05,
      "loss": 3.4549,
      "step": 420850
    },
    {
      "epoch": 0.8767916666666666,
      "grad_norm": 2.7579116821289062,
      "learning_rate": 1.118904943864229e-05,
      "loss": 3.3262,
      "step": 420860
    },
    {
      "epoch": 0.8768125,
      "grad_norm": 2.569652795791626,
      "learning_rate": 1.1185313579017501e-05,
      "loss": 3.4983,
      "step": 420870
    },
    {
      "epoch": 0.8768333333333334,
      "grad_norm": 2.8962149620056152,
      "learning_rate": 1.1181578319017182e-05,
      "loss": 3.2852,
      "step": 420880
    },
    {
      "epoch": 0.8768541666666667,
      "grad_norm": 2.734968900680542,
      "learning_rate": 1.1177843658657498e-05,
      "loss": 3.4764,
      "step": 420890
    },
    {
      "epoch": 0.876875,
      "grad_norm": 3.848951816558838,
      "learning_rate": 1.117410959795459e-05,
      "loss": 3.3957,
      "step": 420900
    },
    {
      "epoch": 0.8768958333333333,
      "grad_norm": 2.258364677429199,
      "learning_rate": 1.1170376136924558e-05,
      "loss": 3.4143,
      "step": 420910
    },
    {
      "epoch": 0.8769166666666667,
      "grad_norm": 2.2373342514038086,
      "learning_rate": 1.1166643275583559e-05,
      "loss": 3.535,
      "step": 420920
    },
    {
      "epoch": 0.8769375,
      "grad_norm": 2.890810966491699,
      "learning_rate": 1.1162911013947712e-05,
      "loss": 3.4444,
      "step": 420930
    },
    {
      "epoch": 0.8769583333333333,
      "grad_norm": 2.3641209602355957,
      "learning_rate": 1.1159179352033121e-05,
      "loss": 3.3433,
      "step": 420940
    },
    {
      "epoch": 0.8769791666666666,
      "grad_norm": 3.1993725299835205,
      "learning_rate": 1.1155448289855923e-05,
      "loss": 3.4779,
      "step": 420950
    },
    {
      "epoch": 0.877,
      "grad_norm": 2.8683674335479736,
      "learning_rate": 1.1151717827432239e-05,
      "loss": 3.4867,
      "step": 420960
    },
    {
      "epoch": 0.8770208333333334,
      "grad_norm": 2.745784282684326,
      "learning_rate": 1.114798796477817e-05,
      "loss": 3.5134,
      "step": 420970
    },
    {
      "epoch": 0.8770416666666667,
      "grad_norm": 2.6918957233428955,
      "learning_rate": 1.1144258701909825e-05,
      "loss": 3.4333,
      "step": 420980
    },
    {
      "epoch": 0.8770625,
      "grad_norm": 2.633612871170044,
      "learning_rate": 1.114053003884332e-05,
      "loss": 3.4947,
      "step": 420990
    },
    {
      "epoch": 0.8770833333333333,
      "grad_norm": 3.2579643726348877,
      "learning_rate": 1.1136801975594777e-05,
      "loss": 3.4319,
      "step": 421000
    },
    {
      "epoch": 0.8770833333333333,
      "eval_loss": 3.528130054473877,
      "eval_runtime": 7.3219,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 421000
    },
    {
      "epoch": 0.8771041666666667,
      "grad_norm": 3.4658138751983643,
      "learning_rate": 1.1133074512180285e-05,
      "loss": 3.3459,
      "step": 421010
    },
    {
      "epoch": 0.877125,
      "grad_norm": 3.0967133045196533,
      "learning_rate": 1.112934764861591e-05,
      "loss": 3.4158,
      "step": 421020
    },
    {
      "epoch": 0.8771458333333333,
      "grad_norm": 3.1293370723724365,
      "learning_rate": 1.112562138491781e-05,
      "loss": 3.3756,
      "step": 421030
    },
    {
      "epoch": 0.8771666666666667,
      "grad_norm": 2.855595588684082,
      "learning_rate": 1.112189572110207e-05,
      "loss": 3.5322,
      "step": 421040
    },
    {
      "epoch": 0.8771875,
      "grad_norm": 2.6891093254089355,
      "learning_rate": 1.1118170657184728e-05,
      "loss": 3.3792,
      "step": 421050
    },
    {
      "epoch": 0.8772083333333334,
      "grad_norm": 2.7801952362060547,
      "learning_rate": 1.1114446193181936e-05,
      "loss": 3.5224,
      "step": 421060
    },
    {
      "epoch": 0.8772291666666666,
      "grad_norm": 2.9108848571777344,
      "learning_rate": 1.1110722329109783e-05,
      "loss": 3.2371,
      "step": 421070
    },
    {
      "epoch": 0.87725,
      "grad_norm": 2.506174325942993,
      "learning_rate": 1.110699906498429e-05,
      "loss": 3.3453,
      "step": 421080
    },
    {
      "epoch": 0.8772708333333333,
      "grad_norm": 2.4056286811828613,
      "learning_rate": 1.1103276400821593e-05,
      "loss": 3.4965,
      "step": 421090
    },
    {
      "epoch": 0.8772916666666667,
      "grad_norm": 2.5341732501983643,
      "learning_rate": 1.109955433663781e-05,
      "loss": 3.4931,
      "step": 421100
    },
    {
      "epoch": 0.8773125,
      "grad_norm": 2.3567299842834473,
      "learning_rate": 1.1095832872448902e-05,
      "loss": 3.4277,
      "step": 421110
    },
    {
      "epoch": 0.8773333333333333,
      "grad_norm": 3.36725115776062,
      "learning_rate": 1.1092112008271048e-05,
      "loss": 3.4644,
      "step": 421120
    },
    {
      "epoch": 0.8773541666666667,
      "grad_norm": 3.3476881980895996,
      "learning_rate": 1.1088391744120324e-05,
      "loss": 3.4048,
      "step": 421130
    },
    {
      "epoch": 0.877375,
      "grad_norm": 3.512314558029175,
      "learning_rate": 1.1084672080012696e-05,
      "loss": 3.4704,
      "step": 421140
    },
    {
      "epoch": 0.8773958333333334,
      "grad_norm": 2.415745735168457,
      "learning_rate": 1.1080953015964356e-05,
      "loss": 3.4175,
      "step": 421150
    },
    {
      "epoch": 0.8774166666666666,
      "grad_norm": 3.167564630508423,
      "learning_rate": 1.1077234551991271e-05,
      "loss": 3.3332,
      "step": 421160
    },
    {
      "epoch": 0.8774375,
      "grad_norm": 1.966538906097412,
      "learning_rate": 1.107351668810953e-05,
      "loss": 3.456,
      "step": 421170
    },
    {
      "epoch": 0.8774583333333333,
      "grad_norm": 2.664374828338623,
      "learning_rate": 1.1069799424335269e-05,
      "loss": 3.4301,
      "step": 421180
    },
    {
      "epoch": 0.8774791666666667,
      "grad_norm": 2.4460697174072266,
      "learning_rate": 1.1066082760684442e-05,
      "loss": 3.568,
      "step": 421190
    },
    {
      "epoch": 0.8775,
      "grad_norm": 2.0648112297058105,
      "learning_rate": 1.106236669717312e-05,
      "loss": 3.3285,
      "step": 421200
    },
    {
      "epoch": 0.8775208333333333,
      "grad_norm": 3.159680128097534,
      "learning_rate": 1.1058651233817423e-05,
      "loss": 3.4629,
      "step": 421210
    },
    {
      "epoch": 0.8775416666666667,
      "grad_norm": 2.729678153991699,
      "learning_rate": 1.1054936370633339e-05,
      "loss": 3.4349,
      "step": 421220
    },
    {
      "epoch": 0.8775625,
      "grad_norm": 1.9363609552383423,
      "learning_rate": 1.1051222107636904e-05,
      "loss": 3.3757,
      "step": 421230
    },
    {
      "epoch": 0.8775833333333334,
      "grad_norm": 2.518129348754883,
      "learning_rate": 1.1047508444844239e-05,
      "loss": 3.3379,
      "step": 421240
    },
    {
      "epoch": 0.8776041666666666,
      "grad_norm": 3.1313512325286865,
      "learning_rate": 1.1043795382271314e-05,
      "loss": 3.4216,
      "step": 421250
    },
    {
      "epoch": 0.877625,
      "grad_norm": 3.1212806701660156,
      "learning_rate": 1.1040082919934168e-05,
      "loss": 3.3867,
      "step": 421260
    },
    {
      "epoch": 0.8776458333333333,
      "grad_norm": 2.5450985431671143,
      "learning_rate": 1.1036371057848903e-05,
      "loss": 3.4343,
      "step": 421270
    },
    {
      "epoch": 0.8776666666666667,
      "grad_norm": 2.9431002140045166,
      "learning_rate": 1.103265979603149e-05,
      "loss": 3.2506,
      "step": 421280
    },
    {
      "epoch": 0.8776875,
      "grad_norm": 2.3695595264434814,
      "learning_rate": 1.1028949134497966e-05,
      "loss": 3.41,
      "step": 421290
    },
    {
      "epoch": 0.8777083333333333,
      "grad_norm": 3.3631725311279297,
      "learning_rate": 1.1025239073264387e-05,
      "loss": 3.3778,
      "step": 421300
    },
    {
      "epoch": 0.8777291666666667,
      "grad_norm": 3.214174509048462,
      "learning_rate": 1.1021529612346769e-05,
      "loss": 3.4045,
      "step": 421310
    },
    {
      "epoch": 0.87775,
      "grad_norm": 2.8684277534484863,
      "learning_rate": 1.101782075176112e-05,
      "loss": 3.6434,
      "step": 421320
    },
    {
      "epoch": 0.8777708333333333,
      "grad_norm": 2.322044849395752,
      "learning_rate": 1.1014112491523475e-05,
      "loss": 3.4833,
      "step": 421330
    },
    {
      "epoch": 0.8777916666666666,
      "grad_norm": 2.7622790336608887,
      "learning_rate": 1.1010404831649855e-05,
      "loss": 3.4101,
      "step": 421340
    },
    {
      "epoch": 0.8778125,
      "grad_norm": 2.747357130050659,
      "learning_rate": 1.1006697772156264e-05,
      "loss": 3.2851,
      "step": 421350
    },
    {
      "epoch": 0.8778333333333334,
      "grad_norm": 2.9278242588043213,
      "learning_rate": 1.1002991313058724e-05,
      "loss": 3.4998,
      "step": 421360
    },
    {
      "epoch": 0.8778541666666667,
      "grad_norm": 2.8380279541015625,
      "learning_rate": 1.0999285454373253e-05,
      "loss": 3.3637,
      "step": 421370
    },
    {
      "epoch": 0.877875,
      "grad_norm": 2.7866575717926025,
      "learning_rate": 1.0995580196115855e-05,
      "loss": 3.226,
      "step": 421380
    },
    {
      "epoch": 0.8778958333333333,
      "grad_norm": 3.356259822845459,
      "learning_rate": 1.0991875538302486e-05,
      "loss": 3.3572,
      "step": 421390
    },
    {
      "epoch": 0.8779166666666667,
      "grad_norm": 2.6953608989715576,
      "learning_rate": 1.0988171480949216e-05,
      "loss": 3.2829,
      "step": 421400
    },
    {
      "epoch": 0.8779375,
      "grad_norm": 2.324277639389038,
      "learning_rate": 1.0984468024072047e-05,
      "loss": 3.4319,
      "step": 421410
    },
    {
      "epoch": 0.8779583333333333,
      "grad_norm": 2.5450870990753174,
      "learning_rate": 1.09807651676869e-05,
      "loss": 3.4893,
      "step": 421420
    },
    {
      "epoch": 0.8779791666666666,
      "grad_norm": 2.887209892272949,
      "learning_rate": 1.0977062911809847e-05,
      "loss": 3.505,
      "step": 421430
    },
    {
      "epoch": 0.878,
      "grad_norm": 2.9563910961151123,
      "learning_rate": 1.0973361256456876e-05,
      "loss": 3.5142,
      "step": 421440
    },
    {
      "epoch": 0.8780208333333334,
      "grad_norm": 2.316815137863159,
      "learning_rate": 1.0969660201643904e-05,
      "loss": 3.6154,
      "step": 421450
    },
    {
      "epoch": 0.8780416666666667,
      "grad_norm": 2.943795680999756,
      "learning_rate": 1.0965959747386988e-05,
      "loss": 3.3817,
      "step": 421460
    },
    {
      "epoch": 0.8780625,
      "grad_norm": 3.638745069503784,
      "learning_rate": 1.096225989370213e-05,
      "loss": 3.3928,
      "step": 421470
    },
    {
      "epoch": 0.8780833333333333,
      "grad_norm": 3.9586100578308105,
      "learning_rate": 1.0958560640605219e-05,
      "loss": 3.5619,
      "step": 421480
    },
    {
      "epoch": 0.8781041666666667,
      "grad_norm": 3.313485860824585,
      "learning_rate": 1.0954861988112306e-05,
      "loss": 3.5513,
      "step": 421490
    },
    {
      "epoch": 0.878125,
      "grad_norm": 2.54693341255188,
      "learning_rate": 1.0951163936239382e-05,
      "loss": 3.3832,
      "step": 421500
    },
    {
      "epoch": 0.8781458333333333,
      "grad_norm": 3.7184267044067383,
      "learning_rate": 1.0947466485002348e-05,
      "loss": 3.495,
      "step": 421510
    },
    {
      "epoch": 0.8781666666666667,
      "grad_norm": 2.381247043609619,
      "learning_rate": 1.094376963441726e-05,
      "loss": 3.4561,
      "step": 421520
    },
    {
      "epoch": 0.8781875,
      "grad_norm": 3.4026012420654297,
      "learning_rate": 1.094007338450002e-05,
      "loss": 3.4371,
      "step": 421530
    },
    {
      "epoch": 0.8782083333333334,
      "grad_norm": 2.483581781387329,
      "learning_rate": 1.0936377735266582e-05,
      "loss": 3.5042,
      "step": 421540
    },
    {
      "epoch": 0.8782291666666666,
      "grad_norm": 3.860931396484375,
      "learning_rate": 1.093268268673302e-05,
      "loss": 3.4058,
      "step": 421550
    },
    {
      "epoch": 0.87825,
      "grad_norm": 2.131416082382202,
      "learning_rate": 1.0928988238915182e-05,
      "loss": 3.4895,
      "step": 421560
    },
    {
      "epoch": 0.8782708333333333,
      "grad_norm": 2.246891736984253,
      "learning_rate": 1.0925294391829043e-05,
      "loss": 3.3934,
      "step": 421570
    },
    {
      "epoch": 0.8782916666666667,
      "grad_norm": 2.6261768341064453,
      "learning_rate": 1.0921601145490638e-05,
      "loss": 3.5815,
      "step": 421580
    },
    {
      "epoch": 0.8783125,
      "grad_norm": 2.7299294471740723,
      "learning_rate": 1.091790849991584e-05,
      "loss": 3.3626,
      "step": 421590
    },
    {
      "epoch": 0.8783333333333333,
      "grad_norm": 2.73433256149292,
      "learning_rate": 1.0914216455120633e-05,
      "loss": 3.3485,
      "step": 421600
    },
    {
      "epoch": 0.8783541666666667,
      "grad_norm": 3.4027655124664307,
      "learning_rate": 1.0910525011120941e-05,
      "loss": 3.4022,
      "step": 421610
    },
    {
      "epoch": 0.878375,
      "grad_norm": 2.9604008197784424,
      "learning_rate": 1.0906834167932732e-05,
      "loss": 3.3643,
      "step": 421620
    },
    {
      "epoch": 0.8783958333333334,
      "grad_norm": 2.7187154293060303,
      "learning_rate": 1.0903143925571944e-05,
      "loss": 3.4264,
      "step": 421630
    },
    {
      "epoch": 0.8784166666666666,
      "grad_norm": 5.391693115234375,
      "learning_rate": 1.0899454284054515e-05,
      "loss": 3.505,
      "step": 421640
    },
    {
      "epoch": 0.8784375,
      "grad_norm": 2.9434220790863037,
      "learning_rate": 1.0895765243396382e-05,
      "loss": 3.4808,
      "step": 421650
    },
    {
      "epoch": 0.8784583333333333,
      "grad_norm": 3.217665672302246,
      "learning_rate": 1.089207680361348e-05,
      "loss": 3.3315,
      "step": 421660
    },
    {
      "epoch": 0.8784791666666667,
      "grad_norm": 2.54453706741333,
      "learning_rate": 1.088838896472175e-05,
      "loss": 3.4622,
      "step": 421670
    },
    {
      "epoch": 0.8785,
      "grad_norm": 2.6743004322052,
      "learning_rate": 1.088470172673711e-05,
      "loss": 3.3255,
      "step": 421680
    },
    {
      "epoch": 0.8785208333333333,
      "grad_norm": 2.7967562675476074,
      "learning_rate": 1.0881015089675482e-05,
      "loss": 3.4192,
      "step": 421690
    },
    {
      "epoch": 0.8785416666666667,
      "grad_norm": 2.3096940517425537,
      "learning_rate": 1.0877329053552819e-05,
      "loss": 3.3668,
      "step": 421700
    },
    {
      "epoch": 0.8785625,
      "grad_norm": 3.001164674758911,
      "learning_rate": 1.0873643618385026e-05,
      "loss": 3.3597,
      "step": 421710
    },
    {
      "epoch": 0.8785833333333334,
      "grad_norm": 2.5334455966949463,
      "learning_rate": 1.0869958784188022e-05,
      "loss": 3.4847,
      "step": 421720
    },
    {
      "epoch": 0.8786041666666666,
      "grad_norm": 3.204296350479126,
      "learning_rate": 1.086627455097771e-05,
      "loss": 3.2868,
      "step": 421730
    },
    {
      "epoch": 0.878625,
      "grad_norm": 3.2672784328460693,
      "learning_rate": 1.086259091877003e-05,
      "loss": 3.4866,
      "step": 421740
    },
    {
      "epoch": 0.8786458333333333,
      "grad_norm": 3.3554115295410156,
      "learning_rate": 1.0858907887580903e-05,
      "loss": 3.3909,
      "step": 421750
    },
    {
      "epoch": 0.8786666666666667,
      "grad_norm": 2.6610891819000244,
      "learning_rate": 1.0855225457426181e-05,
      "loss": 3.4486,
      "step": 421760
    },
    {
      "epoch": 0.8786875,
      "grad_norm": 2.6277856826782227,
      "learning_rate": 1.0851543628321819e-05,
      "loss": 3.3426,
      "step": 421770
    },
    {
      "epoch": 0.8787083333333333,
      "grad_norm": 2.6048622131347656,
      "learning_rate": 1.0847862400283735e-05,
      "loss": 3.391,
      "step": 421780
    },
    {
      "epoch": 0.8787291666666667,
      "grad_norm": 3.5411391258239746,
      "learning_rate": 1.084418177332777e-05,
      "loss": 3.503,
      "step": 421790
    },
    {
      "epoch": 0.87875,
      "grad_norm": 2.5849111080169678,
      "learning_rate": 1.084050174746986e-05,
      "loss": 3.5028,
      "step": 421800
    },
    {
      "epoch": 0.8787708333333333,
      "grad_norm": 3.0665860176086426,
      "learning_rate": 1.083682232272594e-05,
      "loss": 3.3385,
      "step": 421810
    },
    {
      "epoch": 0.8787916666666666,
      "grad_norm": 2.5146572589874268,
      "learning_rate": 1.0833143499111819e-05,
      "loss": 3.4392,
      "step": 421820
    },
    {
      "epoch": 0.8788125,
      "grad_norm": 2.614264726638794,
      "learning_rate": 1.0829465276643445e-05,
      "loss": 3.4444,
      "step": 421830
    },
    {
      "epoch": 0.8788333333333334,
      "grad_norm": 2.706915855407715,
      "learning_rate": 1.0825787655336726e-05,
      "loss": 3.3955,
      "step": 421840
    },
    {
      "epoch": 0.8788541666666667,
      "grad_norm": 2.996042251586914,
      "learning_rate": 1.0822110635207448e-05,
      "loss": 3.316,
      "step": 421850
    },
    {
      "epoch": 0.878875,
      "grad_norm": 2.4698486328125,
      "learning_rate": 1.0818434216271599e-05,
      "loss": 3.4151,
      "step": 421860
    },
    {
      "epoch": 0.8788958333333333,
      "grad_norm": 3.6261274814605713,
      "learning_rate": 1.0814758398545048e-05,
      "loss": 3.3785,
      "step": 421870
    },
    {
      "epoch": 0.8789166666666667,
      "grad_norm": 3.1950390338897705,
      "learning_rate": 1.0811083182043634e-05,
      "loss": 3.407,
      "step": 421880
    },
    {
      "epoch": 0.8789375,
      "grad_norm": 3.2264039516448975,
      "learning_rate": 1.0807408566783226e-05,
      "loss": 3.5583,
      "step": 421890
    },
    {
      "epoch": 0.8789583333333333,
      "grad_norm": 2.4512734413146973,
      "learning_rate": 1.080373455277973e-05,
      "loss": 3.5424,
      "step": 421900
    },
    {
      "epoch": 0.8789791666666666,
      "grad_norm": 2.9844470024108887,
      "learning_rate": 1.0800061140048999e-05,
      "loss": 3.4726,
      "step": 421910
    },
    {
      "epoch": 0.879,
      "grad_norm": 3.1478898525238037,
      "learning_rate": 1.0796388328606904e-05,
      "loss": 3.5094,
      "step": 421920
    },
    {
      "epoch": 0.8790208333333334,
      "grad_norm": 3.0302116870880127,
      "learning_rate": 1.0792716118469297e-05,
      "loss": 3.4843,
      "step": 421930
    },
    {
      "epoch": 0.8790416666666667,
      "grad_norm": 2.8137431144714355,
      "learning_rate": 1.0789044509652067e-05,
      "loss": 3.4808,
      "step": 421940
    },
    {
      "epoch": 0.8790625,
      "grad_norm": 2.2907981872558594,
      "learning_rate": 1.0785373502171068e-05,
      "loss": 3.3133,
      "step": 421950
    },
    {
      "epoch": 0.8790833333333333,
      "grad_norm": 3.743877649307251,
      "learning_rate": 1.0781703096042137e-05,
      "loss": 3.3185,
      "step": 421960
    },
    {
      "epoch": 0.8791041666666667,
      "grad_norm": 2.191399335861206,
      "learning_rate": 1.0778033291281162e-05,
      "loss": 3.5155,
      "step": 421970
    },
    {
      "epoch": 0.879125,
      "grad_norm": 3.1055920124053955,
      "learning_rate": 1.0774364087903964e-05,
      "loss": 3.3376,
      "step": 421980
    },
    {
      "epoch": 0.8791458333333333,
      "grad_norm": 2.890749931335449,
      "learning_rate": 1.0770695485926395e-05,
      "loss": 3.4881,
      "step": 421990
    },
    {
      "epoch": 0.8791666666666667,
      "grad_norm": 2.652677297592163,
      "learning_rate": 1.076702748536431e-05,
      "loss": 3.4173,
      "step": 422000
    },
    {
      "epoch": 0.8791666666666667,
      "eval_loss": 3.5291972160339355,
      "eval_runtime": 6.8093,
      "eval_samples_per_second": 1.469,
      "eval_steps_per_second": 0.441,
      "step": 422000
    },
    {
      "epoch": 0.8791875,
      "grad_norm": 3.187774658203125,
      "learning_rate": 1.0763360086233563e-05,
      "loss": 3.4222,
      "step": 422010
    },
    {
      "epoch": 0.8792083333333334,
      "grad_norm": 2.498241424560547,
      "learning_rate": 1.0759693288549992e-05,
      "loss": 3.5698,
      "step": 422020
    },
    {
      "epoch": 0.8792291666666666,
      "grad_norm": 3.1701910495758057,
      "learning_rate": 1.0756027092329433e-05,
      "loss": 3.4584,
      "step": 422030
    },
    {
      "epoch": 0.87925,
      "grad_norm": 2.4274327754974365,
      "learning_rate": 1.0752361497587708e-05,
      "loss": 3.3118,
      "step": 422040
    },
    {
      "epoch": 0.8792708333333333,
      "grad_norm": 3.7116739749908447,
      "learning_rate": 1.0748696504340671e-05,
      "loss": 3.481,
      "step": 422050
    },
    {
      "epoch": 0.8792916666666667,
      "grad_norm": 2.700981616973877,
      "learning_rate": 1.074503211260414e-05,
      "loss": 3.4311,
      "step": 422060
    },
    {
      "epoch": 0.8793125,
      "grad_norm": 2.7596943378448486,
      "learning_rate": 1.074136832239394e-05,
      "loss": 3.5957,
      "step": 422070
    },
    {
      "epoch": 0.8793333333333333,
      "grad_norm": 1.9498801231384277,
      "learning_rate": 1.0737705133725922e-05,
      "loss": 3.354,
      "step": 422080
    },
    {
      "epoch": 0.8793541666666667,
      "grad_norm": 2.4555599689483643,
      "learning_rate": 1.073404254661589e-05,
      "loss": 3.3725,
      "step": 422090
    },
    {
      "epoch": 0.879375,
      "grad_norm": 2.393815040588379,
      "learning_rate": 1.0730380561079666e-05,
      "loss": 3.361,
      "step": 422100
    },
    {
      "epoch": 0.8793958333333334,
      "grad_norm": 3.2662198543548584,
      "learning_rate": 1.0726719177133086e-05,
      "loss": 3.4296,
      "step": 422110
    },
    {
      "epoch": 0.8794166666666666,
      "grad_norm": 2.5563902854919434,
      "learning_rate": 1.0723058394791939e-05,
      "loss": 3.5115,
      "step": 422120
    },
    {
      "epoch": 0.8794375,
      "grad_norm": 2.6025240421295166,
      "learning_rate": 1.0719398214072045e-05,
      "loss": 3.517,
      "step": 422130
    },
    {
      "epoch": 0.8794583333333333,
      "grad_norm": 2.3416152000427246,
      "learning_rate": 1.0715738634989223e-05,
      "loss": 3.2965,
      "step": 422140
    },
    {
      "epoch": 0.8794791666666667,
      "grad_norm": 3.5658323764801025,
      "learning_rate": 1.0712079657559296e-05,
      "loss": 3.4489,
      "step": 422150
    },
    {
      "epoch": 0.8795,
      "grad_norm": 2.4869346618652344,
      "learning_rate": 1.0708421281798019e-05,
      "loss": 3.4642,
      "step": 422160
    },
    {
      "epoch": 0.8795208333333333,
      "grad_norm": 2.253610372543335,
      "learning_rate": 1.0704763507721242e-05,
      "loss": 3.4027,
      "step": 422170
    },
    {
      "epoch": 0.8795416666666667,
      "grad_norm": 2.789830446243286,
      "learning_rate": 1.0701106335344772e-05,
      "loss": 3.5106,
      "step": 422180
    },
    {
      "epoch": 0.8795625,
      "grad_norm": 2.109926223754883,
      "learning_rate": 1.0697449764684363e-05,
      "loss": 3.3738,
      "step": 422190
    },
    {
      "epoch": 0.8795833333333334,
      "grad_norm": 2.593440532684326,
      "learning_rate": 1.06937937957558e-05,
      "loss": 3.3909,
      "step": 422200
    },
    {
      "epoch": 0.8796041666666666,
      "grad_norm": 2.460245370864868,
      "learning_rate": 1.0690138428574956e-05,
      "loss": 3.3895,
      "step": 422210
    },
    {
      "epoch": 0.879625,
      "grad_norm": 3.0339372158050537,
      "learning_rate": 1.0686483663157553e-05,
      "loss": 3.3613,
      "step": 422220
    },
    {
      "epoch": 0.8796458333333333,
      "grad_norm": 2.2405283451080322,
      "learning_rate": 1.0682829499519374e-05,
      "loss": 3.4307,
      "step": 422230
    },
    {
      "epoch": 0.8796666666666667,
      "grad_norm": 2.98494291305542,
      "learning_rate": 1.0679175937676277e-05,
      "loss": 3.3299,
      "step": 422240
    },
    {
      "epoch": 0.8796875,
      "grad_norm": 2.455442190170288,
      "learning_rate": 1.0675522977643964e-05,
      "loss": 3.3753,
      "step": 422250
    },
    {
      "epoch": 0.8797083333333333,
      "grad_norm": 3.131934642791748,
      "learning_rate": 1.0671870619438238e-05,
      "loss": 3.498,
      "step": 422260
    },
    {
      "epoch": 0.8797291666666667,
      "grad_norm": 2.4738552570343018,
      "learning_rate": 1.066821886307489e-05,
      "loss": 3.416,
      "step": 422270
    },
    {
      "epoch": 0.87975,
      "grad_norm": 2.643861770629883,
      "learning_rate": 1.0664567708569672e-05,
      "loss": 3.5063,
      "step": 422280
    },
    {
      "epoch": 0.8797708333333333,
      "grad_norm": 2.212385892868042,
      "learning_rate": 1.0660917155938386e-05,
      "loss": 3.4178,
      "step": 422290
    },
    {
      "epoch": 0.8797916666666666,
      "grad_norm": 2.438326358795166,
      "learning_rate": 1.0657267205196774e-05,
      "loss": 3.4063,
      "step": 422300
    },
    {
      "epoch": 0.8798125,
      "grad_norm": 2.292689561843872,
      "learning_rate": 1.0653617856360602e-05,
      "loss": 3.4912,
      "step": 422310
    },
    {
      "epoch": 0.8798333333333334,
      "grad_norm": 2.860424518585205,
      "learning_rate": 1.064996910944566e-05,
      "loss": 3.4939,
      "step": 422320
    },
    {
      "epoch": 0.8798541666666667,
      "grad_norm": 3.0733253955841064,
      "learning_rate": 1.0646320964467685e-05,
      "loss": 3.5193,
      "step": 422330
    },
    {
      "epoch": 0.879875,
      "grad_norm": 2.790090799331665,
      "learning_rate": 1.064267342144245e-05,
      "loss": 3.4079,
      "step": 422340
    },
    {
      "epoch": 0.8798958333333333,
      "grad_norm": 2.6800994873046875,
      "learning_rate": 1.0639026480385704e-05,
      "loss": 3.2579,
      "step": 422350
    },
    {
      "epoch": 0.8799166666666667,
      "grad_norm": 2.7644336223602295,
      "learning_rate": 1.0635380141313188e-05,
      "loss": 3.4446,
      "step": 422360
    },
    {
      "epoch": 0.8799375,
      "grad_norm": 2.4803457260131836,
      "learning_rate": 1.0631734404240689e-05,
      "loss": 3.5398,
      "step": 422370
    },
    {
      "epoch": 0.8799583333333333,
      "grad_norm": 2.405665874481201,
      "learning_rate": 1.0628089269183909e-05,
      "loss": 3.2809,
      "step": 422380
    },
    {
      "epoch": 0.8799791666666666,
      "grad_norm": 2.241441011428833,
      "learning_rate": 1.0624444736158621e-05,
      "loss": 3.6241,
      "step": 422390
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.3275609016418457,
      "learning_rate": 1.0620800805180563e-05,
      "loss": 3.3504,
      "step": 422400
    },
    {
      "epoch": 0.8800208333333334,
      "grad_norm": 3.084784746170044,
      "learning_rate": 1.0617157476265487e-05,
      "loss": 3.3707,
      "step": 422410
    },
    {
      "epoch": 0.8800416666666667,
      "grad_norm": 2.4437828063964844,
      "learning_rate": 1.0613514749429115e-05,
      "loss": 3.4746,
      "step": 422420
    },
    {
      "epoch": 0.8800625,
      "grad_norm": 2.6631205081939697,
      "learning_rate": 1.0609872624687183e-05,
      "loss": 3.3262,
      "step": 422430
    },
    {
      "epoch": 0.8800833333333333,
      "grad_norm": 2.6139726638793945,
      "learning_rate": 1.0606231102055412e-05,
      "loss": 3.3889,
      "step": 422440
    },
    {
      "epoch": 0.8801041666666667,
      "grad_norm": 2.9778265953063965,
      "learning_rate": 1.0602590181549574e-05,
      "loss": 3.3498,
      "step": 422450
    },
    {
      "epoch": 0.880125,
      "grad_norm": 2.9637022018432617,
      "learning_rate": 1.0598949863185357e-05,
      "loss": 3.5195,
      "step": 422460
    },
    {
      "epoch": 0.8801458333333333,
      "grad_norm": 2.4421095848083496,
      "learning_rate": 1.0595310146978515e-05,
      "loss": 3.3645,
      "step": 422470
    },
    {
      "epoch": 0.8801666666666667,
      "grad_norm": 2.3910462856292725,
      "learning_rate": 1.0591671032944716e-05,
      "loss": 3.4617,
      "step": 422480
    },
    {
      "epoch": 0.8801875,
      "grad_norm": 3.263401985168457,
      "learning_rate": 1.0588032521099731e-05,
      "loss": 3.4233,
      "step": 422490
    },
    {
      "epoch": 0.8802083333333334,
      "grad_norm": 3.0795400142669678,
      "learning_rate": 1.0584394611459285e-05,
      "loss": 3.4394,
      "step": 422500
    },
    {
      "epoch": 0.8802291666666666,
      "grad_norm": 3.537041664123535,
      "learning_rate": 1.0580757304039028e-05,
      "loss": 3.531,
      "step": 422510
    },
    {
      "epoch": 0.88025,
      "grad_norm": 2.377007484436035,
      "learning_rate": 1.0577120598854766e-05,
      "loss": 3.3896,
      "step": 422520
    },
    {
      "epoch": 0.8802708333333333,
      "grad_norm": 2.672140121459961,
      "learning_rate": 1.0573484495922118e-05,
      "loss": 3.4355,
      "step": 422530
    },
    {
      "epoch": 0.8802916666666667,
      "grad_norm": 2.6077349185943604,
      "learning_rate": 1.0569848995256825e-05,
      "loss": 3.4407,
      "step": 422540
    },
    {
      "epoch": 0.8803125,
      "grad_norm": 2.4299519062042236,
      "learning_rate": 1.056621409687462e-05,
      "loss": 3.4673,
      "step": 422550
    },
    {
      "epoch": 0.8803333333333333,
      "grad_norm": 2.687929153442383,
      "learning_rate": 1.0562579800791159e-05,
      "loss": 3.4173,
      "step": 422560
    },
    {
      "epoch": 0.8803541666666667,
      "grad_norm": 2.9035024642944336,
      "learning_rate": 1.0558946107022148e-05,
      "loss": 3.4829,
      "step": 422570
    },
    {
      "epoch": 0.880375,
      "grad_norm": 2.401869297027588,
      "learning_rate": 1.0555313015583339e-05,
      "loss": 3.3887,
      "step": 422580
    },
    {
      "epoch": 0.8803958333333334,
      "grad_norm": 2.814704656600952,
      "learning_rate": 1.0551680526490353e-05,
      "loss": 3.4149,
      "step": 422590
    },
    {
      "epoch": 0.8804166666666666,
      "grad_norm": 2.9197399616241455,
      "learning_rate": 1.0548048639758894e-05,
      "loss": 3.4375,
      "step": 422600
    },
    {
      "epoch": 0.8804375,
      "grad_norm": 2.6384382247924805,
      "learning_rate": 1.05444173554047e-05,
      "loss": 3.3793,
      "step": 422610
    },
    {
      "epoch": 0.8804583333333333,
      "grad_norm": 3.1890532970428467,
      "learning_rate": 1.0540786673443408e-05,
      "loss": 3.4089,
      "step": 422620
    },
    {
      "epoch": 0.8804791666666667,
      "grad_norm": 2.343750476837158,
      "learning_rate": 1.0537156593890689e-05,
      "loss": 3.3895,
      "step": 422630
    },
    {
      "epoch": 0.8805,
      "grad_norm": 3.6719729900360107,
      "learning_rate": 1.0533527116762296e-05,
      "loss": 3.5001,
      "step": 422640
    },
    {
      "epoch": 0.8805208333333333,
      "grad_norm": 2.787511110305786,
      "learning_rate": 1.0529898242073836e-05,
      "loss": 3.4405,
      "step": 422650
    },
    {
      "epoch": 0.8805416666666667,
      "grad_norm": 3.09702730178833,
      "learning_rate": 1.0526269969841028e-05,
      "loss": 3.4428,
      "step": 422660
    },
    {
      "epoch": 0.8805625,
      "grad_norm": 2.8747925758361816,
      "learning_rate": 1.0522642300079509e-05,
      "loss": 3.4504,
      "step": 422670
    },
    {
      "epoch": 0.8805833333333334,
      "grad_norm": 2.425126791000366,
      "learning_rate": 1.0519015232804967e-05,
      "loss": 3.4255,
      "step": 422680
    },
    {
      "epoch": 0.8806041666666666,
      "grad_norm": 3.5017402172088623,
      "learning_rate": 1.0515388768033072e-05,
      "loss": 3.4965,
      "step": 422690
    },
    {
      "epoch": 0.880625,
      "grad_norm": 2.9746150970458984,
      "learning_rate": 1.051176290577948e-05,
      "loss": 3.459,
      "step": 422700
    },
    {
      "epoch": 0.8806458333333333,
      "grad_norm": 2.2279887199401855,
      "learning_rate": 1.050813764605986e-05,
      "loss": 3.4565,
      "step": 422710
    },
    {
      "epoch": 0.8806666666666667,
      "grad_norm": 2.9918274879455566,
      "learning_rate": 1.0504512988889885e-05,
      "loss": 3.4173,
      "step": 422720
    },
    {
      "epoch": 0.8806875,
      "grad_norm": 2.4552865028381348,
      "learning_rate": 1.050088893428519e-05,
      "loss": 3.3455,
      "step": 422730
    },
    {
      "epoch": 0.8807083333333333,
      "grad_norm": 2.8281476497650146,
      "learning_rate": 1.049726548226143e-05,
      "loss": 3.3257,
      "step": 422740
    },
    {
      "epoch": 0.8807291666666667,
      "grad_norm": 2.758105754852295,
      "learning_rate": 1.049364263283426e-05,
      "loss": 3.4217,
      "step": 422750
    },
    {
      "epoch": 0.88075,
      "grad_norm": 2.186990737915039,
      "learning_rate": 1.049002038601935e-05,
      "loss": 3.4861,
      "step": 422760
    },
    {
      "epoch": 0.8807708333333333,
      "grad_norm": 3.7025630474090576,
      "learning_rate": 1.0486398741832319e-05,
      "loss": 3.3935,
      "step": 422770
    },
    {
      "epoch": 0.8807916666666666,
      "grad_norm": 2.9043128490448,
      "learning_rate": 1.0482777700288858e-05,
      "loss": 3.4321,
      "step": 422780
    },
    {
      "epoch": 0.8808125,
      "grad_norm": 2.814866065979004,
      "learning_rate": 1.0479157261404503e-05,
      "loss": 3.4703,
      "step": 422790
    },
    {
      "epoch": 0.8808333333333334,
      "grad_norm": 2.617064952850342,
      "learning_rate": 1.0475537425195008e-05,
      "loss": 3.4081,
      "step": 422800
    },
    {
      "epoch": 0.8808541666666667,
      "grad_norm": 2.2304465770721436,
      "learning_rate": 1.0471918191675976e-05,
      "loss": 3.4142,
      "step": 422810
    },
    {
      "epoch": 0.880875,
      "grad_norm": 3.8687613010406494,
      "learning_rate": 1.0468299560862981e-05,
      "loss": 3.4116,
      "step": 422820
    },
    {
      "epoch": 0.8808958333333333,
      "grad_norm": 2.777047872543335,
      "learning_rate": 1.0464681532771724e-05,
      "loss": 3.6801,
      "step": 422830
    },
    {
      "epoch": 0.8809166666666667,
      "grad_norm": 2.7787022590637207,
      "learning_rate": 1.0461064107417844e-05,
      "loss": 3.4881,
      "step": 422840
    },
    {
      "epoch": 0.8809375,
      "grad_norm": 2.360102415084839,
      "learning_rate": 1.0457447284816878e-05,
      "loss": 3.5457,
      "step": 422850
    },
    {
      "epoch": 0.8809583333333333,
      "grad_norm": 2.33860445022583,
      "learning_rate": 1.045383106498453e-05,
      "loss": 3.4022,
      "step": 422860
    },
    {
      "epoch": 0.8809791666666666,
      "grad_norm": 2.9791951179504395,
      "learning_rate": 1.0450215447936421e-05,
      "loss": 3.5867,
      "step": 422870
    },
    {
      "epoch": 0.881,
      "grad_norm": 4.773621082305908,
      "learning_rate": 1.0446600433688107e-05,
      "loss": 3.3922,
      "step": 422880
    },
    {
      "epoch": 0.8810208333333334,
      "grad_norm": 2.3828816413879395,
      "learning_rate": 1.0442986022255274e-05,
      "loss": 3.4736,
      "step": 422890
    },
    {
      "epoch": 0.8810416666666666,
      "grad_norm": 3.4008874893188477,
      "learning_rate": 1.0439372213653473e-05,
      "loss": 3.3794,
      "step": 422900
    },
    {
      "epoch": 0.8810625,
      "grad_norm": 2.44423246383667,
      "learning_rate": 1.043575900789833e-05,
      "loss": 3.4246,
      "step": 422910
    },
    {
      "epoch": 0.8810833333333333,
      "grad_norm": 2.855257749557495,
      "learning_rate": 1.0432146405005497e-05,
      "loss": 3.4748,
      "step": 422920
    },
    {
      "epoch": 0.8811041666666667,
      "grad_norm": 2.2785322666168213,
      "learning_rate": 1.0428534404990547e-05,
      "loss": 3.4985,
      "step": 422930
    },
    {
      "epoch": 0.881125,
      "grad_norm": 2.1818244457244873,
      "learning_rate": 1.042492300786903e-05,
      "loss": 3.4238,
      "step": 422940
    },
    {
      "epoch": 0.8811458333333333,
      "grad_norm": 2.4993715286254883,
      "learning_rate": 1.0421312213656669e-05,
      "loss": 3.4269,
      "step": 422950
    },
    {
      "epoch": 0.8811666666666667,
      "grad_norm": 2.7077014446258545,
      "learning_rate": 1.0417702022368952e-05,
      "loss": 3.5357,
      "step": 422960
    },
    {
      "epoch": 0.8811875,
      "grad_norm": 3.3208439350128174,
      "learning_rate": 1.0414092434021499e-05,
      "loss": 3.5143,
      "step": 422970
    },
    {
      "epoch": 0.8812083333333334,
      "grad_norm": 2.4113845825195312,
      "learning_rate": 1.0410483448629947e-05,
      "loss": 3.4112,
      "step": 422980
    },
    {
      "epoch": 0.8812291666666666,
      "grad_norm": 3.840195655822754,
      "learning_rate": 1.0406875066209852e-05,
      "loss": 3.41,
      "step": 422990
    },
    {
      "epoch": 0.88125,
      "grad_norm": 2.5929505825042725,
      "learning_rate": 1.040326728677675e-05,
      "loss": 3.3427,
      "step": 423000
    },
    {
      "epoch": 0.88125,
      "eval_loss": 3.5272700786590576,
      "eval_runtime": 7.2845,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 423000
    },
    {
      "epoch": 0.8812708333333333,
      "grad_norm": 2.4620280265808105,
      "learning_rate": 1.0399660110346347e-05,
      "loss": 3.3455,
      "step": 423010
    },
    {
      "epoch": 0.8812916666666667,
      "grad_norm": 2.4133570194244385,
      "learning_rate": 1.039605353693413e-05,
      "loss": 3.4554,
      "step": 423020
    },
    {
      "epoch": 0.8813125,
      "grad_norm": 2.691061496734619,
      "learning_rate": 1.0392447566555684e-05,
      "loss": 3.3662,
      "step": 423030
    },
    {
      "epoch": 0.8813333333333333,
      "grad_norm": 2.5995168685913086,
      "learning_rate": 1.0388842199226616e-05,
      "loss": 3.5312,
      "step": 423040
    },
    {
      "epoch": 0.8813541666666667,
      "grad_norm": 2.698533058166504,
      "learning_rate": 1.0385237434962496e-05,
      "loss": 3.4017,
      "step": 423050
    },
    {
      "epoch": 0.881375,
      "grad_norm": 3.5428221225738525,
      "learning_rate": 1.0381633273778878e-05,
      "loss": 3.3353,
      "step": 423060
    },
    {
      "epoch": 0.8813958333333334,
      "grad_norm": 2.280895948410034,
      "learning_rate": 1.0378029715691333e-05,
      "loss": 3.5377,
      "step": 423070
    },
    {
      "epoch": 0.8814166666666666,
      "grad_norm": 2.8670506477355957,
      "learning_rate": 1.0374426760715448e-05,
      "loss": 3.3673,
      "step": 423080
    },
    {
      "epoch": 0.8814375,
      "grad_norm": 3.4096715450286865,
      "learning_rate": 1.0370824408866762e-05,
      "loss": 3.4366,
      "step": 423090
    },
    {
      "epoch": 0.8814583333333333,
      "grad_norm": 3.1873788833618164,
      "learning_rate": 1.0367222660160845e-05,
      "loss": 3.3611,
      "step": 423100
    },
    {
      "epoch": 0.8814791666666667,
      "grad_norm": 2.1459014415740967,
      "learning_rate": 1.0363621514613269e-05,
      "loss": 3.3524,
      "step": 423110
    },
    {
      "epoch": 0.8815,
      "grad_norm": 2.2694382667541504,
      "learning_rate": 1.0360020972239552e-05,
      "loss": 3.464,
      "step": 423120
    },
    {
      "epoch": 0.8815208333333333,
      "grad_norm": 2.2967398166656494,
      "learning_rate": 1.03564210330553e-05,
      "loss": 3.3898,
      "step": 423130
    },
    {
      "epoch": 0.8815416666666667,
      "grad_norm": 2.292931079864502,
      "learning_rate": 1.0352821697076019e-05,
      "loss": 3.3292,
      "step": 423140
    },
    {
      "epoch": 0.8815625,
      "grad_norm": 3.086353063583374,
      "learning_rate": 1.0349222964317294e-05,
      "loss": 3.4712,
      "step": 423150
    },
    {
      "epoch": 0.8815833333333334,
      "grad_norm": 2.6444637775421143,
      "learning_rate": 1.0345624834794597e-05,
      "loss": 3.4759,
      "step": 423160
    },
    {
      "epoch": 0.8816041666666666,
      "grad_norm": 2.7196269035339355,
      "learning_rate": 1.034202730852355e-05,
      "loss": 3.4033,
      "step": 423170
    },
    {
      "epoch": 0.881625,
      "grad_norm": 2.344851016998291,
      "learning_rate": 1.0338430385519686e-05,
      "loss": 3.3997,
      "step": 423180
    },
    {
      "epoch": 0.8816458333333334,
      "grad_norm": 2.3998656272888184,
      "learning_rate": 1.0334834065798481e-05,
      "loss": 3.3548,
      "step": 423190
    },
    {
      "epoch": 0.8816666666666667,
      "grad_norm": 2.661909580230713,
      "learning_rate": 1.0331238349375537e-05,
      "loss": 3.4717,
      "step": 423200
    },
    {
      "epoch": 0.8816875,
      "grad_norm": 2.7371089458465576,
      "learning_rate": 1.0327643236266375e-05,
      "loss": 3.3236,
      "step": 423210
    },
    {
      "epoch": 0.8817083333333333,
      "grad_norm": 2.1936841011047363,
      "learning_rate": 1.032404872648645e-05,
      "loss": 3.556,
      "step": 423220
    },
    {
      "epoch": 0.8817291666666667,
      "grad_norm": 2.6677207946777344,
      "learning_rate": 1.0320454820051383e-05,
      "loss": 3.3642,
      "step": 423230
    },
    {
      "epoch": 0.88175,
      "grad_norm": 2.687220573425293,
      "learning_rate": 1.0316861516976677e-05,
      "loss": 3.381,
      "step": 423240
    },
    {
      "epoch": 0.8817708333333333,
      "grad_norm": 3.1339077949523926,
      "learning_rate": 1.0313268817277804e-05,
      "loss": 3.3913,
      "step": 423250
    },
    {
      "epoch": 0.8817916666666666,
      "grad_norm": 2.5221810340881348,
      "learning_rate": 1.0309676720970367e-05,
      "loss": 3.455,
      "step": 423260
    },
    {
      "epoch": 0.8818125,
      "grad_norm": 3.108816385269165,
      "learning_rate": 1.0306085228069788e-05,
      "loss": 3.442,
      "step": 423270
    },
    {
      "epoch": 0.8818333333333334,
      "grad_norm": 2.504284143447876,
      "learning_rate": 1.030249433859162e-05,
      "loss": 3.509,
      "step": 423280
    },
    {
      "epoch": 0.8818541666666667,
      "grad_norm": 2.4289944171905518,
      "learning_rate": 1.0298904052551421e-05,
      "loss": 3.5934,
      "step": 423290
    },
    {
      "epoch": 0.881875,
      "grad_norm": 2.857419729232788,
      "learning_rate": 1.0295314369964641e-05,
      "loss": 3.3894,
      "step": 423300
    },
    {
      "epoch": 0.8818958333333333,
      "grad_norm": 2.7302803993225098,
      "learning_rate": 1.0291725290846786e-05,
      "loss": 3.4333,
      "step": 423310
    },
    {
      "epoch": 0.8819166666666667,
      "grad_norm": 2.5960798263549805,
      "learning_rate": 1.028813681521341e-05,
      "loss": 3.5684,
      "step": 423320
    },
    {
      "epoch": 0.8819375,
      "grad_norm": 2.801677942276001,
      "learning_rate": 1.0284548943079967e-05,
      "loss": 3.3395,
      "step": 423330
    },
    {
      "epoch": 0.8819583333333333,
      "grad_norm": 2.441676378250122,
      "learning_rate": 1.0280961674461946e-05,
      "loss": 3.3857,
      "step": 423340
    },
    {
      "epoch": 0.8819791666666666,
      "grad_norm": 3.1035964488983154,
      "learning_rate": 1.0277375009374899e-05,
      "loss": 3.4433,
      "step": 423350
    },
    {
      "epoch": 0.882,
      "grad_norm": 2.6339831352233887,
      "learning_rate": 1.0273788947834283e-05,
      "loss": 3.5474,
      "step": 423360
    },
    {
      "epoch": 0.8820208333333334,
      "grad_norm": 3.342329740524292,
      "learning_rate": 1.0270203489855583e-05,
      "loss": 3.4389,
      "step": 423370
    },
    {
      "epoch": 0.8820416666666666,
      "grad_norm": 3.5969395637512207,
      "learning_rate": 1.0266618635454288e-05,
      "loss": 3.6035,
      "step": 423380
    },
    {
      "epoch": 0.8820625,
      "grad_norm": 2.3579938411712646,
      "learning_rate": 1.0263034384645886e-05,
      "loss": 3.3877,
      "step": 423390
    },
    {
      "epoch": 0.8820833333333333,
      "grad_norm": 3.5116612911224365,
      "learning_rate": 1.0259450737445878e-05,
      "loss": 3.4817,
      "step": 423400
    },
    {
      "epoch": 0.8821041666666667,
      "grad_norm": 2.3343963623046875,
      "learning_rate": 1.0255867693869723e-05,
      "loss": 3.4027,
      "step": 423410
    },
    {
      "epoch": 0.882125,
      "grad_norm": 2.5914034843444824,
      "learning_rate": 1.0252285253932908e-05,
      "loss": 3.3468,
      "step": 423420
    },
    {
      "epoch": 0.8821458333333333,
      "grad_norm": 2.602954864501953,
      "learning_rate": 1.02487034176509e-05,
      "loss": 3.4399,
      "step": 423430
    },
    {
      "epoch": 0.8821666666666667,
      "grad_norm": 3.0022501945495605,
      "learning_rate": 1.024512218503919e-05,
      "loss": 3.4721,
      "step": 423440
    },
    {
      "epoch": 0.8821875,
      "grad_norm": 3.299898386001587,
      "learning_rate": 1.0241541556113214e-05,
      "loss": 3.4338,
      "step": 423450
    },
    {
      "epoch": 0.8822083333333334,
      "grad_norm": 2.677152156829834,
      "learning_rate": 1.0237961530888478e-05,
      "loss": 3.3477,
      "step": 423460
    },
    {
      "epoch": 0.8822291666666666,
      "grad_norm": 3.4950168132781982,
      "learning_rate": 1.02343821093804e-05,
      "loss": 3.5,
      "step": 423470
    },
    {
      "epoch": 0.88225,
      "grad_norm": 2.8030569553375244,
      "learning_rate": 1.0230803291604489e-05,
      "loss": 3.4917,
      "step": 423480
    },
    {
      "epoch": 0.8822708333333333,
      "grad_norm": 2.9085326194763184,
      "learning_rate": 1.022722507757618e-05,
      "loss": 3.4488,
      "step": 423490
    },
    {
      "epoch": 0.8822916666666667,
      "grad_norm": 2.433001756668091,
      "learning_rate": 1.0223647467310925e-05,
      "loss": 3.4885,
      "step": 423500
    },
    {
      "epoch": 0.8823125,
      "grad_norm": 2.7212469577789307,
      "learning_rate": 1.0220070460824198e-05,
      "loss": 3.4319,
      "step": 423510
    },
    {
      "epoch": 0.8823333333333333,
      "grad_norm": 3.659816026687622,
      "learning_rate": 1.0216494058131453e-05,
      "loss": 3.3473,
      "step": 423520
    },
    {
      "epoch": 0.8823541666666667,
      "grad_norm": 2.4281933307647705,
      "learning_rate": 1.0212918259248077e-05,
      "loss": 3.3552,
      "step": 423530
    },
    {
      "epoch": 0.882375,
      "grad_norm": 3.2036221027374268,
      "learning_rate": 1.020934306418959e-05,
      "loss": 3.4276,
      "step": 423540
    },
    {
      "epoch": 0.8823958333333334,
      "grad_norm": 3.248791217803955,
      "learning_rate": 1.0205768472971431e-05,
      "loss": 3.4658,
      "step": 423550
    },
    {
      "epoch": 0.8824166666666666,
      "grad_norm": 2.597824811935425,
      "learning_rate": 1.0202194485608972e-05,
      "loss": 3.34,
      "step": 423560
    },
    {
      "epoch": 0.8824375,
      "grad_norm": 2.18125581741333,
      "learning_rate": 1.0198621102117716e-05,
      "loss": 3.3732,
      "step": 423570
    },
    {
      "epoch": 0.8824583333333333,
      "grad_norm": 3.423595905303955,
      "learning_rate": 1.01950483225131e-05,
      "loss": 3.5139,
      "step": 423580
    },
    {
      "epoch": 0.8824791666666667,
      "grad_norm": 2.8607983589172363,
      "learning_rate": 1.0191476146810495e-05,
      "loss": 3.3584,
      "step": 423590
    },
    {
      "epoch": 0.8825,
      "grad_norm": 2.5612680912017822,
      "learning_rate": 1.0187904575025391e-05,
      "loss": 3.5664,
      "step": 423600
    },
    {
      "epoch": 0.8825208333333333,
      "grad_norm": 2.87078857421875,
      "learning_rate": 1.0184333607173222e-05,
      "loss": 3.5977,
      "step": 423610
    },
    {
      "epoch": 0.8825416666666667,
      "grad_norm": 2.245492458343506,
      "learning_rate": 1.0180763243269346e-05,
      "loss": 3.6012,
      "step": 423620
    },
    {
      "epoch": 0.8825625,
      "grad_norm": 2.46779727935791,
      "learning_rate": 1.0177193483329248e-05,
      "loss": 3.4806,
      "step": 423630
    },
    {
      "epoch": 0.8825833333333334,
      "grad_norm": 2.6441681385040283,
      "learning_rate": 1.0173624327368369e-05,
      "loss": 3.6135,
      "step": 423640
    },
    {
      "epoch": 0.8826041666666666,
      "grad_norm": 2.611030340194702,
      "learning_rate": 1.0170055775402042e-05,
      "loss": 3.4332,
      "step": 423650
    },
    {
      "epoch": 0.882625,
      "grad_norm": 2.1507716178894043,
      "learning_rate": 1.016648782744574e-05,
      "loss": 3.4078,
      "step": 423660
    },
    {
      "epoch": 0.8826458333333334,
      "grad_norm": 2.6448700428009033,
      "learning_rate": 1.0162920483514853e-05,
      "loss": 3.476,
      "step": 423670
    },
    {
      "epoch": 0.8826666666666667,
      "grad_norm": 3.241824150085449,
      "learning_rate": 1.0159353743624798e-05,
      "loss": 3.4786,
      "step": 423680
    },
    {
      "epoch": 0.8826875,
      "grad_norm": 2.6109423637390137,
      "learning_rate": 1.0155787607790983e-05,
      "loss": 3.4084,
      "step": 423690
    },
    {
      "epoch": 0.8827083333333333,
      "grad_norm": 2.5476346015930176,
      "learning_rate": 1.015222207602881e-05,
      "loss": 3.447,
      "step": 423700
    },
    {
      "epoch": 0.8827291666666667,
      "grad_norm": 2.621253252029419,
      "learning_rate": 1.0148657148353684e-05,
      "loss": 3.5581,
      "step": 423710
    },
    {
      "epoch": 0.88275,
      "grad_norm": 2.2922561168670654,
      "learning_rate": 1.0145092824780992e-05,
      "loss": 3.4883,
      "step": 423720
    },
    {
      "epoch": 0.8827708333333333,
      "grad_norm": 2.693133592605591,
      "learning_rate": 1.0141529105326157e-05,
      "loss": 3.5433,
      "step": 423730
    },
    {
      "epoch": 0.8827916666666666,
      "grad_norm": 4.151668548583984,
      "learning_rate": 1.013796599000455e-05,
      "loss": 3.4109,
      "step": 423740
    },
    {
      "epoch": 0.8828125,
      "grad_norm": 3.416977882385254,
      "learning_rate": 1.0134403478831554e-05,
      "loss": 3.4088,
      "step": 423750
    },
    {
      "epoch": 0.8828333333333334,
      "grad_norm": 3.0337440967559814,
      "learning_rate": 1.0130841571822595e-05,
      "loss": 3.3211,
      "step": 423760
    },
    {
      "epoch": 0.8828541666666667,
      "grad_norm": 2.784177541732788,
      "learning_rate": 1.0127280268993026e-05,
      "loss": 3.5334,
      "step": 423770
    },
    {
      "epoch": 0.882875,
      "grad_norm": 2.5412471294403076,
      "learning_rate": 1.0123719570358235e-05,
      "loss": 3.4338,
      "step": 423780
    },
    {
      "epoch": 0.8828958333333333,
      "grad_norm": 2.89634370803833,
      "learning_rate": 1.0120159475933627e-05,
      "loss": 3.4407,
      "step": 423790
    },
    {
      "epoch": 0.8829166666666667,
      "grad_norm": 2.4522476196289062,
      "learning_rate": 1.0116599985734536e-05,
      "loss": 3.3851,
      "step": 423800
    },
    {
      "epoch": 0.8829375,
      "grad_norm": 3.0252394676208496,
      "learning_rate": 1.0113041099776387e-05,
      "loss": 3.5196,
      "step": 423810
    },
    {
      "epoch": 0.8829583333333333,
      "grad_norm": 2.680269956588745,
      "learning_rate": 1.0109482818074517e-05,
      "loss": 3.5463,
      "step": 423820
    },
    {
      "epoch": 0.8829791666666666,
      "grad_norm": 2.4360756874084473,
      "learning_rate": 1.0105925140644311e-05,
      "loss": 3.4876,
      "step": 423830
    },
    {
      "epoch": 0.883,
      "grad_norm": 3.2767908573150635,
      "learning_rate": 1.0102368067501127e-05,
      "loss": 3.4914,
      "step": 423840
    },
    {
      "epoch": 0.8830208333333334,
      "grad_norm": 2.324169635772705,
      "learning_rate": 1.009881159866035e-05,
      "loss": 3.4854,
      "step": 423850
    },
    {
      "epoch": 0.8830416666666666,
      "grad_norm": 2.661632537841797,
      "learning_rate": 1.009525573413732e-05,
      "loss": 3.4791,
      "step": 423860
    },
    {
      "epoch": 0.8830625,
      "grad_norm": 2.3749125003814697,
      "learning_rate": 1.0091700473947423e-05,
      "loss": 3.3766,
      "step": 423870
    },
    {
      "epoch": 0.8830833333333333,
      "grad_norm": 2.685159921646118,
      "learning_rate": 1.008814581810598e-05,
      "loss": 3.3109,
      "step": 423880
    },
    {
      "epoch": 0.8831041666666667,
      "grad_norm": 2.820868492126465,
      "learning_rate": 1.0084591766628415e-05,
      "loss": 3.3333,
      "step": 423890
    },
    {
      "epoch": 0.883125,
      "grad_norm": 2.389880657196045,
      "learning_rate": 1.008103831952996e-05,
      "loss": 3.2973,
      "step": 423900
    },
    {
      "epoch": 0.8831458333333333,
      "grad_norm": 2.5978260040283203,
      "learning_rate": 1.0077485476826075e-05,
      "loss": 3.4932,
      "step": 423910
    },
    {
      "epoch": 0.8831666666666667,
      "grad_norm": 3.0013058185577393,
      "learning_rate": 1.0073933238532078e-05,
      "loss": 3.5044,
      "step": 423920
    },
    {
      "epoch": 0.8831875,
      "grad_norm": 3.4307312965393066,
      "learning_rate": 1.0070381604663291e-05,
      "loss": 3.3912,
      "step": 423930
    },
    {
      "epoch": 0.8832083333333334,
      "grad_norm": 2.646056890487671,
      "learning_rate": 1.0066830575235035e-05,
      "loss": 3.4379,
      "step": 423940
    },
    {
      "epoch": 0.8832291666666666,
      "grad_norm": 2.308063507080078,
      "learning_rate": 1.0063280150262731e-05,
      "loss": 3.4122,
      "step": 423950
    },
    {
      "epoch": 0.88325,
      "grad_norm": 2.887784719467163,
      "learning_rate": 1.0059730329761651e-05,
      "loss": 3.4704,
      "step": 423960
    },
    {
      "epoch": 0.8832708333333333,
      "grad_norm": 2.8285014629364014,
      "learning_rate": 1.0056181113747114e-05,
      "loss": 3.3919,
      "step": 423970
    },
    {
      "epoch": 0.8832916666666667,
      "grad_norm": 2.9860353469848633,
      "learning_rate": 1.0052632502234525e-05,
      "loss": 3.5295,
      "step": 423980
    },
    {
      "epoch": 0.8833125,
      "grad_norm": 2.6024749279022217,
      "learning_rate": 1.004908449523914e-05,
      "loss": 3.4875,
      "step": 423990
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 2.863173007965088,
      "learning_rate": 1.0045537092776296e-05,
      "loss": 3.4071,
      "step": 424000
    },
    {
      "epoch": 0.8833333333333333,
      "eval_loss": 3.526369571685791,
      "eval_runtime": 6.8724,
      "eval_samples_per_second": 1.455,
      "eval_steps_per_second": 0.437,
      "step": 424000
    },
    {
      "epoch": 0.8833541666666667,
      "grad_norm": 2.5655579566955566,
      "learning_rate": 1.004199029486138e-05,
      "loss": 3.5234,
      "step": 424010
    },
    {
      "epoch": 0.883375,
      "grad_norm": 2.5679190158843994,
      "learning_rate": 1.0038444101509645e-05,
      "loss": 3.5563,
      "step": 424020
    },
    {
      "epoch": 0.8833958333333334,
      "grad_norm": 2.5117104053497314,
      "learning_rate": 1.0034898512736433e-05,
      "loss": 3.2907,
      "step": 424030
    },
    {
      "epoch": 0.8834166666666666,
      "grad_norm": 3.7693331241607666,
      "learning_rate": 1.0031353528557062e-05,
      "loss": 3.3737,
      "step": 424040
    },
    {
      "epoch": 0.8834375,
      "grad_norm": 3.6762938499450684,
      "learning_rate": 1.0027809148986821e-05,
      "loss": 3.443,
      "step": 424050
    },
    {
      "epoch": 0.8834583333333333,
      "grad_norm": 2.4007368087768555,
      "learning_rate": 1.0024265374041063e-05,
      "loss": 3.5003,
      "step": 424060
    },
    {
      "epoch": 0.8834791666666667,
      "grad_norm": 2.803842067718506,
      "learning_rate": 1.002072220373506e-05,
      "loss": 3.352,
      "step": 424070
    },
    {
      "epoch": 0.8835,
      "grad_norm": 2.1959285736083984,
      "learning_rate": 1.0017179638084133e-05,
      "loss": 3.3993,
      "step": 424080
    },
    {
      "epoch": 0.8835208333333333,
      "grad_norm": 3.232673168182373,
      "learning_rate": 1.001363767710357e-05,
      "loss": 3.3961,
      "step": 424090
    },
    {
      "epoch": 0.8835416666666667,
      "grad_norm": 2.7780303955078125,
      "learning_rate": 1.0010096320808692e-05,
      "loss": 3.248,
      "step": 424100
    },
    {
      "epoch": 0.8835625,
      "grad_norm": 2.7401132583618164,
      "learning_rate": 1.0006555569214786e-05,
      "loss": 3.4587,
      "step": 424110
    },
    {
      "epoch": 0.8835833333333334,
      "grad_norm": 3.0757501125335693,
      "learning_rate": 1.0003015422337141e-05,
      "loss": 3.351,
      "step": 424120
    },
    {
      "epoch": 0.8836041666666666,
      "grad_norm": 3.9200146198272705,
      "learning_rate": 9.99947588019106e-06,
      "loss": 3.443,
      "step": 424130
    },
    {
      "epoch": 0.883625,
      "grad_norm": 3.17476487159729,
      "learning_rate": 9.995936942791832e-06,
      "loss": 3.3883,
      "step": 424140
    },
    {
      "epoch": 0.8836458333333334,
      "grad_norm": 2.545292377471924,
      "learning_rate": 9.992398610154728e-06,
      "loss": 3.5462,
      "step": 424150
    },
    {
      "epoch": 0.8836666666666667,
      "grad_norm": 2.6591250896453857,
      "learning_rate": 9.988860882295052e-06,
      "loss": 3.4687,
      "step": 424160
    },
    {
      "epoch": 0.8836875,
      "grad_norm": 2.7196590900421143,
      "learning_rate": 9.985323759228076e-06,
      "loss": 3.3871,
      "step": 424170
    },
    {
      "epoch": 0.8837083333333333,
      "grad_norm": 2.430163860321045,
      "learning_rate": 9.981787240969069e-06,
      "loss": 3.465,
      "step": 424180
    },
    {
      "epoch": 0.8837291666666667,
      "grad_norm": 2.4347963333129883,
      "learning_rate": 9.978251327533338e-06,
      "loss": 3.3717,
      "step": 424190
    },
    {
      "epoch": 0.88375,
      "grad_norm": 3.087064504623413,
      "learning_rate": 9.974716018936118e-06,
      "loss": 3.316,
      "step": 424200
    },
    {
      "epoch": 0.8837708333333333,
      "grad_norm": 2.8259119987487793,
      "learning_rate": 9.9711813151927e-06,
      "loss": 3.3901,
      "step": 424210
    },
    {
      "epoch": 0.8837916666666666,
      "grad_norm": 2.700572967529297,
      "learning_rate": 9.96764721631837e-06,
      "loss": 3.4369,
      "step": 424220
    },
    {
      "epoch": 0.8838125,
      "grad_norm": 2.6619632244110107,
      "learning_rate": 9.964113722328365e-06,
      "loss": 3.2906,
      "step": 424230
    },
    {
      "epoch": 0.8838333333333334,
      "grad_norm": 3.4427990913391113,
      "learning_rate": 9.960580833237975e-06,
      "loss": 3.3165,
      "step": 424240
    },
    {
      "epoch": 0.8838541666666667,
      "grad_norm": 3.151447057723999,
      "learning_rate": 9.957048549062402e-06,
      "loss": 3.3776,
      "step": 424250
    },
    {
      "epoch": 0.883875,
      "grad_norm": 2.5526273250579834,
      "learning_rate": 9.953516869816986e-06,
      "loss": 3.5226,
      "step": 424260
    },
    {
      "epoch": 0.8838958333333333,
      "grad_norm": 3.0229744911193848,
      "learning_rate": 9.949985795516929e-06,
      "loss": 3.4351,
      "step": 424270
    },
    {
      "epoch": 0.8839166666666667,
      "grad_norm": 2.522315502166748,
      "learning_rate": 9.946455326177472e-06,
      "loss": 3.4065,
      "step": 424280
    },
    {
      "epoch": 0.8839375,
      "grad_norm": 3.2899169921875,
      "learning_rate": 9.942925461813933e-06,
      "loss": 3.4426,
      "step": 424290
    },
    {
      "epoch": 0.8839583333333333,
      "grad_norm": 2.9157052040100098,
      "learning_rate": 9.939396202441502e-06,
      "loss": 3.2971,
      "step": 424300
    },
    {
      "epoch": 0.8839791666666666,
      "grad_norm": 2.363813638687134,
      "learning_rate": 9.935867548075415e-06,
      "loss": 3.494,
      "step": 424310
    },
    {
      "epoch": 0.884,
      "grad_norm": 2.62052059173584,
      "learning_rate": 9.932339498730995e-06,
      "loss": 3.5011,
      "step": 424320
    },
    {
      "epoch": 0.8840208333333334,
      "grad_norm": 2.7375497817993164,
      "learning_rate": 9.92881205442338e-06,
      "loss": 3.3946,
      "step": 424330
    },
    {
      "epoch": 0.8840416666666666,
      "grad_norm": 2.946547746658325,
      "learning_rate": 9.925285215167838e-06,
      "loss": 3.5056,
      "step": 424340
    },
    {
      "epoch": 0.8840625,
      "grad_norm": 2.5371692180633545,
      "learning_rate": 9.921758980979677e-06,
      "loss": 3.4444,
      "step": 424350
    },
    {
      "epoch": 0.8840833333333333,
      "grad_norm": 2.370173215866089,
      "learning_rate": 9.918233351874034e-06,
      "loss": 3.5591,
      "step": 424360
    },
    {
      "epoch": 0.8841041666666667,
      "grad_norm": 2.7338123321533203,
      "learning_rate": 9.914708327866161e-06,
      "loss": 3.4086,
      "step": 424370
    },
    {
      "epoch": 0.884125,
      "grad_norm": 2.7580552101135254,
      "learning_rate": 9.911183908971331e-06,
      "loss": 3.5315,
      "step": 424380
    },
    {
      "epoch": 0.8841458333333333,
      "grad_norm": 3.276165008544922,
      "learning_rate": 9.907660095204734e-06,
      "loss": 3.3126,
      "step": 424390
    },
    {
      "epoch": 0.8841666666666667,
      "grad_norm": 2.9903934001922607,
      "learning_rate": 9.90413688658157e-06,
      "loss": 3.498,
      "step": 424400
    },
    {
      "epoch": 0.8841875,
      "grad_norm": 3.103367328643799,
      "learning_rate": 9.900614283117098e-06,
      "loss": 3.2899,
      "step": 424410
    },
    {
      "epoch": 0.8842083333333334,
      "grad_norm": 2.9176039695739746,
      "learning_rate": 9.897092284826503e-06,
      "loss": 3.2841,
      "step": 424420
    },
    {
      "epoch": 0.8842291666666666,
      "grad_norm": 2.1783158779144287,
      "learning_rate": 9.893570891725022e-06,
      "loss": 3.4587,
      "step": 424430
    },
    {
      "epoch": 0.88425,
      "grad_norm": 2.9954440593719482,
      "learning_rate": 9.890050103827845e-06,
      "loss": 3.416,
      "step": 424440
    },
    {
      "epoch": 0.8842708333333333,
      "grad_norm": 3.3142032623291016,
      "learning_rate": 9.88652992115021e-06,
      "loss": 3.4048,
      "step": 424450
    },
    {
      "epoch": 0.8842916666666667,
      "grad_norm": 3.4590303897857666,
      "learning_rate": 9.883010343707287e-06,
      "loss": 3.6232,
      "step": 424460
    },
    {
      "epoch": 0.8843125,
      "grad_norm": 2.739887237548828,
      "learning_rate": 9.879491371514313e-06,
      "loss": 3.4927,
      "step": 424470
    },
    {
      "epoch": 0.8843333333333333,
      "grad_norm": 3.5391993522644043,
      "learning_rate": 9.875973004586463e-06,
      "loss": 3.3775,
      "step": 424480
    },
    {
      "epoch": 0.8843541666666667,
      "grad_norm": 3.905362606048584,
      "learning_rate": 9.872455242938954e-06,
      "loss": 3.4341,
      "step": 424490
    },
    {
      "epoch": 0.884375,
      "grad_norm": 2.865253210067749,
      "learning_rate": 9.868938086586959e-06,
      "loss": 3.4503,
      "step": 424500
    },
    {
      "epoch": 0.8843958333333334,
      "grad_norm": 2.3811068534851074,
      "learning_rate": 9.865421535545698e-06,
      "loss": 3.395,
      "step": 424510
    },
    {
      "epoch": 0.8844166666666666,
      "grad_norm": 3.2447335720062256,
      "learning_rate": 9.86190558983036e-06,
      "loss": 3.3582,
      "step": 424520
    },
    {
      "epoch": 0.8844375,
      "grad_norm": 3.4201409816741943,
      "learning_rate": 9.858390249456083e-06,
      "loss": 3.3902,
      "step": 424530
    },
    {
      "epoch": 0.8844583333333333,
      "grad_norm": 3.1318271160125732,
      "learning_rate": 9.854875514438104e-06,
      "loss": 3.4407,
      "step": 424540
    },
    {
      "epoch": 0.8844791666666667,
      "grad_norm": 2.802706241607666,
      "learning_rate": 9.851361384791612e-06,
      "loss": 3.5158,
      "step": 424550
    },
    {
      "epoch": 0.8845,
      "grad_norm": 2.281782865524292,
      "learning_rate": 9.847847860531711e-06,
      "loss": 3.4251,
      "step": 424560
    },
    {
      "epoch": 0.8845208333333333,
      "grad_norm": 2.555757999420166,
      "learning_rate": 9.844334941673671e-06,
      "loss": 3.5282,
      "step": 424570
    },
    {
      "epoch": 0.8845416666666667,
      "grad_norm": 3.149076461791992,
      "learning_rate": 9.84082262823263e-06,
      "loss": 3.4628,
      "step": 424580
    },
    {
      "epoch": 0.8845625,
      "grad_norm": 2.7149014472961426,
      "learning_rate": 9.837310920223728e-06,
      "loss": 3.3724,
      "step": 424590
    },
    {
      "epoch": 0.8845833333333334,
      "grad_norm": 3.04647159576416,
      "learning_rate": 9.833799817662169e-06,
      "loss": 3.5033,
      "step": 424600
    },
    {
      "epoch": 0.8846041666666666,
      "grad_norm": 2.2455549240112305,
      "learning_rate": 9.830289320563156e-06,
      "loss": 3.3806,
      "step": 424610
    },
    {
      "epoch": 0.884625,
      "grad_norm": 2.7162907123565674,
      "learning_rate": 9.826779428941745e-06,
      "loss": 3.4987,
      "step": 424620
    },
    {
      "epoch": 0.8846458333333334,
      "grad_norm": 2.6741254329681396,
      "learning_rate": 9.823270142813205e-06,
      "loss": 3.2896,
      "step": 424630
    },
    {
      "epoch": 0.8846666666666667,
      "grad_norm": 2.9678544998168945,
      "learning_rate": 9.81976146219266e-06,
      "loss": 3.4067,
      "step": 424640
    },
    {
      "epoch": 0.8846875,
      "grad_norm": 2.5339856147766113,
      "learning_rate": 9.816253387095213e-06,
      "loss": 3.46,
      "step": 424650
    },
    {
      "epoch": 0.8847083333333333,
      "grad_norm": 3.1542773246765137,
      "learning_rate": 9.812745917536119e-06,
      "loss": 3.3489,
      "step": 424660
    },
    {
      "epoch": 0.8847291666666667,
      "grad_norm": 3.430053472518921,
      "learning_rate": 9.809239053530432e-06,
      "loss": 3.4293,
      "step": 424670
    },
    {
      "epoch": 0.88475,
      "grad_norm": 2.3686282634735107,
      "learning_rate": 9.80573279509334e-06,
      "loss": 3.4482,
      "step": 424680
    },
    {
      "epoch": 0.8847708333333333,
      "grad_norm": 2.9959986209869385,
      "learning_rate": 9.802227142240015e-06,
      "loss": 3.5044,
      "step": 424690
    },
    {
      "epoch": 0.8847916666666666,
      "grad_norm": 2.5028557777404785,
      "learning_rate": 9.798722094985562e-06,
      "loss": 3.3743,
      "step": 424700
    },
    {
      "epoch": 0.8848125,
      "grad_norm": 3.374556541442871,
      "learning_rate": 9.795217653345117e-06,
      "loss": 3.4913,
      "step": 424710
    },
    {
      "epoch": 0.8848333333333334,
      "grad_norm": 3.034276008605957,
      "learning_rate": 9.791713817333868e-06,
      "loss": 3.4514,
      "step": 424720
    },
    {
      "epoch": 0.8848541666666667,
      "grad_norm": 3.047804832458496,
      "learning_rate": 9.788210586966905e-06,
      "loss": 3.4589,
      "step": 424730
    },
    {
      "epoch": 0.884875,
      "grad_norm": 2.7734291553497314,
      "learning_rate": 9.784707962259347e-06,
      "loss": 3.3741,
      "step": 424740
    },
    {
      "epoch": 0.8848958333333333,
      "grad_norm": 2.8816120624542236,
      "learning_rate": 9.781205943226384e-06,
      "loss": 3.4088,
      "step": 424750
    },
    {
      "epoch": 0.8849166666666667,
      "grad_norm": 3.1295390129089355,
      "learning_rate": 9.7777045298831e-06,
      "loss": 3.3648,
      "step": 424760
    },
    {
      "epoch": 0.8849375,
      "grad_norm": 2.5724868774414062,
      "learning_rate": 9.774203722244622e-06,
      "loss": 3.4249,
      "step": 424770
    },
    {
      "epoch": 0.8849583333333333,
      "grad_norm": 2.481034994125366,
      "learning_rate": 9.770703520326084e-06,
      "loss": 3.4108,
      "step": 424780
    },
    {
      "epoch": 0.8849791666666667,
      "grad_norm": 2.6719794273376465,
      "learning_rate": 9.767203924142592e-06,
      "loss": 3.5016,
      "step": 424790
    },
    {
      "epoch": 0.885,
      "grad_norm": 3.711360454559326,
      "learning_rate": 9.763704933709282e-06,
      "loss": 3.4942,
      "step": 424800
    },
    {
      "epoch": 0.8850208333333334,
      "grad_norm": 2.7271463871002197,
      "learning_rate": 9.760206549041244e-06,
      "loss": 3.2675,
      "step": 424810
    },
    {
      "epoch": 0.8850416666666666,
      "grad_norm": 2.8006041049957275,
      "learning_rate": 9.756708770153616e-06,
      "loss": 3.5299,
      "step": 424820
    },
    {
      "epoch": 0.8850625,
      "grad_norm": 2.754749298095703,
      "learning_rate": 9.753211597061483e-06,
      "loss": 3.466,
      "step": 424830
    },
    {
      "epoch": 0.8850833333333333,
      "grad_norm": 2.5129425525665283,
      "learning_rate": 9.74971502977997e-06,
      "loss": 3.498,
      "step": 424840
    },
    {
      "epoch": 0.8851041666666667,
      "grad_norm": 2.2750511169433594,
      "learning_rate": 9.746219068324163e-06,
      "loss": 3.4707,
      "step": 424850
    },
    {
      "epoch": 0.885125,
      "grad_norm": 3.6164891719818115,
      "learning_rate": 9.742723712709182e-06,
      "loss": 3.4162,
      "step": 424860
    },
    {
      "epoch": 0.8851458333333333,
      "grad_norm": 2.259974718093872,
      "learning_rate": 9.739228962950119e-06,
      "loss": 3.4004,
      "step": 424870
    },
    {
      "epoch": 0.8851666666666667,
      "grad_norm": 2.9215941429138184,
      "learning_rate": 9.735734819062075e-06,
      "loss": 3.3159,
      "step": 424880
    },
    {
      "epoch": 0.8851875,
      "grad_norm": 3.145935535430908,
      "learning_rate": 9.732241281060138e-06,
      "loss": 3.2553,
      "step": 424890
    },
    {
      "epoch": 0.8852083333333334,
      "grad_norm": 3.3252761363983154,
      "learning_rate": 9.728748348959365e-06,
      "loss": 3.4581,
      "step": 424900
    },
    {
      "epoch": 0.8852291666666666,
      "grad_norm": 2.264094114303589,
      "learning_rate": 9.725256022774891e-06,
      "loss": 3.4593,
      "step": 424910
    },
    {
      "epoch": 0.88525,
      "grad_norm": 3.8496763706207275,
      "learning_rate": 9.721764302521822e-06,
      "loss": 3.4745,
      "step": 424920
    },
    {
      "epoch": 0.8852708333333333,
      "grad_norm": 2.6701090335845947,
      "learning_rate": 9.718273188215148e-06,
      "loss": 3.4846,
      "step": 424930
    },
    {
      "epoch": 0.8852916666666667,
      "grad_norm": 3.5028159618377686,
      "learning_rate": 9.714782679870038e-06,
      "loss": 3.4971,
      "step": 424940
    },
    {
      "epoch": 0.8853125,
      "grad_norm": 5.262528419494629,
      "learning_rate": 9.711292777501545e-06,
      "loss": 3.5036,
      "step": 424950
    },
    {
      "epoch": 0.8853333333333333,
      "grad_norm": 2.9537458419799805,
      "learning_rate": 9.70780348112471e-06,
      "loss": 3.4584,
      "step": 424960
    },
    {
      "epoch": 0.8853541666666667,
      "grad_norm": 3.2221314907073975,
      "learning_rate": 9.704314790754636e-06,
      "loss": 3.3551,
      "step": 424970
    },
    {
      "epoch": 0.885375,
      "grad_norm": 5.656055927276611,
      "learning_rate": 9.700826706406428e-06,
      "loss": 3.2976,
      "step": 424980
    },
    {
      "epoch": 0.8853958333333334,
      "grad_norm": 3.324692726135254,
      "learning_rate": 9.697339228095057e-06,
      "loss": 3.5068,
      "step": 424990
    },
    {
      "epoch": 0.8854166666666666,
      "grad_norm": 3.8028059005737305,
      "learning_rate": 9.693852355835679e-06,
      "loss": 3.569,
      "step": 425000
    },
    {
      "epoch": 0.8854166666666666,
      "eval_loss": 3.526585340499878,
      "eval_runtime": 7.3454,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 425000
    },
    {
      "epoch": 0.8854375,
      "grad_norm": 2.724226713180542,
      "learning_rate": 9.690366089643348e-06,
      "loss": 3.488,
      "step": 425010
    },
    {
      "epoch": 0.8854583333333333,
      "grad_norm": 2.297891616821289,
      "learning_rate": 9.686880429533034e-06,
      "loss": 3.4948,
      "step": 425020
    },
    {
      "epoch": 0.8854791666666667,
      "grad_norm": 2.5711288452148438,
      "learning_rate": 9.683395375519908e-06,
      "loss": 3.5983,
      "step": 425030
    },
    {
      "epoch": 0.8855,
      "grad_norm": 2.9245645999908447,
      "learning_rate": 9.679910927618961e-06,
      "loss": 3.2254,
      "step": 425040
    },
    {
      "epoch": 0.8855208333333333,
      "grad_norm": 3.915619134902954,
      "learning_rate": 9.676427085845229e-06,
      "loss": 3.3217,
      "step": 425050
    },
    {
      "epoch": 0.8855416666666667,
      "grad_norm": 3.4350531101226807,
      "learning_rate": 9.672943850213832e-06,
      "loss": 3.3585,
      "step": 425060
    },
    {
      "epoch": 0.8855625,
      "grad_norm": 2.8315136432647705,
      "learning_rate": 9.669461220739743e-06,
      "loss": 3.3872,
      "step": 425070
    },
    {
      "epoch": 0.8855833333333333,
      "grad_norm": 2.2840847969055176,
      "learning_rate": 9.665979197438018e-06,
      "loss": 3.5067,
      "step": 425080
    },
    {
      "epoch": 0.8856041666666666,
      "grad_norm": 2.179861307144165,
      "learning_rate": 9.662497780323757e-06,
      "loss": 3.4763,
      "step": 425090
    },
    {
      "epoch": 0.885625,
      "grad_norm": 2.391923189163208,
      "learning_rate": 9.659016969411936e-06,
      "loss": 3.6353,
      "step": 425100
    },
    {
      "epoch": 0.8856458333333334,
      "grad_norm": 3.5845749378204346,
      "learning_rate": 9.655536764717609e-06,
      "loss": 3.3663,
      "step": 425110
    },
    {
      "epoch": 0.8856666666666667,
      "grad_norm": 2.9076240062713623,
      "learning_rate": 9.652057166255828e-06,
      "loss": 3.4692,
      "step": 425120
    },
    {
      "epoch": 0.8856875,
      "grad_norm": 2.8324806690216064,
      "learning_rate": 9.648578174041582e-06,
      "loss": 3.394,
      "step": 425130
    },
    {
      "epoch": 0.8857083333333333,
      "grad_norm": 2.3951609134674072,
      "learning_rate": 9.645099788089928e-06,
      "loss": 3.4709,
      "step": 425140
    },
    {
      "epoch": 0.8857291666666667,
      "grad_norm": 2.7932393550872803,
      "learning_rate": 9.6416220084159e-06,
      "loss": 3.3369,
      "step": 425150
    },
    {
      "epoch": 0.88575,
      "grad_norm": 2.740865707397461,
      "learning_rate": 9.638144835034489e-06,
      "loss": 3.3855,
      "step": 425160
    },
    {
      "epoch": 0.8857708333333333,
      "grad_norm": 2.853447914123535,
      "learning_rate": 9.634668267960748e-06,
      "loss": 3.4914,
      "step": 425170
    },
    {
      "epoch": 0.8857916666666666,
      "grad_norm": 2.644296646118164,
      "learning_rate": 9.631192307209683e-06,
      "loss": 3.4057,
      "step": 425180
    },
    {
      "epoch": 0.8858125,
      "grad_norm": 2.9410250186920166,
      "learning_rate": 9.627716952796283e-06,
      "loss": 3.3726,
      "step": 425190
    },
    {
      "epoch": 0.8858333333333334,
      "grad_norm": 4.1294941902160645,
      "learning_rate": 9.6242422047356e-06,
      "loss": 3.476,
      "step": 425200
    },
    {
      "epoch": 0.8858541666666667,
      "grad_norm": 2.821556806564331,
      "learning_rate": 9.620768063042623e-06,
      "loss": 3.3424,
      "step": 425210
    },
    {
      "epoch": 0.885875,
      "grad_norm": 2.2387311458587646,
      "learning_rate": 9.617294527732372e-06,
      "loss": 3.4171,
      "step": 425220
    },
    {
      "epoch": 0.8858958333333333,
      "grad_norm": 2.5227677822113037,
      "learning_rate": 9.61382159881982e-06,
      "loss": 3.3252,
      "step": 425230
    },
    {
      "epoch": 0.8859166666666667,
      "grad_norm": 2.917694568634033,
      "learning_rate": 9.610349276320007e-06,
      "loss": 3.3469,
      "step": 425240
    },
    {
      "epoch": 0.8859375,
      "grad_norm": 2.8287887573242188,
      "learning_rate": 9.6068775602479e-06,
      "loss": 3.4613,
      "step": 425250
    },
    {
      "epoch": 0.8859583333333333,
      "grad_norm": 2.708791732788086,
      "learning_rate": 9.603406450618557e-06,
      "loss": 3.5729,
      "step": 425260
    },
    {
      "epoch": 0.8859791666666667,
      "grad_norm": 2.538571357727051,
      "learning_rate": 9.599935947446863e-06,
      "loss": 3.397,
      "step": 425270
    },
    {
      "epoch": 0.886,
      "grad_norm": 2.372469425201416,
      "learning_rate": 9.596466050747893e-06,
      "loss": 3.2569,
      "step": 425280
    },
    {
      "epoch": 0.8860208333333334,
      "grad_norm": 3.3767783641815186,
      "learning_rate": 9.592996760536631e-06,
      "loss": 3.4417,
      "step": 425290
    },
    {
      "epoch": 0.8860416666666666,
      "grad_norm": 3.5964274406433105,
      "learning_rate": 9.589528076828018e-06,
      "loss": 3.4988,
      "step": 425300
    },
    {
      "epoch": 0.8860625,
      "grad_norm": 2.3042571544647217,
      "learning_rate": 9.586059999637075e-06,
      "loss": 3.4169,
      "step": 425310
    },
    {
      "epoch": 0.8860833333333333,
      "grad_norm": 2.7620890140533447,
      "learning_rate": 9.582592528978805e-06,
      "loss": 3.4858,
      "step": 425320
    },
    {
      "epoch": 0.8861041666666667,
      "grad_norm": 2.2541844844818115,
      "learning_rate": 9.579125664868098e-06,
      "loss": 3.4497,
      "step": 425330
    },
    {
      "epoch": 0.886125,
      "grad_norm": 3.1447348594665527,
      "learning_rate": 9.575659407320025e-06,
      "loss": 3.4212,
      "step": 425340
    },
    {
      "epoch": 0.8861458333333333,
      "grad_norm": 2.3027689456939697,
      "learning_rate": 9.572193756349522e-06,
      "loss": 3.3827,
      "step": 425350
    },
    {
      "epoch": 0.8861666666666667,
      "grad_norm": 2.708181142807007,
      "learning_rate": 9.56872871197153e-06,
      "loss": 3.49,
      "step": 425360
    },
    {
      "epoch": 0.8861875,
      "grad_norm": 3.419827699661255,
      "learning_rate": 9.565264274201051e-06,
      "loss": 3.2386,
      "step": 425370
    },
    {
      "epoch": 0.8862083333333334,
      "grad_norm": 3.1349096298217773,
      "learning_rate": 9.561800443053076e-06,
      "loss": 3.4392,
      "step": 425380
    },
    {
      "epoch": 0.8862291666666666,
      "grad_norm": 2.9422149658203125,
      "learning_rate": 9.558337218542489e-06,
      "loss": 3.3307,
      "step": 425390
    },
    {
      "epoch": 0.88625,
      "grad_norm": 3.5745162963867188,
      "learning_rate": 9.55487460068433e-06,
      "loss": 3.5234,
      "step": 425400
    },
    {
      "epoch": 0.8862708333333333,
      "grad_norm": 2.8885865211486816,
      "learning_rate": 9.551412589493507e-06,
      "loss": 3.4999,
      "step": 425410
    },
    {
      "epoch": 0.8862916666666667,
      "grad_norm": 2.7318663597106934,
      "learning_rate": 9.547951184984987e-06,
      "loss": 3.5593,
      "step": 425420
    },
    {
      "epoch": 0.8863125,
      "grad_norm": 2.931525707244873,
      "learning_rate": 9.54449038717371e-06,
      "loss": 3.4368,
      "step": 425430
    },
    {
      "epoch": 0.8863333333333333,
      "grad_norm": 2.7437241077423096,
      "learning_rate": 9.541030196074645e-06,
      "loss": 3.2752,
      "step": 425440
    },
    {
      "epoch": 0.8863541666666667,
      "grad_norm": 2.5033175945281982,
      "learning_rate": 9.537570611702733e-06,
      "loss": 3.4072,
      "step": 425450
    },
    {
      "epoch": 0.886375,
      "grad_norm": 3.978816270828247,
      "learning_rate": 9.534111634072927e-06,
      "loss": 3.4721,
      "step": 425460
    },
    {
      "epoch": 0.8863958333333334,
      "grad_norm": 2.5710718631744385,
      "learning_rate": 9.53065326320015e-06,
      "loss": 3.5018,
      "step": 425470
    },
    {
      "epoch": 0.8864166666666666,
      "grad_norm": 2.7053589820861816,
      "learning_rate": 9.527195499099355e-06,
      "loss": 3.541,
      "step": 425480
    },
    {
      "epoch": 0.8864375,
      "grad_norm": 3.130894899368286,
      "learning_rate": 9.523738341785464e-06,
      "loss": 3.6088,
      "step": 425490
    },
    {
      "epoch": 0.8864583333333333,
      "grad_norm": 2.795802354812622,
      "learning_rate": 9.520281791273431e-06,
      "loss": 3.546,
      "step": 425500
    },
    {
      "epoch": 0.8864791666666667,
      "grad_norm": 2.313281297683716,
      "learning_rate": 9.516825847578164e-06,
      "loss": 3.3077,
      "step": 425510
    },
    {
      "epoch": 0.8865,
      "grad_norm": 2.824993371963501,
      "learning_rate": 9.513370510714596e-06,
      "loss": 3.3152,
      "step": 425520
    },
    {
      "epoch": 0.8865208333333333,
      "grad_norm": 3.105642080307007,
      "learning_rate": 9.509915780697668e-06,
      "loss": 3.3659,
      "step": 425530
    },
    {
      "epoch": 0.8865416666666667,
      "grad_norm": 3.2956321239471436,
      "learning_rate": 9.506461657542303e-06,
      "loss": 3.4506,
      "step": 425540
    },
    {
      "epoch": 0.8865625,
      "grad_norm": 2.841521739959717,
      "learning_rate": 9.503008141263402e-06,
      "loss": 3.3567,
      "step": 425550
    },
    {
      "epoch": 0.8865833333333333,
      "grad_norm": 3.8996856212615967,
      "learning_rate": 9.499555231875888e-06,
      "loss": 3.3174,
      "step": 425560
    },
    {
      "epoch": 0.8866041666666666,
      "grad_norm": 3.188549757003784,
      "learning_rate": 9.4961029293947e-06,
      "loss": 3.4566,
      "step": 425570
    },
    {
      "epoch": 0.886625,
      "grad_norm": 3.235715627670288,
      "learning_rate": 9.492651233834708e-06,
      "loss": 3.4596,
      "step": 425580
    },
    {
      "epoch": 0.8866458333333334,
      "grad_norm": 2.0851495265960693,
      "learning_rate": 9.489200145210869e-06,
      "loss": 3.4469,
      "step": 425590
    },
    {
      "epoch": 0.8866666666666667,
      "grad_norm": 3.1610500812530518,
      "learning_rate": 9.48574966353805e-06,
      "loss": 3.4028,
      "step": 425600
    },
    {
      "epoch": 0.8866875,
      "grad_norm": 2.805422067642212,
      "learning_rate": 9.482299788831177e-06,
      "loss": 3.2972,
      "step": 425610
    },
    {
      "epoch": 0.8867083333333333,
      "grad_norm": 2.674105405807495,
      "learning_rate": 9.478850521105152e-06,
      "loss": 3.3863,
      "step": 425620
    },
    {
      "epoch": 0.8867291666666667,
      "grad_norm": 2.7462682723999023,
      "learning_rate": 9.475401860374865e-06,
      "loss": 3.4002,
      "step": 425630
    },
    {
      "epoch": 0.88675,
      "grad_norm": 2.682650327682495,
      "learning_rate": 9.471953806655236e-06,
      "loss": 3.4645,
      "step": 425640
    },
    {
      "epoch": 0.8867708333333333,
      "grad_norm": 3.150470018386841,
      "learning_rate": 9.46850635996112e-06,
      "loss": 3.3436,
      "step": 425650
    },
    {
      "epoch": 0.8867916666666666,
      "grad_norm": 2.509085178375244,
      "learning_rate": 9.465059520307455e-06,
      "loss": 3.4732,
      "step": 425660
    },
    {
      "epoch": 0.8868125,
      "grad_norm": 2.798409938812256,
      "learning_rate": 9.46161328770908e-06,
      "loss": 3.4518,
      "step": 425670
    },
    {
      "epoch": 0.8868333333333334,
      "grad_norm": 3.0564310550689697,
      "learning_rate": 9.458167662180915e-06,
      "loss": 3.401,
      "step": 425680
    },
    {
      "epoch": 0.8868541666666667,
      "grad_norm": 2.621068000793457,
      "learning_rate": 9.45472264373785e-06,
      "loss": 3.3871,
      "step": 425690
    },
    {
      "epoch": 0.886875,
      "grad_norm": 3.618574619293213,
      "learning_rate": 9.451278232394738e-06,
      "loss": 3.5351,
      "step": 425700
    },
    {
      "epoch": 0.8868958333333333,
      "grad_norm": 2.7281405925750732,
      "learning_rate": 9.447834428166452e-06,
      "loss": 3.4296,
      "step": 425710
    },
    {
      "epoch": 0.8869166666666667,
      "grad_norm": 2.3737709522247314,
      "learning_rate": 9.444391231067928e-06,
      "loss": 3.3867,
      "step": 425720
    },
    {
      "epoch": 0.8869375,
      "grad_norm": 2.635007858276367,
      "learning_rate": 9.440948641113972e-06,
      "loss": 3.3844,
      "step": 425730
    },
    {
      "epoch": 0.8869583333333333,
      "grad_norm": 3.0178468227386475,
      "learning_rate": 9.437506658319472e-06,
      "loss": 3.4545,
      "step": 425740
    },
    {
      "epoch": 0.8869791666666667,
      "grad_norm": 4.142922401428223,
      "learning_rate": 9.434065282699332e-06,
      "loss": 3.5236,
      "step": 425750
    },
    {
      "epoch": 0.887,
      "grad_norm": 2.560239791870117,
      "learning_rate": 9.430624514268376e-06,
      "loss": 3.5357,
      "step": 425760
    },
    {
      "epoch": 0.8870208333333334,
      "grad_norm": 2.22318434715271,
      "learning_rate": 9.427184353041472e-06,
      "loss": 3.4038,
      "step": 425770
    },
    {
      "epoch": 0.8870416666666666,
      "grad_norm": 2.422588586807251,
      "learning_rate": 9.42374479903351e-06,
      "loss": 3.5367,
      "step": 425780
    },
    {
      "epoch": 0.8870625,
      "grad_norm": 2.0361411571502686,
      "learning_rate": 9.420305852259314e-06,
      "loss": 3.3233,
      "step": 425790
    },
    {
      "epoch": 0.8870833333333333,
      "grad_norm": 2.1698248386383057,
      "learning_rate": 9.41686751273375e-06,
      "loss": 3.3198,
      "step": 425800
    },
    {
      "epoch": 0.8871041666666667,
      "grad_norm": 3.8114569187164307,
      "learning_rate": 9.41342978047166e-06,
      "loss": 3.4311,
      "step": 425810
    },
    {
      "epoch": 0.887125,
      "grad_norm": 2.4688565731048584,
      "learning_rate": 9.40999265548793e-06,
      "loss": 3.473,
      "step": 425820
    },
    {
      "epoch": 0.8871458333333333,
      "grad_norm": 2.8510563373565674,
      "learning_rate": 9.406556137797367e-06,
      "loss": 3.319,
      "step": 425830
    },
    {
      "epoch": 0.8871666666666667,
      "grad_norm": 2.5756356716156006,
      "learning_rate": 9.403120227414839e-06,
      "loss": 3.3983,
      "step": 425840
    },
    {
      "epoch": 0.8871875,
      "grad_norm": 2.4965553283691406,
      "learning_rate": 9.399684924355172e-06,
      "loss": 3.4392,
      "step": 425850
    },
    {
      "epoch": 0.8872083333333334,
      "grad_norm": 4.653743267059326,
      "learning_rate": 9.396250228633217e-06,
      "loss": 3.536,
      "step": 425860
    },
    {
      "epoch": 0.8872291666666666,
      "grad_norm": 2.950387716293335,
      "learning_rate": 9.392816140263799e-06,
      "loss": 3.4472,
      "step": 425870
    },
    {
      "epoch": 0.88725,
      "grad_norm": 2.588528871536255,
      "learning_rate": 9.389382659261768e-06,
      "loss": 3.2429,
      "step": 425880
    },
    {
      "epoch": 0.8872708333333333,
      "grad_norm": 3.1367504596710205,
      "learning_rate": 9.385949785641932e-06,
      "loss": 3.666,
      "step": 425890
    },
    {
      "epoch": 0.8872916666666667,
      "grad_norm": 3.204451322555542,
      "learning_rate": 9.382517519419147e-06,
      "loss": 3.4037,
      "step": 425900
    },
    {
      "epoch": 0.8873125,
      "grad_norm": 4.049744606018066,
      "learning_rate": 9.379085860608231e-06,
      "loss": 3.3971,
      "step": 425910
    },
    {
      "epoch": 0.8873333333333333,
      "grad_norm": 2.6060843467712402,
      "learning_rate": 9.375654809223992e-06,
      "loss": 3.4058,
      "step": 425920
    },
    {
      "epoch": 0.8873541666666667,
      "grad_norm": 2.5906386375427246,
      "learning_rate": 9.372224365281267e-06,
      "loss": 3.3626,
      "step": 425930
    },
    {
      "epoch": 0.887375,
      "grad_norm": 3.2806646823883057,
      "learning_rate": 9.36879452879486e-06,
      "loss": 3.4324,
      "step": 425940
    },
    {
      "epoch": 0.8873958333333334,
      "grad_norm": 3.2864999771118164,
      "learning_rate": 9.36536529977961e-06,
      "loss": 3.5318,
      "step": 425950
    },
    {
      "epoch": 0.8874166666666666,
      "grad_norm": 2.87943696975708,
      "learning_rate": 9.361936678250304e-06,
      "loss": 3.3695,
      "step": 425960
    },
    {
      "epoch": 0.8874375,
      "grad_norm": 3.159069538116455,
      "learning_rate": 9.358508664221764e-06,
      "loss": 3.5336,
      "step": 425970
    },
    {
      "epoch": 0.8874583333333333,
      "grad_norm": 3.0346529483795166,
      "learning_rate": 9.355081257708796e-06,
      "loss": 3.5347,
      "step": 425980
    },
    {
      "epoch": 0.8874791666666667,
      "grad_norm": 2.3619110584259033,
      "learning_rate": 9.351654458726205e-06,
      "loss": 3.3366,
      "step": 425990
    },
    {
      "epoch": 0.8875,
      "grad_norm": 2.63249135017395,
      "learning_rate": 9.348228267288793e-06,
      "loss": 3.4621,
      "step": 426000
    },
    {
      "epoch": 0.8875,
      "eval_loss": 3.5240890979766846,
      "eval_runtime": 7.2743,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.412,
      "step": 426000
    },
    {
      "epoch": 0.8875208333333333,
      "grad_norm": 3.0433268547058105,
      "learning_rate": 9.344802683411401e-06,
      "loss": 3.4948,
      "step": 426010
    },
    {
      "epoch": 0.8875416666666667,
      "grad_norm": 4.838382720947266,
      "learning_rate": 9.341377707108716e-06,
      "loss": 3.3141,
      "step": 426020
    },
    {
      "epoch": 0.8875625,
      "grad_norm": 2.7569580078125,
      "learning_rate": 9.33795333839566e-06,
      "loss": 3.4712,
      "step": 426030
    },
    {
      "epoch": 0.8875833333333333,
      "grad_norm": 2.404958486557007,
      "learning_rate": 9.334529577286953e-06,
      "loss": 3.5133,
      "step": 426040
    },
    {
      "epoch": 0.8876041666666666,
      "grad_norm": 2.510437250137329,
      "learning_rate": 9.33110642379737e-06,
      "loss": 3.582,
      "step": 426050
    },
    {
      "epoch": 0.887625,
      "grad_norm": 2.8741958141326904,
      "learning_rate": 9.327683877941761e-06,
      "loss": 3.3315,
      "step": 426060
    },
    {
      "epoch": 0.8876458333333334,
      "grad_norm": 2.7899069786071777,
      "learning_rate": 9.324261939734867e-06,
      "loss": 3.4331,
      "step": 426070
    },
    {
      "epoch": 0.8876666666666667,
      "grad_norm": 3.1130781173706055,
      "learning_rate": 9.320840609191444e-06,
      "loss": 3.4718,
      "step": 426080
    },
    {
      "epoch": 0.8876875,
      "grad_norm": 3.0291061401367188,
      "learning_rate": 9.31741988632636e-06,
      "loss": 3.2612,
      "step": 426090
    },
    {
      "epoch": 0.8877083333333333,
      "grad_norm": 2.91865611076355,
      "learning_rate": 9.313999771154308e-06,
      "loss": 3.4061,
      "step": 426100
    },
    {
      "epoch": 0.8877291666666667,
      "grad_norm": 3.8432633876800537,
      "learning_rate": 9.310580263690071e-06,
      "loss": 3.6079,
      "step": 426110
    },
    {
      "epoch": 0.88775,
      "grad_norm": 2.644845962524414,
      "learning_rate": 9.30716136394849e-06,
      "loss": 3.4246,
      "step": 426120
    },
    {
      "epoch": 0.8877708333333333,
      "grad_norm": 2.778681516647339,
      "learning_rate": 9.303743071944236e-06,
      "loss": 3.3596,
      "step": 426130
    },
    {
      "epoch": 0.8877916666666666,
      "grad_norm": 3.3398330211639404,
      "learning_rate": 9.300325387692114e-06,
      "loss": 3.4278,
      "step": 426140
    },
    {
      "epoch": 0.8878125,
      "grad_norm": 2.6533632278442383,
      "learning_rate": 9.296908311206946e-06,
      "loss": 3.4728,
      "step": 426150
    },
    {
      "epoch": 0.8878333333333334,
      "grad_norm": 2.3195605278015137,
      "learning_rate": 9.293491842503403e-06,
      "loss": 3.5172,
      "step": 426160
    },
    {
      "epoch": 0.8878541666666667,
      "grad_norm": 3.3298351764678955,
      "learning_rate": 9.29007598159629e-06,
      "loss": 3.5283,
      "step": 426170
    },
    {
      "epoch": 0.887875,
      "grad_norm": 2.498338222503662,
      "learning_rate": 9.286660728500345e-06,
      "loss": 3.4216,
      "step": 426180
    },
    {
      "epoch": 0.8878958333333333,
      "grad_norm": 3.193105459213257,
      "learning_rate": 9.283246083230339e-06,
      "loss": 3.4426,
      "step": 426190
    },
    {
      "epoch": 0.8879166666666667,
      "grad_norm": 2.502082347869873,
      "learning_rate": 9.279832045800994e-06,
      "loss": 3.4812,
      "step": 426200
    },
    {
      "epoch": 0.8879375,
      "grad_norm": 2.4724392890930176,
      "learning_rate": 9.276418616227083e-06,
      "loss": 3.5549,
      "step": 426210
    },
    {
      "epoch": 0.8879583333333333,
      "grad_norm": 2.6353516578674316,
      "learning_rate": 9.273005794523341e-06,
      "loss": 3.389,
      "step": 426220
    },
    {
      "epoch": 0.8879791666666667,
      "grad_norm": 2.764679193496704,
      "learning_rate": 9.269593580704509e-06,
      "loss": 3.4462,
      "step": 426230
    },
    {
      "epoch": 0.888,
      "grad_norm": 3.0262279510498047,
      "learning_rate": 9.266181974785325e-06,
      "loss": 3.4816,
      "step": 426240
    },
    {
      "epoch": 0.8880208333333334,
      "grad_norm": 2.858401298522949,
      "learning_rate": 9.262770976780526e-06,
      "loss": 3.3504,
      "step": 426250
    },
    {
      "epoch": 0.8880416666666666,
      "grad_norm": 2.4857370853424072,
      "learning_rate": 9.25936058670485e-06,
      "loss": 3.3834,
      "step": 426260
    },
    {
      "epoch": 0.8880625,
      "grad_norm": 2.683199882507324,
      "learning_rate": 9.255950804573036e-06,
      "loss": 3.4006,
      "step": 426270
    },
    {
      "epoch": 0.8880833333333333,
      "grad_norm": 3.054668664932251,
      "learning_rate": 9.252541630399808e-06,
      "loss": 3.2928,
      "step": 426280
    },
    {
      "epoch": 0.8881041666666667,
      "grad_norm": 2.1928627490997314,
      "learning_rate": 9.249133064199898e-06,
      "loss": 3.5689,
      "step": 426290
    },
    {
      "epoch": 0.888125,
      "grad_norm": 2.367607355117798,
      "learning_rate": 9.245725105987966e-06,
      "loss": 3.362,
      "step": 426300
    },
    {
      "epoch": 0.8881458333333333,
      "grad_norm": 2.5988454818725586,
      "learning_rate": 9.242317755778833e-06,
      "loss": 3.3763,
      "step": 426310
    },
    {
      "epoch": 0.8881666666666667,
      "grad_norm": 2.87899112701416,
      "learning_rate": 9.238911013587185e-06,
      "loss": 3.5428,
      "step": 426320
    },
    {
      "epoch": 0.8881875,
      "grad_norm": 2.9536592960357666,
      "learning_rate": 9.23550487942768e-06,
      "loss": 3.4684,
      "step": 426330
    },
    {
      "epoch": 0.8882083333333334,
      "grad_norm": 2.2698097229003906,
      "learning_rate": 9.232099353315086e-06,
      "loss": 3.4147,
      "step": 426340
    },
    {
      "epoch": 0.8882291666666666,
      "grad_norm": 3.242532968521118,
      "learning_rate": 9.228694435264145e-06,
      "loss": 3.526,
      "step": 426350
    },
    {
      "epoch": 0.88825,
      "grad_norm": 3.1524126529693604,
      "learning_rate": 9.225290125289458e-06,
      "loss": 3.4548,
      "step": 426360
    },
    {
      "epoch": 0.8882708333333333,
      "grad_norm": 2.6649491786956787,
      "learning_rate": 9.221886423405833e-06,
      "loss": 3.3789,
      "step": 426370
    },
    {
      "epoch": 0.8882916666666667,
      "grad_norm": 2.9689197540283203,
      "learning_rate": 9.218483329627957e-06,
      "loss": 3.4922,
      "step": 426380
    },
    {
      "epoch": 0.8883125,
      "grad_norm": 2.867021083831787,
      "learning_rate": 9.215080843970452e-06,
      "loss": 3.463,
      "step": 426390
    },
    {
      "epoch": 0.8883333333333333,
      "grad_norm": 2.482219934463501,
      "learning_rate": 9.211678966448121e-06,
      "loss": 3.4438,
      "step": 426400
    },
    {
      "epoch": 0.8883541666666667,
      "grad_norm": 2.93823504447937,
      "learning_rate": 9.20827769707559e-06,
      "loss": 3.4675,
      "step": 426410
    },
    {
      "epoch": 0.888375,
      "grad_norm": 2.561835765838623,
      "learning_rate": 9.204877035867542e-06,
      "loss": 3.4585,
      "step": 426420
    },
    {
      "epoch": 0.8883958333333334,
      "grad_norm": 2.953181743621826,
      "learning_rate": 9.201476982838752e-06,
      "loss": 3.3938,
      "step": 426430
    },
    {
      "epoch": 0.8884166666666666,
      "grad_norm": 2.9591972827911377,
      "learning_rate": 9.198077538003806e-06,
      "loss": 3.5637,
      "step": 426440
    },
    {
      "epoch": 0.8884375,
      "grad_norm": 3.7105491161346436,
      "learning_rate": 9.194678701377428e-06,
      "loss": 3.2992,
      "step": 426450
    },
    {
      "epoch": 0.8884583333333333,
      "grad_norm": 2.7126457691192627,
      "learning_rate": 9.191280472974338e-06,
      "loss": 3.3606,
      "step": 426460
    },
    {
      "epoch": 0.8884791666666667,
      "grad_norm": 2.877354383468628,
      "learning_rate": 9.187882852809175e-06,
      "loss": 3.5194,
      "step": 426470
    },
    {
      "epoch": 0.8885,
      "grad_norm": 3.2485852241516113,
      "learning_rate": 9.184485840896577e-06,
      "loss": 3.4456,
      "step": 426480
    },
    {
      "epoch": 0.8885208333333333,
      "grad_norm": 3.233968734741211,
      "learning_rate": 9.181089437251315e-06,
      "loss": 3.4735,
      "step": 426490
    },
    {
      "epoch": 0.8885416666666667,
      "grad_norm": 2.946031332015991,
      "learning_rate": 9.177693641887979e-06,
      "loss": 3.4964,
      "step": 426500
    },
    {
      "epoch": 0.8885625,
      "grad_norm": 2.7768948078155518,
      "learning_rate": 9.174298454821255e-06,
      "loss": 3.4158,
      "step": 426510
    },
    {
      "epoch": 0.8885833333333333,
      "grad_norm": 2.744511127471924,
      "learning_rate": 9.170903876065849e-06,
      "loss": 3.4594,
      "step": 426520
    },
    {
      "epoch": 0.8886041666666666,
      "grad_norm": 2.5299341678619385,
      "learning_rate": 9.167509905636383e-06,
      "loss": 3.3404,
      "step": 426530
    },
    {
      "epoch": 0.888625,
      "grad_norm": 2.8246333599090576,
      "learning_rate": 9.164116543547528e-06,
      "loss": 3.4881,
      "step": 426540
    },
    {
      "epoch": 0.8886458333333334,
      "grad_norm": 3.266350746154785,
      "learning_rate": 9.16072378981394e-06,
      "loss": 3.3164,
      "step": 426550
    },
    {
      "epoch": 0.8886666666666667,
      "grad_norm": 2.3545620441436768,
      "learning_rate": 9.157331644450272e-06,
      "loss": 3.4816,
      "step": 426560
    },
    {
      "epoch": 0.8886875,
      "grad_norm": 4.2731122970581055,
      "learning_rate": 9.153940107471181e-06,
      "loss": 3.3125,
      "step": 426570
    },
    {
      "epoch": 0.8887083333333333,
      "grad_norm": 2.5548810958862305,
      "learning_rate": 9.150549178891336e-06,
      "loss": 3.3969,
      "step": 426580
    },
    {
      "epoch": 0.8887291666666667,
      "grad_norm": 2.392469644546509,
      "learning_rate": 9.147158858725346e-06,
      "loss": 3.6245,
      "step": 426590
    },
    {
      "epoch": 0.88875,
      "grad_norm": 3.3456175327301025,
      "learning_rate": 9.143769146987895e-06,
      "loss": 3.4378,
      "step": 426600
    },
    {
      "epoch": 0.8887708333333333,
      "grad_norm": 3.774035930633545,
      "learning_rate": 9.14038004369359e-06,
      "loss": 3.2853,
      "step": 426610
    },
    {
      "epoch": 0.8887916666666666,
      "grad_norm": 2.7651495933532715,
      "learning_rate": 9.136991548857087e-06,
      "loss": 3.3575,
      "step": 426620
    },
    {
      "epoch": 0.8888125,
      "grad_norm": 2.966653347015381,
      "learning_rate": 9.133603662493038e-06,
      "loss": 3.5321,
      "step": 426630
    },
    {
      "epoch": 0.8888333333333334,
      "grad_norm": 2.596991539001465,
      "learning_rate": 9.130216384616052e-06,
      "loss": 3.4647,
      "step": 426640
    },
    {
      "epoch": 0.8888541666666666,
      "grad_norm": 2.4215803146362305,
      "learning_rate": 9.126829715240763e-06,
      "loss": 3.4265,
      "step": 426650
    },
    {
      "epoch": 0.888875,
      "grad_norm": 2.5264317989349365,
      "learning_rate": 9.123443654381845e-06,
      "loss": 3.4004,
      "step": 426660
    },
    {
      "epoch": 0.8888958333333333,
      "grad_norm": 2.6623480319976807,
      "learning_rate": 9.120058202053837e-06,
      "loss": 3.4377,
      "step": 426670
    },
    {
      "epoch": 0.8889166666666667,
      "grad_norm": 2.8598053455352783,
      "learning_rate": 9.116673358271443e-06,
      "loss": 3.3658,
      "step": 426680
    },
    {
      "epoch": 0.8889375,
      "grad_norm": 2.2138125896453857,
      "learning_rate": 9.113289123049267e-06,
      "loss": 3.4499,
      "step": 426690
    },
    {
      "epoch": 0.8889583333333333,
      "grad_norm": 3.2119946479797363,
      "learning_rate": 9.109905496401881e-06,
      "loss": 3.3511,
      "step": 426700
    },
    {
      "epoch": 0.8889791666666667,
      "grad_norm": 3.425323486328125,
      "learning_rate": 9.106522478343942e-06,
      "loss": 3.4336,
      "step": 426710
    },
    {
      "epoch": 0.889,
      "grad_norm": 2.6274068355560303,
      "learning_rate": 9.103140068890086e-06,
      "loss": 3.5505,
      "step": 426720
    },
    {
      "epoch": 0.8890208333333334,
      "grad_norm": 2.523867130279541,
      "learning_rate": 9.099758268054852e-06,
      "loss": 3.4886,
      "step": 426730
    },
    {
      "epoch": 0.8890416666666666,
      "grad_norm": 2.900587558746338,
      "learning_rate": 9.096377075852912e-06,
      "loss": 3.6299,
      "step": 426740
    },
    {
      "epoch": 0.8890625,
      "grad_norm": 2.769771099090576,
      "learning_rate": 9.092996492298871e-06,
      "loss": 3.5613,
      "step": 426750
    },
    {
      "epoch": 0.8890833333333333,
      "grad_norm": 3.9084599018096924,
      "learning_rate": 9.089616517407266e-06,
      "loss": 3.555,
      "step": 426760
    },
    {
      "epoch": 0.8891041666666667,
      "grad_norm": 2.5472872257232666,
      "learning_rate": 9.086237151192788e-06,
      "loss": 3.4697,
      "step": 426770
    },
    {
      "epoch": 0.889125,
      "grad_norm": 2.9502921104431152,
      "learning_rate": 9.082858393669956e-06,
      "loss": 3.4216,
      "step": 426780
    },
    {
      "epoch": 0.8891458333333333,
      "grad_norm": 3.1186635494232178,
      "learning_rate": 9.079480244853393e-06,
      "loss": 3.5265,
      "step": 426790
    },
    {
      "epoch": 0.8891666666666667,
      "grad_norm": 2.723065137863159,
      "learning_rate": 9.07610270475772e-06,
      "loss": 3.3609,
      "step": 426800
    },
    {
      "epoch": 0.8891875,
      "grad_norm": 3.7785816192626953,
      "learning_rate": 9.072725773397494e-06,
      "loss": 3.4699,
      "step": 426810
    },
    {
      "epoch": 0.8892083333333334,
      "grad_norm": 2.964596748352051,
      "learning_rate": 9.069349450787283e-06,
      "loss": 3.4157,
      "step": 426820
    },
    {
      "epoch": 0.8892291666666666,
      "grad_norm": 3.0956430435180664,
      "learning_rate": 9.065973736941744e-06,
      "loss": 3.675,
      "step": 426830
    },
    {
      "epoch": 0.88925,
      "grad_norm": 3.833606481552124,
      "learning_rate": 9.062598631875384e-06,
      "loss": 3.3542,
      "step": 426840
    },
    {
      "epoch": 0.8892708333333333,
      "grad_norm": 3.308880567550659,
      "learning_rate": 9.059224135602789e-06,
      "loss": 3.6705,
      "step": 426850
    },
    {
      "epoch": 0.8892916666666667,
      "grad_norm": 2.1843724250793457,
      "learning_rate": 9.055850248138613e-06,
      "loss": 3.4279,
      "step": 426860
    },
    {
      "epoch": 0.8893125,
      "grad_norm": 3.3849852085113525,
      "learning_rate": 9.05247696949733e-06,
      "loss": 3.4419,
      "step": 426870
    },
    {
      "epoch": 0.8893333333333333,
      "grad_norm": 2.3222711086273193,
      "learning_rate": 9.049104299693578e-06,
      "loss": 3.6142,
      "step": 426880
    },
    {
      "epoch": 0.8893541666666667,
      "grad_norm": 2.98410964012146,
      "learning_rate": 9.045732238741892e-06,
      "loss": 3.3397,
      "step": 426890
    },
    {
      "epoch": 0.889375,
      "grad_norm": 3.520615577697754,
      "learning_rate": 9.04236078665685e-06,
      "loss": 3.4782,
      "step": 426900
    },
    {
      "epoch": 0.8893958333333334,
      "grad_norm": 2.6088309288024902,
      "learning_rate": 9.038989943453018e-06,
      "loss": 3.4104,
      "step": 426910
    },
    {
      "epoch": 0.8894166666666666,
      "grad_norm": 3.278505802154541,
      "learning_rate": 9.035619709144954e-06,
      "loss": 3.4809,
      "step": 426920
    },
    {
      "epoch": 0.8894375,
      "grad_norm": 2.711315870285034,
      "learning_rate": 9.032250083747211e-06,
      "loss": 3.4655,
      "step": 426930
    },
    {
      "epoch": 0.8894583333333334,
      "grad_norm": 2.4612183570861816,
      "learning_rate": 9.028881067274363e-06,
      "loss": 3.3542,
      "step": 426940
    },
    {
      "epoch": 0.8894791666666667,
      "grad_norm": 3.0869343280792236,
      "learning_rate": 9.02551265974093e-06,
      "loss": 3.4897,
      "step": 426950
    },
    {
      "epoch": 0.8895,
      "grad_norm": 2.954974889755249,
      "learning_rate": 9.022144861161484e-06,
      "loss": 3.3575,
      "step": 426960
    },
    {
      "epoch": 0.8895208333333333,
      "grad_norm": 2.775826930999756,
      "learning_rate": 9.018777671550582e-06,
      "loss": 3.3569,
      "step": 426970
    },
    {
      "epoch": 0.8895416666666667,
      "grad_norm": 2.8648416996002197,
      "learning_rate": 9.015411090922741e-06,
      "loss": 3.328,
      "step": 426980
    },
    {
      "epoch": 0.8895625,
      "grad_norm": 2.5870895385742188,
      "learning_rate": 9.012045119292521e-06,
      "loss": 3.5791,
      "step": 426990
    },
    {
      "epoch": 0.8895833333333333,
      "grad_norm": 2.3884196281433105,
      "learning_rate": 9.008679756674476e-06,
      "loss": 3.4572,
      "step": 427000
    },
    {
      "epoch": 0.8895833333333333,
      "eval_loss": 3.5217697620391846,
      "eval_runtime": 6.8911,
      "eval_samples_per_second": 1.451,
      "eval_steps_per_second": 0.435,
      "step": 427000
    },
    {
      "epoch": 0.8896041666666666,
      "grad_norm": 3.2288286685943604,
      "learning_rate": 9.005315003083108e-06,
      "loss": 3.5773,
      "step": 427010
    },
    {
      "epoch": 0.889625,
      "grad_norm": 3.6636974811553955,
      "learning_rate": 9.001950858532974e-06,
      "loss": 3.4441,
      "step": 427020
    },
    {
      "epoch": 0.8896458333333334,
      "grad_norm": 2.5911216735839844,
      "learning_rate": 8.99858732303863e-06,
      "loss": 3.3787,
      "step": 427030
    },
    {
      "epoch": 0.8896666666666667,
      "grad_norm": 2.6640453338623047,
      "learning_rate": 8.995224396614515e-06,
      "loss": 3.5384,
      "step": 427040
    },
    {
      "epoch": 0.8896875,
      "grad_norm": 3.366983413696289,
      "learning_rate": 8.991862079275264e-06,
      "loss": 3.3655,
      "step": 427050
    },
    {
      "epoch": 0.8897083333333333,
      "grad_norm": 3.1122114658355713,
      "learning_rate": 8.988500371035351e-06,
      "loss": 3.5337,
      "step": 427060
    },
    {
      "epoch": 0.8897291666666667,
      "grad_norm": 2.855739116668701,
      "learning_rate": 8.985139271909265e-06,
      "loss": 3.4689,
      "step": 427070
    },
    {
      "epoch": 0.88975,
      "grad_norm": 2.4066479206085205,
      "learning_rate": 8.981778781911591e-06,
      "loss": 3.3103,
      "step": 427080
    },
    {
      "epoch": 0.8897708333333333,
      "grad_norm": 2.381763219833374,
      "learning_rate": 8.978418901056839e-06,
      "loss": 3.5589,
      "step": 427090
    },
    {
      "epoch": 0.8897916666666666,
      "grad_norm": 2.3476085662841797,
      "learning_rate": 8.975059629359426e-06,
      "loss": 3.3894,
      "step": 427100
    },
    {
      "epoch": 0.8898125,
      "grad_norm": 2.3347294330596924,
      "learning_rate": 8.971700966833978e-06,
      "loss": 3.3945,
      "step": 427110
    },
    {
      "epoch": 0.8898333333333334,
      "grad_norm": 2.4359922409057617,
      "learning_rate": 8.968342913494981e-06,
      "loss": 3.3121,
      "step": 427120
    },
    {
      "epoch": 0.8898541666666666,
      "grad_norm": 2.6494390964508057,
      "learning_rate": 8.964985469356872e-06,
      "loss": 3.5421,
      "step": 427130
    },
    {
      "epoch": 0.889875,
      "grad_norm": 3.451395273208618,
      "learning_rate": 8.961628634434209e-06,
      "loss": 3.3631,
      "step": 427140
    },
    {
      "epoch": 0.8898958333333333,
      "grad_norm": 3.4040019512176514,
      "learning_rate": 8.95827240874153e-06,
      "loss": 3.408,
      "step": 427150
    },
    {
      "epoch": 0.8899166666666667,
      "grad_norm": 2.8881030082702637,
      "learning_rate": 8.954916792293221e-06,
      "loss": 3.3829,
      "step": 427160
    },
    {
      "epoch": 0.8899375,
      "grad_norm": 3.4891932010650635,
      "learning_rate": 8.95156178510389e-06,
      "loss": 3.4603,
      "step": 427170
    },
    {
      "epoch": 0.8899583333333333,
      "grad_norm": 2.9192380905151367,
      "learning_rate": 8.948207387187972e-06,
      "loss": 3.4042,
      "step": 427180
    },
    {
      "epoch": 0.8899791666666667,
      "grad_norm": 2.383711576461792,
      "learning_rate": 8.944853598559958e-06,
      "loss": 3.4035,
      "step": 427190
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.928112268447876,
      "learning_rate": 8.941500419234338e-06,
      "loss": 3.3803,
      "step": 427200
    },
    {
      "epoch": 0.8900208333333334,
      "grad_norm": 2.652951955795288,
      "learning_rate": 8.938147849225596e-06,
      "loss": 3.4746,
      "step": 427210
    },
    {
      "epoch": 0.8900416666666666,
      "grad_norm": 2.5163793563842773,
      "learning_rate": 8.93479588854824e-06,
      "loss": 3.4099,
      "step": 427220
    },
    {
      "epoch": 0.8900625,
      "grad_norm": 3.4023914337158203,
      "learning_rate": 8.931444537216709e-06,
      "loss": 3.3904,
      "step": 427230
    },
    {
      "epoch": 0.8900833333333333,
      "grad_norm": 2.6534006595611572,
      "learning_rate": 8.928093795245506e-06,
      "loss": 3.3316,
      "step": 427240
    },
    {
      "epoch": 0.8901041666666667,
      "grad_norm": 2.702650547027588,
      "learning_rate": 8.924743662649103e-06,
      "loss": 3.3381,
      "step": 427250
    },
    {
      "epoch": 0.890125,
      "grad_norm": 3.1772730350494385,
      "learning_rate": 8.921394139441956e-06,
      "loss": 3.3682,
      "step": 427260
    },
    {
      "epoch": 0.8901458333333333,
      "grad_norm": 3.1098506450653076,
      "learning_rate": 8.918045225638554e-06,
      "loss": 3.5542,
      "step": 427270
    },
    {
      "epoch": 0.8901666666666667,
      "grad_norm": 2.4159889221191406,
      "learning_rate": 8.914696921253334e-06,
      "loss": 3.4411,
      "step": 427280
    },
    {
      "epoch": 0.8901875,
      "grad_norm": 3.5983030796051025,
      "learning_rate": 8.911349226300801e-06,
      "loss": 3.445,
      "step": 427290
    },
    {
      "epoch": 0.8902083333333334,
      "grad_norm": 2.8255269527435303,
      "learning_rate": 8.908002140795379e-06,
      "loss": 3.5055,
      "step": 427300
    },
    {
      "epoch": 0.8902291666666666,
      "grad_norm": 2.4211628437042236,
      "learning_rate": 8.904655664751536e-06,
      "loss": 3.3222,
      "step": 427310
    },
    {
      "epoch": 0.89025,
      "grad_norm": 2.1994271278381348,
      "learning_rate": 8.901309798183748e-06,
      "loss": 3.4389,
      "step": 427320
    },
    {
      "epoch": 0.8902708333333333,
      "grad_norm": 3.1397669315338135,
      "learning_rate": 8.897964541106434e-06,
      "loss": 3.4648,
      "step": 427330
    },
    {
      "epoch": 0.8902916666666667,
      "grad_norm": 2.788848638534546,
      "learning_rate": 8.894619893534067e-06,
      "loss": 3.478,
      "step": 427340
    },
    {
      "epoch": 0.8903125,
      "grad_norm": 3.658632755279541,
      "learning_rate": 8.8912758554811e-06,
      "loss": 3.3855,
      "step": 427350
    },
    {
      "epoch": 0.8903333333333333,
      "grad_norm": 2.322171926498413,
      "learning_rate": 8.887932426961942e-06,
      "loss": 3.3659,
      "step": 427360
    },
    {
      "epoch": 0.8903541666666667,
      "grad_norm": 2.275995969772339,
      "learning_rate": 8.884589607991077e-06,
      "loss": 3.3302,
      "step": 427370
    },
    {
      "epoch": 0.890375,
      "grad_norm": 2.627568244934082,
      "learning_rate": 8.88124739858293e-06,
      "loss": 3.3744,
      "step": 427380
    },
    {
      "epoch": 0.8903958333333334,
      "grad_norm": 3.2569386959075928,
      "learning_rate": 8.877905798751922e-06,
      "loss": 3.4343,
      "step": 427390
    },
    {
      "epoch": 0.8904166666666666,
      "grad_norm": 2.724241018295288,
      "learning_rate": 8.874564808512541e-06,
      "loss": 3.3409,
      "step": 427400
    },
    {
      "epoch": 0.8904375,
      "grad_norm": 2.6781435012817383,
      "learning_rate": 8.871224427879125e-06,
      "loss": 3.4606,
      "step": 427410
    },
    {
      "epoch": 0.8904583333333334,
      "grad_norm": 2.9002630710601807,
      "learning_rate": 8.867884656866181e-06,
      "loss": 3.3758,
      "step": 427420
    },
    {
      "epoch": 0.8904791666666667,
      "grad_norm": 3.0459256172180176,
      "learning_rate": 8.864545495488129e-06,
      "loss": 3.4472,
      "step": 427430
    },
    {
      "epoch": 0.8905,
      "grad_norm": 2.9005496501922607,
      "learning_rate": 8.861206943759325e-06,
      "loss": 3.4491,
      "step": 427440
    },
    {
      "epoch": 0.8905208333333333,
      "grad_norm": 4.031686305999756,
      "learning_rate": 8.857869001694273e-06,
      "loss": 3.3597,
      "step": 427450
    },
    {
      "epoch": 0.8905416666666667,
      "grad_norm": 2.8311591148376465,
      "learning_rate": 8.854531669307379e-06,
      "loss": 3.4938,
      "step": 427460
    },
    {
      "epoch": 0.8905625,
      "grad_norm": 3.474669933319092,
      "learning_rate": 8.851194946613017e-06,
      "loss": 3.3263,
      "step": 427470
    },
    {
      "epoch": 0.8905833333333333,
      "grad_norm": 3.475588083267212,
      "learning_rate": 8.847858833625604e-06,
      "loss": 3.4308,
      "step": 427480
    },
    {
      "epoch": 0.8906041666666666,
      "grad_norm": 3.494077205657959,
      "learning_rate": 8.844523330359598e-06,
      "loss": 3.3354,
      "step": 427490
    },
    {
      "epoch": 0.890625,
      "grad_norm": 3.004794120788574,
      "learning_rate": 8.841188436829372e-06,
      "loss": 3.4471,
      "step": 427500
    },
    {
      "epoch": 0.8906458333333334,
      "grad_norm": 2.877131700515747,
      "learning_rate": 8.837854153049312e-06,
      "loss": 3.3151,
      "step": 427510
    },
    {
      "epoch": 0.8906666666666667,
      "grad_norm": 2.7848405838012695,
      "learning_rate": 8.83452047903389e-06,
      "loss": 3.5169,
      "step": 427520
    },
    {
      "epoch": 0.8906875,
      "grad_norm": 2.7413034439086914,
      "learning_rate": 8.83118741479743e-06,
      "loss": 3.4441,
      "step": 427530
    },
    {
      "epoch": 0.8907083333333333,
      "grad_norm": 2.643747329711914,
      "learning_rate": 8.82785496035437e-06,
      "loss": 3.4383,
      "step": 427540
    },
    {
      "epoch": 0.8907291666666667,
      "grad_norm": 3.2024238109588623,
      "learning_rate": 8.824523115719095e-06,
      "loss": 3.3318,
      "step": 427550
    },
    {
      "epoch": 0.89075,
      "grad_norm": 3.1619207859039307,
      "learning_rate": 8.821191880906015e-06,
      "loss": 3.4546,
      "step": 427560
    },
    {
      "epoch": 0.8907708333333333,
      "grad_norm": 2.79024600982666,
      "learning_rate": 8.817861255929481e-06,
      "loss": 3.472,
      "step": 427570
    },
    {
      "epoch": 0.8907916666666666,
      "grad_norm": 2.489748954772949,
      "learning_rate": 8.814531240803918e-06,
      "loss": 3.5608,
      "step": 427580
    },
    {
      "epoch": 0.8908125,
      "grad_norm": 2.5612375736236572,
      "learning_rate": 8.81120183554368e-06,
      "loss": 3.4507,
      "step": 427590
    },
    {
      "epoch": 0.8908333333333334,
      "grad_norm": 2.857348680496216,
      "learning_rate": 8.807873040163172e-06,
      "loss": 3.3812,
      "step": 427600
    },
    {
      "epoch": 0.8908541666666666,
      "grad_norm": 2.856649875640869,
      "learning_rate": 8.804544854676765e-06,
      "loss": 3.4858,
      "step": 427610
    },
    {
      "epoch": 0.890875,
      "grad_norm": 2.9576125144958496,
      "learning_rate": 8.801217279098833e-06,
      "loss": 3.4763,
      "step": 427620
    },
    {
      "epoch": 0.8908958333333333,
      "grad_norm": 2.961794137954712,
      "learning_rate": 8.797890313443761e-06,
      "loss": 3.4822,
      "step": 427630
    },
    {
      "epoch": 0.8909166666666667,
      "grad_norm": 3.3366599082946777,
      "learning_rate": 8.794563957725909e-06,
      "loss": 3.3816,
      "step": 427640
    },
    {
      "epoch": 0.8909375,
      "grad_norm": 3.0589566230773926,
      "learning_rate": 8.791238211959645e-06,
      "loss": 3.4257,
      "step": 427650
    },
    {
      "epoch": 0.8909583333333333,
      "grad_norm": 2.758932113647461,
      "learning_rate": 8.787913076159326e-06,
      "loss": 3.5217,
      "step": 427660
    },
    {
      "epoch": 0.8909791666666667,
      "grad_norm": 2.8413822650909424,
      "learning_rate": 8.784588550339338e-06,
      "loss": 3.5302,
      "step": 427670
    },
    {
      "epoch": 0.891,
      "grad_norm": 2.5537633895874023,
      "learning_rate": 8.781264634514024e-06,
      "loss": 3.4652,
      "step": 427680
    },
    {
      "epoch": 0.8910208333333334,
      "grad_norm": 3.277390956878662,
      "learning_rate": 8.777941328697752e-06,
      "loss": 3.35,
      "step": 427690
    },
    {
      "epoch": 0.8910416666666666,
      "grad_norm": 4.180448532104492,
      "learning_rate": 8.774618632904878e-06,
      "loss": 3.2779,
      "step": 427700
    },
    {
      "epoch": 0.8910625,
      "grad_norm": 2.481192111968994,
      "learning_rate": 8.77129654714976e-06,
      "loss": 3.4504,
      "step": 427710
    },
    {
      "epoch": 0.8910833333333333,
      "grad_norm": 2.836029529571533,
      "learning_rate": 8.767975071446714e-06,
      "loss": 3.3639,
      "step": 427720
    },
    {
      "epoch": 0.8911041666666667,
      "grad_norm": 2.4954404830932617,
      "learning_rate": 8.764654205810134e-06,
      "loss": 3.2838,
      "step": 427730
    },
    {
      "epoch": 0.891125,
      "grad_norm": 2.5421648025512695,
      "learning_rate": 8.761333950254324e-06,
      "loss": 3.5009,
      "step": 427740
    },
    {
      "epoch": 0.8911458333333333,
      "grad_norm": 2.7375481128692627,
      "learning_rate": 8.758014304793654e-06,
      "loss": 3.4681,
      "step": 427750
    },
    {
      "epoch": 0.8911666666666667,
      "grad_norm": 3.834106206893921,
      "learning_rate": 8.754695269442464e-06,
      "loss": 3.3395,
      "step": 427760
    },
    {
      "epoch": 0.8911875,
      "grad_norm": 3.343207597732544,
      "learning_rate": 8.75137684421509e-06,
      "loss": 3.3324,
      "step": 427770
    },
    {
      "epoch": 0.8912083333333334,
      "grad_norm": 2.8184335231781006,
      "learning_rate": 8.748059029125842e-06,
      "loss": 3.4369,
      "step": 427780
    },
    {
      "epoch": 0.8912291666666666,
      "grad_norm": 2.142465353012085,
      "learning_rate": 8.74474182418904e-06,
      "loss": 3.4596,
      "step": 427790
    },
    {
      "epoch": 0.89125,
      "grad_norm": 2.450556993484497,
      "learning_rate": 8.741425229419102e-06,
      "loss": 3.3745,
      "step": 427800
    },
    {
      "epoch": 0.8912708333333333,
      "grad_norm": 2.5163135528564453,
      "learning_rate": 8.738109244830255e-06,
      "loss": 3.464,
      "step": 427810
    },
    {
      "epoch": 0.8912916666666667,
      "grad_norm": 3.221771240234375,
      "learning_rate": 8.734793870436834e-06,
      "loss": 3.5889,
      "step": 427820
    },
    {
      "epoch": 0.8913125,
      "grad_norm": 2.541369915008545,
      "learning_rate": 8.731479106253248e-06,
      "loss": 3.3321,
      "step": 427830
    },
    {
      "epoch": 0.8913333333333333,
      "grad_norm": 2.930150032043457,
      "learning_rate": 8.728164952293715e-06,
      "loss": 3.5305,
      "step": 427840
    },
    {
      "epoch": 0.8913541666666667,
      "grad_norm": 3.0160882472991943,
      "learning_rate": 8.724851408572576e-06,
      "loss": 3.3744,
      "step": 427850
    },
    {
      "epoch": 0.891375,
      "grad_norm": 2.563081741333008,
      "learning_rate": 8.7215384751042e-06,
      "loss": 3.518,
      "step": 427860
    },
    {
      "epoch": 0.8913958333333334,
      "grad_norm": 3.1643154621124268,
      "learning_rate": 8.718226151902847e-06,
      "loss": 3.4981,
      "step": 427870
    },
    {
      "epoch": 0.8914166666666666,
      "grad_norm": 2.323704719543457,
      "learning_rate": 8.7149144389828e-06,
      "loss": 3.5513,
      "step": 427880
    },
    {
      "epoch": 0.8914375,
      "grad_norm": 2.3536739349365234,
      "learning_rate": 8.711603336358436e-06,
      "loss": 3.3862,
      "step": 427890
    },
    {
      "epoch": 0.8914583333333334,
      "grad_norm": 3.932567834854126,
      "learning_rate": 8.708292844044008e-06,
      "loss": 3.4414,
      "step": 427900
    },
    {
      "epoch": 0.8914791666666667,
      "grad_norm": 3.1350350379943848,
      "learning_rate": 8.704982962053836e-06,
      "loss": 3.2668,
      "step": 427910
    },
    {
      "epoch": 0.8915,
      "grad_norm": 2.3365743160247803,
      "learning_rate": 8.701673690402194e-06,
      "loss": 3.3947,
      "step": 427920
    },
    {
      "epoch": 0.8915208333333333,
      "grad_norm": 2.5794835090637207,
      "learning_rate": 8.698365029103389e-06,
      "loss": 3.3803,
      "step": 427930
    },
    {
      "epoch": 0.8915416666666667,
      "grad_norm": 2.6796867847442627,
      "learning_rate": 8.695056978171722e-06,
      "loss": 3.4091,
      "step": 427940
    },
    {
      "epoch": 0.8915625,
      "grad_norm": 2.8397409915924072,
      "learning_rate": 8.691749537621484e-06,
      "loss": 3.3683,
      "step": 427950
    },
    {
      "epoch": 0.8915833333333333,
      "grad_norm": 2.9969255924224854,
      "learning_rate": 8.688442707466947e-06,
      "loss": 3.3794,
      "step": 427960
    },
    {
      "epoch": 0.8916041666666666,
      "grad_norm": 3.547797441482544,
      "learning_rate": 8.685136487722399e-06,
      "loss": 3.4186,
      "step": 427970
    },
    {
      "epoch": 0.891625,
      "grad_norm": 2.762411594390869,
      "learning_rate": 8.681830878402129e-06,
      "loss": 3.3824,
      "step": 427980
    },
    {
      "epoch": 0.8916458333333334,
      "grad_norm": 3.9265055656433105,
      "learning_rate": 8.678525879520427e-06,
      "loss": 3.3436,
      "step": 427990
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 2.892327308654785,
      "learning_rate": 8.675221491091528e-06,
      "loss": 3.5836,
      "step": 428000
    },
    {
      "epoch": 0.8916666666666667,
      "eval_loss": 3.5246424674987793,
      "eval_runtime": 7.3886,
      "eval_samples_per_second": 1.353,
      "eval_steps_per_second": 0.406,
      "step": 428000
    },
    {
      "epoch": 0.8916875,
      "grad_norm": 2.744629383087158,
      "learning_rate": 8.67191771312974e-06,
      "loss": 3.4053,
      "step": 428010
    },
    {
      "epoch": 0.8917083333333333,
      "grad_norm": 2.48412823677063,
      "learning_rate": 8.668614545649333e-06,
      "loss": 3.4154,
      "step": 428020
    },
    {
      "epoch": 0.8917291666666667,
      "grad_norm": 2.5764849185943604,
      "learning_rate": 8.665311988664564e-06,
      "loss": 3.4358,
      "step": 428030
    },
    {
      "epoch": 0.89175,
      "grad_norm": 2.433452606201172,
      "learning_rate": 8.662010042189705e-06,
      "loss": 3.2351,
      "step": 428040
    },
    {
      "epoch": 0.8917708333333333,
      "grad_norm": 3.3377065658569336,
      "learning_rate": 8.658708706239027e-06,
      "loss": 3.4551,
      "step": 428050
    },
    {
      "epoch": 0.8917916666666666,
      "grad_norm": 2.0095977783203125,
      "learning_rate": 8.655407980826785e-06,
      "loss": 3.3851,
      "step": 428060
    },
    {
      "epoch": 0.8918125,
      "grad_norm": 4.203226089477539,
      "learning_rate": 8.6521078659672e-06,
      "loss": 3.6263,
      "step": 428070
    },
    {
      "epoch": 0.8918333333333334,
      "grad_norm": 3.3282630443573,
      "learning_rate": 8.648808361674564e-06,
      "loss": 3.5835,
      "step": 428080
    },
    {
      "epoch": 0.8918541666666666,
      "grad_norm": 2.3756484985351562,
      "learning_rate": 8.645509467963164e-06,
      "loss": 3.4856,
      "step": 428090
    },
    {
      "epoch": 0.891875,
      "grad_norm": 3.557931423187256,
      "learning_rate": 8.64221118484717e-06,
      "loss": 3.388,
      "step": 428100
    },
    {
      "epoch": 0.8918958333333333,
      "grad_norm": 2.5198142528533936,
      "learning_rate": 8.638913512340889e-06,
      "loss": 3.1718,
      "step": 428110
    },
    {
      "epoch": 0.8919166666666667,
      "grad_norm": 3.011850595474243,
      "learning_rate": 8.63561645045856e-06,
      "loss": 3.4077,
      "step": 428120
    },
    {
      "epoch": 0.8919375,
      "grad_norm": 2.7817647457122803,
      "learning_rate": 8.63231999921437e-06,
      "loss": 3.3421,
      "step": 428130
    },
    {
      "epoch": 0.8919583333333333,
      "grad_norm": 3.113492727279663,
      "learning_rate": 8.629024158622627e-06,
      "loss": 3.3588,
      "step": 428140
    },
    {
      "epoch": 0.8919791666666667,
      "grad_norm": 2.827500104904175,
      "learning_rate": 8.625728928697567e-06,
      "loss": 3.517,
      "step": 428150
    },
    {
      "epoch": 0.892,
      "grad_norm": 2.7074623107910156,
      "learning_rate": 8.622434309453347e-06,
      "loss": 3.4248,
      "step": 428160
    },
    {
      "epoch": 0.8920208333333334,
      "grad_norm": 2.4570817947387695,
      "learning_rate": 8.619140300904287e-06,
      "loss": 3.5007,
      "step": 428170
    },
    {
      "epoch": 0.8920416666666666,
      "grad_norm": 2.758334159851074,
      "learning_rate": 8.615846903064577e-06,
      "loss": 3.3607,
      "step": 428180
    },
    {
      "epoch": 0.8920625,
      "grad_norm": 2.4947009086608887,
      "learning_rate": 8.612554115948406e-06,
      "loss": 3.6156,
      "step": 428190
    },
    {
      "epoch": 0.8920833333333333,
      "grad_norm": 2.648845672607422,
      "learning_rate": 8.609261939570095e-06,
      "loss": 3.5074,
      "step": 428200
    },
    {
      "epoch": 0.8921041666666667,
      "grad_norm": 3.1873950958251953,
      "learning_rate": 8.605970373943765e-06,
      "loss": 3.5076,
      "step": 428210
    },
    {
      "epoch": 0.892125,
      "grad_norm": 2.4566385746002197,
      "learning_rate": 8.602679419083658e-06,
      "loss": 3.3478,
      "step": 428220
    },
    {
      "epoch": 0.8921458333333333,
      "grad_norm": 2.6636290550231934,
      "learning_rate": 8.59938907500406e-06,
      "loss": 3.3431,
      "step": 428230
    },
    {
      "epoch": 0.8921666666666667,
      "grad_norm": 3.0920586585998535,
      "learning_rate": 8.59609934171911e-06,
      "loss": 3.3999,
      "step": 428240
    },
    {
      "epoch": 0.8921875,
      "grad_norm": 5.0122222900390625,
      "learning_rate": 8.592810219243012e-06,
      "loss": 3.4678,
      "step": 428250
    },
    {
      "epoch": 0.8922083333333334,
      "grad_norm": 3.5683162212371826,
      "learning_rate": 8.589521707590042e-06,
      "loss": 3.5299,
      "step": 428260
    },
    {
      "epoch": 0.8922291666666666,
      "grad_norm": 3.2275121212005615,
      "learning_rate": 8.58623380677435e-06,
      "loss": 3.5329,
      "step": 428270
    },
    {
      "epoch": 0.89225,
      "grad_norm": 3.362744092941284,
      "learning_rate": 8.582946516810146e-06,
      "loss": 3.3693,
      "step": 428280
    },
    {
      "epoch": 0.8922708333333333,
      "grad_norm": 2.9244258403778076,
      "learning_rate": 8.579659837711634e-06,
      "loss": 3.4008,
      "step": 428290
    },
    {
      "epoch": 0.8922916666666667,
      "grad_norm": 2.3619110584259033,
      "learning_rate": 8.576373769493016e-06,
      "loss": 3.4276,
      "step": 428300
    },
    {
      "epoch": 0.8923125,
      "grad_norm": 2.666952610015869,
      "learning_rate": 8.573088312168485e-06,
      "loss": 3.3973,
      "step": 428310
    },
    {
      "epoch": 0.8923333333333333,
      "grad_norm": 2.438471794128418,
      "learning_rate": 8.569803465752229e-06,
      "loss": 3.3929,
      "step": 428320
    },
    {
      "epoch": 0.8923541666666667,
      "grad_norm": 3.0154292583465576,
      "learning_rate": 8.566519230258451e-06,
      "loss": 3.4304,
      "step": 428330
    },
    {
      "epoch": 0.892375,
      "grad_norm": 2.5622565746307373,
      "learning_rate": 8.563235605701308e-06,
      "loss": 3.3743,
      "step": 428340
    },
    {
      "epoch": 0.8923958333333334,
      "grad_norm": 3.1168291568756104,
      "learning_rate": 8.55995259209502e-06,
      "loss": 3.4347,
      "step": 428350
    },
    {
      "epoch": 0.8924166666666666,
      "grad_norm": 3.143646717071533,
      "learning_rate": 8.556670189453745e-06,
      "loss": 3.4094,
      "step": 428360
    },
    {
      "epoch": 0.8924375,
      "grad_norm": 3.7278976440429688,
      "learning_rate": 8.553388397791672e-06,
      "loss": 3.46,
      "step": 428370
    },
    {
      "epoch": 0.8924583333333334,
      "grad_norm": 2.383892774581909,
      "learning_rate": 8.55010721712297e-06,
      "loss": 3.3648,
      "step": 428380
    },
    {
      "epoch": 0.8924791666666667,
      "grad_norm": 2.827345132827759,
      "learning_rate": 8.546826647461797e-06,
      "loss": 3.4271,
      "step": 428390
    },
    {
      "epoch": 0.8925,
      "grad_norm": 2.3238296508789062,
      "learning_rate": 8.54354668882239e-06,
      "loss": 3.4589,
      "step": 428400
    },
    {
      "epoch": 0.8925208333333333,
      "grad_norm": 3.219971179962158,
      "learning_rate": 8.540267341218803e-06,
      "loss": 3.5244,
      "step": 428410
    },
    {
      "epoch": 0.8925416666666667,
      "grad_norm": 2.9541778564453125,
      "learning_rate": 8.536988604665312e-06,
      "loss": 3.388,
      "step": 428420
    },
    {
      "epoch": 0.8925625,
      "grad_norm": 2.261093854904175,
      "learning_rate": 8.533710479176037e-06,
      "loss": 3.4449,
      "step": 428430
    },
    {
      "epoch": 0.8925833333333333,
      "grad_norm": 3.3958330154418945,
      "learning_rate": 8.530432964765116e-06,
      "loss": 3.4314,
      "step": 428440
    },
    {
      "epoch": 0.8926041666666666,
      "grad_norm": 3.5068280696868896,
      "learning_rate": 8.527156061446721e-06,
      "loss": 3.443,
      "step": 428450
    },
    {
      "epoch": 0.892625,
      "grad_norm": 2.762199878692627,
      "learning_rate": 8.523879769235059e-06,
      "loss": 3.3977,
      "step": 428460
    },
    {
      "epoch": 0.8926458333333334,
      "grad_norm": 2.537078857421875,
      "learning_rate": 8.520604088144183e-06,
      "loss": 3.5522,
      "step": 428470
    },
    {
      "epoch": 0.8926666666666667,
      "grad_norm": 2.7396507263183594,
      "learning_rate": 8.517329018188318e-06,
      "loss": 3.4864,
      "step": 428480
    },
    {
      "epoch": 0.8926875,
      "grad_norm": 2.9908459186553955,
      "learning_rate": 8.5140545593816e-06,
      "loss": 3.456,
      "step": 428490
    },
    {
      "epoch": 0.8927083333333333,
      "grad_norm": 4.937922954559326,
      "learning_rate": 8.510780711738135e-06,
      "loss": 3.4284,
      "step": 428500
    },
    {
      "epoch": 0.8927291666666667,
      "grad_norm": 3.5802175998687744,
      "learning_rate": 8.507507475272096e-06,
      "loss": 3.356,
      "step": 428510
    },
    {
      "epoch": 0.89275,
      "grad_norm": 2.4988608360290527,
      "learning_rate": 8.504234849997654e-06,
      "loss": 3.4168,
      "step": 428520
    },
    {
      "epoch": 0.8927708333333333,
      "grad_norm": 3.435598850250244,
      "learning_rate": 8.500962835928865e-06,
      "loss": 3.452,
      "step": 428530
    },
    {
      "epoch": 0.8927916666666667,
      "grad_norm": 2.6259188652038574,
      "learning_rate": 8.49769143307995e-06,
      "loss": 3.4652,
      "step": 428540
    },
    {
      "epoch": 0.8928125,
      "grad_norm": 2.5237174034118652,
      "learning_rate": 8.494420641464982e-06,
      "loss": 3.5188,
      "step": 428550
    },
    {
      "epoch": 0.8928333333333334,
      "grad_norm": 3.101430892944336,
      "learning_rate": 8.491150461098068e-06,
      "loss": 3.4822,
      "step": 428560
    },
    {
      "epoch": 0.8928541666666666,
      "grad_norm": 2.639533042907715,
      "learning_rate": 8.487880891993426e-06,
      "loss": 3.3573,
      "step": 428570
    },
    {
      "epoch": 0.892875,
      "grad_norm": 2.427523136138916,
      "learning_rate": 8.484611934165097e-06,
      "loss": 3.4833,
      "step": 428580
    },
    {
      "epoch": 0.8928958333333333,
      "grad_norm": 3.0324952602386475,
      "learning_rate": 8.481343587627204e-06,
      "loss": 3.3812,
      "step": 428590
    },
    {
      "epoch": 0.8929166666666667,
      "grad_norm": 2.160637140274048,
      "learning_rate": 8.478075852393933e-06,
      "loss": 3.4956,
      "step": 428600
    },
    {
      "epoch": 0.8929375,
      "grad_norm": 3.540703058242798,
      "learning_rate": 8.474808728479344e-06,
      "loss": 3.3862,
      "step": 428610
    },
    {
      "epoch": 0.8929583333333333,
      "grad_norm": 2.934170961380005,
      "learning_rate": 8.471542215897536e-06,
      "loss": 3.4554,
      "step": 428620
    },
    {
      "epoch": 0.8929791666666667,
      "grad_norm": 3.244997978210449,
      "learning_rate": 8.468276314662687e-06,
      "loss": 3.4664,
      "step": 428630
    },
    {
      "epoch": 0.893,
      "grad_norm": 3.294790744781494,
      "learning_rate": 8.465011024788847e-06,
      "loss": 3.4552,
      "step": 428640
    },
    {
      "epoch": 0.8930208333333334,
      "grad_norm": 2.629999876022339,
      "learning_rate": 8.461746346290127e-06,
      "loss": 3.4305,
      "step": 428650
    },
    {
      "epoch": 0.8930416666666666,
      "grad_norm": 2.581695318222046,
      "learning_rate": 8.458482279180644e-06,
      "loss": 3.5142,
      "step": 428660
    },
    {
      "epoch": 0.8930625,
      "grad_norm": 3.214268445968628,
      "learning_rate": 8.455218823474492e-06,
      "loss": 3.4002,
      "step": 428670
    },
    {
      "epoch": 0.8930833333333333,
      "grad_norm": 2.675743818283081,
      "learning_rate": 8.451955979185754e-06,
      "loss": 3.3038,
      "step": 428680
    },
    {
      "epoch": 0.8931041666666667,
      "grad_norm": 3.2648918628692627,
      "learning_rate": 8.448693746328555e-06,
      "loss": 3.4693,
      "step": 428690
    },
    {
      "epoch": 0.893125,
      "grad_norm": 3.212644338607788,
      "learning_rate": 8.445432124916951e-06,
      "loss": 3.3855,
      "step": 428700
    },
    {
      "epoch": 0.8931458333333333,
      "grad_norm": 2.6126604080200195,
      "learning_rate": 8.442171114965062e-06,
      "loss": 3.3861,
      "step": 428710
    },
    {
      "epoch": 0.8931666666666667,
      "grad_norm": 3.2059788703918457,
      "learning_rate": 8.438910716486963e-06,
      "loss": 3.4147,
      "step": 428720
    },
    {
      "epoch": 0.8931875,
      "grad_norm": 4.299638271331787,
      "learning_rate": 8.435650929496724e-06,
      "loss": 3.4373,
      "step": 428730
    },
    {
      "epoch": 0.8932083333333334,
      "grad_norm": 3.0275282859802246,
      "learning_rate": 8.43239175400845e-06,
      "loss": 3.5858,
      "step": 428740
    },
    {
      "epoch": 0.8932291666666666,
      "grad_norm": 2.4017884731292725,
      "learning_rate": 8.429133190036213e-06,
      "loss": 3.6724,
      "step": 428750
    },
    {
      "epoch": 0.89325,
      "grad_norm": 2.872102975845337,
      "learning_rate": 8.425875237594072e-06,
      "loss": 3.4013,
      "step": 428760
    },
    {
      "epoch": 0.8932708333333333,
      "grad_norm": 2.2717125415802,
      "learning_rate": 8.422617896696127e-06,
      "loss": 3.5051,
      "step": 428770
    },
    {
      "epoch": 0.8932916666666667,
      "grad_norm": 2.7882602214813232,
      "learning_rate": 8.419361167356403e-06,
      "loss": 3.3655,
      "step": 428780
    },
    {
      "epoch": 0.8933125,
      "grad_norm": 2.814082622528076,
      "learning_rate": 8.416105049589006e-06,
      "loss": 3.4184,
      "step": 428790
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 2.764314889907837,
      "learning_rate": 8.412849543408023e-06,
      "loss": 3.3654,
      "step": 428800
    },
    {
      "epoch": 0.8933541666666667,
      "grad_norm": 3.312084913253784,
      "learning_rate": 8.409594648827428e-06,
      "loss": 3.3429,
      "step": 428810
    },
    {
      "epoch": 0.893375,
      "grad_norm": 2.7759711742401123,
      "learning_rate": 8.406340365861374e-06,
      "loss": 3.3766,
      "step": 428820
    },
    {
      "epoch": 0.8933958333333333,
      "grad_norm": 3.4871277809143066,
      "learning_rate": 8.403086694523902e-06,
      "loss": 3.3141,
      "step": 428830
    },
    {
      "epoch": 0.8934166666666666,
      "grad_norm": 2.9910874366760254,
      "learning_rate": 8.399833634829018e-06,
      "loss": 3.4589,
      "step": 428840
    },
    {
      "epoch": 0.8934375,
      "grad_norm": 2.59063982963562,
      "learning_rate": 8.396581186790807e-06,
      "loss": 3.5854,
      "step": 428850
    },
    {
      "epoch": 0.8934583333333334,
      "grad_norm": 2.730658769607544,
      "learning_rate": 8.393329350423345e-06,
      "loss": 3.4851,
      "step": 428860
    },
    {
      "epoch": 0.8934791666666667,
      "grad_norm": 2.6950430870056152,
      "learning_rate": 8.390078125740585e-06,
      "loss": 3.4711,
      "step": 428870
    },
    {
      "epoch": 0.8935,
      "grad_norm": 3.4739582538604736,
      "learning_rate": 8.386827512756683e-06,
      "loss": 3.4766,
      "step": 428880
    },
    {
      "epoch": 0.8935208333333333,
      "grad_norm": 2.7254068851470947,
      "learning_rate": 8.383577511485645e-06,
      "loss": 3.4492,
      "step": 428890
    },
    {
      "epoch": 0.8935416666666667,
      "grad_norm": 2.9866445064544678,
      "learning_rate": 8.380328121941443e-06,
      "loss": 3.3577,
      "step": 428900
    },
    {
      "epoch": 0.8935625,
      "grad_norm": 3.091592788696289,
      "learning_rate": 8.377079344138215e-06,
      "loss": 3.4495,
      "step": 428910
    },
    {
      "epoch": 0.8935833333333333,
      "grad_norm": 3.672159194946289,
      "learning_rate": 8.373831178089935e-06,
      "loss": 3.3746,
      "step": 428920
    },
    {
      "epoch": 0.8936041666666666,
      "grad_norm": 2.852818727493286,
      "learning_rate": 8.370583623810607e-06,
      "loss": 3.3824,
      "step": 428930
    },
    {
      "epoch": 0.893625,
      "grad_norm": 2.7550809383392334,
      "learning_rate": 8.367336681314352e-06,
      "loss": 3.4009,
      "step": 428940
    },
    {
      "epoch": 0.8936458333333334,
      "grad_norm": 2.16621732711792,
      "learning_rate": 8.36409035061511e-06,
      "loss": 3.3929,
      "step": 428950
    },
    {
      "epoch": 0.8936666666666667,
      "grad_norm": 2.729628086090088,
      "learning_rate": 8.360844631726954e-06,
      "loss": 3.5955,
      "step": 428960
    },
    {
      "epoch": 0.8936875,
      "grad_norm": 2.8923323154449463,
      "learning_rate": 8.357599524663854e-06,
      "loss": 3.5538,
      "step": 428970
    },
    {
      "epoch": 0.8937083333333333,
      "grad_norm": 3.4377572536468506,
      "learning_rate": 8.354355029439885e-06,
      "loss": 3.3695,
      "step": 428980
    },
    {
      "epoch": 0.8937291666666667,
      "grad_norm": 2.6222996711730957,
      "learning_rate": 8.351111146069018e-06,
      "loss": 3.4603,
      "step": 428990
    },
    {
      "epoch": 0.89375,
      "grad_norm": 2.7249932289123535,
      "learning_rate": 8.347867874565289e-06,
      "loss": 3.4024,
      "step": 429000
    },
    {
      "epoch": 0.89375,
      "eval_loss": 3.5211567878723145,
      "eval_runtime": 7.3371,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 429000
    },
    {
      "epoch": 0.8937708333333333,
      "grad_norm": 3.1824851036071777,
      "learning_rate": 8.344625214942708e-06,
      "loss": 3.4734,
      "step": 429010
    },
    {
      "epoch": 0.8937916666666667,
      "grad_norm": 2.447352886199951,
      "learning_rate": 8.34138316721526e-06,
      "loss": 3.4355,
      "step": 429020
    },
    {
      "epoch": 0.8938125,
      "grad_norm": 2.913336753845215,
      "learning_rate": 8.33814173139697e-06,
      "loss": 3.4239,
      "step": 429030
    },
    {
      "epoch": 0.8938333333333334,
      "grad_norm": 2.6610820293426514,
      "learning_rate": 8.33490090750184e-06,
      "loss": 3.5118,
      "step": 429040
    },
    {
      "epoch": 0.8938541666666666,
      "grad_norm": 4.079314708709717,
      "learning_rate": 8.331660695543862e-06,
      "loss": 3.5777,
      "step": 429050
    },
    {
      "epoch": 0.893875,
      "grad_norm": 3.2817704677581787,
      "learning_rate": 8.328421095537025e-06,
      "loss": 3.4203,
      "step": 429060
    },
    {
      "epoch": 0.8938958333333333,
      "grad_norm": 2.35505747795105,
      "learning_rate": 8.325182107495332e-06,
      "loss": 3.4809,
      "step": 429070
    },
    {
      "epoch": 0.8939166666666667,
      "grad_norm": 2.6390275955200195,
      "learning_rate": 8.32194373143279e-06,
      "loss": 3.5362,
      "step": 429080
    },
    {
      "epoch": 0.8939375,
      "grad_norm": 2.840801239013672,
      "learning_rate": 8.318705967363353e-06,
      "loss": 3.4627,
      "step": 429090
    },
    {
      "epoch": 0.8939583333333333,
      "grad_norm": 2.8472843170166016,
      "learning_rate": 8.315468815301029e-06,
      "loss": 3.4027,
      "step": 429100
    },
    {
      "epoch": 0.8939791666666667,
      "grad_norm": 2.6318323612213135,
      "learning_rate": 8.312232275259806e-06,
      "loss": 3.5459,
      "step": 429110
    },
    {
      "epoch": 0.894,
      "grad_norm": 3.3762893676757812,
      "learning_rate": 8.308996347253637e-06,
      "loss": 3.4852,
      "step": 429120
    },
    {
      "epoch": 0.8940208333333334,
      "grad_norm": 3.463714838027954,
      "learning_rate": 8.305761031296532e-06,
      "loss": 3.3984,
      "step": 429130
    },
    {
      "epoch": 0.8940416666666666,
      "grad_norm": 3.375659227371216,
      "learning_rate": 8.302526327402476e-06,
      "loss": 3.3687,
      "step": 429140
    },
    {
      "epoch": 0.8940625,
      "grad_norm": 2.626059055328369,
      "learning_rate": 8.299292235585375e-06,
      "loss": 3.5862,
      "step": 429150
    },
    {
      "epoch": 0.8940833333333333,
      "grad_norm": 2.566664695739746,
      "learning_rate": 8.29605875585927e-06,
      "loss": 3.4767,
      "step": 429160
    },
    {
      "epoch": 0.8941041666666667,
      "grad_norm": 2.9404327869415283,
      "learning_rate": 8.292825888238113e-06,
      "loss": 3.4233,
      "step": 429170
    },
    {
      "epoch": 0.894125,
      "grad_norm": 2.8058221340179443,
      "learning_rate": 8.289593632735814e-06,
      "loss": 3.4826,
      "step": 429180
    },
    {
      "epoch": 0.8941458333333333,
      "grad_norm": 2.4345850944519043,
      "learning_rate": 8.286361989366391e-06,
      "loss": 3.4106,
      "step": 429190
    },
    {
      "epoch": 0.8941666666666667,
      "grad_norm": 2.7925686836242676,
      "learning_rate": 8.283130958143818e-06,
      "loss": 3.4279,
      "step": 429200
    },
    {
      "epoch": 0.8941875,
      "grad_norm": 3.3660857677459717,
      "learning_rate": 8.279900539081985e-06,
      "loss": 3.4629,
      "step": 429210
    },
    {
      "epoch": 0.8942083333333334,
      "grad_norm": 2.5696451663970947,
      "learning_rate": 8.276670732194912e-06,
      "loss": 3.4425,
      "step": 429220
    },
    {
      "epoch": 0.8942291666666666,
      "grad_norm": 2.91405987739563,
      "learning_rate": 8.273441537496539e-06,
      "loss": 3.5212,
      "step": 429230
    },
    {
      "epoch": 0.89425,
      "grad_norm": 2.6971933841705322,
      "learning_rate": 8.270212955000771e-06,
      "loss": 3.3828,
      "step": 429240
    },
    {
      "epoch": 0.8942708333333333,
      "grad_norm": 2.884870767593384,
      "learning_rate": 8.266984984721565e-06,
      "loss": 3.5439,
      "step": 429250
    },
    {
      "epoch": 0.8942916666666667,
      "grad_norm": 2.381524085998535,
      "learning_rate": 8.263757626672923e-06,
      "loss": 3.4199,
      "step": 429260
    },
    {
      "epoch": 0.8943125,
      "grad_norm": 3.0588533878326416,
      "learning_rate": 8.26053088086872e-06,
      "loss": 3.5168,
      "step": 429270
    },
    {
      "epoch": 0.8943333333333333,
      "grad_norm": 2.6056840419769287,
      "learning_rate": 8.25730474732293e-06,
      "loss": 3.4877,
      "step": 429280
    },
    {
      "epoch": 0.8943541666666667,
      "grad_norm": 2.537489414215088,
      "learning_rate": 8.25407922604947e-06,
      "loss": 3.4548,
      "step": 429290
    },
    {
      "epoch": 0.894375,
      "grad_norm": 2.675551652908325,
      "learning_rate": 8.2508543170623e-06,
      "loss": 3.4999,
      "step": 429300
    },
    {
      "epoch": 0.8943958333333333,
      "grad_norm": 4.436568260192871,
      "learning_rate": 8.247630020375307e-06,
      "loss": 3.4104,
      "step": 429310
    },
    {
      "epoch": 0.8944166666666666,
      "grad_norm": 2.9788997173309326,
      "learning_rate": 8.244406336002446e-06,
      "loss": 3.4272,
      "step": 429320
    },
    {
      "epoch": 0.8944375,
      "grad_norm": 3.386029005050659,
      "learning_rate": 8.241183263957657e-06,
      "loss": 3.3791,
      "step": 429330
    },
    {
      "epoch": 0.8944583333333334,
      "grad_norm": 3.5743467807769775,
      "learning_rate": 8.237960804254828e-06,
      "loss": 3.371,
      "step": 429340
    },
    {
      "epoch": 0.8944791666666667,
      "grad_norm": 3.1487889289855957,
      "learning_rate": 8.2347389569079e-06,
      "loss": 3.3276,
      "step": 429350
    },
    {
      "epoch": 0.8945,
      "grad_norm": 2.8498222827911377,
      "learning_rate": 8.231517721930774e-06,
      "loss": 3.3252,
      "step": 429360
    },
    {
      "epoch": 0.8945208333333333,
      "grad_norm": 2.599964141845703,
      "learning_rate": 8.228297099337394e-06,
      "loss": 3.3854,
      "step": 429370
    },
    {
      "epoch": 0.8945416666666667,
      "grad_norm": 3.735185146331787,
      "learning_rate": 8.225077089141646e-06,
      "loss": 3.299,
      "step": 429380
    },
    {
      "epoch": 0.8945625,
      "grad_norm": 2.978867530822754,
      "learning_rate": 8.221857691357437e-06,
      "loss": 3.4264,
      "step": 429390
    },
    {
      "epoch": 0.8945833333333333,
      "grad_norm": 2.505605697631836,
      "learning_rate": 8.218638905998704e-06,
      "loss": 3.3008,
      "step": 429400
    },
    {
      "epoch": 0.8946041666666666,
      "grad_norm": 2.963029623031616,
      "learning_rate": 8.215420733079303e-06,
      "loss": 3.2691,
      "step": 429410
    },
    {
      "epoch": 0.894625,
      "grad_norm": 2.5602524280548096,
      "learning_rate": 8.212203172613174e-06,
      "loss": 3.4189,
      "step": 429420
    },
    {
      "epoch": 0.8946458333333334,
      "grad_norm": 2.768620729446411,
      "learning_rate": 8.208986224614222e-06,
      "loss": 3.6176,
      "step": 429430
    },
    {
      "epoch": 0.8946666666666667,
      "grad_norm": 2.521381378173828,
      "learning_rate": 8.205769889096302e-06,
      "loss": 3.4836,
      "step": 429440
    },
    {
      "epoch": 0.8946875,
      "grad_norm": 2.369811773300171,
      "learning_rate": 8.202554166073338e-06,
      "loss": 3.4207,
      "step": 429450
    },
    {
      "epoch": 0.8947083333333333,
      "grad_norm": 2.7082924842834473,
      "learning_rate": 8.199339055559218e-06,
      "loss": 3.6291,
      "step": 429460
    },
    {
      "epoch": 0.8947291666666667,
      "grad_norm": 2.4028873443603516,
      "learning_rate": 8.196124557567813e-06,
      "loss": 3.6358,
      "step": 429470
    },
    {
      "epoch": 0.89475,
      "grad_norm": 2.7952775955200195,
      "learning_rate": 8.192910672113029e-06,
      "loss": 3.3615,
      "step": 429480
    },
    {
      "epoch": 0.8947708333333333,
      "grad_norm": 2.8111202716827393,
      "learning_rate": 8.189697399208723e-06,
      "loss": 3.391,
      "step": 429490
    },
    {
      "epoch": 0.8947916666666667,
      "grad_norm": 3.657726526260376,
      "learning_rate": 8.186484738868815e-06,
      "loss": 3.4066,
      "step": 429500
    },
    {
      "epoch": 0.8948125,
      "grad_norm": 2.7982568740844727,
      "learning_rate": 8.183272691107145e-06,
      "loss": 3.4052,
      "step": 429510
    },
    {
      "epoch": 0.8948333333333334,
      "grad_norm": 3.3497297763824463,
      "learning_rate": 8.180061255937603e-06,
      "loss": 3.5762,
      "step": 429520
    },
    {
      "epoch": 0.8948541666666666,
      "grad_norm": 2.7323601245880127,
      "learning_rate": 8.17685043337406e-06,
      "loss": 3.4236,
      "step": 429530
    },
    {
      "epoch": 0.894875,
      "grad_norm": 2.6350691318511963,
      "learning_rate": 8.173640223430422e-06,
      "loss": 3.4632,
      "step": 429540
    },
    {
      "epoch": 0.8948958333333333,
      "grad_norm": 3.7025814056396484,
      "learning_rate": 8.170430626120477e-06,
      "loss": 3.4307,
      "step": 429550
    },
    {
      "epoch": 0.8949166666666667,
      "grad_norm": 2.4722373485565186,
      "learning_rate": 8.167221641458133e-06,
      "loss": 3.4713,
      "step": 429560
    },
    {
      "epoch": 0.8949375,
      "grad_norm": 3.075167655944824,
      "learning_rate": 8.164013269457277e-06,
      "loss": 3.5323,
      "step": 429570
    },
    {
      "epoch": 0.8949583333333333,
      "grad_norm": 2.7480993270874023,
      "learning_rate": 8.160805510131713e-06,
      "loss": 3.4832,
      "step": 429580
    },
    {
      "epoch": 0.8949791666666667,
      "grad_norm": 2.9168810844421387,
      "learning_rate": 8.157598363495315e-06,
      "loss": 3.3515,
      "step": 429590
    },
    {
      "epoch": 0.895,
      "grad_norm": 2.7315962314605713,
      "learning_rate": 8.15439182956199e-06,
      "loss": 3.4098,
      "step": 429600
    },
    {
      "epoch": 0.8950208333333334,
      "grad_norm": 3.2131001949310303,
      "learning_rate": 8.151185908345525e-06,
      "loss": 3.4099,
      "step": 429610
    },
    {
      "epoch": 0.8950416666666666,
      "grad_norm": 2.4512529373168945,
      "learning_rate": 8.14798059985976e-06,
      "loss": 3.5525,
      "step": 429620
    },
    {
      "epoch": 0.8950625,
      "grad_norm": 2.5876336097717285,
      "learning_rate": 8.144775904118616e-06,
      "loss": 3.4122,
      "step": 429630
    },
    {
      "epoch": 0.8950833333333333,
      "grad_norm": 2.486548662185669,
      "learning_rate": 8.141571821135883e-06,
      "loss": 3.4135,
      "step": 429640
    },
    {
      "epoch": 0.8951041666666667,
      "grad_norm": 4.052282333374023,
      "learning_rate": 8.138368350925368e-06,
      "loss": 3.37,
      "step": 429650
    },
    {
      "epoch": 0.895125,
      "grad_norm": 4.253567695617676,
      "learning_rate": 8.135165493501006e-06,
      "loss": 3.4562,
      "step": 429660
    },
    {
      "epoch": 0.8951458333333333,
      "grad_norm": 2.7579593658447266,
      "learning_rate": 8.131963248876538e-06,
      "loss": 3.4391,
      "step": 429670
    },
    {
      "epoch": 0.8951666666666667,
      "grad_norm": 2.7449870109558105,
      "learning_rate": 8.128761617065837e-06,
      "loss": 3.2598,
      "step": 429680
    },
    {
      "epoch": 0.8951875,
      "grad_norm": 2.6153299808502197,
      "learning_rate": 8.125560598082742e-06,
      "loss": 3.567,
      "step": 429690
    },
    {
      "epoch": 0.8952083333333334,
      "grad_norm": 2.669569492340088,
      "learning_rate": 8.122360191941057e-06,
      "loss": 3.4623,
      "step": 429700
    },
    {
      "epoch": 0.8952291666666666,
      "grad_norm": 2.4499685764312744,
      "learning_rate": 8.119160398654622e-06,
      "loss": 3.4069,
      "step": 429710
    },
    {
      "epoch": 0.89525,
      "grad_norm": 2.7264301776885986,
      "learning_rate": 8.115961218237244e-06,
      "loss": 3.4365,
      "step": 429720
    },
    {
      "epoch": 0.8952708333333333,
      "grad_norm": 3.289844274520874,
      "learning_rate": 8.112762650702759e-06,
      "loss": 3.4215,
      "step": 429730
    },
    {
      "epoch": 0.8952916666666667,
      "grad_norm": 2.9433038234710693,
      "learning_rate": 8.109564696064973e-06,
      "loss": 3.3764,
      "step": 429740
    },
    {
      "epoch": 0.8953125,
      "grad_norm": 3.2056491374969482,
      "learning_rate": 8.106367354337711e-06,
      "loss": 3.4283,
      "step": 429750
    },
    {
      "epoch": 0.8953333333333333,
      "grad_norm": 3.1915228366851807,
      "learning_rate": 8.103170625534777e-06,
      "loss": 3.3112,
      "step": 429760
    },
    {
      "epoch": 0.8953541666666667,
      "grad_norm": 2.6221930980682373,
      "learning_rate": 8.099974509669976e-06,
      "loss": 3.5179,
      "step": 429770
    },
    {
      "epoch": 0.895375,
      "grad_norm": 2.6992347240448,
      "learning_rate": 8.096779006757115e-06,
      "loss": 3.3533,
      "step": 429780
    },
    {
      "epoch": 0.8953958333333333,
      "grad_norm": 2.564854621887207,
      "learning_rate": 8.093584116809998e-06,
      "loss": 3.3388,
      "step": 429790
    },
    {
      "epoch": 0.8954166666666666,
      "grad_norm": 3.7172179222106934,
      "learning_rate": 8.090389839842432e-06,
      "loss": 3.4192,
      "step": 429800
    },
    {
      "epoch": 0.8954375,
      "grad_norm": 2.7991018295288086,
      "learning_rate": 8.087196175868204e-06,
      "loss": 3.391,
      "step": 429810
    },
    {
      "epoch": 0.8954583333333334,
      "grad_norm": 3.1113579273223877,
      "learning_rate": 8.084003124901123e-06,
      "loss": 3.4524,
      "step": 429820
    },
    {
      "epoch": 0.8954791666666667,
      "grad_norm": 3.5895798206329346,
      "learning_rate": 8.080810686954992e-06,
      "loss": 3.4176,
      "step": 429830
    },
    {
      "epoch": 0.8955,
      "grad_norm": 2.3325142860412598,
      "learning_rate": 8.077618862043533e-06,
      "loss": 3.3261,
      "step": 429840
    },
    {
      "epoch": 0.8955208333333333,
      "grad_norm": 3.093502998352051,
      "learning_rate": 8.07442765018062e-06,
      "loss": 3.2615,
      "step": 429850
    },
    {
      "epoch": 0.8955416666666667,
      "grad_norm": 4.2311320304870605,
      "learning_rate": 8.071237051380008e-06,
      "loss": 3.3488,
      "step": 429860
    },
    {
      "epoch": 0.8955625,
      "grad_norm": 2.4394843578338623,
      "learning_rate": 8.068047065655436e-06,
      "loss": 3.4362,
      "step": 429870
    },
    {
      "epoch": 0.8955833333333333,
      "grad_norm": 2.279559373855591,
      "learning_rate": 8.064857693020743e-06,
      "loss": 3.4246,
      "step": 429880
    },
    {
      "epoch": 0.8956041666666666,
      "grad_norm": 3.7521231174468994,
      "learning_rate": 8.0616689334897e-06,
      "loss": 3.4553,
      "step": 429890
    },
    {
      "epoch": 0.895625,
      "grad_norm": 2.4413115978240967,
      "learning_rate": 8.058480787076033e-06,
      "loss": 3.3371,
      "step": 429900
    },
    {
      "epoch": 0.8956458333333334,
      "grad_norm": 3.0055694580078125,
      "learning_rate": 8.055293253793576e-06,
      "loss": 3.6295,
      "step": 429910
    },
    {
      "epoch": 0.8956666666666667,
      "grad_norm": 2.261500597000122,
      "learning_rate": 8.052106333656056e-06,
      "loss": 3.5191,
      "step": 429920
    },
    {
      "epoch": 0.8956875,
      "grad_norm": 2.509681224822998,
      "learning_rate": 8.048920026677208e-06,
      "loss": 3.3587,
      "step": 429930
    },
    {
      "epoch": 0.8957083333333333,
      "grad_norm": 2.520350694656372,
      "learning_rate": 8.045734332870907e-06,
      "loss": 3.4455,
      "step": 429940
    },
    {
      "epoch": 0.8957291666666667,
      "grad_norm": 3.005084276199341,
      "learning_rate": 8.042549252250806e-06,
      "loss": 3.461,
      "step": 429950
    },
    {
      "epoch": 0.89575,
      "grad_norm": 2.7407960891723633,
      "learning_rate": 8.039364784830682e-06,
      "loss": 3.4258,
      "step": 429960
    },
    {
      "epoch": 0.8957708333333333,
      "grad_norm": 2.9352216720581055,
      "learning_rate": 8.036180930624353e-06,
      "loss": 3.4251,
      "step": 429970
    },
    {
      "epoch": 0.8957916666666667,
      "grad_norm": 2.580587863922119,
      "learning_rate": 8.032997689645509e-06,
      "loss": 3.494,
      "step": 429980
    },
    {
      "epoch": 0.8958125,
      "grad_norm": 2.953017234802246,
      "learning_rate": 8.02981506190789e-06,
      "loss": 3.3617,
      "step": 429990
    },
    {
      "epoch": 0.8958333333333334,
      "grad_norm": 4.001760005950928,
      "learning_rate": 8.026633047425335e-06,
      "loss": 3.3919,
      "step": 430000
    },
    {
      "epoch": 0.8958333333333334,
      "eval_loss": 3.5216376781463623,
      "eval_runtime": 7.3182,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 430000
    },
    {
      "epoch": 0.8958541666666666,
      "grad_norm": 4.047857284545898,
      "learning_rate": 8.023451646211498e-06,
      "loss": 3.456,
      "step": 430010
    },
    {
      "epoch": 0.895875,
      "grad_norm": 2.5502376556396484,
      "learning_rate": 8.020270858280137e-06,
      "loss": 3.5437,
      "step": 430020
    },
    {
      "epoch": 0.8958958333333333,
      "grad_norm": 2.764185667037964,
      "learning_rate": 8.01709068364504e-06,
      "loss": 3.3432,
      "step": 430030
    },
    {
      "epoch": 0.8959166666666667,
      "grad_norm": 2.956965208053589,
      "learning_rate": 8.013911122319894e-06,
      "loss": 3.4236,
      "step": 430040
    },
    {
      "epoch": 0.8959375,
      "grad_norm": 3.05248761177063,
      "learning_rate": 8.01073217431844e-06,
      "loss": 3.4591,
      "step": 430050
    },
    {
      "epoch": 0.8959583333333333,
      "grad_norm": 2.2964656352996826,
      "learning_rate": 8.007553839654436e-06,
      "loss": 3.4471,
      "step": 430060
    },
    {
      "epoch": 0.8959791666666667,
      "grad_norm": 2.2296507358551025,
      "learning_rate": 8.004376118341582e-06,
      "loss": 3.4197,
      "step": 430070
    },
    {
      "epoch": 0.896,
      "grad_norm": 3.048163414001465,
      "learning_rate": 8.001199010393622e-06,
      "loss": 3.3735,
      "step": 430080
    },
    {
      "epoch": 0.8960208333333334,
      "grad_norm": 3.4772050380706787,
      "learning_rate": 7.998022515824277e-06,
      "loss": 3.5614,
      "step": 430090
    },
    {
      "epoch": 0.8960416666666666,
      "grad_norm": 3.2199671268463135,
      "learning_rate": 7.994846634647267e-06,
      "loss": 3.3657,
      "step": 430100
    },
    {
      "epoch": 0.8960625,
      "grad_norm": 3.2279365062713623,
      "learning_rate": 7.991671366876301e-06,
      "loss": 3.3551,
      "step": 430110
    },
    {
      "epoch": 0.8960833333333333,
      "grad_norm": 3.028127431869507,
      "learning_rate": 7.988496712525117e-06,
      "loss": 3.3439,
      "step": 430120
    },
    {
      "epoch": 0.8961041666666667,
      "grad_norm": 3.5438144207000732,
      "learning_rate": 7.985322671607402e-06,
      "loss": 3.4482,
      "step": 430130
    },
    {
      "epoch": 0.896125,
      "grad_norm": 3.1340718269348145,
      "learning_rate": 7.982149244136915e-06,
      "loss": 3.3388,
      "step": 430140
    },
    {
      "epoch": 0.8961458333333333,
      "grad_norm": 2.6556036472320557,
      "learning_rate": 7.978976430127276e-06,
      "loss": 3.5976,
      "step": 430150
    },
    {
      "epoch": 0.8961666666666667,
      "grad_norm": 2.9432575702667236,
      "learning_rate": 7.975804229592258e-06,
      "loss": 3.4124,
      "step": 430160
    },
    {
      "epoch": 0.8961875,
      "grad_norm": 3.1167333126068115,
      "learning_rate": 7.972632642545585e-06,
      "loss": 3.5277,
      "step": 430170
    },
    {
      "epoch": 0.8962083333333334,
      "grad_norm": 2.7589008808135986,
      "learning_rate": 7.969461669000876e-06,
      "loss": 3.4461,
      "step": 430180
    },
    {
      "epoch": 0.8962291666666666,
      "grad_norm": 3.714221239089966,
      "learning_rate": 7.966291308971889e-06,
      "loss": 3.328,
      "step": 430190
    },
    {
      "epoch": 0.89625,
      "grad_norm": 3.3877391815185547,
      "learning_rate": 7.963121562472312e-06,
      "loss": 3.3803,
      "step": 430200
    },
    {
      "epoch": 0.8962708333333333,
      "grad_norm": 2.804978370666504,
      "learning_rate": 7.959952429515803e-06,
      "loss": 3.4945,
      "step": 430210
    },
    {
      "epoch": 0.8962916666666667,
      "grad_norm": 3.4613752365112305,
      "learning_rate": 7.956783910116099e-06,
      "loss": 3.3442,
      "step": 430220
    },
    {
      "epoch": 0.8963125,
      "grad_norm": 3.2885265350341797,
      "learning_rate": 7.953616004286873e-06,
      "loss": 3.3799,
      "step": 430230
    },
    {
      "epoch": 0.8963333333333333,
      "grad_norm": 3.181931734085083,
      "learning_rate": 7.950448712041763e-06,
      "loss": 3.4278,
      "step": 430240
    },
    {
      "epoch": 0.8963541666666667,
      "grad_norm": 3.138575315475464,
      "learning_rate": 7.94728203339451e-06,
      "loss": 3.4932,
      "step": 430250
    },
    {
      "epoch": 0.896375,
      "grad_norm": 2.5421416759490967,
      "learning_rate": 7.944115968358799e-06,
      "loss": 3.3299,
      "step": 430260
    },
    {
      "epoch": 0.8963958333333333,
      "grad_norm": 3.7722973823547363,
      "learning_rate": 7.940950516948225e-06,
      "loss": 3.3896,
      "step": 430270
    },
    {
      "epoch": 0.8964166666666666,
      "grad_norm": 2.8135275840759277,
      "learning_rate": 7.937785679176556e-06,
      "loss": 3.3645,
      "step": 430280
    },
    {
      "epoch": 0.8964375,
      "grad_norm": 3.402883768081665,
      "learning_rate": 7.9346214550574e-06,
      "loss": 3.4056,
      "step": 430290
    },
    {
      "epoch": 0.8964583333333334,
      "grad_norm": 2.9903173446655273,
      "learning_rate": 7.931457844604427e-06,
      "loss": 3.4912,
      "step": 430300
    },
    {
      "epoch": 0.8964791666666667,
      "grad_norm": 3.2350001335144043,
      "learning_rate": 7.928294847831362e-06,
      "loss": 3.3836,
      "step": 430310
    },
    {
      "epoch": 0.8965,
      "grad_norm": 3.0440239906311035,
      "learning_rate": 7.92513246475181e-06,
      "loss": 3.5269,
      "step": 430320
    },
    {
      "epoch": 0.8965208333333333,
      "grad_norm": 2.6512458324432373,
      "learning_rate": 7.921970695379426e-06,
      "loss": 3.419,
      "step": 430330
    },
    {
      "epoch": 0.8965416666666667,
      "grad_norm": 2.7416703701019287,
      "learning_rate": 7.918809539727933e-06,
      "loss": 3.3974,
      "step": 430340
    },
    {
      "epoch": 0.8965625,
      "grad_norm": 2.832338571548462,
      "learning_rate": 7.91564899781092e-06,
      "loss": 3.3373,
      "step": 430350
    },
    {
      "epoch": 0.8965833333333333,
      "grad_norm": 2.996211528778076,
      "learning_rate": 7.912489069642042e-06,
      "loss": 3.4755,
      "step": 430360
    },
    {
      "epoch": 0.8966041666666666,
      "grad_norm": 2.682927370071411,
      "learning_rate": 7.909329755235006e-06,
      "loss": 3.4515,
      "step": 430370
    },
    {
      "epoch": 0.896625,
      "grad_norm": 3.2141897678375244,
      "learning_rate": 7.9061710546034e-06,
      "loss": 3.2173,
      "step": 430380
    },
    {
      "epoch": 0.8966458333333334,
      "grad_norm": 2.8846187591552734,
      "learning_rate": 7.90301296776088e-06,
      "loss": 3.4771,
      "step": 430390
    },
    {
      "epoch": 0.8966666666666666,
      "grad_norm": 2.865802526473999,
      "learning_rate": 7.899855494721135e-06,
      "loss": 3.3965,
      "step": 430400
    },
    {
      "epoch": 0.8966875,
      "grad_norm": 3.4205236434936523,
      "learning_rate": 7.896698635497739e-06,
      "loss": 3.4548,
      "step": 430410
    },
    {
      "epoch": 0.8967083333333333,
      "grad_norm": 2.3195724487304688,
      "learning_rate": 7.89354239010438e-06,
      "loss": 3.4195,
      "step": 430420
    },
    {
      "epoch": 0.8967291666666667,
      "grad_norm": 3.478595495223999,
      "learning_rate": 7.890386758554645e-06,
      "loss": 3.3648,
      "step": 430430
    },
    {
      "epoch": 0.89675,
      "grad_norm": 2.7071964740753174,
      "learning_rate": 7.887231740862193e-06,
      "loss": 3.4052,
      "step": 430440
    },
    {
      "epoch": 0.8967708333333333,
      "grad_norm": 2.953812837600708,
      "learning_rate": 7.884077337040646e-06,
      "loss": 3.3222,
      "step": 430450
    },
    {
      "epoch": 0.8967916666666667,
      "grad_norm": 2.4994542598724365,
      "learning_rate": 7.88092354710364e-06,
      "loss": 3.4245,
      "step": 430460
    },
    {
      "epoch": 0.8968125,
      "grad_norm": 2.8103535175323486,
      "learning_rate": 7.877770371064784e-06,
      "loss": 3.4578,
      "step": 430470
    },
    {
      "epoch": 0.8968333333333334,
      "grad_norm": 2.797166347503662,
      "learning_rate": 7.8746178089377e-06,
      "loss": 3.5094,
      "step": 430480
    },
    {
      "epoch": 0.8968541666666666,
      "grad_norm": 3.0462100505828857,
      "learning_rate": 7.871465860736026e-06,
      "loss": 3.3892,
      "step": 430490
    },
    {
      "epoch": 0.896875,
      "grad_norm": 4.116265296936035,
      "learning_rate": 7.868314526473351e-06,
      "loss": 3.4394,
      "step": 430500
    },
    {
      "epoch": 0.8968958333333333,
      "grad_norm": 2.6258504390716553,
      "learning_rate": 7.865163806163299e-06,
      "loss": 3.4681,
      "step": 430510
    },
    {
      "epoch": 0.8969166666666667,
      "grad_norm": 2.6758151054382324,
      "learning_rate": 7.862013699819476e-06,
      "loss": 3.3475,
      "step": 430520
    },
    {
      "epoch": 0.8969375,
      "grad_norm": 2.644315719604492,
      "learning_rate": 7.858864207455484e-06,
      "loss": 3.331,
      "step": 430530
    },
    {
      "epoch": 0.8969583333333333,
      "grad_norm": 3.116673231124878,
      "learning_rate": 7.855715329084966e-06,
      "loss": 3.4596,
      "step": 430540
    },
    {
      "epoch": 0.8969791666666667,
      "grad_norm": 2.771275043487549,
      "learning_rate": 7.852567064721443e-06,
      "loss": 3.3912,
      "step": 430550
    },
    {
      "epoch": 0.897,
      "grad_norm": 2.9198460578918457,
      "learning_rate": 7.849419414378604e-06,
      "loss": 3.4374,
      "step": 430560
    },
    {
      "epoch": 0.8970208333333334,
      "grad_norm": 2.4959850311279297,
      "learning_rate": 7.846272378070007e-06,
      "loss": 3.4399,
      "step": 430570
    },
    {
      "epoch": 0.8970416666666666,
      "grad_norm": 3.7506370544433594,
      "learning_rate": 7.843125955809221e-06,
      "loss": 3.3498,
      "step": 430580
    },
    {
      "epoch": 0.8970625,
      "grad_norm": 2.58139705657959,
      "learning_rate": 7.83998014760987e-06,
      "loss": 3.2334,
      "step": 430590
    },
    {
      "epoch": 0.8970833333333333,
      "grad_norm": 3.8658361434936523,
      "learning_rate": 7.83683495348556e-06,
      "loss": 3.5112,
      "step": 430600
    },
    {
      "epoch": 0.8971041666666667,
      "grad_norm": 2.608867645263672,
      "learning_rate": 7.833690373449796e-06,
      "loss": 3.419,
      "step": 430610
    },
    {
      "epoch": 0.897125,
      "grad_norm": 2.4489588737487793,
      "learning_rate": 7.830546407516253e-06,
      "loss": 3.4903,
      "step": 430620
    },
    {
      "epoch": 0.8971458333333333,
      "grad_norm": 2.444794178009033,
      "learning_rate": 7.827403055698483e-06,
      "loss": 3.3974,
      "step": 430630
    },
    {
      "epoch": 0.8971666666666667,
      "grad_norm": 2.871380567550659,
      "learning_rate": 7.824260318010029e-06,
      "loss": 3.386,
      "step": 430640
    },
    {
      "epoch": 0.8971875,
      "grad_norm": 2.7814748287200928,
      "learning_rate": 7.821118194464526e-06,
      "loss": 3.4595,
      "step": 430650
    },
    {
      "epoch": 0.8972083333333334,
      "grad_norm": 4.3826584815979,
      "learning_rate": 7.8179766850755e-06,
      "loss": 3.4835,
      "step": 430660
    },
    {
      "epoch": 0.8972291666666666,
      "grad_norm": 3.0741281509399414,
      "learning_rate": 7.814835789856505e-06,
      "loss": 3.4525,
      "step": 430670
    },
    {
      "epoch": 0.89725,
      "grad_norm": 2.525306224822998,
      "learning_rate": 7.81169550882118e-06,
      "loss": 3.5106,
      "step": 430680
    },
    {
      "epoch": 0.8972708333333334,
      "grad_norm": 3.2279000282287598,
      "learning_rate": 7.808555841983034e-06,
      "loss": 3.4279,
      "step": 430690
    },
    {
      "epoch": 0.8972916666666667,
      "grad_norm": 2.883246898651123,
      "learning_rate": 7.80541678935565e-06,
      "loss": 3.4032,
      "step": 430700
    },
    {
      "epoch": 0.8973125,
      "grad_norm": 2.339160442352295,
      "learning_rate": 7.802278350952574e-06,
      "loss": 3.426,
      "step": 430710
    },
    {
      "epoch": 0.8973333333333333,
      "grad_norm": 2.9396910667419434,
      "learning_rate": 7.799140526787356e-06,
      "loss": 3.4642,
      "step": 430720
    },
    {
      "epoch": 0.8973541666666667,
      "grad_norm": 2.7223572731018066,
      "learning_rate": 7.796003316873588e-06,
      "loss": 3.3477,
      "step": 430730
    },
    {
      "epoch": 0.897375,
      "grad_norm": 3.1807923316955566,
      "learning_rate": 7.792866721224778e-06,
      "loss": 3.5236,
      "step": 430740
    },
    {
      "epoch": 0.8973958333333333,
      "grad_norm": 3.3261334896087646,
      "learning_rate": 7.78973073985451e-06,
      "loss": 3.5235,
      "step": 430750
    },
    {
      "epoch": 0.8974166666666666,
      "grad_norm": 3.148890972137451,
      "learning_rate": 7.786595372776294e-06,
      "loss": 3.4759,
      "step": 430760
    },
    {
      "epoch": 0.8974375,
      "grad_norm": 2.8636655807495117,
      "learning_rate": 7.783460620003718e-06,
      "loss": 3.241,
      "step": 430770
    },
    {
      "epoch": 0.8974583333333334,
      "grad_norm": 4.133045196533203,
      "learning_rate": 7.780326481550286e-06,
      "loss": 3.4505,
      "step": 430780
    },
    {
      "epoch": 0.8974791666666667,
      "grad_norm": 3.769155740737915,
      "learning_rate": 7.77719295742954e-06,
      "loss": 3.3892,
      "step": 430790
    },
    {
      "epoch": 0.8975,
      "grad_norm": 2.9760420322418213,
      "learning_rate": 7.774060047655034e-06,
      "loss": 3.4145,
      "step": 430800
    },
    {
      "epoch": 0.8975208333333333,
      "grad_norm": 2.6856908798217773,
      "learning_rate": 7.770927752240292e-06,
      "loss": 3.4898,
      "step": 430810
    },
    {
      "epoch": 0.8975416666666667,
      "grad_norm": 2.9290668964385986,
      "learning_rate": 7.767796071198851e-06,
      "loss": 3.3982,
      "step": 430820
    },
    {
      "epoch": 0.8975625,
      "grad_norm": 2.25134015083313,
      "learning_rate": 7.764665004544218e-06,
      "loss": 3.3883,
      "step": 430830
    },
    {
      "epoch": 0.8975833333333333,
      "grad_norm": 4.014985084533691,
      "learning_rate": 7.76153455228995e-06,
      "loss": 3.4137,
      "step": 430840
    },
    {
      "epoch": 0.8976041666666666,
      "grad_norm": 3.238528251647949,
      "learning_rate": 7.758404714449534e-06,
      "loss": 3.5019,
      "step": 430850
    },
    {
      "epoch": 0.897625,
      "grad_norm": 2.7369298934936523,
      "learning_rate": 7.75527549103651e-06,
      "loss": 3.4197,
      "step": 430860
    },
    {
      "epoch": 0.8976458333333334,
      "grad_norm": 2.993218421936035,
      "learning_rate": 7.752146882064403e-06,
      "loss": 3.4116,
      "step": 430870
    },
    {
      "epoch": 0.8976666666666666,
      "grad_norm": 3.0314040184020996,
      "learning_rate": 7.749018887546698e-06,
      "loss": 3.5576,
      "step": 430880
    },
    {
      "epoch": 0.8976875,
      "grad_norm": 3.2887589931488037,
      "learning_rate": 7.745891507496938e-06,
      "loss": 3.4757,
      "step": 430890
    },
    {
      "epoch": 0.8977083333333333,
      "grad_norm": 3.1092453002929688,
      "learning_rate": 7.74276474192861e-06,
      "loss": 3.5008,
      "step": 430900
    },
    {
      "epoch": 0.8977291666666667,
      "grad_norm": 2.825594425201416,
      "learning_rate": 7.739638590855251e-06,
      "loss": 3.5101,
      "step": 430910
    },
    {
      "epoch": 0.89775,
      "grad_norm": 2.9261488914489746,
      "learning_rate": 7.736513054290306e-06,
      "loss": 3.3735,
      "step": 430920
    },
    {
      "epoch": 0.8977708333333333,
      "grad_norm": 3.2225687503814697,
      "learning_rate": 7.733388132247325e-06,
      "loss": 3.561,
      "step": 430930
    },
    {
      "epoch": 0.8977916666666667,
      "grad_norm": 2.2236311435699463,
      "learning_rate": 7.730263824739835e-06,
      "loss": 3.4265,
      "step": 430940
    },
    {
      "epoch": 0.8978125,
      "grad_norm": 2.9720215797424316,
      "learning_rate": 7.727140131781224e-06,
      "loss": 3.3828,
      "step": 430950
    },
    {
      "epoch": 0.8978333333333334,
      "grad_norm": 3.1316347122192383,
      "learning_rate": 7.724017053385096e-06,
      "loss": 3.42,
      "step": 430960
    },
    {
      "epoch": 0.8978541666666666,
      "grad_norm": 2.5079777240753174,
      "learning_rate": 7.720894589564907e-06,
      "loss": 3.4599,
      "step": 430970
    },
    {
      "epoch": 0.897875,
      "grad_norm": 3.0700862407684326,
      "learning_rate": 7.717772740334083e-06,
      "loss": 3.5056,
      "step": 430980
    },
    {
      "epoch": 0.8978958333333333,
      "grad_norm": 3.489590644836426,
      "learning_rate": 7.714651505706193e-06,
      "loss": 3.4324,
      "step": 430990
    },
    {
      "epoch": 0.8979166666666667,
      "grad_norm": 2.8826327323913574,
      "learning_rate": 7.711530885694712e-06,
      "loss": 3.4524,
      "step": 431000
    },
    {
      "epoch": 0.8979166666666667,
      "eval_loss": 3.5244877338409424,
      "eval_runtime": 6.84,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 431000
    },
    {
      "epoch": 0.8979375,
      "grad_norm": 2.496880531311035,
      "learning_rate": 7.708410880313076e-06,
      "loss": 3.4357,
      "step": 431010
    },
    {
      "epoch": 0.8979583333333333,
      "grad_norm": 2.786445379257202,
      "learning_rate": 7.705291489574761e-06,
      "loss": 3.2651,
      "step": 431020
    },
    {
      "epoch": 0.8979791666666667,
      "grad_norm": 2.637454032897949,
      "learning_rate": 7.702172713493288e-06,
      "loss": 3.4061,
      "step": 431030
    },
    {
      "epoch": 0.898,
      "grad_norm": 3.4781334400177,
      "learning_rate": 7.699054552082095e-06,
      "loss": 3.3658,
      "step": 431040
    },
    {
      "epoch": 0.8980208333333334,
      "grad_norm": 3.209550142288208,
      "learning_rate": 7.695937005354674e-06,
      "loss": 3.3946,
      "step": 431050
    },
    {
      "epoch": 0.8980416666666666,
      "grad_norm": 2.8104660511016846,
      "learning_rate": 7.692820073324462e-06,
      "loss": 3.5307,
      "step": 431060
    },
    {
      "epoch": 0.8980625,
      "grad_norm": 3.1753852367401123,
      "learning_rate": 7.689703756004934e-06,
      "loss": 3.4853,
      "step": 431070
    },
    {
      "epoch": 0.8980833333333333,
      "grad_norm": 3.1820781230926514,
      "learning_rate": 7.68658805340956e-06,
      "loss": 3.4339,
      "step": 431080
    },
    {
      "epoch": 0.8981041666666667,
      "grad_norm": 2.3812520503997803,
      "learning_rate": 7.683472965551797e-06,
      "loss": 3.4033,
      "step": 431090
    },
    {
      "epoch": 0.898125,
      "grad_norm": 2.605586528778076,
      "learning_rate": 7.6803584924451e-06,
      "loss": 3.4071,
      "step": 431100
    },
    {
      "epoch": 0.8981458333333333,
      "grad_norm": 2.8590383529663086,
      "learning_rate": 7.677244634102908e-06,
      "loss": 3.3719,
      "step": 431110
    },
    {
      "epoch": 0.8981666666666667,
      "grad_norm": 3.014859914779663,
      "learning_rate": 7.674131390538696e-06,
      "loss": 3.5014,
      "step": 431120
    },
    {
      "epoch": 0.8981875,
      "grad_norm": 2.792201280593872,
      "learning_rate": 7.671018761765885e-06,
      "loss": 3.456,
      "step": 431130
    },
    {
      "epoch": 0.8982083333333334,
      "grad_norm": 2.946288585662842,
      "learning_rate": 7.667906747797946e-06,
      "loss": 3.5187,
      "step": 431140
    },
    {
      "epoch": 0.8982291666666666,
      "grad_norm": 2.8737378120422363,
      "learning_rate": 7.664795348648322e-06,
      "loss": 3.4203,
      "step": 431150
    },
    {
      "epoch": 0.89825,
      "grad_norm": 2.984539747238159,
      "learning_rate": 7.661684564330434e-06,
      "loss": 3.3257,
      "step": 431160
    },
    {
      "epoch": 0.8982708333333334,
      "grad_norm": 2.5151145458221436,
      "learning_rate": 7.658574394857719e-06,
      "loss": 3.4472,
      "step": 431170
    },
    {
      "epoch": 0.8982916666666667,
      "grad_norm": 2.3830454349517822,
      "learning_rate": 7.655464840243619e-06,
      "loss": 3.4878,
      "step": 431180
    },
    {
      "epoch": 0.8983125,
      "grad_norm": 3.142927408218384,
      "learning_rate": 7.652355900501572e-06,
      "loss": 3.4984,
      "step": 431190
    },
    {
      "epoch": 0.8983333333333333,
      "grad_norm": 2.5270750522613525,
      "learning_rate": 7.649247575645017e-06,
      "loss": 3.4097,
      "step": 431200
    },
    {
      "epoch": 0.8983541666666667,
      "grad_norm": 3.242014169692993,
      "learning_rate": 7.646139865687345e-06,
      "loss": 3.4136,
      "step": 431210
    },
    {
      "epoch": 0.898375,
      "grad_norm": 2.8734397888183594,
      "learning_rate": 7.64303277064201e-06,
      "loss": 3.3167,
      "step": 431220
    },
    {
      "epoch": 0.8983958333333333,
      "grad_norm": 2.4264323711395264,
      "learning_rate": 7.639926290522418e-06,
      "loss": 3.3642,
      "step": 431230
    },
    {
      "epoch": 0.8984166666666666,
      "grad_norm": 3.029215097427368,
      "learning_rate": 7.63682042534201e-06,
      "loss": 3.5273,
      "step": 431240
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 2.9571399688720703,
      "learning_rate": 7.633715175114174e-06,
      "loss": 3.3339,
      "step": 431250
    },
    {
      "epoch": 0.8984583333333334,
      "grad_norm": 2.674891471862793,
      "learning_rate": 7.630610539852332e-06,
      "loss": 3.2997,
      "step": 431260
    },
    {
      "epoch": 0.8984791666666667,
      "grad_norm": 3.7508037090301514,
      "learning_rate": 7.627506519569909e-06,
      "loss": 3.3739,
      "step": 431270
    },
    {
      "epoch": 0.8985,
      "grad_norm": 2.672375440597534,
      "learning_rate": 7.624403114280325e-06,
      "loss": 3.3779,
      "step": 431280
    },
    {
      "epoch": 0.8985208333333333,
      "grad_norm": 2.614814519882202,
      "learning_rate": 7.621300323996937e-06,
      "loss": 3.3166,
      "step": 431290
    },
    {
      "epoch": 0.8985416666666667,
      "grad_norm": 2.915862798690796,
      "learning_rate": 7.618198148733151e-06,
      "loss": 3.4597,
      "step": 431300
    },
    {
      "epoch": 0.8985625,
      "grad_norm": 2.5157477855682373,
      "learning_rate": 7.61509658850244e-06,
      "loss": 3.5701,
      "step": 431310
    },
    {
      "epoch": 0.8985833333333333,
      "grad_norm": 2.346112012863159,
      "learning_rate": 7.611995643318125e-06,
      "loss": 3.4623,
      "step": 431320
    },
    {
      "epoch": 0.8986041666666666,
      "grad_norm": 4.2230939865112305,
      "learning_rate": 7.608895313193597e-06,
      "loss": 3.4055,
      "step": 431330
    },
    {
      "epoch": 0.898625,
      "grad_norm": 3.05381441116333,
      "learning_rate": 7.605795598142344e-06,
      "loss": 3.4496,
      "step": 431340
    },
    {
      "epoch": 0.8986458333333334,
      "grad_norm": 3.2857329845428467,
      "learning_rate": 7.602696498177657e-06,
      "loss": 3.2693,
      "step": 431350
    },
    {
      "epoch": 0.8986666666666666,
      "grad_norm": 3.2863569259643555,
      "learning_rate": 7.599598013312924e-06,
      "loss": 3.2663,
      "step": 431360
    },
    {
      "epoch": 0.8986875,
      "grad_norm": 2.4628946781158447,
      "learning_rate": 7.596500143561618e-06,
      "loss": 3.4412,
      "step": 431370
    },
    {
      "epoch": 0.8987083333333333,
      "grad_norm": 3.5078845024108887,
      "learning_rate": 7.593402888937045e-06,
      "loss": 3.5813,
      "step": 431380
    },
    {
      "epoch": 0.8987291666666667,
      "grad_norm": 2.767672061920166,
      "learning_rate": 7.590306249452577e-06,
      "loss": 3.4992,
      "step": 431390
    },
    {
      "epoch": 0.89875,
      "grad_norm": 2.4196557998657227,
      "learning_rate": 7.5872102251216535e-06,
      "loss": 3.3825,
      "step": 431400
    },
    {
      "epoch": 0.8987708333333333,
      "grad_norm": 3.054765224456787,
      "learning_rate": 7.584114815957598e-06,
      "loss": 3.5218,
      "step": 431410
    },
    {
      "epoch": 0.8987916666666667,
      "grad_norm": 4.180380821228027,
      "learning_rate": 7.5810200219737826e-06,
      "loss": 3.3643,
      "step": 431420
    },
    {
      "epoch": 0.8988125,
      "grad_norm": 3.2107067108154297,
      "learning_rate": 7.577925843183597e-06,
      "loss": 3.4006,
      "step": 431430
    },
    {
      "epoch": 0.8988333333333334,
      "grad_norm": 3.1763248443603516,
      "learning_rate": 7.574832279600395e-06,
      "loss": 3.3018,
      "step": 431440
    },
    {
      "epoch": 0.8988541666666666,
      "grad_norm": 3.8279855251312256,
      "learning_rate": 7.571739331237553e-06,
      "loss": 3.3782,
      "step": 431450
    },
    {
      "epoch": 0.898875,
      "grad_norm": 3.104304552078247,
      "learning_rate": 7.568646998108408e-06,
      "loss": 3.2731,
      "step": 431460
    },
    {
      "epoch": 0.8988958333333333,
      "grad_norm": 2.455022096633911,
      "learning_rate": 7.565555280226332e-06,
      "loss": 3.6235,
      "step": 431470
    },
    {
      "epoch": 0.8989166666666667,
      "grad_norm": 2.8018109798431396,
      "learning_rate": 7.562464177604682e-06,
      "loss": 3.4,
      "step": 431480
    },
    {
      "epoch": 0.8989375,
      "grad_norm": 3.2396676540374756,
      "learning_rate": 7.5593736902567984e-06,
      "loss": 3.4311,
      "step": 431490
    },
    {
      "epoch": 0.8989583333333333,
      "grad_norm": 2.6441123485565186,
      "learning_rate": 7.556283818196035e-06,
      "loss": 3.3841,
      "step": 431500
    },
    {
      "epoch": 0.8989791666666667,
      "grad_norm": 2.2473411560058594,
      "learning_rate": 7.553194561435749e-06,
      "loss": 3.3872,
      "step": 431510
    },
    {
      "epoch": 0.899,
      "grad_norm": 3.2291834354400635,
      "learning_rate": 7.55010591998928e-06,
      "loss": 3.3918,
      "step": 431520
    },
    {
      "epoch": 0.8990208333333334,
      "grad_norm": 2.9648244380950928,
      "learning_rate": 7.547017893869967e-06,
      "loss": 3.4146,
      "step": 431530
    },
    {
      "epoch": 0.8990416666666666,
      "grad_norm": 3.308847665786743,
      "learning_rate": 7.543930483091149e-06,
      "loss": 3.4608,
      "step": 431540
    },
    {
      "epoch": 0.8990625,
      "grad_norm": 3.341191053390503,
      "learning_rate": 7.540843687666165e-06,
      "loss": 3.6015,
      "step": 431550
    },
    {
      "epoch": 0.8990833333333333,
      "grad_norm": 3.0343401432037354,
      "learning_rate": 7.537757507608338e-06,
      "loss": 3.3931,
      "step": 431560
    },
    {
      "epoch": 0.8991041666666667,
      "grad_norm": 3.0301036834716797,
      "learning_rate": 7.534671942931026e-06,
      "loss": 3.3594,
      "step": 431570
    },
    {
      "epoch": 0.899125,
      "grad_norm": 2.660301685333252,
      "learning_rate": 7.531586993647532e-06,
      "loss": 3.3702,
      "step": 431580
    },
    {
      "epoch": 0.8991458333333333,
      "grad_norm": 2.8446896076202393,
      "learning_rate": 7.52850265977118e-06,
      "loss": 3.4886,
      "step": 431590
    },
    {
      "epoch": 0.8991666666666667,
      "grad_norm": 2.7829084396362305,
      "learning_rate": 7.525418941315326e-06,
      "loss": 3.4752,
      "step": 431600
    },
    {
      "epoch": 0.8991875,
      "grad_norm": 3.8158600330352783,
      "learning_rate": 7.522335838293226e-06,
      "loss": 3.2523,
      "step": 431610
    },
    {
      "epoch": 0.8992083333333334,
      "grad_norm": 2.9766249656677246,
      "learning_rate": 7.519253350718268e-06,
      "loss": 3.388,
      "step": 431620
    },
    {
      "epoch": 0.8992291666666666,
      "grad_norm": 2.860490560531616,
      "learning_rate": 7.516171478603761e-06,
      "loss": 3.4219,
      "step": 431630
    },
    {
      "epoch": 0.89925,
      "grad_norm": 3.2839081287384033,
      "learning_rate": 7.513090221962942e-06,
      "loss": 3.3494,
      "step": 431640
    },
    {
      "epoch": 0.8992708333333334,
      "grad_norm": 2.94645094871521,
      "learning_rate": 7.510009580809218e-06,
      "loss": 3.3278,
      "step": 431650
    },
    {
      "epoch": 0.8992916666666667,
      "grad_norm": 2.616903781890869,
      "learning_rate": 7.506929555155828e-06,
      "loss": 3.3161,
      "step": 431660
    },
    {
      "epoch": 0.8993125,
      "grad_norm": 2.9385101795196533,
      "learning_rate": 7.503850145016077e-06,
      "loss": 3.424,
      "step": 431670
    },
    {
      "epoch": 0.8993333333333333,
      "grad_norm": 3.2556371688842773,
      "learning_rate": 7.500771350403339e-06,
      "loss": 3.402,
      "step": 431680
    },
    {
      "epoch": 0.8993541666666667,
      "grad_norm": 2.698531150817871,
      "learning_rate": 7.497693171330838e-06,
      "loss": 3.4606,
      "step": 431690
    },
    {
      "epoch": 0.899375,
      "grad_norm": 2.4270119667053223,
      "learning_rate": 7.4946156078118605e-06,
      "loss": 3.3482,
      "step": 431700
    },
    {
      "epoch": 0.8993958333333333,
      "grad_norm": 2.952587366104126,
      "learning_rate": 7.491538659859797e-06,
      "loss": 3.4333,
      "step": 431710
    },
    {
      "epoch": 0.8994166666666666,
      "grad_norm": 2.612548589706421,
      "learning_rate": 7.488462327487854e-06,
      "loss": 3.39,
      "step": 431720
    },
    {
      "epoch": 0.8994375,
      "grad_norm": 2.613083839416504,
      "learning_rate": 7.4853866107093205e-06,
      "loss": 3.4386,
      "step": 431730
    },
    {
      "epoch": 0.8994583333333334,
      "grad_norm": 3.6732516288757324,
      "learning_rate": 7.482311509537553e-06,
      "loss": 3.3776,
      "step": 431740
    },
    {
      "epoch": 0.8994791666666667,
      "grad_norm": 3.0481815338134766,
      "learning_rate": 7.479237023985757e-06,
      "loss": 3.4241,
      "step": 431750
    },
    {
      "epoch": 0.8995,
      "grad_norm": 3.4892332553863525,
      "learning_rate": 7.476163154067222e-06,
      "loss": 3.4889,
      "step": 431760
    },
    {
      "epoch": 0.8995208333333333,
      "grad_norm": 2.394707202911377,
      "learning_rate": 7.473089899795303e-06,
      "loss": 3.4708,
      "step": 431770
    },
    {
      "epoch": 0.8995416666666667,
      "grad_norm": 2.951310873031616,
      "learning_rate": 7.470017261183192e-06,
      "loss": 3.4521,
      "step": 431780
    },
    {
      "epoch": 0.8995625,
      "grad_norm": 3.334317207336426,
      "learning_rate": 7.466945238244176e-06,
      "loss": 3.5367,
      "step": 431790
    },
    {
      "epoch": 0.8995833333333333,
      "grad_norm": 2.6907882690429688,
      "learning_rate": 7.463873830991562e-06,
      "loss": 3.3829,
      "step": 431800
    },
    {
      "epoch": 0.8996041666666666,
      "grad_norm": 2.8848938941955566,
      "learning_rate": 7.460803039438573e-06,
      "loss": 3.6515,
      "step": 431810
    },
    {
      "epoch": 0.899625,
      "grad_norm": 3.1277589797973633,
      "learning_rate": 7.4577328635984975e-06,
      "loss": 3.3818,
      "step": 431820
    },
    {
      "epoch": 0.8996458333333334,
      "grad_norm": 3.0414018630981445,
      "learning_rate": 7.454663303484609e-06,
      "loss": 3.4024,
      "step": 431830
    },
    {
      "epoch": 0.8996666666666666,
      "grad_norm": 3.4995362758636475,
      "learning_rate": 7.45159435911013e-06,
      "loss": 3.3074,
      "step": 431840
    },
    {
      "epoch": 0.8996875,
      "grad_norm": 3.4960851669311523,
      "learning_rate": 7.44852603048835e-06,
      "loss": 3.3801,
      "step": 431850
    },
    {
      "epoch": 0.8997083333333333,
      "grad_norm": 2.8394086360931396,
      "learning_rate": 7.445458317632508e-06,
      "loss": 3.3717,
      "step": 431860
    },
    {
      "epoch": 0.8997291666666667,
      "grad_norm": 3.695718288421631,
      "learning_rate": 7.44239122055586e-06,
      "loss": 3.4283,
      "step": 431870
    },
    {
      "epoch": 0.89975,
      "grad_norm": 2.469451665878296,
      "learning_rate": 7.439324739271662e-06,
      "loss": 3.2241,
      "step": 431880
    },
    {
      "epoch": 0.8997708333333333,
      "grad_norm": 2.8181936740875244,
      "learning_rate": 7.436258873793155e-06,
      "loss": 3.429,
      "step": 431890
    },
    {
      "epoch": 0.8997916666666667,
      "grad_norm": 2.797121286392212,
      "learning_rate": 7.43319362413356e-06,
      "loss": 3.318,
      "step": 431900
    },
    {
      "epoch": 0.8998125,
      "grad_norm": 2.5487656593322754,
      "learning_rate": 7.4301289903061666e-06,
      "loss": 3.3923,
      "step": 431910
    },
    {
      "epoch": 0.8998333333333334,
      "grad_norm": 3.0621376037597656,
      "learning_rate": 7.4270649723241485e-06,
      "loss": 3.5005,
      "step": 431920
    },
    {
      "epoch": 0.8998541666666666,
      "grad_norm": 3.1146113872528076,
      "learning_rate": 7.424001570200777e-06,
      "loss": 3.5004,
      "step": 431930
    },
    {
      "epoch": 0.899875,
      "grad_norm": 2.610430955886841,
      "learning_rate": 7.420938783949326e-06,
      "loss": 3.3945,
      "step": 431940
    },
    {
      "epoch": 0.8998958333333333,
      "grad_norm": 3.023845672607422,
      "learning_rate": 7.417876613582935e-06,
      "loss": 3.5449,
      "step": 431950
    },
    {
      "epoch": 0.8999166666666667,
      "grad_norm": 2.4760854244232178,
      "learning_rate": 7.414815059114893e-06,
      "loss": 3.5197,
      "step": 431960
    },
    {
      "epoch": 0.8999375,
      "grad_norm": 3.223588228225708,
      "learning_rate": 7.411754120558438e-06,
      "loss": 3.4084,
      "step": 431970
    },
    {
      "epoch": 0.8999583333333333,
      "grad_norm": 2.670494556427002,
      "learning_rate": 7.408693797926713e-06,
      "loss": 3.505,
      "step": 431980
    },
    {
      "epoch": 0.8999791666666667,
      "grad_norm": 3.0348703861236572,
      "learning_rate": 7.4056340912330204e-06,
      "loss": 3.4609,
      "step": 431990
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.741079568862915,
      "learning_rate": 7.4025750004905685e-06,
      "loss": 3.3812,
      "step": 432000
    },
    {
      "epoch": 0.9,
      "eval_loss": 3.5196900367736816,
      "eval_runtime": 7.3359,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 432000
    },
    {
      "epoch": 0.9000208333333334,
      "grad_norm": 2.7187039852142334,
      "learning_rate": 7.399516525712496e-06,
      "loss": 3.42,
      "step": 432010
    },
    {
      "epoch": 0.9000416666666666,
      "grad_norm": 2.2773101329803467,
      "learning_rate": 7.396458666912092e-06,
      "loss": 3.5432,
      "step": 432020
    },
    {
      "epoch": 0.9000625,
      "grad_norm": 2.908043384552002,
      "learning_rate": 7.393401424102563e-06,
      "loss": 3.2591,
      "step": 432030
    },
    {
      "epoch": 0.9000833333333333,
      "grad_norm": 3.314060688018799,
      "learning_rate": 7.3903447972970485e-06,
      "loss": 3.5003,
      "step": 432040
    },
    {
      "epoch": 0.9001041666666667,
      "grad_norm": 2.7688517570495605,
      "learning_rate": 7.387288786508838e-06,
      "loss": 3.4541,
      "step": 432050
    },
    {
      "epoch": 0.900125,
      "grad_norm": 2.572801113128662,
      "learning_rate": 7.384233391751071e-06,
      "loss": 3.3745,
      "step": 432060
    },
    {
      "epoch": 0.9001458333333333,
      "grad_norm": 3.216613531112671,
      "learning_rate": 7.3811786130369535e-06,
      "loss": 3.4175,
      "step": 432070
    },
    {
      "epoch": 0.9001666666666667,
      "grad_norm": 4.290920734405518,
      "learning_rate": 7.378124450379708e-06,
      "loss": 3.394,
      "step": 432080
    },
    {
      "epoch": 0.9001875,
      "grad_norm": 2.6905035972595215,
      "learning_rate": 7.375070903792507e-06,
      "loss": 3.2863,
      "step": 432090
    },
    {
      "epoch": 0.9002083333333334,
      "grad_norm": 3.20845627784729,
      "learning_rate": 7.372017973288525e-06,
      "loss": 3.4192,
      "step": 432100
    },
    {
      "epoch": 0.9002291666666666,
      "grad_norm": 3.641648054122925,
      "learning_rate": 7.368965658881016e-06,
      "loss": 3.4051,
      "step": 432110
    },
    {
      "epoch": 0.90025,
      "grad_norm": 2.461129665374756,
      "learning_rate": 7.365913960583086e-06,
      "loss": 3.3167,
      "step": 432120
    },
    {
      "epoch": 0.9002708333333334,
      "grad_norm": 4.039565086364746,
      "learning_rate": 7.3628628784079265e-06,
      "loss": 3.5383,
      "step": 432130
    },
    {
      "epoch": 0.9002916666666667,
      "grad_norm": 2.6295971870422363,
      "learning_rate": 7.359812412368793e-06,
      "loss": 3.4169,
      "step": 432140
    },
    {
      "epoch": 0.9003125,
      "grad_norm": 3.079859495162964,
      "learning_rate": 7.356762562478774e-06,
      "loss": 3.393,
      "step": 432150
    },
    {
      "epoch": 0.9003333333333333,
      "grad_norm": 3.8396458625793457,
      "learning_rate": 7.353713328751093e-06,
      "loss": 3.5263,
      "step": 432160
    },
    {
      "epoch": 0.9003541666666667,
      "grad_norm": 2.766103744506836,
      "learning_rate": 7.3506647111989056e-06,
      "loss": 3.4207,
      "step": 432170
    },
    {
      "epoch": 0.900375,
      "grad_norm": 3.0073623657226562,
      "learning_rate": 7.3476167098353686e-06,
      "loss": 3.3628,
      "step": 432180
    },
    {
      "epoch": 0.9003958333333333,
      "grad_norm": 2.9897358417510986,
      "learning_rate": 7.344569324673672e-06,
      "loss": 3.3186,
      "step": 432190
    },
    {
      "epoch": 0.9004166666666666,
      "grad_norm": 2.91603422164917,
      "learning_rate": 7.34152255572697e-06,
      "loss": 3.3522,
      "step": 432200
    },
    {
      "epoch": 0.9004375,
      "grad_norm": 4.338786602020264,
      "learning_rate": 7.33847640300842e-06,
      "loss": 3.3842,
      "step": 432210
    },
    {
      "epoch": 0.9004583333333334,
      "grad_norm": 2.969923973083496,
      "learning_rate": 7.335430866531178e-06,
      "loss": 3.3351,
      "step": 432220
    },
    {
      "epoch": 0.9004791666666667,
      "grad_norm": 3.1639394760131836,
      "learning_rate": 7.3323859463084165e-06,
      "loss": 3.4534,
      "step": 432230
    },
    {
      "epoch": 0.9005,
      "grad_norm": 2.8179571628570557,
      "learning_rate": 7.329341642353259e-06,
      "loss": 3.2986,
      "step": 432240
    },
    {
      "epoch": 0.9005208333333333,
      "grad_norm": 3.850825786590576,
      "learning_rate": 7.326297954678878e-06,
      "loss": 3.3957,
      "step": 432250
    },
    {
      "epoch": 0.9005416666666667,
      "grad_norm": 3.461916923522949,
      "learning_rate": 7.32325488329843e-06,
      "loss": 3.4951,
      "step": 432260
    },
    {
      "epoch": 0.9005625,
      "grad_norm": 2.9492275714874268,
      "learning_rate": 7.320212428225036e-06,
      "loss": 3.4061,
      "step": 432270
    },
    {
      "epoch": 0.9005833333333333,
      "grad_norm": 2.7434074878692627,
      "learning_rate": 7.317170589471855e-06,
      "loss": 3.4716,
      "step": 432280
    },
    {
      "epoch": 0.9006041666666667,
      "grad_norm": 2.973442554473877,
      "learning_rate": 7.31412936705199e-06,
      "loss": 3.2767,
      "step": 432290
    },
    {
      "epoch": 0.900625,
      "grad_norm": 3.479060411453247,
      "learning_rate": 7.311088760978634e-06,
      "loss": 3.4218,
      "step": 432300
    },
    {
      "epoch": 0.9006458333333334,
      "grad_norm": 2.5754144191741943,
      "learning_rate": 7.308048771264907e-06,
      "loss": 3.4201,
      "step": 432310
    },
    {
      "epoch": 0.9006666666666666,
      "grad_norm": 2.644449472427368,
      "learning_rate": 7.305009397923883e-06,
      "loss": 3.3238,
      "step": 432320
    },
    {
      "epoch": 0.9006875,
      "grad_norm": 3.0014939308166504,
      "learning_rate": 7.3019706409687685e-06,
      "loss": 3.429,
      "step": 432330
    },
    {
      "epoch": 0.9007083333333333,
      "grad_norm": 2.439676523208618,
      "learning_rate": 7.298932500412669e-06,
      "loss": 3.242,
      "step": 432340
    },
    {
      "epoch": 0.9007291666666667,
      "grad_norm": 2.7304139137268066,
      "learning_rate": 7.295894976268657e-06,
      "loss": 3.3678,
      "step": 432350
    },
    {
      "epoch": 0.90075,
      "grad_norm": 3.079852342605591,
      "learning_rate": 7.292858068549906e-06,
      "loss": 3.3495,
      "step": 432360
    },
    {
      "epoch": 0.9007708333333333,
      "grad_norm": 2.724189281463623,
      "learning_rate": 7.289821777269555e-06,
      "loss": 3.5404,
      "step": 432370
    },
    {
      "epoch": 0.9007916666666667,
      "grad_norm": 2.565788507461548,
      "learning_rate": 7.286786102440645e-06,
      "loss": 3.4951,
      "step": 432380
    },
    {
      "epoch": 0.9008125,
      "grad_norm": 2.7355921268463135,
      "learning_rate": 7.28375104407633e-06,
      "loss": 3.4542,
      "step": 432390
    },
    {
      "epoch": 0.9008333333333334,
      "grad_norm": 2.7830722332000732,
      "learning_rate": 7.280716602189751e-06,
      "loss": 3.5148,
      "step": 432400
    },
    {
      "epoch": 0.9008541666666666,
      "grad_norm": 3.8244595527648926,
      "learning_rate": 7.277682776793947e-06,
      "loss": 3.4327,
      "step": 432410
    },
    {
      "epoch": 0.900875,
      "grad_norm": 3.4467287063598633,
      "learning_rate": 7.2746495679021076e-06,
      "loss": 3.5523,
      "step": 432420
    },
    {
      "epoch": 0.9008958333333333,
      "grad_norm": 2.3502769470214844,
      "learning_rate": 7.271616975527255e-06,
      "loss": 3.4941,
      "step": 432430
    },
    {
      "epoch": 0.9009166666666667,
      "grad_norm": 4.739665985107422,
      "learning_rate": 7.268584999682497e-06,
      "loss": 3.4994,
      "step": 432440
    },
    {
      "epoch": 0.9009375,
      "grad_norm": 3.0453879833221436,
      "learning_rate": 7.2655536403810055e-06,
      "loss": 3.5501,
      "step": 432450
    },
    {
      "epoch": 0.9009583333333333,
      "grad_norm": 3.1241085529327393,
      "learning_rate": 7.262522897635803e-06,
      "loss": 3.4237,
      "step": 432460
    },
    {
      "epoch": 0.9009791666666667,
      "grad_norm": 2.9931583404541016,
      "learning_rate": 7.259492771459996e-06,
      "loss": 3.3465,
      "step": 432470
    },
    {
      "epoch": 0.901,
      "grad_norm": 3.036247968673706,
      "learning_rate": 7.25646326186669e-06,
      "loss": 3.5847,
      "step": 432480
    },
    {
      "epoch": 0.9010208333333334,
      "grad_norm": 2.7371840476989746,
      "learning_rate": 7.253434368868943e-06,
      "loss": 3.4286,
      "step": 432490
    },
    {
      "epoch": 0.9010416666666666,
      "grad_norm": 3.030380964279175,
      "learning_rate": 7.250406092479877e-06,
      "loss": 3.3807,
      "step": 432500
    },
    {
      "epoch": 0.9010625,
      "grad_norm": 2.9726200103759766,
      "learning_rate": 7.247378432712531e-06,
      "loss": 3.4064,
      "step": 432510
    },
    {
      "epoch": 0.9010833333333333,
      "grad_norm": 3.1026103496551514,
      "learning_rate": 7.244351389580027e-06,
      "loss": 3.2346,
      "step": 432520
    },
    {
      "epoch": 0.9011041666666667,
      "grad_norm": 3.183722496032715,
      "learning_rate": 7.241324963095408e-06,
      "loss": 3.4547,
      "step": 432530
    },
    {
      "epoch": 0.901125,
      "grad_norm": 3.0428578853607178,
      "learning_rate": 7.238299153271759e-06,
      "loss": 3.2177,
      "step": 432540
    },
    {
      "epoch": 0.9011458333333333,
      "grad_norm": 2.537834882736206,
      "learning_rate": 7.23527396012214e-06,
      "loss": 3.2727,
      "step": 432550
    },
    {
      "epoch": 0.9011666666666667,
      "grad_norm": 2.2404773235321045,
      "learning_rate": 7.232249383659639e-06,
      "loss": 3.3145,
      "step": 432560
    },
    {
      "epoch": 0.9011875,
      "grad_norm": 2.9150071144104004,
      "learning_rate": 7.229225423897295e-06,
      "loss": 3.5106,
      "step": 432570
    },
    {
      "epoch": 0.9012083333333333,
      "grad_norm": 3.396371364593506,
      "learning_rate": 7.226202080848198e-06,
      "loss": 3.4828,
      "step": 432580
    },
    {
      "epoch": 0.9012291666666666,
      "grad_norm": 2.944808006286621,
      "learning_rate": 7.223179354525388e-06,
      "loss": 3.3766,
      "step": 432590
    },
    {
      "epoch": 0.90125,
      "grad_norm": 3.5861546993255615,
      "learning_rate": 7.220157244941937e-06,
      "loss": 3.3758,
      "step": 432600
    },
    {
      "epoch": 0.9012708333333334,
      "grad_norm": 2.8124332427978516,
      "learning_rate": 7.217135752110887e-06,
      "loss": 3.4398,
      "step": 432610
    },
    {
      "epoch": 0.9012916666666667,
      "grad_norm": 3.321129322052002,
      "learning_rate": 7.21411487604529e-06,
      "loss": 3.4979,
      "step": 432620
    },
    {
      "epoch": 0.9013125,
      "grad_norm": 4.243679046630859,
      "learning_rate": 7.21109461675819e-06,
      "loss": 3.4599,
      "step": 432630
    },
    {
      "epoch": 0.9013333333333333,
      "grad_norm": 3.693385601043701,
      "learning_rate": 7.208074974262656e-06,
      "loss": 3.4206,
      "step": 432640
    },
    {
      "epoch": 0.9013541666666667,
      "grad_norm": 2.7716939449310303,
      "learning_rate": 7.205055948571731e-06,
      "loss": 3.3999,
      "step": 432650
    },
    {
      "epoch": 0.901375,
      "grad_norm": 3.6591765880584717,
      "learning_rate": 7.202037539698402e-06,
      "loss": 3.3593,
      "step": 432660
    },
    {
      "epoch": 0.9013958333333333,
      "grad_norm": 3.155928611755371,
      "learning_rate": 7.19901974765576e-06,
      "loss": 3.487,
      "step": 432670
    },
    {
      "epoch": 0.9014166666666666,
      "grad_norm": 3.1640303134918213,
      "learning_rate": 7.196002572456861e-06,
      "loss": 3.4679,
      "step": 432680
    },
    {
      "epoch": 0.9014375,
      "grad_norm": 3.1939189434051514,
      "learning_rate": 7.19298601411466e-06,
      "loss": 3.3556,
      "step": 432690
    },
    {
      "epoch": 0.9014583333333334,
      "grad_norm": 3.5533359050750732,
      "learning_rate": 7.189970072642248e-06,
      "loss": 3.4865,
      "step": 432700
    },
    {
      "epoch": 0.9014791666666667,
      "grad_norm": 2.6402461528778076,
      "learning_rate": 7.186954748052665e-06,
      "loss": 3.4883,
      "step": 432710
    },
    {
      "epoch": 0.9015,
      "grad_norm": 2.5862743854522705,
      "learning_rate": 7.183940040358865e-06,
      "loss": 3.4323,
      "step": 432720
    },
    {
      "epoch": 0.9015208333333333,
      "grad_norm": 2.666790008544922,
      "learning_rate": 7.18092594957394e-06,
      "loss": 3.3659,
      "step": 432730
    },
    {
      "epoch": 0.9015416666666667,
      "grad_norm": 2.3653440475463867,
      "learning_rate": 7.177912475710895e-06,
      "loss": 3.4451,
      "step": 432740
    },
    {
      "epoch": 0.9015625,
      "grad_norm": 3.1477162837982178,
      "learning_rate": 7.174899618782687e-06,
      "loss": 3.4227,
      "step": 432750
    },
    {
      "epoch": 0.9015833333333333,
      "grad_norm": 5.016633033752441,
      "learning_rate": 7.171887378802404e-06,
      "loss": 3.4578,
      "step": 432760
    },
    {
      "epoch": 0.9016041666666667,
      "grad_norm": 2.5391671657562256,
      "learning_rate": 7.168875755783071e-06,
      "loss": 3.497,
      "step": 432770
    },
    {
      "epoch": 0.901625,
      "grad_norm": 2.9373414516448975,
      "learning_rate": 7.16586474973761e-06,
      "loss": 3.3778,
      "step": 432780
    },
    {
      "epoch": 0.9016458333333334,
      "grad_norm": 3.686149835586548,
      "learning_rate": 7.1628543606790935e-06,
      "loss": 3.4487,
      "step": 432790
    },
    {
      "epoch": 0.9016666666666666,
      "grad_norm": 2.6073970794677734,
      "learning_rate": 7.159844588620512e-06,
      "loss": 3.4893,
      "step": 432800
    },
    {
      "epoch": 0.9016875,
      "grad_norm": 2.737020492553711,
      "learning_rate": 7.156835433574853e-06,
      "loss": 3.4999,
      "step": 432810
    },
    {
      "epoch": 0.9017083333333333,
      "grad_norm": 3.7338807582855225,
      "learning_rate": 7.153826895555109e-06,
      "loss": 3.5043,
      "step": 432820
    },
    {
      "epoch": 0.9017291666666667,
      "grad_norm": 2.8037269115448,
      "learning_rate": 7.150818974574319e-06,
      "loss": 3.4455,
      "step": 432830
    },
    {
      "epoch": 0.90175,
      "grad_norm": 2.5446548461914062,
      "learning_rate": 7.14781167064542e-06,
      "loss": 3.6148,
      "step": 432840
    },
    {
      "epoch": 0.9017708333333333,
      "grad_norm": 3.067750930786133,
      "learning_rate": 7.1448049837814545e-06,
      "loss": 3.526,
      "step": 432850
    },
    {
      "epoch": 0.9017916666666667,
      "grad_norm": 3.2287800312042236,
      "learning_rate": 7.141798913995362e-06,
      "loss": 3.4785,
      "step": 432860
    },
    {
      "epoch": 0.9018125,
      "grad_norm": 2.863830804824829,
      "learning_rate": 7.138793461300163e-06,
      "loss": 3.4129,
      "step": 432870
    },
    {
      "epoch": 0.9018333333333334,
      "grad_norm": 3.046610116958618,
      "learning_rate": 7.135788625708833e-06,
      "loss": 3.5242,
      "step": 432880
    },
    {
      "epoch": 0.9018541666666666,
      "grad_norm": 2.614349842071533,
      "learning_rate": 7.132784407234343e-06,
      "loss": 3.4475,
      "step": 432890
    },
    {
      "epoch": 0.901875,
      "grad_norm": 2.450131416320801,
      "learning_rate": 7.129780805889668e-06,
      "loss": 3.3211,
      "step": 432900
    },
    {
      "epoch": 0.9018958333333333,
      "grad_norm": 2.687312602996826,
      "learning_rate": 7.126777821687796e-06,
      "loss": 3.414,
      "step": 432910
    },
    {
      "epoch": 0.9019166666666667,
      "grad_norm": 2.5262680053710938,
      "learning_rate": 7.123775454641684e-06,
      "loss": 3.3167,
      "step": 432920
    },
    {
      "epoch": 0.9019375,
      "grad_norm": 2.530728816986084,
      "learning_rate": 7.120773704764304e-06,
      "loss": 3.3278,
      "step": 432930
    },
    {
      "epoch": 0.9019583333333333,
      "grad_norm": 2.8047361373901367,
      "learning_rate": 7.117772572068648e-06,
      "loss": 3.3831,
      "step": 432940
    },
    {
      "epoch": 0.9019791666666667,
      "grad_norm": 2.760850191116333,
      "learning_rate": 7.114772056567636e-06,
      "loss": 3.517,
      "step": 432950
    },
    {
      "epoch": 0.902,
      "grad_norm": 4.638993740081787,
      "learning_rate": 7.111772158274259e-06,
      "loss": 3.3448,
      "step": 432960
    },
    {
      "epoch": 0.9020208333333334,
      "grad_norm": 2.6635968685150146,
      "learning_rate": 7.108772877201458e-06,
      "loss": 3.4719,
      "step": 432970
    },
    {
      "epoch": 0.9020416666666666,
      "grad_norm": 3.118036985397339,
      "learning_rate": 7.105774213362203e-06,
      "loss": 3.2804,
      "step": 432980
    },
    {
      "epoch": 0.9020625,
      "grad_norm": 2.382591724395752,
      "learning_rate": 7.1027761667694525e-06,
      "loss": 3.5173,
      "step": 432990
    },
    {
      "epoch": 0.9020833333333333,
      "grad_norm": 3.6844401359558105,
      "learning_rate": 7.099778737436129e-06,
      "loss": 3.2617,
      "step": 433000
    },
    {
      "epoch": 0.9020833333333333,
      "eval_loss": 3.5215232372283936,
      "eval_runtime": 7.3048,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 433000
    },
    {
      "epoch": 0.9021041666666667,
      "grad_norm": 2.5203421115875244,
      "learning_rate": 7.096781925375206e-06,
      "loss": 3.3506,
      "step": 433010
    },
    {
      "epoch": 0.902125,
      "grad_norm": 3.3901093006134033,
      "learning_rate": 7.093785730599622e-06,
      "loss": 3.3695,
      "step": 433020
    },
    {
      "epoch": 0.9021458333333333,
      "grad_norm": 2.4624130725860596,
      "learning_rate": 7.090790153122317e-06,
      "loss": 3.3201,
      "step": 433030
    },
    {
      "epoch": 0.9021666666666667,
      "grad_norm": 2.3721654415130615,
      "learning_rate": 7.08779519295623e-06,
      "loss": 3.4584,
      "step": 433040
    },
    {
      "epoch": 0.9021875,
      "grad_norm": 2.976842164993286,
      "learning_rate": 7.08480085011432e-06,
      "loss": 3.2908,
      "step": 433050
    },
    {
      "epoch": 0.9022083333333333,
      "grad_norm": 2.6902711391448975,
      "learning_rate": 7.08180712460949e-06,
      "loss": 3.4705,
      "step": 433060
    },
    {
      "epoch": 0.9022291666666666,
      "grad_norm": 3.3171868324279785,
      "learning_rate": 7.078814016454648e-06,
      "loss": 3.3516,
      "step": 433070
    },
    {
      "epoch": 0.90225,
      "grad_norm": 2.553650140762329,
      "learning_rate": 7.0758215256628e-06,
      "loss": 3.392,
      "step": 433080
    },
    {
      "epoch": 0.9022708333333334,
      "grad_norm": 3.752124071121216,
      "learning_rate": 7.072829652246803e-06,
      "loss": 3.484,
      "step": 433090
    },
    {
      "epoch": 0.9022916666666667,
      "grad_norm": 2.99212384223938,
      "learning_rate": 7.069838396219596e-06,
      "loss": 3.3276,
      "step": 433100
    },
    {
      "epoch": 0.9023125,
      "grad_norm": 2.782809019088745,
      "learning_rate": 7.0668477575941514e-06,
      "loss": 3.3879,
      "step": 433110
    },
    {
      "epoch": 0.9023333333333333,
      "grad_norm": 2.084581136703491,
      "learning_rate": 7.063857736383327e-06,
      "loss": 3.4669,
      "step": 433120
    },
    {
      "epoch": 0.9023541666666667,
      "grad_norm": 2.6401607990264893,
      "learning_rate": 7.060868332600044e-06,
      "loss": 3.505,
      "step": 433130
    },
    {
      "epoch": 0.902375,
      "grad_norm": 2.547874689102173,
      "learning_rate": 7.057879546257262e-06,
      "loss": 3.3821,
      "step": 433140
    },
    {
      "epoch": 0.9023958333333333,
      "grad_norm": 2.895671844482422,
      "learning_rate": 7.05489137736785e-06,
      "loss": 3.3382,
      "step": 433150
    },
    {
      "epoch": 0.9024166666666666,
      "grad_norm": 3.230741262435913,
      "learning_rate": 7.051903825944716e-06,
      "loss": 3.3033,
      "step": 433160
    },
    {
      "epoch": 0.9024375,
      "grad_norm": 2.423795223236084,
      "learning_rate": 7.048916892000783e-06,
      "loss": 3.5303,
      "step": 433170
    },
    {
      "epoch": 0.9024583333333334,
      "grad_norm": 2.960233449935913,
      "learning_rate": 7.045930575548941e-06,
      "loss": 3.4293,
      "step": 433180
    },
    {
      "epoch": 0.9024791666666667,
      "grad_norm": 2.9229025840759277,
      "learning_rate": 7.04294487660208e-06,
      "loss": 3.4413,
      "step": 433190
    },
    {
      "epoch": 0.9025,
      "grad_norm": 2.793560028076172,
      "learning_rate": 7.039959795173122e-06,
      "loss": 3.4586,
      "step": 433200
    },
    {
      "epoch": 0.9025208333333333,
      "grad_norm": 2.6313440799713135,
      "learning_rate": 7.036975331274958e-06,
      "loss": 3.4914,
      "step": 433210
    },
    {
      "epoch": 0.9025416666666667,
      "grad_norm": 3.9807276725769043,
      "learning_rate": 7.03399148492046e-06,
      "loss": 3.4273,
      "step": 433220
    },
    {
      "epoch": 0.9025625,
      "grad_norm": 3.83003568649292,
      "learning_rate": 7.03100825612255e-06,
      "loss": 3.4079,
      "step": 433230
    },
    {
      "epoch": 0.9025833333333333,
      "grad_norm": 2.474961042404175,
      "learning_rate": 7.02802564489407e-06,
      "loss": 3.3488,
      "step": 433240
    },
    {
      "epoch": 0.9026041666666667,
      "grad_norm": 2.4895365238189697,
      "learning_rate": 7.0250436512479415e-06,
      "loss": 3.4379,
      "step": 433250
    },
    {
      "epoch": 0.902625,
      "grad_norm": 3.1610164642333984,
      "learning_rate": 7.022062275197021e-06,
      "loss": 3.4442,
      "step": 433260
    },
    {
      "epoch": 0.9026458333333334,
      "grad_norm": 2.841862916946411,
      "learning_rate": 7.0190815167541995e-06,
      "loss": 3.426,
      "step": 433270
    },
    {
      "epoch": 0.9026666666666666,
      "grad_norm": 2.4711837768554688,
      "learning_rate": 7.016101375932348e-06,
      "loss": 3.4312,
      "step": 433280
    },
    {
      "epoch": 0.9026875,
      "grad_norm": 3.2325868606567383,
      "learning_rate": 7.013121852744341e-06,
      "loss": 3.2293,
      "step": 433290
    },
    {
      "epoch": 0.9027083333333333,
      "grad_norm": 2.6985232830047607,
      "learning_rate": 7.010142947203052e-06,
      "loss": 3.5557,
      "step": 433300
    },
    {
      "epoch": 0.9027291666666667,
      "grad_norm": 3.3435826301574707,
      "learning_rate": 7.007164659321352e-06,
      "loss": 3.4736,
      "step": 433310
    },
    {
      "epoch": 0.90275,
      "grad_norm": 2.5090537071228027,
      "learning_rate": 7.004186989112098e-06,
      "loss": 3.4064,
      "step": 433320
    },
    {
      "epoch": 0.9027708333333333,
      "grad_norm": 3.0609354972839355,
      "learning_rate": 7.001209936588148e-06,
      "loss": 3.4148,
      "step": 433330
    },
    {
      "epoch": 0.9027916666666667,
      "grad_norm": 2.950678825378418,
      "learning_rate": 6.998233501762373e-06,
      "loss": 3.3726,
      "step": 433340
    },
    {
      "epoch": 0.9028125,
      "grad_norm": 2.285334587097168,
      "learning_rate": 6.995257684647615e-06,
      "loss": 3.3249,
      "step": 433350
    },
    {
      "epoch": 0.9028333333333334,
      "grad_norm": 2.3419830799102783,
      "learning_rate": 6.992282485256762e-06,
      "loss": 3.4062,
      "step": 433360
    },
    {
      "epoch": 0.9028541666666666,
      "grad_norm": 2.934516191482544,
      "learning_rate": 6.9893079036026365e-06,
      "loss": 3.2835,
      "step": 433370
    },
    {
      "epoch": 0.902875,
      "grad_norm": 2.6657602787017822,
      "learning_rate": 6.9863339396980635e-06,
      "loss": 3.4438,
      "step": 433380
    },
    {
      "epoch": 0.9028958333333333,
      "grad_norm": 2.70273494720459,
      "learning_rate": 6.983360593555948e-06,
      "loss": 3.4277,
      "step": 433390
    },
    {
      "epoch": 0.9029166666666667,
      "grad_norm": 3.373992681503296,
      "learning_rate": 6.980387865189113e-06,
      "loss": 3.438,
      "step": 433400
    },
    {
      "epoch": 0.9029375,
      "grad_norm": 3.101926803588867,
      "learning_rate": 6.977415754610366e-06,
      "loss": 3.5143,
      "step": 433410
    },
    {
      "epoch": 0.9029583333333333,
      "grad_norm": 3.164196729660034,
      "learning_rate": 6.974444261832596e-06,
      "loss": 3.2558,
      "step": 433420
    },
    {
      "epoch": 0.9029791666666667,
      "grad_norm": 2.6444976329803467,
      "learning_rate": 6.971473386868592e-06,
      "loss": 3.2603,
      "step": 433430
    },
    {
      "epoch": 0.903,
      "grad_norm": 3.1098012924194336,
      "learning_rate": 6.968503129731195e-06,
      "loss": 3.3834,
      "step": 433440
    },
    {
      "epoch": 0.9030208333333334,
      "grad_norm": 3.388023614883423,
      "learning_rate": 6.965533490433295e-06,
      "loss": 3.4326,
      "step": 433450
    },
    {
      "epoch": 0.9030416666666666,
      "grad_norm": 2.690434455871582,
      "learning_rate": 6.962564468987647e-06,
      "loss": 3.4036,
      "step": 433460
    },
    {
      "epoch": 0.9030625,
      "grad_norm": 3.710145950317383,
      "learning_rate": 6.9595960654070746e-06,
      "loss": 3.4209,
      "step": 433470
    },
    {
      "epoch": 0.9030833333333333,
      "grad_norm": 2.8387086391448975,
      "learning_rate": 6.956628279704468e-06,
      "loss": 3.5148,
      "step": 433480
    },
    {
      "epoch": 0.9031041666666667,
      "grad_norm": 3.7805302143096924,
      "learning_rate": 6.9536611118926e-06,
      "loss": 3.5614,
      "step": 433490
    },
    {
      "epoch": 0.903125,
      "grad_norm": 3.0209693908691406,
      "learning_rate": 6.95069456198426e-06,
      "loss": 3.4041,
      "step": 433500
    },
    {
      "epoch": 0.9031458333333333,
      "grad_norm": 2.656960964202881,
      "learning_rate": 6.947728629992355e-06,
      "loss": 3.2993,
      "step": 433510
    },
    {
      "epoch": 0.9031666666666667,
      "grad_norm": 3.716495990753174,
      "learning_rate": 6.944763315929608e-06,
      "loss": 3.3416,
      "step": 433520
    },
    {
      "epoch": 0.9031875,
      "grad_norm": 3.1346018314361572,
      "learning_rate": 6.9417986198088414e-06,
      "loss": 3.5083,
      "step": 433530
    },
    {
      "epoch": 0.9032083333333333,
      "grad_norm": 3.542762279510498,
      "learning_rate": 6.938834541642913e-06,
      "loss": 3.5706,
      "step": 433540
    },
    {
      "epoch": 0.9032291666666666,
      "grad_norm": 3.340627670288086,
      "learning_rate": 6.9358710814445606e-06,
      "loss": 3.4276,
      "step": 433550
    },
    {
      "epoch": 0.90325,
      "grad_norm": 2.7297277450561523,
      "learning_rate": 6.932908239226642e-06,
      "loss": 3.6156,
      "step": 433560
    },
    {
      "epoch": 0.9032708333333334,
      "grad_norm": 2.487440824508667,
      "learning_rate": 6.9299460150019135e-06,
      "loss": 3.2405,
      "step": 433570
    },
    {
      "epoch": 0.9032916666666667,
      "grad_norm": 3.553151845932007,
      "learning_rate": 6.926984408783198e-06,
      "loss": 3.4334,
      "step": 433580
    },
    {
      "epoch": 0.9033125,
      "grad_norm": 2.339860439300537,
      "learning_rate": 6.924023420583269e-06,
      "loss": 3.3397,
      "step": 433590
    },
    {
      "epoch": 0.9033333333333333,
      "grad_norm": 2.7957451343536377,
      "learning_rate": 6.921063050414916e-06,
      "loss": 3.6575,
      "step": 433600
    },
    {
      "epoch": 0.9033541666666667,
      "grad_norm": 3.2712759971618652,
      "learning_rate": 6.9181032982909615e-06,
      "loss": 3.4536,
      "step": 433610
    },
    {
      "epoch": 0.903375,
      "grad_norm": 3.2034549713134766,
      "learning_rate": 6.915144164224146e-06,
      "loss": 3.3953,
      "step": 433620
    },
    {
      "epoch": 0.9033958333333333,
      "grad_norm": 2.370738983154297,
      "learning_rate": 6.912185648227275e-06,
      "loss": 3.2916,
      "step": 433630
    },
    {
      "epoch": 0.9034166666666666,
      "grad_norm": 3.169588088989258,
      "learning_rate": 6.9092277503131234e-06,
      "loss": 3.4506,
      "step": 433640
    },
    {
      "epoch": 0.9034375,
      "grad_norm": 2.870138168334961,
      "learning_rate": 6.906270470494479e-06,
      "loss": 3.457,
      "step": 433650
    },
    {
      "epoch": 0.9034583333333334,
      "grad_norm": 2.6863110065460205,
      "learning_rate": 6.903313808784084e-06,
      "loss": 3.1556,
      "step": 433660
    },
    {
      "epoch": 0.9034791666666667,
      "grad_norm": 2.9202895164489746,
      "learning_rate": 6.900357765194741e-06,
      "loss": 3.5343,
      "step": 433670
    },
    {
      "epoch": 0.9035,
      "grad_norm": 2.528494358062744,
      "learning_rate": 6.897402339739244e-06,
      "loss": 3.5254,
      "step": 433680
    },
    {
      "epoch": 0.9035208333333333,
      "grad_norm": 2.5374605655670166,
      "learning_rate": 6.8944475324302636e-06,
      "loss": 3.4349,
      "step": 433690
    },
    {
      "epoch": 0.9035416666666667,
      "grad_norm": 3.467833995819092,
      "learning_rate": 6.891493343280658e-06,
      "loss": 3.5122,
      "step": 433700
    },
    {
      "epoch": 0.9035625,
      "grad_norm": 3.6353166103363037,
      "learning_rate": 6.888539772303164e-06,
      "loss": 3.3502,
      "step": 433710
    },
    {
      "epoch": 0.9035833333333333,
      "grad_norm": 4.343709468841553,
      "learning_rate": 6.885586819510508e-06,
      "loss": 3.3812,
      "step": 433720
    },
    {
      "epoch": 0.9036041666666667,
      "grad_norm": 2.492372512817383,
      "learning_rate": 6.8826344849154776e-06,
      "loss": 3.2073,
      "step": 433730
    },
    {
      "epoch": 0.903625,
      "grad_norm": 3.446089267730713,
      "learning_rate": 6.879682768530831e-06,
      "loss": 3.489,
      "step": 433740
    },
    {
      "epoch": 0.9036458333333334,
      "grad_norm": 3.386185884475708,
      "learning_rate": 6.876731670369273e-06,
      "loss": 3.4742,
      "step": 433750
    },
    {
      "epoch": 0.9036666666666666,
      "grad_norm": 4.317241191864014,
      "learning_rate": 6.873781190443611e-06,
      "loss": 3.3464,
      "step": 433760
    },
    {
      "epoch": 0.9036875,
      "grad_norm": 2.1441352367401123,
      "learning_rate": 6.870831328766569e-06,
      "loss": 3.5802,
      "step": 433770
    },
    {
      "epoch": 0.9037083333333333,
      "grad_norm": 2.77375864982605,
      "learning_rate": 6.867882085350834e-06,
      "loss": 3.4603,
      "step": 433780
    },
    {
      "epoch": 0.9037291666666667,
      "grad_norm": 2.8791613578796387,
      "learning_rate": 6.8649334602092484e-06,
      "loss": 3.4033,
      "step": 433790
    },
    {
      "epoch": 0.90375,
      "grad_norm": 2.7190446853637695,
      "learning_rate": 6.861985453354451e-06,
      "loss": 3.3293,
      "step": 433800
    },
    {
      "epoch": 0.9037708333333333,
      "grad_norm": 2.971644163131714,
      "learning_rate": 6.859038064799216e-06,
      "loss": 3.3719,
      "step": 433810
    },
    {
      "epoch": 0.9037916666666667,
      "grad_norm": 3.6020262241363525,
      "learning_rate": 6.8560912945563154e-06,
      "loss": 3.514,
      "step": 433820
    },
    {
      "epoch": 0.9038125,
      "grad_norm": 2.910111427307129,
      "learning_rate": 6.8531451426384224e-06,
      "loss": 3.4499,
      "step": 433830
    },
    {
      "epoch": 0.9038333333333334,
      "grad_norm": 3.2048072814941406,
      "learning_rate": 6.8501996090582604e-06,
      "loss": 3.528,
      "step": 433840
    },
    {
      "epoch": 0.9038541666666666,
      "grad_norm": 2.598952054977417,
      "learning_rate": 6.847254693828602e-06,
      "loss": 3.3021,
      "step": 433850
    },
    {
      "epoch": 0.903875,
      "grad_norm": 2.811011791229248,
      "learning_rate": 6.844310396962138e-06,
      "loss": 3.3767,
      "step": 433860
    },
    {
      "epoch": 0.9038958333333333,
      "grad_norm": 2.8607981204986572,
      "learning_rate": 6.8413667184715585e-06,
      "loss": 3.5092,
      "step": 433870
    },
    {
      "epoch": 0.9039166666666667,
      "grad_norm": 3.02650785446167,
      "learning_rate": 6.838423658369652e-06,
      "loss": 3.3508,
      "step": 433880
    },
    {
      "epoch": 0.9039375,
      "grad_norm": 3.0132977962493896,
      "learning_rate": 6.835481216669058e-06,
      "loss": 3.4791,
      "step": 433890
    },
    {
      "epoch": 0.9039583333333333,
      "grad_norm": 3.023913621902466,
      "learning_rate": 6.832539393382503e-06,
      "loss": 3.3201,
      "step": 433900
    },
    {
      "epoch": 0.9039791666666667,
      "grad_norm": 3.043907403945923,
      "learning_rate": 6.829598188522756e-06,
      "loss": 3.3072,
      "step": 433910
    },
    {
      "epoch": 0.904,
      "grad_norm": 2.8143436908721924,
      "learning_rate": 6.826657602102442e-06,
      "loss": 3.3712,
      "step": 433920
    },
    {
      "epoch": 0.9040208333333334,
      "grad_norm": 2.585791826248169,
      "learning_rate": 6.823717634134301e-06,
      "loss": 3.4833,
      "step": 433930
    },
    {
      "epoch": 0.9040416666666666,
      "grad_norm": 3.0970115661621094,
      "learning_rate": 6.820778284631023e-06,
      "loss": 3.4055,
      "step": 433940
    },
    {
      "epoch": 0.9040625,
      "grad_norm": 3.06622314453125,
      "learning_rate": 6.817839553605314e-06,
      "loss": 3.4507,
      "step": 433950
    },
    {
      "epoch": 0.9040833333333333,
      "grad_norm": 3.0218403339385986,
      "learning_rate": 6.814901441069864e-06,
      "loss": 3.5309,
      "step": 433960
    },
    {
      "epoch": 0.9041041666666667,
      "grad_norm": 2.760774850845337,
      "learning_rate": 6.8119639470373465e-06,
      "loss": 3.409,
      "step": 433970
    },
    {
      "epoch": 0.904125,
      "grad_norm": 2.5855748653411865,
      "learning_rate": 6.809027071520484e-06,
      "loss": 3.5036,
      "step": 433980
    },
    {
      "epoch": 0.9041458333333333,
      "grad_norm": 2.5568928718566895,
      "learning_rate": 6.80609081453195e-06,
      "loss": 3.6123,
      "step": 433990
    },
    {
      "epoch": 0.9041666666666667,
      "grad_norm": 2.7645583152770996,
      "learning_rate": 6.803155176084401e-06,
      "loss": 3.4425,
      "step": 434000
    },
    {
      "epoch": 0.9041666666666667,
      "eval_loss": 3.522059202194214,
      "eval_runtime": 7.3343,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 434000
    },
    {
      "epoch": 0.9041875,
      "grad_norm": 4.008355617523193,
      "learning_rate": 6.800220156190561e-06,
      "loss": 3.5729,
      "step": 434010
    },
    {
      "epoch": 0.9042083333333333,
      "grad_norm": 2.736589193344116,
      "learning_rate": 6.797285754863086e-06,
      "loss": 3.4799,
      "step": 434020
    },
    {
      "epoch": 0.9042291666666666,
      "grad_norm": 3.3453712463378906,
      "learning_rate": 6.794351972114648e-06,
      "loss": 3.5052,
      "step": 434030
    },
    {
      "epoch": 0.90425,
      "grad_norm": 4.140634536743164,
      "learning_rate": 6.7914188079579215e-06,
      "loss": 3.4163,
      "step": 434040
    },
    {
      "epoch": 0.9042708333333334,
      "grad_norm": 2.9526798725128174,
      "learning_rate": 6.788486262405596e-06,
      "loss": 3.4584,
      "step": 434050
    },
    {
      "epoch": 0.9042916666666667,
      "grad_norm": 3.0383267402648926,
      "learning_rate": 6.785554335470295e-06,
      "loss": 3.4132,
      "step": 434060
    },
    {
      "epoch": 0.9043125,
      "grad_norm": 2.422018527984619,
      "learning_rate": 6.782623027164724e-06,
      "loss": 3.5309,
      "step": 434070
    },
    {
      "epoch": 0.9043333333333333,
      "grad_norm": 3.3101518154144287,
      "learning_rate": 6.779692337501558e-06,
      "loss": 3.4871,
      "step": 434080
    },
    {
      "epoch": 0.9043541666666667,
      "grad_norm": 2.882617235183716,
      "learning_rate": 6.776762266493385e-06,
      "loss": 3.4098,
      "step": 434090
    },
    {
      "epoch": 0.904375,
      "grad_norm": 2.7532739639282227,
      "learning_rate": 6.773832814152929e-06,
      "loss": 3.3608,
      "step": 434100
    },
    {
      "epoch": 0.9043958333333333,
      "grad_norm": 3.392725944519043,
      "learning_rate": 6.770903980492831e-06,
      "loss": 3.3512,
      "step": 434110
    },
    {
      "epoch": 0.9044166666666666,
      "grad_norm": 2.8278234004974365,
      "learning_rate": 6.767975765525713e-06,
      "loss": 3.4758,
      "step": 434120
    },
    {
      "epoch": 0.9044375,
      "grad_norm": 3.4102251529693604,
      "learning_rate": 6.765048169264247e-06,
      "loss": 3.4724,
      "step": 434130
    },
    {
      "epoch": 0.9044583333333334,
      "grad_norm": 2.4055824279785156,
      "learning_rate": 6.762121191721109e-06,
      "loss": 3.4618,
      "step": 434140
    },
    {
      "epoch": 0.9044791666666666,
      "grad_norm": 2.7995128631591797,
      "learning_rate": 6.759194832908871e-06,
      "loss": 3.4531,
      "step": 434150
    },
    {
      "epoch": 0.9045,
      "grad_norm": 3.1862406730651855,
      "learning_rate": 6.756269092840255e-06,
      "loss": 3.3497,
      "step": 434160
    },
    {
      "epoch": 0.9045208333333333,
      "grad_norm": 2.625053882598877,
      "learning_rate": 6.753343971527819e-06,
      "loss": 3.408,
      "step": 434170
    },
    {
      "epoch": 0.9045416666666667,
      "grad_norm": 2.4242868423461914,
      "learning_rate": 6.750419468984236e-06,
      "loss": 3.4244,
      "step": 434180
    },
    {
      "epoch": 0.9045625,
      "grad_norm": 2.6840617656707764,
      "learning_rate": 6.747495585222162e-06,
      "loss": 3.4154,
      "step": 434190
    },
    {
      "epoch": 0.9045833333333333,
      "grad_norm": 3.051088571548462,
      "learning_rate": 6.744572320254205e-06,
      "loss": 3.5679,
      "step": 434200
    },
    {
      "epoch": 0.9046041666666667,
      "grad_norm": 3.9147424697875977,
      "learning_rate": 6.741649674092953e-06,
      "loss": 3.3334,
      "step": 434210
    },
    {
      "epoch": 0.904625,
      "grad_norm": 2.670895576477051,
      "learning_rate": 6.738727646751113e-06,
      "loss": 3.2695,
      "step": 434220
    },
    {
      "epoch": 0.9046458333333334,
      "grad_norm": 2.49670672416687,
      "learning_rate": 6.7358062382412425e-06,
      "loss": 3.2038,
      "step": 434230
    },
    {
      "epoch": 0.9046666666666666,
      "grad_norm": 2.5805704593658447,
      "learning_rate": 6.732885448575981e-06,
      "loss": 3.4291,
      "step": 434240
    },
    {
      "epoch": 0.9046875,
      "grad_norm": 2.9387292861938477,
      "learning_rate": 6.7299652777679515e-06,
      "loss": 3.4458,
      "step": 434250
    },
    {
      "epoch": 0.9047083333333333,
      "grad_norm": 3.3279850482940674,
      "learning_rate": 6.727045725829744e-06,
      "loss": 3.4622,
      "step": 434260
    },
    {
      "epoch": 0.9047291666666667,
      "grad_norm": 2.729179859161377,
      "learning_rate": 6.724126792774015e-06,
      "loss": 3.3901,
      "step": 434270
    },
    {
      "epoch": 0.90475,
      "grad_norm": 3.5943140983581543,
      "learning_rate": 6.721208478613321e-06,
      "loss": 3.3807,
      "step": 434280
    },
    {
      "epoch": 0.9047708333333333,
      "grad_norm": 3.6206443309783936,
      "learning_rate": 6.718290783360303e-06,
      "loss": 3.408,
      "step": 434290
    },
    {
      "epoch": 0.9047916666666667,
      "grad_norm": 3.0521583557128906,
      "learning_rate": 6.7153737070275495e-06,
      "loss": 3.3884,
      "step": 434300
    },
    {
      "epoch": 0.9048125,
      "grad_norm": 2.969205617904663,
      "learning_rate": 6.712457249627684e-06,
      "loss": 3.4186,
      "step": 434310
    },
    {
      "epoch": 0.9048333333333334,
      "grad_norm": 2.83646297454834,
      "learning_rate": 6.709541411173263e-06,
      "loss": 3.3498,
      "step": 434320
    },
    {
      "epoch": 0.9048541666666666,
      "grad_norm": 2.9177496433258057,
      "learning_rate": 6.706626191676912e-06,
      "loss": 3.3752,
      "step": 434330
    },
    {
      "epoch": 0.904875,
      "grad_norm": 3.3418407440185547,
      "learning_rate": 6.7037115911512175e-06,
      "loss": 3.5079,
      "step": 434340
    },
    {
      "epoch": 0.9048958333333333,
      "grad_norm": 2.475338935852051,
      "learning_rate": 6.7007976096087715e-06,
      "loss": 3.521,
      "step": 434350
    },
    {
      "epoch": 0.9049166666666667,
      "grad_norm": 2.496567964553833,
      "learning_rate": 6.697884247062163e-06,
      "loss": 3.4856,
      "step": 434360
    },
    {
      "epoch": 0.9049375,
      "grad_norm": 3.6860454082489014,
      "learning_rate": 6.694971503523966e-06,
      "loss": 3.377,
      "step": 434370
    },
    {
      "epoch": 0.9049583333333333,
      "grad_norm": 2.9442670345306396,
      "learning_rate": 6.692059379006753e-06,
      "loss": 3.5265,
      "step": 434380
    },
    {
      "epoch": 0.9049791666666667,
      "grad_norm": 2.8454670906066895,
      "learning_rate": 6.689147873523132e-06,
      "loss": 3.4482,
      "step": 434390
    },
    {
      "epoch": 0.905,
      "grad_norm": 2.7356696128845215,
      "learning_rate": 6.686236987085675e-06,
      "loss": 3.4504,
      "step": 434400
    },
    {
      "epoch": 0.9050208333333334,
      "grad_norm": 3.56455397605896,
      "learning_rate": 6.683326719706939e-06,
      "loss": 3.3818,
      "step": 434410
    },
    {
      "epoch": 0.9050416666666666,
      "grad_norm": 3.179992914199829,
      "learning_rate": 6.6804170713995135e-06,
      "loss": 3.4671,
      "step": 434420
    },
    {
      "epoch": 0.9050625,
      "grad_norm": 2.8294219970703125,
      "learning_rate": 6.677508042175922e-06,
      "loss": 3.487,
      "step": 434430
    },
    {
      "epoch": 0.9050833333333334,
      "grad_norm": 5.038600921630859,
      "learning_rate": 6.674599632048788e-06,
      "loss": 3.366,
      "step": 434440
    },
    {
      "epoch": 0.9051041666666667,
      "grad_norm": 2.603511095046997,
      "learning_rate": 6.671691841030669e-06,
      "loss": 3.3751,
      "step": 434450
    },
    {
      "epoch": 0.905125,
      "grad_norm": 2.7774507999420166,
      "learning_rate": 6.66878466913407e-06,
      "loss": 3.309,
      "step": 434460
    },
    {
      "epoch": 0.9051458333333333,
      "grad_norm": 2.6989502906799316,
      "learning_rate": 6.665878116371614e-06,
      "loss": 3.6308,
      "step": 434470
    },
    {
      "epoch": 0.9051666666666667,
      "grad_norm": 2.8274776935577393,
      "learning_rate": 6.662972182755827e-06,
      "loss": 3.3945,
      "step": 434480
    },
    {
      "epoch": 0.9051875,
      "grad_norm": 2.4426016807556152,
      "learning_rate": 6.660066868299246e-06,
      "loss": 3.4788,
      "step": 434490
    },
    {
      "epoch": 0.9052083333333333,
      "grad_norm": 2.9282166957855225,
      "learning_rate": 6.6571621730144464e-06,
      "loss": 3.4568,
      "step": 434500
    },
    {
      "epoch": 0.9052291666666666,
      "grad_norm": 3.139439105987549,
      "learning_rate": 6.654258096913984e-06,
      "loss": 3.5464,
      "step": 434510
    },
    {
      "epoch": 0.90525,
      "grad_norm": 2.750971794128418,
      "learning_rate": 6.6513546400103645e-06,
      "loss": 3.3366,
      "step": 434520
    },
    {
      "epoch": 0.9052708333333334,
      "grad_norm": 2.881937026977539,
      "learning_rate": 6.648451802316163e-06,
      "loss": 3.4145,
      "step": 434530
    },
    {
      "epoch": 0.9052916666666667,
      "grad_norm": 3.2972795963287354,
      "learning_rate": 6.645549583843918e-06,
      "loss": 3.4378,
      "step": 434540
    },
    {
      "epoch": 0.9053125,
      "grad_norm": 2.5353243350982666,
      "learning_rate": 6.642647984606136e-06,
      "loss": 3.3638,
      "step": 434550
    },
    {
      "epoch": 0.9053333333333333,
      "grad_norm": 3.2404096126556396,
      "learning_rate": 6.639747004615375e-06,
      "loss": 3.4816,
      "step": 434560
    },
    {
      "epoch": 0.9053541666666667,
      "grad_norm": 2.5725653171539307,
      "learning_rate": 6.636846643884158e-06,
      "loss": 3.4111,
      "step": 434570
    },
    {
      "epoch": 0.905375,
      "grad_norm": 2.613407850265503,
      "learning_rate": 6.633946902425024e-06,
      "loss": 3.4489,
      "step": 434580
    },
    {
      "epoch": 0.9053958333333333,
      "grad_norm": 2.2711129188537598,
      "learning_rate": 6.631047780250481e-06,
      "loss": 3.4813,
      "step": 434590
    },
    {
      "epoch": 0.9054166666666666,
      "grad_norm": 2.6418724060058594,
      "learning_rate": 6.628149277373068e-06,
      "loss": 3.4264,
      "step": 434600
    },
    {
      "epoch": 0.9054375,
      "grad_norm": 2.6541669368743896,
      "learning_rate": 6.625251393805309e-06,
      "loss": 3.2981,
      "step": 434610
    },
    {
      "epoch": 0.9054583333333334,
      "grad_norm": 2.45977783203125,
      "learning_rate": 6.6223541295597095e-06,
      "loss": 3.3619,
      "step": 434620
    },
    {
      "epoch": 0.9054791666666666,
      "grad_norm": 2.5720181465148926,
      "learning_rate": 6.619457484648777e-06,
      "loss": 3.3362,
      "step": 434630
    },
    {
      "epoch": 0.9055,
      "grad_norm": 2.45975661277771,
      "learning_rate": 6.616561459085035e-06,
      "loss": 3.535,
      "step": 434640
    },
    {
      "epoch": 0.9055208333333333,
      "grad_norm": 3.8817896842956543,
      "learning_rate": 6.61366605288099e-06,
      "loss": 3.4173,
      "step": 434650
    },
    {
      "epoch": 0.9055416666666667,
      "grad_norm": 2.6670637130737305,
      "learning_rate": 6.610771266049164e-06,
      "loss": 3.3814,
      "step": 434660
    },
    {
      "epoch": 0.9055625,
      "grad_norm": 2.7406513690948486,
      "learning_rate": 6.6078770986020325e-06,
      "loss": 3.3479,
      "step": 434670
    },
    {
      "epoch": 0.9055833333333333,
      "grad_norm": 2.9506680965423584,
      "learning_rate": 6.604983550552134e-06,
      "loss": 3.4074,
      "step": 434680
    },
    {
      "epoch": 0.9056041666666667,
      "grad_norm": 3.3813388347625732,
      "learning_rate": 6.602090621911926e-06,
      "loss": 3.47,
      "step": 434690
    },
    {
      "epoch": 0.905625,
      "grad_norm": 2.8184642791748047,
      "learning_rate": 6.599198312693932e-06,
      "loss": 3.3799,
      "step": 434700
    },
    {
      "epoch": 0.9056458333333334,
      "grad_norm": 3.169894218444824,
      "learning_rate": 6.596306622910641e-06,
      "loss": 3.377,
      "step": 434710
    },
    {
      "epoch": 0.9056666666666666,
      "grad_norm": 3.14766788482666,
      "learning_rate": 6.593415552574543e-06,
      "loss": 3.528,
      "step": 434720
    },
    {
      "epoch": 0.9056875,
      "grad_norm": 2.448155403137207,
      "learning_rate": 6.59052510169813e-06,
      "loss": 3.3411,
      "step": 434730
    },
    {
      "epoch": 0.9057083333333333,
      "grad_norm": 2.613023042678833,
      "learning_rate": 6.58763527029389e-06,
      "loss": 3.4664,
      "step": 434740
    },
    {
      "epoch": 0.9057291666666667,
      "grad_norm": 3.3614583015441895,
      "learning_rate": 6.584746058374279e-06,
      "loss": 3.5133,
      "step": 434750
    },
    {
      "epoch": 0.90575,
      "grad_norm": 2.3429415225982666,
      "learning_rate": 6.5818574659518065e-06,
      "loss": 3.2942,
      "step": 434760
    },
    {
      "epoch": 0.9057708333333333,
      "grad_norm": 2.9849727153778076,
      "learning_rate": 6.578969493038943e-06,
      "loss": 3.3597,
      "step": 434770
    },
    {
      "epoch": 0.9057916666666667,
      "grad_norm": 2.740896701812744,
      "learning_rate": 6.576082139648164e-06,
      "loss": 3.502,
      "step": 434780
    },
    {
      "epoch": 0.9058125,
      "grad_norm": 3.077989101409912,
      "learning_rate": 6.573195405791942e-06,
      "loss": 3.4062,
      "step": 434790
    },
    {
      "epoch": 0.9058333333333334,
      "grad_norm": 2.738128423690796,
      "learning_rate": 6.570309291482717e-06,
      "loss": 3.3776,
      "step": 434800
    },
    {
      "epoch": 0.9058541666666666,
      "grad_norm": 3.6594207286834717,
      "learning_rate": 6.5674237967330125e-06,
      "loss": 3.3058,
      "step": 434810
    },
    {
      "epoch": 0.905875,
      "grad_norm": 2.8777074813842773,
      "learning_rate": 6.564538921555268e-06,
      "loss": 3.4639,
      "step": 434820
    },
    {
      "epoch": 0.9058958333333333,
      "grad_norm": 3.7386484146118164,
      "learning_rate": 6.561654665961924e-06,
      "loss": 3.4125,
      "step": 434830
    },
    {
      "epoch": 0.9059166666666667,
      "grad_norm": 3.237687826156616,
      "learning_rate": 6.558771029965438e-06,
      "loss": 3.5766,
      "step": 434840
    },
    {
      "epoch": 0.9059375,
      "grad_norm": 2.935473680496216,
      "learning_rate": 6.555888013578314e-06,
      "loss": 3.4221,
      "step": 434850
    },
    {
      "epoch": 0.9059583333333333,
      "grad_norm": 2.6113688945770264,
      "learning_rate": 6.553005616812962e-06,
      "loss": 3.4784,
      "step": 434860
    },
    {
      "epoch": 0.9059791666666667,
      "grad_norm": 2.9278805255889893,
      "learning_rate": 6.55012383968182e-06,
      "loss": 3.5484,
      "step": 434870
    },
    {
      "epoch": 0.906,
      "grad_norm": 3.162752389907837,
      "learning_rate": 6.547242682197412e-06,
      "loss": 3.3047,
      "step": 434880
    },
    {
      "epoch": 0.9060208333333334,
      "grad_norm": 3.359801769256592,
      "learning_rate": 6.544362144372095e-06,
      "loss": 3.3427,
      "step": 434890
    },
    {
      "epoch": 0.9060416666666666,
      "grad_norm": 2.899423599243164,
      "learning_rate": 6.541482226218342e-06,
      "loss": 3.5006,
      "step": 434900
    },
    {
      "epoch": 0.9060625,
      "grad_norm": 2.8936212062835693,
      "learning_rate": 6.538602927748643e-06,
      "loss": 3.5341,
      "step": 434910
    },
    {
      "epoch": 0.9060833333333334,
      "grad_norm": 2.6672539710998535,
      "learning_rate": 6.535724248975372e-06,
      "loss": 3.4064,
      "step": 434920
    },
    {
      "epoch": 0.9061041666666667,
      "grad_norm": 3.0479326248168945,
      "learning_rate": 6.532846189910984e-06,
      "loss": 3.4999,
      "step": 434930
    },
    {
      "epoch": 0.906125,
      "grad_norm": 2.9085865020751953,
      "learning_rate": 6.529968750567905e-06,
      "loss": 3.4243,
      "step": 434940
    },
    {
      "epoch": 0.9061458333333333,
      "grad_norm": 2.525076389312744,
      "learning_rate": 6.527091930958589e-06,
      "loss": 3.4661,
      "step": 434950
    },
    {
      "epoch": 0.9061666666666667,
      "grad_norm": 2.580287456512451,
      "learning_rate": 6.524215731095428e-06,
      "loss": 3.5137,
      "step": 434960
    },
    {
      "epoch": 0.9061875,
      "grad_norm": 2.4632670879364014,
      "learning_rate": 6.521340150990878e-06,
      "loss": 3.3876,
      "step": 434970
    },
    {
      "epoch": 0.9062083333333333,
      "grad_norm": 3.8310999870300293,
      "learning_rate": 6.518465190657329e-06,
      "loss": 3.5186,
      "step": 434980
    },
    {
      "epoch": 0.9062291666666666,
      "grad_norm": 2.6655447483062744,
      "learning_rate": 6.515590850107222e-06,
      "loss": 3.485,
      "step": 434990
    },
    {
      "epoch": 0.90625,
      "grad_norm": 3.2228164672851562,
      "learning_rate": 6.512717129352979e-06,
      "loss": 3.5493,
      "step": 435000
    },
    {
      "epoch": 0.90625,
      "eval_loss": 3.521401882171631,
      "eval_runtime": 6.858,
      "eval_samples_per_second": 1.458,
      "eval_steps_per_second": 0.437,
      "step": 435000
    },
    {
      "epoch": 0.9062708333333334,
      "grad_norm": 2.7665517330169678,
      "learning_rate": 6.509844028406991e-06,
      "loss": 3.5527,
      "step": 435010
    },
    {
      "epoch": 0.9062916666666667,
      "grad_norm": 2.9993362426757812,
      "learning_rate": 6.506971547281681e-06,
      "loss": 3.3404,
      "step": 435020
    },
    {
      "epoch": 0.9063125,
      "grad_norm": 2.653982400894165,
      "learning_rate": 6.504099685989455e-06,
      "loss": 3.4471,
      "step": 435030
    },
    {
      "epoch": 0.9063333333333333,
      "grad_norm": 2.6048426628112793,
      "learning_rate": 6.501228444542722e-06,
      "loss": 3.3895,
      "step": 435040
    },
    {
      "epoch": 0.9063541666666667,
      "grad_norm": 3.3978729248046875,
      "learning_rate": 6.49835782295387e-06,
      "loss": 3.4995,
      "step": 435050
    },
    {
      "epoch": 0.906375,
      "grad_norm": 2.725466012954712,
      "learning_rate": 6.495487821235323e-06,
      "loss": 3.5029,
      "step": 435060
    },
    {
      "epoch": 0.9063958333333333,
      "grad_norm": 3.3391990661621094,
      "learning_rate": 6.492618439399472e-06,
      "loss": 3.3392,
      "step": 435070
    },
    {
      "epoch": 0.9064166666666666,
      "grad_norm": 2.9141182899475098,
      "learning_rate": 6.489749677458689e-06,
      "loss": 3.5583,
      "step": 435080
    },
    {
      "epoch": 0.9064375,
      "grad_norm": 3.730774164199829,
      "learning_rate": 6.486881535425398e-06,
      "loss": 3.5434,
      "step": 435090
    },
    {
      "epoch": 0.9064583333333334,
      "grad_norm": 3.359058141708374,
      "learning_rate": 6.4840140133119555e-06,
      "loss": 3.4929,
      "step": 435100
    },
    {
      "epoch": 0.9064791666666666,
      "grad_norm": 3.5354034900665283,
      "learning_rate": 6.481147111130769e-06,
      "loss": 3.3921,
      "step": 435110
    },
    {
      "epoch": 0.9065,
      "grad_norm": 2.8724236488342285,
      "learning_rate": 6.478280828894228e-06,
      "loss": 3.5831,
      "step": 435120
    },
    {
      "epoch": 0.9065208333333333,
      "grad_norm": 2.809771776199341,
      "learning_rate": 6.475415166614689e-06,
      "loss": 3.2928,
      "step": 435130
    },
    {
      "epoch": 0.9065416666666667,
      "grad_norm": 2.9122562408447266,
      "learning_rate": 6.4725501243045765e-06,
      "loss": 3.3394,
      "step": 435140
    },
    {
      "epoch": 0.9065625,
      "grad_norm": 2.4831132888793945,
      "learning_rate": 6.469685701976196e-06,
      "loss": 3.3991,
      "step": 435150
    },
    {
      "epoch": 0.9065833333333333,
      "grad_norm": 2.429704427719116,
      "learning_rate": 6.466821899641989e-06,
      "loss": 3.3526,
      "step": 435160
    },
    {
      "epoch": 0.9066041666666667,
      "grad_norm": 3.340297222137451,
      "learning_rate": 6.463958717314294e-06,
      "loss": 3.4166,
      "step": 435170
    },
    {
      "epoch": 0.906625,
      "grad_norm": 2.90480899810791,
      "learning_rate": 6.461096155005452e-06,
      "loss": 3.4033,
      "step": 435180
    },
    {
      "epoch": 0.9066458333333334,
      "grad_norm": 2.456944227218628,
      "learning_rate": 6.458234212727903e-06,
      "loss": 3.4146,
      "step": 435190
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 2.7750256061553955,
      "learning_rate": 6.455372890493937e-06,
      "loss": 3.3702,
      "step": 435200
    },
    {
      "epoch": 0.9066875,
      "grad_norm": 3.129087209701538,
      "learning_rate": 6.452512188315928e-06,
      "loss": 3.3372,
      "step": 435210
    },
    {
      "epoch": 0.9067083333333333,
      "grad_norm": 2.97749924659729,
      "learning_rate": 6.449652106206282e-06,
      "loss": 3.4775,
      "step": 435220
    },
    {
      "epoch": 0.9067291666666667,
      "grad_norm": 2.1120283603668213,
      "learning_rate": 6.44679264417729e-06,
      "loss": 3.3421,
      "step": 435230
    },
    {
      "epoch": 0.90675,
      "grad_norm": 3.392488956451416,
      "learning_rate": 6.443933802241325e-06,
      "loss": 3.4655,
      "step": 435240
    },
    {
      "epoch": 0.9067708333333333,
      "grad_norm": 2.75040602684021,
      "learning_rate": 6.441075580410776e-06,
      "loss": 3.3619,
      "step": 435250
    },
    {
      "epoch": 0.9067916666666667,
      "grad_norm": 3.2447052001953125,
      "learning_rate": 6.438217978697935e-06,
      "loss": 3.2968,
      "step": 435260
    },
    {
      "epoch": 0.9068125,
      "grad_norm": 2.671567916870117,
      "learning_rate": 6.435360997115158e-06,
      "loss": 3.5356,
      "step": 435270
    },
    {
      "epoch": 0.9068333333333334,
      "grad_norm": 3.6699514389038086,
      "learning_rate": 6.432504635674817e-06,
      "loss": 3.366,
      "step": 435280
    },
    {
      "epoch": 0.9068541666666666,
      "grad_norm": 3.5311405658721924,
      "learning_rate": 6.429648894389222e-06,
      "loss": 3.4,
      "step": 435290
    },
    {
      "epoch": 0.906875,
      "grad_norm": 2.9679617881774902,
      "learning_rate": 6.426793773270711e-06,
      "loss": 3.4807,
      "step": 435300
    },
    {
      "epoch": 0.9068958333333333,
      "grad_norm": 3.2079966068267822,
      "learning_rate": 6.423939272331607e-06,
      "loss": 3.3557,
      "step": 435310
    },
    {
      "epoch": 0.9069166666666667,
      "grad_norm": 2.8065896034240723,
      "learning_rate": 6.421085391584268e-06,
      "loss": 3.4719,
      "step": 435320
    },
    {
      "epoch": 0.9069375,
      "grad_norm": 3.2316067218780518,
      "learning_rate": 6.418232131041001e-06,
      "loss": 3.3503,
      "step": 435330
    },
    {
      "epoch": 0.9069583333333333,
      "grad_norm": 2.394533634185791,
      "learning_rate": 6.415379490714146e-06,
      "loss": 3.3808,
      "step": 435340
    },
    {
      "epoch": 0.9069791666666667,
      "grad_norm": 2.6374001502990723,
      "learning_rate": 6.412527470616025e-06,
      "loss": 3.4893,
      "step": 435350
    },
    {
      "epoch": 0.907,
      "grad_norm": 2.7366998195648193,
      "learning_rate": 6.409676070758929e-06,
      "loss": 3.438,
      "step": 435360
    },
    {
      "epoch": 0.9070208333333334,
      "grad_norm": 3.012514591217041,
      "learning_rate": 6.406825291155199e-06,
      "loss": 3.2934,
      "step": 435370
    },
    {
      "epoch": 0.9070416666666666,
      "grad_norm": 2.296144485473633,
      "learning_rate": 6.403975131817157e-06,
      "loss": 3.4303,
      "step": 435380
    },
    {
      "epoch": 0.9070625,
      "grad_norm": 2.5463969707489014,
      "learning_rate": 6.401125592757095e-06,
      "loss": 3.5432,
      "step": 435390
    },
    {
      "epoch": 0.9070833333333334,
      "grad_norm": 3.205118179321289,
      "learning_rate": 6.398276673987334e-06,
      "loss": 3.4107,
      "step": 435400
    },
    {
      "epoch": 0.9071041666666667,
      "grad_norm": 3.3139405250549316,
      "learning_rate": 6.395428375520167e-06,
      "loss": 3.4753,
      "step": 435410
    },
    {
      "epoch": 0.907125,
      "grad_norm": 2.6899733543395996,
      "learning_rate": 6.392580697367933e-06,
      "loss": 3.4598,
      "step": 435420
    },
    {
      "epoch": 0.9071458333333333,
      "grad_norm": 3.087885618209839,
      "learning_rate": 6.389733639542871e-06,
      "loss": 3.4698,
      "step": 435430
    },
    {
      "epoch": 0.9071666666666667,
      "grad_norm": 3.3889899253845215,
      "learning_rate": 6.386887202057339e-06,
      "loss": 3.3915,
      "step": 435440
    },
    {
      "epoch": 0.9071875,
      "grad_norm": 2.628803014755249,
      "learning_rate": 6.38404138492361e-06,
      "loss": 3.3786,
      "step": 435450
    },
    {
      "epoch": 0.9072083333333333,
      "grad_norm": 2.669781446456909,
      "learning_rate": 6.3811961881539585e-06,
      "loss": 3.4115,
      "step": 435460
    },
    {
      "epoch": 0.9072291666666666,
      "grad_norm": 2.8808391094207764,
      "learning_rate": 6.37835161176069e-06,
      "loss": 3.5299,
      "step": 435470
    },
    {
      "epoch": 0.90725,
      "grad_norm": 3.1223673820495605,
      "learning_rate": 6.375507655756129e-06,
      "loss": 3.3709,
      "step": 435480
    },
    {
      "epoch": 0.9072708333333334,
      "grad_norm": 3.489095449447632,
      "learning_rate": 6.372664320152465e-06,
      "loss": 3.6103,
      "step": 435490
    },
    {
      "epoch": 0.9072916666666667,
      "grad_norm": 4.148746967315674,
      "learning_rate": 6.369821604962072e-06,
      "loss": 3.3777,
      "step": 435500
    },
    {
      "epoch": 0.9073125,
      "grad_norm": 3.1979222297668457,
      "learning_rate": 6.366979510197223e-06,
      "loss": 3.5217,
      "step": 435510
    },
    {
      "epoch": 0.9073333333333333,
      "grad_norm": 3.0969886779785156,
      "learning_rate": 6.364138035870125e-06,
      "loss": 3.3263,
      "step": 435520
    },
    {
      "epoch": 0.9073541666666667,
      "grad_norm": 2.63253116607666,
      "learning_rate": 6.361297181993102e-06,
      "loss": 3.3204,
      "step": 435530
    },
    {
      "epoch": 0.907375,
      "grad_norm": 3.194026470184326,
      "learning_rate": 6.358456948578461e-06,
      "loss": 3.3334,
      "step": 435540
    },
    {
      "epoch": 0.9073958333333333,
      "grad_norm": 3.0674562454223633,
      "learning_rate": 6.3556173356383745e-06,
      "loss": 3.3805,
      "step": 435550
    },
    {
      "epoch": 0.9074166666666666,
      "grad_norm": 2.7270214557647705,
      "learning_rate": 6.3527783431852e-06,
      "loss": 3.3266,
      "step": 435560
    },
    {
      "epoch": 0.9074375,
      "grad_norm": 2.7234432697296143,
      "learning_rate": 6.349939971231144e-06,
      "loss": 3.5379,
      "step": 435570
    },
    {
      "epoch": 0.9074583333333334,
      "grad_norm": 3.1880910396575928,
      "learning_rate": 6.34710221978848e-06,
      "loss": 3.3798,
      "step": 435580
    },
    {
      "epoch": 0.9074791666666666,
      "grad_norm": 2.925560474395752,
      "learning_rate": 6.344265088869499e-06,
      "loss": 3.274,
      "step": 435590
    },
    {
      "epoch": 0.9075,
      "grad_norm": 3.30198335647583,
      "learning_rate": 6.341428578486424e-06,
      "loss": 3.5391,
      "step": 435600
    },
    {
      "epoch": 0.9075208333333333,
      "grad_norm": 2.634972333908081,
      "learning_rate": 6.338592688651478e-06,
      "loss": 3.4915,
      "step": 435610
    },
    {
      "epoch": 0.9075416666666667,
      "grad_norm": 3.1326847076416016,
      "learning_rate": 6.335757419377002e-06,
      "loss": 3.4355,
      "step": 435620
    },
    {
      "epoch": 0.9075625,
      "grad_norm": 2.383687734603882,
      "learning_rate": 6.332922770675153e-06,
      "loss": 3.3786,
      "step": 435630
    },
    {
      "epoch": 0.9075833333333333,
      "grad_norm": 3.3251209259033203,
      "learning_rate": 6.330088742558204e-06,
      "loss": 3.398,
      "step": 435640
    },
    {
      "epoch": 0.9076041666666667,
      "grad_norm": 3.2990059852600098,
      "learning_rate": 6.327255335038428e-06,
      "loss": 3.3882,
      "step": 435650
    },
    {
      "epoch": 0.907625,
      "grad_norm": 2.958012580871582,
      "learning_rate": 6.324422548128016e-06,
      "loss": 3.3661,
      "step": 435660
    },
    {
      "epoch": 0.9076458333333334,
      "grad_norm": 2.308502435684204,
      "learning_rate": 6.321590381839242e-06,
      "loss": 3.4069,
      "step": 435670
    },
    {
      "epoch": 0.9076666666666666,
      "grad_norm": 3.075617551803589,
      "learning_rate": 6.3187588361843285e-06,
      "loss": 3.384,
      "step": 435680
    },
    {
      "epoch": 0.9076875,
      "grad_norm": 2.7705910205841064,
      "learning_rate": 6.3159279111755e-06,
      "loss": 3.5022,
      "step": 435690
    },
    {
      "epoch": 0.9077083333333333,
      "grad_norm": 3.0234620571136475,
      "learning_rate": 6.313097606824979e-06,
      "loss": 3.3368,
      "step": 435700
    },
    {
      "epoch": 0.9077291666666667,
      "grad_norm": 2.899726152420044,
      "learning_rate": 6.310267923145007e-06,
      "loss": 3.4986,
      "step": 435710
    },
    {
      "epoch": 0.90775,
      "grad_norm": 3.0625855922698975,
      "learning_rate": 6.307438860147806e-06,
      "loss": 3.4243,
      "step": 435720
    },
    {
      "epoch": 0.9077708333333333,
      "grad_norm": 2.924344301223755,
      "learning_rate": 6.304610417845585e-06,
      "loss": 3.5624,
      "step": 435730
    },
    {
      "epoch": 0.9077916666666667,
      "grad_norm": 2.9061710834503174,
      "learning_rate": 6.3017825962505815e-06,
      "loss": 3.482,
      "step": 435740
    },
    {
      "epoch": 0.9078125,
      "grad_norm": 2.8948616981506348,
      "learning_rate": 6.2989553953749885e-06,
      "loss": 3.3872,
      "step": 435750
    },
    {
      "epoch": 0.9078333333333334,
      "grad_norm": 2.5754687786102295,
      "learning_rate": 6.296128815231027e-06,
      "loss": 3.2109,
      "step": 435760
    },
    {
      "epoch": 0.9078541666666666,
      "grad_norm": 2.752439498901367,
      "learning_rate": 6.2933028558309065e-06,
      "loss": 3.3995,
      "step": 435770
    },
    {
      "epoch": 0.907875,
      "grad_norm": 3.6708672046661377,
      "learning_rate": 6.2904775171868316e-06,
      "loss": 3.4438,
      "step": 435780
    },
    {
      "epoch": 0.9078958333333333,
      "grad_norm": 3.054511785507202,
      "learning_rate": 6.2876527993110275e-06,
      "loss": 3.4361,
      "step": 435790
    },
    {
      "epoch": 0.9079166666666667,
      "grad_norm": 3.7880961894989014,
      "learning_rate": 6.28482870221565e-06,
      "loss": 3.4149,
      "step": 435800
    },
    {
      "epoch": 0.9079375,
      "grad_norm": 2.901226282119751,
      "learning_rate": 6.28200522591294e-06,
      "loss": 3.4567,
      "step": 435810
    },
    {
      "epoch": 0.9079583333333333,
      "grad_norm": 3.035539150238037,
      "learning_rate": 6.279182370415087e-06,
      "loss": 3.4451,
      "step": 435820
    },
    {
      "epoch": 0.9079791666666667,
      "grad_norm": 2.745950698852539,
      "learning_rate": 6.276360135734265e-06,
      "loss": 3.4383,
      "step": 435830
    },
    {
      "epoch": 0.908,
      "grad_norm": 3.4471192359924316,
      "learning_rate": 6.273538521882682e-06,
      "loss": 3.4988,
      "step": 435840
    },
    {
      "epoch": 0.9080208333333334,
      "grad_norm": 2.490173816680908,
      "learning_rate": 6.270717528872526e-06,
      "loss": 3.2809,
      "step": 435850
    },
    {
      "epoch": 0.9080416666666666,
      "grad_norm": 2.7734432220458984,
      "learning_rate": 6.267897156715956e-06,
      "loss": 3.4905,
      "step": 435860
    },
    {
      "epoch": 0.9080625,
      "grad_norm": 2.8663089275360107,
      "learning_rate": 6.265077405425195e-06,
      "loss": 3.3844,
      "step": 435870
    },
    {
      "epoch": 0.9080833333333334,
      "grad_norm": 3.1273927688598633,
      "learning_rate": 6.2622582750124324e-06,
      "loss": 3.4898,
      "step": 435880
    },
    {
      "epoch": 0.9081041666666667,
      "grad_norm": 3.084824323654175,
      "learning_rate": 6.259439765489776e-06,
      "loss": 3.4442,
      "step": 435890
    },
    {
      "epoch": 0.908125,
      "grad_norm": 2.4927332401275635,
      "learning_rate": 6.25662187686945e-06,
      "loss": 3.4529,
      "step": 435900
    },
    {
      "epoch": 0.9081458333333333,
      "grad_norm": 2.9863829612731934,
      "learning_rate": 6.25380460916366e-06,
      "loss": 3.4747,
      "step": 435910
    },
    {
      "epoch": 0.9081666666666667,
      "grad_norm": 2.989945888519287,
      "learning_rate": 6.250987962384479e-06,
      "loss": 3.3035,
      "step": 435920
    },
    {
      "epoch": 0.9081875,
      "grad_norm": 3.0584964752197266,
      "learning_rate": 6.248171936544183e-06,
      "loss": 3.3419,
      "step": 435930
    },
    {
      "epoch": 0.9082083333333333,
      "grad_norm": 2.5500004291534424,
      "learning_rate": 6.245356531654844e-06,
      "loss": 3.4531,
      "step": 435940
    },
    {
      "epoch": 0.9082291666666666,
      "grad_norm": 2.736511707305908,
      "learning_rate": 6.2425417477286684e-06,
      "loss": 3.4244,
      "step": 435950
    },
    {
      "epoch": 0.90825,
      "grad_norm": 3.494131565093994,
      "learning_rate": 6.239727584777832e-06,
      "loss": 3.4301,
      "step": 435960
    },
    {
      "epoch": 0.9082708333333334,
      "grad_norm": 3.001791000366211,
      "learning_rate": 6.236914042814456e-06,
      "loss": 3.3948,
      "step": 435970
    },
    {
      "epoch": 0.9082916666666667,
      "grad_norm": 2.685790538787842,
      "learning_rate": 6.234101121850682e-06,
      "loss": 3.3421,
      "step": 435980
    },
    {
      "epoch": 0.9083125,
      "grad_norm": 4.0917744636535645,
      "learning_rate": 6.231288821898716e-06,
      "loss": 3.3631,
      "step": 435990
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 3.1680009365081787,
      "learning_rate": 6.228477142970667e-06,
      "loss": 3.535,
      "step": 436000
    },
    {
      "epoch": 0.9083333333333333,
      "eval_loss": 3.5222809314727783,
      "eval_runtime": 7.5091,
      "eval_samples_per_second": 1.332,
      "eval_steps_per_second": 0.4,
      "step": 436000
    },
    {
      "epoch": 0.9083541666666667,
      "grad_norm": 2.638686180114746,
      "learning_rate": 6.22566608507869e-06,
      "loss": 3.396,
      "step": 436010
    },
    {
      "epoch": 0.908375,
      "grad_norm": 2.7371976375579834,
      "learning_rate": 6.222855648234909e-06,
      "loss": 3.266,
      "step": 436020
    },
    {
      "epoch": 0.9083958333333333,
      "grad_norm": 2.281691074371338,
      "learning_rate": 6.220045832451498e-06,
      "loss": 3.4008,
      "step": 436030
    },
    {
      "epoch": 0.9084166666666667,
      "grad_norm": 3.2158730030059814,
      "learning_rate": 6.217236637740564e-06,
      "loss": 3.2162,
      "step": 436040
    },
    {
      "epoch": 0.9084375,
      "grad_norm": 2.8329579830169678,
      "learning_rate": 6.214428064114263e-06,
      "loss": 3.3938,
      "step": 436050
    },
    {
      "epoch": 0.9084583333333334,
      "grad_norm": 3.6652393341064453,
      "learning_rate": 6.21162011158472e-06,
      "loss": 3.4335,
      "step": 436060
    },
    {
      "epoch": 0.9084791666666666,
      "grad_norm": 2.68265700340271,
      "learning_rate": 6.2088127801640575e-06,
      "loss": 3.4802,
      "step": 436070
    },
    {
      "epoch": 0.9085,
      "grad_norm": 3.1246390342712402,
      "learning_rate": 6.206006069864417e-06,
      "loss": 3.4035,
      "step": 436080
    },
    {
      "epoch": 0.9085208333333333,
      "grad_norm": 2.4743576049804688,
      "learning_rate": 6.203199980697904e-06,
      "loss": 3.5237,
      "step": 436090
    },
    {
      "epoch": 0.9085416666666667,
      "grad_norm": 3.6573007106781006,
      "learning_rate": 6.200394512676643e-06,
      "loss": 3.4303,
      "step": 436100
    },
    {
      "epoch": 0.9085625,
      "grad_norm": 2.701828718185425,
      "learning_rate": 6.197589665812758e-06,
      "loss": 3.5014,
      "step": 436110
    },
    {
      "epoch": 0.9085833333333333,
      "grad_norm": 2.992201328277588,
      "learning_rate": 6.194785440118371e-06,
      "loss": 3.4776,
      "step": 436120
    },
    {
      "epoch": 0.9086041666666667,
      "grad_norm": 3.2268402576446533,
      "learning_rate": 6.191981835605592e-06,
      "loss": 3.4461,
      "step": 436130
    },
    {
      "epoch": 0.908625,
      "grad_norm": 3.4122426509857178,
      "learning_rate": 6.189178852286525e-06,
      "loss": 3.4934,
      "step": 436140
    },
    {
      "epoch": 0.9086458333333334,
      "grad_norm": 2.4152283668518066,
      "learning_rate": 6.186376490173278e-06,
      "loss": 3.321,
      "step": 436150
    },
    {
      "epoch": 0.9086666666666666,
      "grad_norm": 2.8252933025360107,
      "learning_rate": 6.183574749277992e-06,
      "loss": 3.4522,
      "step": 436160
    },
    {
      "epoch": 0.9086875,
      "grad_norm": 2.676832675933838,
      "learning_rate": 6.1807736296126896e-06,
      "loss": 3.45,
      "step": 436170
    },
    {
      "epoch": 0.9087083333333333,
      "grad_norm": 2.5159072875976562,
      "learning_rate": 6.177973131189529e-06,
      "loss": 3.3475,
      "step": 436180
    },
    {
      "epoch": 0.9087291666666667,
      "grad_norm": 3.7668063640594482,
      "learning_rate": 6.1751732540206154e-06,
      "loss": 3.415,
      "step": 436190
    },
    {
      "epoch": 0.90875,
      "grad_norm": 2.864039659500122,
      "learning_rate": 6.172373998117991e-06,
      "loss": 3.3692,
      "step": 436200
    },
    {
      "epoch": 0.9087708333333333,
      "grad_norm": 3.149674654006958,
      "learning_rate": 6.169575363493795e-06,
      "loss": 3.2995,
      "step": 436210
    },
    {
      "epoch": 0.9087916666666667,
      "grad_norm": 3.48319673538208,
      "learning_rate": 6.166777350160135e-06,
      "loss": 3.3441,
      "step": 436220
    },
    {
      "epoch": 0.9088125,
      "grad_norm": 2.9587295055389404,
      "learning_rate": 6.163979958129018e-06,
      "loss": 3.4506,
      "step": 436230
    },
    {
      "epoch": 0.9088333333333334,
      "grad_norm": 2.9408774375915527,
      "learning_rate": 6.161183187412583e-06,
      "loss": 3.4349,
      "step": 436240
    },
    {
      "epoch": 0.9088541666666666,
      "grad_norm": 3.6762681007385254,
      "learning_rate": 6.1583870380229215e-06,
      "loss": 3.4563,
      "step": 436250
    },
    {
      "epoch": 0.908875,
      "grad_norm": 2.7736377716064453,
      "learning_rate": 6.155591509972058e-06,
      "loss": 3.2856,
      "step": 436260
    },
    {
      "epoch": 0.9088958333333333,
      "grad_norm": 3.4172537326812744,
      "learning_rate": 6.152796603272131e-06,
      "loss": 3.5016,
      "step": 436270
    },
    {
      "epoch": 0.9089166666666667,
      "grad_norm": 3.102017641067505,
      "learning_rate": 6.150002317935182e-06,
      "loss": 3.3864,
      "step": 436280
    },
    {
      "epoch": 0.9089375,
      "grad_norm": 2.8217551708221436,
      "learning_rate": 6.147208653973268e-06,
      "loss": 3.2923,
      "step": 436290
    },
    {
      "epoch": 0.9089583333333333,
      "grad_norm": 3.617011547088623,
      "learning_rate": 6.144415611398495e-06,
      "loss": 3.3069,
      "step": 436300
    },
    {
      "epoch": 0.9089791666666667,
      "grad_norm": 3.3300585746765137,
      "learning_rate": 6.1416231902228885e-06,
      "loss": 3.3377,
      "step": 436310
    },
    {
      "epoch": 0.909,
      "grad_norm": 2.6709890365600586,
      "learning_rate": 6.138831390458521e-06,
      "loss": 3.5039,
      "step": 436320
    },
    {
      "epoch": 0.9090208333333333,
      "grad_norm": 2.5696277618408203,
      "learning_rate": 6.136040212117466e-06,
      "loss": 3.3251,
      "step": 436330
    },
    {
      "epoch": 0.9090416666666666,
      "grad_norm": 2.8766732215881348,
      "learning_rate": 6.1332496552117635e-06,
      "loss": 3.3945,
      "step": 436340
    },
    {
      "epoch": 0.9090625,
      "grad_norm": 3.0138933658599854,
      "learning_rate": 6.1304597197534884e-06,
      "loss": 3.3902,
      "step": 436350
    },
    {
      "epoch": 0.9090833333333334,
      "grad_norm": 2.9611432552337646,
      "learning_rate": 6.127670405754665e-06,
      "loss": 3.3866,
      "step": 436360
    },
    {
      "epoch": 0.9091041666666667,
      "grad_norm": 2.98266863822937,
      "learning_rate": 6.1248817132273645e-06,
      "loss": 3.515,
      "step": 436370
    },
    {
      "epoch": 0.909125,
      "grad_norm": 3.090512752532959,
      "learning_rate": 6.122093642183629e-06,
      "loss": 3.5396,
      "step": 436380
    },
    {
      "epoch": 0.9091458333333333,
      "grad_norm": 2.9067084789276123,
      "learning_rate": 6.119306192635498e-06,
      "loss": 3.3636,
      "step": 436390
    },
    {
      "epoch": 0.9091666666666667,
      "grad_norm": 2.982802152633667,
      "learning_rate": 6.116519364595013e-06,
      "loss": 3.3531,
      "step": 436400
    },
    {
      "epoch": 0.9091875,
      "grad_norm": 3.0233983993530273,
      "learning_rate": 6.1137331580742134e-06,
      "loss": 3.4484,
      "step": 436410
    },
    {
      "epoch": 0.9092083333333333,
      "grad_norm": 2.8910558223724365,
      "learning_rate": 6.110947573085123e-06,
      "loss": 3.4323,
      "step": 436420
    },
    {
      "epoch": 0.9092291666666666,
      "grad_norm": 2.752192258834839,
      "learning_rate": 6.108162609639783e-06,
      "loss": 3.4205,
      "step": 436430
    },
    {
      "epoch": 0.90925,
      "grad_norm": 2.8851447105407715,
      "learning_rate": 6.105378267750232e-06,
      "loss": 3.4543,
      "step": 436440
    },
    {
      "epoch": 0.9092708333333334,
      "grad_norm": 2.909757137298584,
      "learning_rate": 6.10259454742848e-06,
      "loss": 3.5018,
      "step": 436450
    },
    {
      "epoch": 0.9092916666666667,
      "grad_norm": 2.465569019317627,
      "learning_rate": 6.099811448686565e-06,
      "loss": 3.4782,
      "step": 436460
    },
    {
      "epoch": 0.9093125,
      "grad_norm": 2.791748046875,
      "learning_rate": 6.09702897153651e-06,
      "loss": 3.3462,
      "step": 436470
    },
    {
      "epoch": 0.9093333333333333,
      "grad_norm": 2.836087465286255,
      "learning_rate": 6.094247115990325e-06,
      "loss": 3.6029,
      "step": 436480
    },
    {
      "epoch": 0.9093541666666667,
      "grad_norm": 3.088970184326172,
      "learning_rate": 6.0914658820600315e-06,
      "loss": 3.4787,
      "step": 436490
    },
    {
      "epoch": 0.909375,
      "grad_norm": 3.085249423980713,
      "learning_rate": 6.088685269757654e-06,
      "loss": 3.3881,
      "step": 436500
    },
    {
      "epoch": 0.9093958333333333,
      "grad_norm": 4.416692733764648,
      "learning_rate": 6.085905279095166e-06,
      "loss": 3.5331,
      "step": 436510
    },
    {
      "epoch": 0.9094166666666667,
      "grad_norm": 3.0221734046936035,
      "learning_rate": 6.083125910084624e-06,
      "loss": 3.3639,
      "step": 436520
    },
    {
      "epoch": 0.9094375,
      "grad_norm": 3.271367073059082,
      "learning_rate": 6.08034716273802e-06,
      "loss": 3.5291,
      "step": 436530
    },
    {
      "epoch": 0.9094583333333334,
      "grad_norm": 2.2742695808410645,
      "learning_rate": 6.077569037067326e-06,
      "loss": 3.5056,
      "step": 436540
    },
    {
      "epoch": 0.9094791666666666,
      "grad_norm": 2.858814239501953,
      "learning_rate": 6.0747915330845664e-06,
      "loss": 3.4339,
      "step": 436550
    },
    {
      "epoch": 0.9095,
      "grad_norm": 2.7808949947357178,
      "learning_rate": 6.072014650801765e-06,
      "loss": 3.3388,
      "step": 436560
    },
    {
      "epoch": 0.9095208333333333,
      "grad_norm": 2.5468499660491943,
      "learning_rate": 6.069238390230846e-06,
      "loss": 3.4916,
      "step": 436570
    },
    {
      "epoch": 0.9095416666666667,
      "grad_norm": 2.7769649028778076,
      "learning_rate": 6.0664627513838655e-06,
      "loss": 3.3106,
      "step": 436580
    },
    {
      "epoch": 0.9095625,
      "grad_norm": 3.945103883743286,
      "learning_rate": 6.063687734272816e-06,
      "loss": 3.4225,
      "step": 436590
    },
    {
      "epoch": 0.9095833333333333,
      "grad_norm": 3.0724215507507324,
      "learning_rate": 6.060913338909651e-06,
      "loss": 3.5325,
      "step": 436600
    },
    {
      "epoch": 0.9096041666666667,
      "grad_norm": 2.9894351959228516,
      "learning_rate": 6.05813956530633e-06,
      "loss": 3.5072,
      "step": 436610
    },
    {
      "epoch": 0.909625,
      "grad_norm": 2.6808509826660156,
      "learning_rate": 6.05536641347491e-06,
      "loss": 3.5702,
      "step": 436620
    },
    {
      "epoch": 0.9096458333333334,
      "grad_norm": 2.9101197719573975,
      "learning_rate": 6.052593883427315e-06,
      "loss": 3.429,
      "step": 436630
    },
    {
      "epoch": 0.9096666666666666,
      "grad_norm": 3.231698751449585,
      "learning_rate": 6.049821975175517e-06,
      "loss": 3.3941,
      "step": 436640
    },
    {
      "epoch": 0.9096875,
      "grad_norm": 3.6225297451019287,
      "learning_rate": 6.0470506887315586e-06,
      "loss": 3.4177,
      "step": 436650
    },
    {
      "epoch": 0.9097083333333333,
      "grad_norm": 2.884268045425415,
      "learning_rate": 6.044280024107329e-06,
      "loss": 3.418,
      "step": 436660
    },
    {
      "epoch": 0.9097291666666667,
      "grad_norm": 3.5342047214508057,
      "learning_rate": 6.041509981314819e-06,
      "loss": 3.4455,
      "step": 436670
    },
    {
      "epoch": 0.90975,
      "grad_norm": 2.517427682876587,
      "learning_rate": 6.038740560366017e-06,
      "loss": 3.3472,
      "step": 436680
    },
    {
      "epoch": 0.9097708333333333,
      "grad_norm": 3.108783006668091,
      "learning_rate": 6.035971761272867e-06,
      "loss": 3.331,
      "step": 436690
    },
    {
      "epoch": 0.9097916666666667,
      "grad_norm": 2.360405206680298,
      "learning_rate": 6.033203584047341e-06,
      "loss": 3.3676,
      "step": 436700
    },
    {
      "epoch": 0.9098125,
      "grad_norm": 2.789372682571411,
      "learning_rate": 6.030436028701379e-06,
      "loss": 3.4646,
      "step": 436710
    },
    {
      "epoch": 0.9098333333333334,
      "grad_norm": 3.6748485565185547,
      "learning_rate": 6.027669095246957e-06,
      "loss": 3.3232,
      "step": 436720
    },
    {
      "epoch": 0.9098541666666666,
      "grad_norm": 2.912484645843506,
      "learning_rate": 6.024902783696011e-06,
      "loss": 3.4382,
      "step": 436730
    },
    {
      "epoch": 0.909875,
      "grad_norm": 2.6994621753692627,
      "learning_rate": 6.022137094060486e-06,
      "loss": 3.5729,
      "step": 436740
    },
    {
      "epoch": 0.9098958333333333,
      "grad_norm": 2.769388198852539,
      "learning_rate": 6.019372026352353e-06,
      "loss": 3.3847,
      "step": 436750
    },
    {
      "epoch": 0.9099166666666667,
      "grad_norm": 2.397142171859741,
      "learning_rate": 6.016607580583538e-06,
      "loss": 3.6115,
      "step": 436760
    },
    {
      "epoch": 0.9099375,
      "grad_norm": 3.333888530731201,
      "learning_rate": 6.013843756765979e-06,
      "loss": 3.3244,
      "step": 436770
    },
    {
      "epoch": 0.9099583333333333,
      "grad_norm": 2.965481758117676,
      "learning_rate": 6.011080554911635e-06,
      "loss": 3.4675,
      "step": 436780
    },
    {
      "epoch": 0.9099791666666667,
      "grad_norm": 3.0921220779418945,
      "learning_rate": 6.008317975032412e-06,
      "loss": 3.4919,
      "step": 436790
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.0958070755004883,
      "learning_rate": 6.0055560171402675e-06,
      "loss": 3.4286,
      "step": 436800
    },
    {
      "epoch": 0.9100208333333333,
      "grad_norm": 3.578941583633423,
      "learning_rate": 6.002794681247125e-06,
      "loss": 3.467,
      "step": 436810
    },
    {
      "epoch": 0.9100416666666666,
      "grad_norm": 3.276190996170044,
      "learning_rate": 6.000033967364909e-06,
      "loss": 3.5506,
      "step": 436820
    },
    {
      "epoch": 0.9100625,
      "grad_norm": 2.677950382232666,
      "learning_rate": 5.997273875505543e-06,
      "loss": 3.4257,
      "step": 436830
    },
    {
      "epoch": 0.9100833333333334,
      "grad_norm": 3.9722797870635986,
      "learning_rate": 5.994514405680967e-06,
      "loss": 3.4984,
      "step": 436840
    },
    {
      "epoch": 0.9101041666666667,
      "grad_norm": 2.3927135467529297,
      "learning_rate": 5.991755557903072e-06,
      "loss": 3.4148,
      "step": 436850
    },
    {
      "epoch": 0.910125,
      "grad_norm": 3.0553131103515625,
      "learning_rate": 5.988997332183798e-06,
      "loss": 3.4055,
      "step": 436860
    },
    {
      "epoch": 0.9101458333333333,
      "grad_norm": 2.698591470718384,
      "learning_rate": 5.986239728535053e-06,
      "loss": 3.4476,
      "step": 436870
    },
    {
      "epoch": 0.9101666666666667,
      "grad_norm": 2.546450614929199,
      "learning_rate": 5.9834827469687595e-06,
      "loss": 3.3198,
      "step": 436880
    },
    {
      "epoch": 0.9101875,
      "grad_norm": 3.3245067596435547,
      "learning_rate": 5.980726387496793e-06,
      "loss": 3.5147,
      "step": 436890
    },
    {
      "epoch": 0.9102083333333333,
      "grad_norm": 2.6372663974761963,
      "learning_rate": 5.977970650131092e-06,
      "loss": 3.4192,
      "step": 436900
    },
    {
      "epoch": 0.9102291666666666,
      "grad_norm": 3.337826728820801,
      "learning_rate": 5.975215534883565e-06,
      "loss": 3.5434,
      "step": 436910
    },
    {
      "epoch": 0.91025,
      "grad_norm": 3.8100996017456055,
      "learning_rate": 5.972461041766052e-06,
      "loss": 3.4875,
      "step": 436920
    },
    {
      "epoch": 0.9102708333333334,
      "grad_norm": 2.6797351837158203,
      "learning_rate": 5.9697071707905445e-06,
      "loss": 3.4104,
      "step": 436930
    },
    {
      "epoch": 0.9102916666666667,
      "grad_norm": 2.681142807006836,
      "learning_rate": 5.966953921968881e-06,
      "loss": 3.4725,
      "step": 436940
    },
    {
      "epoch": 0.9103125,
      "grad_norm": 3.774198055267334,
      "learning_rate": 5.964201295312937e-06,
      "loss": 3.4167,
      "step": 436950
    },
    {
      "epoch": 0.9103333333333333,
      "grad_norm": 2.380131244659424,
      "learning_rate": 5.961449290834669e-06,
      "loss": 3.5008,
      "step": 436960
    },
    {
      "epoch": 0.9103541666666667,
      "grad_norm": 3.038677930831909,
      "learning_rate": 5.958697908545901e-06,
      "loss": 3.5063,
      "step": 436970
    },
    {
      "epoch": 0.910375,
      "grad_norm": 2.4833054542541504,
      "learning_rate": 5.95594714845854e-06,
      "loss": 3.5431,
      "step": 436980
    },
    {
      "epoch": 0.9103958333333333,
      "grad_norm": 3.0029239654541016,
      "learning_rate": 5.9531970105844925e-06,
      "loss": 3.3991,
      "step": 436990
    },
    {
      "epoch": 0.9104166666666667,
      "grad_norm": 3.270678997039795,
      "learning_rate": 5.950447494935601e-06,
      "loss": 3.5173,
      "step": 437000
    },
    {
      "epoch": 0.9104166666666667,
      "eval_loss": 3.523059129714966,
      "eval_runtime": 7.4148,
      "eval_samples_per_second": 1.349,
      "eval_steps_per_second": 0.405,
      "step": 437000
    },
    {
      "epoch": 0.9104375,
      "grad_norm": 2.7983293533325195,
      "learning_rate": 5.947698601523737e-06,
      "loss": 3.3546,
      "step": 437010
    },
    {
      "epoch": 0.9104583333333334,
      "grad_norm": 2.298006057739258,
      "learning_rate": 5.944950330360843e-06,
      "loss": 3.3799,
      "step": 437020
    },
    {
      "epoch": 0.9104791666666666,
      "grad_norm": 2.683525562286377,
      "learning_rate": 5.942202681458708e-06,
      "loss": 3.4277,
      "step": 437030
    },
    {
      "epoch": 0.9105,
      "grad_norm": 2.8945837020874023,
      "learning_rate": 5.939455654829222e-06,
      "loss": 3.4284,
      "step": 437040
    },
    {
      "epoch": 0.9105208333333333,
      "grad_norm": 2.718038558959961,
      "learning_rate": 5.936709250484312e-06,
      "loss": 3.4409,
      "step": 437050
    },
    {
      "epoch": 0.9105416666666667,
      "grad_norm": 2.914281129837036,
      "learning_rate": 5.933963468435765e-06,
      "loss": 3.5988,
      "step": 437060
    },
    {
      "epoch": 0.9105625,
      "grad_norm": 2.7143545150756836,
      "learning_rate": 5.931218308695473e-06,
      "loss": 3.5048,
      "step": 437070
    },
    {
      "epoch": 0.9105833333333333,
      "grad_norm": 2.792271852493286,
      "learning_rate": 5.928473771275294e-06,
      "loss": 3.3866,
      "step": 437080
    },
    {
      "epoch": 0.9106041666666667,
      "grad_norm": 3.6334915161132812,
      "learning_rate": 5.925729856187067e-06,
      "loss": 3.4656,
      "step": 437090
    },
    {
      "epoch": 0.910625,
      "grad_norm": 2.840763807296753,
      "learning_rate": 5.9229865634426835e-06,
      "loss": 3.3959,
      "step": 437100
    },
    {
      "epoch": 0.9106458333333334,
      "grad_norm": 3.788560152053833,
      "learning_rate": 5.92024389305395e-06,
      "loss": 3.3344,
      "step": 437110
    },
    {
      "epoch": 0.9106666666666666,
      "grad_norm": 5.903970718383789,
      "learning_rate": 5.917501845032741e-06,
      "loss": 3.4053,
      "step": 437120
    },
    {
      "epoch": 0.9106875,
      "grad_norm": 2.8983757495880127,
      "learning_rate": 5.91476041939088e-06,
      "loss": 3.3478,
      "step": 437130
    },
    {
      "epoch": 0.9107083333333333,
      "grad_norm": 2.870365619659424,
      "learning_rate": 5.91201961614024e-06,
      "loss": 3.3246,
      "step": 437140
    },
    {
      "epoch": 0.9107291666666667,
      "grad_norm": 3.2372007369995117,
      "learning_rate": 5.90927943529263e-06,
      "loss": 3.3895,
      "step": 437150
    },
    {
      "epoch": 0.91075,
      "grad_norm": 2.7769343852996826,
      "learning_rate": 5.9065398768598896e-06,
      "loss": 3.4645,
      "step": 437160
    },
    {
      "epoch": 0.9107708333333333,
      "grad_norm": 2.9415786266326904,
      "learning_rate": 5.903800940853876e-06,
      "loss": 3.4643,
      "step": 437170
    },
    {
      "epoch": 0.9107916666666667,
      "grad_norm": 3.8769314289093018,
      "learning_rate": 5.901062627286396e-06,
      "loss": 3.3378,
      "step": 437180
    },
    {
      "epoch": 0.9108125,
      "grad_norm": 4.134946823120117,
      "learning_rate": 5.898324936169307e-06,
      "loss": 3.5104,
      "step": 437190
    },
    {
      "epoch": 0.9108333333333334,
      "grad_norm": 3.394594669342041,
      "learning_rate": 5.8955878675143845e-06,
      "loss": 3.4326,
      "step": 437200
    },
    {
      "epoch": 0.9108541666666666,
      "grad_norm": 3.5128064155578613,
      "learning_rate": 5.8928514213334834e-06,
      "loss": 3.4805,
      "step": 437210
    },
    {
      "epoch": 0.910875,
      "grad_norm": 2.631706476211548,
      "learning_rate": 5.8901155976384615e-06,
      "loss": 3.3765,
      "step": 437220
    },
    {
      "epoch": 0.9108958333333333,
      "grad_norm": 2.764146327972412,
      "learning_rate": 5.8873803964410435e-06,
      "loss": 3.5662,
      "step": 437230
    },
    {
      "epoch": 0.9109166666666667,
      "grad_norm": 2.9179296493530273,
      "learning_rate": 5.884645817753136e-06,
      "loss": 3.5814,
      "step": 437240
    },
    {
      "epoch": 0.9109375,
      "grad_norm": 3.389246702194214,
      "learning_rate": 5.881911861586514e-06,
      "loss": 3.4431,
      "step": 437250
    },
    {
      "epoch": 0.9109583333333333,
      "grad_norm": 2.7687528133392334,
      "learning_rate": 5.8791785279529655e-06,
      "loss": 3.52,
      "step": 437260
    },
    {
      "epoch": 0.9109791666666667,
      "grad_norm": 2.634978771209717,
      "learning_rate": 5.876445816864334e-06,
      "loss": 3.4778,
      "step": 437270
    },
    {
      "epoch": 0.911,
      "grad_norm": 3.1081345081329346,
      "learning_rate": 5.873713728332408e-06,
      "loss": 3.4366,
      "step": 437280
    },
    {
      "epoch": 0.9110208333333333,
      "grad_norm": 3.9006593227386475,
      "learning_rate": 5.870982262368978e-06,
      "loss": 3.5603,
      "step": 437290
    },
    {
      "epoch": 0.9110416666666666,
      "grad_norm": 3.3583710193634033,
      "learning_rate": 5.86825141898587e-06,
      "loss": 3.3851,
      "step": 437300
    },
    {
      "epoch": 0.9110625,
      "grad_norm": 4.67378568649292,
      "learning_rate": 5.865521198194856e-06,
      "loss": 3.3446,
      "step": 437310
    },
    {
      "epoch": 0.9110833333333334,
      "grad_norm": 4.07472038269043,
      "learning_rate": 5.862791600007727e-06,
      "loss": 3.4848,
      "step": 437320
    },
    {
      "epoch": 0.9111041666666667,
      "grad_norm": 3.6702535152435303,
      "learning_rate": 5.860062624436307e-06,
      "loss": 3.3481,
      "step": 437330
    },
    {
      "epoch": 0.911125,
      "grad_norm": 2.6824395656585693,
      "learning_rate": 5.857334271492353e-06,
      "loss": 3.4357,
      "step": 437340
    },
    {
      "epoch": 0.9111458333333333,
      "grad_norm": 2.769664764404297,
      "learning_rate": 5.8546065411876395e-06,
      "loss": 3.3633,
      "step": 437350
    },
    {
      "epoch": 0.9111666666666667,
      "grad_norm": 3.084501266479492,
      "learning_rate": 5.851879433534007e-06,
      "loss": 3.5426,
      "step": 437360
    },
    {
      "epoch": 0.9111875,
      "grad_norm": 2.4855096340179443,
      "learning_rate": 5.849152948543178e-06,
      "loss": 3.4345,
      "step": 437370
    },
    {
      "epoch": 0.9112083333333333,
      "grad_norm": 4.1716179847717285,
      "learning_rate": 5.846427086226929e-06,
      "loss": 3.4377,
      "step": 437380
    },
    {
      "epoch": 0.9112291666666666,
      "grad_norm": 3.0365357398986816,
      "learning_rate": 5.843701846597099e-06,
      "loss": 3.4159,
      "step": 437390
    },
    {
      "epoch": 0.91125,
      "grad_norm": 2.4601008892059326,
      "learning_rate": 5.840977229665394e-06,
      "loss": 3.4584,
      "step": 437400
    },
    {
      "epoch": 0.9112708333333334,
      "grad_norm": 2.6181371212005615,
      "learning_rate": 5.838253235443574e-06,
      "loss": 3.4338,
      "step": 437410
    },
    {
      "epoch": 0.9112916666666667,
      "grad_norm": 2.830960273742676,
      "learning_rate": 5.835529863943495e-06,
      "loss": 3.446,
      "step": 437420
    },
    {
      "epoch": 0.9113125,
      "grad_norm": 3.537527084350586,
      "learning_rate": 5.83280711517683e-06,
      "loss": 3.3713,
      "step": 437430
    },
    {
      "epoch": 0.9113333333333333,
      "grad_norm": 2.902663230895996,
      "learning_rate": 5.83008498915537e-06,
      "loss": 3.3395,
      "step": 437440
    },
    {
      "epoch": 0.9113541666666667,
      "grad_norm": 2.4876205921173096,
      "learning_rate": 5.8273634858908905e-06,
      "loss": 3.3902,
      "step": 437450
    },
    {
      "epoch": 0.911375,
      "grad_norm": 2.8249449729919434,
      "learning_rate": 5.82464260539513e-06,
      "loss": 3.5075,
      "step": 437460
    },
    {
      "epoch": 0.9113958333333333,
      "grad_norm": 2.3914289474487305,
      "learning_rate": 5.82192234767983e-06,
      "loss": 3.3918,
      "step": 437470
    },
    {
      "epoch": 0.9114166666666667,
      "grad_norm": 3.882549285888672,
      "learning_rate": 5.819202712756765e-06,
      "loss": 3.476,
      "step": 437480
    },
    {
      "epoch": 0.9114375,
      "grad_norm": 3.3603405952453613,
      "learning_rate": 5.816483700637692e-06,
      "loss": 3.3701,
      "step": 437490
    },
    {
      "epoch": 0.9114583333333334,
      "grad_norm": 2.894707202911377,
      "learning_rate": 5.813765311334317e-06,
      "loss": 3.4238,
      "step": 437500
    },
    {
      "epoch": 0.9114791666666666,
      "grad_norm": 2.5740153789520264,
      "learning_rate": 5.811047544858399e-06,
      "loss": 3.2483,
      "step": 437510
    },
    {
      "epoch": 0.9115,
      "grad_norm": 2.8982300758361816,
      "learning_rate": 5.808330401221694e-06,
      "loss": 3.3232,
      "step": 437520
    },
    {
      "epoch": 0.9115208333333333,
      "grad_norm": 3.0073814392089844,
      "learning_rate": 5.8056138804359445e-06,
      "loss": 3.3497,
      "step": 437530
    },
    {
      "epoch": 0.9115416666666667,
      "grad_norm": 4.248408794403076,
      "learning_rate": 5.802897982512822e-06,
      "loss": 3.5012,
      "step": 437540
    },
    {
      "epoch": 0.9115625,
      "grad_norm": 2.8208179473876953,
      "learning_rate": 5.800182707464118e-06,
      "loss": 3.345,
      "step": 437550
    },
    {
      "epoch": 0.9115833333333333,
      "grad_norm": 3.0149354934692383,
      "learning_rate": 5.797468055301574e-06,
      "loss": 3.4152,
      "step": 437560
    },
    {
      "epoch": 0.9116041666666667,
      "grad_norm": 3.0681610107421875,
      "learning_rate": 5.794754026036863e-06,
      "loss": 3.3974,
      "step": 437570
    },
    {
      "epoch": 0.911625,
      "grad_norm": 3.4791767597198486,
      "learning_rate": 5.792040619681726e-06,
      "loss": 3.5178,
      "step": 437580
    },
    {
      "epoch": 0.9116458333333334,
      "grad_norm": 3.88466739654541,
      "learning_rate": 5.789327836247937e-06,
      "loss": 3.5076,
      "step": 437590
    },
    {
      "epoch": 0.9116666666666666,
      "grad_norm": 2.654768943786621,
      "learning_rate": 5.7866156757471195e-06,
      "loss": 3.3851,
      "step": 437600
    },
    {
      "epoch": 0.9116875,
      "grad_norm": 3.3244924545288086,
      "learning_rate": 5.783904138191048e-06,
      "loss": 3.3675,
      "step": 437610
    },
    {
      "epoch": 0.9117083333333333,
      "grad_norm": 2.4209885597229004,
      "learning_rate": 5.781193223591462e-06,
      "loss": 3.4387,
      "step": 437620
    },
    {
      "epoch": 0.9117291666666667,
      "grad_norm": 2.846975088119507,
      "learning_rate": 5.778482931959988e-06,
      "loss": 3.3315,
      "step": 437630
    },
    {
      "epoch": 0.91175,
      "grad_norm": 2.716940402984619,
      "learning_rate": 5.775773263308398e-06,
      "loss": 3.4438,
      "step": 437640
    },
    {
      "epoch": 0.9117708333333333,
      "grad_norm": 3.064312219619751,
      "learning_rate": 5.773064217648399e-06,
      "loss": 3.4285,
      "step": 437650
    },
    {
      "epoch": 0.9117916666666667,
      "grad_norm": 2.5978941917419434,
      "learning_rate": 5.770355794991649e-06,
      "loss": 3.4799,
      "step": 437660
    },
    {
      "epoch": 0.9118125,
      "grad_norm": 3.3217790126800537,
      "learning_rate": 5.767647995349889e-06,
      "loss": 3.4431,
      "step": 437670
    },
    {
      "epoch": 0.9118333333333334,
      "grad_norm": 2.9232687950134277,
      "learning_rate": 5.764940818734792e-06,
      "loss": 3.4184,
      "step": 437680
    },
    {
      "epoch": 0.9118541666666666,
      "grad_norm": 2.912332773208618,
      "learning_rate": 5.762234265158033e-06,
      "loss": 3.3936,
      "step": 437690
    },
    {
      "epoch": 0.911875,
      "grad_norm": 3.1673595905303955,
      "learning_rate": 5.759528334631369e-06,
      "loss": 3.382,
      "step": 437700
    },
    {
      "epoch": 0.9118958333333333,
      "grad_norm": 2.3637678623199463,
      "learning_rate": 5.7568230271664406e-06,
      "loss": 3.4355,
      "step": 437710
    },
    {
      "epoch": 0.9119166666666667,
      "grad_norm": 2.5867979526519775,
      "learning_rate": 5.754118342774921e-06,
      "loss": 3.4519,
      "step": 437720
    },
    {
      "epoch": 0.9119375,
      "grad_norm": 2.872612714767456,
      "learning_rate": 5.751414281468536e-06,
      "loss": 3.4135,
      "step": 437730
    },
    {
      "epoch": 0.9119583333333333,
      "grad_norm": 2.853297472000122,
      "learning_rate": 5.748710843258925e-06,
      "loss": 3.2663,
      "step": 437740
    },
    {
      "epoch": 0.9119791666666667,
      "grad_norm": 3.5773277282714844,
      "learning_rate": 5.746008028157778e-06,
      "loss": 3.4354,
      "step": 437750
    },
    {
      "epoch": 0.912,
      "grad_norm": 2.758317470550537,
      "learning_rate": 5.74330583617682e-06,
      "loss": 3.5305,
      "step": 437760
    },
    {
      "epoch": 0.9120208333333333,
      "grad_norm": 3.5160071849823,
      "learning_rate": 5.740604267327642e-06,
      "loss": 3.4567,
      "step": 437770
    },
    {
      "epoch": 0.9120416666666666,
      "grad_norm": 2.913809061050415,
      "learning_rate": 5.737903321621967e-06,
      "loss": 3.3335,
      "step": 437780
    },
    {
      "epoch": 0.9120625,
      "grad_norm": 2.393836498260498,
      "learning_rate": 5.735202999071436e-06,
      "loss": 3.3867,
      "step": 437790
    },
    {
      "epoch": 0.9120833333333334,
      "grad_norm": 3.2293102741241455,
      "learning_rate": 5.732503299687724e-06,
      "loss": 3.3083,
      "step": 437800
    },
    {
      "epoch": 0.9121041666666667,
      "grad_norm": 2.961838722229004,
      "learning_rate": 5.729804223482503e-06,
      "loss": 3.372,
      "step": 437810
    },
    {
      "epoch": 0.912125,
      "grad_norm": 3.1001365184783936,
      "learning_rate": 5.727105770467416e-06,
      "loss": 3.5019,
      "step": 437820
    },
    {
      "epoch": 0.9121458333333333,
      "grad_norm": 3.879965305328369,
      "learning_rate": 5.724407940654119e-06,
      "loss": 3.4193,
      "step": 437830
    },
    {
      "epoch": 0.9121666666666667,
      "grad_norm": 2.464545488357544,
      "learning_rate": 5.7217107340542855e-06,
      "loss": 3.4115,
      "step": 437840
    },
    {
      "epoch": 0.9121875,
      "grad_norm": 2.963256359100342,
      "learning_rate": 5.71901415067954e-06,
      "loss": 3.3418,
      "step": 437850
    },
    {
      "epoch": 0.9122083333333333,
      "grad_norm": 2.9506278038024902,
      "learning_rate": 5.716318190541541e-06,
      "loss": 3.3993,
      "step": 437860
    },
    {
      "epoch": 0.9122291666666666,
      "grad_norm": 3.36425518989563,
      "learning_rate": 5.713622853651945e-06,
      "loss": 3.3993,
      "step": 437870
    },
    {
      "epoch": 0.91225,
      "grad_norm": 2.5646440982818604,
      "learning_rate": 5.710928140022392e-06,
      "loss": 3.4249,
      "step": 437880
    },
    {
      "epoch": 0.9122708333333334,
      "grad_norm": 2.757014513015747,
      "learning_rate": 5.708234049664507e-06,
      "loss": 3.3356,
      "step": 437890
    },
    {
      "epoch": 0.9122916666666666,
      "grad_norm": 3.486842155456543,
      "learning_rate": 5.7055405825899295e-06,
      "loss": 3.3995,
      "step": 437900
    },
    {
      "epoch": 0.9123125,
      "grad_norm": 2.774925708770752,
      "learning_rate": 5.702847738810301e-06,
      "loss": 3.3569,
      "step": 437910
    },
    {
      "epoch": 0.9123333333333333,
      "grad_norm": 2.5772862434387207,
      "learning_rate": 5.700155518337263e-06,
      "loss": 3.4646,
      "step": 437920
    },
    {
      "epoch": 0.9123541666666667,
      "grad_norm": 2.762856960296631,
      "learning_rate": 5.697463921182454e-06,
      "loss": 3.4472,
      "step": 437930
    },
    {
      "epoch": 0.912375,
      "grad_norm": 3.4598186016082764,
      "learning_rate": 5.694772947357435e-06,
      "loss": 3.4713,
      "step": 437940
    },
    {
      "epoch": 0.9123958333333333,
      "grad_norm": 3.163341999053955,
      "learning_rate": 5.692082596873909e-06,
      "loss": 3.5206,
      "step": 437950
    },
    {
      "epoch": 0.9124166666666667,
      "grad_norm": 2.542616844177246,
      "learning_rate": 5.68939286974347e-06,
      "loss": 3.3009,
      "step": 437960
    },
    {
      "epoch": 0.9124375,
      "grad_norm": 3.4544365406036377,
      "learning_rate": 5.686703765977707e-06,
      "loss": 3.4011,
      "step": 437970
    },
    {
      "epoch": 0.9124583333333334,
      "grad_norm": 2.6886301040649414,
      "learning_rate": 5.684015285588278e-06,
      "loss": 3.3162,
      "step": 437980
    },
    {
      "epoch": 0.9124791666666666,
      "grad_norm": 2.8411648273468018,
      "learning_rate": 5.681327428586791e-06,
      "loss": 3.342,
      "step": 437990
    },
    {
      "epoch": 0.9125,
      "grad_norm": 2.8021912574768066,
      "learning_rate": 5.678640194984801e-06,
      "loss": 3.4602,
      "step": 438000
    },
    {
      "epoch": 0.9125,
      "eval_loss": 3.5202693939208984,
      "eval_runtime": 7.2537,
      "eval_samples_per_second": 1.379,
      "eval_steps_per_second": 0.414,
      "step": 438000
    },
    {
      "epoch": 0.9125208333333333,
      "grad_norm": 3.2976109981536865,
      "learning_rate": 5.6759535847939855e-06,
      "loss": 3.4102,
      "step": 438010
    },
    {
      "epoch": 0.9125416666666667,
      "grad_norm": 2.814314842224121,
      "learning_rate": 5.673267598025949e-06,
      "loss": 3.6235,
      "step": 438020
    },
    {
      "epoch": 0.9125625,
      "grad_norm": 2.7223076820373535,
      "learning_rate": 5.670582234692217e-06,
      "loss": 3.5203,
      "step": 438030
    },
    {
      "epoch": 0.9125833333333333,
      "grad_norm": 3.8690078258514404,
      "learning_rate": 5.66789749480448e-06,
      "loss": 3.3578,
      "step": 438040
    },
    {
      "epoch": 0.9126041666666667,
      "grad_norm": 2.884761333465576,
      "learning_rate": 5.665213378374295e-06,
      "loss": 3.3819,
      "step": 438050
    },
    {
      "epoch": 0.912625,
      "grad_norm": 3.355621814727783,
      "learning_rate": 5.662529885413236e-06,
      "loss": 3.4329,
      "step": 438060
    },
    {
      "epoch": 0.9126458333333334,
      "grad_norm": 2.9592604637145996,
      "learning_rate": 5.6598470159329276e-06,
      "loss": 3.413,
      "step": 438070
    },
    {
      "epoch": 0.9126666666666666,
      "grad_norm": 2.8634793758392334,
      "learning_rate": 5.657164769944927e-06,
      "loss": 3.497,
      "step": 438080
    },
    {
      "epoch": 0.9126875,
      "grad_norm": 3.3534438610076904,
      "learning_rate": 5.6544831474608585e-06,
      "loss": 3.3357,
      "step": 438090
    },
    {
      "epoch": 0.9127083333333333,
      "grad_norm": 2.2151753902435303,
      "learning_rate": 5.651802148492279e-06,
      "loss": 3.4314,
      "step": 438100
    },
    {
      "epoch": 0.9127291666666667,
      "grad_norm": 3.696251153945923,
      "learning_rate": 5.6491217730507796e-06,
      "loss": 3.3142,
      "step": 438110
    },
    {
      "epoch": 0.91275,
      "grad_norm": 2.8690035343170166,
      "learning_rate": 5.646442021147934e-06,
      "loss": 3.4978,
      "step": 438120
    },
    {
      "epoch": 0.9127708333333333,
      "grad_norm": 3.533447027206421,
      "learning_rate": 5.643762892795317e-06,
      "loss": 3.4046,
      "step": 438130
    },
    {
      "epoch": 0.9127916666666667,
      "grad_norm": 3.946930170059204,
      "learning_rate": 5.641084388004519e-06,
      "loss": 3.4415,
      "step": 438140
    },
    {
      "epoch": 0.9128125,
      "grad_norm": 3.021960496902466,
      "learning_rate": 5.63840650678708e-06,
      "loss": 3.3457,
      "step": 438150
    },
    {
      "epoch": 0.9128333333333334,
      "grad_norm": 3.607072591781616,
      "learning_rate": 5.635729249154591e-06,
      "loss": 3.4923,
      "step": 438160
    },
    {
      "epoch": 0.9128541666666666,
      "grad_norm": 3.522371530532837,
      "learning_rate": 5.633052615118594e-06,
      "loss": 3.5563,
      "step": 438170
    },
    {
      "epoch": 0.912875,
      "grad_norm": 3.8699910640716553,
      "learning_rate": 5.630376604690678e-06,
      "loss": 3.2971,
      "step": 438180
    },
    {
      "epoch": 0.9128958333333334,
      "grad_norm": 3.2562804222106934,
      "learning_rate": 5.6277012178823856e-06,
      "loss": 3.5039,
      "step": 438190
    },
    {
      "epoch": 0.9129166666666667,
      "grad_norm": 2.932945489883423,
      "learning_rate": 5.6250264547052896e-06,
      "loss": 3.3609,
      "step": 438200
    },
    {
      "epoch": 0.9129375,
      "grad_norm": 3.1944079399108887,
      "learning_rate": 5.622352315170914e-06,
      "loss": 3.4904,
      "step": 438210
    },
    {
      "epoch": 0.9129583333333333,
      "grad_norm": 2.6600093841552734,
      "learning_rate": 5.6196787992908334e-06,
      "loss": 3.444,
      "step": 438220
    },
    {
      "epoch": 0.9129791666666667,
      "grad_norm": 3.8806064128875732,
      "learning_rate": 5.617005907076605e-06,
      "loss": 3.3738,
      "step": 438230
    },
    {
      "epoch": 0.913,
      "grad_norm": 2.964430332183838,
      "learning_rate": 5.614333638539736e-06,
      "loss": 3.4182,
      "step": 438240
    },
    {
      "epoch": 0.9130208333333333,
      "grad_norm": 3.242403030395508,
      "learning_rate": 5.611661993691818e-06,
      "loss": 3.4856,
      "step": 438250
    },
    {
      "epoch": 0.9130416666666666,
      "grad_norm": 2.5396809577941895,
      "learning_rate": 5.608990972544341e-06,
      "loss": 3.4785,
      "step": 438260
    },
    {
      "epoch": 0.9130625,
      "grad_norm": 3.1207220554351807,
      "learning_rate": 5.606320575108897e-06,
      "loss": 3.3273,
      "step": 438270
    },
    {
      "epoch": 0.9130833333333334,
      "grad_norm": 3.711859941482544,
      "learning_rate": 5.603650801396975e-06,
      "loss": 3.4268,
      "step": 438280
    },
    {
      "epoch": 0.9131041666666667,
      "grad_norm": 4.293995380401611,
      "learning_rate": 5.600981651420133e-06,
      "loss": 3.4302,
      "step": 438290
    },
    {
      "epoch": 0.913125,
      "grad_norm": 3.6485557556152344,
      "learning_rate": 5.598313125189896e-06,
      "loss": 3.4484,
      "step": 438300
    },
    {
      "epoch": 0.9131458333333333,
      "grad_norm": 2.47714900970459,
      "learning_rate": 5.595645222717771e-06,
      "loss": 3.3544,
      "step": 438310
    },
    {
      "epoch": 0.9131666666666667,
      "grad_norm": 3.964766025543213,
      "learning_rate": 5.5929779440153145e-06,
      "loss": 3.3492,
      "step": 438320
    },
    {
      "epoch": 0.9131875,
      "grad_norm": 2.661454916000366,
      "learning_rate": 5.590311289094035e-06,
      "loss": 3.4445,
      "step": 438330
    },
    {
      "epoch": 0.9132083333333333,
      "grad_norm": 3.456718683242798,
      "learning_rate": 5.5876452579654395e-06,
      "loss": 3.5708,
      "step": 438340
    },
    {
      "epoch": 0.9132291666666666,
      "grad_norm": 3.6352901458740234,
      "learning_rate": 5.584979850641053e-06,
      "loss": 3.381,
      "step": 438350
    },
    {
      "epoch": 0.91325,
      "grad_norm": 2.5602285861968994,
      "learning_rate": 5.5823150671324146e-06,
      "loss": 3.4473,
      "step": 438360
    },
    {
      "epoch": 0.9132708333333334,
      "grad_norm": 2.855664014816284,
      "learning_rate": 5.579650907450983e-06,
      "loss": 3.4591,
      "step": 438370
    },
    {
      "epoch": 0.9132916666666666,
      "grad_norm": 3.1054840087890625,
      "learning_rate": 5.5769873716082825e-06,
      "loss": 3.2931,
      "step": 438380
    },
    {
      "epoch": 0.9133125,
      "grad_norm": 2.7217001914978027,
      "learning_rate": 5.57432445961587e-06,
      "loss": 3.4857,
      "step": 438390
    },
    {
      "epoch": 0.9133333333333333,
      "grad_norm": 2.451231002807617,
      "learning_rate": 5.571662171485186e-06,
      "loss": 3.3701,
      "step": 438400
    },
    {
      "epoch": 0.9133541666666667,
      "grad_norm": 4.035508155822754,
      "learning_rate": 5.569000507227739e-06,
      "loss": 3.4289,
      "step": 438410
    },
    {
      "epoch": 0.913375,
      "grad_norm": 3.441408157348633,
      "learning_rate": 5.566339466855069e-06,
      "loss": 3.3885,
      "step": 438420
    },
    {
      "epoch": 0.9133958333333333,
      "grad_norm": 3.0520613193511963,
      "learning_rate": 5.563679050378633e-06,
      "loss": 3.5524,
      "step": 438430
    },
    {
      "epoch": 0.9134166666666667,
      "grad_norm": 2.4139232635498047,
      "learning_rate": 5.561019257809923e-06,
      "loss": 3.3825,
      "step": 438440
    },
    {
      "epoch": 0.9134375,
      "grad_norm": 3.3617968559265137,
      "learning_rate": 5.558360089160446e-06,
      "loss": 3.3779,
      "step": 438450
    },
    {
      "epoch": 0.9134583333333334,
      "grad_norm": 2.988084077835083,
      "learning_rate": 5.5557015444416765e-06,
      "loss": 3.4572,
      "step": 438460
    },
    {
      "epoch": 0.9134791666666666,
      "grad_norm": 4.097555160522461,
      "learning_rate": 5.553043623665087e-06,
      "loss": 3.544,
      "step": 438470
    },
    {
      "epoch": 0.9135,
      "grad_norm": 3.11185622215271,
      "learning_rate": 5.550386326842188e-06,
      "loss": 3.4762,
      "step": 438480
    },
    {
      "epoch": 0.9135208333333333,
      "grad_norm": 2.8127973079681396,
      "learning_rate": 5.547729653984451e-06,
      "loss": 3.3936,
      "step": 438490
    },
    {
      "epoch": 0.9135416666666667,
      "grad_norm": 2.9288268089294434,
      "learning_rate": 5.545073605103334e-06,
      "loss": 3.3968,
      "step": 438500
    },
    {
      "epoch": 0.9135625,
      "grad_norm": 3.9219024181365967,
      "learning_rate": 5.5424181802103115e-06,
      "loss": 3.3813,
      "step": 438510
    },
    {
      "epoch": 0.9135833333333333,
      "grad_norm": 2.829296350479126,
      "learning_rate": 5.539763379316875e-06,
      "loss": 3.3824,
      "step": 438520
    },
    {
      "epoch": 0.9136041666666667,
      "grad_norm": 2.741722822189331,
      "learning_rate": 5.537109202434464e-06,
      "loss": 3.4496,
      "step": 438530
    },
    {
      "epoch": 0.913625,
      "grad_norm": 3.2306840419769287,
      "learning_rate": 5.534455649574571e-06,
      "loss": 3.3838,
      "step": 438540
    },
    {
      "epoch": 0.9136458333333334,
      "grad_norm": 3.662440061569214,
      "learning_rate": 5.531802720748652e-06,
      "loss": 3.4886,
      "step": 438550
    },
    {
      "epoch": 0.9136666666666666,
      "grad_norm": 3.1279447078704834,
      "learning_rate": 5.529150415968147e-06,
      "loss": 3.3332,
      "step": 438560
    },
    {
      "epoch": 0.9136875,
      "grad_norm": 2.5767316818237305,
      "learning_rate": 5.526498735244533e-06,
      "loss": 3.3632,
      "step": 438570
    },
    {
      "epoch": 0.9137083333333333,
      "grad_norm": 2.8409814834594727,
      "learning_rate": 5.523847678589249e-06,
      "loss": 3.4524,
      "step": 438580
    },
    {
      "epoch": 0.9137291666666667,
      "grad_norm": 4.080079078674316,
      "learning_rate": 5.5211972460137695e-06,
      "loss": 3.3393,
      "step": 438590
    },
    {
      "epoch": 0.91375,
      "grad_norm": 2.9312379360198975,
      "learning_rate": 5.518547437529519e-06,
      "loss": 3.3921,
      "step": 438600
    },
    {
      "epoch": 0.9137708333333333,
      "grad_norm": 3.5569803714752197,
      "learning_rate": 5.515898253147954e-06,
      "loss": 3.3678,
      "step": 438610
    },
    {
      "epoch": 0.9137916666666667,
      "grad_norm": 3.384356737136841,
      "learning_rate": 5.513249692880533e-06,
      "loss": 3.4558,
      "step": 438620
    },
    {
      "epoch": 0.9138125,
      "grad_norm": 2.7357189655303955,
      "learning_rate": 5.510601756738664e-06,
      "loss": 3.4664,
      "step": 438630
    },
    {
      "epoch": 0.9138333333333334,
      "grad_norm": 2.9036166667938232,
      "learning_rate": 5.507954444733803e-06,
      "loss": 3.5063,
      "step": 438640
    },
    {
      "epoch": 0.9138541666666666,
      "grad_norm": 3.4221675395965576,
      "learning_rate": 5.505307756877409e-06,
      "loss": 3.3958,
      "step": 438650
    },
    {
      "epoch": 0.913875,
      "grad_norm": 3.065375804901123,
      "learning_rate": 5.502661693180854e-06,
      "loss": 3.4489,
      "step": 438660
    },
    {
      "epoch": 0.9138958333333334,
      "grad_norm": 3.310565710067749,
      "learning_rate": 5.500016253655648e-06,
      "loss": 3.4261,
      "step": 438670
    },
    {
      "epoch": 0.9139166666666667,
      "grad_norm": 2.7591259479522705,
      "learning_rate": 5.497371438313147e-06,
      "loss": 3.3979,
      "step": 438680
    },
    {
      "epoch": 0.9139375,
      "grad_norm": 3.0788326263427734,
      "learning_rate": 5.494727247164793e-06,
      "loss": 3.5541,
      "step": 438690
    },
    {
      "epoch": 0.9139583333333333,
      "grad_norm": 3.0428707599639893,
      "learning_rate": 5.4920836802220425e-06,
      "loss": 3.2928,
      "step": 438700
    },
    {
      "epoch": 0.9139791666666667,
      "grad_norm": 2.235159397125244,
      "learning_rate": 5.48944073749627e-06,
      "loss": 3.3832,
      "step": 438710
    },
    {
      "epoch": 0.914,
      "grad_norm": 2.732332944869995,
      "learning_rate": 5.486798418998917e-06,
      "loss": 3.4351,
      "step": 438720
    },
    {
      "epoch": 0.9140208333333333,
      "grad_norm": 3.0327024459838867,
      "learning_rate": 5.484156724741406e-06,
      "loss": 3.4989,
      "step": 438730
    },
    {
      "epoch": 0.9140416666666666,
      "grad_norm": 2.2607860565185547,
      "learning_rate": 5.48151565473513e-06,
      "loss": 3.5735,
      "step": 438740
    },
    {
      "epoch": 0.9140625,
      "grad_norm": 2.9714057445526123,
      "learning_rate": 5.478875208991479e-06,
      "loss": 3.3691,
      "step": 438750
    },
    {
      "epoch": 0.9140833333333334,
      "grad_norm": 3.0968847274780273,
      "learning_rate": 5.47623538752191e-06,
      "loss": 3.4457,
      "step": 438760
    },
    {
      "epoch": 0.9141041666666667,
      "grad_norm": 2.6047325134277344,
      "learning_rate": 5.473596190337781e-06,
      "loss": 3.3585,
      "step": 438770
    },
    {
      "epoch": 0.914125,
      "grad_norm": 3.089621067047119,
      "learning_rate": 5.4709576174505e-06,
      "loss": 3.2402,
      "step": 438780
    },
    {
      "epoch": 0.9141458333333333,
      "grad_norm": 2.7271029949188232,
      "learning_rate": 5.468319668871507e-06,
      "loss": 3.2655,
      "step": 438790
    },
    {
      "epoch": 0.9141666666666667,
      "grad_norm": 2.606748580932617,
      "learning_rate": 5.4656823446121434e-06,
      "loss": 3.4721,
      "step": 438800
    },
    {
      "epoch": 0.9141875,
      "grad_norm": 3.01269268989563,
      "learning_rate": 5.4630456446838334e-06,
      "loss": 3.5686,
      "step": 438810
    },
    {
      "epoch": 0.9142083333333333,
      "grad_norm": 2.8644461631774902,
      "learning_rate": 5.4604095690979345e-06,
      "loss": 3.3554,
      "step": 438820
    },
    {
      "epoch": 0.9142291666666666,
      "grad_norm": 2.669774055480957,
      "learning_rate": 5.457774117865871e-06,
      "loss": 3.3623,
      "step": 438830
    },
    {
      "epoch": 0.91425,
      "grad_norm": 2.9775044918060303,
      "learning_rate": 5.455139290999e-06,
      "loss": 3.6054,
      "step": 438840
    },
    {
      "epoch": 0.9142708333333334,
      "grad_norm": 2.863006353378296,
      "learning_rate": 5.452505088508713e-06,
      "loss": 3.3839,
      "step": 438850
    },
    {
      "epoch": 0.9142916666666666,
      "grad_norm": 3.4178388118743896,
      "learning_rate": 5.449871510406384e-06,
      "loss": 3.5256,
      "step": 438860
    },
    {
      "epoch": 0.9143125,
      "grad_norm": 3.4710469245910645,
      "learning_rate": 5.447238556703404e-06,
      "loss": 3.4485,
      "step": 438870
    },
    {
      "epoch": 0.9143333333333333,
      "grad_norm": 2.9889254570007324,
      "learning_rate": 5.4446062274111305e-06,
      "loss": 3.4855,
      "step": 438880
    },
    {
      "epoch": 0.9143541666666667,
      "grad_norm": 2.6033847332000732,
      "learning_rate": 5.4419745225409375e-06,
      "loss": 3.4616,
      "step": 438890
    },
    {
      "epoch": 0.914375,
      "grad_norm": 2.7218611240386963,
      "learning_rate": 5.439343442104199e-06,
      "loss": 3.4384,
      "step": 438900
    },
    {
      "epoch": 0.9143958333333333,
      "grad_norm": 3.0495104789733887,
      "learning_rate": 5.436712986112274e-06,
      "loss": 3.5135,
      "step": 438910
    },
    {
      "epoch": 0.9144166666666667,
      "grad_norm": 2.877807855606079,
      "learning_rate": 5.4340831545765184e-06,
      "loss": 3.3677,
      "step": 438920
    },
    {
      "epoch": 0.9144375,
      "grad_norm": 3.9893245697021484,
      "learning_rate": 5.431453947508307e-06,
      "loss": 3.3904,
      "step": 438930
    },
    {
      "epoch": 0.9144583333333334,
      "grad_norm": 2.827514171600342,
      "learning_rate": 5.428825364918981e-06,
      "loss": 3.5384,
      "step": 438940
    },
    {
      "epoch": 0.9144791666666666,
      "grad_norm": 3.436016798019409,
      "learning_rate": 5.426197406819915e-06,
      "loss": 3.4476,
      "step": 438950
    },
    {
      "epoch": 0.9145,
      "grad_norm": 3.080167770385742,
      "learning_rate": 5.423570073222467e-06,
      "loss": 3.4534,
      "step": 438960
    },
    {
      "epoch": 0.9145208333333333,
      "grad_norm": 3.059152841567993,
      "learning_rate": 5.420943364137942e-06,
      "loss": 3.4598,
      "step": 438970
    },
    {
      "epoch": 0.9145416666666667,
      "grad_norm": 3.4868311882019043,
      "learning_rate": 5.418317279577716e-06,
      "loss": 3.4364,
      "step": 438980
    },
    {
      "epoch": 0.9145625,
      "grad_norm": 2.804063081741333,
      "learning_rate": 5.415691819553147e-06,
      "loss": 3.3805,
      "step": 438990
    },
    {
      "epoch": 0.9145833333333333,
      "grad_norm": 2.808459758758545,
      "learning_rate": 5.413066984075542e-06,
      "loss": 3.4051,
      "step": 439000
    },
    {
      "epoch": 0.9145833333333333,
      "eval_loss": 3.52360463142395,
      "eval_runtime": 6.9597,
      "eval_samples_per_second": 1.437,
      "eval_steps_per_second": 0.431,
      "step": 439000
    },
    {
      "epoch": 0.9146041666666667,
      "grad_norm": 3.512010335922241,
      "learning_rate": 5.41044277315626e-06,
      "loss": 3.4757,
      "step": 439010
    },
    {
      "epoch": 0.914625,
      "grad_norm": 3.657470941543579,
      "learning_rate": 5.407819186806656e-06,
      "loss": 3.3702,
      "step": 439020
    },
    {
      "epoch": 0.9146458333333334,
      "grad_norm": 3.0766735076904297,
      "learning_rate": 5.405196225037989e-06,
      "loss": 3.3986,
      "step": 439030
    },
    {
      "epoch": 0.9146666666666666,
      "grad_norm": 2.498286008834839,
      "learning_rate": 5.402573887861683e-06,
      "loss": 3.458,
      "step": 439040
    },
    {
      "epoch": 0.9146875,
      "grad_norm": 2.8549916744232178,
      "learning_rate": 5.3999521752890125e-06,
      "loss": 3.4444,
      "step": 439050
    },
    {
      "epoch": 0.9147083333333333,
      "grad_norm": 3.1593284606933594,
      "learning_rate": 5.397331087331286e-06,
      "loss": 3.4781,
      "step": 439060
    },
    {
      "epoch": 0.9147291666666667,
      "grad_norm": 3.303542137145996,
      "learning_rate": 5.394710623999893e-06,
      "loss": 3.3213,
      "step": 439070
    },
    {
      "epoch": 0.91475,
      "grad_norm": 3.835852861404419,
      "learning_rate": 5.392090785306091e-06,
      "loss": 3.5226,
      "step": 439080
    },
    {
      "epoch": 0.9147708333333333,
      "grad_norm": 2.909902572631836,
      "learning_rate": 5.389471571261206e-06,
      "loss": 3.4998,
      "step": 439090
    },
    {
      "epoch": 0.9147916666666667,
      "grad_norm": 2.3159382343292236,
      "learning_rate": 5.386852981876594e-06,
      "loss": 3.3558,
      "step": 439100
    },
    {
      "epoch": 0.9148125,
      "grad_norm": 2.6935133934020996,
      "learning_rate": 5.384235017163513e-06,
      "loss": 3.4116,
      "step": 439110
    },
    {
      "epoch": 0.9148333333333334,
      "grad_norm": 3.2574145793914795,
      "learning_rate": 5.381617677133271e-06,
      "loss": 3.4729,
      "step": 439120
    },
    {
      "epoch": 0.9148541666666666,
      "grad_norm": 3.02835750579834,
      "learning_rate": 5.379000961797242e-06,
      "loss": 3.4497,
      "step": 439130
    },
    {
      "epoch": 0.914875,
      "grad_norm": 2.4477946758270264,
      "learning_rate": 5.376384871166667e-06,
      "loss": 3.4391,
      "step": 439140
    },
    {
      "epoch": 0.9148958333333334,
      "grad_norm": 2.917625904083252,
      "learning_rate": 5.373769405252837e-06,
      "loss": 3.43,
      "step": 439150
    },
    {
      "epoch": 0.9149166666666667,
      "grad_norm": 2.9070236682891846,
      "learning_rate": 5.371154564067126e-06,
      "loss": 3.5397,
      "step": 439160
    },
    {
      "epoch": 0.9149375,
      "grad_norm": 2.785794734954834,
      "learning_rate": 5.3685403476207424e-06,
      "loss": 3.4239,
      "step": 439170
    },
    {
      "epoch": 0.9149583333333333,
      "grad_norm": 2.991107225418091,
      "learning_rate": 5.365926755925026e-06,
      "loss": 3.3943,
      "step": 439180
    },
    {
      "epoch": 0.9149791666666667,
      "grad_norm": 2.4462730884552,
      "learning_rate": 5.363313788991253e-06,
      "loss": 3.3718,
      "step": 439190
    },
    {
      "epoch": 0.915,
      "grad_norm": 2.4834930896759033,
      "learning_rate": 5.360701446830728e-06,
      "loss": 3.5078,
      "step": 439200
    },
    {
      "epoch": 0.9150208333333333,
      "grad_norm": 3.2714149951934814,
      "learning_rate": 5.358089729454696e-06,
      "loss": 3.401,
      "step": 439210
    },
    {
      "epoch": 0.9150416666666666,
      "grad_norm": 3.5140645503997803,
      "learning_rate": 5.3554786368744775e-06,
      "loss": 3.3878,
      "step": 439220
    },
    {
      "epoch": 0.9150625,
      "grad_norm": 2.759432554244995,
      "learning_rate": 5.352868169101332e-06,
      "loss": 3.4347,
      "step": 439230
    },
    {
      "epoch": 0.9150833333333334,
      "grad_norm": 2.425426483154297,
      "learning_rate": 5.35025832614655e-06,
      "loss": 3.4703,
      "step": 439240
    },
    {
      "epoch": 0.9151041666666667,
      "grad_norm": 3.246798515319824,
      "learning_rate": 5.34764910802139e-06,
      "loss": 3.6663,
      "step": 439250
    },
    {
      "epoch": 0.915125,
      "grad_norm": 3.8285152912139893,
      "learning_rate": 5.345040514737125e-06,
      "loss": 3.6403,
      "step": 439260
    },
    {
      "epoch": 0.9151458333333333,
      "grad_norm": 2.7710087299346924,
      "learning_rate": 5.342432546305031e-06,
      "loss": 3.327,
      "step": 439270
    },
    {
      "epoch": 0.9151666666666667,
      "grad_norm": 3.0472965240478516,
      "learning_rate": 5.3398252027363645e-06,
      "loss": 3.4698,
      "step": 439280
    },
    {
      "epoch": 0.9151875,
      "grad_norm": 2.9726619720458984,
      "learning_rate": 5.337218484042399e-06,
      "loss": 3.4902,
      "step": 439290
    },
    {
      "epoch": 0.9152083333333333,
      "grad_norm": 3.152006149291992,
      "learning_rate": 5.334612390234394e-06,
      "loss": 3.2772,
      "step": 439300
    },
    {
      "epoch": 0.9152291666666666,
      "grad_norm": 2.7854437828063965,
      "learning_rate": 5.3320069213235725e-06,
      "loss": 3.3773,
      "step": 439310
    },
    {
      "epoch": 0.91525,
      "grad_norm": 2.967189073562622,
      "learning_rate": 5.329402077321243e-06,
      "loss": 3.4172,
      "step": 439320
    },
    {
      "epoch": 0.9152708333333334,
      "grad_norm": 4.205904483795166,
      "learning_rate": 5.3267978582386465e-06,
      "loss": 3.3718,
      "step": 439330
    },
    {
      "epoch": 0.9152916666666666,
      "grad_norm": 2.5967135429382324,
      "learning_rate": 5.324194264086973e-06,
      "loss": 3.344,
      "step": 439340
    },
    {
      "epoch": 0.9153125,
      "grad_norm": 3.3585710525512695,
      "learning_rate": 5.321591294877547e-06,
      "loss": 3.5098,
      "step": 439350
    },
    {
      "epoch": 0.9153333333333333,
      "grad_norm": 3.5375046730041504,
      "learning_rate": 5.3189889506215775e-06,
      "loss": 3.4115,
      "step": 439360
    },
    {
      "epoch": 0.9153541666666667,
      "grad_norm": 3.699479579925537,
      "learning_rate": 5.316387231330288e-06,
      "loss": 3.5861,
      "step": 439370
    },
    {
      "epoch": 0.915375,
      "grad_norm": 3.2027080059051514,
      "learning_rate": 5.313786137014936e-06,
      "loss": 3.4493,
      "step": 439380
    },
    {
      "epoch": 0.9153958333333333,
      "grad_norm": 3.0901501178741455,
      "learning_rate": 5.311185667686796e-06,
      "loss": 3.4678,
      "step": 439390
    },
    {
      "epoch": 0.9154166666666667,
      "grad_norm": 3.9884402751922607,
      "learning_rate": 5.3085858233570085e-06,
      "loss": 3.4016,
      "step": 439400
    },
    {
      "epoch": 0.9154375,
      "grad_norm": 3.295558214187622,
      "learning_rate": 5.305986604036883e-06,
      "loss": 3.4169,
      "step": 439410
    },
    {
      "epoch": 0.9154583333333334,
      "grad_norm": 3.730079174041748,
      "learning_rate": 5.303388009737641e-06,
      "loss": 3.5968,
      "step": 439420
    },
    {
      "epoch": 0.9154791666666666,
      "grad_norm": 2.6007120609283447,
      "learning_rate": 5.3007900404704425e-06,
      "loss": 3.4862,
      "step": 439430
    },
    {
      "epoch": 0.9155,
      "grad_norm": 2.801424503326416,
      "learning_rate": 5.298192696246611e-06,
      "loss": 3.5648,
      "step": 439440
    },
    {
      "epoch": 0.9155208333333333,
      "grad_norm": 2.7468535900115967,
      "learning_rate": 5.295595977077271e-06,
      "loss": 3.41,
      "step": 439450
    },
    {
      "epoch": 0.9155416666666667,
      "grad_norm": 3.110736846923828,
      "learning_rate": 5.2929998829736646e-06,
      "loss": 3.4587,
      "step": 439460
    },
    {
      "epoch": 0.9155625,
      "grad_norm": 3.5896553993225098,
      "learning_rate": 5.290404413947063e-06,
      "loss": 3.3786,
      "step": 439470
    },
    {
      "epoch": 0.9155833333333333,
      "grad_norm": 3.733341693878174,
      "learning_rate": 5.287809570008611e-06,
      "loss": 3.3985,
      "step": 439480
    },
    {
      "epoch": 0.9156041666666667,
      "grad_norm": 3.2549757957458496,
      "learning_rate": 5.28521535116953e-06,
      "loss": 3.4364,
      "step": 439490
    },
    {
      "epoch": 0.915625,
      "grad_norm": 3.901820421218872,
      "learning_rate": 5.282621757441064e-06,
      "loss": 3.5232,
      "step": 439500
    },
    {
      "epoch": 0.9156458333333334,
      "grad_norm": 4.3936662673950195,
      "learning_rate": 5.280028788834384e-06,
      "loss": 3.4028,
      "step": 439510
    },
    {
      "epoch": 0.9156666666666666,
      "grad_norm": 3.666438341140747,
      "learning_rate": 5.277436445360666e-06,
      "loss": 3.3772,
      "step": 439520
    },
    {
      "epoch": 0.9156875,
      "grad_norm": 2.759584665298462,
      "learning_rate": 5.274844727031169e-06,
      "loss": 3.315,
      "step": 439530
    },
    {
      "epoch": 0.9157083333333333,
      "grad_norm": 2.5356459617614746,
      "learning_rate": 5.2722536338570484e-06,
      "loss": 3.4293,
      "step": 439540
    },
    {
      "epoch": 0.9157291666666667,
      "grad_norm": 2.7372148036956787,
      "learning_rate": 5.269663165849497e-06,
      "loss": 3.4406,
      "step": 439550
    },
    {
      "epoch": 0.91575,
      "grad_norm": 2.641982078552246,
      "learning_rate": 5.267073323019721e-06,
      "loss": 3.5155,
      "step": 439560
    },
    {
      "epoch": 0.9157708333333333,
      "grad_norm": 2.5280263423919678,
      "learning_rate": 5.264484105378897e-06,
      "loss": 3.4963,
      "step": 439570
    },
    {
      "epoch": 0.9157916666666667,
      "grad_norm": 3.094578981399536,
      "learning_rate": 5.261895512938214e-06,
      "loss": 3.4739,
      "step": 439580
    },
    {
      "epoch": 0.9158125,
      "grad_norm": 2.6926703453063965,
      "learning_rate": 5.259307545708847e-06,
      "loss": 3.4932,
      "step": 439590
    },
    {
      "epoch": 0.9158333333333334,
      "grad_norm": 3.849560499191284,
      "learning_rate": 5.25672020370197e-06,
      "loss": 3.4671,
      "step": 439600
    },
    {
      "epoch": 0.9158541666666666,
      "grad_norm": 3.407421827316284,
      "learning_rate": 5.254133486928774e-06,
      "loss": 3.3654,
      "step": 439610
    },
    {
      "epoch": 0.915875,
      "grad_norm": 2.7728123664855957,
      "learning_rate": 5.251547395400435e-06,
      "loss": 3.3363,
      "step": 439620
    },
    {
      "epoch": 0.9158958333333334,
      "grad_norm": 3.1186254024505615,
      "learning_rate": 5.248961929128109e-06,
      "loss": 3.3715,
      "step": 439630
    },
    {
      "epoch": 0.9159166666666667,
      "grad_norm": 2.5736260414123535,
      "learning_rate": 5.246377088122972e-06,
      "loss": 3.3969,
      "step": 439640
    },
    {
      "epoch": 0.9159375,
      "grad_norm": 3.2261760234832764,
      "learning_rate": 5.243792872396196e-06,
      "loss": 3.4171,
      "step": 439650
    },
    {
      "epoch": 0.9159583333333333,
      "grad_norm": 3.435103178024292,
      "learning_rate": 5.241209281958924e-06,
      "loss": 3.329,
      "step": 439660
    },
    {
      "epoch": 0.9159791666666667,
      "grad_norm": 2.9853179454803467,
      "learning_rate": 5.238626316822347e-06,
      "loss": 3.4422,
      "step": 439670
    },
    {
      "epoch": 0.916,
      "grad_norm": 2.873861074447632,
      "learning_rate": 5.2360439769975725e-06,
      "loss": 3.4703,
      "step": 439680
    },
    {
      "epoch": 0.9160208333333333,
      "grad_norm": 2.6797537803649902,
      "learning_rate": 5.233462262495808e-06,
      "loss": 3.335,
      "step": 439690
    },
    {
      "epoch": 0.9160416666666666,
      "grad_norm": 2.4020700454711914,
      "learning_rate": 5.230881173328194e-06,
      "loss": 3.2074,
      "step": 439700
    },
    {
      "epoch": 0.9160625,
      "grad_norm": 2.9423511028289795,
      "learning_rate": 5.228300709505839e-06,
      "loss": 3.5076,
      "step": 439710
    },
    {
      "epoch": 0.9160833333333334,
      "grad_norm": 3.2898004055023193,
      "learning_rate": 5.225720871039935e-06,
      "loss": 3.4655,
      "step": 439720
    },
    {
      "epoch": 0.9161041666666667,
      "grad_norm": 3.286768913269043,
      "learning_rate": 5.223141657941637e-06,
      "loss": 3.3703,
      "step": 439730
    },
    {
      "epoch": 0.916125,
      "grad_norm": 3.501392126083374,
      "learning_rate": 5.220563070222022e-06,
      "loss": 3.5482,
      "step": 439740
    },
    {
      "epoch": 0.9161458333333333,
      "grad_norm": 4.148115634918213,
      "learning_rate": 5.217985107892281e-06,
      "loss": 3.4159,
      "step": 439750
    },
    {
      "epoch": 0.9161666666666667,
      "grad_norm": 4.073029041290283,
      "learning_rate": 5.2154077709635534e-06,
      "loss": 3.4994,
      "step": 439760
    },
    {
      "epoch": 0.9161875,
      "grad_norm": 4.322978973388672,
      "learning_rate": 5.2128310594469145e-06,
      "loss": 3.6443,
      "step": 439770
    },
    {
      "epoch": 0.9162083333333333,
      "grad_norm": 2.75211501121521,
      "learning_rate": 5.210254973353556e-06,
      "loss": 3.394,
      "step": 439780
    },
    {
      "epoch": 0.9162291666666667,
      "grad_norm": 3.400761127471924,
      "learning_rate": 5.207679512694618e-06,
      "loss": 3.3841,
      "step": 439790
    },
    {
      "epoch": 0.91625,
      "grad_norm": 3.147249460220337,
      "learning_rate": 5.205104677481142e-06,
      "loss": 3.2722,
      "step": 439800
    },
    {
      "epoch": 0.9162708333333334,
      "grad_norm": 3.092941999435425,
      "learning_rate": 5.202530467724336e-06,
      "loss": 3.526,
      "step": 439810
    },
    {
      "epoch": 0.9162916666666666,
      "grad_norm": 4.946402549743652,
      "learning_rate": 5.199956883435258e-06,
      "loss": 3.3993,
      "step": 439820
    },
    {
      "epoch": 0.9163125,
      "grad_norm": 2.322247266769409,
      "learning_rate": 5.197383924625065e-06,
      "loss": 3.3323,
      "step": 439830
    },
    {
      "epoch": 0.9163333333333333,
      "grad_norm": 2.6651289463043213,
      "learning_rate": 5.194811591304848e-06,
      "loss": 3.4408,
      "step": 439840
    },
    {
      "epoch": 0.9163541666666667,
      "grad_norm": 2.753857135772705,
      "learning_rate": 5.192239883485716e-06,
      "loss": 3.5704,
      "step": 439850
    },
    {
      "epoch": 0.916375,
      "grad_norm": 3.3396968841552734,
      "learning_rate": 5.189668801178809e-06,
      "loss": 3.4638,
      "step": 439860
    },
    {
      "epoch": 0.9163958333333333,
      "grad_norm": 4.1320414543151855,
      "learning_rate": 5.187098344395202e-06,
      "loss": 3.4392,
      "step": 439870
    },
    {
      "epoch": 0.9164166666666667,
      "grad_norm": 4.015094757080078,
      "learning_rate": 5.184528513146019e-06,
      "loss": 3.5134,
      "step": 439880
    },
    {
      "epoch": 0.9164375,
      "grad_norm": 3.3881211280822754,
      "learning_rate": 5.1819593074423346e-06,
      "loss": 3.4355,
      "step": 439890
    },
    {
      "epoch": 0.9164583333333334,
      "grad_norm": 3.3090810775756836,
      "learning_rate": 5.179390727295274e-06,
      "loss": 3.3904,
      "step": 439900
    },
    {
      "epoch": 0.9164791666666666,
      "grad_norm": 2.9903323650360107,
      "learning_rate": 5.176822772715928e-06,
      "loss": 3.4006,
      "step": 439910
    },
    {
      "epoch": 0.9165,
      "grad_norm": 2.944054126739502,
      "learning_rate": 5.174255443715369e-06,
      "loss": 3.4444,
      "step": 439920
    },
    {
      "epoch": 0.9165208333333333,
      "grad_norm": 2.5823686122894287,
      "learning_rate": 5.1716887403047084e-06,
      "loss": 3.4345,
      "step": 439930
    },
    {
      "epoch": 0.9165416666666667,
      "grad_norm": 2.619243860244751,
      "learning_rate": 5.1691226624950175e-06,
      "loss": 3.4152,
      "step": 439940
    },
    {
      "epoch": 0.9165625,
      "grad_norm": 3.8717336654663086,
      "learning_rate": 5.166557210297406e-06,
      "loss": 3.3654,
      "step": 439950
    },
    {
      "epoch": 0.9165833333333333,
      "grad_norm": 3.532909393310547,
      "learning_rate": 5.163992383722915e-06,
      "loss": 3.3346,
      "step": 439960
    },
    {
      "epoch": 0.9166041666666667,
      "grad_norm": 4.498444557189941,
      "learning_rate": 5.161428182782668e-06,
      "loss": 3.3248,
      "step": 439970
    },
    {
      "epoch": 0.916625,
      "grad_norm": 2.824993133544922,
      "learning_rate": 5.158864607487706e-06,
      "loss": 3.4584,
      "step": 439980
    },
    {
      "epoch": 0.9166458333333334,
      "grad_norm": 2.688231945037842,
      "learning_rate": 5.156301657849121e-06,
      "loss": 3.5391,
      "step": 439990
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 2.283700466156006,
      "learning_rate": 5.1537393338779875e-06,
      "loss": 3.4005,
      "step": 440000
    },
    {
      "epoch": 0.9166666666666666,
      "eval_loss": 3.5224101543426514,
      "eval_runtime": 6.8686,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 440000
    },
    {
      "epoch": 0.9166875,
      "grad_norm": 3.1867058277130127,
      "learning_rate": 5.1511776355853466e-06,
      "loss": 3.4661,
      "step": 440010
    },
    {
      "epoch": 0.9167083333333333,
      "grad_norm": 2.9385876655578613,
      "learning_rate": 5.148616562982305e-06,
      "loss": 3.3475,
      "step": 440020
    },
    {
      "epoch": 0.9167291666666667,
      "grad_norm": 3.2697157859802246,
      "learning_rate": 5.146056116079888e-06,
      "loss": 3.5338,
      "step": 440030
    },
    {
      "epoch": 0.91675,
      "grad_norm": 2.929196357727051,
      "learning_rate": 5.1434962948892045e-06,
      "loss": 3.2688,
      "step": 440040
    },
    {
      "epoch": 0.9167708333333333,
      "grad_norm": 4.321512699127197,
      "learning_rate": 5.140937099421227e-06,
      "loss": 3.3562,
      "step": 440050
    },
    {
      "epoch": 0.9167916666666667,
      "grad_norm": 3.2681379318237305,
      "learning_rate": 5.138378529687082e-06,
      "loss": 3.4227,
      "step": 440060
    },
    {
      "epoch": 0.9168125,
      "grad_norm": 2.936516046524048,
      "learning_rate": 5.135820585697825e-06,
      "loss": 3.3143,
      "step": 440070
    },
    {
      "epoch": 0.9168333333333333,
      "grad_norm": 2.9245896339416504,
      "learning_rate": 5.133263267464449e-06,
      "loss": 3.4585,
      "step": 440080
    },
    {
      "epoch": 0.9168541666666666,
      "grad_norm": 3.380262613296509,
      "learning_rate": 5.130706574998045e-06,
      "loss": 3.3782,
      "step": 440090
    },
    {
      "epoch": 0.916875,
      "grad_norm": 3.869612693786621,
      "learning_rate": 5.12815050830967e-06,
      "loss": 3.5246,
      "step": 440100
    },
    {
      "epoch": 0.9168958333333334,
      "grad_norm": 3.535597324371338,
      "learning_rate": 5.125595067410298e-06,
      "loss": 3.2744,
      "step": 440110
    },
    {
      "epoch": 0.9169166666666667,
      "grad_norm": 3.687530755996704,
      "learning_rate": 5.12304025231104e-06,
      "loss": 3.4724,
      "step": 440120
    },
    {
      "epoch": 0.9169375,
      "grad_norm": 3.326201915740967,
      "learning_rate": 5.1204860630229e-06,
      "loss": 3.4253,
      "step": 440130
    },
    {
      "epoch": 0.9169583333333333,
      "grad_norm": 2.822129011154175,
      "learning_rate": 5.117932499556904e-06,
      "loss": 3.3851,
      "step": 440140
    },
    {
      "epoch": 0.9169791666666667,
      "grad_norm": 2.470669746398926,
      "learning_rate": 5.1153795619240766e-06,
      "loss": 3.3097,
      "step": 440150
    },
    {
      "epoch": 0.917,
      "grad_norm": 3.5468862056732178,
      "learning_rate": 5.112827250135493e-06,
      "loss": 3.463,
      "step": 440160
    },
    {
      "epoch": 0.9170208333333333,
      "grad_norm": 3.1742911338806152,
      "learning_rate": 5.1102755642021265e-06,
      "loss": 3.4443,
      "step": 440170
    },
    {
      "epoch": 0.9170416666666666,
      "grad_norm": 4.177566051483154,
      "learning_rate": 5.107724504135019e-06,
      "loss": 3.4617,
      "step": 440180
    },
    {
      "epoch": 0.9170625,
      "grad_norm": 2.771538496017456,
      "learning_rate": 5.1051740699451944e-06,
      "loss": 3.4662,
      "step": 440190
    },
    {
      "epoch": 0.9170833333333334,
      "grad_norm": 3.0797035694122314,
      "learning_rate": 5.102624261643662e-06,
      "loss": 3.4585,
      "step": 440200
    },
    {
      "epoch": 0.9171041666666667,
      "grad_norm": 3.6047439575195312,
      "learning_rate": 5.100075079241428e-06,
      "loss": 3.4749,
      "step": 440210
    },
    {
      "epoch": 0.917125,
      "grad_norm": 2.932110548019409,
      "learning_rate": 5.0975265227495346e-06,
      "loss": 3.4032,
      "step": 440220
    },
    {
      "epoch": 0.9171458333333333,
      "grad_norm": 3.745457410812378,
      "learning_rate": 5.094978592178956e-06,
      "loss": 3.3767,
      "step": 440230
    },
    {
      "epoch": 0.9171666666666667,
      "grad_norm": 2.5428521633148193,
      "learning_rate": 5.092431287540716e-06,
      "loss": 3.4513,
      "step": 440240
    },
    {
      "epoch": 0.9171875,
      "grad_norm": 2.881101608276367,
      "learning_rate": 5.089884608845807e-06,
      "loss": 3.4669,
      "step": 440250
    },
    {
      "epoch": 0.9172083333333333,
      "grad_norm": 3.405202627182007,
      "learning_rate": 5.087338556105252e-06,
      "loss": 3.5236,
      "step": 440260
    },
    {
      "epoch": 0.9172291666666667,
      "grad_norm": 3.642026424407959,
      "learning_rate": 5.084793129330028e-06,
      "loss": 3.414,
      "step": 440270
    },
    {
      "epoch": 0.91725,
      "grad_norm": 2.9288511276245117,
      "learning_rate": 5.082248328531125e-06,
      "loss": 3.463,
      "step": 440280
    },
    {
      "epoch": 0.9172708333333334,
      "grad_norm": 2.885699987411499,
      "learning_rate": 5.079704153719566e-06,
      "loss": 3.43,
      "step": 440290
    },
    {
      "epoch": 0.9172916666666666,
      "grad_norm": 2.800384044647217,
      "learning_rate": 5.077160604906311e-06,
      "loss": 3.434,
      "step": 440300
    },
    {
      "epoch": 0.9173125,
      "grad_norm": 2.900188684463501,
      "learning_rate": 5.07461768210235e-06,
      "loss": 3.4438,
      "step": 440310
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 2.8068690299987793,
      "learning_rate": 5.072075385318691e-06,
      "loss": 3.3338,
      "step": 440320
    },
    {
      "epoch": 0.9173541666666667,
      "grad_norm": 3.260255813598633,
      "learning_rate": 5.069533714566293e-06,
      "loss": 3.429,
      "step": 440330
    },
    {
      "epoch": 0.917375,
      "grad_norm": 2.3871846199035645,
      "learning_rate": 5.06699266985613e-06,
      "loss": 3.4807,
      "step": 440340
    },
    {
      "epoch": 0.9173958333333333,
      "grad_norm": 3.4145731925964355,
      "learning_rate": 5.064452251199208e-06,
      "loss": 3.4298,
      "step": 440350
    },
    {
      "epoch": 0.9174166666666667,
      "grad_norm": 2.7352635860443115,
      "learning_rate": 5.06191245860647e-06,
      "loss": 3.4611,
      "step": 440360
    },
    {
      "epoch": 0.9174375,
      "grad_norm": 2.5289459228515625,
      "learning_rate": 5.059373292088908e-06,
      "loss": 3.4655,
      "step": 440370
    },
    {
      "epoch": 0.9174583333333334,
      "grad_norm": 2.9967572689056396,
      "learning_rate": 5.056834751657479e-06,
      "loss": 3.508,
      "step": 440380
    },
    {
      "epoch": 0.9174791666666666,
      "grad_norm": 2.6422150135040283,
      "learning_rate": 5.054296837323158e-06,
      "loss": 3.5,
      "step": 440390
    },
    {
      "epoch": 0.9175,
      "grad_norm": 3.1600232124328613,
      "learning_rate": 5.051759549096901e-06,
      "loss": 3.5197,
      "step": 440400
    },
    {
      "epoch": 0.9175208333333333,
      "grad_norm": 3.0470523834228516,
      "learning_rate": 5.049222886989651e-06,
      "loss": 3.2571,
      "step": 440410
    },
    {
      "epoch": 0.9175416666666667,
      "grad_norm": 3.1652841567993164,
      "learning_rate": 5.046686851012416e-06,
      "loss": 3.4536,
      "step": 440420
    },
    {
      "epoch": 0.9175625,
      "grad_norm": 3.183603525161743,
      "learning_rate": 5.0441514411760866e-06,
      "loss": 3.3449,
      "step": 440430
    },
    {
      "epoch": 0.9175833333333333,
      "grad_norm": 2.910615921020508,
      "learning_rate": 5.04161665749167e-06,
      "loss": 3.3667,
      "step": 440440
    },
    {
      "epoch": 0.9176041666666667,
      "grad_norm": 4.582150936126709,
      "learning_rate": 5.039082499970076e-06,
      "loss": 3.5512,
      "step": 440450
    },
    {
      "epoch": 0.917625,
      "grad_norm": 3.102274179458618,
      "learning_rate": 5.0365489686222445e-06,
      "loss": 3.4,
      "step": 440460
    },
    {
      "epoch": 0.9176458333333334,
      "grad_norm": 3.659475803375244,
      "learning_rate": 5.034016063459184e-06,
      "loss": 3.5189,
      "step": 440470
    },
    {
      "epoch": 0.9176666666666666,
      "grad_norm": 3.6907713413238525,
      "learning_rate": 5.031483784491769e-06,
      "loss": 3.383,
      "step": 440480
    },
    {
      "epoch": 0.9176875,
      "grad_norm": 3.657365083694458,
      "learning_rate": 5.02895213173094e-06,
      "loss": 3.2188,
      "step": 440490
    },
    {
      "epoch": 0.9177083333333333,
      "grad_norm": 2.9374876022338867,
      "learning_rate": 5.0264211051876894e-06,
      "loss": 3.5559,
      "step": 440500
    },
    {
      "epoch": 0.9177291666666667,
      "grad_norm": 3.641242265701294,
      "learning_rate": 5.023890704872907e-06,
      "loss": 3.6232,
      "step": 440510
    },
    {
      "epoch": 0.91775,
      "grad_norm": 3.374277353286743,
      "learning_rate": 5.021360930797519e-06,
      "loss": 3.4312,
      "step": 440520
    },
    {
      "epoch": 0.9177708333333333,
      "grad_norm": 2.3531153202056885,
      "learning_rate": 5.018831782972482e-06,
      "loss": 3.4664,
      "step": 440530
    },
    {
      "epoch": 0.9177916666666667,
      "grad_norm": 2.8236279487609863,
      "learning_rate": 5.016303261408705e-06,
      "loss": 3.5544,
      "step": 440540
    },
    {
      "epoch": 0.9178125,
      "grad_norm": 3.5357630252838135,
      "learning_rate": 5.0137753661170955e-06,
      "loss": 3.3833,
      "step": 440550
    },
    {
      "epoch": 0.9178333333333333,
      "grad_norm": 4.1027092933654785,
      "learning_rate": 5.0112480971085946e-06,
      "loss": 3.6114,
      "step": 440560
    },
    {
      "epoch": 0.9178541666666666,
      "grad_norm": 2.9572982788085938,
      "learning_rate": 5.008721454394093e-06,
      "loss": 3.4606,
      "step": 440570
    },
    {
      "epoch": 0.917875,
      "grad_norm": 3.0843653678894043,
      "learning_rate": 5.00619543798455e-06,
      "loss": 3.3635,
      "step": 440580
    },
    {
      "epoch": 0.9178958333333334,
      "grad_norm": 4.580012798309326,
      "learning_rate": 5.00367004789084e-06,
      "loss": 3.4395,
      "step": 440590
    },
    {
      "epoch": 0.9179166666666667,
      "grad_norm": 3.4389655590057373,
      "learning_rate": 5.00114528412387e-06,
      "loss": 3.4075,
      "step": 440600
    },
    {
      "epoch": 0.9179375,
      "grad_norm": 2.7860159873962402,
      "learning_rate": 4.9986211466945816e-06,
      "loss": 3.2973,
      "step": 440610
    },
    {
      "epoch": 0.9179583333333333,
      "grad_norm": 2.9911415576934814,
      "learning_rate": 4.996097635613832e-06,
      "loss": 3.5342,
      "step": 440620
    },
    {
      "epoch": 0.9179791666666667,
      "grad_norm": 3.380317211151123,
      "learning_rate": 4.993574750892548e-06,
      "loss": 3.4793,
      "step": 440630
    },
    {
      "epoch": 0.918,
      "grad_norm": 3.029226303100586,
      "learning_rate": 4.9910524925416365e-06,
      "loss": 3.3594,
      "step": 440640
    },
    {
      "epoch": 0.9180208333333333,
      "grad_norm": 3.2471046447753906,
      "learning_rate": 4.988530860571971e-06,
      "loss": 3.3955,
      "step": 440650
    },
    {
      "epoch": 0.9180416666666666,
      "grad_norm": 2.8776609897613525,
      "learning_rate": 4.9860098549944605e-06,
      "loss": 3.5292,
      "step": 440660
    },
    {
      "epoch": 0.9180625,
      "grad_norm": 3.5387814044952393,
      "learning_rate": 4.983489475819979e-06,
      "loss": 3.5014,
      "step": 440670
    },
    {
      "epoch": 0.9180833333333334,
      "grad_norm": 3.32473087310791,
      "learning_rate": 4.980969723059419e-06,
      "loss": 3.5452,
      "step": 440680
    },
    {
      "epoch": 0.9181041666666667,
      "grad_norm": 3.4027626514434814,
      "learning_rate": 4.978450596723671e-06,
      "loss": 3.3933,
      "step": 440690
    },
    {
      "epoch": 0.918125,
      "grad_norm": 3.743701696395874,
      "learning_rate": 4.9759320968236096e-06,
      "loss": 3.4182,
      "step": 440700
    },
    {
      "epoch": 0.9181458333333333,
      "grad_norm": 3.50959849357605,
      "learning_rate": 4.973414223370126e-06,
      "loss": 3.4376,
      "step": 440710
    },
    {
      "epoch": 0.9181666666666667,
      "grad_norm": 3.6948177814483643,
      "learning_rate": 4.970896976374078e-06,
      "loss": 3.3639,
      "step": 440720
    },
    {
      "epoch": 0.9181875,
      "grad_norm": 3.888699769973755,
      "learning_rate": 4.968380355846358e-06,
      "loss": 3.4397,
      "step": 440730
    },
    {
      "epoch": 0.9182083333333333,
      "grad_norm": 2.770277976989746,
      "learning_rate": 4.965864361797806e-06,
      "loss": 3.5254,
      "step": 440740
    },
    {
      "epoch": 0.9182291666666667,
      "grad_norm": 3.0942845344543457,
      "learning_rate": 4.96334899423933e-06,
      "loss": 3.5788,
      "step": 440750
    },
    {
      "epoch": 0.91825,
      "grad_norm": 2.6475138664245605,
      "learning_rate": 4.960834253181789e-06,
      "loss": 3.4324,
      "step": 440760
    },
    {
      "epoch": 0.9182708333333334,
      "grad_norm": 2.920916795730591,
      "learning_rate": 4.958320138636007e-06,
      "loss": 3.7372,
      "step": 440770
    },
    {
      "epoch": 0.9182916666666666,
      "grad_norm": 2.8763561248779297,
      "learning_rate": 4.955806650612876e-06,
      "loss": 3.409,
      "step": 440780
    },
    {
      "epoch": 0.9183125,
      "grad_norm": 3.059722900390625,
      "learning_rate": 4.9532937891232694e-06,
      "loss": 3.3311,
      "step": 440790
    },
    {
      "epoch": 0.9183333333333333,
      "grad_norm": 3.0058937072753906,
      "learning_rate": 4.950781554177996e-06,
      "loss": 3.3981,
      "step": 440800
    },
    {
      "epoch": 0.9183541666666667,
      "grad_norm": 4.160561561584473,
      "learning_rate": 4.948269945787947e-06,
      "loss": 3.5177,
      "step": 440810
    },
    {
      "epoch": 0.918375,
      "grad_norm": 3.018643856048584,
      "learning_rate": 4.945758963963964e-06,
      "loss": 3.4267,
      "step": 440820
    },
    {
      "epoch": 0.9183958333333333,
      "grad_norm": 3.00238037109375,
      "learning_rate": 4.943248608716855e-06,
      "loss": 3.3956,
      "step": 440830
    },
    {
      "epoch": 0.9184166666666667,
      "grad_norm": 2.6236486434936523,
      "learning_rate": 4.940738880057527e-06,
      "loss": 3.205,
      "step": 440840
    },
    {
      "epoch": 0.9184375,
      "grad_norm": 2.9337103366851807,
      "learning_rate": 4.938229777996772e-06,
      "loss": 3.5244,
      "step": 440850
    },
    {
      "epoch": 0.9184583333333334,
      "grad_norm": 2.809375286102295,
      "learning_rate": 4.935721302545414e-06,
      "loss": 3.4612,
      "step": 440860
    },
    {
      "epoch": 0.9184791666666666,
      "grad_norm": 2.838536500930786,
      "learning_rate": 4.93321345371438e-06,
      "loss": 3.5752,
      "step": 440870
    },
    {
      "epoch": 0.9185,
      "grad_norm": 3.1813292503356934,
      "learning_rate": 4.9307062315144085e-06,
      "loss": 3.5136,
      "step": 440880
    },
    {
      "epoch": 0.9185208333333333,
      "grad_norm": 2.683497428894043,
      "learning_rate": 4.928199635956359e-06,
      "loss": 3.4894,
      "step": 440890
    },
    {
      "epoch": 0.9185416666666667,
      "grad_norm": 2.9366466999053955,
      "learning_rate": 4.92569366705109e-06,
      "loss": 3.5057,
      "step": 440900
    },
    {
      "epoch": 0.9185625,
      "grad_norm": 3.197781801223755,
      "learning_rate": 4.923188324809374e-06,
      "loss": 3.4505,
      "step": 440910
    },
    {
      "epoch": 0.9185833333333333,
      "grad_norm": 3.2312445640563965,
      "learning_rate": 4.920683609242054e-06,
      "loss": 3.3573,
      "step": 440920
    },
    {
      "epoch": 0.9186041666666667,
      "grad_norm": 3.4030075073242188,
      "learning_rate": 4.918179520359988e-06,
      "loss": 3.3451,
      "step": 440930
    },
    {
      "epoch": 0.918625,
      "grad_norm": 2.567737340927124,
      "learning_rate": 4.915676058173934e-06,
      "loss": 3.4867,
      "step": 440940
    },
    {
      "epoch": 0.9186458333333334,
      "grad_norm": 3.4455885887145996,
      "learning_rate": 4.9131732226947325e-06,
      "loss": 3.4215,
      "step": 440950
    },
    {
      "epoch": 0.9186666666666666,
      "grad_norm": 3.3053486347198486,
      "learning_rate": 4.910671013933209e-06,
      "loss": 3.3388,
      "step": 440960
    },
    {
      "epoch": 0.9186875,
      "grad_norm": 3.016756057739258,
      "learning_rate": 4.908169431900138e-06,
      "loss": 3.3572,
      "step": 440970
    },
    {
      "epoch": 0.9187083333333333,
      "grad_norm": 2.7992498874664307,
      "learning_rate": 4.905668476606345e-06,
      "loss": 3.4805,
      "step": 440980
    },
    {
      "epoch": 0.9187291666666667,
      "grad_norm": 3.594355583190918,
      "learning_rate": 4.9031681480626525e-06,
      "loss": 3.4317,
      "step": 440990
    },
    {
      "epoch": 0.91875,
      "grad_norm": 2.797607183456421,
      "learning_rate": 4.90066844627982e-06,
      "loss": 3.492,
      "step": 441000
    },
    {
      "epoch": 0.91875,
      "eval_loss": 3.5193164348602295,
      "eval_runtime": 7.2678,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 441000
    },
    {
      "epoch": 0.9187708333333333,
      "grad_norm": 2.543814182281494,
      "learning_rate": 4.898169371268673e-06,
      "loss": 3.5206,
      "step": 441010
    },
    {
      "epoch": 0.9187916666666667,
      "grad_norm": 3.5034031867980957,
      "learning_rate": 4.895670923039985e-06,
      "loss": 3.3303,
      "step": 441020
    },
    {
      "epoch": 0.9188125,
      "grad_norm": 3.0663654804229736,
      "learning_rate": 4.8931731016045805e-06,
      "loss": 3.3476,
      "step": 441030
    },
    {
      "epoch": 0.9188333333333333,
      "grad_norm": 3.80094051361084,
      "learning_rate": 4.890675906973235e-06,
      "loss": 3.3992,
      "step": 441040
    },
    {
      "epoch": 0.9188541666666666,
      "grad_norm": 3.119100332260132,
      "learning_rate": 4.888179339156706e-06,
      "loss": 3.4465,
      "step": 441050
    },
    {
      "epoch": 0.918875,
      "grad_norm": 2.5969269275665283,
      "learning_rate": 4.885683398165818e-06,
      "loss": 3.3547,
      "step": 441060
    },
    {
      "epoch": 0.9188958333333334,
      "grad_norm": 3.103660821914673,
      "learning_rate": 4.8831880840113634e-06,
      "loss": 3.481,
      "step": 441070
    },
    {
      "epoch": 0.9189166666666667,
      "grad_norm": 2.7304720878601074,
      "learning_rate": 4.8806933967040494e-06,
      "loss": 3.3939,
      "step": 441080
    },
    {
      "epoch": 0.9189375,
      "grad_norm": 2.549919605255127,
      "learning_rate": 4.8781993362547175e-06,
      "loss": 3.502,
      "step": 441090
    },
    {
      "epoch": 0.9189583333333333,
      "grad_norm": 2.6270389556884766,
      "learning_rate": 4.875705902674143e-06,
      "loss": 3.457,
      "step": 441100
    },
    {
      "epoch": 0.9189791666666667,
      "grad_norm": 3.6385836601257324,
      "learning_rate": 4.873213095973033e-06,
      "loss": 3.4359,
      "step": 441110
    },
    {
      "epoch": 0.919,
      "grad_norm": 3.634467363357544,
      "learning_rate": 4.870720916162213e-06,
      "loss": 3.4068,
      "step": 441120
    },
    {
      "epoch": 0.9190208333333333,
      "grad_norm": 2.806973934173584,
      "learning_rate": 4.8682293632524575e-06,
      "loss": 3.5513,
      "step": 441130
    },
    {
      "epoch": 0.9190416666666666,
      "grad_norm": 3.4804210662841797,
      "learning_rate": 4.8657384372544574e-06,
      "loss": 3.5535,
      "step": 441140
    },
    {
      "epoch": 0.9190625,
      "grad_norm": 2.983880043029785,
      "learning_rate": 4.8632481381790545e-06,
      "loss": 3.475,
      "step": 441150
    },
    {
      "epoch": 0.9190833333333334,
      "grad_norm": 3.2726094722747803,
      "learning_rate": 4.860758466036974e-06,
      "loss": 3.5609,
      "step": 441160
    },
    {
      "epoch": 0.9191041666666667,
      "grad_norm": 2.4702415466308594,
      "learning_rate": 4.85826942083894e-06,
      "loss": 3.378,
      "step": 441170
    },
    {
      "epoch": 0.919125,
      "grad_norm": 3.078002691268921,
      "learning_rate": 4.85578100259576e-06,
      "loss": 3.4475,
      "step": 441180
    },
    {
      "epoch": 0.9191458333333333,
      "grad_norm": 2.8593220710754395,
      "learning_rate": 4.853293211318144e-06,
      "loss": 3.4527,
      "step": 441190
    },
    {
      "epoch": 0.9191666666666667,
      "grad_norm": 3.4561679363250732,
      "learning_rate": 4.850806047016814e-06,
      "loss": 3.493,
      "step": 441200
    },
    {
      "epoch": 0.9191875,
      "grad_norm": 3.4137887954711914,
      "learning_rate": 4.848319509702597e-06,
      "loss": 3.4127,
      "step": 441210
    },
    {
      "epoch": 0.9192083333333333,
      "grad_norm": 3.182528495788574,
      "learning_rate": 4.845833599386167e-06,
      "loss": 3.5262,
      "step": 441220
    },
    {
      "epoch": 0.9192291666666667,
      "grad_norm": 2.8433103561401367,
      "learning_rate": 4.843348316078266e-06,
      "loss": 3.6389,
      "step": 441230
    },
    {
      "epoch": 0.91925,
      "grad_norm": 2.6759798526763916,
      "learning_rate": 4.840863659789668e-06,
      "loss": 3.327,
      "step": 441240
    },
    {
      "epoch": 0.9192708333333334,
      "grad_norm": 5.860149383544922,
      "learning_rate": 4.838379630531064e-06,
      "loss": 3.5163,
      "step": 441250
    },
    {
      "epoch": 0.9192916666666666,
      "grad_norm": 2.9877774715423584,
      "learning_rate": 4.835896228313196e-06,
      "loss": 3.4344,
      "step": 441260
    },
    {
      "epoch": 0.9193125,
      "grad_norm": 3.082160234451294,
      "learning_rate": 4.833413453146823e-06,
      "loss": 3.4935,
      "step": 441270
    },
    {
      "epoch": 0.9193333333333333,
      "grad_norm": 2.6185226440429688,
      "learning_rate": 4.830931305042618e-06,
      "loss": 3.3511,
      "step": 441280
    },
    {
      "epoch": 0.9193541666666667,
      "grad_norm": 2.897066354751587,
      "learning_rate": 4.8284497840113235e-06,
      "loss": 3.4983,
      "step": 441290
    },
    {
      "epoch": 0.919375,
      "grad_norm": 2.694516181945801,
      "learning_rate": 4.82596889006368e-06,
      "loss": 3.3668,
      "step": 441300
    },
    {
      "epoch": 0.9193958333333333,
      "grad_norm": 3.22678542137146,
      "learning_rate": 4.8234886232103975e-06,
      "loss": 3.3681,
      "step": 441310
    },
    {
      "epoch": 0.9194166666666667,
      "grad_norm": 3.2939248085021973,
      "learning_rate": 4.821008983462149e-06,
      "loss": 3.5108,
      "step": 441320
    },
    {
      "epoch": 0.9194375,
      "grad_norm": 2.942556858062744,
      "learning_rate": 4.818529970829693e-06,
      "loss": 3.4552,
      "step": 441330
    },
    {
      "epoch": 0.9194583333333334,
      "grad_norm": 2.5147125720977783,
      "learning_rate": 4.816051585323721e-06,
      "loss": 3.5221,
      "step": 441340
    },
    {
      "epoch": 0.9194791666666666,
      "grad_norm": 2.9584245681762695,
      "learning_rate": 4.813573826954942e-06,
      "loss": 3.4154,
      "step": 441350
    },
    {
      "epoch": 0.9195,
      "grad_norm": 3.1940133571624756,
      "learning_rate": 4.8110966957340455e-06,
      "loss": 3.4431,
      "step": 441360
    },
    {
      "epoch": 0.9195208333333333,
      "grad_norm": 2.7236459255218506,
      "learning_rate": 4.808620191671741e-06,
      "loss": 3.441,
      "step": 441370
    },
    {
      "epoch": 0.9195416666666667,
      "grad_norm": 3.1475441455841064,
      "learning_rate": 4.806144314778737e-06,
      "loss": 3.3629,
      "step": 441380
    },
    {
      "epoch": 0.9195625,
      "grad_norm": 3.7318763732910156,
      "learning_rate": 4.803669065065707e-06,
      "loss": 3.4083,
      "step": 441390
    },
    {
      "epoch": 0.9195833333333333,
      "grad_norm": 3.422628164291382,
      "learning_rate": 4.8011944425433605e-06,
      "loss": 3.5738,
      "step": 441400
    },
    {
      "epoch": 0.9196041666666667,
      "grad_norm": 4.069207191467285,
      "learning_rate": 4.79872044722237e-06,
      "loss": 3.2912,
      "step": 441410
    },
    {
      "epoch": 0.919625,
      "grad_norm": 3.1926867961883545,
      "learning_rate": 4.796247079113447e-06,
      "loss": 3.6488,
      "step": 441420
    },
    {
      "epoch": 0.9196458333333334,
      "grad_norm": 2.722252130508423,
      "learning_rate": 4.793774338227247e-06,
      "loss": 3.5762,
      "step": 441430
    },
    {
      "epoch": 0.9196666666666666,
      "grad_norm": 3.867017984390259,
      "learning_rate": 4.791302224574495e-06,
      "loss": 3.6166,
      "step": 441440
    },
    {
      "epoch": 0.9196875,
      "grad_norm": 2.9367785453796387,
      "learning_rate": 4.7888307381658e-06,
      "loss": 3.5182,
      "step": 441450
    },
    {
      "epoch": 0.9197083333333333,
      "grad_norm": 2.9358127117156982,
      "learning_rate": 4.786359879011886e-06,
      "loss": 3.4386,
      "step": 441460
    },
    {
      "epoch": 0.9197291666666667,
      "grad_norm": 2.816422939300537,
      "learning_rate": 4.783889647123445e-06,
      "loss": 3.4103,
      "step": 441470
    },
    {
      "epoch": 0.91975,
      "grad_norm": 2.822044849395752,
      "learning_rate": 4.781420042511086e-06,
      "loss": 3.4179,
      "step": 441480
    },
    {
      "epoch": 0.9197708333333333,
      "grad_norm": 2.751897096633911,
      "learning_rate": 4.7789510651855326e-06,
      "loss": 3.3532,
      "step": 441490
    },
    {
      "epoch": 0.9197916666666667,
      "grad_norm": 2.7434945106506348,
      "learning_rate": 4.776482715157442e-06,
      "loss": 3.4643,
      "step": 441500
    },
    {
      "epoch": 0.9198125,
      "grad_norm": 3.085057020187378,
      "learning_rate": 4.774014992437425e-06,
      "loss": 3.4894,
      "step": 441510
    },
    {
      "epoch": 0.9198333333333333,
      "grad_norm": 2.7861063480377197,
      "learning_rate": 4.771547897036187e-06,
      "loss": 3.3645,
      "step": 441520
    },
    {
      "epoch": 0.9198541666666666,
      "grad_norm": 2.7075047492980957,
      "learning_rate": 4.769081428964405e-06,
      "loss": 3.5739,
      "step": 441530
    },
    {
      "epoch": 0.919875,
      "grad_norm": 2.569472312927246,
      "learning_rate": 4.766615588232669e-06,
      "loss": 3.4863,
      "step": 441540
    },
    {
      "epoch": 0.9198958333333334,
      "grad_norm": 2.7263617515563965,
      "learning_rate": 4.764150374851705e-06,
      "loss": 3.4374,
      "step": 441550
    },
    {
      "epoch": 0.9199166666666667,
      "grad_norm": 2.7430872917175293,
      "learning_rate": 4.761685788832103e-06,
      "loss": 3.3575,
      "step": 441560
    },
    {
      "epoch": 0.9199375,
      "grad_norm": 2.4881064891815186,
      "learning_rate": 4.7592218301845065e-06,
      "loss": 3.4086,
      "step": 441570
    },
    {
      "epoch": 0.9199583333333333,
      "grad_norm": 2.517847776412964,
      "learning_rate": 4.756758498919622e-06,
      "loss": 3.4971,
      "step": 441580
    },
    {
      "epoch": 0.9199791666666667,
      "grad_norm": 2.6563451290130615,
      "learning_rate": 4.754295795048024e-06,
      "loss": 3.4431,
      "step": 441590
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.845294237136841,
      "learning_rate": 4.751833718580389e-06,
      "loss": 3.4367,
      "step": 441600
    },
    {
      "epoch": 0.9200208333333333,
      "grad_norm": 3.270131826400757,
      "learning_rate": 4.749372269527324e-06,
      "loss": 3.3726,
      "step": 441610
    },
    {
      "epoch": 0.9200416666666666,
      "grad_norm": 3.164234161376953,
      "learning_rate": 4.746911447899487e-06,
      "loss": 3.4906,
      "step": 441620
    },
    {
      "epoch": 0.9200625,
      "grad_norm": 4.16579532623291,
      "learning_rate": 4.744451253707504e-06,
      "loss": 3.5238,
      "step": 441630
    },
    {
      "epoch": 0.9200833333333334,
      "grad_norm": 3.1607601642608643,
      "learning_rate": 4.741991686961982e-06,
      "loss": 3.2867,
      "step": 441640
    },
    {
      "epoch": 0.9201041666666666,
      "grad_norm": 3.049004316329956,
      "learning_rate": 4.7395327476735636e-06,
      "loss": 3.3201,
      "step": 441650
    },
    {
      "epoch": 0.920125,
      "grad_norm": 3.7642810344696045,
      "learning_rate": 4.737074435852872e-06,
      "loss": 3.486,
      "step": 441660
    },
    {
      "epoch": 0.9201458333333333,
      "grad_norm": 3.557427167892456,
      "learning_rate": 4.734616751510501e-06,
      "loss": 3.4505,
      "step": 441670
    },
    {
      "epoch": 0.9201666666666667,
      "grad_norm": 2.689589500427246,
      "learning_rate": 4.732159694657106e-06,
      "loss": 3.3945,
      "step": 441680
    },
    {
      "epoch": 0.9201875,
      "grad_norm": 2.8484325408935547,
      "learning_rate": 4.729703265303264e-06,
      "loss": 3.5376,
      "step": 441690
    },
    {
      "epoch": 0.9202083333333333,
      "grad_norm": 2.700350046157837,
      "learning_rate": 4.7272474634596155e-06,
      "loss": 3.3158,
      "step": 441700
    },
    {
      "epoch": 0.9202291666666667,
      "grad_norm": 2.959763288497925,
      "learning_rate": 4.724792289136753e-06,
      "loss": 3.4947,
      "step": 441710
    },
    {
      "epoch": 0.92025,
      "grad_norm": 5.6276984214782715,
      "learning_rate": 4.722337742345283e-06,
      "loss": 3.4509,
      "step": 441720
    },
    {
      "epoch": 0.9202708333333334,
      "grad_norm": 2.5716328620910645,
      "learning_rate": 4.719883823095799e-06,
      "loss": 3.3303,
      "step": 441730
    },
    {
      "epoch": 0.9202916666666666,
      "grad_norm": 2.7892181873321533,
      "learning_rate": 4.717430531398924e-06,
      "loss": 3.4577,
      "step": 441740
    },
    {
      "epoch": 0.9203125,
      "grad_norm": 3.458162546157837,
      "learning_rate": 4.714977867265235e-06,
      "loss": 3.3213,
      "step": 441750
    },
    {
      "epoch": 0.9203333333333333,
      "grad_norm": 2.471011161804199,
      "learning_rate": 4.712525830705338e-06,
      "loss": 3.3089,
      "step": 441760
    },
    {
      "epoch": 0.9203541666666667,
      "grad_norm": 4.069257736206055,
      "learning_rate": 4.710074421729809e-06,
      "loss": 3.5355,
      "step": 441770
    },
    {
      "epoch": 0.920375,
      "grad_norm": 2.9820315837860107,
      "learning_rate": 4.707623640349256e-06,
      "loss": 3.5744,
      "step": 441780
    },
    {
      "epoch": 0.9203958333333333,
      "grad_norm": 2.20776104927063,
      "learning_rate": 4.705173486574271e-06,
      "loss": 3.293,
      "step": 441790
    },
    {
      "epoch": 0.9204166666666667,
      "grad_norm": 2.7120699882507324,
      "learning_rate": 4.702723960415411e-06,
      "loss": 3.4765,
      "step": 441800
    },
    {
      "epoch": 0.9204375,
      "grad_norm": 3.2806947231292725,
      "learning_rate": 4.700275061883285e-06,
      "loss": 3.3786,
      "step": 441810
    },
    {
      "epoch": 0.9204583333333334,
      "grad_norm": 2.8298003673553467,
      "learning_rate": 4.697826790988435e-06,
      "loss": 3.4289,
      "step": 441820
    },
    {
      "epoch": 0.9204791666666666,
      "grad_norm": 3.1638314723968506,
      "learning_rate": 4.695379147741468e-06,
      "loss": 3.4529,
      "step": 441830
    },
    {
      "epoch": 0.9205,
      "grad_norm": 3.440889596939087,
      "learning_rate": 4.69293213215296e-06,
      "loss": 3.3989,
      "step": 441840
    },
    {
      "epoch": 0.9205208333333333,
      "grad_norm": 2.9808716773986816,
      "learning_rate": 4.690485744233452e-06,
      "loss": 3.4498,
      "step": 441850
    },
    {
      "epoch": 0.9205416666666667,
      "grad_norm": 3.4546873569488525,
      "learning_rate": 4.688039983993519e-06,
      "loss": 3.3735,
      "step": 441860
    },
    {
      "epoch": 0.9205625,
      "grad_norm": 2.939120292663574,
      "learning_rate": 4.685594851443769e-06,
      "loss": 3.3649,
      "step": 441870
    },
    {
      "epoch": 0.9205833333333333,
      "grad_norm": 4.224029064178467,
      "learning_rate": 4.683150346594694e-06,
      "loss": 3.6717,
      "step": 441880
    },
    {
      "epoch": 0.9206041666666667,
      "grad_norm": 4.174050331115723,
      "learning_rate": 4.680706469456902e-06,
      "loss": 3.3344,
      "step": 441890
    },
    {
      "epoch": 0.920625,
      "grad_norm": 2.8127851486206055,
      "learning_rate": 4.678263220040967e-06,
      "loss": 3.4845,
      "step": 441900
    },
    {
      "epoch": 0.9206458333333334,
      "grad_norm": 4.042973041534424,
      "learning_rate": 4.675820598357382e-06,
      "loss": 3.3836,
      "step": 441910
    },
    {
      "epoch": 0.9206666666666666,
      "grad_norm": 2.8897104263305664,
      "learning_rate": 4.673378604416722e-06,
      "loss": 3.3083,
      "step": 441920
    },
    {
      "epoch": 0.9206875,
      "grad_norm": 2.8270232677459717,
      "learning_rate": 4.6709372382295606e-06,
      "loss": 3.4577,
      "step": 441930
    },
    {
      "epoch": 0.9207083333333334,
      "grad_norm": 3.6568443775177,
      "learning_rate": 4.668496499806423e-06,
      "loss": 3.4158,
      "step": 441940
    },
    {
      "epoch": 0.9207291666666667,
      "grad_norm": 2.8454675674438477,
      "learning_rate": 4.6660563891578516e-06,
      "loss": 3.3495,
      "step": 441950
    },
    {
      "epoch": 0.92075,
      "grad_norm": 2.999910593032837,
      "learning_rate": 4.663616906294371e-06,
      "loss": 3.4724,
      "step": 441960
    },
    {
      "epoch": 0.9207708333333333,
      "grad_norm": 3.384352922439575,
      "learning_rate": 4.661178051226555e-06,
      "loss": 3.351,
      "step": 441970
    },
    {
      "epoch": 0.9207916666666667,
      "grad_norm": 2.5643651485443115,
      "learning_rate": 4.65873982396493e-06,
      "loss": 3.5618,
      "step": 441980
    },
    {
      "epoch": 0.9208125,
      "grad_norm": 2.710587501525879,
      "learning_rate": 4.656302224520003e-06,
      "loss": 3.3784,
      "step": 441990
    },
    {
      "epoch": 0.9208333333333333,
      "grad_norm": 3.524747610092163,
      "learning_rate": 4.6538652529023164e-06,
      "loss": 3.4363,
      "step": 442000
    },
    {
      "epoch": 0.9208333333333333,
      "eval_loss": 3.520505428314209,
      "eval_runtime": 7.3477,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 442000
    },
    {
      "epoch": 0.9208541666666666,
      "grad_norm": 2.5070362091064453,
      "learning_rate": 4.651428909122412e-06,
      "loss": 3.4521,
      "step": 442010
    },
    {
      "epoch": 0.920875,
      "grad_norm": 3.8452694416046143,
      "learning_rate": 4.648993193190798e-06,
      "loss": 3.5631,
      "step": 442020
    },
    {
      "epoch": 0.9208958333333334,
      "grad_norm": 3.885897159576416,
      "learning_rate": 4.646558105117998e-06,
      "loss": 3.4679,
      "step": 442030
    },
    {
      "epoch": 0.9209166666666667,
      "grad_norm": 2.617387056350708,
      "learning_rate": 4.644123644914538e-06,
      "loss": 3.4598,
      "step": 442040
    },
    {
      "epoch": 0.9209375,
      "grad_norm": 3.0098400115966797,
      "learning_rate": 4.6416898125909095e-06,
      "loss": 3.321,
      "step": 442050
    },
    {
      "epoch": 0.9209583333333333,
      "grad_norm": 3.006200075149536,
      "learning_rate": 4.639256608157654e-06,
      "loss": 3.3427,
      "step": 442060
    },
    {
      "epoch": 0.9209791666666667,
      "grad_norm": 3.257155179977417,
      "learning_rate": 4.63682403162528e-06,
      "loss": 3.4801,
      "step": 442070
    },
    {
      "epoch": 0.921,
      "grad_norm": 3.5236825942993164,
      "learning_rate": 4.6343920830042794e-06,
      "loss": 3.4397,
      "step": 442080
    },
    {
      "epoch": 0.9210208333333333,
      "grad_norm": 3.773407459259033,
      "learning_rate": 4.6319607623051754e-06,
      "loss": 3.5396,
      "step": 442090
    },
    {
      "epoch": 0.9210416666666666,
      "grad_norm": 3.075831413269043,
      "learning_rate": 4.629530069538445e-06,
      "loss": 3.4826,
      "step": 442100
    },
    {
      "epoch": 0.9210625,
      "grad_norm": 2.9490420818328857,
      "learning_rate": 4.627100004714613e-06,
      "loss": 3.3854,
      "step": 442110
    },
    {
      "epoch": 0.9210833333333334,
      "grad_norm": 2.7664778232574463,
      "learning_rate": 4.624670567844169e-06,
      "loss": 3.2254,
      "step": 442120
    },
    {
      "epoch": 0.9211041666666666,
      "grad_norm": 2.400294780731201,
      "learning_rate": 4.622241758937606e-06,
      "loss": 3.4591,
      "step": 442130
    },
    {
      "epoch": 0.921125,
      "grad_norm": 2.835080623626709,
      "learning_rate": 4.619813578005399e-06,
      "loss": 3.5609,
      "step": 442140
    },
    {
      "epoch": 0.9211458333333333,
      "grad_norm": 3.3789243698120117,
      "learning_rate": 4.617386025058073e-06,
      "loss": 3.3457,
      "step": 442150
    },
    {
      "epoch": 0.9211666666666667,
      "grad_norm": 3.095717668533325,
      "learning_rate": 4.614959100106069e-06,
      "loss": 3.3687,
      "step": 442160
    },
    {
      "epoch": 0.9211875,
      "grad_norm": 3.5675904750823975,
      "learning_rate": 4.612532803159913e-06,
      "loss": 3.4719,
      "step": 442170
    },
    {
      "epoch": 0.9212083333333333,
      "grad_norm": 4.0417351722717285,
      "learning_rate": 4.610107134230079e-06,
      "loss": 3.3635,
      "step": 442180
    },
    {
      "epoch": 0.9212291666666667,
      "grad_norm": 2.5818464756011963,
      "learning_rate": 4.607682093327009e-06,
      "loss": 3.4694,
      "step": 442190
    },
    {
      "epoch": 0.92125,
      "grad_norm": 3.697510242462158,
      "learning_rate": 4.605257680461194e-06,
      "loss": 3.3896,
      "step": 442200
    },
    {
      "epoch": 0.9212708333333334,
      "grad_norm": 3.3897757530212402,
      "learning_rate": 4.602833895643143e-06,
      "loss": 3.3347,
      "step": 442210
    },
    {
      "epoch": 0.9212916666666666,
      "grad_norm": 3.558270215988159,
      "learning_rate": 4.6004107388832815e-06,
      "loss": 3.43,
      "step": 442220
    },
    {
      "epoch": 0.9213125,
      "grad_norm": 2.8827221393585205,
      "learning_rate": 4.597988210192083e-06,
      "loss": 3.2989,
      "step": 442230
    },
    {
      "epoch": 0.9213333333333333,
      "grad_norm": 3.188237190246582,
      "learning_rate": 4.59556630958004e-06,
      "loss": 3.4224,
      "step": 442240
    },
    {
      "epoch": 0.9213541666666667,
      "grad_norm": 2.9108870029449463,
      "learning_rate": 4.593145037057594e-06,
      "loss": 3.3224,
      "step": 442250
    },
    {
      "epoch": 0.921375,
      "grad_norm": 4.105953693389893,
      "learning_rate": 4.59072439263517e-06,
      "loss": 3.3277,
      "step": 442260
    },
    {
      "epoch": 0.9213958333333333,
      "grad_norm": 3.2998440265655518,
      "learning_rate": 4.5883043763233095e-06,
      "loss": 3.5986,
      "step": 442270
    },
    {
      "epoch": 0.9214166666666667,
      "grad_norm": 3.126786231994629,
      "learning_rate": 4.5858849881324046e-06,
      "loss": 3.3987,
      "step": 442280
    },
    {
      "epoch": 0.9214375,
      "grad_norm": 3.0349109172821045,
      "learning_rate": 4.58346622807288e-06,
      "loss": 3.3906,
      "step": 442290
    },
    {
      "epoch": 0.9214583333333334,
      "grad_norm": 3.0455849170684814,
      "learning_rate": 4.581048096155276e-06,
      "loss": 3.4222,
      "step": 442300
    },
    {
      "epoch": 0.9214791666666666,
      "grad_norm": 3.0268146991729736,
      "learning_rate": 4.578630592389953e-06,
      "loss": 3.4963,
      "step": 442310
    },
    {
      "epoch": 0.9215,
      "grad_norm": 3.4184279441833496,
      "learning_rate": 4.576213716787385e-06,
      "loss": 3.4224,
      "step": 442320
    },
    {
      "epoch": 0.9215208333333333,
      "grad_norm": 3.072448968887329,
      "learning_rate": 4.573797469358015e-06,
      "loss": 3.394,
      "step": 442330
    },
    {
      "epoch": 0.9215416666666667,
      "grad_norm": 2.2459843158721924,
      "learning_rate": 4.571381850112266e-06,
      "loss": 3.5886,
      "step": 442340
    },
    {
      "epoch": 0.9215625,
      "grad_norm": 2.729675531387329,
      "learning_rate": 4.568966859060597e-06,
      "loss": 3.466,
      "step": 442350
    },
    {
      "epoch": 0.9215833333333333,
      "grad_norm": 2.69083309173584,
      "learning_rate": 4.566552496213416e-06,
      "loss": 3.4782,
      "step": 442360
    },
    {
      "epoch": 0.9216041666666667,
      "grad_norm": 2.2666802406311035,
      "learning_rate": 4.564138761581165e-06,
      "loss": 3.4181,
      "step": 442370
    },
    {
      "epoch": 0.921625,
      "grad_norm": 3.263974905014038,
      "learning_rate": 4.56172565517427e-06,
      "loss": 3.4465,
      "step": 442380
    },
    {
      "epoch": 0.9216458333333334,
      "grad_norm": 2.581778049468994,
      "learning_rate": 4.559313177003155e-06,
      "loss": 3.4275,
      "step": 442390
    },
    {
      "epoch": 0.9216666666666666,
      "grad_norm": 3.861456871032715,
      "learning_rate": 4.5569013270782275e-06,
      "loss": 3.5183,
      "step": 442400
    },
    {
      "epoch": 0.9216875,
      "grad_norm": 2.7489967346191406,
      "learning_rate": 4.55449010540993e-06,
      "loss": 3.5778,
      "step": 442410
    },
    {
      "epoch": 0.9217083333333334,
      "grad_norm": 2.528538703918457,
      "learning_rate": 4.552079512008655e-06,
      "loss": 3.3491,
      "step": 442420
    },
    {
      "epoch": 0.9217291666666667,
      "grad_norm": 2.870530128479004,
      "learning_rate": 4.549669546884827e-06,
      "loss": 3.4419,
      "step": 442430
    },
    {
      "epoch": 0.92175,
      "grad_norm": 3.072108745574951,
      "learning_rate": 4.5472602100488365e-06,
      "loss": 3.4483,
      "step": 442440
    },
    {
      "epoch": 0.9217708333333333,
      "grad_norm": 4.042092800140381,
      "learning_rate": 4.544851501511126e-06,
      "loss": 3.3129,
      "step": 442450
    },
    {
      "epoch": 0.9217916666666667,
      "grad_norm": 3.3522450923919678,
      "learning_rate": 4.542443421282072e-06,
      "loss": 3.4633,
      "step": 442460
    },
    {
      "epoch": 0.9218125,
      "grad_norm": 3.1984760761260986,
      "learning_rate": 4.5400359693720966e-06,
      "loss": 3.4949,
      "step": 442470
    },
    {
      "epoch": 0.9218333333333333,
      "grad_norm": 3.3271918296813965,
      "learning_rate": 4.5376291457915935e-06,
      "loss": 3.4227,
      "step": 442480
    },
    {
      "epoch": 0.9218541666666666,
      "grad_norm": 3.5246212482452393,
      "learning_rate": 4.535222950550937e-06,
      "loss": 3.4112,
      "step": 442490
    },
    {
      "epoch": 0.921875,
      "grad_norm": 4.419321060180664,
      "learning_rate": 4.53281738366057e-06,
      "loss": 3.5301,
      "step": 442500
    },
    {
      "epoch": 0.9218958333333334,
      "grad_norm": 3.9148144721984863,
      "learning_rate": 4.530412445130799e-06,
      "loss": 3.4198,
      "step": 442510
    },
    {
      "epoch": 0.9219166666666667,
      "grad_norm": 3.300455093383789,
      "learning_rate": 4.5280081349721e-06,
      "loss": 3.3434,
      "step": 442520
    },
    {
      "epoch": 0.9219375,
      "grad_norm": 2.427647829055786,
      "learning_rate": 4.525604453194831e-06,
      "loss": 3.5354,
      "step": 442530
    },
    {
      "epoch": 0.9219583333333333,
      "grad_norm": 3.0305142402648926,
      "learning_rate": 4.523201399809351e-06,
      "loss": 3.4082,
      "step": 442540
    },
    {
      "epoch": 0.9219791666666667,
      "grad_norm": 2.7241322994232178,
      "learning_rate": 4.520798974826068e-06,
      "loss": 3.5433,
      "step": 442550
    },
    {
      "epoch": 0.922,
      "grad_norm": 2.7351768016815186,
      "learning_rate": 4.518397178255339e-06,
      "loss": 3.4183,
      "step": 442560
    },
    {
      "epoch": 0.9220208333333333,
      "grad_norm": 3.575528383255005,
      "learning_rate": 4.515996010107542e-06,
      "loss": 3.4087,
      "step": 442570
    },
    {
      "epoch": 0.9220416666666666,
      "grad_norm": 2.6968963146209717,
      "learning_rate": 4.513595470393084e-06,
      "loss": 3.4641,
      "step": 442580
    },
    {
      "epoch": 0.9220625,
      "grad_norm": 2.5659565925598145,
      "learning_rate": 4.5111955591222885e-06,
      "loss": 3.4501,
      "step": 442590
    },
    {
      "epoch": 0.9220833333333334,
      "grad_norm": 2.6650898456573486,
      "learning_rate": 4.508796276305515e-06,
      "loss": 3.4142,
      "step": 442600
    },
    {
      "epoch": 0.9221041666666666,
      "grad_norm": 3.083052158355713,
      "learning_rate": 4.506397621953189e-06,
      "loss": 3.5654,
      "step": 442610
    },
    {
      "epoch": 0.922125,
      "grad_norm": 2.572171926498413,
      "learning_rate": 4.503999596075636e-06,
      "loss": 3.3957,
      "step": 442620
    },
    {
      "epoch": 0.9221458333333333,
      "grad_norm": 3.227689266204834,
      "learning_rate": 4.5016021986831795e-06,
      "loss": 3.4644,
      "step": 442630
    },
    {
      "epoch": 0.9221666666666667,
      "grad_norm": 4.054739952087402,
      "learning_rate": 4.499205429786246e-06,
      "loss": 3.4225,
      "step": 442640
    },
    {
      "epoch": 0.9221875,
      "grad_norm": 3.01007080078125,
      "learning_rate": 4.496809289395126e-06,
      "loss": 3.403,
      "step": 442650
    },
    {
      "epoch": 0.9222083333333333,
      "grad_norm": 3.786933183670044,
      "learning_rate": 4.494413777520195e-06,
      "loss": 3.4461,
      "step": 442660
    },
    {
      "epoch": 0.9222291666666667,
      "grad_norm": 2.9894051551818848,
      "learning_rate": 4.492018894171828e-06,
      "loss": 3.4163,
      "step": 442670
    },
    {
      "epoch": 0.92225,
      "grad_norm": 3.086277484893799,
      "learning_rate": 4.489624639360334e-06,
      "loss": 3.4749,
      "step": 442680
    },
    {
      "epoch": 0.9222708333333334,
      "grad_norm": 3.200561285018921,
      "learning_rate": 4.487231013096054e-06,
      "loss": 3.3913,
      "step": 442690
    },
    {
      "epoch": 0.9222916666666666,
      "grad_norm": 3.1422994136810303,
      "learning_rate": 4.48483801538933e-06,
      "loss": 3.4148,
      "step": 442700
    },
    {
      "epoch": 0.9223125,
      "grad_norm": 2.8476059436798096,
      "learning_rate": 4.482445646250521e-06,
      "loss": 3.3519,
      "step": 442710
    },
    {
      "epoch": 0.9223333333333333,
      "grad_norm": 3.6993794441223145,
      "learning_rate": 4.480053905689951e-06,
      "loss": 3.3186,
      "step": 442720
    },
    {
      "epoch": 0.9223541666666667,
      "grad_norm": 3.6679770946502686,
      "learning_rate": 4.4776627937179286e-06,
      "loss": 3.4346,
      "step": 442730
    },
    {
      "epoch": 0.922375,
      "grad_norm": 2.490835189819336,
      "learning_rate": 4.475272310344813e-06,
      "loss": 3.4524,
      "step": 442740
    },
    {
      "epoch": 0.9223958333333333,
      "grad_norm": 3.0185706615448,
      "learning_rate": 4.472882455580929e-06,
      "loss": 3.4414,
      "step": 442750
    },
    {
      "epoch": 0.9224166666666667,
      "grad_norm": 3.2765090465545654,
      "learning_rate": 4.470493229436583e-06,
      "loss": 3.4723,
      "step": 442760
    },
    {
      "epoch": 0.9224375,
      "grad_norm": 2.9833316802978516,
      "learning_rate": 4.468104631922087e-06,
      "loss": 3.3431,
      "step": 442770
    },
    {
      "epoch": 0.9224583333333334,
      "grad_norm": 4.137834072113037,
      "learning_rate": 4.4657166630477806e-06,
      "loss": 3.3801,
      "step": 442780
    },
    {
      "epoch": 0.9224791666666666,
      "grad_norm": 3.623196601867676,
      "learning_rate": 4.463329322823989e-06,
      "loss": 3.6705,
      "step": 442790
    },
    {
      "epoch": 0.9225,
      "grad_norm": 2.946665048599243,
      "learning_rate": 4.4609426112609865e-06,
      "loss": 3.3593,
      "step": 442800
    },
    {
      "epoch": 0.9225208333333333,
      "grad_norm": 3.41638445854187,
      "learning_rate": 4.458556528369117e-06,
      "loss": 3.3415,
      "step": 442810
    },
    {
      "epoch": 0.9225416666666667,
      "grad_norm": 2.592087984085083,
      "learning_rate": 4.456171074158654e-06,
      "loss": 3.2831,
      "step": 442820
    },
    {
      "epoch": 0.9225625,
      "grad_norm": 2.4380898475646973,
      "learning_rate": 4.45378624863994e-06,
      "loss": 3.5072,
      "step": 442830
    },
    {
      "epoch": 0.9225833333333333,
      "grad_norm": 3.7799742221832275,
      "learning_rate": 4.451402051823266e-06,
      "loss": 3.36,
      "step": 442840
    },
    {
      "epoch": 0.9226041666666667,
      "grad_norm": 3.225543975830078,
      "learning_rate": 4.449018483718892e-06,
      "loss": 3.2835,
      "step": 442850
    },
    {
      "epoch": 0.922625,
      "grad_norm": 3.880692958831787,
      "learning_rate": 4.446635544337173e-06,
      "loss": 3.4247,
      "step": 442860
    },
    {
      "epoch": 0.9226458333333334,
      "grad_norm": 3.6948344707489014,
      "learning_rate": 4.444253233688372e-06,
      "loss": 3.3788,
      "step": 442870
    },
    {
      "epoch": 0.9226666666666666,
      "grad_norm": 2.7713241577148438,
      "learning_rate": 4.4418715517827605e-06,
      "loss": 3.3491,
      "step": 442880
    },
    {
      "epoch": 0.9226875,
      "grad_norm": 3.3218131065368652,
      "learning_rate": 4.439490498630666e-06,
      "loss": 3.4175,
      "step": 442890
    },
    {
      "epoch": 0.9227083333333334,
      "grad_norm": 3.2535316944122314,
      "learning_rate": 4.437110074242362e-06,
      "loss": 3.4916,
      "step": 442900
    },
    {
      "epoch": 0.9227291666666667,
      "grad_norm": 2.9727566242218018,
      "learning_rate": 4.434730278628107e-06,
      "loss": 3.5058,
      "step": 442910
    },
    {
      "epoch": 0.92275,
      "grad_norm": 3.059652090072632,
      "learning_rate": 4.432351111798193e-06,
      "loss": 3.5207,
      "step": 442920
    },
    {
      "epoch": 0.9227708333333333,
      "grad_norm": 3.3564932346343994,
      "learning_rate": 4.429972573762947e-06,
      "loss": 3.4086,
      "step": 442930
    },
    {
      "epoch": 0.9227916666666667,
      "grad_norm": 3.424104928970337,
      "learning_rate": 4.427594664532541e-06,
      "loss": 3.3809,
      "step": 442940
    },
    {
      "epoch": 0.9228125,
      "grad_norm": 4.367830753326416,
      "learning_rate": 4.425217384117352e-06,
      "loss": 3.3747,
      "step": 442950
    },
    {
      "epoch": 0.9228333333333333,
      "grad_norm": 3.7111406326293945,
      "learning_rate": 4.422840732527571e-06,
      "loss": 3.4447,
      "step": 442960
    },
    {
      "epoch": 0.9228541666666666,
      "grad_norm": 2.567225456237793,
      "learning_rate": 4.420464709773491e-06,
      "loss": 3.3708,
      "step": 442970
    },
    {
      "epoch": 0.922875,
      "grad_norm": 3.6323208808898926,
      "learning_rate": 4.418089315865403e-06,
      "loss": 3.4849,
      "step": 442980
    },
    {
      "epoch": 0.9228958333333334,
      "grad_norm": 2.5745015144348145,
      "learning_rate": 4.4157145508135315e-06,
      "loss": 3.3058,
      "step": 442990
    },
    {
      "epoch": 0.9229166666666667,
      "grad_norm": 3.137784004211426,
      "learning_rate": 4.413340414628136e-06,
      "loss": 3.5068,
      "step": 443000
    },
    {
      "epoch": 0.9229166666666667,
      "eval_loss": 3.520185947418213,
      "eval_runtime": 6.8652,
      "eval_samples_per_second": 1.457,
      "eval_steps_per_second": 0.437,
      "step": 443000
    },
    {
      "epoch": 0.9229375,
      "grad_norm": 3.4457035064697266,
      "learning_rate": 4.410966907319508e-06,
      "loss": 3.4132,
      "step": 443010
    },
    {
      "epoch": 0.9229583333333333,
      "grad_norm": 3.4226346015930176,
      "learning_rate": 4.408594028897871e-06,
      "loss": 3.6065,
      "step": 443020
    },
    {
      "epoch": 0.9229791666666667,
      "grad_norm": 2.4756345748901367,
      "learning_rate": 4.406221779373453e-06,
      "loss": 3.3475,
      "step": 443030
    },
    {
      "epoch": 0.923,
      "grad_norm": 2.835970878601074,
      "learning_rate": 4.4038501587565615e-06,
      "loss": 3.4829,
      "step": 443040
    },
    {
      "epoch": 0.9230208333333333,
      "grad_norm": 3.135172128677368,
      "learning_rate": 4.401479167057387e-06,
      "loss": 3.4469,
      "step": 443050
    },
    {
      "epoch": 0.9230416666666666,
      "grad_norm": 2.852088212966919,
      "learning_rate": 4.399108804286189e-06,
      "loss": 3.3734,
      "step": 443060
    },
    {
      "epoch": 0.9230625,
      "grad_norm": 3.2257440090179443,
      "learning_rate": 4.3967390704532095e-06,
      "loss": 3.4832,
      "step": 443070
    },
    {
      "epoch": 0.9230833333333334,
      "grad_norm": 3.5412516593933105,
      "learning_rate": 4.3943699655686895e-06,
      "loss": 3.4058,
      "step": 443080
    },
    {
      "epoch": 0.9231041666666666,
      "grad_norm": 2.6351468563079834,
      "learning_rate": 4.392001489642854e-06,
      "loss": 3.3675,
      "step": 443090
    },
    {
      "epoch": 0.923125,
      "grad_norm": 3.3872883319854736,
      "learning_rate": 4.38963364268593e-06,
      "loss": 3.4789,
      "step": 443100
    },
    {
      "epoch": 0.9231458333333333,
      "grad_norm": 2.999342203140259,
      "learning_rate": 4.387266424708158e-06,
      "loss": 3.4845,
      "step": 443110
    },
    {
      "epoch": 0.9231666666666667,
      "grad_norm": 3.273139238357544,
      "learning_rate": 4.384899835719746e-06,
      "loss": 3.5085,
      "step": 443120
    },
    {
      "epoch": 0.9231875,
      "grad_norm": 2.7527272701263428,
      "learning_rate": 4.382533875730937e-06,
      "loss": 3.4798,
      "step": 443130
    },
    {
      "epoch": 0.9232083333333333,
      "grad_norm": 3.0045206546783447,
      "learning_rate": 4.3801685447519554e-06,
      "loss": 3.4761,
      "step": 443140
    },
    {
      "epoch": 0.9232291666666667,
      "grad_norm": 2.852640390396118,
      "learning_rate": 4.377803842792993e-06,
      "loss": 3.5697,
      "step": 443150
    },
    {
      "epoch": 0.92325,
      "grad_norm": 3.2720084190368652,
      "learning_rate": 4.375439769864275e-06,
      "loss": 3.3987,
      "step": 443160
    },
    {
      "epoch": 0.9232708333333334,
      "grad_norm": 3.022310733795166,
      "learning_rate": 4.373076325976011e-06,
      "loss": 3.474,
      "step": 443170
    },
    {
      "epoch": 0.9232916666666666,
      "grad_norm": 2.685661554336548,
      "learning_rate": 4.370713511138441e-06,
      "loss": 3.3474,
      "step": 443180
    },
    {
      "epoch": 0.9233125,
      "grad_norm": 3.189556360244751,
      "learning_rate": 4.3683513253617075e-06,
      "loss": 3.3991,
      "step": 443190
    },
    {
      "epoch": 0.9233333333333333,
      "grad_norm": 2.8047215938568115,
      "learning_rate": 4.36598976865607e-06,
      "loss": 3.4489,
      "step": 443200
    },
    {
      "epoch": 0.9233541666666667,
      "grad_norm": 2.496458053588867,
      "learning_rate": 4.363628841031719e-06,
      "loss": 3.4418,
      "step": 443210
    },
    {
      "epoch": 0.923375,
      "grad_norm": 3.7110464572906494,
      "learning_rate": 4.361268542498814e-06,
      "loss": 3.3794,
      "step": 443220
    },
    {
      "epoch": 0.9233958333333333,
      "grad_norm": 3.7509584426879883,
      "learning_rate": 4.358908873067613e-06,
      "loss": 3.3789,
      "step": 443230
    },
    {
      "epoch": 0.9234166666666667,
      "grad_norm": 3.804661750793457,
      "learning_rate": 4.356549832748274e-06,
      "loss": 3.5016,
      "step": 443240
    },
    {
      "epoch": 0.9234375,
      "grad_norm": 2.511690616607666,
      "learning_rate": 4.354191421550957e-06,
      "loss": 3.5104,
      "step": 443250
    },
    {
      "epoch": 0.9234583333333334,
      "grad_norm": 2.547877550125122,
      "learning_rate": 4.351833639485918e-06,
      "loss": 3.5668,
      "step": 443260
    },
    {
      "epoch": 0.9234791666666666,
      "grad_norm": 3.191105365753174,
      "learning_rate": 4.349476486563302e-06,
      "loss": 3.4286,
      "step": 443270
    },
    {
      "epoch": 0.9235,
      "grad_norm": 2.6789190769195557,
      "learning_rate": 4.347119962793283e-06,
      "loss": 3.538,
      "step": 443280
    },
    {
      "epoch": 0.9235208333333333,
      "grad_norm": 2.711052417755127,
      "learning_rate": 4.344764068186052e-06,
      "loss": 3.4863,
      "step": 443290
    },
    {
      "epoch": 0.9235416666666667,
      "grad_norm": 2.8044703006744385,
      "learning_rate": 4.3424088027518015e-06,
      "loss": 3.4592,
      "step": 443300
    },
    {
      "epoch": 0.9235625,
      "grad_norm": 3.055631399154663,
      "learning_rate": 4.340054166500673e-06,
      "loss": 3.3352,
      "step": 443310
    },
    {
      "epoch": 0.9235833333333333,
      "grad_norm": 3.0453720092773438,
      "learning_rate": 4.337700159442875e-06,
      "loss": 3.4848,
      "step": 443320
    },
    {
      "epoch": 0.9236041666666667,
      "grad_norm": 2.752382516860962,
      "learning_rate": 4.335346781588534e-06,
      "loss": 3.3382,
      "step": 443330
    },
    {
      "epoch": 0.923625,
      "grad_norm": 2.4473636150360107,
      "learning_rate": 4.332994032947823e-06,
      "loss": 3.499,
      "step": 443340
    },
    {
      "epoch": 0.9236458333333334,
      "grad_norm": 2.844428539276123,
      "learning_rate": 4.330641913530952e-06,
      "loss": 3.4236,
      "step": 443350
    },
    {
      "epoch": 0.9236666666666666,
      "grad_norm": 2.700775146484375,
      "learning_rate": 4.328290423348046e-06,
      "loss": 3.4363,
      "step": 443360
    },
    {
      "epoch": 0.9236875,
      "grad_norm": 3.470210313796997,
      "learning_rate": 4.325939562409247e-06,
      "loss": 3.4181,
      "step": 443370
    },
    {
      "epoch": 0.9237083333333334,
      "grad_norm": 3.1518537998199463,
      "learning_rate": 4.32358933072473e-06,
      "loss": 3.3689,
      "step": 443380
    },
    {
      "epoch": 0.9237291666666667,
      "grad_norm": 2.6770496368408203,
      "learning_rate": 4.321239728304654e-06,
      "loss": 3.2427,
      "step": 443390
    },
    {
      "epoch": 0.92375,
      "grad_norm": 3.1951208114624023,
      "learning_rate": 4.31889075515916e-06,
      "loss": 3.3632,
      "step": 443400
    },
    {
      "epoch": 0.9237708333333333,
      "grad_norm": 2.908953905105591,
      "learning_rate": 4.316542411298374e-06,
      "loss": 3.5039,
      "step": 443410
    },
    {
      "epoch": 0.9237916666666667,
      "grad_norm": 3.651493787765503,
      "learning_rate": 4.31419469673247e-06,
      "loss": 3.4075,
      "step": 443420
    },
    {
      "epoch": 0.9238125,
      "grad_norm": 3.460143566131592,
      "learning_rate": 4.3118476114715915e-06,
      "loss": 3.4083,
      "step": 443430
    },
    {
      "epoch": 0.9238333333333333,
      "grad_norm": 4.258280277252197,
      "learning_rate": 4.3095011555258466e-06,
      "loss": 3.3995,
      "step": 443440
    },
    {
      "epoch": 0.9238541666666666,
      "grad_norm": 2.700986862182617,
      "learning_rate": 4.3071553289053924e-06,
      "loss": 3.4839,
      "step": 443450
    },
    {
      "epoch": 0.923875,
      "grad_norm": 2.7848753929138184,
      "learning_rate": 4.304810131620356e-06,
      "loss": 3.4291,
      "step": 443460
    },
    {
      "epoch": 0.9238958333333334,
      "grad_norm": 2.9787092208862305,
      "learning_rate": 4.302465563680879e-06,
      "loss": 3.4956,
      "step": 443470
    },
    {
      "epoch": 0.9239166666666667,
      "grad_norm": 3.01873517036438,
      "learning_rate": 4.30012162509707e-06,
      "loss": 3.3126,
      "step": 443480
    },
    {
      "epoch": 0.9239375,
      "grad_norm": 3.257528305053711,
      "learning_rate": 4.297778315879069e-06,
      "loss": 3.4704,
      "step": 443490
    },
    {
      "epoch": 0.9239583333333333,
      "grad_norm": 4.73012638092041,
      "learning_rate": 4.295435636036987e-06,
      "loss": 3.4004,
      "step": 443500
    },
    {
      "epoch": 0.9239791666666667,
      "grad_norm": 3.115744113922119,
      "learning_rate": 4.293093585580964e-06,
      "loss": 3.4529,
      "step": 443510
    },
    {
      "epoch": 0.924,
      "grad_norm": 3.170351266860962,
      "learning_rate": 4.290752164521094e-06,
      "loss": 3.3293,
      "step": 443520
    },
    {
      "epoch": 0.9240208333333333,
      "grad_norm": 2.9538304805755615,
      "learning_rate": 4.288411372867484e-06,
      "loss": 3.3632,
      "step": 443530
    },
    {
      "epoch": 0.9240416666666667,
      "grad_norm": 3.779832363128662,
      "learning_rate": 4.286071210630276e-06,
      "loss": 3.4202,
      "step": 443540
    },
    {
      "epoch": 0.9240625,
      "grad_norm": 2.947402238845825,
      "learning_rate": 4.2837316778195795e-06,
      "loss": 3.4111,
      "step": 443550
    },
    {
      "epoch": 0.9240833333333334,
      "grad_norm": 3.02260160446167,
      "learning_rate": 4.2813927744454526e-06,
      "loss": 3.3761,
      "step": 443560
    },
    {
      "epoch": 0.9241041666666666,
      "grad_norm": 3.526564121246338,
      "learning_rate": 4.279054500518037e-06,
      "loss": 3.3281,
      "step": 443570
    },
    {
      "epoch": 0.924125,
      "grad_norm": 3.8286805152893066,
      "learning_rate": 4.276716856047441e-06,
      "loss": 3.5279,
      "step": 443580
    },
    {
      "epoch": 0.9241458333333333,
      "grad_norm": 2.7901611328125,
      "learning_rate": 4.274379841043723e-06,
      "loss": 3.4804,
      "step": 443590
    },
    {
      "epoch": 0.9241666666666667,
      "grad_norm": 3.0049285888671875,
      "learning_rate": 4.27204345551701e-06,
      "loss": 3.4184,
      "step": 443600
    },
    {
      "epoch": 0.9241875,
      "grad_norm": 2.4452714920043945,
      "learning_rate": 4.269707699477409e-06,
      "loss": 3.4409,
      "step": 443610
    },
    {
      "epoch": 0.9242083333333333,
      "grad_norm": 3.145642042160034,
      "learning_rate": 4.2673725729349465e-06,
      "loss": 3.333,
      "step": 443620
    },
    {
      "epoch": 0.9242291666666667,
      "grad_norm": 3.0783488750457764,
      "learning_rate": 4.265038075899779e-06,
      "loss": 3.3905,
      "step": 443630
    },
    {
      "epoch": 0.92425,
      "grad_norm": 3.337014675140381,
      "learning_rate": 4.262704208381968e-06,
      "loss": 3.2924,
      "step": 443640
    },
    {
      "epoch": 0.9242708333333334,
      "grad_norm": 2.5658602714538574,
      "learning_rate": 4.260370970391569e-06,
      "loss": 3.4678,
      "step": 443650
    },
    {
      "epoch": 0.9242916666666666,
      "grad_norm": 2.846747636795044,
      "learning_rate": 4.258038361938659e-06,
      "loss": 3.4705,
      "step": 443660
    },
    {
      "epoch": 0.9243125,
      "grad_norm": 3.0679800510406494,
      "learning_rate": 4.2557063830333804e-06,
      "loss": 3.3256,
      "step": 443670
    },
    {
      "epoch": 0.9243333333333333,
      "grad_norm": 2.9522852897644043,
      "learning_rate": 4.253375033685741e-06,
      "loss": 3.5474,
      "step": 443680
    },
    {
      "epoch": 0.9243541666666667,
      "grad_norm": 3.409964084625244,
      "learning_rate": 4.251044313905833e-06,
      "loss": 3.4216,
      "step": 443690
    },
    {
      "epoch": 0.924375,
      "grad_norm": 2.827589988708496,
      "learning_rate": 4.248714223703714e-06,
      "loss": 3.3774,
      "step": 443700
    },
    {
      "epoch": 0.9243958333333333,
      "grad_norm": 3.303992509841919,
      "learning_rate": 4.246384763089461e-06,
      "loss": 3.4292,
      "step": 443710
    },
    {
      "epoch": 0.9244166666666667,
      "grad_norm": 3.1260571479797363,
      "learning_rate": 4.2440559320731315e-06,
      "loss": 3.4356,
      "step": 443720
    },
    {
      "epoch": 0.9244375,
      "grad_norm": 3.144383668899536,
      "learning_rate": 4.2417277306647845e-06,
      "loss": 3.3106,
      "step": 443730
    },
    {
      "epoch": 0.9244583333333334,
      "grad_norm": 2.875328779220581,
      "learning_rate": 4.239400158874495e-06,
      "loss": 3.4869,
      "step": 443740
    },
    {
      "epoch": 0.9244791666666666,
      "grad_norm": 4.5236921310424805,
      "learning_rate": 4.2370732167122724e-06,
      "loss": 3.5585,
      "step": 443750
    },
    {
      "epoch": 0.9245,
      "grad_norm": 2.727731227874756,
      "learning_rate": 4.2347469041882245e-06,
      "loss": 3.2786,
      "step": 443760
    },
    {
      "epoch": 0.9245208333333333,
      "grad_norm": 3.3013498783111572,
      "learning_rate": 4.23242122131236e-06,
      "loss": 3.4745,
      "step": 443770
    },
    {
      "epoch": 0.9245416666666667,
      "grad_norm": 2.5852081775665283,
      "learning_rate": 4.230096168094737e-06,
      "loss": 3.5355,
      "step": 443780
    },
    {
      "epoch": 0.9245625,
      "grad_norm": 2.899397611618042,
      "learning_rate": 4.227771744545383e-06,
      "loss": 3.4579,
      "step": 443790
    },
    {
      "epoch": 0.9245833333333333,
      "grad_norm": 3.0819246768951416,
      "learning_rate": 4.225447950674371e-06,
      "loss": 3.5184,
      "step": 443800
    },
    {
      "epoch": 0.9246041666666667,
      "grad_norm": 3.448258638381958,
      "learning_rate": 4.223124786491727e-06,
      "loss": 3.3432,
      "step": 443810
    },
    {
      "epoch": 0.924625,
      "grad_norm": 2.954662322998047,
      "learning_rate": 4.220802252007477e-06,
      "loss": 3.3951,
      "step": 443820
    },
    {
      "epoch": 0.9246458333333333,
      "grad_norm": 2.7685935497283936,
      "learning_rate": 4.218480347231662e-06,
      "loss": 3.4675,
      "step": 443830
    },
    {
      "epoch": 0.9246666666666666,
      "grad_norm": 2.9148316383361816,
      "learning_rate": 4.216159072174291e-06,
      "loss": 3.4719,
      "step": 443840
    },
    {
      "epoch": 0.9246875,
      "grad_norm": 2.974943161010742,
      "learning_rate": 4.213838426845423e-06,
      "loss": 3.4906,
      "step": 443850
    },
    {
      "epoch": 0.9247083333333334,
      "grad_norm": 3.2006022930145264,
      "learning_rate": 4.2115184112550656e-06,
      "loss": 3.4785,
      "step": 443860
    },
    {
      "epoch": 0.9247291666666667,
      "grad_norm": 2.4833576679229736,
      "learning_rate": 4.209199025413229e-06,
      "loss": 3.4868,
      "step": 443870
    },
    {
      "epoch": 0.92475,
      "grad_norm": 2.806840419769287,
      "learning_rate": 4.206880269329954e-06,
      "loss": 3.3712,
      "step": 443880
    },
    {
      "epoch": 0.9247708333333333,
      "grad_norm": 3.1260454654693604,
      "learning_rate": 4.20456214301525e-06,
      "loss": 3.5616,
      "step": 443890
    },
    {
      "epoch": 0.9247916666666667,
      "grad_norm": 3.2714083194732666,
      "learning_rate": 4.202244646479125e-06,
      "loss": 3.2896,
      "step": 443900
    },
    {
      "epoch": 0.9248125,
      "grad_norm": 3.5443477630615234,
      "learning_rate": 4.199927779731588e-06,
      "loss": 3.4297,
      "step": 443910
    },
    {
      "epoch": 0.9248333333333333,
      "grad_norm": 2.968852996826172,
      "learning_rate": 4.197611542782664e-06,
      "loss": 3.587,
      "step": 443920
    },
    {
      "epoch": 0.9248541666666666,
      "grad_norm": 3.0099730491638184,
      "learning_rate": 4.1952959356423284e-06,
      "loss": 3.5359,
      "step": 443930
    },
    {
      "epoch": 0.924875,
      "grad_norm": 2.4320292472839355,
      "learning_rate": 4.192980958320607e-06,
      "loss": 3.4116,
      "step": 443940
    },
    {
      "epoch": 0.9248958333333334,
      "grad_norm": 3.1286590099334717,
      "learning_rate": 4.190666610827509e-06,
      "loss": 3.4646,
      "step": 443950
    },
    {
      "epoch": 0.9249166666666667,
      "grad_norm": 8.791436195373535,
      "learning_rate": 4.188352893173008e-06,
      "loss": 3.4148,
      "step": 443960
    },
    {
      "epoch": 0.9249375,
      "grad_norm": 3.66194224357605,
      "learning_rate": 4.186039805367081e-06,
      "loss": 3.2937,
      "step": 443970
    },
    {
      "epoch": 0.9249583333333333,
      "grad_norm": 3.0336039066314697,
      "learning_rate": 4.183727347419785e-06,
      "loss": 3.3205,
      "step": 443980
    },
    {
      "epoch": 0.9249791666666667,
      "grad_norm": 3.2094645500183105,
      "learning_rate": 4.181415519341047e-06,
      "loss": 3.3636,
      "step": 443990
    },
    {
      "epoch": 0.925,
      "grad_norm": 2.8546688556671143,
      "learning_rate": 4.1791043211408584e-06,
      "loss": 3.4262,
      "step": 444000
    },
    {
      "epoch": 0.925,
      "eval_loss": 3.521807909011841,
      "eval_runtime": 7.2813,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 444000
    },
    {
      "epoch": 0.9250208333333333,
      "grad_norm": 3.5151400566101074,
      "learning_rate": 4.17679375282926e-06,
      "loss": 3.3965,
      "step": 444010
    },
    {
      "epoch": 0.9250416666666667,
      "grad_norm": 2.7204787731170654,
      "learning_rate": 4.174483814416163e-06,
      "loss": 3.4419,
      "step": 444020
    },
    {
      "epoch": 0.9250625,
      "grad_norm": 3.2560665607452393,
      "learning_rate": 4.172174505911574e-06,
      "loss": 3.3894,
      "step": 444030
    },
    {
      "epoch": 0.9250833333333334,
      "grad_norm": 2.814749240875244,
      "learning_rate": 4.169865827325486e-06,
      "loss": 3.4297,
      "step": 444040
    },
    {
      "epoch": 0.9251041666666666,
      "grad_norm": 3.83719801902771,
      "learning_rate": 4.16755777866784e-06,
      "loss": 3.3135,
      "step": 444050
    },
    {
      "epoch": 0.925125,
      "grad_norm": 3.0438103675842285,
      "learning_rate": 4.16525035994863e-06,
      "loss": 3.3946,
      "step": 444060
    },
    {
      "epoch": 0.9251458333333333,
      "grad_norm": 3.5193030834198,
      "learning_rate": 4.162943571177796e-06,
      "loss": 3.5371,
      "step": 444070
    },
    {
      "epoch": 0.9251666666666667,
      "grad_norm": 2.971903085708618,
      "learning_rate": 4.160637412365331e-06,
      "loss": 3.4891,
      "step": 444080
    },
    {
      "epoch": 0.9251875,
      "grad_norm": 2.693755626678467,
      "learning_rate": 4.158331883521193e-06,
      "loss": 3.4283,
      "step": 444090
    },
    {
      "epoch": 0.9252083333333333,
      "grad_norm": 2.9369258880615234,
      "learning_rate": 4.156026984655309e-06,
      "loss": 3.5082,
      "step": 444100
    },
    {
      "epoch": 0.9252291666666667,
      "grad_norm": 3.6312501430511475,
      "learning_rate": 4.1537227157776856e-06,
      "loss": 3.343,
      "step": 444110
    },
    {
      "epoch": 0.92525,
      "grad_norm": 3.5550684928894043,
      "learning_rate": 4.151419076898233e-06,
      "loss": 3.4957,
      "step": 444120
    },
    {
      "epoch": 0.9252708333333334,
      "grad_norm": 3.005932092666626,
      "learning_rate": 4.1491160680269255e-06,
      "loss": 3.3477,
      "step": 444130
    },
    {
      "epoch": 0.9252916666666666,
      "grad_norm": 2.963629961013794,
      "learning_rate": 4.146813689173706e-06,
      "loss": 3.4024,
      "step": 444140
    },
    {
      "epoch": 0.9253125,
      "grad_norm": 2.8227882385253906,
      "learning_rate": 4.144511940348516e-06,
      "loss": 3.406,
      "step": 444150
    },
    {
      "epoch": 0.9253333333333333,
      "grad_norm": 3.5508861541748047,
      "learning_rate": 4.142210821561298e-06,
      "loss": 3.4143,
      "step": 444160
    },
    {
      "epoch": 0.9253541666666667,
      "grad_norm": 3.4142074584960938,
      "learning_rate": 4.139910332821994e-06,
      "loss": 3.2923,
      "step": 444170
    },
    {
      "epoch": 0.925375,
      "grad_norm": 3.488842010498047,
      "learning_rate": 4.137610474140546e-06,
      "loss": 3.4778,
      "step": 444180
    },
    {
      "epoch": 0.9253958333333333,
      "grad_norm": 2.5709054470062256,
      "learning_rate": 4.135311245526895e-06,
      "loss": 3.2775,
      "step": 444190
    },
    {
      "epoch": 0.9254166666666667,
      "grad_norm": 3.7382843494415283,
      "learning_rate": 4.133012646990952e-06,
      "loss": 3.3815,
      "step": 444200
    },
    {
      "epoch": 0.9254375,
      "grad_norm": 3.462195634841919,
      "learning_rate": 4.13071467854264e-06,
      "loss": 3.5011,
      "step": 444210
    },
    {
      "epoch": 0.9254583333333334,
      "grad_norm": 2.474705219268799,
      "learning_rate": 4.12841734019192e-06,
      "loss": 3.4345,
      "step": 444220
    },
    {
      "epoch": 0.9254791666666666,
      "grad_norm": 3.5800774097442627,
      "learning_rate": 4.126120631948698e-06,
      "loss": 3.5643,
      "step": 444230
    },
    {
      "epoch": 0.9255,
      "grad_norm": 2.721475839614868,
      "learning_rate": 4.123824553822902e-06,
      "loss": 3.3427,
      "step": 444240
    },
    {
      "epoch": 0.9255208333333333,
      "grad_norm": 3.127180337905884,
      "learning_rate": 4.1215291058244225e-06,
      "loss": 3.4346,
      "step": 444250
    },
    {
      "epoch": 0.9255416666666667,
      "grad_norm": 3.5280420780181885,
      "learning_rate": 4.1192342879632025e-06,
      "loss": 3.3312,
      "step": 444260
    },
    {
      "epoch": 0.9255625,
      "grad_norm": 2.974980354309082,
      "learning_rate": 4.116940100249166e-06,
      "loss": 3.4055,
      "step": 444270
    },
    {
      "epoch": 0.9255833333333333,
      "grad_norm": 4.028825759887695,
      "learning_rate": 4.114646542692157e-06,
      "loss": 3.3971,
      "step": 444280
    },
    {
      "epoch": 0.9256041666666667,
      "grad_norm": 3.464405059814453,
      "learning_rate": 4.112353615302166e-06,
      "loss": 3.4626,
      "step": 444290
    },
    {
      "epoch": 0.925625,
      "grad_norm": 3.1941823959350586,
      "learning_rate": 4.110061318089069e-06,
      "loss": 3.3951,
      "step": 444300
    },
    {
      "epoch": 0.9256458333333333,
      "grad_norm": 2.6234772205352783,
      "learning_rate": 4.107769651062725e-06,
      "loss": 3.4974,
      "step": 444310
    },
    {
      "epoch": 0.9256666666666666,
      "grad_norm": 2.9329824447631836,
      "learning_rate": 4.105478614233093e-06,
      "loss": 3.3371,
      "step": 444320
    },
    {
      "epoch": 0.9256875,
      "grad_norm": 2.9505348205566406,
      "learning_rate": 4.103188207610048e-06,
      "loss": 3.3925,
      "step": 444330
    },
    {
      "epoch": 0.9257083333333334,
      "grad_norm": 2.4711060523986816,
      "learning_rate": 4.100898431203448e-06,
      "loss": 3.3914,
      "step": 444340
    },
    {
      "epoch": 0.9257291666666667,
      "grad_norm": 3.021998405456543,
      "learning_rate": 4.0986092850232525e-06,
      "loss": 3.4692,
      "step": 444350
    },
    {
      "epoch": 0.92575,
      "grad_norm": 3.0267486572265625,
      "learning_rate": 4.096320769079303e-06,
      "loss": 3.3675,
      "step": 444360
    },
    {
      "epoch": 0.9257708333333333,
      "grad_norm": 3.0535426139831543,
      "learning_rate": 4.094032883381476e-06,
      "loss": 3.4275,
      "step": 444370
    },
    {
      "epoch": 0.9257916666666667,
      "grad_norm": 3.0419929027557373,
      "learning_rate": 4.091745627939696e-06,
      "loss": 3.5127,
      "step": 444380
    },
    {
      "epoch": 0.9258125,
      "grad_norm": 2.8834972381591797,
      "learning_rate": 4.089459002763807e-06,
      "loss": 3.55,
      "step": 444390
    },
    {
      "epoch": 0.9258333333333333,
      "grad_norm": 2.921025037765503,
      "learning_rate": 4.087173007863698e-06,
      "loss": 3.3474,
      "step": 444400
    },
    {
      "epoch": 0.9258541666666666,
      "grad_norm": 3.4597537517547607,
      "learning_rate": 4.084887643249263e-06,
      "loss": 3.3932,
      "step": 444410
    },
    {
      "epoch": 0.925875,
      "grad_norm": 3.9800660610198975,
      "learning_rate": 4.082602908930343e-06,
      "loss": 3.492,
      "step": 444420
    },
    {
      "epoch": 0.9258958333333334,
      "grad_norm": 2.7178897857666016,
      "learning_rate": 4.0803188049167986e-06,
      "loss": 3.4434,
      "step": 444430
    },
    {
      "epoch": 0.9259166666666667,
      "grad_norm": 3.3207945823669434,
      "learning_rate": 4.078035331218571e-06,
      "loss": 3.3444,
      "step": 444440
    },
    {
      "epoch": 0.9259375,
      "grad_norm": 3.258626699447632,
      "learning_rate": 4.075752487845435e-06,
      "loss": 3.4854,
      "step": 444450
    },
    {
      "epoch": 0.9259583333333333,
      "grad_norm": 3.1529037952423096,
      "learning_rate": 4.0734702748073e-06,
      "loss": 3.4706,
      "step": 444460
    },
    {
      "epoch": 0.9259791666666667,
      "grad_norm": 3.2884488105773926,
      "learning_rate": 4.071188692113991e-06,
      "loss": 3.5056,
      "step": 444470
    },
    {
      "epoch": 0.926,
      "grad_norm": 2.871952533721924,
      "learning_rate": 4.068907739775401e-06,
      "loss": 3.4019,
      "step": 444480
    },
    {
      "epoch": 0.9260208333333333,
      "grad_norm": 3.5336735248565674,
      "learning_rate": 4.066627417801371e-06,
      "loss": 3.3118,
      "step": 444490
    },
    {
      "epoch": 0.9260416666666667,
      "grad_norm": 3.2778356075286865,
      "learning_rate": 4.0643477262017276e-06,
      "loss": 3.3373,
      "step": 444500
    },
    {
      "epoch": 0.9260625,
      "grad_norm": 3.387544631958008,
      "learning_rate": 4.062068664986362e-06,
      "loss": 3.5224,
      "step": 444510
    },
    {
      "epoch": 0.9260833333333334,
      "grad_norm": 2.730591058731079,
      "learning_rate": 4.059790234165067e-06,
      "loss": 3.3542,
      "step": 444520
    },
    {
      "epoch": 0.9261041666666666,
      "grad_norm": 4.811156272888184,
      "learning_rate": 4.057512433747734e-06,
      "loss": 3.3952,
      "step": 444530
    },
    {
      "epoch": 0.926125,
      "grad_norm": 3.0344669818878174,
      "learning_rate": 4.055235263744155e-06,
      "loss": 3.4147,
      "step": 444540
    },
    {
      "epoch": 0.9261458333333333,
      "grad_norm": 4.188061237335205,
      "learning_rate": 4.052958724164223e-06,
      "loss": 3.4256,
      "step": 444550
    },
    {
      "epoch": 0.9261666666666667,
      "grad_norm": 2.8006339073181152,
      "learning_rate": 4.050682815017714e-06,
      "loss": 3.5806,
      "step": 444560
    },
    {
      "epoch": 0.9261875,
      "grad_norm": 3.1008477210998535,
      "learning_rate": 4.048407536314485e-06,
      "loss": 3.4225,
      "step": 444570
    },
    {
      "epoch": 0.9262083333333333,
      "grad_norm": 3.7747697830200195,
      "learning_rate": 4.0461328880643796e-06,
      "loss": 3.4027,
      "step": 444580
    },
    {
      "epoch": 0.9262291666666667,
      "grad_norm": 3.2864763736724854,
      "learning_rate": 4.0438588702771894e-06,
      "loss": 3.3829,
      "step": 444590
    },
    {
      "epoch": 0.92625,
      "grad_norm": 2.96549654006958,
      "learning_rate": 4.0415854829627555e-06,
      "loss": 3.3822,
      "step": 444600
    },
    {
      "epoch": 0.9262708333333334,
      "grad_norm": 3.455897092819214,
      "learning_rate": 4.039312726130922e-06,
      "loss": 3.4608,
      "step": 444610
    },
    {
      "epoch": 0.9262916666666666,
      "grad_norm": 2.6039299964904785,
      "learning_rate": 4.037040599791463e-06,
      "loss": 3.5455,
      "step": 444620
    },
    {
      "epoch": 0.9263125,
      "grad_norm": 2.7334706783294678,
      "learning_rate": 4.034769103954205e-06,
      "loss": 3.6358,
      "step": 444630
    },
    {
      "epoch": 0.9263333333333333,
      "grad_norm": 3.401402711868286,
      "learning_rate": 4.032498238629006e-06,
      "loss": 3.3809,
      "step": 444640
    },
    {
      "epoch": 0.9263541666666667,
      "grad_norm": 2.685225486755371,
      "learning_rate": 4.030228003825592e-06,
      "loss": 3.4571,
      "step": 444650
    },
    {
      "epoch": 0.926375,
      "grad_norm": 3.2665653228759766,
      "learning_rate": 4.027958399553821e-06,
      "loss": 3.2843,
      "step": 444660
    },
    {
      "epoch": 0.9263958333333333,
      "grad_norm": 3.2327768802642822,
      "learning_rate": 4.02568942582352e-06,
      "loss": 3.5013,
      "step": 444670
    },
    {
      "epoch": 0.9264166666666667,
      "grad_norm": 2.5366311073303223,
      "learning_rate": 4.023421082644429e-06,
      "loss": 3.3828,
      "step": 444680
    },
    {
      "epoch": 0.9264375,
      "grad_norm": 3.01725435256958,
      "learning_rate": 4.0211533700264086e-06,
      "loss": 3.4244,
      "step": 444690
    },
    {
      "epoch": 0.9264583333333334,
      "grad_norm": 3.0209736824035645,
      "learning_rate": 4.0188862879792e-06,
      "loss": 3.5997,
      "step": 444700
    },
    {
      "epoch": 0.9264791666666666,
      "grad_norm": 3.6691300868988037,
      "learning_rate": 4.0166198365125966e-06,
      "loss": 3.3848,
      "step": 444710
    },
    {
      "epoch": 0.9265,
      "grad_norm": 4.350025177001953,
      "learning_rate": 4.014354015636456e-06,
      "loss": 3.5238,
      "step": 444720
    },
    {
      "epoch": 0.9265208333333333,
      "grad_norm": 3.3087525367736816,
      "learning_rate": 4.0120888253605045e-06,
      "loss": 3.3968,
      "step": 444730
    },
    {
      "epoch": 0.9265416666666667,
      "grad_norm": 2.539431571960449,
      "learning_rate": 4.0098242656945335e-06,
      "loss": 3.4925,
      "step": 444740
    },
    {
      "epoch": 0.9265625,
      "grad_norm": 2.929694890975952,
      "learning_rate": 4.0075603366483526e-06,
      "loss": 3.2842,
      "step": 444750
    },
    {
      "epoch": 0.9265833333333333,
      "grad_norm": 3.6402394771575928,
      "learning_rate": 4.0052970382317195e-06,
      "loss": 3.1497,
      "step": 444760
    },
    {
      "epoch": 0.9266041666666667,
      "grad_norm": 3.3275229930877686,
      "learning_rate": 4.003034370454378e-06,
      "loss": 3.4239,
      "step": 444770
    },
    {
      "epoch": 0.926625,
      "grad_norm": 3.0585029125213623,
      "learning_rate": 4.000772333326186e-06,
      "loss": 3.4151,
      "step": 444780
    },
    {
      "epoch": 0.9266458333333333,
      "grad_norm": 2.719782590866089,
      "learning_rate": 3.998510926856852e-06,
      "loss": 3.4432,
      "step": 444790
    },
    {
      "epoch": 0.9266666666666666,
      "grad_norm": 2.62907075881958,
      "learning_rate": 3.996250151056135e-06,
      "loss": 3.4591,
      "step": 444800
    },
    {
      "epoch": 0.9266875,
      "grad_norm": 3.1234323978424072,
      "learning_rate": 3.993990005933878e-06,
      "loss": 3.399,
      "step": 444810
    },
    {
      "epoch": 0.9267083333333334,
      "grad_norm": 2.789201498031616,
      "learning_rate": 3.991730491499756e-06,
      "loss": 3.2933,
      "step": 444820
    },
    {
      "epoch": 0.9267291666666667,
      "grad_norm": 2.9982094764709473,
      "learning_rate": 3.989471607763561e-06,
      "loss": 3.3783,
      "step": 444830
    },
    {
      "epoch": 0.92675,
      "grad_norm": 3.066478729248047,
      "learning_rate": 3.987213354735069e-06,
      "loss": 3.5629,
      "step": 444840
    },
    {
      "epoch": 0.9267708333333333,
      "grad_norm": 2.699134588241577,
      "learning_rate": 3.984955732424006e-06,
      "loss": 3.3361,
      "step": 444850
    },
    {
      "epoch": 0.9267916666666667,
      "grad_norm": 3.832615613937378,
      "learning_rate": 3.982698740840146e-06,
      "loss": 3.5035,
      "step": 444860
    },
    {
      "epoch": 0.9268125,
      "grad_norm": 3.1403965950012207,
      "learning_rate": 3.980442379993215e-06,
      "loss": 3.5216,
      "step": 444870
    },
    {
      "epoch": 0.9268333333333333,
      "grad_norm": 2.740053176879883,
      "learning_rate": 3.978186649892989e-06,
      "loss": 3.4365,
      "step": 444880
    },
    {
      "epoch": 0.9268541666666666,
      "grad_norm": 3.4648191928863525,
      "learning_rate": 3.975931550549194e-06,
      "loss": 3.3596,
      "step": 444890
    },
    {
      "epoch": 0.926875,
      "grad_norm": 3.373216390609741,
      "learning_rate": 3.973677081971571e-06,
      "loss": 3.3266,
      "step": 444900
    },
    {
      "epoch": 0.9268958333333334,
      "grad_norm": 3.389359951019287,
      "learning_rate": 3.971423244169864e-06,
      "loss": 3.3441,
      "step": 444910
    },
    {
      "epoch": 0.9269166666666667,
      "grad_norm": 3.2404894828796387,
      "learning_rate": 3.969170037153829e-06,
      "loss": 3.3864,
      "step": 444920
    },
    {
      "epoch": 0.9269375,
      "grad_norm": 4.2700676918029785,
      "learning_rate": 3.966917460933144e-06,
      "loss": 3.4074,
      "step": 444930
    },
    {
      "epoch": 0.9269583333333333,
      "grad_norm": 3.12516450881958,
      "learning_rate": 3.9646655155175844e-06,
      "loss": 3.3347,
      "step": 444940
    },
    {
      "epoch": 0.9269791666666667,
      "grad_norm": 3.577329158782959,
      "learning_rate": 3.9624142009168744e-06,
      "loss": 3.3724,
      "step": 444950
    },
    {
      "epoch": 0.927,
      "grad_norm": 2.603127956390381,
      "learning_rate": 3.960163517140708e-06,
      "loss": 3.3813,
      "step": 444960
    },
    {
      "epoch": 0.9270208333333333,
      "grad_norm": 3.0889463424682617,
      "learning_rate": 3.957913464198825e-06,
      "loss": 3.4356,
      "step": 444970
    },
    {
      "epoch": 0.9270416666666667,
      "grad_norm": 4.24280309677124,
      "learning_rate": 3.9556640421009865e-06,
      "loss": 3.4733,
      "step": 444980
    },
    {
      "epoch": 0.9270625,
      "grad_norm": 3.197666883468628,
      "learning_rate": 3.953415250856834e-06,
      "loss": 3.4245,
      "step": 444990
    },
    {
      "epoch": 0.9270833333333334,
      "grad_norm": 3.0202083587646484,
      "learning_rate": 3.951167090476126e-06,
      "loss": 3.4604,
      "step": 445000
    },
    {
      "epoch": 0.9270833333333334,
      "eval_loss": 3.5207557678222656,
      "eval_runtime": 7.4059,
      "eval_samples_per_second": 1.35,
      "eval_steps_per_second": 0.405,
      "step": 445000
    },
    {
      "epoch": 0.9271041666666666,
      "grad_norm": 3.3567705154418945,
      "learning_rate": 3.948919560968588e-06,
      "loss": 3.3662,
      "step": 445010
    },
    {
      "epoch": 0.927125,
      "grad_norm": 2.7169189453125,
      "learning_rate": 3.946672662343864e-06,
      "loss": 3.3828,
      "step": 445020
    },
    {
      "epoch": 0.9271458333333333,
      "grad_norm": 3.2542519569396973,
      "learning_rate": 3.944426394611727e-06,
      "loss": 3.4925,
      "step": 445030
    },
    {
      "epoch": 0.9271666666666667,
      "grad_norm": 4.145634651184082,
      "learning_rate": 3.942180757781871e-06,
      "loss": 3.3152,
      "step": 445040
    },
    {
      "epoch": 0.9271875,
      "grad_norm": 2.987123727798462,
      "learning_rate": 3.939935751863954e-06,
      "loss": 3.4785,
      "step": 445050
    },
    {
      "epoch": 0.9272083333333333,
      "grad_norm": 2.489771604537964,
      "learning_rate": 3.937691376867736e-06,
      "loss": 3.421,
      "step": 445060
    },
    {
      "epoch": 0.9272291666666667,
      "grad_norm": 2.857889413833618,
      "learning_rate": 3.93544763280284e-06,
      "loss": 3.5509,
      "step": 445070
    },
    {
      "epoch": 0.92725,
      "grad_norm": 2.946045398712158,
      "learning_rate": 3.933204519678995e-06,
      "loss": 3.4484,
      "step": 445080
    },
    {
      "epoch": 0.9272708333333334,
      "grad_norm": 2.9877419471740723,
      "learning_rate": 3.930962037505908e-06,
      "loss": 3.3211,
      "step": 445090
    },
    {
      "epoch": 0.9272916666666666,
      "grad_norm": 2.9542927742004395,
      "learning_rate": 3.928720186293238e-06,
      "loss": 3.3438,
      "step": 445100
    },
    {
      "epoch": 0.9273125,
      "grad_norm": 3.093294143676758,
      "learning_rate": 3.926478966050662e-06,
      "loss": 3.311,
      "step": 445110
    },
    {
      "epoch": 0.9273333333333333,
      "grad_norm": 4.089539051055908,
      "learning_rate": 3.924238376787919e-06,
      "loss": 3.4258,
      "step": 445120
    },
    {
      "epoch": 0.9273541666666667,
      "grad_norm": 3.3259568214416504,
      "learning_rate": 3.9219984185146215e-06,
      "loss": 3.465,
      "step": 445130
    },
    {
      "epoch": 0.927375,
      "grad_norm": 3.2558517456054688,
      "learning_rate": 3.91975909124046e-06,
      "loss": 3.5069,
      "step": 445140
    },
    {
      "epoch": 0.9273958333333333,
      "grad_norm": 3.8046343326568604,
      "learning_rate": 3.917520394975127e-06,
      "loss": 3.3716,
      "step": 445150
    },
    {
      "epoch": 0.9274166666666667,
      "grad_norm": 4.697245121002197,
      "learning_rate": 3.915282329728281e-06,
      "loss": 3.4429,
      "step": 445160
    },
    {
      "epoch": 0.9274375,
      "grad_norm": 3.017177104949951,
      "learning_rate": 3.913044895509581e-06,
      "loss": 3.3903,
      "step": 445170
    },
    {
      "epoch": 0.9274583333333334,
      "grad_norm": 2.7833800315856934,
      "learning_rate": 3.910808092328705e-06,
      "loss": 3.411,
      "step": 445180
    },
    {
      "epoch": 0.9274791666666666,
      "grad_norm": 3.228393077850342,
      "learning_rate": 3.908571920195325e-06,
      "loss": 3.491,
      "step": 445190
    },
    {
      "epoch": 0.9275,
      "grad_norm": 3.2737877368927,
      "learning_rate": 3.906336379119068e-06,
      "loss": 3.3337,
      "step": 445200
    },
    {
      "epoch": 0.9275208333333333,
      "grad_norm": 2.916778087615967,
      "learning_rate": 3.904101469109627e-06,
      "loss": 3.4935,
      "step": 445210
    },
    {
      "epoch": 0.9275416666666667,
      "grad_norm": 4.586549758911133,
      "learning_rate": 3.901867190176627e-06,
      "loss": 3.4085,
      "step": 445220
    },
    {
      "epoch": 0.9275625,
      "grad_norm": 2.940011978149414,
      "learning_rate": 3.899633542329744e-06,
      "loss": 3.3649,
      "step": 445230
    },
    {
      "epoch": 0.9275833333333333,
      "grad_norm": 3.900172233581543,
      "learning_rate": 3.897400525578603e-06,
      "loss": 3.3563,
      "step": 445240
    },
    {
      "epoch": 0.9276041666666667,
      "grad_norm": 2.7298898696899414,
      "learning_rate": 3.895168139932864e-06,
      "loss": 3.4837,
      "step": 445250
    },
    {
      "epoch": 0.927625,
      "grad_norm": 3.6436104774475098,
      "learning_rate": 3.892936385402168e-06,
      "loss": 3.3839,
      "step": 445260
    },
    {
      "epoch": 0.9276458333333333,
      "grad_norm": 3.588765859603882,
      "learning_rate": 3.8907052619961575e-06,
      "loss": 3.3194,
      "step": 445270
    },
    {
      "epoch": 0.9276666666666666,
      "grad_norm": 3.6058573722839355,
      "learning_rate": 3.888474769724459e-06,
      "loss": 3.4976,
      "step": 445280
    },
    {
      "epoch": 0.9276875,
      "grad_norm": 3.1994314193725586,
      "learning_rate": 3.886244908596714e-06,
      "loss": 3.5266,
      "step": 445290
    },
    {
      "epoch": 0.9277083333333334,
      "grad_norm": 2.8729543685913086,
      "learning_rate": 3.884015678622549e-06,
      "loss": 3.4722,
      "step": 445300
    },
    {
      "epoch": 0.9277291666666667,
      "grad_norm": 2.530412435531616,
      "learning_rate": 3.881787079811605e-06,
      "loss": 3.4227,
      "step": 445310
    },
    {
      "epoch": 0.92775,
      "grad_norm": 3.8496859073638916,
      "learning_rate": 3.879559112173525e-06,
      "loss": 3.493,
      "step": 445320
    },
    {
      "epoch": 0.9277708333333333,
      "grad_norm": 2.6528573036193848,
      "learning_rate": 3.877331775717885e-06,
      "loss": 3.4948,
      "step": 445330
    },
    {
      "epoch": 0.9277916666666667,
      "grad_norm": 2.633028984069824,
      "learning_rate": 3.875105070454326e-06,
      "loss": 3.2632,
      "step": 445340
    },
    {
      "epoch": 0.9278125,
      "grad_norm": 3.722931385040283,
      "learning_rate": 3.8728789963925086e-06,
      "loss": 3.3812,
      "step": 445350
    },
    {
      "epoch": 0.9278333333333333,
      "grad_norm": 3.5530569553375244,
      "learning_rate": 3.8706535535419745e-06,
      "loss": 3.3488,
      "step": 445360
    },
    {
      "epoch": 0.9278541666666666,
      "grad_norm": 2.6372222900390625,
      "learning_rate": 3.8684287419123824e-06,
      "loss": 3.4475,
      "step": 445370
    },
    {
      "epoch": 0.927875,
      "grad_norm": 2.860646963119507,
      "learning_rate": 3.866204561513358e-06,
      "loss": 3.418,
      "step": 445380
    },
    {
      "epoch": 0.9278958333333334,
      "grad_norm": 2.9740521907806396,
      "learning_rate": 3.863981012354461e-06,
      "loss": 3.3661,
      "step": 445390
    },
    {
      "epoch": 0.9279166666666666,
      "grad_norm": 3.3569202423095703,
      "learning_rate": 3.861758094445333e-06,
      "loss": 3.5735,
      "step": 445400
    },
    {
      "epoch": 0.9279375,
      "grad_norm": 3.2789533138275146,
      "learning_rate": 3.8595358077955825e-06,
      "loss": 3.4642,
      "step": 445410
    },
    {
      "epoch": 0.9279583333333333,
      "grad_norm": 3.0071563720703125,
      "learning_rate": 3.85731415241477e-06,
      "loss": 3.4247,
      "step": 445420
    },
    {
      "epoch": 0.9279791666666667,
      "grad_norm": 3.214341878890991,
      "learning_rate": 3.855093128312503e-06,
      "loss": 3.4561,
      "step": 445430
    },
    {
      "epoch": 0.928,
      "grad_norm": 3.693847179412842,
      "learning_rate": 3.852872735498408e-06,
      "loss": 3.4045,
      "step": 445440
    },
    {
      "epoch": 0.9280208333333333,
      "grad_norm": 2.984445810317993,
      "learning_rate": 3.850652973982044e-06,
      "loss": 3.4274,
      "step": 445450
    },
    {
      "epoch": 0.9280416666666667,
      "grad_norm": 2.6136372089385986,
      "learning_rate": 3.848433843773003e-06,
      "loss": 3.3852,
      "step": 445460
    },
    {
      "epoch": 0.9280625,
      "grad_norm": 3.277933359146118,
      "learning_rate": 3.846215344880893e-06,
      "loss": 3.3066,
      "step": 445470
    },
    {
      "epoch": 0.9280833333333334,
      "grad_norm": 2.8980536460876465,
      "learning_rate": 3.843997477315258e-06,
      "loss": 3.4349,
      "step": 445480
    },
    {
      "epoch": 0.9281041666666666,
      "grad_norm": 3.08248233795166,
      "learning_rate": 3.841780241085723e-06,
      "loss": 3.5092,
      "step": 445490
    },
    {
      "epoch": 0.928125,
      "grad_norm": 3.225238561630249,
      "learning_rate": 3.839563636201831e-06,
      "loss": 3.3956,
      "step": 445500
    },
    {
      "epoch": 0.9281458333333333,
      "grad_norm": 2.6270062923431396,
      "learning_rate": 3.8373476626731735e-06,
      "loss": 3.3045,
      "step": 445510
    },
    {
      "epoch": 0.9281666666666667,
      "grad_norm": 2.8662242889404297,
      "learning_rate": 3.835132320509326e-06,
      "loss": 3.5294,
      "step": 445520
    },
    {
      "epoch": 0.9281875,
      "grad_norm": 4.491944313049316,
      "learning_rate": 3.832917609719832e-06,
      "loss": 3.5272,
      "step": 445530
    },
    {
      "epoch": 0.9282083333333333,
      "grad_norm": 3.269779682159424,
      "learning_rate": 3.8307035303142995e-06,
      "loss": 3.4119,
      "step": 445540
    },
    {
      "epoch": 0.9282291666666667,
      "grad_norm": 4.065942764282227,
      "learning_rate": 3.8284900823022545e-06,
      "loss": 3.4586,
      "step": 445550
    },
    {
      "epoch": 0.92825,
      "grad_norm": 3.3560900688171387,
      "learning_rate": 3.826277265693273e-06,
      "loss": 3.4614,
      "step": 445560
    },
    {
      "epoch": 0.9282708333333334,
      "grad_norm": 3.0362071990966797,
      "learning_rate": 3.8240650804969296e-06,
      "loss": 3.3846,
      "step": 445570
    },
    {
      "epoch": 0.9282916666666666,
      "grad_norm": 3.082469940185547,
      "learning_rate": 3.821853526722751e-06,
      "loss": 3.4997,
      "step": 445580
    },
    {
      "epoch": 0.9283125,
      "grad_norm": 3.1459665298461914,
      "learning_rate": 3.819642604380313e-06,
      "loss": 3.5383,
      "step": 445590
    },
    {
      "epoch": 0.9283333333333333,
      "grad_norm": 2.657095193862915,
      "learning_rate": 3.817432313479141e-06,
      "loss": 3.3701,
      "step": 445600
    },
    {
      "epoch": 0.9283541666666667,
      "grad_norm": 3.166229248046875,
      "learning_rate": 3.81522265402881e-06,
      "loss": 3.4963,
      "step": 445610
    },
    {
      "epoch": 0.928375,
      "grad_norm": 4.623239517211914,
      "learning_rate": 3.8130136260388465e-06,
      "loss": 3.5085,
      "step": 445620
    },
    {
      "epoch": 0.9283958333333333,
      "grad_norm": 2.9162049293518066,
      "learning_rate": 3.8108052295188096e-06,
      "loss": 3.5904,
      "step": 445630
    },
    {
      "epoch": 0.9284166666666667,
      "grad_norm": 3.481598377227783,
      "learning_rate": 3.8085974644782246e-06,
      "loss": 3.4911,
      "step": 445640
    },
    {
      "epoch": 0.9284375,
      "grad_norm": 3.614443063735962,
      "learning_rate": 3.806390330926634e-06,
      "loss": 3.4042,
      "step": 445650
    },
    {
      "epoch": 0.9284583333333334,
      "grad_norm": 3.307856798171997,
      "learning_rate": 3.804183828873564e-06,
      "loss": 3.451,
      "step": 445660
    },
    {
      "epoch": 0.9284791666666666,
      "grad_norm": 3.0654549598693848,
      "learning_rate": 3.801977958328556e-06,
      "loss": 3.417,
      "step": 445670
    },
    {
      "epoch": 0.9285,
      "grad_norm": 3.007984161376953,
      "learning_rate": 3.799772719301136e-06,
      "loss": 3.4097,
      "step": 445680
    },
    {
      "epoch": 0.9285208333333334,
      "grad_norm": 3.000324249267578,
      "learning_rate": 3.7975681118008306e-06,
      "loss": 3.485,
      "step": 445690
    },
    {
      "epoch": 0.9285416666666667,
      "grad_norm": 3.8410966396331787,
      "learning_rate": 3.7953641358371313e-06,
      "loss": 3.3024,
      "step": 445700
    },
    {
      "epoch": 0.9285625,
      "grad_norm": 3.7600929737091064,
      "learning_rate": 3.793160791419614e-06,
      "loss": 3.4613,
      "step": 445710
    },
    {
      "epoch": 0.9285833333333333,
      "grad_norm": 2.933785915374756,
      "learning_rate": 3.7909580785577877e-06,
      "loss": 3.3324,
      "step": 445720
    },
    {
      "epoch": 0.9286041666666667,
      "grad_norm": 3.978729248046875,
      "learning_rate": 3.7887559972611114e-06,
      "loss": 3.3363,
      "step": 445730
    },
    {
      "epoch": 0.928625,
      "grad_norm": 2.9312427043914795,
      "learning_rate": 3.7865545475391444e-06,
      "loss": 3.3974,
      "step": 445740
    },
    {
      "epoch": 0.9286458333333333,
      "grad_norm": 2.543689489364624,
      "learning_rate": 3.784353729401396e-06,
      "loss": 3.4393,
      "step": 445750
    },
    {
      "epoch": 0.9286666666666666,
      "grad_norm": 3.1207950115203857,
      "learning_rate": 3.782153542857358e-06,
      "loss": 3.3477,
      "step": 445760
    },
    {
      "epoch": 0.9286875,
      "grad_norm": 2.944697618484497,
      "learning_rate": 3.779953987916523e-06,
      "loss": 3.3897,
      "step": 445770
    },
    {
      "epoch": 0.9287083333333334,
      "grad_norm": 3.141162872314453,
      "learning_rate": 3.7777550645884504e-06,
      "loss": 3.4221,
      "step": 445780
    },
    {
      "epoch": 0.9287291666666667,
      "grad_norm": 2.672529458999634,
      "learning_rate": 3.7755567728825653e-06,
      "loss": 3.3772,
      "step": 445790
    },
    {
      "epoch": 0.92875,
      "grad_norm": 3.14558744430542,
      "learning_rate": 3.773359112808394e-06,
      "loss": 3.4632,
      "step": 445800
    },
    {
      "epoch": 0.9287708333333333,
      "grad_norm": 2.86049747467041,
      "learning_rate": 3.7711620843754453e-06,
      "loss": 3.4049,
      "step": 445810
    },
    {
      "epoch": 0.9287916666666667,
      "grad_norm": 3.7078349590301514,
      "learning_rate": 3.768965687593195e-06,
      "loss": 3.4267,
      "step": 445820
    },
    {
      "epoch": 0.9288125,
      "grad_norm": 2.8068273067474365,
      "learning_rate": 3.766769922471119e-06,
      "loss": 3.4603,
      "step": 445830
    },
    {
      "epoch": 0.9288333333333333,
      "grad_norm": 3.731703519821167,
      "learning_rate": 3.764574789018726e-06,
      "loss": 3.4456,
      "step": 445840
    },
    {
      "epoch": 0.9288541666666666,
      "grad_norm": 4.808431625366211,
      "learning_rate": 3.7623802872454756e-06,
      "loss": 3.4055,
      "step": 445850
    },
    {
      "epoch": 0.928875,
      "grad_norm": 3.2344305515289307,
      "learning_rate": 3.76018641716086e-06,
      "loss": 3.6494,
      "step": 445860
    },
    {
      "epoch": 0.9288958333333334,
      "grad_norm": 2.679232120513916,
      "learning_rate": 3.7579931787743544e-06,
      "loss": 3.3506,
      "step": 445870
    },
    {
      "epoch": 0.9289166666666666,
      "grad_norm": 2.4563233852386475,
      "learning_rate": 3.7558005720954353e-06,
      "loss": 3.4187,
      "step": 445880
    },
    {
      "epoch": 0.9289375,
      "grad_norm": 3.9726898670196533,
      "learning_rate": 3.7536085971335615e-06,
      "loss": 3.4016,
      "step": 445890
    },
    {
      "epoch": 0.9289583333333333,
      "grad_norm": 2.849987268447876,
      "learning_rate": 3.7514172538982255e-06,
      "loss": 3.3235,
      "step": 445900
    },
    {
      "epoch": 0.9289791666666667,
      "grad_norm": 3.9634597301483154,
      "learning_rate": 3.74922654239887e-06,
      "loss": 3.2897,
      "step": 445910
    },
    {
      "epoch": 0.929,
      "grad_norm": 3.0927658081054688,
      "learning_rate": 3.7470364626449535e-06,
      "loss": 3.4624,
      "step": 445920
    },
    {
      "epoch": 0.9290208333333333,
      "grad_norm": 3.494719982147217,
      "learning_rate": 3.7448470146459687e-06,
      "loss": 3.3791,
      "step": 445930
    },
    {
      "epoch": 0.9290416666666667,
      "grad_norm": 3.4143052101135254,
      "learning_rate": 3.742658198411341e-06,
      "loss": 3.3908,
      "step": 445940
    },
    {
      "epoch": 0.9290625,
      "grad_norm": 2.8022215366363525,
      "learning_rate": 3.7404700139505306e-06,
      "loss": 3.467,
      "step": 445950
    },
    {
      "epoch": 0.9290833333333334,
      "grad_norm": 3.890434741973877,
      "learning_rate": 3.7382824612730123e-06,
      "loss": 3.4722,
      "step": 445960
    },
    {
      "epoch": 0.9291041666666666,
      "grad_norm": 3.240732431411743,
      "learning_rate": 3.736095540388212e-06,
      "loss": 3.4784,
      "step": 445970
    },
    {
      "epoch": 0.929125,
      "grad_norm": 2.7896134853363037,
      "learning_rate": 3.7339092513055724e-06,
      "loss": 3.4202,
      "step": 445980
    },
    {
      "epoch": 0.9291458333333333,
      "grad_norm": 3.727536678314209,
      "learning_rate": 3.731723594034569e-06,
      "loss": 3.3613,
      "step": 445990
    },
    {
      "epoch": 0.9291666666666667,
      "grad_norm": 2.512704849243164,
      "learning_rate": 3.7295385685846113e-06,
      "loss": 3.4551,
      "step": 446000
    },
    {
      "epoch": 0.9291666666666667,
      "eval_loss": 3.522282838821411,
      "eval_runtime": 6.8665,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.437,
      "step": 446000
    },
    {
      "epoch": 0.9291875,
      "grad_norm": 2.642977714538574,
      "learning_rate": 3.727354174965158e-06,
      "loss": 3.2599,
      "step": 446010
    },
    {
      "epoch": 0.9292083333333333,
      "grad_norm": 2.4100918769836426,
      "learning_rate": 3.7251704131856184e-06,
      "loss": 3.3651,
      "step": 446020
    },
    {
      "epoch": 0.9292291666666667,
      "grad_norm": 3.4066925048828125,
      "learning_rate": 3.722987283255452e-06,
      "loss": 3.3242,
      "step": 446030
    },
    {
      "epoch": 0.92925,
      "grad_norm": 4.273185729980469,
      "learning_rate": 3.7208047851841004e-06,
      "loss": 3.4128,
      "step": 446040
    },
    {
      "epoch": 0.9292708333333334,
      "grad_norm": 3.1742632389068604,
      "learning_rate": 3.71862291898094e-06,
      "loss": 3.4309,
      "step": 446050
    },
    {
      "epoch": 0.9292916666666666,
      "grad_norm": 3.371217727661133,
      "learning_rate": 3.716441684655447e-06,
      "loss": 3.4995,
      "step": 446060
    },
    {
      "epoch": 0.9293125,
      "grad_norm": 3.192007064819336,
      "learning_rate": 3.7142610822170126e-06,
      "loss": 3.3946,
      "step": 446070
    },
    {
      "epoch": 0.9293333333333333,
      "grad_norm": 3.1109743118286133,
      "learning_rate": 3.712081111675064e-06,
      "loss": 3.3153,
      "step": 446080
    },
    {
      "epoch": 0.9293541666666667,
      "grad_norm": 3.1289584636688232,
      "learning_rate": 3.7099017730390425e-06,
      "loss": 3.3219,
      "step": 446090
    },
    {
      "epoch": 0.929375,
      "grad_norm": 2.5460166931152344,
      "learning_rate": 3.707723066318308e-06,
      "loss": 3.5018,
      "step": 446100
    },
    {
      "epoch": 0.9293958333333333,
      "grad_norm": 3.17623233795166,
      "learning_rate": 3.7055449915223023e-06,
      "loss": 3.4286,
      "step": 446110
    },
    {
      "epoch": 0.9294166666666667,
      "grad_norm": 4.168656826019287,
      "learning_rate": 3.7033675486604684e-06,
      "loss": 3.4081,
      "step": 446120
    },
    {
      "epoch": 0.9294375,
      "grad_norm": 2.5807464122772217,
      "learning_rate": 3.7011907377421656e-06,
      "loss": 3.3823,
      "step": 446130
    },
    {
      "epoch": 0.9294583333333334,
      "grad_norm": 2.5307912826538086,
      "learning_rate": 3.699014558776786e-06,
      "loss": 3.3961,
      "step": 446140
    },
    {
      "epoch": 0.9294791666666666,
      "grad_norm": 2.5921671390533447,
      "learning_rate": 3.696839011773789e-06,
      "loss": 3.6826,
      "step": 446150
    },
    {
      "epoch": 0.9295,
      "grad_norm": 2.7987279891967773,
      "learning_rate": 3.694664096742517e-06,
      "loss": 3.5477,
      "step": 446160
    },
    {
      "epoch": 0.9295208333333334,
      "grad_norm": 4.600011825561523,
      "learning_rate": 3.6924898136923787e-06,
      "loss": 3.4246,
      "step": 446170
    },
    {
      "epoch": 0.9295416666666667,
      "grad_norm": 2.6467928886413574,
      "learning_rate": 3.6903161626327836e-06,
      "loss": 3.5406,
      "step": 446180
    },
    {
      "epoch": 0.9295625,
      "grad_norm": 3.0126395225524902,
      "learning_rate": 3.688143143573108e-06,
      "loss": 3.4553,
      "step": 446190
    },
    {
      "epoch": 0.9295833333333333,
      "grad_norm": 2.847900390625,
      "learning_rate": 3.6859707565227436e-06,
      "loss": 3.43,
      "step": 446200
    },
    {
      "epoch": 0.9296041666666667,
      "grad_norm": 3.8441460132598877,
      "learning_rate": 3.6837990014910503e-06,
      "loss": 3.4212,
      "step": 446210
    },
    {
      "epoch": 0.929625,
      "grad_norm": 3.497683525085449,
      "learning_rate": 3.6816278784874532e-06,
      "loss": 3.4579,
      "step": 446220
    },
    {
      "epoch": 0.9296458333333333,
      "grad_norm": 2.5381417274475098,
      "learning_rate": 3.679457387521295e-06,
      "loss": 3.5018,
      "step": 446230
    },
    {
      "epoch": 0.9296666666666666,
      "grad_norm": 2.8068578243255615,
      "learning_rate": 3.6772875286019685e-06,
      "loss": 3.427,
      "step": 446240
    },
    {
      "epoch": 0.9296875,
      "grad_norm": 2.9010114669799805,
      "learning_rate": 3.675118301738833e-06,
      "loss": 3.4295,
      "step": 446250
    },
    {
      "epoch": 0.9297083333333334,
      "grad_norm": 3.1448357105255127,
      "learning_rate": 3.672949706941264e-06,
      "loss": 3.4007,
      "step": 446260
    },
    {
      "epoch": 0.9297291666666667,
      "grad_norm": 2.880908489227295,
      "learning_rate": 3.670781744218654e-06,
      "loss": 3.3982,
      "step": 446270
    },
    {
      "epoch": 0.92975,
      "grad_norm": 3.121332883834839,
      "learning_rate": 3.6686144135803285e-06,
      "loss": 3.4326,
      "step": 446280
    },
    {
      "epoch": 0.9297708333333333,
      "grad_norm": 3.1055219173431396,
      "learning_rate": 3.666447715035664e-06,
      "loss": 3.4764,
      "step": 446290
    },
    {
      "epoch": 0.9297916666666667,
      "grad_norm": 2.99269700050354,
      "learning_rate": 3.664281648594036e-06,
      "loss": 3.4803,
      "step": 446300
    },
    {
      "epoch": 0.9298125,
      "grad_norm": 3.0286741256713867,
      "learning_rate": 3.662116214264771e-06,
      "loss": 3.5217,
      "step": 446310
    },
    {
      "epoch": 0.9298333333333333,
      "grad_norm": 3.443026065826416,
      "learning_rate": 3.6599514120572603e-06,
      "loss": 3.5663,
      "step": 446320
    },
    {
      "epoch": 0.9298541666666666,
      "grad_norm": 2.977843761444092,
      "learning_rate": 3.657787241980814e-06,
      "loss": 3.4084,
      "step": 446330
    },
    {
      "epoch": 0.929875,
      "grad_norm": 2.559793472290039,
      "learning_rate": 3.655623704044808e-06,
      "loss": 3.4184,
      "step": 446340
    },
    {
      "epoch": 0.9298958333333334,
      "grad_norm": 2.716865062713623,
      "learning_rate": 3.6534607982586006e-06,
      "loss": 3.4041,
      "step": 446350
    },
    {
      "epoch": 0.9299166666666666,
      "grad_norm": 2.8500866889953613,
      "learning_rate": 3.6512985246314684e-06,
      "loss": 3.2419,
      "step": 446360
    },
    {
      "epoch": 0.9299375,
      "grad_norm": 2.9455692768096924,
      "learning_rate": 3.6491368831728205e-06,
      "loss": 3.4001,
      "step": 446370
    },
    {
      "epoch": 0.9299583333333333,
      "grad_norm": 3.0295250415802,
      "learning_rate": 3.646975873892e-06,
      "loss": 3.2909,
      "step": 446380
    },
    {
      "epoch": 0.9299791666666667,
      "grad_norm": 3.4604108333587646,
      "learning_rate": 3.6448154967982647e-06,
      "loss": 3.3883,
      "step": 446390
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.0171852111816406,
      "learning_rate": 3.6426557519010245e-06,
      "loss": 3.3926,
      "step": 446400
    },
    {
      "epoch": 0.9300208333333333,
      "grad_norm": 4.692806243896484,
      "learning_rate": 3.6404966392095893e-06,
      "loss": 3.4834,
      "step": 446410
    },
    {
      "epoch": 0.9300416666666667,
      "grad_norm": 2.410599946975708,
      "learning_rate": 3.6383381587332507e-06,
      "loss": 3.4001,
      "step": 446420
    },
    {
      "epoch": 0.9300625,
      "grad_norm": 3.6253821849823,
      "learning_rate": 3.636180310481368e-06,
      "loss": 3.3358,
      "step": 446430
    },
    {
      "epoch": 0.9300833333333334,
      "grad_norm": 2.8760826587677,
      "learning_rate": 3.6340230944632508e-06,
      "loss": 3.4997,
      "step": 446440
    },
    {
      "epoch": 0.9301041666666666,
      "grad_norm": 3.0387284755706787,
      "learning_rate": 3.6318665106882085e-06,
      "loss": 3.4826,
      "step": 446450
    },
    {
      "epoch": 0.930125,
      "grad_norm": 2.8115508556365967,
      "learning_rate": 3.6297105591655827e-06,
      "loss": 3.3841,
      "step": 446460
    },
    {
      "epoch": 0.9301458333333333,
      "grad_norm": 3.4463717937469482,
      "learning_rate": 3.627555239904667e-06,
      "loss": 3.3638,
      "step": 446470
    },
    {
      "epoch": 0.9301666666666667,
      "grad_norm": 2.7417805194854736,
      "learning_rate": 3.6254005529147536e-06,
      "loss": 3.4379,
      "step": 446480
    },
    {
      "epoch": 0.9301875,
      "grad_norm": 2.635098695755005,
      "learning_rate": 3.623246498205201e-06,
      "loss": 3.309,
      "step": 446490
    },
    {
      "epoch": 0.9302083333333333,
      "grad_norm": 2.7599425315856934,
      "learning_rate": 3.6210930757852698e-06,
      "loss": 3.4587,
      "step": 446500
    },
    {
      "epoch": 0.9302291666666667,
      "grad_norm": 4.4409589767456055,
      "learning_rate": 3.618940285664268e-06,
      "loss": 3.5052,
      "step": 446510
    },
    {
      "epoch": 0.93025,
      "grad_norm": 3.366013288497925,
      "learning_rate": 3.616788127851522e-06,
      "loss": 3.3851,
      "step": 446520
    },
    {
      "epoch": 0.9302708333333334,
      "grad_norm": 2.9630796909332275,
      "learning_rate": 3.614636602356291e-06,
      "loss": 3.4166,
      "step": 446530
    },
    {
      "epoch": 0.9302916666666666,
      "grad_norm": 3.187678337097168,
      "learning_rate": 3.6124857091878845e-06,
      "loss": 3.4268,
      "step": 446540
    },
    {
      "epoch": 0.9303125,
      "grad_norm": 2.814561605453491,
      "learning_rate": 3.6103354483556114e-06,
      "loss": 3.4031,
      "step": 446550
    },
    {
      "epoch": 0.9303333333333333,
      "grad_norm": 3.047612190246582,
      "learning_rate": 3.6081858198687474e-06,
      "loss": 3.5431,
      "step": 446560
    },
    {
      "epoch": 0.9303541666666667,
      "grad_norm": 4.088324546813965,
      "learning_rate": 3.606036823736552e-06,
      "loss": 3.526,
      "step": 446570
    },
    {
      "epoch": 0.930375,
      "grad_norm": 2.707763671875,
      "learning_rate": 3.6038884599683514e-06,
      "loss": 3.4594,
      "step": 446580
    },
    {
      "epoch": 0.9303958333333333,
      "grad_norm": 3.4080729484558105,
      "learning_rate": 3.601740728573388e-06,
      "loss": 3.2871,
      "step": 446590
    },
    {
      "epoch": 0.9304166666666667,
      "grad_norm": 2.631005048751831,
      "learning_rate": 3.5995936295609707e-06,
      "loss": 3.3965,
      "step": 446600
    },
    {
      "epoch": 0.9304375,
      "grad_norm": 3.872108221054077,
      "learning_rate": 3.5974471629403424e-06,
      "loss": 3.3727,
      "step": 446610
    },
    {
      "epoch": 0.9304583333333334,
      "grad_norm": 3.080889940261841,
      "learning_rate": 3.595301328720812e-06,
      "loss": 3.5114,
      "step": 446620
    },
    {
      "epoch": 0.9304791666666666,
      "grad_norm": 2.6999831199645996,
      "learning_rate": 3.5931561269116226e-06,
      "loss": 3.3526,
      "step": 446630
    },
    {
      "epoch": 0.9305,
      "grad_norm": 3.5271952152252197,
      "learning_rate": 3.591011557522033e-06,
      "loss": 3.5472,
      "step": 446640
    },
    {
      "epoch": 0.9305208333333334,
      "grad_norm": 3.7311818599700928,
      "learning_rate": 3.5888676205613363e-06,
      "loss": 3.4712,
      "step": 446650
    },
    {
      "epoch": 0.9305416666666667,
      "grad_norm": 3.1710686683654785,
      "learning_rate": 3.586724316038775e-06,
      "loss": 3.547,
      "step": 446660
    },
    {
      "epoch": 0.9305625,
      "grad_norm": 3.4710893630981445,
      "learning_rate": 3.5845816439636075e-06,
      "loss": 3.424,
      "step": 446670
    },
    {
      "epoch": 0.9305833333333333,
      "grad_norm": 4.511370658874512,
      "learning_rate": 3.5824396043450942e-06,
      "loss": 3.495,
      "step": 446680
    },
    {
      "epoch": 0.9306041666666667,
      "grad_norm": 3.3122596740722656,
      "learning_rate": 3.5802981971924937e-06,
      "loss": 3.4994,
      "step": 446690
    },
    {
      "epoch": 0.930625,
      "grad_norm": 3.6194570064544678,
      "learning_rate": 3.5781574225150323e-06,
      "loss": 3.3848,
      "step": 446700
    },
    {
      "epoch": 0.9306458333333333,
      "grad_norm": 3.1147820949554443,
      "learning_rate": 3.576017280321969e-06,
      "loss": 3.4955,
      "step": 446710
    },
    {
      "epoch": 0.9306666666666666,
      "grad_norm": 3.0503017902374268,
      "learning_rate": 3.5738777706225796e-06,
      "loss": 3.5114,
      "step": 446720
    },
    {
      "epoch": 0.9306875,
      "grad_norm": 4.088845729827881,
      "learning_rate": 3.5717388934260406e-06,
      "loss": 3.4716,
      "step": 446730
    },
    {
      "epoch": 0.9307083333333334,
      "grad_norm": 3.6363470554351807,
      "learning_rate": 3.5696006487416607e-06,
      "loss": 3.5065,
      "step": 446740
    },
    {
      "epoch": 0.9307291666666667,
      "grad_norm": 2.9414799213409424,
      "learning_rate": 3.5674630365786496e-06,
      "loss": 3.3393,
      "step": 446750
    },
    {
      "epoch": 0.93075,
      "grad_norm": 2.671409845352173,
      "learning_rate": 3.5653260569461994e-06,
      "loss": 3.1862,
      "step": 446760
    },
    {
      "epoch": 0.9307708333333333,
      "grad_norm": 2.4490582942962646,
      "learning_rate": 3.5631897098536033e-06,
      "loss": 3.4176,
      "step": 446770
    },
    {
      "epoch": 0.9307916666666667,
      "grad_norm": 3.5059597492218018,
      "learning_rate": 3.56105399531007e-06,
      "loss": 3.4884,
      "step": 446780
    },
    {
      "epoch": 0.9308125,
      "grad_norm": 3.845156192779541,
      "learning_rate": 3.558918913324793e-06,
      "loss": 3.4051,
      "step": 446790
    },
    {
      "epoch": 0.9308333333333333,
      "grad_norm": 3.486783742904663,
      "learning_rate": 3.5567844639070474e-06,
      "loss": 3.4554,
      "step": 446800
    },
    {
      "epoch": 0.9308541666666666,
      "grad_norm": 3.6655185222625732,
      "learning_rate": 3.5546506470660265e-06,
      "loss": 3.4551,
      "step": 446810
    },
    {
      "epoch": 0.930875,
      "grad_norm": 2.6865427494049072,
      "learning_rate": 3.552517462810922e-06,
      "loss": 3.6222,
      "step": 446820
    },
    {
      "epoch": 0.9308958333333334,
      "grad_norm": 2.5441365242004395,
      "learning_rate": 3.5503849111510107e-06,
      "loss": 3.5137,
      "step": 446830
    },
    {
      "epoch": 0.9309166666666666,
      "grad_norm": 3.3319311141967773,
      "learning_rate": 3.548252992095452e-06,
      "loss": 3.464,
      "step": 446840
    },
    {
      "epoch": 0.9309375,
      "grad_norm": 2.8474743366241455,
      "learning_rate": 3.5461217056534373e-06,
      "loss": 3.456,
      "step": 446850
    },
    {
      "epoch": 0.9309583333333333,
      "grad_norm": 2.770287036895752,
      "learning_rate": 3.5439910518342607e-06,
      "loss": 3.4181,
      "step": 446860
    },
    {
      "epoch": 0.9309791666666667,
      "grad_norm": 3.249514102935791,
      "learning_rate": 3.5418610306470474e-06,
      "loss": 3.4206,
      "step": 446870
    },
    {
      "epoch": 0.931,
      "grad_norm": 3.348975658416748,
      "learning_rate": 3.5397316421009904e-06,
      "loss": 3.4787,
      "step": 446880
    },
    {
      "epoch": 0.9310208333333333,
      "grad_norm": 2.3769826889038086,
      "learning_rate": 3.537602886205365e-06,
      "loss": 3.4221,
      "step": 446890
    },
    {
      "epoch": 0.9310416666666667,
      "grad_norm": 3.2619192600250244,
      "learning_rate": 3.535474762969315e-06,
      "loss": 3.4169,
      "step": 446900
    },
    {
      "epoch": 0.9310625,
      "grad_norm": 3.451852321624756,
      "learning_rate": 3.5333472724020316e-06,
      "loss": 3.3206,
      "step": 446910
    },
    {
      "epoch": 0.9310833333333334,
      "grad_norm": 3.5829057693481445,
      "learning_rate": 3.531220414512709e-06,
      "loss": 3.3389,
      "step": 446920
    },
    {
      "epoch": 0.9311041666666666,
      "grad_norm": 3.449632406234741,
      "learning_rate": 3.5290941893105386e-06,
      "loss": 3.5347,
      "step": 446930
    },
    {
      "epoch": 0.931125,
      "grad_norm": 3.1699411869049072,
      "learning_rate": 3.526968596804697e-06,
      "loss": 3.4813,
      "step": 446940
    },
    {
      "epoch": 0.9311458333333333,
      "grad_norm": 3.3854753971099854,
      "learning_rate": 3.524843637004393e-06,
      "loss": 3.4968,
      "step": 446950
    },
    {
      "epoch": 0.9311666666666667,
      "grad_norm": 2.8220388889312744,
      "learning_rate": 3.52271930991877e-06,
      "loss": 3.5724,
      "step": 446960
    },
    {
      "epoch": 0.9311875,
      "grad_norm": 2.4488534927368164,
      "learning_rate": 3.5205956155570204e-06,
      "loss": 3.5037,
      "step": 446970
    },
    {
      "epoch": 0.9312083333333333,
      "grad_norm": 2.8818039894104004,
      "learning_rate": 3.51847255392832e-06,
      "loss": 3.5537,
      "step": 446980
    },
    {
      "epoch": 0.9312291666666667,
      "grad_norm": 3.2047252655029297,
      "learning_rate": 3.516350125041845e-06,
      "loss": 3.5283,
      "step": 446990
    },
    {
      "epoch": 0.93125,
      "grad_norm": 3.1243741512298584,
      "learning_rate": 3.5142283289067373e-06,
      "loss": 3.3616,
      "step": 447000
    },
    {
      "epoch": 0.93125,
      "eval_loss": 3.5204501152038574,
      "eval_runtime": 7.3059,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 447000
    },
    {
      "epoch": 0.9312708333333334,
      "grad_norm": 2.7396228313446045,
      "learning_rate": 3.5121071655321906e-06,
      "loss": 3.443,
      "step": 447010
    },
    {
      "epoch": 0.9312916666666666,
      "grad_norm": 2.8587331771850586,
      "learning_rate": 3.509986634927364e-06,
      "loss": 3.4608,
      "step": 447020
    },
    {
      "epoch": 0.9313125,
      "grad_norm": 2.936753511428833,
      "learning_rate": 3.5078667371014003e-06,
      "loss": 3.5173,
      "step": 447030
    },
    {
      "epoch": 0.9313333333333333,
      "grad_norm": 3.0313732624053955,
      "learning_rate": 3.505747472063475e-06,
      "loss": 3.4003,
      "step": 447040
    },
    {
      "epoch": 0.9313541666666667,
      "grad_norm": 2.762636184692383,
      "learning_rate": 3.5036288398227306e-06,
      "loss": 3.4567,
      "step": 447050
    },
    {
      "epoch": 0.931375,
      "grad_norm": 3.3261759281158447,
      "learning_rate": 3.5015108403883275e-06,
      "loss": 3.4632,
      "step": 447060
    },
    {
      "epoch": 0.9313958333333333,
      "grad_norm": 4.1041460037231445,
      "learning_rate": 3.4993934737693908e-06,
      "loss": 3.2543,
      "step": 447070
    },
    {
      "epoch": 0.9314166666666667,
      "grad_norm": 3.525235652923584,
      "learning_rate": 3.4972767399750967e-06,
      "loss": 3.5685,
      "step": 447080
    },
    {
      "epoch": 0.9314375,
      "grad_norm": 3.321389675140381,
      "learning_rate": 3.495160639014588e-06,
      "loss": 3.4894,
      "step": 447090
    },
    {
      "epoch": 0.9314583333333334,
      "grad_norm": 3.183502197265625,
      "learning_rate": 3.493045170896974e-06,
      "loss": 3.465,
      "step": 447100
    },
    {
      "epoch": 0.9314791666666666,
      "grad_norm": 2.982665538787842,
      "learning_rate": 3.4909303356314312e-06,
      "loss": 3.338,
      "step": 447110
    },
    {
      "epoch": 0.9315,
      "grad_norm": 3.5344769954681396,
      "learning_rate": 3.4888161332270683e-06,
      "loss": 3.4039,
      "step": 447120
    },
    {
      "epoch": 0.9315208333333334,
      "grad_norm": 3.249459743499756,
      "learning_rate": 3.486702563693028e-06,
      "loss": 3.5127,
      "step": 447130
    },
    {
      "epoch": 0.9315416666666667,
      "grad_norm": 3.2296695709228516,
      "learning_rate": 3.4845896270384365e-06,
      "loss": 3.4722,
      "step": 447140
    },
    {
      "epoch": 0.9315625,
      "grad_norm": 2.996523380279541,
      "learning_rate": 3.482477323272437e-06,
      "loss": 3.4958,
      "step": 447150
    },
    {
      "epoch": 0.9315833333333333,
      "grad_norm": 3.5794122219085693,
      "learning_rate": 3.4803656524041047e-06,
      "loss": 3.3336,
      "step": 447160
    },
    {
      "epoch": 0.9316041666666667,
      "grad_norm": 3.6172125339508057,
      "learning_rate": 3.478254614442633e-06,
      "loss": 3.4112,
      "step": 447170
    },
    {
      "epoch": 0.931625,
      "grad_norm": 2.7044525146484375,
      "learning_rate": 3.476144209397097e-06,
      "loss": 3.4582,
      "step": 447180
    },
    {
      "epoch": 0.9316458333333333,
      "grad_norm": 3.194103479385376,
      "learning_rate": 3.474034437276607e-06,
      "loss": 3.4512,
      "step": 447190
    },
    {
      "epoch": 0.9316666666666666,
      "grad_norm": 2.9696335792541504,
      "learning_rate": 3.471925298090306e-06,
      "loss": 3.4715,
      "step": 447200
    },
    {
      "epoch": 0.9316875,
      "grad_norm": 3.1696057319641113,
      "learning_rate": 3.4698167918472687e-06,
      "loss": 3.2028,
      "step": 447210
    },
    {
      "epoch": 0.9317083333333334,
      "grad_norm": 2.761924982070923,
      "learning_rate": 3.4677089185566385e-06,
      "loss": 3.5649,
      "step": 447220
    },
    {
      "epoch": 0.9317291666666667,
      "grad_norm": 2.948587417602539,
      "learning_rate": 3.465601678227492e-06,
      "loss": 3.5351,
      "step": 447230
    },
    {
      "epoch": 0.93175,
      "grad_norm": 2.6011366844177246,
      "learning_rate": 3.4634950708689547e-06,
      "loss": 3.4828,
      "step": 447240
    },
    {
      "epoch": 0.9317708333333333,
      "grad_norm": 2.886753797531128,
      "learning_rate": 3.4613890964901024e-06,
      "loss": 3.4796,
      "step": 447250
    },
    {
      "epoch": 0.9317916666666667,
      "grad_norm": 2.5749971866607666,
      "learning_rate": 3.4592837551000453e-06,
      "loss": 3.4371,
      "step": 447260
    },
    {
      "epoch": 0.9318125,
      "grad_norm": 3.2874112129211426,
      "learning_rate": 3.457179046707892e-06,
      "loss": 3.3526,
      "step": 447270
    },
    {
      "epoch": 0.9318333333333333,
      "grad_norm": 3.345088005065918,
      "learning_rate": 3.455074971322719e-06,
      "loss": 3.2928,
      "step": 447280
    },
    {
      "epoch": 0.9318541666666667,
      "grad_norm": 3.3495841026306152,
      "learning_rate": 3.452971528953602e-06,
      "loss": 3.3942,
      "step": 447290
    },
    {
      "epoch": 0.931875,
      "grad_norm": 3.3524041175842285,
      "learning_rate": 3.4508687196096507e-06,
      "loss": 3.4339,
      "step": 447300
    },
    {
      "epoch": 0.9318958333333334,
      "grad_norm": 2.597702741622925,
      "learning_rate": 3.4487665432999244e-06,
      "loss": 3.4691,
      "step": 447310
    },
    {
      "epoch": 0.9319166666666666,
      "grad_norm": 2.5718345642089844,
      "learning_rate": 3.446665000033533e-06,
      "loss": 3.5261,
      "step": 447320
    },
    {
      "epoch": 0.9319375,
      "grad_norm": 2.9463610649108887,
      "learning_rate": 3.444564089819535e-06,
      "loss": 3.4042,
      "step": 447330
    },
    {
      "epoch": 0.9319583333333333,
      "grad_norm": 2.6228444576263428,
      "learning_rate": 3.4424638126670068e-06,
      "loss": 3.4171,
      "step": 447340
    },
    {
      "epoch": 0.9319791666666667,
      "grad_norm": 2.7275195121765137,
      "learning_rate": 3.4403641685850246e-06,
      "loss": 3.4054,
      "step": 447350
    },
    {
      "epoch": 0.932,
      "grad_norm": 2.4857218265533447,
      "learning_rate": 3.4382651575826645e-06,
      "loss": 3.2935,
      "step": 447360
    },
    {
      "epoch": 0.9320208333333333,
      "grad_norm": 3.5980844497680664,
      "learning_rate": 3.43616677966897e-06,
      "loss": 3.3603,
      "step": 447370
    },
    {
      "epoch": 0.9320416666666667,
      "grad_norm": 3.6906166076660156,
      "learning_rate": 3.434069034853032e-06,
      "loss": 3.4236,
      "step": 447380
    },
    {
      "epoch": 0.9320625,
      "grad_norm": 3.1885862350463867,
      "learning_rate": 3.4319719231438946e-06,
      "loss": 3.335,
      "step": 447390
    },
    {
      "epoch": 0.9320833333333334,
      "grad_norm": 4.889997482299805,
      "learning_rate": 3.429875444550634e-06,
      "loss": 3.4009,
      "step": 447400
    },
    {
      "epoch": 0.9321041666666666,
      "grad_norm": 3.658428907394409,
      "learning_rate": 3.4277795990822755e-06,
      "loss": 3.5234,
      "step": 447410
    },
    {
      "epoch": 0.932125,
      "grad_norm": 3.2552762031555176,
      "learning_rate": 3.4256843867479123e-06,
      "loss": 3.3615,
      "step": 447420
    },
    {
      "epoch": 0.9321458333333333,
      "grad_norm": 3.542703628540039,
      "learning_rate": 3.423589807556587e-06,
      "loss": 3.5465,
      "step": 447430
    },
    {
      "epoch": 0.9321666666666667,
      "grad_norm": 3.4292097091674805,
      "learning_rate": 3.4214958615172927e-06,
      "loss": 3.4087,
      "step": 447440
    },
    {
      "epoch": 0.9321875,
      "grad_norm": 3.1647861003875732,
      "learning_rate": 3.4194025486391386e-06,
      "loss": 3.4068,
      "step": 447450
    },
    {
      "epoch": 0.9322083333333333,
      "grad_norm": 3.889887571334839,
      "learning_rate": 3.4173098689311506e-06,
      "loss": 3.4747,
      "step": 447460
    },
    {
      "epoch": 0.9322291666666667,
      "grad_norm": 3.0393288135528564,
      "learning_rate": 3.415217822402355e-06,
      "loss": 3.539,
      "step": 447470
    },
    {
      "epoch": 0.93225,
      "grad_norm": 4.4494757652282715,
      "learning_rate": 3.413126409061795e-06,
      "loss": 3.4881,
      "step": 447480
    },
    {
      "epoch": 0.9322708333333334,
      "grad_norm": 2.9254188537597656,
      "learning_rate": 3.4110356289185125e-06,
      "loss": 3.3629,
      "step": 447490
    },
    {
      "epoch": 0.9322916666666666,
      "grad_norm": 2.59834361076355,
      "learning_rate": 3.4089454819815344e-06,
      "loss": 3.3905,
      "step": 447500
    },
    {
      "epoch": 0.9323125,
      "grad_norm": 3.3049490451812744,
      "learning_rate": 3.4068559682598696e-06,
      "loss": 3.3761,
      "step": 447510
    },
    {
      "epoch": 0.9323333333333333,
      "grad_norm": 3.703155279159546,
      "learning_rate": 3.4047670877625776e-06,
      "loss": 3.4945,
      "step": 447520
    },
    {
      "epoch": 0.9323541666666667,
      "grad_norm": 3.73175048828125,
      "learning_rate": 3.402678840498668e-06,
      "loss": 3.4242,
      "step": 447530
    },
    {
      "epoch": 0.932375,
      "grad_norm": 3.8597607612609863,
      "learning_rate": 3.400591226477134e-06,
      "loss": 3.5158,
      "step": 447540
    },
    {
      "epoch": 0.9323958333333333,
      "grad_norm": 3.8598501682281494,
      "learning_rate": 3.3985042457070512e-06,
      "loss": 3.3667,
      "step": 447550
    },
    {
      "epoch": 0.9324166666666667,
      "grad_norm": 3.011826515197754,
      "learning_rate": 3.3964178981973787e-06,
      "loss": 3.4953,
      "step": 447560
    },
    {
      "epoch": 0.9324375,
      "grad_norm": 2.5041863918304443,
      "learning_rate": 3.39433218395716e-06,
      "loss": 3.441,
      "step": 447570
    },
    {
      "epoch": 0.9324583333333333,
      "grad_norm": 3.9435737133026123,
      "learning_rate": 3.392247102995388e-06,
      "loss": 3.4247,
      "step": 447580
    },
    {
      "epoch": 0.9324791666666666,
      "grad_norm": 2.627782106399536,
      "learning_rate": 3.3901626553210716e-06,
      "loss": 3.4746,
      "step": 447590
    },
    {
      "epoch": 0.9325,
      "grad_norm": 5.259572982788086,
      "learning_rate": 3.388078840943237e-06,
      "loss": 3.3813,
      "step": 447600
    },
    {
      "epoch": 0.9325208333333334,
      "grad_norm": 2.42977237701416,
      "learning_rate": 3.3859956598708603e-06,
      "loss": 3.462,
      "step": 447610
    },
    {
      "epoch": 0.9325416666666667,
      "grad_norm": 3.5834381580352783,
      "learning_rate": 3.3839131121129515e-06,
      "loss": 3.4392,
      "step": 447620
    },
    {
      "epoch": 0.9325625,
      "grad_norm": 4.001973628997803,
      "learning_rate": 3.381831197678503e-06,
      "loss": 3.3883,
      "step": 447630
    },
    {
      "epoch": 0.9325833333333333,
      "grad_norm": 4.025632858276367,
      "learning_rate": 3.3797499165765074e-06,
      "loss": 3.4302,
      "step": 447640
    },
    {
      "epoch": 0.9326041666666667,
      "grad_norm": 2.7269461154937744,
      "learning_rate": 3.377669268815958e-06,
      "loss": 3.4961,
      "step": 447650
    },
    {
      "epoch": 0.932625,
      "grad_norm": 3.892066240310669,
      "learning_rate": 3.3755892544058305e-06,
      "loss": 3.4662,
      "step": 447660
    },
    {
      "epoch": 0.9326458333333333,
      "grad_norm": 3.2861030101776123,
      "learning_rate": 3.3735098733551348e-06,
      "loss": 3.4473,
      "step": 447670
    },
    {
      "epoch": 0.9326666666666666,
      "grad_norm": 3.3255746364593506,
      "learning_rate": 3.3714311256728298e-06,
      "loss": 3.3787,
      "step": 447680
    },
    {
      "epoch": 0.9326875,
      "grad_norm": 2.795593023300171,
      "learning_rate": 3.3693530113678925e-06,
      "loss": 3.4922,
      "step": 447690
    },
    {
      "epoch": 0.9327083333333334,
      "grad_norm": 3.1583001613616943,
      "learning_rate": 3.3672755304493314e-06,
      "loss": 3.473,
      "step": 447700
    },
    {
      "epoch": 0.9327291666666667,
      "grad_norm": 2.6263837814331055,
      "learning_rate": 3.3651986829260735e-06,
      "loss": 3.424,
      "step": 447710
    },
    {
      "epoch": 0.93275,
      "grad_norm": 2.4110052585601807,
      "learning_rate": 3.3631224688071278e-06,
      "loss": 3.3679,
      "step": 447720
    },
    {
      "epoch": 0.9327708333333333,
      "grad_norm": 2.902665376663208,
      "learning_rate": 3.361046888101454e-06,
      "loss": 3.4659,
      "step": 447730
    },
    {
      "epoch": 0.9327916666666667,
      "grad_norm": 3.1573550701141357,
      "learning_rate": 3.3589719408180117e-06,
      "loss": 3.4436,
      "step": 447740
    },
    {
      "epoch": 0.9328125,
      "grad_norm": 3.913041353225708,
      "learning_rate": 3.3568976269657764e-06,
      "loss": 3.2734,
      "step": 447750
    },
    {
      "epoch": 0.9328333333333333,
      "grad_norm": 3.1285555362701416,
      "learning_rate": 3.3548239465536752e-06,
      "loss": 3.6013,
      "step": 447760
    },
    {
      "epoch": 0.9328541666666667,
      "grad_norm": 3.293461799621582,
      "learning_rate": 3.3527508995907002e-06,
      "loss": 3.5094,
      "step": 447770
    },
    {
      "epoch": 0.932875,
      "grad_norm": 4.09569787979126,
      "learning_rate": 3.3506784860858117e-06,
      "loss": 3.3423,
      "step": 447780
    },
    {
      "epoch": 0.9328958333333334,
      "grad_norm": 3.0046322345733643,
      "learning_rate": 3.3486067060479183e-06,
      "loss": 3.3801,
      "step": 447790
    },
    {
      "epoch": 0.9329166666666666,
      "grad_norm": 3.675045967102051,
      "learning_rate": 3.3465355594859966e-06,
      "loss": 3.3264,
      "step": 447800
    },
    {
      "epoch": 0.9329375,
      "grad_norm": 2.489257335662842,
      "learning_rate": 3.344465046409023e-06,
      "loss": 3.5309,
      "step": 447810
    },
    {
      "epoch": 0.9329583333333333,
      "grad_norm": 3.3606889247894287,
      "learning_rate": 3.3423951668258563e-06,
      "loss": 3.455,
      "step": 447820
    },
    {
      "epoch": 0.9329791666666667,
      "grad_norm": 2.8953638076782227,
      "learning_rate": 3.3403259207455402e-06,
      "loss": 3.364,
      "step": 447830
    },
    {
      "epoch": 0.933,
      "grad_norm": 2.8144326210021973,
      "learning_rate": 3.3382573081769503e-06,
      "loss": 3.3914,
      "step": 447840
    },
    {
      "epoch": 0.9330208333333333,
      "grad_norm": 3.009762763977051,
      "learning_rate": 3.3361893291290134e-06,
      "loss": 3.4638,
      "step": 447850
    },
    {
      "epoch": 0.9330416666666667,
      "grad_norm": 2.8353159427642822,
      "learning_rate": 3.3341219836107215e-06,
      "loss": 3.4246,
      "step": 447860
    },
    {
      "epoch": 0.9330625,
      "grad_norm": 2.837533712387085,
      "learning_rate": 3.3320552716309513e-06,
      "loss": 3.3164,
      "step": 447870
    },
    {
      "epoch": 0.9330833333333334,
      "grad_norm": 2.79754900932312,
      "learning_rate": 3.3299891931986288e-06,
      "loss": 3.4166,
      "step": 447880
    },
    {
      "epoch": 0.9331041666666666,
      "grad_norm": 3.699260950088501,
      "learning_rate": 3.3279237483227307e-06,
      "loss": 3.4044,
      "step": 447890
    },
    {
      "epoch": 0.933125,
      "grad_norm": 3.1002190113067627,
      "learning_rate": 3.3258589370121158e-06,
      "loss": 3.4047,
      "step": 447900
    },
    {
      "epoch": 0.9331458333333333,
      "grad_norm": 3.348529100418091,
      "learning_rate": 3.323794759275744e-06,
      "loss": 3.3431,
      "step": 447910
    },
    {
      "epoch": 0.9331666666666667,
      "grad_norm": 3.3619370460510254,
      "learning_rate": 3.321731215122525e-06,
      "loss": 3.3967,
      "step": 447920
    },
    {
      "epoch": 0.9331875,
      "grad_norm": 2.6182610988616943,
      "learning_rate": 3.319668304561368e-06,
      "loss": 3.27,
      "step": 447930
    },
    {
      "epoch": 0.9332083333333333,
      "grad_norm": 3.568840980529785,
      "learning_rate": 3.317606027601183e-06,
      "loss": 3.3278,
      "step": 447940
    },
    {
      "epoch": 0.9332291666666667,
      "grad_norm": 3.870695114135742,
      "learning_rate": 3.3155443842508623e-06,
      "loss": 3.2872,
      "step": 447950
    },
    {
      "epoch": 0.93325,
      "grad_norm": 3.1754446029663086,
      "learning_rate": 3.313483374519349e-06,
      "loss": 3.3944,
      "step": 447960
    },
    {
      "epoch": 0.9332708333333334,
      "grad_norm": 3.9013512134552,
      "learning_rate": 3.3114229984155196e-06,
      "loss": 3.4121,
      "step": 447970
    },
    {
      "epoch": 0.9332916666666666,
      "grad_norm": 3.0855190753936768,
      "learning_rate": 3.309363255948283e-06,
      "loss": 3.3046,
      "step": 447980
    },
    {
      "epoch": 0.9333125,
      "grad_norm": 2.750918388366699,
      "learning_rate": 3.3073041471265162e-06,
      "loss": 3.5455,
      "step": 447990
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 3.0985517501831055,
      "learning_rate": 3.305245671959145e-06,
      "loss": 3.4318,
      "step": 448000
    },
    {
      "epoch": 0.9333333333333333,
      "eval_loss": 3.522367000579834,
      "eval_runtime": 7.2731,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.412,
      "step": 448000
    },
    {
      "epoch": 0.9333541666666667,
      "grad_norm": 3.2922568321228027,
      "learning_rate": 3.3031878304550453e-06,
      "loss": 3.4033,
      "step": 448010
    },
    {
      "epoch": 0.933375,
      "grad_norm": 2.9105594158172607,
      "learning_rate": 3.3011306226231104e-06,
      "loss": 3.3203,
      "step": 448020
    },
    {
      "epoch": 0.9333958333333333,
      "grad_norm": 3.027299404144287,
      "learning_rate": 3.299074048472217e-06,
      "loss": 3.4762,
      "step": 448030
    },
    {
      "epoch": 0.9334166666666667,
      "grad_norm": 3.582490921020508,
      "learning_rate": 3.2970181080112566e-06,
      "loss": 3.3711,
      "step": 448040
    },
    {
      "epoch": 0.9334375,
      "grad_norm": 4.063875198364258,
      "learning_rate": 3.2949628012491067e-06,
      "loss": 3.4373,
      "step": 448050
    },
    {
      "epoch": 0.9334583333333333,
      "grad_norm": 3.6074752807617188,
      "learning_rate": 3.2929081281946436e-06,
      "loss": 3.4571,
      "step": 448060
    },
    {
      "epoch": 0.9334791666666666,
      "grad_norm": 3.775550603866577,
      "learning_rate": 3.290854088856759e-06,
      "loss": 3.4073,
      "step": 448070
    },
    {
      "epoch": 0.9335,
      "grad_norm": 4.036444187164307,
      "learning_rate": 3.2888006832443137e-06,
      "loss": 3.3776,
      "step": 448080
    },
    {
      "epoch": 0.9335208333333334,
      "grad_norm": 2.7352964878082275,
      "learning_rate": 3.286747911366183e-06,
      "loss": 3.4,
      "step": 448090
    },
    {
      "epoch": 0.9335416666666667,
      "grad_norm": 3.178114652633667,
      "learning_rate": 3.284695773231194e-06,
      "loss": 3.375,
      "step": 448100
    },
    {
      "epoch": 0.9335625,
      "grad_norm": 4.0293121337890625,
      "learning_rate": 3.2826442688482724e-06,
      "loss": 3.4975,
      "step": 448110
    },
    {
      "epoch": 0.9335833333333333,
      "grad_norm": 3.576878786087036,
      "learning_rate": 3.280593398226261e-06,
      "loss": 3.3823,
      "step": 448120
    },
    {
      "epoch": 0.9336041666666667,
      "grad_norm": 3.0142452716827393,
      "learning_rate": 3.2785431613739864e-06,
      "loss": 3.3612,
      "step": 448130
    },
    {
      "epoch": 0.933625,
      "grad_norm": 2.6216070652008057,
      "learning_rate": 3.2764935583003414e-06,
      "loss": 3.3664,
      "step": 448140
    },
    {
      "epoch": 0.9336458333333333,
      "grad_norm": 3.2565109729766846,
      "learning_rate": 3.274444589014186e-06,
      "loss": 3.5488,
      "step": 448150
    },
    {
      "epoch": 0.9336666666666666,
      "grad_norm": 3.8684773445129395,
      "learning_rate": 3.272396253524312e-06,
      "loss": 3.5513,
      "step": 448160
    },
    {
      "epoch": 0.9336875,
      "grad_norm": 3.241762638092041,
      "learning_rate": 3.2703485518396298e-06,
      "loss": 3.4359,
      "step": 448170
    },
    {
      "epoch": 0.9337083333333334,
      "grad_norm": 3.236321449279785,
      "learning_rate": 3.268301483968966e-06,
      "loss": 3.379,
      "step": 448180
    },
    {
      "epoch": 0.9337291666666667,
      "grad_norm": 2.618601083755493,
      "learning_rate": 3.266255049921146e-06,
      "loss": 3.5786,
      "step": 448190
    },
    {
      "epoch": 0.93375,
      "grad_norm": 2.956456422805786,
      "learning_rate": 3.2642092497050465e-06,
      "loss": 3.487,
      "step": 448200
    },
    {
      "epoch": 0.9337708333333333,
      "grad_norm": 3.0086276531219482,
      "learning_rate": 3.2621640833294604e-06,
      "loss": 3.5468,
      "step": 448210
    },
    {
      "epoch": 0.9337916666666667,
      "grad_norm": 2.95585036277771,
      "learning_rate": 3.2601195508032307e-06,
      "loss": 3.4624,
      "step": 448220
    },
    {
      "epoch": 0.9338125,
      "grad_norm": 3.469632148742676,
      "learning_rate": 3.2580756521352334e-06,
      "loss": 3.4786,
      "step": 448230
    },
    {
      "epoch": 0.9338333333333333,
      "grad_norm": 3.6935763359069824,
      "learning_rate": 3.2560323873342452e-06,
      "loss": 3.4534,
      "step": 448240
    },
    {
      "epoch": 0.9338541666666667,
      "grad_norm": 3.7547450065612793,
      "learning_rate": 3.253989756409092e-06,
      "loss": 3.3943,
      "step": 448250
    },
    {
      "epoch": 0.933875,
      "grad_norm": 3.281137704849243,
      "learning_rate": 3.251947759368667e-06,
      "loss": 3.3792,
      "step": 448260
    },
    {
      "epoch": 0.9338958333333334,
      "grad_norm": 2.839953899383545,
      "learning_rate": 3.2499063962217133e-06,
      "loss": 3.4607,
      "step": 448270
    },
    {
      "epoch": 0.9339166666666666,
      "grad_norm": 3.1526381969451904,
      "learning_rate": 3.2478656669770563e-06,
      "loss": 3.3445,
      "step": 448280
    },
    {
      "epoch": 0.9339375,
      "grad_norm": 3.6651573181152344,
      "learning_rate": 3.245825571643573e-06,
      "loss": 3.4788,
      "step": 448290
    },
    {
      "epoch": 0.9339583333333333,
      "grad_norm": 4.691202163696289,
      "learning_rate": 3.2437861102300067e-06,
      "loss": 3.3974,
      "step": 448300
    },
    {
      "epoch": 0.9339791666666667,
      "grad_norm": 3.61613392829895,
      "learning_rate": 3.2417472827451828e-06,
      "loss": 3.4786,
      "step": 448310
    },
    {
      "epoch": 0.934,
      "grad_norm": 3.426344394683838,
      "learning_rate": 3.2397090891979447e-06,
      "loss": 3.3831,
      "step": 448320
    },
    {
      "epoch": 0.9340208333333333,
      "grad_norm": 2.7221851348876953,
      "learning_rate": 3.237671529597069e-06,
      "loss": 3.4877,
      "step": 448330
    },
    {
      "epoch": 0.9340416666666667,
      "grad_norm": 2.7559711933135986,
      "learning_rate": 3.2356346039513483e-06,
      "loss": 3.3337,
      "step": 448340
    },
    {
      "epoch": 0.9340625,
      "grad_norm": 2.780484676361084,
      "learning_rate": 3.2335983122696085e-06,
      "loss": 3.3671,
      "step": 448350
    },
    {
      "epoch": 0.9340833333333334,
      "grad_norm": 3.110907793045044,
      "learning_rate": 3.23156265456061e-06,
      "loss": 3.4791,
      "step": 448360
    },
    {
      "epoch": 0.9341041666666666,
      "grad_norm": 3.044933557510376,
      "learning_rate": 3.2295276308331787e-06,
      "loss": 3.5117,
      "step": 448370
    },
    {
      "epoch": 0.934125,
      "grad_norm": 2.8876843452453613,
      "learning_rate": 3.2274932410960908e-06,
      "loss": 3.3708,
      "step": 448380
    },
    {
      "epoch": 0.9341458333333333,
      "grad_norm": 3.925840377807617,
      "learning_rate": 3.2254594853581397e-06,
      "loss": 3.4318,
      "step": 448390
    },
    {
      "epoch": 0.9341666666666667,
      "grad_norm": 2.2993874549865723,
      "learning_rate": 3.223426363628101e-06,
      "loss": 3.4463,
      "step": 448400
    },
    {
      "epoch": 0.9341875,
      "grad_norm": 2.7588326930999756,
      "learning_rate": 3.2213938759147516e-06,
      "loss": 3.4576,
      "step": 448410
    },
    {
      "epoch": 0.9342083333333333,
      "grad_norm": 2.744084596633911,
      "learning_rate": 3.219362022226901e-06,
      "loss": 3.4817,
      "step": 448420
    },
    {
      "epoch": 0.9342291666666667,
      "grad_norm": 2.895967960357666,
      "learning_rate": 3.217330802573309e-06,
      "loss": 3.2279,
      "step": 448430
    },
    {
      "epoch": 0.93425,
      "grad_norm": 3.5837085247039795,
      "learning_rate": 3.2153002169627185e-06,
      "loss": 3.402,
      "step": 448440
    },
    {
      "epoch": 0.9342708333333334,
      "grad_norm": 2.755098342895508,
      "learning_rate": 3.2132702654039553e-06,
      "loss": 3.541,
      "step": 448450
    },
    {
      "epoch": 0.9342916666666666,
      "grad_norm": 2.822044849395752,
      "learning_rate": 3.211240947905763e-06,
      "loss": 3.434,
      "step": 448460
    },
    {
      "epoch": 0.9343125,
      "grad_norm": 3.042478084564209,
      "learning_rate": 3.2092122644768848e-06,
      "loss": 3.4209,
      "step": 448470
    },
    {
      "epoch": 0.9343333333333333,
      "grad_norm": 3.0368740558624268,
      "learning_rate": 3.207184215126113e-06,
      "loss": 3.3173,
      "step": 448480
    },
    {
      "epoch": 0.9343541666666667,
      "grad_norm": 3.390443801879883,
      "learning_rate": 3.205156799862224e-06,
      "loss": 3.4392,
      "step": 448490
    },
    {
      "epoch": 0.934375,
      "grad_norm": 2.8558237552642822,
      "learning_rate": 3.203130018693928e-06,
      "loss": 3.2604,
      "step": 448500
    },
    {
      "epoch": 0.9343958333333333,
      "grad_norm": 3.4595820903778076,
      "learning_rate": 3.201103871630001e-06,
      "loss": 3.5093,
      "step": 448510
    },
    {
      "epoch": 0.9344166666666667,
      "grad_norm": 3.695674419403076,
      "learning_rate": 3.199078358679219e-06,
      "loss": 3.5138,
      "step": 448520
    },
    {
      "epoch": 0.9344375,
      "grad_norm": 3.058610677719116,
      "learning_rate": 3.197053479850292e-06,
      "loss": 3.3314,
      "step": 448530
    },
    {
      "epoch": 0.9344583333333333,
      "grad_norm": 3.5466701984405518,
      "learning_rate": 3.195029235151997e-06,
      "loss": 3.5062,
      "step": 448540
    },
    {
      "epoch": 0.9344791666666666,
      "grad_norm": 3.7496020793914795,
      "learning_rate": 3.1930056245930758e-06,
      "loss": 3.4342,
      "step": 448550
    },
    {
      "epoch": 0.9345,
      "grad_norm": 3.936890125274658,
      "learning_rate": 3.190982648182239e-06,
      "loss": 3.4711,
      "step": 448560
    },
    {
      "epoch": 0.9345208333333334,
      "grad_norm": 3.808724880218506,
      "learning_rate": 3.188960305928262e-06,
      "loss": 3.4157,
      "step": 448570
    },
    {
      "epoch": 0.9345416666666667,
      "grad_norm": 3.057591676712036,
      "learning_rate": 3.1869385978398553e-06,
      "loss": 3.3389,
      "step": 448580
    },
    {
      "epoch": 0.9345625,
      "grad_norm": 3.1059114933013916,
      "learning_rate": 3.184917523925745e-06,
      "loss": 3.4587,
      "step": 448590
    },
    {
      "epoch": 0.9345833333333333,
      "grad_norm": 3.209362030029297,
      "learning_rate": 3.1828970841947075e-06,
      "loss": 3.4068,
      "step": 448600
    },
    {
      "epoch": 0.9346041666666667,
      "grad_norm": 3.324995756149292,
      "learning_rate": 3.180877278655436e-06,
      "loss": 3.3116,
      "step": 448610
    },
    {
      "epoch": 0.934625,
      "grad_norm": 3.1701900959014893,
      "learning_rate": 3.178858107316623e-06,
      "loss": 3.4157,
      "step": 448620
    },
    {
      "epoch": 0.9346458333333333,
      "grad_norm": 4.113415718078613,
      "learning_rate": 3.1768395701870786e-06,
      "loss": 3.3255,
      "step": 448630
    },
    {
      "epoch": 0.9346666666666666,
      "grad_norm": 2.788151264190674,
      "learning_rate": 3.174821667275446e-06,
      "loss": 3.3847,
      "step": 448640
    },
    {
      "epoch": 0.9346875,
      "grad_norm": 3.334625720977783,
      "learning_rate": 3.1728043985904506e-06,
      "loss": 3.4354,
      "step": 448650
    },
    {
      "epoch": 0.9347083333333334,
      "grad_norm": 5.278716087341309,
      "learning_rate": 3.170787764140853e-06,
      "loss": 3.36,
      "step": 448660
    },
    {
      "epoch": 0.9347291666666667,
      "grad_norm": 2.5412395000457764,
      "learning_rate": 3.1687717639353296e-06,
      "loss": 3.6387,
      "step": 448670
    },
    {
      "epoch": 0.93475,
      "grad_norm": 2.8603169918060303,
      "learning_rate": 3.1667563979825726e-06,
      "loss": 3.4852,
      "step": 448680
    },
    {
      "epoch": 0.9347708333333333,
      "grad_norm": 3.2163283824920654,
      "learning_rate": 3.164741666291326e-06,
      "loss": 3.3266,
      "step": 448690
    },
    {
      "epoch": 0.9347916666666667,
      "grad_norm": 3.8304312229156494,
      "learning_rate": 3.1627275688702656e-06,
      "loss": 3.715,
      "step": 448700
    },
    {
      "epoch": 0.9348125,
      "grad_norm": 3.2802929878234863,
      "learning_rate": 3.160714105728085e-06,
      "loss": 3.3029,
      "step": 448710
    },
    {
      "epoch": 0.9348333333333333,
      "grad_norm": 3.841658115386963,
      "learning_rate": 3.15870127687351e-06,
      "loss": 3.3405,
      "step": 448720
    },
    {
      "epoch": 0.9348541666666667,
      "grad_norm": 2.8137731552124023,
      "learning_rate": 3.1566890823152337e-06,
      "loss": 3.4858,
      "step": 448730
    },
    {
      "epoch": 0.934875,
      "grad_norm": 3.410430669784546,
      "learning_rate": 3.1546775220619156e-06,
      "loss": 3.4202,
      "step": 448740
    },
    {
      "epoch": 0.9348958333333334,
      "grad_norm": 3.3031060695648193,
      "learning_rate": 3.152666596122283e-06,
      "loss": 3.4105,
      "step": 448750
    },
    {
      "epoch": 0.9349166666666666,
      "grad_norm": 3.677988290786743,
      "learning_rate": 3.1506563045049948e-06,
      "loss": 3.4287,
      "step": 448760
    },
    {
      "epoch": 0.9349375,
      "grad_norm": 2.476405143737793,
      "learning_rate": 3.1486466472187443e-06,
      "loss": 3.5197,
      "step": 448770
    },
    {
      "epoch": 0.9349583333333333,
      "grad_norm": 3.533931255340576,
      "learning_rate": 3.146637624272208e-06,
      "loss": 3.4772,
      "step": 448780
    },
    {
      "epoch": 0.9349791666666667,
      "grad_norm": 2.636610269546509,
      "learning_rate": 3.1446292356740788e-06,
      "loss": 3.46,
      "step": 448790
    },
    {
      "epoch": 0.935,
      "grad_norm": 3.0288329124450684,
      "learning_rate": 3.1426214814330165e-06,
      "loss": 3.4503,
      "step": 448800
    },
    {
      "epoch": 0.9350208333333333,
      "grad_norm": 3.258575201034546,
      "learning_rate": 3.1406143615576975e-06,
      "loss": 3.5331,
      "step": 448810
    },
    {
      "epoch": 0.9350416666666667,
      "grad_norm": 2.7712090015411377,
      "learning_rate": 3.138607876056798e-06,
      "loss": 3.4352,
      "step": 448820
    },
    {
      "epoch": 0.9350625,
      "grad_norm": 2.5190348625183105,
      "learning_rate": 3.1366020249389944e-06,
      "loss": 3.4174,
      "step": 448830
    },
    {
      "epoch": 0.9350833333333334,
      "grad_norm": 2.339390993118286,
      "learning_rate": 3.134596808212897e-06,
      "loss": 3.4523,
      "step": 448840
    },
    {
      "epoch": 0.9351041666666666,
      "grad_norm": 4.63815450668335,
      "learning_rate": 3.1325922258872314e-06,
      "loss": 3.4565,
      "step": 448850
    },
    {
      "epoch": 0.935125,
      "grad_norm": 3.172325849533081,
      "learning_rate": 3.130588277970658e-06,
      "loss": 3.4439,
      "step": 448860
    },
    {
      "epoch": 0.9351458333333333,
      "grad_norm": 3.3118879795074463,
      "learning_rate": 3.12858496447177e-06,
      "loss": 3.4278,
      "step": 448870
    },
    {
      "epoch": 0.9351666666666667,
      "grad_norm": 3.0613203048706055,
      "learning_rate": 3.126582285399276e-06,
      "loss": 3.51,
      "step": 448880
    },
    {
      "epoch": 0.9351875,
      "grad_norm": 2.7174222469329834,
      "learning_rate": 3.12458024076182e-06,
      "loss": 3.6448,
      "step": 448890
    },
    {
      "epoch": 0.9352083333333333,
      "grad_norm": 3.3332855701446533,
      "learning_rate": 3.1225788305680123e-06,
      "loss": 3.4967,
      "step": 448900
    },
    {
      "epoch": 0.9352291666666667,
      "grad_norm": 2.7872543334960938,
      "learning_rate": 3.1205780548265445e-06,
      "loss": 3.4118,
      "step": 448910
    },
    {
      "epoch": 0.93525,
      "grad_norm": 2.936030387878418,
      "learning_rate": 3.1185779135460444e-06,
      "loss": 3.2834,
      "step": 448920
    },
    {
      "epoch": 0.9352708333333334,
      "grad_norm": 3.3141798973083496,
      "learning_rate": 3.1165784067351206e-06,
      "loss": 3.4288,
      "step": 448930
    },
    {
      "epoch": 0.9352916666666666,
      "grad_norm": 3.3353657722473145,
      "learning_rate": 3.1145795344024837e-06,
      "loss": 3.4622,
      "step": 448940
    },
    {
      "epoch": 0.9353125,
      "grad_norm": 2.410189390182495,
      "learning_rate": 3.1125812965566933e-06,
      "loss": 3.4649,
      "step": 448950
    },
    {
      "epoch": 0.9353333333333333,
      "grad_norm": 3.5694737434387207,
      "learning_rate": 3.1105836932064087e-06,
      "loss": 3.3791,
      "step": 448960
    },
    {
      "epoch": 0.9353541666666667,
      "grad_norm": 2.7660117149353027,
      "learning_rate": 3.1085867243602735e-06,
      "loss": 3.5314,
      "step": 448970
    },
    {
      "epoch": 0.935375,
      "grad_norm": 2.8436553478240967,
      "learning_rate": 3.1065903900268807e-06,
      "loss": 3.3486,
      "step": 448980
    },
    {
      "epoch": 0.9353958333333333,
      "grad_norm": 3.8182358741760254,
      "learning_rate": 3.10459469021489e-06,
      "loss": 3.4642,
      "step": 448990
    },
    {
      "epoch": 0.9354166666666667,
      "grad_norm": 4.1985578536987305,
      "learning_rate": 3.102599624932894e-06,
      "loss": 3.2792,
      "step": 449000
    },
    {
      "epoch": 0.9354166666666667,
      "eval_loss": 3.5198071002960205,
      "eval_runtime": 6.8133,
      "eval_samples_per_second": 1.468,
      "eval_steps_per_second": 0.44,
      "step": 449000
    },
    {
      "epoch": 0.9354375,
      "grad_norm": 3.551713466644287,
      "learning_rate": 3.1006051941895207e-06,
      "loss": 3.3012,
      "step": 449010
    },
    {
      "epoch": 0.9354583333333333,
      "grad_norm": 2.61358380317688,
      "learning_rate": 3.0986113979933948e-06,
      "loss": 3.3493,
      "step": 449020
    },
    {
      "epoch": 0.9354791666666666,
      "grad_norm": 3.2586591243743896,
      "learning_rate": 3.09661823635311e-06,
      "loss": 3.5234,
      "step": 449030
    },
    {
      "epoch": 0.9355,
      "grad_norm": 3.3628275394439697,
      "learning_rate": 3.094625709277293e-06,
      "loss": 3.5034,
      "step": 449040
    },
    {
      "epoch": 0.9355208333333334,
      "grad_norm": 3.913846015930176,
      "learning_rate": 3.0926338167745368e-06,
      "loss": 3.5,
      "step": 449050
    },
    {
      "epoch": 0.9355416666666667,
      "grad_norm": 3.3413612842559814,
      "learning_rate": 3.090642558853468e-06,
      "loss": 3.426,
      "step": 449060
    },
    {
      "epoch": 0.9355625,
      "grad_norm": 3.0430164337158203,
      "learning_rate": 3.0886519355226625e-06,
      "loss": 3.3912,
      "step": 449070
    },
    {
      "epoch": 0.9355833333333333,
      "grad_norm": 2.6889796257019043,
      "learning_rate": 3.0866619467907305e-06,
      "loss": 3.552,
      "step": 449080
    },
    {
      "epoch": 0.9356041666666667,
      "grad_norm": 3.012439250946045,
      "learning_rate": 3.084672592666265e-06,
      "loss": 3.4026,
      "step": 449090
    },
    {
      "epoch": 0.935625,
      "grad_norm": 2.6779348850250244,
      "learning_rate": 3.0826838731578594e-06,
      "loss": 3.48,
      "step": 449100
    },
    {
      "epoch": 0.9356458333333333,
      "grad_norm": 2.9224724769592285,
      "learning_rate": 3.0806957882741066e-06,
      "loss": 3.3725,
      "step": 449110
    },
    {
      "epoch": 0.9356666666666666,
      "grad_norm": 3.356827974319458,
      "learning_rate": 3.0787083380236e-06,
      "loss": 3.6749,
      "step": 449120
    },
    {
      "epoch": 0.9356875,
      "grad_norm": 3.636229991912842,
      "learning_rate": 3.076721522414899e-06,
      "loss": 3.4253,
      "step": 449130
    },
    {
      "epoch": 0.9357083333333334,
      "grad_norm": 3.084101676940918,
      "learning_rate": 3.07473534145663e-06,
      "loss": 3.3121,
      "step": 449140
    },
    {
      "epoch": 0.9357291666666666,
      "grad_norm": 3.801910877227783,
      "learning_rate": 3.07274979515732e-06,
      "loss": 3.4428,
      "step": 449150
    },
    {
      "epoch": 0.93575,
      "grad_norm": 3.289829730987549,
      "learning_rate": 3.070764883525595e-06,
      "loss": 3.494,
      "step": 449160
    },
    {
      "epoch": 0.9357708333333333,
      "grad_norm": 2.761364698410034,
      "learning_rate": 3.0687806065699984e-06,
      "loss": 3.3958,
      "step": 449170
    },
    {
      "epoch": 0.9357916666666667,
      "grad_norm": 3.2619733810424805,
      "learning_rate": 3.0667969642991064e-06,
      "loss": 3.5414,
      "step": 449180
    },
    {
      "epoch": 0.9358125,
      "grad_norm": 3.1547834873199463,
      "learning_rate": 3.0648139567215125e-06,
      "loss": 3.4084,
      "step": 449190
    },
    {
      "epoch": 0.9358333333333333,
      "grad_norm": 3.3206787109375,
      "learning_rate": 3.062831583845743e-06,
      "loss": 3.3256,
      "step": 449200
    },
    {
      "epoch": 0.9358541666666667,
      "grad_norm": 3.371347427368164,
      "learning_rate": 3.0608498456803744e-06,
      "loss": 3.4678,
      "step": 449210
    },
    {
      "epoch": 0.935875,
      "grad_norm": 3.1144487857818604,
      "learning_rate": 3.058868742233983e-06,
      "loss": 3.5398,
      "step": 449220
    },
    {
      "epoch": 0.9358958333333334,
      "grad_norm": 3.745250940322876,
      "learning_rate": 3.056888273515129e-06,
      "loss": 3.3917,
      "step": 449230
    },
    {
      "epoch": 0.9359166666666666,
      "grad_norm": 2.8127620220184326,
      "learning_rate": 3.054908439532322e-06,
      "loss": 3.3315,
      "step": 449240
    },
    {
      "epoch": 0.9359375,
      "grad_norm": 5.385217666625977,
      "learning_rate": 3.0529292402941553e-06,
      "loss": 3.5121,
      "step": 449250
    },
    {
      "epoch": 0.9359583333333333,
      "grad_norm": 2.888284206390381,
      "learning_rate": 3.0509506758091884e-06,
      "loss": 3.556,
      "step": 449260
    },
    {
      "epoch": 0.9359791666666667,
      "grad_norm": 3.00825834274292,
      "learning_rate": 3.0489727460859315e-06,
      "loss": 3.4772,
      "step": 449270
    },
    {
      "epoch": 0.936,
      "grad_norm": 3.0626380443573,
      "learning_rate": 3.0469954511329273e-06,
      "loss": 3.3374,
      "step": 449280
    },
    {
      "epoch": 0.9360208333333333,
      "grad_norm": 3.9940876960754395,
      "learning_rate": 3.04501879095877e-06,
      "loss": 3.5046,
      "step": 449290
    },
    {
      "epoch": 0.9360416666666667,
      "grad_norm": 2.921618700027466,
      "learning_rate": 3.0430427655719513e-06,
      "loss": 3.4119,
      "step": 449300
    },
    {
      "epoch": 0.9360625,
      "grad_norm": 2.5888426303863525,
      "learning_rate": 3.041067374980999e-06,
      "loss": 3.4647,
      "step": 449310
    },
    {
      "epoch": 0.9360833333333334,
      "grad_norm": 2.2934699058532715,
      "learning_rate": 3.0390926191944888e-06,
      "loss": 3.457,
      "step": 449320
    },
    {
      "epoch": 0.9361041666666666,
      "grad_norm": 3.5876078605651855,
      "learning_rate": 3.037118498220914e-06,
      "loss": 3.5528,
      "step": 449330
    },
    {
      "epoch": 0.936125,
      "grad_norm": 3.7696919441223145,
      "learning_rate": 3.0351450120688182e-06,
      "loss": 3.4466,
      "step": 449340
    },
    {
      "epoch": 0.9361458333333333,
      "grad_norm": 2.5958893299102783,
      "learning_rate": 3.0331721607467276e-06,
      "loss": 3.403,
      "step": 449350
    },
    {
      "epoch": 0.9361666666666667,
      "grad_norm": 4.367745876312256,
      "learning_rate": 3.0311999442631686e-06,
      "loss": 3.4107,
      "step": 449360
    },
    {
      "epoch": 0.9361875,
      "grad_norm": 3.757784843444824,
      "learning_rate": 3.0292283626266345e-06,
      "loss": 3.6192,
      "step": 449370
    },
    {
      "epoch": 0.9362083333333333,
      "grad_norm": 3.267392158508301,
      "learning_rate": 3.027257415845669e-06,
      "loss": 3.5446,
      "step": 449380
    },
    {
      "epoch": 0.9362291666666667,
      "grad_norm": 3.0876247882843018,
      "learning_rate": 3.025287103928764e-06,
      "loss": 3.5161,
      "step": 449390
    },
    {
      "epoch": 0.93625,
      "grad_norm": 2.545361280441284,
      "learning_rate": 3.0233174268844475e-06,
      "loss": 3.4097,
      "step": 449400
    },
    {
      "epoch": 0.9362708333333334,
      "grad_norm": 2.9664156436920166,
      "learning_rate": 3.021348384721228e-06,
      "loss": 3.5209,
      "step": 449410
    },
    {
      "epoch": 0.9362916666666666,
      "grad_norm": 3.187446355819702,
      "learning_rate": 3.0193799774476e-06,
      "loss": 3.5175,
      "step": 449420
    },
    {
      "epoch": 0.9363125,
      "grad_norm": 3.7325284481048584,
      "learning_rate": 3.017412205072073e-06,
      "loss": 3.4104,
      "step": 449430
    },
    {
      "epoch": 0.9363333333333334,
      "grad_norm": 3.098175048828125,
      "learning_rate": 3.0154450676031396e-06,
      "loss": 3.3485,
      "step": 449440
    },
    {
      "epoch": 0.9363541666666667,
      "grad_norm": 3.830686569213867,
      "learning_rate": 3.0134785650493097e-06,
      "loss": 3.43,
      "step": 449450
    },
    {
      "epoch": 0.936375,
      "grad_norm": 3.374370574951172,
      "learning_rate": 3.0115126974190773e-06,
      "loss": 3.4998,
      "step": 449460
    },
    {
      "epoch": 0.9363958333333333,
      "grad_norm": 4.730564594268799,
      "learning_rate": 3.009547464720918e-06,
      "loss": 3.3831,
      "step": 449470
    },
    {
      "epoch": 0.9364166666666667,
      "grad_norm": 3.72752046585083,
      "learning_rate": 3.007582866963326e-06,
      "loss": 3.4631,
      "step": 449480
    },
    {
      "epoch": 0.9364375,
      "grad_norm": 3.086742639541626,
      "learning_rate": 3.005618904154794e-06,
      "loss": 3.425,
      "step": 449490
    },
    {
      "epoch": 0.9364583333333333,
      "grad_norm": 3.746692180633545,
      "learning_rate": 3.003655576303815e-06,
      "loss": 3.499,
      "step": 449500
    },
    {
      "epoch": 0.9364791666666666,
      "grad_norm": 3.217761993408203,
      "learning_rate": 3.001692883418849e-06,
      "loss": 3.3481,
      "step": 449510
    },
    {
      "epoch": 0.9365,
      "grad_norm": 2.660308599472046,
      "learning_rate": 2.9997308255083898e-06,
      "loss": 3.2647,
      "step": 449520
    },
    {
      "epoch": 0.9365208333333334,
      "grad_norm": 2.8881020545959473,
      "learning_rate": 2.997769402580913e-06,
      "loss": 3.4068,
      "step": 449530
    },
    {
      "epoch": 0.9365416666666667,
      "grad_norm": 3.6366493701934814,
      "learning_rate": 2.995808614644879e-06,
      "loss": 3.4445,
      "step": 449540
    },
    {
      "epoch": 0.9365625,
      "grad_norm": 3.0290098190307617,
      "learning_rate": 2.9938484617087645e-06,
      "loss": 3.4311,
      "step": 449550
    },
    {
      "epoch": 0.9365833333333333,
      "grad_norm": 3.312532901763916,
      "learning_rate": 2.991888943781029e-06,
      "loss": 3.3667,
      "step": 449560
    },
    {
      "epoch": 0.9366041666666667,
      "grad_norm": 2.8062403202056885,
      "learning_rate": 2.9899300608701495e-06,
      "loss": 3.4387,
      "step": 449570
    },
    {
      "epoch": 0.936625,
      "grad_norm": 2.9886295795440674,
      "learning_rate": 2.9879718129845854e-06,
      "loss": 3.5082,
      "step": 449580
    },
    {
      "epoch": 0.9366458333333333,
      "grad_norm": 2.5606203079223633,
      "learning_rate": 2.9860142001327637e-06,
      "loss": 3.3623,
      "step": 449590
    },
    {
      "epoch": 0.9366666666666666,
      "grad_norm": 3.360800266265869,
      "learning_rate": 2.984057222323211e-06,
      "loss": 3.5181,
      "step": 449600
    },
    {
      "epoch": 0.9366875,
      "grad_norm": 3.1543703079223633,
      "learning_rate": 2.9821008795643197e-06,
      "loss": 3.4147,
      "step": 449610
    },
    {
      "epoch": 0.9367083333333334,
      "grad_norm": 2.450918674468994,
      "learning_rate": 2.980145171864534e-06,
      "loss": 3.6478,
      "step": 449620
    },
    {
      "epoch": 0.9367291666666666,
      "grad_norm": 2.5891060829162598,
      "learning_rate": 2.978190099232364e-06,
      "loss": 3.4583,
      "step": 449630
    },
    {
      "epoch": 0.93675,
      "grad_norm": 3.479825019836426,
      "learning_rate": 2.9762356616762017e-06,
      "loss": 3.5051,
      "step": 449640
    },
    {
      "epoch": 0.9367708333333333,
      "grad_norm": 2.567049026489258,
      "learning_rate": 2.9742818592044915e-06,
      "loss": 3.3735,
      "step": 449650
    },
    {
      "epoch": 0.9367916666666667,
      "grad_norm": 3.4911699295043945,
      "learning_rate": 2.9723286918257096e-06,
      "loss": 3.3848,
      "step": 449660
    },
    {
      "epoch": 0.9368125,
      "grad_norm": 2.9675421714782715,
      "learning_rate": 2.9703761595482658e-06,
      "loss": 3.4652,
      "step": 449670
    },
    {
      "epoch": 0.9368333333333333,
      "grad_norm": 2.7685415744781494,
      "learning_rate": 2.9684242623805867e-06,
      "loss": 3.3927,
      "step": 449680
    },
    {
      "epoch": 0.9368541666666667,
      "grad_norm": 2.4579896926879883,
      "learning_rate": 2.966473000331132e-06,
      "loss": 3.6474,
      "step": 449690
    },
    {
      "epoch": 0.936875,
      "grad_norm": 3.5006017684936523,
      "learning_rate": 2.964522373408312e-06,
      "loss": 3.4726,
      "step": 449700
    },
    {
      "epoch": 0.9368958333333334,
      "grad_norm": 3.1527416706085205,
      "learning_rate": 2.962572381620537e-06,
      "loss": 3.5569,
      "step": 449710
    },
    {
      "epoch": 0.9369166666666666,
      "grad_norm": 2.452511787414551,
      "learning_rate": 2.960623024976266e-06,
      "loss": 3.5515,
      "step": 449720
    },
    {
      "epoch": 0.9369375,
      "grad_norm": 3.1178479194641113,
      "learning_rate": 2.958674303483893e-06,
      "loss": 3.5832,
      "step": 449730
    },
    {
      "epoch": 0.9369583333333333,
      "grad_norm": 3.2921197414398193,
      "learning_rate": 2.9567262171518448e-06,
      "loss": 3.3318,
      "step": 449740
    },
    {
      "epoch": 0.9369791666666667,
      "grad_norm": 2.6096954345703125,
      "learning_rate": 2.9547787659885302e-06,
      "loss": 3.3678,
      "step": 449750
    },
    {
      "epoch": 0.937,
      "grad_norm": 3.75535249710083,
      "learning_rate": 2.9528319500023768e-06,
      "loss": 3.5253,
      "step": 449760
    },
    {
      "epoch": 0.9370208333333333,
      "grad_norm": 2.883845329284668,
      "learning_rate": 2.950885769201777e-06,
      "loss": 3.374,
      "step": 449770
    },
    {
      "epoch": 0.9370416666666667,
      "grad_norm": 2.9022715091705322,
      "learning_rate": 2.9489402235951585e-06,
      "loss": 3.4736,
      "step": 449780
    },
    {
      "epoch": 0.9370625,
      "grad_norm": 2.886474132537842,
      "learning_rate": 2.9469953131908972e-06,
      "loss": 3.5433,
      "step": 449790
    },
    {
      "epoch": 0.9370833333333334,
      "grad_norm": 2.8327150344848633,
      "learning_rate": 2.9450510379974035e-06,
      "loss": 3.3244,
      "step": 449800
    },
    {
      "epoch": 0.9371041666666666,
      "grad_norm": 3.131237268447876,
      "learning_rate": 2.943107398023087e-06,
      "loss": 3.5031,
      "step": 449810
    },
    {
      "epoch": 0.937125,
      "grad_norm": 3.3516573905944824,
      "learning_rate": 2.9411643932763405e-06,
      "loss": 3.3588,
      "step": 449820
    },
    {
      "epoch": 0.9371458333333333,
      "grad_norm": 3.1934762001037598,
      "learning_rate": 2.9392220237655582e-06,
      "loss": 3.4835,
      "step": 449830
    },
    {
      "epoch": 0.9371666666666667,
      "grad_norm": 3.01127028465271,
      "learning_rate": 2.9372802894991165e-06,
      "loss": 3.5109,
      "step": 449840
    },
    {
      "epoch": 0.9371875,
      "grad_norm": 3.0437979698181152,
      "learning_rate": 2.935339190485425e-06,
      "loss": 3.3904,
      "step": 449850
    },
    {
      "epoch": 0.9372083333333333,
      "grad_norm": 4.242561340332031,
      "learning_rate": 2.9333987267328605e-06,
      "loss": 3.455,
      "step": 449860
    },
    {
      "epoch": 0.9372291666666667,
      "grad_norm": 2.969524383544922,
      "learning_rate": 2.9314588982497667e-06,
      "loss": 3.4134,
      "step": 449870
    },
    {
      "epoch": 0.93725,
      "grad_norm": 2.7363080978393555,
      "learning_rate": 2.9295197050445864e-06,
      "loss": 3.5469,
      "step": 449880
    },
    {
      "epoch": 0.9372708333333334,
      "grad_norm": 2.862755298614502,
      "learning_rate": 2.927581147125663e-06,
      "loss": 3.4106,
      "step": 449890
    },
    {
      "epoch": 0.9372916666666666,
      "grad_norm": 3.185034990310669,
      "learning_rate": 2.925643224501356e-06,
      "loss": 3.3574,
      "step": 449900
    },
    {
      "epoch": 0.9373125,
      "grad_norm": 3.0311336517333984,
      "learning_rate": 2.9237059371800766e-06,
      "loss": 3.4865,
      "step": 449910
    },
    {
      "epoch": 0.9373333333333334,
      "grad_norm": 3.778367757797241,
      "learning_rate": 2.921769285170167e-06,
      "loss": 3.3737,
      "step": 449920
    },
    {
      "epoch": 0.9373541666666667,
      "grad_norm": 2.9835097789764404,
      "learning_rate": 2.9198332684799708e-06,
      "loss": 3.5701,
      "step": 449930
    },
    {
      "epoch": 0.937375,
      "grad_norm": 3.328075647354126,
      "learning_rate": 2.9178978871179147e-06,
      "loss": 3.4319,
      "step": 449940
    },
    {
      "epoch": 0.9373958333333333,
      "grad_norm": 2.806002378463745,
      "learning_rate": 2.915963141092309e-06,
      "loss": 3.415,
      "step": 449950
    },
    {
      "epoch": 0.9374166666666667,
      "grad_norm": 3.5419023036956787,
      "learning_rate": 2.9140290304114967e-06,
      "loss": 3.2593,
      "step": 449960
    },
    {
      "epoch": 0.9374375,
      "grad_norm": 2.9331424236297607,
      "learning_rate": 2.9120955550838877e-06,
      "loss": 3.4496,
      "step": 449970
    },
    {
      "epoch": 0.9374583333333333,
      "grad_norm": 2.3346526622772217,
      "learning_rate": 2.910162715117792e-06,
      "loss": 3.3918,
      "step": 449980
    },
    {
      "epoch": 0.9374791666666666,
      "grad_norm": 3.458373785018921,
      "learning_rate": 2.9082305105215697e-06,
      "loss": 3.4697,
      "step": 449990
    },
    {
      "epoch": 0.9375,
      "grad_norm": 3.6851627826690674,
      "learning_rate": 2.9062989413035807e-06,
      "loss": 3.2764,
      "step": 450000
    },
    {
      "epoch": 0.9375,
      "eval_loss": 3.52349853515625,
      "eval_runtime": 6.9576,
      "eval_samples_per_second": 1.437,
      "eval_steps_per_second": 0.431,
      "step": 450000
    },
    {
      "epoch": 0.9375208333333334,
      "grad_norm": 3.272141933441162,
      "learning_rate": 2.904368007472152e-06,
      "loss": 3.4032,
      "step": 450010
    },
    {
      "epoch": 0.9375416666666667,
      "grad_norm": 3.690812826156616,
      "learning_rate": 2.90243770903561e-06,
      "loss": 3.3139,
      "step": 450020
    },
    {
      "epoch": 0.9375625,
      "grad_norm": 3.642301559448242,
      "learning_rate": 2.9005080460023312e-06,
      "loss": 3.4465,
      "step": 450030
    },
    {
      "epoch": 0.9375833333333333,
      "grad_norm": 2.5847699642181396,
      "learning_rate": 2.8985790183806257e-06,
      "loss": 3.2824,
      "step": 450040
    },
    {
      "epoch": 0.9376041666666667,
      "grad_norm": 2.977320432662964,
      "learning_rate": 2.89665062617882e-06,
      "loss": 3.3984,
      "step": 450050
    },
    {
      "epoch": 0.937625,
      "grad_norm": 3.291992664337158,
      "learning_rate": 2.8947228694052916e-06,
      "loss": 3.4004,
      "step": 450060
    },
    {
      "epoch": 0.9376458333333333,
      "grad_norm": 2.7915737628936768,
      "learning_rate": 2.8927957480682995e-06,
      "loss": 3.5932,
      "step": 450070
    },
    {
      "epoch": 0.9376666666666666,
      "grad_norm": 2.5102360248565674,
      "learning_rate": 2.8908692621762208e-06,
      "loss": 3.4284,
      "step": 450080
    },
    {
      "epoch": 0.9376875,
      "grad_norm": 2.974522590637207,
      "learning_rate": 2.888943411737349e-06,
      "loss": 3.4122,
      "step": 450090
    },
    {
      "epoch": 0.9377083333333334,
      "grad_norm": 2.98185658454895,
      "learning_rate": 2.8870181967600105e-06,
      "loss": 3.2909,
      "step": 450100
    },
    {
      "epoch": 0.9377291666666666,
      "grad_norm": 2.8402652740478516,
      "learning_rate": 2.885093617252515e-06,
      "loss": 3.5141,
      "step": 450110
    },
    {
      "epoch": 0.93775,
      "grad_norm": 3.0752205848693848,
      "learning_rate": 2.88316967322319e-06,
      "loss": 3.5823,
      "step": 450120
    },
    {
      "epoch": 0.9377708333333333,
      "grad_norm": 2.9417850971221924,
      "learning_rate": 2.881246364680345e-06,
      "loss": 3.4587,
      "step": 450130
    },
    {
      "epoch": 0.9377916666666667,
      "grad_norm": 2.5487477779388428,
      "learning_rate": 2.879323691632274e-06,
      "loss": 3.4122,
      "step": 450140
    },
    {
      "epoch": 0.9378125,
      "grad_norm": 3.2462639808654785,
      "learning_rate": 2.877401654087286e-06,
      "loss": 3.3605,
      "step": 450150
    },
    {
      "epoch": 0.9378333333333333,
      "grad_norm": 3.4598469734191895,
      "learning_rate": 2.875480252053691e-06,
      "loss": 3.4524,
      "step": 450160
    },
    {
      "epoch": 0.9378541666666667,
      "grad_norm": 2.9487547874450684,
      "learning_rate": 2.873559485539784e-06,
      "loss": 3.4094,
      "step": 450170
    },
    {
      "epoch": 0.937875,
      "grad_norm": 3.176795721054077,
      "learning_rate": 2.871639354553873e-06,
      "loss": 3.347,
      "step": 450180
    },
    {
      "epoch": 0.9378958333333334,
      "grad_norm": 3.107023239135742,
      "learning_rate": 2.869719859104236e-06,
      "loss": 3.4617,
      "step": 450190
    },
    {
      "epoch": 0.9379166666666666,
      "grad_norm": 3.9209766387939453,
      "learning_rate": 2.8678009991991826e-06,
      "loss": 3.4643,
      "step": 450200
    },
    {
      "epoch": 0.9379375,
      "grad_norm": 3.5645947456359863,
      "learning_rate": 2.8658827748469727e-06,
      "loss": 3.5571,
      "step": 450210
    },
    {
      "epoch": 0.9379583333333333,
      "grad_norm": 2.9520668983459473,
      "learning_rate": 2.8639651860559166e-06,
      "loss": 3.4621,
      "step": 450220
    },
    {
      "epoch": 0.9379791666666667,
      "grad_norm": 3.2796332836151123,
      "learning_rate": 2.862048232834291e-06,
      "loss": 3.4674,
      "step": 450230
    },
    {
      "epoch": 0.938,
      "grad_norm": 3.304544687271118,
      "learning_rate": 2.860131915190372e-06,
      "loss": 3.4327,
      "step": 450240
    },
    {
      "epoch": 0.9380208333333333,
      "grad_norm": 3.4125077724456787,
      "learning_rate": 2.8582162331324378e-06,
      "loss": 3.371,
      "step": 450250
    },
    {
      "epoch": 0.9380416666666667,
      "grad_norm": 2.9639902114868164,
      "learning_rate": 2.8563011866687803e-06,
      "loss": 3.4587,
      "step": 450260
    },
    {
      "epoch": 0.9380625,
      "grad_norm": 2.9554014205932617,
      "learning_rate": 2.854386775807643e-06,
      "loss": 3.3718,
      "step": 450270
    },
    {
      "epoch": 0.9380833333333334,
      "grad_norm": 4.509958267211914,
      "learning_rate": 2.8524730005573203e-06,
      "loss": 3.2725,
      "step": 450280
    },
    {
      "epoch": 0.9381041666666666,
      "grad_norm": 2.884819746017456,
      "learning_rate": 2.8505598609260717e-06,
      "loss": 3.369,
      "step": 450290
    },
    {
      "epoch": 0.938125,
      "grad_norm": 4.136878967285156,
      "learning_rate": 2.84864735692214e-06,
      "loss": 3.5293,
      "step": 450300
    },
    {
      "epoch": 0.9381458333333333,
      "grad_norm": 3.4850804805755615,
      "learning_rate": 2.8467354885538196e-06,
      "loss": 3.3563,
      "step": 450310
    },
    {
      "epoch": 0.9381666666666667,
      "grad_norm": 3.1178488731384277,
      "learning_rate": 2.84482425582937e-06,
      "loss": 3.6083,
      "step": 450320
    },
    {
      "epoch": 0.9381875,
      "grad_norm": 3.6891469955444336,
      "learning_rate": 2.842913658757001e-06,
      "loss": 3.4834,
      "step": 450330
    },
    {
      "epoch": 0.9382083333333333,
      "grad_norm": 4.985560894012451,
      "learning_rate": 2.8410036973450234e-06,
      "loss": 3.3625,
      "step": 450340
    },
    {
      "epoch": 0.9382291666666667,
      "grad_norm": 2.795361042022705,
      "learning_rate": 2.8390943716016467e-06,
      "loss": 3.3906,
      "step": 450350
    },
    {
      "epoch": 0.93825,
      "grad_norm": 3.2647318840026855,
      "learning_rate": 2.8371856815351145e-06,
      "loss": 3.4283,
      "step": 450360
    },
    {
      "epoch": 0.9382708333333334,
      "grad_norm": 3.452657699584961,
      "learning_rate": 2.8352776271537204e-06,
      "loss": 3.4119,
      "step": 450370
    },
    {
      "epoch": 0.9382916666666666,
      "grad_norm": 2.6304309368133545,
      "learning_rate": 2.8333702084656574e-06,
      "loss": 3.2878,
      "step": 450380
    },
    {
      "epoch": 0.9383125,
      "grad_norm": 3.2370030879974365,
      "learning_rate": 2.8314634254791857e-06,
      "loss": 3.3878,
      "step": 450390
    },
    {
      "epoch": 0.9383333333333334,
      "grad_norm": 3.2529890537261963,
      "learning_rate": 2.8295572782025487e-06,
      "loss": 3.4166,
      "step": 450400
    },
    {
      "epoch": 0.9383541666666667,
      "grad_norm": 3.0236101150512695,
      "learning_rate": 2.827651766643957e-06,
      "loss": 3.3726,
      "step": 450410
    },
    {
      "epoch": 0.938375,
      "grad_norm": 3.13114857673645,
      "learning_rate": 2.8257468908116697e-06,
      "loss": 3.4614,
      "step": 450420
    },
    {
      "epoch": 0.9383958333333333,
      "grad_norm": 2.9845526218414307,
      "learning_rate": 2.8238426507138814e-06,
      "loss": 3.4414,
      "step": 450430
    },
    {
      "epoch": 0.9384166666666667,
      "grad_norm": 3.481971263885498,
      "learning_rate": 2.821939046358851e-06,
      "loss": 3.5014,
      "step": 450440
    },
    {
      "epoch": 0.9384375,
      "grad_norm": 2.941800594329834,
      "learning_rate": 2.8200360777547724e-06,
      "loss": 3.317,
      "step": 450450
    },
    {
      "epoch": 0.9384583333333333,
      "grad_norm": 3.541341543197632,
      "learning_rate": 2.8181337449098893e-06,
      "loss": 3.5648,
      "step": 450460
    },
    {
      "epoch": 0.9384791666666666,
      "grad_norm": 2.574795722961426,
      "learning_rate": 2.816232047832412e-06,
      "loss": 3.3562,
      "step": 450470
    },
    {
      "epoch": 0.9385,
      "grad_norm": 3.0784146785736084,
      "learning_rate": 2.8143309865305495e-06,
      "loss": 3.4276,
      "step": 450480
    },
    {
      "epoch": 0.9385208333333334,
      "grad_norm": 3.599518299102783,
      "learning_rate": 2.812430561012513e-06,
      "loss": 3.4599,
      "step": 450490
    },
    {
      "epoch": 0.9385416666666667,
      "grad_norm": 2.7750468254089355,
      "learning_rate": 2.8105307712865287e-06,
      "loss": 3.3927,
      "step": 450500
    },
    {
      "epoch": 0.9385625,
      "grad_norm": 4.332204341888428,
      "learning_rate": 2.8086316173607737e-06,
      "loss": 3.3008,
      "step": 450510
    },
    {
      "epoch": 0.9385833333333333,
      "grad_norm": 2.921032190322876,
      "learning_rate": 2.8067330992434746e-06,
      "loss": 3.4597,
      "step": 450520
    },
    {
      "epoch": 0.9386041666666667,
      "grad_norm": 2.9528322219848633,
      "learning_rate": 2.8048352169428244e-06,
      "loss": 3.276,
      "step": 450530
    },
    {
      "epoch": 0.938625,
      "grad_norm": 2.705806016921997,
      "learning_rate": 2.8029379704670173e-06,
      "loss": 3.5272,
      "step": 450540
    },
    {
      "epoch": 0.9386458333333333,
      "grad_norm": 2.310486078262329,
      "learning_rate": 2.801041359824263e-06,
      "loss": 3.5518,
      "step": 450550
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 2.9576117992401123,
      "learning_rate": 2.7991453850227384e-06,
      "loss": 3.4851,
      "step": 450560
    },
    {
      "epoch": 0.9386875,
      "grad_norm": 2.6527559757232666,
      "learning_rate": 2.7972500460706537e-06,
      "loss": 3.4116,
      "step": 450570
    },
    {
      "epoch": 0.9387083333333334,
      "grad_norm": 3.2820687294006348,
      "learning_rate": 2.795355342976169e-06,
      "loss": 3.3404,
      "step": 450580
    },
    {
      "epoch": 0.9387291666666666,
      "grad_norm": 3.0965003967285156,
      "learning_rate": 2.793461275747477e-06,
      "loss": 3.5113,
      "step": 450590
    },
    {
      "epoch": 0.93875,
      "grad_norm": 2.7812612056732178,
      "learning_rate": 2.791567844392789e-06,
      "loss": 3.4157,
      "step": 450600
    },
    {
      "epoch": 0.9387708333333333,
      "grad_norm": 3.006507396697998,
      "learning_rate": 2.7896750489202313e-06,
      "loss": 3.5275,
      "step": 450610
    },
    {
      "epoch": 0.9387916666666667,
      "grad_norm": 4.177392959594727,
      "learning_rate": 2.787782889338014e-06,
      "loss": 3.5005,
      "step": 450620
    },
    {
      "epoch": 0.9388125,
      "grad_norm": 3.743682384490967,
      "learning_rate": 2.7858913656543137e-06,
      "loss": 3.3564,
      "step": 450630
    },
    {
      "epoch": 0.9388333333333333,
      "grad_norm": 2.8198516368865967,
      "learning_rate": 2.784000477877274e-06,
      "loss": 3.4299,
      "step": 450640
    },
    {
      "epoch": 0.9388541666666667,
      "grad_norm": 2.857412815093994,
      "learning_rate": 2.7821102260150887e-06,
      "loss": 3.462,
      "step": 450650
    },
    {
      "epoch": 0.938875,
      "grad_norm": 2.917840003967285,
      "learning_rate": 2.780220610075917e-06,
      "loss": 3.4467,
      "step": 450660
    },
    {
      "epoch": 0.9388958333333334,
      "grad_norm": 3.386667013168335,
      "learning_rate": 2.7783316300679036e-06,
      "loss": 3.3043,
      "step": 450670
    },
    {
      "epoch": 0.9389166666666666,
      "grad_norm": 2.8678486347198486,
      "learning_rate": 2.7764432859992414e-06,
      "loss": 3.4765,
      "step": 450680
    },
    {
      "epoch": 0.9389375,
      "grad_norm": 3.2382805347442627,
      "learning_rate": 2.7745555778780735e-06,
      "loss": 3.4542,
      "step": 450690
    },
    {
      "epoch": 0.9389583333333333,
      "grad_norm": 3.6200432777404785,
      "learning_rate": 2.7726685057125277e-06,
      "loss": 3.3161,
      "step": 450700
    },
    {
      "epoch": 0.9389791666666667,
      "grad_norm": 3.201550006866455,
      "learning_rate": 2.770782069510813e-06,
      "loss": 3.4809,
      "step": 450710
    },
    {
      "epoch": 0.939,
      "grad_norm": 3.632826566696167,
      "learning_rate": 2.7688962692810233e-06,
      "loss": 3.4362,
      "step": 450720
    },
    {
      "epoch": 0.9390208333333333,
      "grad_norm": 3.509120464324951,
      "learning_rate": 2.7670111050313193e-06,
      "loss": 3.3943,
      "step": 450730
    },
    {
      "epoch": 0.9390416666666667,
      "grad_norm": 3.3282206058502197,
      "learning_rate": 2.765126576769844e-06,
      "loss": 3.3493,
      "step": 450740
    },
    {
      "epoch": 0.9390625,
      "grad_norm": 3.4016997814178467,
      "learning_rate": 2.7632426845047405e-06,
      "loss": 3.4182,
      "step": 450750
    },
    {
      "epoch": 0.9390833333333334,
      "grad_norm": 3.4332902431488037,
      "learning_rate": 2.761359428244153e-06,
      "loss": 3.4726,
      "step": 450760
    },
    {
      "epoch": 0.9391041666666666,
      "grad_norm": 2.755141019821167,
      "learning_rate": 2.759476807996225e-06,
      "loss": 3.423,
      "step": 450770
    },
    {
      "epoch": 0.939125,
      "grad_norm": 2.9085960388183594,
      "learning_rate": 2.7575948237690657e-06,
      "loss": 3.3887,
      "step": 450780
    },
    {
      "epoch": 0.9391458333333333,
      "grad_norm": 2.6190109252929688,
      "learning_rate": 2.7557134755708032e-06,
      "loss": 3.4612,
      "step": 450790
    },
    {
      "epoch": 0.9391666666666667,
      "grad_norm": 3.417870044708252,
      "learning_rate": 2.7538327634095804e-06,
      "loss": 3.4047,
      "step": 450800
    },
    {
      "epoch": 0.9391875,
      "grad_norm": 3.589317798614502,
      "learning_rate": 2.7519526872935237e-06,
      "loss": 3.2469,
      "step": 450810
    },
    {
      "epoch": 0.9392083333333333,
      "grad_norm": 3.9368395805358887,
      "learning_rate": 2.7500732472307442e-06,
      "loss": 3.5105,
      "step": 450820
    },
    {
      "epoch": 0.9392291666666667,
      "grad_norm": 2.552199602127075,
      "learning_rate": 2.7481944432293677e-06,
      "loss": 3.4063,
      "step": 450830
    },
    {
      "epoch": 0.93925,
      "grad_norm": 3.140409469604492,
      "learning_rate": 2.7463162752974887e-06,
      "loss": 3.4584,
      "step": 450840
    },
    {
      "epoch": 0.9392708333333334,
      "grad_norm": 3.716113567352295,
      "learning_rate": 2.74443874344325e-06,
      "loss": 3.4127,
      "step": 450850
    },
    {
      "epoch": 0.9392916666666666,
      "grad_norm": 3.686737537384033,
      "learning_rate": 2.7425618476747456e-06,
      "loss": 3.3889,
      "step": 450860
    },
    {
      "epoch": 0.9393125,
      "grad_norm": 3.425144910812378,
      "learning_rate": 2.7406855880000857e-06,
      "loss": 3.4012,
      "step": 450870
    },
    {
      "epoch": 0.9393333333333334,
      "grad_norm": 3.7541115283966064,
      "learning_rate": 2.738809964427363e-06,
      "loss": 3.3362,
      "step": 450880
    },
    {
      "epoch": 0.9393541666666667,
      "grad_norm": 4.131307125091553,
      "learning_rate": 2.736934976964705e-06,
      "loss": 3.3795,
      "step": 450890
    },
    {
      "epoch": 0.939375,
      "grad_norm": 3.1540517807006836,
      "learning_rate": 2.735060625620189e-06,
      "loss": 3.4532,
      "step": 450900
    },
    {
      "epoch": 0.9393958333333333,
      "grad_norm": 4.217098712921143,
      "learning_rate": 2.7331869104019244e-06,
      "loss": 3.3856,
      "step": 450910
    },
    {
      "epoch": 0.9394166666666667,
      "grad_norm": 3.494478464126587,
      "learning_rate": 2.731313831318005e-06,
      "loss": 3.4574,
      "step": 450920
    },
    {
      "epoch": 0.9394375,
      "grad_norm": 2.8670787811279297,
      "learning_rate": 2.7294413883765077e-06,
      "loss": 3.4376,
      "step": 450930
    },
    {
      "epoch": 0.9394583333333333,
      "grad_norm": 2.849112033843994,
      "learning_rate": 2.7275695815855425e-06,
      "loss": 3.3885,
      "step": 450940
    },
    {
      "epoch": 0.9394791666666666,
      "grad_norm": 4.071560382843018,
      "learning_rate": 2.72569841095317e-06,
      "loss": 3.3175,
      "step": 450950
    },
    {
      "epoch": 0.9395,
      "grad_norm": 2.4391119480133057,
      "learning_rate": 2.723827876487483e-06,
      "loss": 3.4271,
      "step": 450960
    },
    {
      "epoch": 0.9395208333333334,
      "grad_norm": 3.5884618759155273,
      "learning_rate": 2.7219579781965927e-06,
      "loss": 3.4129,
      "step": 450970
    },
    {
      "epoch": 0.9395416666666667,
      "grad_norm": 2.7821590900421143,
      "learning_rate": 2.7200887160885088e-06,
      "loss": 3.3561,
      "step": 450980
    },
    {
      "epoch": 0.9395625,
      "grad_norm": 3.1965363025665283,
      "learning_rate": 2.718220090171358e-06,
      "loss": 3.4844,
      "step": 450990
    },
    {
      "epoch": 0.9395833333333333,
      "grad_norm": 3.025380849838257,
      "learning_rate": 2.7163521004532175e-06,
      "loss": 3.4373,
      "step": 451000
    },
    {
      "epoch": 0.9395833333333333,
      "eval_loss": 3.521361827850342,
      "eval_runtime": 7.3155,
      "eval_samples_per_second": 1.367,
      "eval_steps_per_second": 0.41,
      "step": 451000
    },
    {
      "epoch": 0.9396041666666667,
      "grad_norm": 3.875304937362671,
      "learning_rate": 2.7144847469421136e-06,
      "loss": 3.4096,
      "step": 451010
    },
    {
      "epoch": 0.939625,
      "grad_norm": 3.0590016841888428,
      "learning_rate": 2.712618029646124e-06,
      "loss": 3.3353,
      "step": 451020
    },
    {
      "epoch": 0.9396458333333333,
      "grad_norm": 3.0049242973327637,
      "learning_rate": 2.710751948573359e-06,
      "loss": 3.252,
      "step": 451030
    },
    {
      "epoch": 0.9396666666666667,
      "grad_norm": 4.8179826736450195,
      "learning_rate": 2.7088865037318274e-06,
      "loss": 3.5134,
      "step": 451040
    },
    {
      "epoch": 0.9396875,
      "grad_norm": 3.1107490062713623,
      "learning_rate": 2.707021695129591e-06,
      "loss": 3.375,
      "step": 451050
    },
    {
      "epoch": 0.9397083333333334,
      "grad_norm": 2.8736772537231445,
      "learning_rate": 2.7051575227747423e-06,
      "loss": 3.2524,
      "step": 451060
    },
    {
      "epoch": 0.9397291666666666,
      "grad_norm": 3.0238049030303955,
      "learning_rate": 2.7032939866752924e-06,
      "loss": 3.3006,
      "step": 451070
    },
    {
      "epoch": 0.93975,
      "grad_norm": 2.709395170211792,
      "learning_rate": 2.7014310868393173e-06,
      "loss": 3.4577,
      "step": 451080
    },
    {
      "epoch": 0.9397708333333333,
      "grad_norm": 3.508814573287964,
      "learning_rate": 2.699568823274845e-06,
      "loss": 3.475,
      "step": 451090
    },
    {
      "epoch": 0.9397916666666667,
      "grad_norm": 2.778301239013672,
      "learning_rate": 2.697707195989951e-06,
      "loss": 3.334,
      "step": 451100
    },
    {
      "epoch": 0.9398125,
      "grad_norm": 3.9209907054901123,
      "learning_rate": 2.69584620499263e-06,
      "loss": 3.444,
      "step": 451110
    },
    {
      "epoch": 0.9398333333333333,
      "grad_norm": 3.144909620285034,
      "learning_rate": 2.6939858502909584e-06,
      "loss": 3.431,
      "step": 451120
    },
    {
      "epoch": 0.9398541666666667,
      "grad_norm": 2.553053855895996,
      "learning_rate": 2.6921261318929634e-06,
      "loss": 3.4206,
      "step": 451130
    },
    {
      "epoch": 0.939875,
      "grad_norm": 2.568546772003174,
      "learning_rate": 2.6902670498066715e-06,
      "loss": 3.4304,
      "step": 451140
    },
    {
      "epoch": 0.9398958333333334,
      "grad_norm": 3.3986656665802,
      "learning_rate": 2.68840860404011e-06,
      "loss": 3.3727,
      "step": 451150
    },
    {
      "epoch": 0.9399166666666666,
      "grad_norm": 3.6455209255218506,
      "learning_rate": 2.686550794601322e-06,
      "loss": 3.4103,
      "step": 451160
    },
    {
      "epoch": 0.9399375,
      "grad_norm": 3.839956045150757,
      "learning_rate": 2.684693621498335e-06,
      "loss": 3.3643,
      "step": 451170
    },
    {
      "epoch": 0.9399583333333333,
      "grad_norm": 3.568399667739868,
      "learning_rate": 2.6828370847391424e-06,
      "loss": 3.3082,
      "step": 451180
    },
    {
      "epoch": 0.9399791666666667,
      "grad_norm": 2.6335508823394775,
      "learning_rate": 2.6809811843317876e-06,
      "loss": 3.4908,
      "step": 451190
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.8256008625030518,
      "learning_rate": 2.6791259202842807e-06,
      "loss": 3.3846,
      "step": 451200
    },
    {
      "epoch": 0.9400208333333333,
      "grad_norm": 2.7439653873443604,
      "learning_rate": 2.6772712926046327e-06,
      "loss": 3.4118,
      "step": 451210
    },
    {
      "epoch": 0.9400416666666667,
      "grad_norm": 3.416250467300415,
      "learning_rate": 2.6754173013008528e-06,
      "loss": 3.3934,
      "step": 451220
    },
    {
      "epoch": 0.9400625,
      "grad_norm": 3.5516960620880127,
      "learning_rate": 2.6735639463809687e-06,
      "loss": 3.5219,
      "step": 451230
    },
    {
      "epoch": 0.9400833333333334,
      "grad_norm": 3.07601261138916,
      "learning_rate": 2.6717112278529575e-06,
      "loss": 3.4896,
      "step": 451240
    },
    {
      "epoch": 0.9401041666666666,
      "grad_norm": 3.1941936016082764,
      "learning_rate": 2.6698591457248455e-06,
      "loss": 3.4739,
      "step": 451250
    },
    {
      "epoch": 0.940125,
      "grad_norm": 3.1206459999084473,
      "learning_rate": 2.668007700004626e-06,
      "loss": 3.5636,
      "step": 451260
    },
    {
      "epoch": 0.9401458333333333,
      "grad_norm": 2.779232978820801,
      "learning_rate": 2.666156890700294e-06,
      "loss": 3.2854,
      "step": 451270
    },
    {
      "epoch": 0.9401666666666667,
      "grad_norm": 2.8601019382476807,
      "learning_rate": 2.6643067178198586e-06,
      "loss": 3.4924,
      "step": 451280
    },
    {
      "epoch": 0.9401875,
      "grad_norm": 2.5449273586273193,
      "learning_rate": 2.6624571813712803e-06,
      "loss": 3.4111,
      "step": 451290
    },
    {
      "epoch": 0.9402083333333333,
      "grad_norm": 4.070022106170654,
      "learning_rate": 2.6606082813625693e-06,
      "loss": 3.269,
      "step": 451300
    },
    {
      "epoch": 0.9402291666666667,
      "grad_norm": 2.4261679649353027,
      "learning_rate": 2.65876001780172e-06,
      "loss": 3.4988,
      "step": 451310
    },
    {
      "epoch": 0.94025,
      "grad_norm": 3.520559787750244,
      "learning_rate": 2.656912390696708e-06,
      "loss": 3.4422,
      "step": 451320
    },
    {
      "epoch": 0.9402708333333333,
      "grad_norm": 4.4748148918151855,
      "learning_rate": 2.655065400055495e-06,
      "loss": 3.3814,
      "step": 451330
    },
    {
      "epoch": 0.9402916666666666,
      "grad_norm": 3.040074586868286,
      "learning_rate": 2.6532190458860903e-06,
      "loss": 3.5383,
      "step": 451340
    },
    {
      "epoch": 0.9403125,
      "grad_norm": 3.517500400543213,
      "learning_rate": 2.6513733281964544e-06,
      "loss": 3.5624,
      "step": 451350
    },
    {
      "epoch": 0.9403333333333334,
      "grad_norm": 3.0348851680755615,
      "learning_rate": 2.649528246994531e-06,
      "loss": 3.3141,
      "step": 451360
    },
    {
      "epoch": 0.9403541666666667,
      "grad_norm": 3.354261875152588,
      "learning_rate": 2.647683802288364e-06,
      "loss": 3.3651,
      "step": 451370
    },
    {
      "epoch": 0.940375,
      "grad_norm": 2.8643038272857666,
      "learning_rate": 2.645839994085863e-06,
      "loss": 3.1825,
      "step": 451380
    },
    {
      "epoch": 0.9403958333333333,
      "grad_norm": 3.1361584663391113,
      "learning_rate": 2.6439968223949894e-06,
      "loss": 3.5108,
      "step": 451390
    },
    {
      "epoch": 0.9404166666666667,
      "grad_norm": 3.1901485919952393,
      "learning_rate": 2.6421542872237355e-06,
      "loss": 3.3888,
      "step": 451400
    },
    {
      "epoch": 0.9404375,
      "grad_norm": 3.335627555847168,
      "learning_rate": 2.640312388580046e-06,
      "loss": 3.4125,
      "step": 451410
    },
    {
      "epoch": 0.9404583333333333,
      "grad_norm": 2.778334140777588,
      "learning_rate": 2.6384711264718637e-06,
      "loss": 3.4046,
      "step": 451420
    },
    {
      "epoch": 0.9404791666666666,
      "grad_norm": 2.984264373779297,
      "learning_rate": 2.6366305009071833e-06,
      "loss": 3.4217,
      "step": 451430
    },
    {
      "epoch": 0.9405,
      "grad_norm": 2.9061362743377686,
      "learning_rate": 2.634790511893914e-06,
      "loss": 3.381,
      "step": 451440
    },
    {
      "epoch": 0.9405208333333334,
      "grad_norm": 4.187921047210693,
      "learning_rate": 2.632951159440033e-06,
      "loss": 3.3188,
      "step": 451450
    },
    {
      "epoch": 0.9405416666666667,
      "grad_norm": 2.6467952728271484,
      "learning_rate": 2.6311124435534514e-06,
      "loss": 3.4696,
      "step": 451460
    },
    {
      "epoch": 0.9405625,
      "grad_norm": 2.5414998531341553,
      "learning_rate": 2.6292743642421287e-06,
      "loss": 3.4535,
      "step": 451470
    },
    {
      "epoch": 0.9405833333333333,
      "grad_norm": 2.825039863586426,
      "learning_rate": 2.6274369215140258e-06,
      "loss": 3.4931,
      "step": 451480
    },
    {
      "epoch": 0.9406041666666667,
      "grad_norm": 2.6871750354766846,
      "learning_rate": 2.6256001153770525e-06,
      "loss": 3.4744,
      "step": 451490
    },
    {
      "epoch": 0.940625,
      "grad_norm": 3.273571252822876,
      "learning_rate": 2.6237639458391523e-06,
      "loss": 3.4286,
      "step": 451500
    },
    {
      "epoch": 0.9406458333333333,
      "grad_norm": 3.5164296627044678,
      "learning_rate": 2.621928412908253e-06,
      "loss": 3.4146,
      "step": 451510
    },
    {
      "epoch": 0.9406666666666667,
      "grad_norm": 3.7827305793762207,
      "learning_rate": 2.620093516592281e-06,
      "loss": 3.4115,
      "step": 451520
    },
    {
      "epoch": 0.9406875,
      "grad_norm": 3.1053860187530518,
      "learning_rate": 2.61825925689918e-06,
      "loss": 3.561,
      "step": 451530
    },
    {
      "epoch": 0.9407083333333334,
      "grad_norm": 2.777801036834717,
      "learning_rate": 2.6164256338368607e-06,
      "loss": 3.4575,
      "step": 451540
    },
    {
      "epoch": 0.9407291666666666,
      "grad_norm": 3.025177001953125,
      "learning_rate": 2.6145926474132327e-06,
      "loss": 3.4183,
      "step": 451550
    },
    {
      "epoch": 0.94075,
      "grad_norm": 3.468621015548706,
      "learning_rate": 2.6127602976362404e-06,
      "loss": 3.3822,
      "step": 451560
    },
    {
      "epoch": 0.9407708333333333,
      "grad_norm": 3.5568268299102783,
      "learning_rate": 2.6109285845137774e-06,
      "loss": 3.4262,
      "step": 451570
    },
    {
      "epoch": 0.9407916666666667,
      "grad_norm": 3.1954009532928467,
      "learning_rate": 2.6090975080537536e-06,
      "loss": 3.3938,
      "step": 451580
    },
    {
      "epoch": 0.9408125,
      "grad_norm": 3.0962066650390625,
      "learning_rate": 2.607267068264096e-06,
      "loss": 3.5678,
      "step": 451590
    },
    {
      "epoch": 0.9408333333333333,
      "grad_norm": 2.965102434158325,
      "learning_rate": 2.6054372651527154e-06,
      "loss": 3.4563,
      "step": 451600
    },
    {
      "epoch": 0.9408541666666667,
      "grad_norm": 2.6847143173217773,
      "learning_rate": 2.603608098727472e-06,
      "loss": 3.4759,
      "step": 451610
    },
    {
      "epoch": 0.940875,
      "grad_norm": 2.4841463565826416,
      "learning_rate": 2.601779568996326e-06,
      "loss": 3.3406,
      "step": 451620
    },
    {
      "epoch": 0.9408958333333334,
      "grad_norm": 3.0392017364501953,
      "learning_rate": 2.599951675967138e-06,
      "loss": 3.4286,
      "step": 451630
    },
    {
      "epoch": 0.9409166666666666,
      "grad_norm": 3.033748149871826,
      "learning_rate": 2.5981244196478014e-06,
      "loss": 3.4227,
      "step": 451640
    },
    {
      "epoch": 0.9409375,
      "grad_norm": 4.181220531463623,
      "learning_rate": 2.596297800046243e-06,
      "loss": 3.477,
      "step": 451650
    },
    {
      "epoch": 0.9409583333333333,
      "grad_norm": 3.1572258472442627,
      "learning_rate": 2.594471817170324e-06,
      "loss": 3.3753,
      "step": 451660
    },
    {
      "epoch": 0.9409791666666667,
      "grad_norm": 2.918287992477417,
      "learning_rate": 2.592646471027937e-06,
      "loss": 3.3846,
      "step": 451670
    },
    {
      "epoch": 0.941,
      "grad_norm": 3.110924482345581,
      "learning_rate": 2.59082176162696e-06,
      "loss": 3.4127,
      "step": 451680
    },
    {
      "epoch": 0.9410208333333333,
      "grad_norm": 3.616581916809082,
      "learning_rate": 2.5889976889753027e-06,
      "loss": 3.3822,
      "step": 451690
    },
    {
      "epoch": 0.9410416666666667,
      "grad_norm": 2.9916141033172607,
      "learning_rate": 2.587174253080809e-06,
      "loss": 3.5482,
      "step": 451700
    },
    {
      "epoch": 0.9410625,
      "grad_norm": 3.2599496841430664,
      "learning_rate": 2.5853514539513898e-06,
      "loss": 3.3513,
      "step": 451710
    },
    {
      "epoch": 0.9410833333333334,
      "grad_norm": 3.008129596710205,
      "learning_rate": 2.5835292915949047e-06,
      "loss": 3.3426,
      "step": 451720
    },
    {
      "epoch": 0.9411041666666666,
      "grad_norm": 2.8089001178741455,
      "learning_rate": 2.5817077660191978e-06,
      "loss": 3.4482,
      "step": 451730
    },
    {
      "epoch": 0.941125,
      "grad_norm": 5.3867645263671875,
      "learning_rate": 2.579886877232179e-06,
      "loss": 3.4429,
      "step": 451740
    },
    {
      "epoch": 0.9411458333333333,
      "grad_norm": 3.7411177158355713,
      "learning_rate": 2.5780666252416927e-06,
      "loss": 3.3861,
      "step": 451750
    },
    {
      "epoch": 0.9411666666666667,
      "grad_norm": 2.649109363555908,
      "learning_rate": 2.576247010055582e-06,
      "loss": 3.3619,
      "step": 451760
    },
    {
      "epoch": 0.9411875,
      "grad_norm": 3.708386182785034,
      "learning_rate": 2.5744280316817743e-06,
      "loss": 3.4592,
      "step": 451770
    },
    {
      "epoch": 0.9412083333333333,
      "grad_norm": 4.1228227615356445,
      "learning_rate": 2.5726096901280468e-06,
      "loss": 3.4194,
      "step": 451780
    },
    {
      "epoch": 0.9412291666666667,
      "grad_norm": 2.5658445358276367,
      "learning_rate": 2.570791985402293e-06,
      "loss": 3.428,
      "step": 451790
    },
    {
      "epoch": 0.94125,
      "grad_norm": 4.42489767074585,
      "learning_rate": 2.5689749175123896e-06,
      "loss": 3.4129,
      "step": 451800
    },
    {
      "epoch": 0.9412708333333333,
      "grad_norm": 3.1709744930267334,
      "learning_rate": 2.567158486466131e-06,
      "loss": 3.5153,
      "step": 451810
    },
    {
      "epoch": 0.9412916666666666,
      "grad_norm": 2.5338361263275146,
      "learning_rate": 2.565342692271377e-06,
      "loss": 3.4545,
      "step": 451820
    },
    {
      "epoch": 0.9413125,
      "grad_norm": 3.2881507873535156,
      "learning_rate": 2.5635275349360216e-06,
      "loss": 3.5569,
      "step": 451830
    },
    {
      "epoch": 0.9413333333333334,
      "grad_norm": 3.379009485244751,
      "learning_rate": 2.561713014467842e-06,
      "loss": 3.3888,
      "step": 451840
    },
    {
      "epoch": 0.9413541666666667,
      "grad_norm": 3.1885268688201904,
      "learning_rate": 2.559899130874715e-06,
      "loss": 3.4089,
      "step": 451850
    },
    {
      "epoch": 0.941375,
      "grad_norm": 2.6983039379119873,
      "learning_rate": 2.558085884164451e-06,
      "loss": 3.5657,
      "step": 451860
    },
    {
      "epoch": 0.9413958333333333,
      "grad_norm": 3.0704853534698486,
      "learning_rate": 2.556273274344911e-06,
      "loss": 3.3182,
      "step": 451870
    },
    {
      "epoch": 0.9414166666666667,
      "grad_norm": 4.340616703033447,
      "learning_rate": 2.554461301423888e-06,
      "loss": 3.624,
      "step": 451880
    },
    {
      "epoch": 0.9414375,
      "grad_norm": 2.655609369277954,
      "learning_rate": 2.5526499654092425e-06,
      "loss": 3.4702,
      "step": 451890
    },
    {
      "epoch": 0.9414583333333333,
      "grad_norm": 3.7683932781219482,
      "learning_rate": 2.550839266308785e-06,
      "loss": 3.4427,
      "step": 451900
    },
    {
      "epoch": 0.9414791666666666,
      "grad_norm": 3.438225507736206,
      "learning_rate": 2.5490292041303263e-06,
      "loss": 3.3825,
      "step": 451910
    },
    {
      "epoch": 0.9415,
      "grad_norm": 2.7866132259368896,
      "learning_rate": 2.5472197788817095e-06,
      "loss": 3.3542,
      "step": 451920
    },
    {
      "epoch": 0.9415208333333334,
      "grad_norm": 3.3225622177124023,
      "learning_rate": 2.5454109905707288e-06,
      "loss": 3.3328,
      "step": 451930
    },
    {
      "epoch": 0.9415416666666667,
      "grad_norm": 3.031794548034668,
      "learning_rate": 2.5436028392052275e-06,
      "loss": 3.5124,
      "step": 451940
    },
    {
      "epoch": 0.9415625,
      "grad_norm": 3.1618683338165283,
      "learning_rate": 2.5417953247929503e-06,
      "loss": 3.2977,
      "step": 451950
    },
    {
      "epoch": 0.9415833333333333,
      "grad_norm": 2.855532646179199,
      "learning_rate": 2.539988447341773e-06,
      "loss": 3.4536,
      "step": 451960
    },
    {
      "epoch": 0.9416041666666667,
      "grad_norm": 4.398439884185791,
      "learning_rate": 2.538182206859507e-06,
      "loss": 3.4712,
      "step": 451970
    },
    {
      "epoch": 0.941625,
      "grad_norm": 3.2230300903320312,
      "learning_rate": 2.536376603353879e-06,
      "loss": 3.4789,
      "step": 451980
    },
    {
      "epoch": 0.9416458333333333,
      "grad_norm": 3.2885162830352783,
      "learning_rate": 2.5345716368327497e-06,
      "loss": 3.4305,
      "step": 451990
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 2.8494327068328857,
      "learning_rate": 2.5327673073039123e-06,
      "loss": 3.3766,
      "step": 452000
    },
    {
      "epoch": 0.9416666666666667,
      "eval_loss": 3.520369052886963,
      "eval_runtime": 7.3033,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 452000
    },
    {
      "epoch": 0.9416875,
      "grad_norm": 2.730350971221924,
      "learning_rate": 2.530963614775128e-06,
      "loss": 3.3174,
      "step": 452010
    },
    {
      "epoch": 0.9417083333333334,
      "grad_norm": 2.8081462383270264,
      "learning_rate": 2.529160559254223e-06,
      "loss": 3.4487,
      "step": 452020
    },
    {
      "epoch": 0.9417291666666666,
      "grad_norm": 3.706486225128174,
      "learning_rate": 2.5273581407489752e-06,
      "loss": 3.4982,
      "step": 452030
    },
    {
      "epoch": 0.94175,
      "grad_norm": 2.9792377948760986,
      "learning_rate": 2.5255563592671447e-06,
      "loss": 3.4597,
      "step": 452040
    },
    {
      "epoch": 0.9417708333333333,
      "grad_norm": 2.8414316177368164,
      "learning_rate": 2.5237552148165417e-06,
      "loss": 3.5019,
      "step": 452050
    },
    {
      "epoch": 0.9417916666666667,
      "grad_norm": 3.3777194023132324,
      "learning_rate": 2.521954707404961e-06,
      "loss": 3.3962,
      "step": 452060
    },
    {
      "epoch": 0.9418125,
      "grad_norm": 2.8500678539276123,
      "learning_rate": 2.5201548370401447e-06,
      "loss": 3.4712,
      "step": 452070
    },
    {
      "epoch": 0.9418333333333333,
      "grad_norm": 2.903888702392578,
      "learning_rate": 2.5183556037299047e-06,
      "loss": 3.3792,
      "step": 452080
    },
    {
      "epoch": 0.9418541666666667,
      "grad_norm": 2.724597215652466,
      "learning_rate": 2.5165570074819674e-06,
      "loss": 3.4959,
      "step": 452090
    },
    {
      "epoch": 0.941875,
      "grad_norm": 3.3337714672088623,
      "learning_rate": 2.5147590483041104e-06,
      "loss": 3.5181,
      "step": 452100
    },
    {
      "epoch": 0.9418958333333334,
      "grad_norm": 4.05910062789917,
      "learning_rate": 2.51296172620416e-06,
      "loss": 3.4209,
      "step": 452110
    },
    {
      "epoch": 0.9419166666666666,
      "grad_norm": 3.120065450668335,
      "learning_rate": 2.511165041189811e-06,
      "loss": 3.4375,
      "step": 452120
    },
    {
      "epoch": 0.9419375,
      "grad_norm": 4.214314937591553,
      "learning_rate": 2.50936899326884e-06,
      "loss": 3.48,
      "step": 452130
    },
    {
      "epoch": 0.9419583333333333,
      "grad_norm": 3.2707250118255615,
      "learning_rate": 2.507573582449024e-06,
      "loss": 3.4271,
      "step": 452140
    },
    {
      "epoch": 0.9419791666666667,
      "grad_norm": 2.5951733589172363,
      "learning_rate": 2.505778808738107e-06,
      "loss": 3.5209,
      "step": 452150
    },
    {
      "epoch": 0.942,
      "grad_norm": 3.106597661972046,
      "learning_rate": 2.503984672143833e-06,
      "loss": 3.4844,
      "step": 452160
    },
    {
      "epoch": 0.9420208333333333,
      "grad_norm": 3.0310707092285156,
      "learning_rate": 2.5021911726739952e-06,
      "loss": 3.3411,
      "step": 452170
    },
    {
      "epoch": 0.9420416666666667,
      "grad_norm": 3.489689588546753,
      "learning_rate": 2.500398310336288e-06,
      "loss": 3.5039,
      "step": 452180
    },
    {
      "epoch": 0.9420625,
      "grad_norm": 2.841113567352295,
      "learning_rate": 2.4986060851384713e-06,
      "loss": 3.359,
      "step": 452190
    },
    {
      "epoch": 0.9420833333333334,
      "grad_norm": 3.478696346282959,
      "learning_rate": 2.4968144970882896e-06,
      "loss": 3.3386,
      "step": 452200
    },
    {
      "epoch": 0.9421041666666666,
      "grad_norm": 2.820410966873169,
      "learning_rate": 2.4950235461934864e-06,
      "loss": 3.417,
      "step": 452210
    },
    {
      "epoch": 0.942125,
      "grad_norm": 3.2844364643096924,
      "learning_rate": 2.4932332324618053e-06,
      "loss": 3.4681,
      "step": 452220
    },
    {
      "epoch": 0.9421458333333333,
      "grad_norm": 2.8682525157928467,
      "learning_rate": 2.4914435559009573e-06,
      "loss": 3.3132,
      "step": 452230
    },
    {
      "epoch": 0.9421666666666667,
      "grad_norm": 3.745356798171997,
      "learning_rate": 2.4896545165186855e-06,
      "loss": 3.4821,
      "step": 452240
    },
    {
      "epoch": 0.9421875,
      "grad_norm": 2.620147228240967,
      "learning_rate": 2.487866114322734e-06,
      "loss": 3.375,
      "step": 452250
    },
    {
      "epoch": 0.9422083333333333,
      "grad_norm": 2.7916204929351807,
      "learning_rate": 2.486078349320797e-06,
      "loss": 3.4294,
      "step": 452260
    },
    {
      "epoch": 0.9422291666666667,
      "grad_norm": 2.7236287593841553,
      "learning_rate": 2.484291221520601e-06,
      "loss": 3.4902,
      "step": 452270
    },
    {
      "epoch": 0.94225,
      "grad_norm": 3.653918743133545,
      "learning_rate": 2.4825047309298905e-06,
      "loss": 3.4092,
      "step": 452280
    },
    {
      "epoch": 0.9422708333333333,
      "grad_norm": 2.7658987045288086,
      "learning_rate": 2.4807188775563757e-06,
      "loss": 3.4865,
      "step": 452290
    },
    {
      "epoch": 0.9422916666666666,
      "grad_norm": 2.928952693939209,
      "learning_rate": 2.4789336614077504e-06,
      "loss": 3.4245,
      "step": 452300
    },
    {
      "epoch": 0.9423125,
      "grad_norm": 3.16900634765625,
      "learning_rate": 2.4771490824917415e-06,
      "loss": 3.4442,
      "step": 452310
    },
    {
      "epoch": 0.9423333333333334,
      "grad_norm": 2.6824393272399902,
      "learning_rate": 2.4753651408160436e-06,
      "loss": 3.3273,
      "step": 452320
    },
    {
      "epoch": 0.9423541666666667,
      "grad_norm": 3.2233033180236816,
      "learning_rate": 2.4735818363884e-06,
      "loss": 3.4771,
      "step": 452330
    },
    {
      "epoch": 0.942375,
      "grad_norm": 2.84025239944458,
      "learning_rate": 2.4717991692164708e-06,
      "loss": 3.4739,
      "step": 452340
    },
    {
      "epoch": 0.9423958333333333,
      "grad_norm": 4.410330295562744,
      "learning_rate": 2.470017139307967e-06,
      "loss": 3.4102,
      "step": 452350
    },
    {
      "epoch": 0.9424166666666667,
      "grad_norm": 2.921342611312866,
      "learning_rate": 2.468235746670599e-06,
      "loss": 3.2911,
      "step": 452360
    },
    {
      "epoch": 0.9424375,
      "grad_norm": 3.117147207260132,
      "learning_rate": 2.4664549913120778e-06,
      "loss": 3.459,
      "step": 452370
    },
    {
      "epoch": 0.9424583333333333,
      "grad_norm": 3.9429423809051514,
      "learning_rate": 2.4646748732400467e-06,
      "loss": 3.3886,
      "step": 452380
    },
    {
      "epoch": 0.9424791666666666,
      "grad_norm": 2.7188618183135986,
      "learning_rate": 2.4628953924622165e-06,
      "loss": 3.3685,
      "step": 452390
    },
    {
      "epoch": 0.9425,
      "grad_norm": 3.63995361328125,
      "learning_rate": 2.461116548986314e-06,
      "loss": 3.5766,
      "step": 452400
    },
    {
      "epoch": 0.9425208333333334,
      "grad_norm": 3.057502031326294,
      "learning_rate": 2.4593383428199498e-06,
      "loss": 3.2952,
      "step": 452410
    },
    {
      "epoch": 0.9425416666666667,
      "grad_norm": 2.7931013107299805,
      "learning_rate": 2.4575607739708513e-06,
      "loss": 3.4452,
      "step": 452420
    },
    {
      "epoch": 0.9425625,
      "grad_norm": 4.489973068237305,
      "learning_rate": 2.4557838424467124e-06,
      "loss": 3.3449,
      "step": 452430
    },
    {
      "epoch": 0.9425833333333333,
      "grad_norm": 3.413943290710449,
      "learning_rate": 2.45400754825516e-06,
      "loss": 3.4332,
      "step": 452440
    },
    {
      "epoch": 0.9426041666666667,
      "grad_norm": 3.9973959922790527,
      "learning_rate": 2.4522318914039053e-06,
      "loss": 3.4563,
      "step": 452450
    },
    {
      "epoch": 0.942625,
      "grad_norm": 4.438597679138184,
      "learning_rate": 2.450456871900608e-06,
      "loss": 3.4162,
      "step": 452460
    },
    {
      "epoch": 0.9426458333333333,
      "grad_norm": 3.3138749599456787,
      "learning_rate": 2.448682489752912e-06,
      "loss": 3.3724,
      "step": 452470
    },
    {
      "epoch": 0.9426666666666667,
      "grad_norm": 2.8380982875823975,
      "learning_rate": 2.4469087449685286e-06,
      "loss": 3.4628,
      "step": 452480
    },
    {
      "epoch": 0.9426875,
      "grad_norm": 3.2200679779052734,
      "learning_rate": 2.4451356375550845e-06,
      "loss": 3.4583,
      "step": 452490
    },
    {
      "epoch": 0.9427083333333334,
      "grad_norm": 3.022272825241089,
      "learning_rate": 2.44336316752024e-06,
      "loss": 3.4251,
      "step": 452500
    },
    {
      "epoch": 0.9427291666666666,
      "grad_norm": 3.1234424114227295,
      "learning_rate": 2.4415913348716733e-06,
      "loss": 3.3755,
      "step": 452510
    },
    {
      "epoch": 0.94275,
      "grad_norm": 2.9606680870056152,
      "learning_rate": 2.4398201396170104e-06,
      "loss": 3.6068,
      "step": 452520
    },
    {
      "epoch": 0.9427708333333333,
      "grad_norm": 4.455761432647705,
      "learning_rate": 2.438049581763929e-06,
      "loss": 3.403,
      "step": 452530
    },
    {
      "epoch": 0.9427916666666667,
      "grad_norm": 3.3868582248687744,
      "learning_rate": 2.436279661320056e-06,
      "loss": 3.3977,
      "step": 452540
    },
    {
      "epoch": 0.9428125,
      "grad_norm": 3.1281392574310303,
      "learning_rate": 2.4345103782930364e-06,
      "loss": 3.408,
      "step": 452550
    },
    {
      "epoch": 0.9428333333333333,
      "grad_norm": 3.3546457290649414,
      "learning_rate": 2.43274173269053e-06,
      "loss": 3.407,
      "step": 452560
    },
    {
      "epoch": 0.9428541666666667,
      "grad_norm": 2.753622531890869,
      "learning_rate": 2.43097372452018e-06,
      "loss": 3.4157,
      "step": 452570
    },
    {
      "epoch": 0.942875,
      "grad_norm": 2.7085487842559814,
      "learning_rate": 2.429206353789598e-06,
      "loss": 3.4514,
      "step": 452580
    },
    {
      "epoch": 0.9428958333333334,
      "grad_norm": 3.795539617538452,
      "learning_rate": 2.4274396205064274e-06,
      "loss": 3.6407,
      "step": 452590
    },
    {
      "epoch": 0.9429166666666666,
      "grad_norm": 2.7339563369750977,
      "learning_rate": 2.4256735246783286e-06,
      "loss": 3.4405,
      "step": 452600
    },
    {
      "epoch": 0.9429375,
      "grad_norm": 3.263068437576294,
      "learning_rate": 2.4239080663128796e-06,
      "loss": 3.4353,
      "step": 452610
    },
    {
      "epoch": 0.9429583333333333,
      "grad_norm": 2.991471767425537,
      "learning_rate": 2.4221432454177403e-06,
      "loss": 3.4345,
      "step": 452620
    },
    {
      "epoch": 0.9429791666666667,
      "grad_norm": 2.809323787689209,
      "learning_rate": 2.420379062000538e-06,
      "loss": 3.4297,
      "step": 452630
    },
    {
      "epoch": 0.943,
      "grad_norm": 4.676423072814941,
      "learning_rate": 2.418615516068867e-06,
      "loss": 3.3171,
      "step": 452640
    },
    {
      "epoch": 0.9430208333333333,
      "grad_norm": 2.5739471912384033,
      "learning_rate": 2.4168526076303706e-06,
      "loss": 3.4896,
      "step": 452650
    },
    {
      "epoch": 0.9430416666666667,
      "grad_norm": 3.0534136295318604,
      "learning_rate": 2.4150903366926435e-06,
      "loss": 3.2983,
      "step": 452660
    },
    {
      "epoch": 0.9430625,
      "grad_norm": 2.910633087158203,
      "learning_rate": 2.4133287032633284e-06,
      "loss": 3.4982,
      "step": 452670
    },
    {
      "epoch": 0.9430833333333334,
      "grad_norm": 3.030284881591797,
      "learning_rate": 2.4115677073499874e-06,
      "loss": 3.3578,
      "step": 452680
    },
    {
      "epoch": 0.9431041666666666,
      "grad_norm": 2.817795753479004,
      "learning_rate": 2.4098073489602797e-06,
      "loss": 3.3195,
      "step": 452690
    },
    {
      "epoch": 0.943125,
      "grad_norm": 2.647794485092163,
      "learning_rate": 2.408047628101767e-06,
      "loss": 3.3908,
      "step": 452700
    },
    {
      "epoch": 0.9431458333333333,
      "grad_norm": 3.0143239498138428,
      "learning_rate": 2.4062885447820758e-06,
      "loss": 3.4569,
      "step": 452710
    },
    {
      "epoch": 0.9431666666666667,
      "grad_norm": 2.5206727981567383,
      "learning_rate": 2.4045300990087833e-06,
      "loss": 3.3872,
      "step": 452720
    },
    {
      "epoch": 0.9431875,
      "grad_norm": 2.7212610244750977,
      "learning_rate": 2.4027722907895175e-06,
      "loss": 3.4952,
      "step": 452730
    },
    {
      "epoch": 0.9432083333333333,
      "grad_norm": 3.4318530559539795,
      "learning_rate": 2.401015120131855e-06,
      "loss": 3.3183,
      "step": 452740
    },
    {
      "epoch": 0.9432291666666667,
      "grad_norm": 3.5719258785247803,
      "learning_rate": 2.3992585870433565e-06,
      "loss": 3.4296,
      "step": 452750
    },
    {
      "epoch": 0.94325,
      "grad_norm": 3.56538462638855,
      "learning_rate": 2.3975026915316496e-06,
      "loss": 3.4113,
      "step": 452760
    },
    {
      "epoch": 0.9432708333333333,
      "grad_norm": 2.7572474479675293,
      "learning_rate": 2.395747433604328e-06,
      "loss": 3.3196,
      "step": 452770
    },
    {
      "epoch": 0.9432916666666666,
      "grad_norm": 3.0189285278320312,
      "learning_rate": 2.393992813268919e-06,
      "loss": 3.4846,
      "step": 452780
    },
    {
      "epoch": 0.9433125,
      "grad_norm": 4.0486226081848145,
      "learning_rate": 2.392238830533033e-06,
      "loss": 3.343,
      "step": 452790
    },
    {
      "epoch": 0.9433333333333334,
      "grad_norm": 2.723865509033203,
      "learning_rate": 2.3904854854042808e-06,
      "loss": 3.5198,
      "step": 452800
    },
    {
      "epoch": 0.9433541666666667,
      "grad_norm": 3.0906779766082764,
      "learning_rate": 2.38873277789019e-06,
      "loss": 3.5257,
      "step": 452810
    },
    {
      "epoch": 0.943375,
      "grad_norm": 3.2913873195648193,
      "learning_rate": 2.3869807079983204e-06,
      "loss": 3.378,
      "step": 452820
    },
    {
      "epoch": 0.9433958333333333,
      "grad_norm": 3.0700135231018066,
      "learning_rate": 2.3852292757363e-06,
      "loss": 3.2645,
      "step": 452830
    },
    {
      "epoch": 0.9434166666666667,
      "grad_norm": 3.027146100997925,
      "learning_rate": 2.3834784811116393e-06,
      "loss": 3.4046,
      "step": 452840
    },
    {
      "epoch": 0.9434375,
      "grad_norm": 4.136923789978027,
      "learning_rate": 2.381728324131932e-06,
      "loss": 3.5013,
      "step": 452850
    },
    {
      "epoch": 0.9434583333333333,
      "grad_norm": 3.589749813079834,
      "learning_rate": 2.379978804804722e-06,
      "loss": 3.4431,
      "step": 452860
    },
    {
      "epoch": 0.9434791666666666,
      "grad_norm": 3.030266761779785,
      "learning_rate": 2.37822992313757e-06,
      "loss": 3.3983,
      "step": 452870
    },
    {
      "epoch": 0.9435,
      "grad_norm": 3.4015052318573,
      "learning_rate": 2.3764816791380204e-06,
      "loss": 3.3038,
      "step": 452880
    },
    {
      "epoch": 0.9435208333333334,
      "grad_norm": 2.759495258331299,
      "learning_rate": 2.37473407281365e-06,
      "loss": 3.3854,
      "step": 452890
    },
    {
      "epoch": 0.9435416666666666,
      "grad_norm": 2.716979742050171,
      "learning_rate": 2.372987104171986e-06,
      "loss": 3.6136,
      "step": 452900
    },
    {
      "epoch": 0.9435625,
      "grad_norm": 3.3418021202087402,
      "learning_rate": 2.3712407732205897e-06,
      "loss": 3.4164,
      "step": 452910
    },
    {
      "epoch": 0.9435833333333333,
      "grad_norm": 2.7577691078186035,
      "learning_rate": 2.369495079967004e-06,
      "loss": 3.4629,
      "step": 452920
    },
    {
      "epoch": 0.9436041666666667,
      "grad_norm": 3.106379747390747,
      "learning_rate": 2.3677500244187574e-06,
      "loss": 3.4378,
      "step": 452930
    },
    {
      "epoch": 0.943625,
      "grad_norm": 3.0792338848114014,
      "learning_rate": 2.366005606583393e-06,
      "loss": 3.4956,
      "step": 452940
    },
    {
      "epoch": 0.9436458333333333,
      "grad_norm": 3.4522743225097656,
      "learning_rate": 2.3642618264684386e-06,
      "loss": 3.565,
      "step": 452950
    },
    {
      "epoch": 0.9436666666666667,
      "grad_norm": 3.850999593734741,
      "learning_rate": 2.3625186840814548e-06,
      "loss": 3.3428,
      "step": 452960
    },
    {
      "epoch": 0.9436875,
      "grad_norm": 2.943936586380005,
      "learning_rate": 2.3607761794299353e-06,
      "loss": 3.5275,
      "step": 452970
    },
    {
      "epoch": 0.9437083333333334,
      "grad_norm": 3.131211519241333,
      "learning_rate": 2.359034312521424e-06,
      "loss": 3.4777,
      "step": 452980
    },
    {
      "epoch": 0.9437291666666666,
      "grad_norm": 3.8428449630737305,
      "learning_rate": 2.3572930833634486e-06,
      "loss": 3.4562,
      "step": 452990
    },
    {
      "epoch": 0.94375,
      "grad_norm": 2.6825132369995117,
      "learning_rate": 2.3555524919635195e-06,
      "loss": 3.3295,
      "step": 453000
    },
    {
      "epoch": 0.94375,
      "eval_loss": 3.521231174468994,
      "eval_runtime": 7.3436,
      "eval_samples_per_second": 1.362,
      "eval_steps_per_second": 0.409,
      "step": 453000
    },
    {
      "epoch": 0.9437708333333333,
      "grad_norm": 2.827401876449585,
      "learning_rate": 2.353812538329164e-06,
      "loss": 3.5649,
      "step": 453010
    },
    {
      "epoch": 0.9437916666666667,
      "grad_norm": 3.0406816005706787,
      "learning_rate": 2.3520732224679094e-06,
      "loss": 3.4951,
      "step": 453020
    },
    {
      "epoch": 0.9438125,
      "grad_norm": 3.7401463985443115,
      "learning_rate": 2.3503345443872335e-06,
      "loss": 3.3457,
      "step": 453030
    },
    {
      "epoch": 0.9438333333333333,
      "grad_norm": 2.8108203411102295,
      "learning_rate": 2.3485965040946795e-06,
      "loss": 3.6523,
      "step": 453040
    },
    {
      "epoch": 0.9438541666666667,
      "grad_norm": 3.6479012966156006,
      "learning_rate": 2.3468591015977424e-06,
      "loss": 3.3984,
      "step": 453050
    },
    {
      "epoch": 0.943875,
      "grad_norm": 2.7225501537323,
      "learning_rate": 2.345122336903932e-06,
      "loss": 3.5882,
      "step": 453060
    },
    {
      "epoch": 0.9438958333333334,
      "grad_norm": 4.4537458419799805,
      "learning_rate": 2.343386210020742e-06,
      "loss": 3.3857,
      "step": 453070
    },
    {
      "epoch": 0.9439166666666666,
      "grad_norm": 4.561288833618164,
      "learning_rate": 2.3416507209557013e-06,
      "loss": 3.5564,
      "step": 453080
    },
    {
      "epoch": 0.9439375,
      "grad_norm": 2.629765510559082,
      "learning_rate": 2.3399158697162524e-06,
      "loss": 3.3268,
      "step": 453090
    },
    {
      "epoch": 0.9439583333333333,
      "grad_norm": 3.12105393409729,
      "learning_rate": 2.3381816563099233e-06,
      "loss": 3.3975,
      "step": 453100
    },
    {
      "epoch": 0.9439791666666667,
      "grad_norm": 3.429027557373047,
      "learning_rate": 2.3364480807442244e-06,
      "loss": 3.4211,
      "step": 453110
    },
    {
      "epoch": 0.944,
      "grad_norm": 3.493922233581543,
      "learning_rate": 2.3347151430265996e-06,
      "loss": 3.4807,
      "step": 453120
    },
    {
      "epoch": 0.9440208333333333,
      "grad_norm": 3.4569637775421143,
      "learning_rate": 2.332982843164544e-06,
      "loss": 3.5013,
      "step": 453130
    },
    {
      "epoch": 0.9440416666666667,
      "grad_norm": 3.1938812732696533,
      "learning_rate": 2.3312511811655834e-06,
      "loss": 3.3326,
      "step": 453140
    },
    {
      "epoch": 0.9440625,
      "grad_norm": 3.007476329803467,
      "learning_rate": 2.329520157037146e-06,
      "loss": 3.496,
      "step": 453150
    },
    {
      "epoch": 0.9440833333333334,
      "grad_norm": 3.359215021133423,
      "learning_rate": 2.327789770786709e-06,
      "loss": 3.4999,
      "step": 453160
    },
    {
      "epoch": 0.9441041666666666,
      "grad_norm": 4.399949073791504,
      "learning_rate": 2.326060022421816e-06,
      "loss": 3.4811,
      "step": 453170
    },
    {
      "epoch": 0.944125,
      "grad_norm": 3.9445443153381348,
      "learning_rate": 2.3243309119498622e-06,
      "loss": 3.499,
      "step": 453180
    },
    {
      "epoch": 0.9441458333333334,
      "grad_norm": 2.734255313873291,
      "learning_rate": 2.3226024393783405e-06,
      "loss": 3.4071,
      "step": 453190
    },
    {
      "epoch": 0.9441666666666667,
      "grad_norm": 3.284933567047119,
      "learning_rate": 2.320874604714729e-06,
      "loss": 3.6022,
      "step": 453200
    },
    {
      "epoch": 0.9441875,
      "grad_norm": 2.5124292373657227,
      "learning_rate": 2.3191474079664875e-06,
      "loss": 3.4504,
      "step": 453210
    },
    {
      "epoch": 0.9442083333333333,
      "grad_norm": 3.1902503967285156,
      "learning_rate": 2.317420849141061e-06,
      "loss": 3.4737,
      "step": 453220
    },
    {
      "epoch": 0.9442291666666667,
      "grad_norm": 3.126488208770752,
      "learning_rate": 2.3156949282459258e-06,
      "loss": 3.5072,
      "step": 453230
    },
    {
      "epoch": 0.94425,
      "grad_norm": 2.858663320541382,
      "learning_rate": 2.3139696452885436e-06,
      "loss": 3.4555,
      "step": 453240
    },
    {
      "epoch": 0.9442708333333333,
      "grad_norm": 3.897387742996216,
      "learning_rate": 2.3122450002763414e-06,
      "loss": 3.4031,
      "step": 453250
    },
    {
      "epoch": 0.9442916666666666,
      "grad_norm": 2.706855297088623,
      "learning_rate": 2.3105209932167803e-06,
      "loss": 3.4601,
      "step": 453260
    },
    {
      "epoch": 0.9443125,
      "grad_norm": 2.660179615020752,
      "learning_rate": 2.30879762411732e-06,
      "loss": 3.3086,
      "step": 453270
    },
    {
      "epoch": 0.9443333333333334,
      "grad_norm": 4.286307334899902,
      "learning_rate": 2.307074892985389e-06,
      "loss": 3.5138,
      "step": 453280
    },
    {
      "epoch": 0.9443541666666667,
      "grad_norm": 3.0392165184020996,
      "learning_rate": 2.3053527998284304e-06,
      "loss": 3.4302,
      "step": 453290
    },
    {
      "epoch": 0.944375,
      "grad_norm": 3.147264242172241,
      "learning_rate": 2.3036313446538722e-06,
      "loss": 3.2569,
      "step": 453300
    },
    {
      "epoch": 0.9443958333333333,
      "grad_norm": 3.4418694972991943,
      "learning_rate": 2.301910527469192e-06,
      "loss": 3.3878,
      "step": 453310
    },
    {
      "epoch": 0.9444166666666667,
      "grad_norm": 3.3153133392333984,
      "learning_rate": 2.300190348281783e-06,
      "loss": 3.3456,
      "step": 453320
    },
    {
      "epoch": 0.9444375,
      "grad_norm": 3.3780460357666016,
      "learning_rate": 2.298470807099073e-06,
      "loss": 3.4308,
      "step": 453330
    },
    {
      "epoch": 0.9444583333333333,
      "grad_norm": 3.455523729324341,
      "learning_rate": 2.2967519039285233e-06,
      "loss": 3.3763,
      "step": 453340
    },
    {
      "epoch": 0.9444791666666666,
      "grad_norm": 2.954820394515991,
      "learning_rate": 2.2950336387775435e-06,
      "loss": 3.4096,
      "step": 453350
    },
    {
      "epoch": 0.9445,
      "grad_norm": 3.071582317352295,
      "learning_rate": 2.2933160116535455e-06,
      "loss": 3.4374,
      "step": 453360
    },
    {
      "epoch": 0.9445208333333334,
      "grad_norm": 3.1097264289855957,
      "learning_rate": 2.2915990225639557e-06,
      "loss": 3.4177,
      "step": 453370
    },
    {
      "epoch": 0.9445416666666666,
      "grad_norm": 4.214848041534424,
      "learning_rate": 2.2898826715161855e-06,
      "loss": 3.3921,
      "step": 453380
    },
    {
      "epoch": 0.9445625,
      "grad_norm": 3.3029847145080566,
      "learning_rate": 2.2881669585176622e-06,
      "loss": 3.4025,
      "step": 453390
    },
    {
      "epoch": 0.9445833333333333,
      "grad_norm": 2.923651933670044,
      "learning_rate": 2.286451883575796e-06,
      "loss": 3.5644,
      "step": 453400
    },
    {
      "epoch": 0.9446041666666667,
      "grad_norm": 2.52528715133667,
      "learning_rate": 2.284737446697965e-06,
      "loss": 3.3878,
      "step": 453410
    },
    {
      "epoch": 0.944625,
      "grad_norm": 2.825896739959717,
      "learning_rate": 2.283023647891613e-06,
      "loss": 3.4267,
      "step": 453420
    },
    {
      "epoch": 0.9446458333333333,
      "grad_norm": 3.048259735107422,
      "learning_rate": 2.281310487164151e-06,
      "loss": 3.4998,
      "step": 453430
    },
    {
      "epoch": 0.9446666666666667,
      "grad_norm": 3.8894925117492676,
      "learning_rate": 2.2795979645229056e-06,
      "loss": 3.3979,
      "step": 453440
    },
    {
      "epoch": 0.9446875,
      "grad_norm": 3.030780076980591,
      "learning_rate": 2.277886079975372e-06,
      "loss": 3.3542,
      "step": 453450
    },
    {
      "epoch": 0.9447083333333334,
      "grad_norm": 3.3988630771636963,
      "learning_rate": 2.2761748335288763e-06,
      "loss": 3.3881,
      "step": 453460
    },
    {
      "epoch": 0.9447291666666666,
      "grad_norm": 3.231842279434204,
      "learning_rate": 2.2744642251908307e-06,
      "loss": 3.4317,
      "step": 453470
    },
    {
      "epoch": 0.94475,
      "grad_norm": 3.8949038982391357,
      "learning_rate": 2.2727542549686452e-06,
      "loss": 3.3448,
      "step": 453480
    },
    {
      "epoch": 0.9447708333333333,
      "grad_norm": 3.41027569770813,
      "learning_rate": 2.2710449228696636e-06,
      "loss": 3.5399,
      "step": 453490
    },
    {
      "epoch": 0.9447916666666667,
      "grad_norm": 3.556926965713501,
      "learning_rate": 2.2693362289012974e-06,
      "loss": 3.5551,
      "step": 453500
    },
    {
      "epoch": 0.9448125,
      "grad_norm": 3.6165852546691895,
      "learning_rate": 2.26762817307094e-06,
      "loss": 3.365,
      "step": 453510
    },
    {
      "epoch": 0.9448333333333333,
      "grad_norm": 2.7129950523376465,
      "learning_rate": 2.265920755385936e-06,
      "loss": 3.4043,
      "step": 453520
    },
    {
      "epoch": 0.9448541666666667,
      "grad_norm": 2.8001952171325684,
      "learning_rate": 2.2642139758536625e-06,
      "loss": 3.4245,
      "step": 453530
    },
    {
      "epoch": 0.944875,
      "grad_norm": 2.875889539718628,
      "learning_rate": 2.2625078344815473e-06,
      "loss": 3.4725,
      "step": 453540
    },
    {
      "epoch": 0.9448958333333334,
      "grad_norm": 3.510071039199829,
      "learning_rate": 2.260802331276884e-06,
      "loss": 3.3286,
      "step": 453550
    },
    {
      "epoch": 0.9449166666666666,
      "grad_norm": 3.3156516551971436,
      "learning_rate": 2.259097466247084e-06,
      "loss": 3.4865,
      "step": 453560
    },
    {
      "epoch": 0.9449375,
      "grad_norm": 3.1467537879943848,
      "learning_rate": 2.257393239399524e-06,
      "loss": 3.4861,
      "step": 453570
    },
    {
      "epoch": 0.9449583333333333,
      "grad_norm": 3.3273699283599854,
      "learning_rate": 2.2556896507415157e-06,
      "loss": 3.4876,
      "step": 453580
    },
    {
      "epoch": 0.9449791666666667,
      "grad_norm": 3.107827663421631,
      "learning_rate": 2.253986700280469e-06,
      "loss": 3.3551,
      "step": 453590
    },
    {
      "epoch": 0.945,
      "grad_norm": 2.979670524597168,
      "learning_rate": 2.252284388023695e-06,
      "loss": 3.4805,
      "step": 453600
    },
    {
      "epoch": 0.9450208333333333,
      "grad_norm": 3.141493558883667,
      "learning_rate": 2.250582713978588e-06,
      "loss": 3.2789,
      "step": 453610
    },
    {
      "epoch": 0.9450416666666667,
      "grad_norm": 3.198397159576416,
      "learning_rate": 2.2488816781524753e-06,
      "loss": 3.5012,
      "step": 453620
    },
    {
      "epoch": 0.9450625,
      "grad_norm": 2.70947003364563,
      "learning_rate": 2.247181280552718e-06,
      "loss": 3.5527,
      "step": 453630
    },
    {
      "epoch": 0.9450833333333334,
      "grad_norm": 3.583303213119507,
      "learning_rate": 2.245481521186643e-06,
      "loss": 3.4873,
      "step": 453640
    },
    {
      "epoch": 0.9451041666666666,
      "grad_norm": 2.876047134399414,
      "learning_rate": 2.2437824000615947e-06,
      "loss": 3.4274,
      "step": 453650
    },
    {
      "epoch": 0.945125,
      "grad_norm": 2.849498987197876,
      "learning_rate": 2.2420839171849336e-06,
      "loss": 3.4183,
      "step": 453660
    },
    {
      "epoch": 0.9451458333333334,
      "grad_norm": 4.586334705352783,
      "learning_rate": 2.2403860725639876e-06,
      "loss": 3.5021,
      "step": 453670
    },
    {
      "epoch": 0.9451666666666667,
      "grad_norm": 3.092534065246582,
      "learning_rate": 2.2386888662060678e-06,
      "loss": 3.5604,
      "step": 453680
    },
    {
      "epoch": 0.9451875,
      "grad_norm": 2.882758140563965,
      "learning_rate": 2.236992298118534e-06,
      "loss": 3.2883,
      "step": 453690
    },
    {
      "epoch": 0.9452083333333333,
      "grad_norm": 2.7020390033721924,
      "learning_rate": 2.2352963683087143e-06,
      "loss": 3.3185,
      "step": 453700
    },
    {
      "epoch": 0.9452291666666667,
      "grad_norm": 2.9817702770233154,
      "learning_rate": 2.2336010767839194e-06,
      "loss": 3.3824,
      "step": 453710
    },
    {
      "epoch": 0.94525,
      "grad_norm": 3.652750015258789,
      "learning_rate": 2.2319064235514607e-06,
      "loss": 3.4649,
      "step": 453720
    },
    {
      "epoch": 0.9452708333333333,
      "grad_norm": 3.1289267539978027,
      "learning_rate": 2.230212408618698e-06,
      "loss": 3.4093,
      "step": 453730
    },
    {
      "epoch": 0.9452916666666666,
      "grad_norm": 3.4926962852478027,
      "learning_rate": 2.228519031992926e-06,
      "loss": 3.4492,
      "step": 453740
    },
    {
      "epoch": 0.9453125,
      "grad_norm": 2.9884822368621826,
      "learning_rate": 2.2268262936814384e-06,
      "loss": 3.5439,
      "step": 453750
    },
    {
      "epoch": 0.9453333333333334,
      "grad_norm": 2.6890876293182373,
      "learning_rate": 2.22513419369158e-06,
      "loss": 3.434,
      "step": 453760
    },
    {
      "epoch": 0.9453541666666667,
      "grad_norm": 2.7454795837402344,
      "learning_rate": 2.2234427320306615e-06,
      "loss": 3.4422,
      "step": 453770
    },
    {
      "epoch": 0.945375,
      "grad_norm": 3.0376455783843994,
      "learning_rate": 2.2217519087059597e-06,
      "loss": 3.3985,
      "step": 453780
    },
    {
      "epoch": 0.9453958333333333,
      "grad_norm": 3.6331980228424072,
      "learning_rate": 2.220061723724803e-06,
      "loss": 3.33,
      "step": 453790
    },
    {
      "epoch": 0.9454166666666667,
      "grad_norm": 3.4752674102783203,
      "learning_rate": 2.2183721770944852e-06,
      "loss": 3.2789,
      "step": 453800
    },
    {
      "epoch": 0.9454375,
      "grad_norm": 2.752265214920044,
      "learning_rate": 2.2166832688223e-06,
      "loss": 3.4508,
      "step": 453810
    },
    {
      "epoch": 0.9454583333333333,
      "grad_norm": 2.53991961479187,
      "learning_rate": 2.2149949989155425e-06,
      "loss": 3.3525,
      "step": 453820
    },
    {
      "epoch": 0.9454791666666666,
      "grad_norm": 3.3986995220184326,
      "learning_rate": 2.213307367381523e-06,
      "loss": 3.3118,
      "step": 453830
    },
    {
      "epoch": 0.9455,
      "grad_norm": 3.1369283199310303,
      "learning_rate": 2.2116203742275018e-06,
      "loss": 3.4268,
      "step": 453840
    },
    {
      "epoch": 0.9455208333333334,
      "grad_norm": 3.0190834999084473,
      "learning_rate": 2.2099340194607906e-06,
      "loss": 3.3897,
      "step": 453850
    },
    {
      "epoch": 0.9455416666666666,
      "grad_norm": 3.26936411857605,
      "learning_rate": 2.2082483030886664e-06,
      "loss": 3.4684,
      "step": 453860
    },
    {
      "epoch": 0.9455625,
      "grad_norm": 3.167581796646118,
      "learning_rate": 2.2065632251183907e-06,
      "loss": 3.4146,
      "step": 453870
    },
    {
      "epoch": 0.9455833333333333,
      "grad_norm": 3.647277355194092,
      "learning_rate": 2.2048787855572904e-06,
      "loss": 3.4535,
      "step": 453880
    },
    {
      "epoch": 0.9456041666666667,
      "grad_norm": 3.8038992881774902,
      "learning_rate": 2.203194984412593e-06,
      "loss": 3.4474,
      "step": 453890
    },
    {
      "epoch": 0.945625,
      "grad_norm": 3.1498584747314453,
      "learning_rate": 2.2015118216915927e-06,
      "loss": 3.4537,
      "step": 453900
    },
    {
      "epoch": 0.9456458333333333,
      "grad_norm": 2.511136531829834,
      "learning_rate": 2.1998292974015673e-06,
      "loss": 3.3379,
      "step": 453910
    },
    {
      "epoch": 0.9456666666666667,
      "grad_norm": 3.3279552459716797,
      "learning_rate": 2.1981474115497776e-06,
      "loss": 3.5221,
      "step": 453920
    },
    {
      "epoch": 0.9456875,
      "grad_norm": 2.4277472496032715,
      "learning_rate": 2.1964661641434676e-06,
      "loss": 3.3394,
      "step": 453930
    },
    {
      "epoch": 0.9457083333333334,
      "grad_norm": 2.777235507965088,
      "learning_rate": 2.1947855551899484e-06,
      "loss": 3.4539,
      "step": 453940
    },
    {
      "epoch": 0.9457291666666666,
      "grad_norm": 2.5075485706329346,
      "learning_rate": 2.1931055846964306e-06,
      "loss": 3.435,
      "step": 453950
    },
    {
      "epoch": 0.94575,
      "grad_norm": 3.3819210529327393,
      "learning_rate": 2.191426252670192e-06,
      "loss": 3.3425,
      "step": 453960
    },
    {
      "epoch": 0.9457708333333333,
      "grad_norm": 3.252725601196289,
      "learning_rate": 2.1897475591184764e-06,
      "loss": 3.4781,
      "step": 453970
    },
    {
      "epoch": 0.9457916666666667,
      "grad_norm": 2.8376665115356445,
      "learning_rate": 2.188069504048562e-06,
      "loss": 3.4131,
      "step": 453980
    },
    {
      "epoch": 0.9458125,
      "grad_norm": 3.3412795066833496,
      "learning_rate": 2.1863920874676754e-06,
      "loss": 3.4734,
      "step": 453990
    },
    {
      "epoch": 0.9458333333333333,
      "grad_norm": 2.5226144790649414,
      "learning_rate": 2.1847153093830617e-06,
      "loss": 3.4599,
      "step": 454000
    },
    {
      "epoch": 0.9458333333333333,
      "eval_loss": 3.5231857299804688,
      "eval_runtime": 6.9313,
      "eval_samples_per_second": 1.443,
      "eval_steps_per_second": 0.433,
      "step": 454000
    },
    {
      "epoch": 0.9458541666666667,
      "grad_norm": 3.0278120040893555,
      "learning_rate": 2.1830391698019646e-06,
      "loss": 3.3554,
      "step": 454010
    },
    {
      "epoch": 0.945875,
      "grad_norm": 3.5332727432250977,
      "learning_rate": 2.1813636687316284e-06,
      "loss": 3.3953,
      "step": 454020
    },
    {
      "epoch": 0.9458958333333334,
      "grad_norm": 2.973517417907715,
      "learning_rate": 2.1796888061792973e-06,
      "loss": 3.4831,
      "step": 454030
    },
    {
      "epoch": 0.9459166666666666,
      "grad_norm": 3.648054838180542,
      "learning_rate": 2.178014582152199e-06,
      "loss": 3.4609,
      "step": 454040
    },
    {
      "epoch": 0.9459375,
      "grad_norm": 4.302591800689697,
      "learning_rate": 2.176340996657561e-06,
      "loss": 3.3777,
      "step": 454050
    },
    {
      "epoch": 0.9459583333333333,
      "grad_norm": 2.467972993850708,
      "learning_rate": 2.174668049702627e-06,
      "loss": 3.4256,
      "step": 454060
    },
    {
      "epoch": 0.9459791666666667,
      "grad_norm": 2.754276990890503,
      "learning_rate": 2.1729957412946085e-06,
      "loss": 3.4074,
      "step": 454070
    },
    {
      "epoch": 0.946,
      "grad_norm": 4.297103404998779,
      "learning_rate": 2.17132407144075e-06,
      "loss": 3.4548,
      "step": 454080
    },
    {
      "epoch": 0.9460208333333333,
      "grad_norm": 2.776388645172119,
      "learning_rate": 2.1696530401482283e-06,
      "loss": 3.4718,
      "step": 454090
    },
    {
      "epoch": 0.9460416666666667,
      "grad_norm": 2.3688461780548096,
      "learning_rate": 2.1679826474242878e-06,
      "loss": 3.4945,
      "step": 454100
    },
    {
      "epoch": 0.9460625,
      "grad_norm": 3.0880439281463623,
      "learning_rate": 2.166312893276173e-06,
      "loss": 3.4728,
      "step": 454110
    },
    {
      "epoch": 0.9460833333333334,
      "grad_norm": 2.554927349090576,
      "learning_rate": 2.1646437777110446e-06,
      "loss": 3.3387,
      "step": 454120
    },
    {
      "epoch": 0.9461041666666666,
      "grad_norm": 3.5035879611968994,
      "learning_rate": 2.162975300736147e-06,
      "loss": 3.2506,
      "step": 454130
    },
    {
      "epoch": 0.946125,
      "grad_norm": 3.7337863445281982,
      "learning_rate": 2.161307462358708e-06,
      "loss": 3.3809,
      "step": 454140
    },
    {
      "epoch": 0.9461458333333334,
      "grad_norm": 3.019461154937744,
      "learning_rate": 2.1596402625858543e-06,
      "loss": 3.4417,
      "step": 454150
    },
    {
      "epoch": 0.9461666666666667,
      "grad_norm": 3.742891788482666,
      "learning_rate": 2.1579737014248642e-06,
      "loss": 3.4489,
      "step": 454160
    },
    {
      "epoch": 0.9461875,
      "grad_norm": 2.5100581645965576,
      "learning_rate": 2.1563077788828985e-06,
      "loss": 3.4259,
      "step": 454170
    },
    {
      "epoch": 0.9462083333333333,
      "grad_norm": 2.8985941410064697,
      "learning_rate": 2.1546424949671514e-06,
      "loss": 3.4527,
      "step": 454180
    },
    {
      "epoch": 0.9462291666666667,
      "grad_norm": 4.611664772033691,
      "learning_rate": 2.1529778496848503e-06,
      "loss": 3.2959,
      "step": 454190
    },
    {
      "epoch": 0.94625,
      "grad_norm": 2.7363905906677246,
      "learning_rate": 2.1513138430431563e-06,
      "loss": 3.4003,
      "step": 454200
    },
    {
      "epoch": 0.9462708333333333,
      "grad_norm": 3.6097190380096436,
      "learning_rate": 2.1496504750492473e-06,
      "loss": 3.3604,
      "step": 454210
    },
    {
      "epoch": 0.9462916666666666,
      "grad_norm": 3.2569169998168945,
      "learning_rate": 2.14798774571035e-06,
      "loss": 3.4263,
      "step": 454220
    },
    {
      "epoch": 0.9463125,
      "grad_norm": 4.044723987579346,
      "learning_rate": 2.1463256550336095e-06,
      "loss": 3.5436,
      "step": 454230
    },
    {
      "epoch": 0.9463333333333334,
      "grad_norm": 3.4545748233795166,
      "learning_rate": 2.1446642030262197e-06,
      "loss": 3.4035,
      "step": 454240
    },
    {
      "epoch": 0.9463541666666667,
      "grad_norm": 3.5048491954803467,
      "learning_rate": 2.143003389695358e-06,
      "loss": 3.4296,
      "step": 454250
    },
    {
      "epoch": 0.946375,
      "grad_norm": 3.17411732673645,
      "learning_rate": 2.141343215048186e-06,
      "loss": 3.4112,
      "step": 454260
    },
    {
      "epoch": 0.9463958333333333,
      "grad_norm": 2.9887595176696777,
      "learning_rate": 2.139683679091897e-06,
      "loss": 3.4312,
      "step": 454270
    },
    {
      "epoch": 0.9464166666666667,
      "grad_norm": 2.7372636795043945,
      "learning_rate": 2.138024781833636e-06,
      "loss": 3.4446,
      "step": 454280
    },
    {
      "epoch": 0.9464375,
      "grad_norm": 3.655223846435547,
      "learning_rate": 2.1363665232805972e-06,
      "loss": 3.4806,
      "step": 454290
    },
    {
      "epoch": 0.9464583333333333,
      "grad_norm": 2.7233757972717285,
      "learning_rate": 2.1347089034399077e-06,
      "loss": 3.2989,
      "step": 454300
    },
    {
      "epoch": 0.9464791666666666,
      "grad_norm": 2.5551388263702393,
      "learning_rate": 2.133051922318746e-06,
      "loss": 3.3683,
      "step": 454310
    },
    {
      "epoch": 0.9465,
      "grad_norm": 3.680152416229248,
      "learning_rate": 2.131395579924289e-06,
      "loss": 3.5196,
      "step": 454320
    },
    {
      "epoch": 0.9465208333333334,
      "grad_norm": 2.8576061725616455,
      "learning_rate": 2.1297398762636474e-06,
      "loss": 3.3425,
      "step": 454330
    },
    {
      "epoch": 0.9465416666666666,
      "grad_norm": 4.316072940826416,
      "learning_rate": 2.128084811344016e-06,
      "loss": 3.4791,
      "step": 454340
    },
    {
      "epoch": 0.9465625,
      "grad_norm": 2.9707438945770264,
      "learning_rate": 2.126430385172523e-06,
      "loss": 3.5364,
      "step": 454350
    },
    {
      "epoch": 0.9465833333333333,
      "grad_norm": 2.436866521835327,
      "learning_rate": 2.1247765977563116e-06,
      "loss": 3.239,
      "step": 454360
    },
    {
      "epoch": 0.9466041666666667,
      "grad_norm": 2.8686370849609375,
      "learning_rate": 2.123123449102543e-06,
      "loss": 3.442,
      "step": 454370
    },
    {
      "epoch": 0.946625,
      "grad_norm": 3.2046141624450684,
      "learning_rate": 2.121470939218345e-06,
      "loss": 3.3875,
      "step": 454380
    },
    {
      "epoch": 0.9466458333333333,
      "grad_norm": 3.6622536182403564,
      "learning_rate": 2.119819068110862e-06,
      "loss": 3.4543,
      "step": 454390
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 4.060729503631592,
      "learning_rate": 2.1181678357872047e-06,
      "loss": 3.4955,
      "step": 454400
    },
    {
      "epoch": 0.9466875,
      "grad_norm": 4.394252777099609,
      "learning_rate": 2.116517242254551e-06,
      "loss": 3.6041,
      "step": 454410
    },
    {
      "epoch": 0.9467083333333334,
      "grad_norm": 3.678495407104492,
      "learning_rate": 2.1148672875199947e-06,
      "loss": 3.5291,
      "step": 454420
    },
    {
      "epoch": 0.9467291666666666,
      "grad_norm": 3.1688754558563232,
      "learning_rate": 2.1132179715906806e-06,
      "loss": 3.4244,
      "step": 454430
    },
    {
      "epoch": 0.94675,
      "grad_norm": 4.039447784423828,
      "learning_rate": 2.1115692944737193e-06,
      "loss": 3.387,
      "step": 454440
    },
    {
      "epoch": 0.9467708333333333,
      "grad_norm": 3.3657867908477783,
      "learning_rate": 2.1099212561762556e-06,
      "loss": 3.4735,
      "step": 454450
    },
    {
      "epoch": 0.9467916666666667,
      "grad_norm": 2.9976112842559814,
      "learning_rate": 2.108273856705367e-06,
      "loss": 3.4684,
      "step": 454460
    },
    {
      "epoch": 0.9468125,
      "grad_norm": 3.2026784420013428,
      "learning_rate": 2.106627096068214e-06,
      "loss": 3.4215,
      "step": 454470
    },
    {
      "epoch": 0.9468333333333333,
      "grad_norm": 4.247218608856201,
      "learning_rate": 2.1049809742718916e-06,
      "loss": 3.4698,
      "step": 454480
    },
    {
      "epoch": 0.9468541666666667,
      "grad_norm": 3.9868476390838623,
      "learning_rate": 2.10333549132351e-06,
      "loss": 3.4075,
      "step": 454490
    },
    {
      "epoch": 0.946875,
      "grad_norm": 3.748262405395508,
      "learning_rate": 2.101690647230164e-06,
      "loss": 3.4283,
      "step": 454500
    },
    {
      "epoch": 0.9468958333333334,
      "grad_norm": 2.6276326179504395,
      "learning_rate": 2.1000464419989983e-06,
      "loss": 3.491,
      "step": 454510
    },
    {
      "epoch": 0.9469166666666666,
      "grad_norm": 3.3664321899414062,
      "learning_rate": 2.0984028756370565e-06,
      "loss": 3.4111,
      "step": 454520
    },
    {
      "epoch": 0.9469375,
      "grad_norm": 3.4492831230163574,
      "learning_rate": 2.0967599481514994e-06,
      "loss": 3.4351,
      "step": 454530
    },
    {
      "epoch": 0.9469583333333333,
      "grad_norm": 3.3655505180358887,
      "learning_rate": 2.0951176595493892e-06,
      "loss": 3.3138,
      "step": 454540
    },
    {
      "epoch": 0.9469791666666667,
      "grad_norm": 3.70715069770813,
      "learning_rate": 2.093476009837819e-06,
      "loss": 3.3946,
      "step": 454550
    },
    {
      "epoch": 0.947,
      "grad_norm": 3.368927240371704,
      "learning_rate": 2.091834999023884e-06,
      "loss": 3.4221,
      "step": 454560
    },
    {
      "epoch": 0.9470208333333333,
      "grad_norm": 4.04351282119751,
      "learning_rate": 2.0901946271146773e-06,
      "loss": 3.3466,
      "step": 454570
    },
    {
      "epoch": 0.9470416666666667,
      "grad_norm": 3.2407398223876953,
      "learning_rate": 2.088554894117295e-06,
      "loss": 3.4384,
      "step": 454580
    },
    {
      "epoch": 0.9470625,
      "grad_norm": 3.1934447288513184,
      "learning_rate": 2.0869158000387962e-06,
      "loss": 3.2841,
      "step": 454590
    },
    {
      "epoch": 0.9470833333333334,
      "grad_norm": 4.0521440505981445,
      "learning_rate": 2.085277344886277e-06,
      "loss": 3.6531,
      "step": 454600
    },
    {
      "epoch": 0.9471041666666666,
      "grad_norm": 3.262022018432617,
      "learning_rate": 2.083639528666814e-06,
      "loss": 3.3101,
      "step": 454610
    },
    {
      "epoch": 0.947125,
      "grad_norm": 3.4476075172424316,
      "learning_rate": 2.0820023513874683e-06,
      "loss": 3.4946,
      "step": 454620
    },
    {
      "epoch": 0.9471458333333334,
      "grad_norm": 2.65322208404541,
      "learning_rate": 2.0803658130553345e-06,
      "loss": 3.5269,
      "step": 454630
    },
    {
      "epoch": 0.9471666666666667,
      "grad_norm": 3.602213144302368,
      "learning_rate": 2.078729913677457e-06,
      "loss": 3.5406,
      "step": 454640
    },
    {
      "epoch": 0.9471875,
      "grad_norm": 3.7146859169006348,
      "learning_rate": 2.07709465326093e-06,
      "loss": 3.3138,
      "step": 454650
    },
    {
      "epoch": 0.9472083333333333,
      "grad_norm": 2.953707218170166,
      "learning_rate": 2.0754600318127813e-06,
      "loss": 3.4112,
      "step": 454660
    },
    {
      "epoch": 0.9472291666666667,
      "grad_norm": 2.575704574584961,
      "learning_rate": 2.0738260493401217e-06,
      "loss": 3.5246,
      "step": 454670
    },
    {
      "epoch": 0.94725,
      "grad_norm": 2.8090295791625977,
      "learning_rate": 2.072192705849962e-06,
      "loss": 3.4195,
      "step": 454680
    },
    {
      "epoch": 0.9472708333333333,
      "grad_norm": 4.180976390838623,
      "learning_rate": 2.070560001349364e-06,
      "loss": 3.453,
      "step": 454690
    },
    {
      "epoch": 0.9472916666666666,
      "grad_norm": 2.786961555480957,
      "learning_rate": 2.0689279358454215e-06,
      "loss": 3.514,
      "step": 454700
    },
    {
      "epoch": 0.9473125,
      "grad_norm": 2.6078503131866455,
      "learning_rate": 2.0672965093451287e-06,
      "loss": 3.4777,
      "step": 454710
    },
    {
      "epoch": 0.9473333333333334,
      "grad_norm": 3.5307672023773193,
      "learning_rate": 2.0656657218555804e-06,
      "loss": 3.3063,
      "step": 454720
    },
    {
      "epoch": 0.9473541666666667,
      "grad_norm": 4.2998762130737305,
      "learning_rate": 2.0640355733837875e-06,
      "loss": 3.339,
      "step": 454730
    },
    {
      "epoch": 0.947375,
      "grad_norm": 3.0055246353149414,
      "learning_rate": 2.0624060639367947e-06,
      "loss": 3.3963,
      "step": 454740
    },
    {
      "epoch": 0.9473958333333333,
      "grad_norm": 3.8132574558258057,
      "learning_rate": 2.060777193521662e-06,
      "loss": 3.5583,
      "step": 454750
    },
    {
      "epoch": 0.9474166666666667,
      "grad_norm": 2.6930387020111084,
      "learning_rate": 2.059148962145418e-06,
      "loss": 3.3145,
      "step": 454760
    },
    {
      "epoch": 0.9474375,
      "grad_norm": 2.9822301864624023,
      "learning_rate": 2.0575213698150906e-06,
      "loss": 3.4518,
      "step": 454770
    },
    {
      "epoch": 0.9474583333333333,
      "grad_norm": 3.4590940475463867,
      "learning_rate": 2.055894416537707e-06,
      "loss": 3.3319,
      "step": 454780
    },
    {
      "epoch": 0.9474791666666667,
      "grad_norm": 3.5754642486572266,
      "learning_rate": 2.0542681023202946e-06,
      "loss": 3.4467,
      "step": 454790
    },
    {
      "epoch": 0.9475,
      "grad_norm": 3.200589656829834,
      "learning_rate": 2.0526424271698817e-06,
      "loss": 3.5574,
      "step": 454800
    },
    {
      "epoch": 0.9475208333333334,
      "grad_norm": 2.276949644088745,
      "learning_rate": 2.0510173910934955e-06,
      "loss": 3.4546,
      "step": 454810
    },
    {
      "epoch": 0.9475416666666666,
      "grad_norm": 3.6607041358947754,
      "learning_rate": 2.0493929940981648e-06,
      "loss": 3.5036,
      "step": 454820
    },
    {
      "epoch": 0.9475625,
      "grad_norm": 3.3080825805664062,
      "learning_rate": 2.0477692361908826e-06,
      "loss": 3.5458,
      "step": 454830
    },
    {
      "epoch": 0.9475833333333333,
      "grad_norm": 3.4664409160614014,
      "learning_rate": 2.0461461173786776e-06,
      "loss": 3.4752,
      "step": 454840
    },
    {
      "epoch": 0.9476041666666667,
      "grad_norm": 3.662954807281494,
      "learning_rate": 2.0445236376685603e-06,
      "loss": 3.3945,
      "step": 454850
    },
    {
      "epoch": 0.947625,
      "grad_norm": 3.7620489597320557,
      "learning_rate": 2.0429017970675255e-06,
      "loss": 3.418,
      "step": 454860
    },
    {
      "epoch": 0.9476458333333333,
      "grad_norm": 2.8778159618377686,
      "learning_rate": 2.041280595582584e-06,
      "loss": 3.4226,
      "step": 454870
    },
    {
      "epoch": 0.9476666666666667,
      "grad_norm": 3.5029244422912598,
      "learning_rate": 2.0396600332207634e-06,
      "loss": 3.3831,
      "step": 454880
    },
    {
      "epoch": 0.9476875,
      "grad_norm": 3.1040806770324707,
      "learning_rate": 2.0380401099890252e-06,
      "loss": 3.4677,
      "step": 454890
    },
    {
      "epoch": 0.9477083333333334,
      "grad_norm": 2.7095696926116943,
      "learning_rate": 2.036420825894397e-06,
      "loss": 3.4089,
      "step": 454900
    },
    {
      "epoch": 0.9477291666666666,
      "grad_norm": 2.9896724224090576,
      "learning_rate": 2.0348021809438732e-06,
      "loss": 3.6226,
      "step": 454910
    },
    {
      "epoch": 0.94775,
      "grad_norm": 2.7211661338806152,
      "learning_rate": 2.0331841751444146e-06,
      "loss": 3.4734,
      "step": 454920
    },
    {
      "epoch": 0.9477708333333333,
      "grad_norm": 3.0618700981140137,
      "learning_rate": 2.031566808503032e-06,
      "loss": 3.5025,
      "step": 454930
    },
    {
      "epoch": 0.9477916666666667,
      "grad_norm": 2.42691969871521,
      "learning_rate": 2.029950081026721e-06,
      "loss": 3.3582,
      "step": 454940
    },
    {
      "epoch": 0.9478125,
      "grad_norm": 3.4623703956604004,
      "learning_rate": 2.0283339927224583e-06,
      "loss": 3.5567,
      "step": 454950
    },
    {
      "epoch": 0.9478333333333333,
      "grad_norm": 3.4671950340270996,
      "learning_rate": 2.0267185435972222e-06,
      "loss": 3.5224,
      "step": 454960
    },
    {
      "epoch": 0.9478541666666667,
      "grad_norm": 3.2011325359344482,
      "learning_rate": 2.0251037336579733e-06,
      "loss": 3.4175,
      "step": 454970
    },
    {
      "epoch": 0.947875,
      "grad_norm": 4.256419658660889,
      "learning_rate": 2.023489562911723e-06,
      "loss": 3.3046,
      "step": 454980
    },
    {
      "epoch": 0.9478958333333334,
      "grad_norm": 3.7868762016296387,
      "learning_rate": 2.021876031365416e-06,
      "loss": 3.4158,
      "step": 454990
    },
    {
      "epoch": 0.9479166666666666,
      "grad_norm": 2.7120625972747803,
      "learning_rate": 2.0202631390260295e-06,
      "loss": 3.3857,
      "step": 455000
    },
    {
      "epoch": 0.9479166666666666,
      "eval_loss": 3.522345781326294,
      "eval_runtime": 7.4922,
      "eval_samples_per_second": 1.335,
      "eval_steps_per_second": 0.4,
      "step": 455000
    },
    {
      "epoch": 0.9479375,
      "grad_norm": 2.796412467956543,
      "learning_rate": 2.0186508859005246e-06,
      "loss": 3.3954,
      "step": 455010
    },
    {
      "epoch": 0.9479583333333333,
      "grad_norm": 2.8215737342834473,
      "learning_rate": 2.0170392719958793e-06,
      "loss": 3.4958,
      "step": 455020
    },
    {
      "epoch": 0.9479791666666667,
      "grad_norm": 2.5852856636047363,
      "learning_rate": 2.015428297319055e-06,
      "loss": 3.5013,
      "step": 455030
    },
    {
      "epoch": 0.948,
      "grad_norm": 3.0398976802825928,
      "learning_rate": 2.013817961876996e-06,
      "loss": 3.2704,
      "step": 455040
    },
    {
      "epoch": 0.9480208333333333,
      "grad_norm": 3.1097891330718994,
      "learning_rate": 2.012208265676679e-06,
      "loss": 3.4634,
      "step": 455050
    },
    {
      "epoch": 0.9480416666666667,
      "grad_norm": 2.737196207046509,
      "learning_rate": 2.0105992087250335e-06,
      "loss": 3.4094,
      "step": 455060
    },
    {
      "epoch": 0.9480625,
      "grad_norm": 3.5342023372650146,
      "learning_rate": 2.0089907910290192e-06,
      "loss": 3.3676,
      "step": 455070
    },
    {
      "epoch": 0.9480833333333333,
      "grad_norm": 2.9703986644744873,
      "learning_rate": 2.0073830125955982e-06,
      "loss": 3.4531,
      "step": 455080
    },
    {
      "epoch": 0.9481041666666666,
      "grad_norm": 3.439126491546631,
      "learning_rate": 2.005775873431681e-06,
      "loss": 3.4196,
      "step": 455090
    },
    {
      "epoch": 0.948125,
      "grad_norm": 3.7683637142181396,
      "learning_rate": 2.0041693735442453e-06,
      "loss": 3.6946,
      "step": 455100
    },
    {
      "epoch": 0.9481458333333334,
      "grad_norm": 2.7367889881134033,
      "learning_rate": 2.0025635129402196e-06,
      "loss": 3.4462,
      "step": 455110
    },
    {
      "epoch": 0.9481666666666667,
      "grad_norm": 4.14536190032959,
      "learning_rate": 2.0009582916265477e-06,
      "loss": 3.2542,
      "step": 455120
    },
    {
      "epoch": 0.9481875,
      "grad_norm": 4.504119396209717,
      "learning_rate": 1.9993537096101407e-06,
      "loss": 3.4554,
      "step": 455130
    },
    {
      "epoch": 0.9482083333333333,
      "grad_norm": 3.117922067642212,
      "learning_rate": 1.9977497668979437e-06,
      "loss": 3.4443,
      "step": 455140
    },
    {
      "epoch": 0.9482291666666667,
      "grad_norm": 3.0388736724853516,
      "learning_rate": 1.996146463496884e-06,
      "loss": 3.5169,
      "step": 455150
    },
    {
      "epoch": 0.94825,
      "grad_norm": 3.735149383544922,
      "learning_rate": 1.994543799413889e-06,
      "loss": 3.4968,
      "step": 455160
    },
    {
      "epoch": 0.9482708333333333,
      "grad_norm": 3.089136838912964,
      "learning_rate": 1.9929417746558874e-06,
      "loss": 3.4553,
      "step": 455170
    },
    {
      "epoch": 0.9482916666666666,
      "grad_norm": 4.066880226135254,
      "learning_rate": 1.991340389229773e-06,
      "loss": 3.5514,
      "step": 455180
    },
    {
      "epoch": 0.9483125,
      "grad_norm": 3.2148194313049316,
      "learning_rate": 1.9897396431424905e-06,
      "loss": 3.501,
      "step": 455190
    },
    {
      "epoch": 0.9483333333333334,
      "grad_norm": 3.4119560718536377,
      "learning_rate": 1.988139536400951e-06,
      "loss": 3.406,
      "step": 455200
    },
    {
      "epoch": 0.9483541666666667,
      "grad_norm": 3.37463641166687,
      "learning_rate": 1.9865400690120494e-06,
      "loss": 3.4886,
      "step": 455210
    },
    {
      "epoch": 0.948375,
      "grad_norm": 3.2160685062408447,
      "learning_rate": 1.9849412409827292e-06,
      "loss": 3.3637,
      "step": 455220
    },
    {
      "epoch": 0.9483958333333333,
      "grad_norm": 3.438988447189331,
      "learning_rate": 1.983343052319869e-06,
      "loss": 3.3913,
      "step": 455230
    },
    {
      "epoch": 0.9484166666666667,
      "grad_norm": 2.7330288887023926,
      "learning_rate": 1.981745503030363e-06,
      "loss": 3.4085,
      "step": 455240
    },
    {
      "epoch": 0.9484375,
      "grad_norm": 3.0401201248168945,
      "learning_rate": 1.980148593121139e-06,
      "loss": 3.4692,
      "step": 455250
    },
    {
      "epoch": 0.9484583333333333,
      "grad_norm": 3.2168631553649902,
      "learning_rate": 1.978552322599075e-06,
      "loss": 3.476,
      "step": 455260
    },
    {
      "epoch": 0.9484791666666667,
      "grad_norm": 3.4147226810455322,
      "learning_rate": 1.9769566914710655e-06,
      "loss": 3.527,
      "step": 455270
    },
    {
      "epoch": 0.9485,
      "grad_norm": 3.559814214706421,
      "learning_rate": 1.975361699744038e-06,
      "loss": 3.5335,
      "step": 455280
    },
    {
      "epoch": 0.9485208333333334,
      "grad_norm": 3.195403814315796,
      "learning_rate": 1.973767347424854e-06,
      "loss": 3.3375,
      "step": 455290
    },
    {
      "epoch": 0.9485416666666666,
      "grad_norm": 3.3425488471984863,
      "learning_rate": 1.972173634520374e-06,
      "loss": 3.403,
      "step": 455300
    },
    {
      "epoch": 0.9485625,
      "grad_norm": 3.044503688812256,
      "learning_rate": 1.970580561037527e-06,
      "loss": 3.4077,
      "step": 455310
    },
    {
      "epoch": 0.9485833333333333,
      "grad_norm": 3.8960537910461426,
      "learning_rate": 1.9689881269831897e-06,
      "loss": 3.4032,
      "step": 455320
    },
    {
      "epoch": 0.9486041666666667,
      "grad_norm": 2.714843273162842,
      "learning_rate": 1.9673963323641905e-06,
      "loss": 3.4635,
      "step": 455330
    },
    {
      "epoch": 0.948625,
      "grad_norm": 4.35419225692749,
      "learning_rate": 1.9658051771874907e-06,
      "loss": 3.3837,
      "step": 455340
    },
    {
      "epoch": 0.9486458333333333,
      "grad_norm": 3.1135101318359375,
      "learning_rate": 1.9642146614599007e-06,
      "loss": 3.5388,
      "step": 455350
    },
    {
      "epoch": 0.9486666666666667,
      "grad_norm": 3.148541212081909,
      "learning_rate": 1.9626247851882993e-06,
      "loss": 3.5069,
      "step": 455360
    },
    {
      "epoch": 0.9486875,
      "grad_norm": 2.6385607719421387,
      "learning_rate": 1.9610355483795637e-06,
      "loss": 3.4023,
      "step": 455370
    },
    {
      "epoch": 0.9487083333333334,
      "grad_norm": 3.1514155864715576,
      "learning_rate": 1.959446951040555e-06,
      "loss": 3.3933,
      "step": 455380
    },
    {
      "epoch": 0.9487291666666666,
      "grad_norm": 2.9723479747772217,
      "learning_rate": 1.9578589931781354e-06,
      "loss": 3.4371,
      "step": 455390
    },
    {
      "epoch": 0.94875,
      "grad_norm": 2.5645878314971924,
      "learning_rate": 1.9562716747991648e-06,
      "loss": 3.3547,
      "step": 455400
    },
    {
      "epoch": 0.9487708333333333,
      "grad_norm": 2.999424457550049,
      "learning_rate": 1.954684995910505e-06,
      "loss": 3.3749,
      "step": 455410
    },
    {
      "epoch": 0.9487916666666667,
      "grad_norm": 2.6500680446624756,
      "learning_rate": 1.9530989565190004e-06,
      "loss": 3.4731,
      "step": 455420
    },
    {
      "epoch": 0.9488125,
      "grad_norm": 2.6437041759490967,
      "learning_rate": 1.951513556631512e-06,
      "loss": 3.3719,
      "step": 455430
    },
    {
      "epoch": 0.9488333333333333,
      "grad_norm": 3.0093345642089844,
      "learning_rate": 1.949928796254885e-06,
      "loss": 3.3959,
      "step": 455440
    },
    {
      "epoch": 0.9488541666666667,
      "grad_norm": 4.6945481300354,
      "learning_rate": 1.94834467539598e-06,
      "loss": 3.3965,
      "step": 455450
    },
    {
      "epoch": 0.948875,
      "grad_norm": 3.002467155456543,
      "learning_rate": 1.9467611940615914e-06,
      "loss": 3.4805,
      "step": 455460
    },
    {
      "epoch": 0.9488958333333334,
      "grad_norm": 3.820512533187866,
      "learning_rate": 1.9451783522585973e-06,
      "loss": 3.389,
      "step": 455470
    },
    {
      "epoch": 0.9489166666666666,
      "grad_norm": 3.6905510425567627,
      "learning_rate": 1.943596149993859e-06,
      "loss": 3.5522,
      "step": 455480
    },
    {
      "epoch": 0.9489375,
      "grad_norm": 4.5156121253967285,
      "learning_rate": 1.942014587274138e-06,
      "loss": 3.472,
      "step": 455490
    },
    {
      "epoch": 0.9489583333333333,
      "grad_norm": 3.280648946762085,
      "learning_rate": 1.940433664106328e-06,
      "loss": 3.4523,
      "step": 455500
    },
    {
      "epoch": 0.9489791666666667,
      "grad_norm": 3.10024356842041,
      "learning_rate": 1.938853380497257e-06,
      "loss": 3.4221,
      "step": 455510
    },
    {
      "epoch": 0.949,
      "grad_norm": 3.008462429046631,
      "learning_rate": 1.937273736453704e-06,
      "loss": 3.4158,
      "step": 455520
    },
    {
      "epoch": 0.9490208333333333,
      "grad_norm": 3.148200273513794,
      "learning_rate": 1.935694731982529e-06,
      "loss": 3.4185,
      "step": 455530
    },
    {
      "epoch": 0.9490416666666667,
      "grad_norm": 2.6950066089630127,
      "learning_rate": 1.93411636709056e-06,
      "loss": 3.4263,
      "step": 455540
    },
    {
      "epoch": 0.9490625,
      "grad_norm": 3.4870972633361816,
      "learning_rate": 1.9325386417845757e-06,
      "loss": 3.4462,
      "step": 455550
    },
    {
      "epoch": 0.9490833333333333,
      "grad_norm": 3.439811944961548,
      "learning_rate": 1.93096155607142e-06,
      "loss": 3.2926,
      "step": 455560
    },
    {
      "epoch": 0.9491041666666666,
      "grad_norm": 3.0918922424316406,
      "learning_rate": 1.9293851099579203e-06,
      "loss": 3.4031,
      "step": 455570
    },
    {
      "epoch": 0.949125,
      "grad_norm": 3.879882335662842,
      "learning_rate": 1.927809303450839e-06,
      "loss": 3.3747,
      "step": 455580
    },
    {
      "epoch": 0.9491458333333334,
      "grad_norm": 2.6367874145507812,
      "learning_rate": 1.9262341365570364e-06,
      "loss": 3.5072,
      "step": 455590
    },
    {
      "epoch": 0.9491666666666667,
      "grad_norm": 3.005768299102783,
      "learning_rate": 1.9246596092832744e-06,
      "loss": 3.4987,
      "step": 455600
    },
    {
      "epoch": 0.9491875,
      "grad_norm": 3.9950315952301025,
      "learning_rate": 1.9230857216363636e-06,
      "loss": 3.5022,
      "step": 455610
    },
    {
      "epoch": 0.9492083333333333,
      "grad_norm": 2.981494188308716,
      "learning_rate": 1.9215124736231325e-06,
      "loss": 3.4486,
      "step": 455620
    },
    {
      "epoch": 0.9492291666666667,
      "grad_norm": 2.9128057956695557,
      "learning_rate": 1.9199398652503416e-06,
      "loss": 3.5655,
      "step": 455630
    },
    {
      "epoch": 0.94925,
      "grad_norm": 3.1780223846435547,
      "learning_rate": 1.918367896524786e-06,
      "loss": 3.3912,
      "step": 455640
    },
    {
      "epoch": 0.9492708333333333,
      "grad_norm": 2.628525733947754,
      "learning_rate": 1.916796567453294e-06,
      "loss": 3.4769,
      "step": 455650
    },
    {
      "epoch": 0.9492916666666666,
      "grad_norm": 3.4927380084991455,
      "learning_rate": 1.9152258780426087e-06,
      "loss": 3.4914,
      "step": 455660
    },
    {
      "epoch": 0.9493125,
      "grad_norm": 3.2995169162750244,
      "learning_rate": 1.9136558282995264e-06,
      "loss": 3.5167,
      "step": 455670
    },
    {
      "epoch": 0.9493333333333334,
      "grad_norm": 3.237820625305176,
      "learning_rate": 1.9120864182308406e-06,
      "loss": 3.4932,
      "step": 455680
    },
    {
      "epoch": 0.9493541666666667,
      "grad_norm": 3.748350143432617,
      "learning_rate": 1.9105176478433292e-06,
      "loss": 3.5411,
      "step": 455690
    },
    {
      "epoch": 0.949375,
      "grad_norm": 3.0101444721221924,
      "learning_rate": 1.908949517143754e-06,
      "loss": 3.4951,
      "step": 455700
    },
    {
      "epoch": 0.9493958333333333,
      "grad_norm": 2.6661040782928467,
      "learning_rate": 1.9073820261389096e-06,
      "loss": 3.4556,
      "step": 455710
    },
    {
      "epoch": 0.9494166666666667,
      "grad_norm": 3.2915048599243164,
      "learning_rate": 1.90581517483554e-06,
      "loss": 3.4144,
      "step": 455720
    },
    {
      "epoch": 0.9494375,
      "grad_norm": 3.2965879440307617,
      "learning_rate": 1.90424896324044e-06,
      "loss": 3.3165,
      "step": 455730
    },
    {
      "epoch": 0.9494583333333333,
      "grad_norm": 3.0195510387420654,
      "learning_rate": 1.9026833913603712e-06,
      "loss": 3.3907,
      "step": 455740
    },
    {
      "epoch": 0.9494791666666667,
      "grad_norm": 3.4301657676696777,
      "learning_rate": 1.9011184592020777e-06,
      "loss": 3.6142,
      "step": 455750
    },
    {
      "epoch": 0.9495,
      "grad_norm": 2.8962478637695312,
      "learning_rate": 1.8995541667723212e-06,
      "loss": 3.3935,
      "step": 455760
    },
    {
      "epoch": 0.9495208333333334,
      "grad_norm": 3.0985236167907715,
      "learning_rate": 1.897990514077896e-06,
      "loss": 3.3583,
      "step": 455770
    },
    {
      "epoch": 0.9495416666666666,
      "grad_norm": 2.4560234546661377,
      "learning_rate": 1.896427501125497e-06,
      "loss": 3.4686,
      "step": 455780
    },
    {
      "epoch": 0.9495625,
      "grad_norm": 3.025617837905884,
      "learning_rate": 1.894865127921935e-06,
      "loss": 3.3601,
      "step": 455790
    },
    {
      "epoch": 0.9495833333333333,
      "grad_norm": 2.9451539516448975,
      "learning_rate": 1.8933033944739217e-06,
      "loss": 3.3922,
      "step": 455800
    },
    {
      "epoch": 0.9496041666666667,
      "grad_norm": 2.6549699306488037,
      "learning_rate": 1.8917423007882016e-06,
      "loss": 3.3332,
      "step": 455810
    },
    {
      "epoch": 0.949625,
      "grad_norm": 3.9474785327911377,
      "learning_rate": 1.8901818468715524e-06,
      "loss": 3.4245,
      "step": 455820
    },
    {
      "epoch": 0.9496458333333333,
      "grad_norm": 3.36680006980896,
      "learning_rate": 1.888622032730669e-06,
      "loss": 3.4449,
      "step": 455830
    },
    {
      "epoch": 0.9496666666666667,
      "grad_norm": 3.3328568935394287,
      "learning_rate": 1.887062858372329e-06,
      "loss": 3.4893,
      "step": 455840
    },
    {
      "epoch": 0.9496875,
      "grad_norm": 2.4998302459716797,
      "learning_rate": 1.8855043238032442e-06,
      "loss": 3.4243,
      "step": 455850
    },
    {
      "epoch": 0.9497083333333334,
      "grad_norm": 3.0591156482696533,
      "learning_rate": 1.8839464290301421e-06,
      "loss": 3.34,
      "step": 455860
    },
    {
      "epoch": 0.9497291666666666,
      "grad_norm": 3.2028846740722656,
      "learning_rate": 1.8823891740597674e-06,
      "loss": 3.4479,
      "step": 455870
    },
    {
      "epoch": 0.94975,
      "grad_norm": 3.395894765853882,
      "learning_rate": 1.8808325588988648e-06,
      "loss": 3.409,
      "step": 455880
    },
    {
      "epoch": 0.9497708333333333,
      "grad_norm": 3.1245388984680176,
      "learning_rate": 1.8792765835541125e-06,
      "loss": 3.4183,
      "step": 455890
    },
    {
      "epoch": 0.9497916666666667,
      "grad_norm": 4.202893257141113,
      "learning_rate": 1.8777212480322546e-06,
      "loss": 3.3769,
      "step": 455900
    },
    {
      "epoch": 0.9498125,
      "grad_norm": 2.886983633041382,
      "learning_rate": 1.876166552340036e-06,
      "loss": 3.4344,
      "step": 455910
    },
    {
      "epoch": 0.9498333333333333,
      "grad_norm": 3.2982003688812256,
      "learning_rate": 1.8746124964841181e-06,
      "loss": 3.4971,
      "step": 455920
    },
    {
      "epoch": 0.9498541666666667,
      "grad_norm": 3.1346898078918457,
      "learning_rate": 1.8730590804712452e-06,
      "loss": 3.3793,
      "step": 455930
    },
    {
      "epoch": 0.949875,
      "grad_norm": 3.786513566970825,
      "learning_rate": 1.8715063043081457e-06,
      "loss": 3.466,
      "step": 455940
    },
    {
      "epoch": 0.9498958333333334,
      "grad_norm": 3.050031900405884,
      "learning_rate": 1.8699541680014807e-06,
      "loss": 3.4023,
      "step": 455950
    },
    {
      "epoch": 0.9499166666666666,
      "grad_norm": 3.791308879852295,
      "learning_rate": 1.8684026715579946e-06,
      "loss": 3.4962,
      "step": 455960
    },
    {
      "epoch": 0.9499375,
      "grad_norm": 3.0437536239624023,
      "learning_rate": 1.8668518149843658e-06,
      "loss": 3.4428,
      "step": 455970
    },
    {
      "epoch": 0.9499583333333333,
      "grad_norm": 3.8103413581848145,
      "learning_rate": 1.8653015982872888e-06,
      "loss": 3.4556,
      "step": 455980
    },
    {
      "epoch": 0.9499791666666667,
      "grad_norm": 2.5595812797546387,
      "learning_rate": 1.863752021473508e-06,
      "loss": 3.4534,
      "step": 455990
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.10393762588501,
      "learning_rate": 1.8622030845496682e-06,
      "loss": 3.5271,
      "step": 456000
    },
    {
      "epoch": 0.95,
      "eval_loss": 3.523547410964966,
      "eval_runtime": 7.3531,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.408,
      "step": 456000
    },
    {
      "epoch": 0.9500208333333333,
      "grad_norm": 3.263685941696167,
      "learning_rate": 1.8606547875224476e-06,
      "loss": 3.357,
      "step": 456010
    },
    {
      "epoch": 0.9500416666666667,
      "grad_norm": 3.0786166191101074,
      "learning_rate": 1.859107130398607e-06,
      "loss": 3.4029,
      "step": 456020
    },
    {
      "epoch": 0.9500625,
      "grad_norm": 3.778608560562134,
      "learning_rate": 1.8575601131847585e-06,
      "loss": 3.5566,
      "step": 456030
    },
    {
      "epoch": 0.9500833333333333,
      "grad_norm": 3.4401044845581055,
      "learning_rate": 1.8560137358876127e-06,
      "loss": 3.4536,
      "step": 456040
    },
    {
      "epoch": 0.9501041666666666,
      "grad_norm": 3.1962409019470215,
      "learning_rate": 1.8544679985138478e-06,
      "loss": 3.4406,
      "step": 456050
    },
    {
      "epoch": 0.950125,
      "grad_norm": 3.58746075630188,
      "learning_rate": 1.8529229010701418e-06,
      "loss": 3.43,
      "step": 456060
    },
    {
      "epoch": 0.9501458333333334,
      "grad_norm": 3.385806083679199,
      "learning_rate": 1.851378443563173e-06,
      "loss": 3.432,
      "step": 456070
    },
    {
      "epoch": 0.9501666666666667,
      "grad_norm": 3.0988080501556396,
      "learning_rate": 1.8498346259996022e-06,
      "loss": 3.4004,
      "step": 456080
    },
    {
      "epoch": 0.9501875,
      "grad_norm": 3.088454484939575,
      "learning_rate": 1.8482914483861077e-06,
      "loss": 3.4079,
      "step": 456090
    },
    {
      "epoch": 0.9502083333333333,
      "grad_norm": 3.437535047531128,
      "learning_rate": 1.8467489107293509e-06,
      "loss": 3.533,
      "step": 456100
    },
    {
      "epoch": 0.9502291666666667,
      "grad_norm": 3.578913927078247,
      "learning_rate": 1.845207013035993e-06,
      "loss": 3.4445,
      "step": 456110
    },
    {
      "epoch": 0.95025,
      "grad_norm": 4.363189697265625,
      "learning_rate": 1.8436657553126956e-06,
      "loss": 3.3164,
      "step": 456120
    },
    {
      "epoch": 0.9502708333333333,
      "grad_norm": 3.9821279048919678,
      "learning_rate": 1.8421251375661195e-06,
      "loss": 3.5078,
      "step": 456130
    },
    {
      "epoch": 0.9502916666666666,
      "grad_norm": 3.856739044189453,
      "learning_rate": 1.8405851598029098e-06,
      "loss": 3.4329,
      "step": 456140
    },
    {
      "epoch": 0.9503125,
      "grad_norm": 2.4962494373321533,
      "learning_rate": 1.8390458220297443e-06,
      "loss": 3.4932,
      "step": 456150
    },
    {
      "epoch": 0.9503333333333334,
      "grad_norm": 3.6150567531585693,
      "learning_rate": 1.8375071242532514e-06,
      "loss": 3.4156,
      "step": 456160
    },
    {
      "epoch": 0.9503541666666667,
      "grad_norm": 2.641374349594116,
      "learning_rate": 1.8359690664800753e-06,
      "loss": 3.4616,
      "step": 456170
    },
    {
      "epoch": 0.950375,
      "grad_norm": 3.6531715393066406,
      "learning_rate": 1.834431648716861e-06,
      "loss": 3.4106,
      "step": 456180
    },
    {
      "epoch": 0.9503958333333333,
      "grad_norm": 3.0362775325775146,
      "learning_rate": 1.8328948709702528e-06,
      "loss": 3.4792,
      "step": 456190
    },
    {
      "epoch": 0.9504166666666667,
      "grad_norm": 3.324915885925293,
      "learning_rate": 1.831358733246896e-06,
      "loss": 3.3374,
      "step": 456200
    },
    {
      "epoch": 0.9504375,
      "grad_norm": 2.6424448490142822,
      "learning_rate": 1.8298232355534182e-06,
      "loss": 3.4218,
      "step": 456210
    },
    {
      "epoch": 0.9504583333333333,
      "grad_norm": 3.0967695713043213,
      "learning_rate": 1.8282883778964808e-06,
      "loss": 3.4075,
      "step": 456220
    },
    {
      "epoch": 0.9504791666666667,
      "grad_norm": 3.0782363414764404,
      "learning_rate": 1.8267541602826451e-06,
      "loss": 3.396,
      "step": 456230
    },
    {
      "epoch": 0.9505,
      "grad_norm": 2.855532169342041,
      "learning_rate": 1.8252205827186063e-06,
      "loss": 3.4652,
      "step": 456240
    },
    {
      "epoch": 0.9505208333333334,
      "grad_norm": 3.680593490600586,
      "learning_rate": 1.8236876452109584e-06,
      "loss": 3.4016,
      "step": 456250
    },
    {
      "epoch": 0.9505416666666666,
      "grad_norm": 3.0382566452026367,
      "learning_rate": 1.822155347766313e-06,
      "loss": 3.537,
      "step": 456260
    },
    {
      "epoch": 0.9505625,
      "grad_norm": 3.27223539352417,
      "learning_rate": 1.8206236903913152e-06,
      "loss": 3.4662,
      "step": 456270
    },
    {
      "epoch": 0.9505833333333333,
      "grad_norm": 3.026445150375366,
      "learning_rate": 1.819092673092576e-06,
      "loss": 3.3293,
      "step": 456280
    },
    {
      "epoch": 0.9506041666666667,
      "grad_norm": 3.9640820026397705,
      "learning_rate": 1.81756229587669e-06,
      "loss": 3.6211,
      "step": 456290
    },
    {
      "epoch": 0.950625,
      "grad_norm": 2.734527826309204,
      "learning_rate": 1.8160325587502855e-06,
      "loss": 3.2855,
      "step": 456300
    },
    {
      "epoch": 0.9506458333333333,
      "grad_norm": 3.9124503135681152,
      "learning_rate": 1.8145034617199739e-06,
      "loss": 3.4492,
      "step": 456310
    },
    {
      "epoch": 0.9506666666666667,
      "grad_norm": 2.6728692054748535,
      "learning_rate": 1.8129750047923498e-06,
      "loss": 3.4478,
      "step": 456320
    },
    {
      "epoch": 0.9506875,
      "grad_norm": 2.690631628036499,
      "learning_rate": 1.8114471879740077e-06,
      "loss": 3.5626,
      "step": 456330
    },
    {
      "epoch": 0.9507083333333334,
      "grad_norm": 3.7827906608581543,
      "learning_rate": 1.8099200112715595e-06,
      "loss": 3.599,
      "step": 456340
    },
    {
      "epoch": 0.9507291666666666,
      "grad_norm": 3.18070650100708,
      "learning_rate": 1.8083934746915996e-06,
      "loss": 3.3729,
      "step": 456350
    },
    {
      "epoch": 0.95075,
      "grad_norm": 3.0980281829833984,
      "learning_rate": 1.8068675782407062e-06,
      "loss": 3.4756,
      "step": 456360
    },
    {
      "epoch": 0.9507708333333333,
      "grad_norm": 3.333118438720703,
      "learning_rate": 1.805342321925507e-06,
      "loss": 3.3865,
      "step": 456370
    },
    {
      "epoch": 0.9507916666666667,
      "grad_norm": 2.8837969303131104,
      "learning_rate": 1.8038177057525637e-06,
      "loss": 3.4592,
      "step": 456380
    },
    {
      "epoch": 0.9508125,
      "grad_norm": 3.5200557708740234,
      "learning_rate": 1.802293729728471e-06,
      "loss": 3.3981,
      "step": 456390
    },
    {
      "epoch": 0.9508333333333333,
      "grad_norm": 3.0109167098999023,
      "learning_rate": 1.8007703938598073e-06,
      "loss": 3.5897,
      "step": 456400
    },
    {
      "epoch": 0.9508541666666667,
      "grad_norm": 3.4002437591552734,
      "learning_rate": 1.79924769815315e-06,
      "loss": 3.3671,
      "step": 456410
    },
    {
      "epoch": 0.950875,
      "grad_norm": 3.018578290939331,
      "learning_rate": 1.7977256426150776e-06,
      "loss": 3.5138,
      "step": 456420
    },
    {
      "epoch": 0.9508958333333334,
      "grad_norm": 4.399745941162109,
      "learning_rate": 1.796204227252168e-06,
      "loss": 3.4317,
      "step": 456430
    },
    {
      "epoch": 0.9509166666666666,
      "grad_norm": 3.286008834838867,
      "learning_rate": 1.7946834520709996e-06,
      "loss": 3.3936,
      "step": 456440
    },
    {
      "epoch": 0.9509375,
      "grad_norm": 3.057560682296753,
      "learning_rate": 1.7931633170781333e-06,
      "loss": 3.4693,
      "step": 456450
    },
    {
      "epoch": 0.9509583333333333,
      "grad_norm": 2.9922194480895996,
      "learning_rate": 1.791643822280131e-06,
      "loss": 3.435,
      "step": 456460
    },
    {
      "epoch": 0.9509791666666667,
      "grad_norm": 2.82183575630188,
      "learning_rate": 1.7901249676835705e-06,
      "loss": 3.4671,
      "step": 456470
    },
    {
      "epoch": 0.951,
      "grad_norm": 3.0564608573913574,
      "learning_rate": 1.7886067532950133e-06,
      "loss": 3.6837,
      "step": 456480
    },
    {
      "epoch": 0.9510208333333333,
      "grad_norm": 3.223052978515625,
      "learning_rate": 1.7870891791209875e-06,
      "loss": 3.4026,
      "step": 456490
    },
    {
      "epoch": 0.9510416666666667,
      "grad_norm": 2.787757396697998,
      "learning_rate": 1.7855722451680877e-06,
      "loss": 3.4446,
      "step": 456500
    },
    {
      "epoch": 0.9510625,
      "grad_norm": 3.4246881008148193,
      "learning_rate": 1.7840559514428421e-06,
      "loss": 3.2936,
      "step": 456510
    },
    {
      "epoch": 0.9510833333333333,
      "grad_norm": 3.587533473968506,
      "learning_rate": 1.7825402979517955e-06,
      "loss": 3.409,
      "step": 456520
    },
    {
      "epoch": 0.9511041666666666,
      "grad_norm": 2.9126200675964355,
      "learning_rate": 1.781025284701526e-06,
      "loss": 3.3919,
      "step": 456530
    },
    {
      "epoch": 0.951125,
      "grad_norm": 3.2592766284942627,
      "learning_rate": 1.779510911698545e-06,
      "loss": 3.4782,
      "step": 456540
    },
    {
      "epoch": 0.9511458333333334,
      "grad_norm": 2.5557773113250732,
      "learning_rate": 1.7779971789494141e-06,
      "loss": 3.405,
      "step": 456550
    },
    {
      "epoch": 0.9511666666666667,
      "grad_norm": 3.017629861831665,
      "learning_rate": 1.7764840864606611e-06,
      "loss": 3.4138,
      "step": 456560
    },
    {
      "epoch": 0.9511875,
      "grad_norm": 3.1772029399871826,
      "learning_rate": 1.7749716342388143e-06,
      "loss": 3.4235,
      "step": 456570
    },
    {
      "epoch": 0.9512083333333333,
      "grad_norm": 2.89169979095459,
      "learning_rate": 1.773459822290435e-06,
      "loss": 3.4731,
      "step": 456580
    },
    {
      "epoch": 0.9512291666666667,
      "grad_norm": 3.2567760944366455,
      "learning_rate": 1.7719486506220515e-06,
      "loss": 3.3062,
      "step": 456590
    },
    {
      "epoch": 0.95125,
      "grad_norm": 5.032796382904053,
      "learning_rate": 1.7704381192401418e-06,
      "loss": 3.3848,
      "step": 456600
    },
    {
      "epoch": 0.9512708333333333,
      "grad_norm": 2.9945268630981445,
      "learning_rate": 1.768928228151284e-06,
      "loss": 3.4426,
      "step": 456610
    },
    {
      "epoch": 0.9512916666666666,
      "grad_norm": 3.0680243968963623,
      "learning_rate": 1.7674189773619896e-06,
      "loss": 3.3923,
      "step": 456620
    },
    {
      "epoch": 0.9513125,
      "grad_norm": 2.813103437423706,
      "learning_rate": 1.7659103668787533e-06,
      "loss": 3.4185,
      "step": 456630
    },
    {
      "epoch": 0.9513333333333334,
      "grad_norm": 3.5733120441436768,
      "learning_rate": 1.76440239670812e-06,
      "loss": 3.5443,
      "step": 456640
    },
    {
      "epoch": 0.9513541666666666,
      "grad_norm": 3.1600570678710938,
      "learning_rate": 1.762895066856601e-06,
      "loss": 3.5135,
      "step": 456650
    },
    {
      "epoch": 0.951375,
      "grad_norm": 2.6727733612060547,
      "learning_rate": 1.7613883773306747e-06,
      "loss": 3.5998,
      "step": 456660
    },
    {
      "epoch": 0.9513958333333333,
      "grad_norm": 2.9471280574798584,
      "learning_rate": 1.7598823281368857e-06,
      "loss": 3.4128,
      "step": 456670
    },
    {
      "epoch": 0.9514166666666667,
      "grad_norm": 3.399489641189575,
      "learning_rate": 1.7583769192817454e-06,
      "loss": 3.4103,
      "step": 456680
    },
    {
      "epoch": 0.9514375,
      "grad_norm": 2.974167823791504,
      "learning_rate": 1.7568721507717155e-06,
      "loss": 3.4969,
      "step": 456690
    },
    {
      "epoch": 0.9514583333333333,
      "grad_norm": 3.7118966579437256,
      "learning_rate": 1.7553680226133071e-06,
      "loss": 3.5079,
      "step": 456700
    },
    {
      "epoch": 0.9514791666666667,
      "grad_norm": 2.6669201850891113,
      "learning_rate": 1.7538645348130654e-06,
      "loss": 3.3578,
      "step": 456710
    },
    {
      "epoch": 0.9515,
      "grad_norm": 3.2688212394714355,
      "learning_rate": 1.752361687377435e-06,
      "loss": 3.4752,
      "step": 456720
    },
    {
      "epoch": 0.9515208333333334,
      "grad_norm": 3.114733934402466,
      "learning_rate": 1.7508594803129105e-06,
      "loss": 3.3435,
      "step": 456730
    },
    {
      "epoch": 0.9515416666666666,
      "grad_norm": 3.8342039585113525,
      "learning_rate": 1.7493579136260038e-06,
      "loss": 3.5249,
      "step": 456740
    },
    {
      "epoch": 0.9515625,
      "grad_norm": 2.735619068145752,
      "learning_rate": 1.747856987323193e-06,
      "loss": 3.4763,
      "step": 456750
    },
    {
      "epoch": 0.9515833333333333,
      "grad_norm": 3.261347770690918,
      "learning_rate": 1.7463567014109392e-06,
      "loss": 3.3587,
      "step": 456760
    },
    {
      "epoch": 0.9516041666666667,
      "grad_norm": 3.28456711769104,
      "learning_rate": 1.7448570558957543e-06,
      "loss": 3.3731,
      "step": 456770
    },
    {
      "epoch": 0.951625,
      "grad_norm": 3.0030922889709473,
      "learning_rate": 1.7433580507840994e-06,
      "loss": 3.4474,
      "step": 456780
    },
    {
      "epoch": 0.9516458333333333,
      "grad_norm": 3.737600088119507,
      "learning_rate": 1.7418596860824695e-06,
      "loss": 3.5058,
      "step": 456790
    },
    {
      "epoch": 0.9516666666666667,
      "grad_norm": 2.526606798171997,
      "learning_rate": 1.7403619617973096e-06,
      "loss": 3.3899,
      "step": 456800
    },
    {
      "epoch": 0.9516875,
      "grad_norm": 4.083068370819092,
      "learning_rate": 1.7388648779350979e-06,
      "loss": 3.4606,
      "step": 456810
    },
    {
      "epoch": 0.9517083333333334,
      "grad_norm": 3.5372202396392822,
      "learning_rate": 1.7373684345022953e-06,
      "loss": 3.4146,
      "step": 456820
    },
    {
      "epoch": 0.9517291666666666,
      "grad_norm": 3.0682055950164795,
      "learning_rate": 1.7358726315053806e-06,
      "loss": 3.39,
      "step": 456830
    },
    {
      "epoch": 0.95175,
      "grad_norm": 4.2142815589904785,
      "learning_rate": 1.7343774689508149e-06,
      "loss": 3.4261,
      "step": 456840
    },
    {
      "epoch": 0.9517708333333333,
      "grad_norm": 3.6344711780548096,
      "learning_rate": 1.73288294684506e-06,
      "loss": 3.5064,
      "step": 456850
    },
    {
      "epoch": 0.9517916666666667,
      "grad_norm": 3.8712544441223145,
      "learning_rate": 1.7313890651945439e-06,
      "loss": 3.458,
      "step": 456860
    },
    {
      "epoch": 0.9518125,
      "grad_norm": 3.1857357025146484,
      "learning_rate": 1.7298958240057448e-06,
      "loss": 3.3912,
      "step": 456870
    },
    {
      "epoch": 0.9518333333333333,
      "grad_norm": 3.020810604095459,
      "learning_rate": 1.7284032232851075e-06,
      "loss": 3.3479,
      "step": 456880
    },
    {
      "epoch": 0.9518541666666667,
      "grad_norm": 3.3385374546051025,
      "learning_rate": 1.7269112630390768e-06,
      "loss": 3.5178,
      "step": 456890
    },
    {
      "epoch": 0.951875,
      "grad_norm": 2.3209755420684814,
      "learning_rate": 1.7254199432740978e-06,
      "loss": 3.4086,
      "step": 456900
    },
    {
      "epoch": 0.9518958333333334,
      "grad_norm": 4.684962272644043,
      "learning_rate": 1.7239292639966318e-06,
      "loss": 3.4026,
      "step": 456910
    },
    {
      "epoch": 0.9519166666666666,
      "grad_norm": 3.0722458362579346,
      "learning_rate": 1.7224392252130736e-06,
      "loss": 3.4048,
      "step": 456920
    },
    {
      "epoch": 0.9519375,
      "grad_norm": 4.401142597198486,
      "learning_rate": 1.7209498269299016e-06,
      "loss": 3.4189,
      "step": 456930
    },
    {
      "epoch": 0.9519583333333334,
      "grad_norm": 3.0943195819854736,
      "learning_rate": 1.7194610691535272e-06,
      "loss": 3.5313,
      "step": 456940
    },
    {
      "epoch": 0.9519791666666667,
      "grad_norm": 2.627225875854492,
      "learning_rate": 1.7179729518903785e-06,
      "loss": 3.4797,
      "step": 456950
    },
    {
      "epoch": 0.952,
      "grad_norm": 3.6852495670318604,
      "learning_rate": 1.716485475146917e-06,
      "loss": 3.3785,
      "step": 456960
    },
    {
      "epoch": 0.9520208333333333,
      "grad_norm": 2.806133985519409,
      "learning_rate": 1.714998638929521e-06,
      "loss": 3.4611,
      "step": 456970
    },
    {
      "epoch": 0.9520416666666667,
      "grad_norm": 3.8609085083007812,
      "learning_rate": 1.7135124432446357e-06,
      "loss": 3.4772,
      "step": 456980
    },
    {
      "epoch": 0.9520625,
      "grad_norm": 2.8459813594818115,
      "learning_rate": 1.7120268880987054e-06,
      "loss": 3.53,
      "step": 456990
    },
    {
      "epoch": 0.9520833333333333,
      "grad_norm": 3.8329384326934814,
      "learning_rate": 1.7105419734981086e-06,
      "loss": 3.5152,
      "step": 457000
    },
    {
      "epoch": 0.9520833333333333,
      "eval_loss": 3.5207767486572266,
      "eval_runtime": 7.3222,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 457000
    },
    {
      "epoch": 0.9521041666666666,
      "grad_norm": 3.5143442153930664,
      "learning_rate": 1.7090576994492566e-06,
      "loss": 3.326,
      "step": 457010
    },
    {
      "epoch": 0.952125,
      "grad_norm": 3.296473741531372,
      "learning_rate": 1.7075740659585946e-06,
      "loss": 3.3461,
      "step": 457020
    },
    {
      "epoch": 0.9521458333333334,
      "grad_norm": 3.365964889526367,
      "learning_rate": 1.7060910730325171e-06,
      "loss": 3.3545,
      "step": 457030
    },
    {
      "epoch": 0.9521666666666667,
      "grad_norm": 3.3822293281555176,
      "learning_rate": 1.7046087206774195e-06,
      "loss": 3.4443,
      "step": 457040
    },
    {
      "epoch": 0.9521875,
      "grad_norm": 3.1842477321624756,
      "learning_rate": 1.7031270088997129e-06,
      "loss": 3.5748,
      "step": 457050
    },
    {
      "epoch": 0.9522083333333333,
      "grad_norm": 3.03861927986145,
      "learning_rate": 1.7016459377058089e-06,
      "loss": 3.5281,
      "step": 457060
    },
    {
      "epoch": 0.9522291666666667,
      "grad_norm": 2.7945032119750977,
      "learning_rate": 1.7001655071020691e-06,
      "loss": 3.4632,
      "step": 457070
    },
    {
      "epoch": 0.95225,
      "grad_norm": 3.7140586376190186,
      "learning_rate": 1.6986857170949385e-06,
      "loss": 3.4012,
      "step": 457080
    },
    {
      "epoch": 0.9522708333333333,
      "grad_norm": 4.76809024810791,
      "learning_rate": 1.6972065676907787e-06,
      "loss": 3.4428,
      "step": 457090
    },
    {
      "epoch": 0.9522916666666666,
      "grad_norm": 3.1342761516571045,
      "learning_rate": 1.6957280588959676e-06,
      "loss": 3.5299,
      "step": 457100
    },
    {
      "epoch": 0.9523125,
      "grad_norm": 3.4241995811462402,
      "learning_rate": 1.6942501907169337e-06,
      "loss": 3.3313,
      "step": 457110
    },
    {
      "epoch": 0.9523333333333334,
      "grad_norm": 3.560940980911255,
      "learning_rate": 1.6927729631600217e-06,
      "loss": 3.3044,
      "step": 457120
    },
    {
      "epoch": 0.9523541666666666,
      "grad_norm": 2.899111270904541,
      "learning_rate": 1.6912963762316267e-06,
      "loss": 3.4864,
      "step": 457130
    },
    {
      "epoch": 0.952375,
      "grad_norm": 3.1657769680023193,
      "learning_rate": 1.6898204299381269e-06,
      "loss": 3.4294,
      "step": 457140
    },
    {
      "epoch": 0.9523958333333333,
      "grad_norm": 3.9862232208251953,
      "learning_rate": 1.6883451242858836e-06,
      "loss": 3.4134,
      "step": 457150
    },
    {
      "epoch": 0.9524166666666667,
      "grad_norm": 3.221738815307617,
      "learning_rate": 1.6868704592813087e-06,
      "loss": 3.3606,
      "step": 457160
    },
    {
      "epoch": 0.9524375,
      "grad_norm": 3.7754476070404053,
      "learning_rate": 1.6853964349307304e-06,
      "loss": 3.5124,
      "step": 457170
    },
    {
      "epoch": 0.9524583333333333,
      "grad_norm": 3.045559883117676,
      "learning_rate": 1.6839230512405433e-06,
      "loss": 3.4396,
      "step": 457180
    },
    {
      "epoch": 0.9524791666666667,
      "grad_norm": 2.708756446838379,
      "learning_rate": 1.6824503082170926e-06,
      "loss": 3.4132,
      "step": 457190
    },
    {
      "epoch": 0.9525,
      "grad_norm": 4.168999195098877,
      "learning_rate": 1.6809782058667564e-06,
      "loss": 3.5548,
      "step": 457200
    },
    {
      "epoch": 0.9525208333333334,
      "grad_norm": 2.936809539794922,
      "learning_rate": 1.6795067441958798e-06,
      "loss": 3.4772,
      "step": 457210
    },
    {
      "epoch": 0.9525416666666666,
      "grad_norm": 2.7107198238372803,
      "learning_rate": 1.6780359232108242e-06,
      "loss": 3.4399,
      "step": 457220
    },
    {
      "epoch": 0.9525625,
      "grad_norm": 2.9195563793182373,
      "learning_rate": 1.6765657429179347e-06,
      "loss": 3.3777,
      "step": 457230
    },
    {
      "epoch": 0.9525833333333333,
      "grad_norm": 2.796147108078003,
      "learning_rate": 1.6750962033235892e-06,
      "loss": 3.5265,
      "step": 457240
    },
    {
      "epoch": 0.9526041666666667,
      "grad_norm": 4.564239978790283,
      "learning_rate": 1.6736273044341163e-06,
      "loss": 3.5057,
      "step": 457250
    },
    {
      "epoch": 0.952625,
      "grad_norm": 2.7716846466064453,
      "learning_rate": 1.6721590462558443e-06,
      "loss": 3.4694,
      "step": 457260
    },
    {
      "epoch": 0.9526458333333333,
      "grad_norm": 3.165588140487671,
      "learning_rate": 1.6706914287951346e-06,
      "loss": 3.4456,
      "step": 457270
    },
    {
      "epoch": 0.9526666666666667,
      "grad_norm": 2.821909189224243,
      "learning_rate": 1.6692244520583487e-06,
      "loss": 3.5533,
      "step": 457280
    },
    {
      "epoch": 0.9526875,
      "grad_norm": 2.5718610286712646,
      "learning_rate": 1.6677581160517817e-06,
      "loss": 3.5033,
      "step": 457290
    },
    {
      "epoch": 0.9527083333333334,
      "grad_norm": 3.0017311573028564,
      "learning_rate": 1.6662924207817784e-06,
      "loss": 3.4524,
      "step": 457300
    },
    {
      "epoch": 0.9527291666666666,
      "grad_norm": 3.5742452144622803,
      "learning_rate": 1.6648273662547008e-06,
      "loss": 3.4323,
      "step": 457310
    },
    {
      "epoch": 0.95275,
      "grad_norm": 3.038972854614258,
      "learning_rate": 1.6633629524768265e-06,
      "loss": 3.3639,
      "step": 457320
    },
    {
      "epoch": 0.9527708333333333,
      "grad_norm": 2.848675489425659,
      "learning_rate": 1.6618991794545344e-06,
      "loss": 3.4237,
      "step": 457330
    },
    {
      "epoch": 0.9527916666666667,
      "grad_norm": 3.232853889465332,
      "learning_rate": 1.6604360471941025e-06,
      "loss": 3.3717,
      "step": 457340
    },
    {
      "epoch": 0.9528125,
      "grad_norm": 3.141752243041992,
      "learning_rate": 1.6589735557018757e-06,
      "loss": 3.3031,
      "step": 457350
    },
    {
      "epoch": 0.9528333333333333,
      "grad_norm": 4.4053120613098145,
      "learning_rate": 1.6575117049841823e-06,
      "loss": 3.5712,
      "step": 457360
    },
    {
      "epoch": 0.9528541666666667,
      "grad_norm": 3.9043240547180176,
      "learning_rate": 1.6560504950473009e-06,
      "loss": 3.4426,
      "step": 457370
    },
    {
      "epoch": 0.952875,
      "grad_norm": 2.9744255542755127,
      "learning_rate": 1.6545899258975593e-06,
      "loss": 3.4272,
      "step": 457380
    },
    {
      "epoch": 0.9528958333333334,
      "grad_norm": 3.5058934688568115,
      "learning_rate": 1.653129997541286e-06,
      "loss": 3.4798,
      "step": 457390
    },
    {
      "epoch": 0.9529166666666666,
      "grad_norm": 3.333228588104248,
      "learning_rate": 1.6516707099847592e-06,
      "loss": 3.2749,
      "step": 457400
    },
    {
      "epoch": 0.9529375,
      "grad_norm": 3.265759229660034,
      "learning_rate": 1.6502120632342907e-06,
      "loss": 3.3535,
      "step": 457410
    },
    {
      "epoch": 0.9529583333333334,
      "grad_norm": 3.560403823852539,
      "learning_rate": 1.648754057296192e-06,
      "loss": 3.5869,
      "step": 457420
    },
    {
      "epoch": 0.9529791666666667,
      "grad_norm": 3.3832647800445557,
      "learning_rate": 1.6472966921767584e-06,
      "loss": 3.3575,
      "step": 457430
    },
    {
      "epoch": 0.953,
      "grad_norm": 3.4369096755981445,
      "learning_rate": 1.6458399678822676e-06,
      "loss": 3.5313,
      "step": 457440
    },
    {
      "epoch": 0.9530208333333333,
      "grad_norm": 3.2240054607391357,
      "learning_rate": 1.6443838844190482e-06,
      "loss": 3.4017,
      "step": 457450
    },
    {
      "epoch": 0.9530416666666667,
      "grad_norm": 2.4141385555267334,
      "learning_rate": 1.6429284417933619e-06,
      "loss": 3.3475,
      "step": 457460
    },
    {
      "epoch": 0.9530625,
      "grad_norm": 3.596127510070801,
      "learning_rate": 1.641473640011487e-06,
      "loss": 3.3851,
      "step": 457470
    },
    {
      "epoch": 0.9530833333333333,
      "grad_norm": 3.452315330505371,
      "learning_rate": 1.640019479079735e-06,
      "loss": 3.4105,
      "step": 457480
    },
    {
      "epoch": 0.9531041666666666,
      "grad_norm": 4.002933502197266,
      "learning_rate": 1.6385659590043677e-06,
      "loss": 3.3497,
      "step": 457490
    },
    {
      "epoch": 0.953125,
      "grad_norm": 2.746272087097168,
      "learning_rate": 1.6371130797916631e-06,
      "loss": 3.329,
      "step": 457500
    },
    {
      "epoch": 0.9531458333333334,
      "grad_norm": 2.5721895694732666,
      "learning_rate": 1.6356608414479e-06,
      "loss": 3.5327,
      "step": 457510
    },
    {
      "epoch": 0.9531666666666667,
      "grad_norm": 4.278460502624512,
      "learning_rate": 1.634209243979373e-06,
      "loss": 3.4964,
      "step": 457520
    },
    {
      "epoch": 0.9531875,
      "grad_norm": 2.9164416790008545,
      "learning_rate": 1.6327582873923273e-06,
      "loss": 3.5193,
      "step": 457530
    },
    {
      "epoch": 0.9532083333333333,
      "grad_norm": 2.6937131881713867,
      "learning_rate": 1.631307971693041e-06,
      "loss": 3.4494,
      "step": 457540
    },
    {
      "epoch": 0.9532291666666667,
      "grad_norm": 2.55664324760437,
      "learning_rate": 1.629858296887776e-06,
      "loss": 3.5664,
      "step": 457550
    },
    {
      "epoch": 0.95325,
      "grad_norm": 5.219676971435547,
      "learning_rate": 1.6284092629827773e-06,
      "loss": 3.4416,
      "step": 457560
    },
    {
      "epoch": 0.9532708333333333,
      "grad_norm": 3.015880584716797,
      "learning_rate": 1.6269608699843394e-06,
      "loss": 3.5615,
      "step": 457570
    },
    {
      "epoch": 0.9532916666666666,
      "grad_norm": 3.0281076431274414,
      "learning_rate": 1.6255131178986913e-06,
      "loss": 3.339,
      "step": 457580
    },
    {
      "epoch": 0.9533125,
      "grad_norm": 4.397552967071533,
      "learning_rate": 1.6240660067321109e-06,
      "loss": 3.3902,
      "step": 457590
    },
    {
      "epoch": 0.9533333333333334,
      "grad_norm": 3.3006930351257324,
      "learning_rate": 1.6226195364908269e-06,
      "loss": 3.4715,
      "step": 457600
    },
    {
      "epoch": 0.9533541666666666,
      "grad_norm": 2.8261799812316895,
      "learning_rate": 1.6211737071810838e-06,
      "loss": 3.5147,
      "step": 457610
    },
    {
      "epoch": 0.953375,
      "grad_norm": 2.563685894012451,
      "learning_rate": 1.6197285188091602e-06,
      "loss": 3.3962,
      "step": 457620
    },
    {
      "epoch": 0.9533958333333333,
      "grad_norm": 3.0392160415649414,
      "learning_rate": 1.6182839713812512e-06,
      "loss": 3.3539,
      "step": 457630
    },
    {
      "epoch": 0.9534166666666667,
      "grad_norm": 2.7454450130462646,
      "learning_rate": 1.6168400649036183e-06,
      "loss": 3.5113,
      "step": 457640
    },
    {
      "epoch": 0.9534375,
      "grad_norm": 2.8667025566101074,
      "learning_rate": 1.6153967993825402e-06,
      "loss": 3.6227,
      "step": 457650
    },
    {
      "epoch": 0.9534583333333333,
      "grad_norm": 4.221380233764648,
      "learning_rate": 1.613954174824178e-06,
      "loss": 3.3157,
      "step": 457660
    },
    {
      "epoch": 0.9534791666666667,
      "grad_norm": 2.785121440887451,
      "learning_rate": 1.6125121912348105e-06,
      "loss": 3.5232,
      "step": 457670
    },
    {
      "epoch": 0.9535,
      "grad_norm": 3.036806583404541,
      "learning_rate": 1.6110708486206492e-06,
      "loss": 3.4295,
      "step": 457680
    },
    {
      "epoch": 0.9535208333333334,
      "grad_norm": 3.149435043334961,
      "learning_rate": 1.6096301469879226e-06,
      "loss": 3.3384,
      "step": 457690
    },
    {
      "epoch": 0.9535416666666666,
      "grad_norm": 3.512117862701416,
      "learning_rate": 1.6081900863428753e-06,
      "loss": 3.3631,
      "step": 457700
    },
    {
      "epoch": 0.9535625,
      "grad_norm": 3.143519878387451,
      "learning_rate": 1.606750666691703e-06,
      "loss": 3.5091,
      "step": 457710
    },
    {
      "epoch": 0.9535833333333333,
      "grad_norm": 2.990525960922241,
      "learning_rate": 1.6053118880406168e-06,
      "loss": 3.346,
      "step": 457720
    },
    {
      "epoch": 0.9536041666666667,
      "grad_norm": 3.3780248165130615,
      "learning_rate": 1.603873750395862e-06,
      "loss": 3.2869,
      "step": 457730
    },
    {
      "epoch": 0.953625,
      "grad_norm": 2.6242785453796387,
      "learning_rate": 1.6024362537636172e-06,
      "loss": 3.3104,
      "step": 457740
    },
    {
      "epoch": 0.9536458333333333,
      "grad_norm": 2.8900651931762695,
      "learning_rate": 1.60099939815011e-06,
      "loss": 3.4165,
      "step": 457750
    },
    {
      "epoch": 0.9536666666666667,
      "grad_norm": 3.9840657711029053,
      "learning_rate": 1.599563183561553e-06,
      "loss": 3.387,
      "step": 457760
    },
    {
      "epoch": 0.9536875,
      "grad_norm": 3.0995874404907227,
      "learning_rate": 1.5981276100041407e-06,
      "loss": 3.3656,
      "step": 457770
    },
    {
      "epoch": 0.9537083333333334,
      "grad_norm": 4.494768142700195,
      "learning_rate": 1.5966926774840682e-06,
      "loss": 3.3343,
      "step": 457780
    },
    {
      "epoch": 0.9537291666666666,
      "grad_norm": 3.320176124572754,
      "learning_rate": 1.5952583860075473e-06,
      "loss": 3.5236,
      "step": 457790
    },
    {
      "epoch": 0.95375,
      "grad_norm": 3.384166955947876,
      "learning_rate": 1.5938247355807732e-06,
      "loss": 3.4404,
      "step": 457800
    },
    {
      "epoch": 0.9537708333333333,
      "grad_norm": 3.5058541297912598,
      "learning_rate": 1.592391726209924e-06,
      "loss": 3.4386,
      "step": 457810
    },
    {
      "epoch": 0.9537916666666667,
      "grad_norm": 2.731999635696411,
      "learning_rate": 1.5909593579011947e-06,
      "loss": 3.3589,
      "step": 457820
    },
    {
      "epoch": 0.9538125,
      "grad_norm": 3.0452804565429688,
      "learning_rate": 1.5895276306607806e-06,
      "loss": 3.4804,
      "step": 457830
    },
    {
      "epoch": 0.9538333333333333,
      "grad_norm": 3.2095067501068115,
      "learning_rate": 1.5880965444948767e-06,
      "loss": 3.4649,
      "step": 457840
    },
    {
      "epoch": 0.9538541666666667,
      "grad_norm": 3.6126978397369385,
      "learning_rate": 1.586666099409628e-06,
      "loss": 3.3633,
      "step": 457850
    },
    {
      "epoch": 0.953875,
      "grad_norm": 3.090747833251953,
      "learning_rate": 1.5852362954112463e-06,
      "loss": 3.3165,
      "step": 457860
    },
    {
      "epoch": 0.9538958333333334,
      "grad_norm": 3.5827414989471436,
      "learning_rate": 1.5838071325058932e-06,
      "loss": 3.3908,
      "step": 457870
    },
    {
      "epoch": 0.9539166666666666,
      "grad_norm": 2.554154396057129,
      "learning_rate": 1.5823786106997638e-06,
      "loss": 3.3506,
      "step": 457880
    },
    {
      "epoch": 0.9539375,
      "grad_norm": 2.900383949279785,
      "learning_rate": 1.5809507299989865e-06,
      "loss": 3.3589,
      "step": 457890
    },
    {
      "epoch": 0.9539583333333334,
      "grad_norm": 2.3685765266418457,
      "learning_rate": 1.579523490409773e-06,
      "loss": 3.3197,
      "step": 457900
    },
    {
      "epoch": 0.9539791666666667,
      "grad_norm": 3.3293068408966064,
      "learning_rate": 1.5780968919382519e-06,
      "loss": 3.4255,
      "step": 457910
    },
    {
      "epoch": 0.954,
      "grad_norm": 3.0676465034484863,
      "learning_rate": 1.5766709345906182e-06,
      "loss": 3.5093,
      "step": 457920
    },
    {
      "epoch": 0.9540208333333333,
      "grad_norm": 2.943399667739868,
      "learning_rate": 1.575245618373e-06,
      "loss": 3.3167,
      "step": 457930
    },
    {
      "epoch": 0.9540416666666667,
      "grad_norm": 2.8598132133483887,
      "learning_rate": 1.573820943291576e-06,
      "loss": 3.3489,
      "step": 457940
    },
    {
      "epoch": 0.9540625,
      "grad_norm": 4.225914001464844,
      "learning_rate": 1.5723969093525079e-06,
      "loss": 3.5366,
      "step": 457950
    },
    {
      "epoch": 0.9540833333333333,
      "grad_norm": 3.2319538593292236,
      "learning_rate": 1.5709735165619241e-06,
      "loss": 3.3263,
      "step": 457960
    },
    {
      "epoch": 0.9541041666666666,
      "grad_norm": 3.2895517349243164,
      "learning_rate": 1.5695507649259697e-06,
      "loss": 3.4872,
      "step": 457970
    },
    {
      "epoch": 0.954125,
      "grad_norm": 3.126171112060547,
      "learning_rate": 1.5681286544508232e-06,
      "loss": 3.3692,
      "step": 457980
    },
    {
      "epoch": 0.9541458333333334,
      "grad_norm": 3.672450065612793,
      "learning_rate": 1.5667071851426127e-06,
      "loss": 3.3451,
      "step": 457990
    },
    {
      "epoch": 0.9541666666666667,
      "grad_norm": 2.777545928955078,
      "learning_rate": 1.5652863570074336e-06,
      "loss": 3.4538,
      "step": 458000
    },
    {
      "epoch": 0.9541666666666667,
      "eval_loss": 3.520343065261841,
      "eval_runtime": 7.3049,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 458000
    },
    {
      "epoch": 0.9541875,
      "grad_norm": 3.6275267601013184,
      "learning_rate": 1.5638661700514976e-06,
      "loss": 3.4115,
      "step": 458010
    },
    {
      "epoch": 0.9542083333333333,
      "grad_norm": 3.0951478481292725,
      "learning_rate": 1.5624466242808996e-06,
      "loss": 3.5049,
      "step": 458020
    },
    {
      "epoch": 0.9542291666666667,
      "grad_norm": 3.0849967002868652,
      "learning_rate": 1.5610277197017685e-06,
      "loss": 3.4402,
      "step": 458030
    },
    {
      "epoch": 0.95425,
      "grad_norm": 2.933504343032837,
      "learning_rate": 1.5596094563202488e-06,
      "loss": 3.4641,
      "step": 458040
    },
    {
      "epoch": 0.9542708333333333,
      "grad_norm": 3.38326358795166,
      "learning_rate": 1.5581918341424527e-06,
      "loss": 3.3784,
      "step": 458050
    },
    {
      "epoch": 0.9542916666666666,
      "grad_norm": 3.499690294265747,
      "learning_rate": 1.5567748531745083e-06,
      "loss": 3.3326,
      "step": 458060
    },
    {
      "epoch": 0.9543125,
      "grad_norm": 3.4792511463165283,
      "learning_rate": 1.5553585134225444e-06,
      "loss": 3.5178,
      "step": 458070
    },
    {
      "epoch": 0.9543333333333334,
      "grad_norm": 3.414618730545044,
      "learning_rate": 1.553942814892689e-06,
      "loss": 3.475,
      "step": 458080
    },
    {
      "epoch": 0.9543541666666666,
      "grad_norm": 4.384913444519043,
      "learning_rate": 1.552527757591021e-06,
      "loss": 3.4473,
      "step": 458090
    },
    {
      "epoch": 0.954375,
      "grad_norm": 3.5545315742492676,
      "learning_rate": 1.5511133415236854e-06,
      "loss": 3.4881,
      "step": 458100
    },
    {
      "epoch": 0.9543958333333333,
      "grad_norm": 3.172382354736328,
      "learning_rate": 1.5496995666967605e-06,
      "loss": 3.3564,
      "step": 458110
    },
    {
      "epoch": 0.9544166666666667,
      "grad_norm": 3.3821041584014893,
      "learning_rate": 1.5482864331163913e-06,
      "loss": 3.4705,
      "step": 458120
    },
    {
      "epoch": 0.9544375,
      "grad_norm": 3.0430352687835693,
      "learning_rate": 1.5468739407886566e-06,
      "loss": 3.4509,
      "step": 458130
    },
    {
      "epoch": 0.9544583333333333,
      "grad_norm": 3.0590081214904785,
      "learning_rate": 1.5454620897196679e-06,
      "loss": 3.3713,
      "step": 458140
    },
    {
      "epoch": 0.9544791666666667,
      "grad_norm": 3.5427815914154053,
      "learning_rate": 1.5440508799155204e-06,
      "loss": 3.4808,
      "step": 458150
    },
    {
      "epoch": 0.9545,
      "grad_norm": 4.525394916534424,
      "learning_rate": 1.5426403113823095e-06,
      "loss": 3.5019,
      "step": 458160
    },
    {
      "epoch": 0.9545208333333334,
      "grad_norm": 2.976630210876465,
      "learning_rate": 1.5412303841261298e-06,
      "loss": 3.2996,
      "step": 458170
    },
    {
      "epoch": 0.9545416666666666,
      "grad_norm": 3.2017877101898193,
      "learning_rate": 1.53982109815306e-06,
      "loss": 3.3996,
      "step": 458180
    },
    {
      "epoch": 0.9545625,
      "grad_norm": 3.6569690704345703,
      "learning_rate": 1.5384124534692121e-06,
      "loss": 3.3938,
      "step": 458190
    },
    {
      "epoch": 0.9545833333333333,
      "grad_norm": 2.727260112762451,
      "learning_rate": 1.5370044500806478e-06,
      "loss": 3.5155,
      "step": 458200
    },
    {
      "epoch": 0.9546041666666667,
      "grad_norm": 2.9337048530578613,
      "learning_rate": 1.535597087993462e-06,
      "loss": 3.4901,
      "step": 458210
    },
    {
      "epoch": 0.954625,
      "grad_norm": 3.484114408493042,
      "learning_rate": 1.5341903672137335e-06,
      "loss": 3.4349,
      "step": 458220
    },
    {
      "epoch": 0.9546458333333333,
      "grad_norm": 2.496828556060791,
      "learning_rate": 1.5327842877475238e-06,
      "loss": 3.3575,
      "step": 458230
    },
    {
      "epoch": 0.9546666666666667,
      "grad_norm": 3.3052046298980713,
      "learning_rate": 1.5313788496009283e-06,
      "loss": 3.4941,
      "step": 458240
    },
    {
      "epoch": 0.9546875,
      "grad_norm": 2.984090805053711,
      "learning_rate": 1.5299740527800086e-06,
      "loss": 3.5376,
      "step": 458250
    },
    {
      "epoch": 0.9547083333333334,
      "grad_norm": 3.619734287261963,
      "learning_rate": 1.5285698972908434e-06,
      "loss": 3.2951,
      "step": 458260
    },
    {
      "epoch": 0.9547291666666666,
      "grad_norm": 3.345560312271118,
      "learning_rate": 1.527166383139461e-06,
      "loss": 3.4273,
      "step": 458270
    },
    {
      "epoch": 0.95475,
      "grad_norm": 2.8543076515197754,
      "learning_rate": 1.5257635103319732e-06,
      "loss": 3.3781,
      "step": 458280
    },
    {
      "epoch": 0.9547708333333333,
      "grad_norm": 2.9424145221710205,
      "learning_rate": 1.5243612788744085e-06,
      "loss": 3.3575,
      "step": 458290
    },
    {
      "epoch": 0.9547916666666667,
      "grad_norm": 2.4844202995300293,
      "learning_rate": 1.522959688772829e-06,
      "loss": 3.3918,
      "step": 458300
    },
    {
      "epoch": 0.9548125,
      "grad_norm": 2.8056843280792236,
      "learning_rate": 1.5215587400332962e-06,
      "loss": 3.4959,
      "step": 458310
    },
    {
      "epoch": 0.9548333333333333,
      "grad_norm": 3.285245895385742,
      "learning_rate": 1.5201584326618555e-06,
      "loss": 3.4531,
      "step": 458320
    },
    {
      "epoch": 0.9548541666666667,
      "grad_norm": 2.756709575653076,
      "learning_rate": 1.5187587666645684e-06,
      "loss": 3.3561,
      "step": 458330
    },
    {
      "epoch": 0.954875,
      "grad_norm": 2.964034080505371,
      "learning_rate": 1.5173597420474636e-06,
      "loss": 3.4024,
      "step": 458340
    },
    {
      "epoch": 0.9548958333333334,
      "grad_norm": 2.4199881553649902,
      "learning_rate": 1.5159613588165863e-06,
      "loss": 3.4233,
      "step": 458350
    },
    {
      "epoch": 0.9549166666666666,
      "grad_norm": 3.8508260250091553,
      "learning_rate": 1.5145636169779817e-06,
      "loss": 3.4146,
      "step": 458360
    },
    {
      "epoch": 0.9549375,
      "grad_norm": 2.9780805110931396,
      "learning_rate": 1.5131665165376949e-06,
      "loss": 3.4403,
      "step": 458370
    },
    {
      "epoch": 0.9549583333333334,
      "grad_norm": 2.602768898010254,
      "learning_rate": 1.5117700575017378e-06,
      "loss": 3.4003,
      "step": 458380
    },
    {
      "epoch": 0.9549791666666667,
      "grad_norm": 2.641216278076172,
      "learning_rate": 1.5103742398761887e-06,
      "loss": 3.4257,
      "step": 458390
    },
    {
      "epoch": 0.955,
      "grad_norm": 4.095243453979492,
      "learning_rate": 1.5089790636670262e-06,
      "loss": 3.4112,
      "step": 458400
    },
    {
      "epoch": 0.9550208333333333,
      "grad_norm": 2.9258713722229004,
      "learning_rate": 1.5075845288802957e-06,
      "loss": 3.4537,
      "step": 458410
    },
    {
      "epoch": 0.9550416666666667,
      "grad_norm": 2.8117878437042236,
      "learning_rate": 1.5061906355220254e-06,
      "loss": 3.4035,
      "step": 458420
    },
    {
      "epoch": 0.9550625,
      "grad_norm": 3.656973123550415,
      "learning_rate": 1.504797383598244e-06,
      "loss": 3.5226,
      "step": 458430
    },
    {
      "epoch": 0.9550833333333333,
      "grad_norm": 3.078716278076172,
      "learning_rate": 1.5034047731149302e-06,
      "loss": 3.418,
      "step": 458440
    },
    {
      "epoch": 0.9551041666666666,
      "grad_norm": 2.9263756275177,
      "learning_rate": 1.5020128040781621e-06,
      "loss": 3.4945,
      "step": 458450
    },
    {
      "epoch": 0.955125,
      "grad_norm": 2.772663116455078,
      "learning_rate": 1.5006214764939018e-06,
      "loss": 3.473,
      "step": 458460
    },
    {
      "epoch": 0.9551458333333334,
      "grad_norm": 2.714661121368408,
      "learning_rate": 1.4992307903681778e-06,
      "loss": 3.4841,
      "step": 458470
    },
    {
      "epoch": 0.9551666666666667,
      "grad_norm": 2.7562129497528076,
      "learning_rate": 1.4978407457070019e-06,
      "loss": 3.4963,
      "step": 458480
    },
    {
      "epoch": 0.9551875,
      "grad_norm": 2.802370548248291,
      "learning_rate": 1.4964513425163694e-06,
      "loss": 3.4596,
      "step": 458490
    },
    {
      "epoch": 0.9552083333333333,
      "grad_norm": 2.6857962608337402,
      "learning_rate": 1.4950625808022921e-06,
      "loss": 3.4116,
      "step": 458500
    },
    {
      "epoch": 0.9552291666666667,
      "grad_norm": 3.0235252380371094,
      "learning_rate": 1.4936744605707485e-06,
      "loss": 3.4682,
      "step": 458510
    },
    {
      "epoch": 0.95525,
      "grad_norm": 2.59842848777771,
      "learning_rate": 1.4922869818277504e-06,
      "loss": 3.5205,
      "step": 458520
    },
    {
      "epoch": 0.9552708333333333,
      "grad_norm": 3.38448429107666,
      "learning_rate": 1.4909001445792933e-06,
      "loss": 3.3797,
      "step": 458530
    },
    {
      "epoch": 0.9552916666666667,
      "grad_norm": 3.539355754852295,
      "learning_rate": 1.4895139488313722e-06,
      "loss": 3.4157,
      "step": 458540
    },
    {
      "epoch": 0.9553125,
      "grad_norm": 3.6297786235809326,
      "learning_rate": 1.4881283945899492e-06,
      "loss": 3.4713,
      "step": 458550
    },
    {
      "epoch": 0.9553333333333334,
      "grad_norm": 2.781425714492798,
      "learning_rate": 1.4867434818610358e-06,
      "loss": 3.4666,
      "step": 458560
    },
    {
      "epoch": 0.9553541666666666,
      "grad_norm": 3.7407708168029785,
      "learning_rate": 1.4853592106506107e-06,
      "loss": 3.5138,
      "step": 458570
    },
    {
      "epoch": 0.955375,
      "grad_norm": 2.9356331825256348,
      "learning_rate": 1.4839755809646359e-06,
      "loss": 3.4093,
      "step": 458580
    },
    {
      "epoch": 0.9553958333333333,
      "grad_norm": 2.8575103282928467,
      "learning_rate": 1.4825925928091064e-06,
      "loss": 3.3682,
      "step": 458590
    },
    {
      "epoch": 0.9554166666666667,
      "grad_norm": 3.586843490600586,
      "learning_rate": 1.4812102461899844e-06,
      "loss": 3.3601,
      "step": 458600
    },
    {
      "epoch": 0.9554375,
      "grad_norm": 3.3857572078704834,
      "learning_rate": 1.4798285411132482e-06,
      "loss": 3.4427,
      "step": 458610
    },
    {
      "epoch": 0.9554583333333333,
      "grad_norm": 2.823141098022461,
      "learning_rate": 1.4784474775848765e-06,
      "loss": 3.42,
      "step": 458620
    },
    {
      "epoch": 0.9554791666666667,
      "grad_norm": 3.4064383506774902,
      "learning_rate": 1.4770670556108143e-06,
      "loss": 3.3883,
      "step": 458630
    },
    {
      "epoch": 0.9555,
      "grad_norm": 2.92020320892334,
      "learning_rate": 1.475687275197024e-06,
      "loss": 3.3398,
      "step": 458640
    },
    {
      "epoch": 0.9555208333333334,
      "grad_norm": 2.780636787414551,
      "learning_rate": 1.4743081363494836e-06,
      "loss": 3.5135,
      "step": 458650
    },
    {
      "epoch": 0.9555416666666666,
      "grad_norm": 3.149723768234253,
      "learning_rate": 1.4729296390741384e-06,
      "loss": 3.3847,
      "step": 458660
    },
    {
      "epoch": 0.9555625,
      "grad_norm": 2.9847965240478516,
      "learning_rate": 1.4715517833769508e-06,
      "loss": 3.4059,
      "step": 458670
    },
    {
      "epoch": 0.9555833333333333,
      "grad_norm": 3.036083221435547,
      "learning_rate": 1.4701745692638822e-06,
      "loss": 3.4131,
      "step": 458680
    },
    {
      "epoch": 0.9556041666666667,
      "grad_norm": 4.428262710571289,
      "learning_rate": 1.468797996740828e-06,
      "loss": 3.5144,
      "step": 458690
    },
    {
      "epoch": 0.955625,
      "grad_norm": 3.6944186687469482,
      "learning_rate": 1.4674220658138003e-06,
      "loss": 3.4518,
      "step": 458700
    },
    {
      "epoch": 0.9556458333333333,
      "grad_norm": 2.989767551422119,
      "learning_rate": 1.4660467764887273e-06,
      "loss": 3.4551,
      "step": 458710
    },
    {
      "epoch": 0.9556666666666667,
      "grad_norm": 2.7421305179595947,
      "learning_rate": 1.4646721287715045e-06,
      "loss": 3.3342,
      "step": 458720
    },
    {
      "epoch": 0.9556875,
      "grad_norm": 3.2285807132720947,
      "learning_rate": 1.4632981226681273e-06,
      "loss": 3.4764,
      "step": 458730
    },
    {
      "epoch": 0.9557083333333334,
      "grad_norm": 3.135768413543701,
      "learning_rate": 1.4619247581845072e-06,
      "loss": 3.4327,
      "step": 458740
    },
    {
      "epoch": 0.9557291666666666,
      "grad_norm": 3.530646324157715,
      "learning_rate": 1.4605520353265564e-06,
      "loss": 3.3917,
      "step": 458750
    },
    {
      "epoch": 0.95575,
      "grad_norm": 2.7537989616394043,
      "learning_rate": 1.4591799541002536e-06,
      "loss": 3.3722,
      "step": 458760
    },
    {
      "epoch": 0.9557708333333333,
      "grad_norm": 3.429086446762085,
      "learning_rate": 1.457808514511477e-06,
      "loss": 3.3304,
      "step": 458770
    },
    {
      "epoch": 0.9557916666666667,
      "grad_norm": 3.1360323429107666,
      "learning_rate": 1.4564377165661722e-06,
      "loss": 3.4548,
      "step": 458780
    },
    {
      "epoch": 0.9558125,
      "grad_norm": 3.8388519287109375,
      "learning_rate": 1.4550675602702678e-06,
      "loss": 3.6201,
      "step": 458790
    },
    {
      "epoch": 0.9558333333333333,
      "grad_norm": 5.307783126831055,
      "learning_rate": 1.4536980456296753e-06,
      "loss": 3.3879,
      "step": 458800
    },
    {
      "epoch": 0.9558541666666667,
      "grad_norm": 4.111081123352051,
      "learning_rate": 1.4523291726502905e-06,
      "loss": 3.4291,
      "step": 458810
    },
    {
      "epoch": 0.955875,
      "grad_norm": 2.7580010890960693,
      "learning_rate": 1.4509609413380752e-06,
      "loss": 3.4284,
      "step": 458820
    },
    {
      "epoch": 0.9558958333333333,
      "grad_norm": 4.378181457519531,
      "learning_rate": 1.4495933516988744e-06,
      "loss": 3.4444,
      "step": 458830
    },
    {
      "epoch": 0.9559166666666666,
      "grad_norm": 2.6405978202819824,
      "learning_rate": 1.4482264037386503e-06,
      "loss": 3.372,
      "step": 458840
    },
    {
      "epoch": 0.9559375,
      "grad_norm": 3.104459762573242,
      "learning_rate": 1.4468600974632816e-06,
      "loss": 3.3353,
      "step": 458850
    },
    {
      "epoch": 0.9559583333333334,
      "grad_norm": 4.8640971183776855,
      "learning_rate": 1.4454944328786799e-06,
      "loss": 3.4539,
      "step": 458860
    },
    {
      "epoch": 0.9559791666666667,
      "grad_norm": 3.298670530319214,
      "learning_rate": 1.4441294099907407e-06,
      "loss": 3.4226,
      "step": 458870
    },
    {
      "epoch": 0.956,
      "grad_norm": 3.1484761238098145,
      "learning_rate": 1.4427650288053428e-06,
      "loss": 3.4762,
      "step": 458880
    },
    {
      "epoch": 0.9560208333333333,
      "grad_norm": 2.945802927017212,
      "learning_rate": 1.4414012893284144e-06,
      "loss": 3.4612,
      "step": 458890
    },
    {
      "epoch": 0.9560416666666667,
      "grad_norm": 4.06135368347168,
      "learning_rate": 1.4400381915658342e-06,
      "loss": 3.3737,
      "step": 458900
    },
    {
      "epoch": 0.9560625,
      "grad_norm": 3.5797860622406006,
      "learning_rate": 1.4386757355234645e-06,
      "loss": 3.2852,
      "step": 458910
    },
    {
      "epoch": 0.9560833333333333,
      "grad_norm": 3.3191583156585693,
      "learning_rate": 1.437313921207217e-06,
      "loss": 3.5052,
      "step": 458920
    },
    {
      "epoch": 0.9561041666666666,
      "grad_norm": 2.602004289627075,
      "learning_rate": 1.4359527486229872e-06,
      "loss": 3.4397,
      "step": 458930
    },
    {
      "epoch": 0.956125,
      "grad_norm": 3.4766783714294434,
      "learning_rate": 1.43459221777662e-06,
      "loss": 3.4442,
      "step": 458940
    },
    {
      "epoch": 0.9561458333333334,
      "grad_norm": 3.6002049446105957,
      "learning_rate": 1.433232328674011e-06,
      "loss": 3.4314,
      "step": 458950
    },
    {
      "epoch": 0.9561666666666667,
      "grad_norm": 3.1976163387298584,
      "learning_rate": 1.431873081321039e-06,
      "loss": 3.3932,
      "step": 458960
    },
    {
      "epoch": 0.9561875,
      "grad_norm": 3.2503061294555664,
      "learning_rate": 1.4305144757235487e-06,
      "loss": 3.3547,
      "step": 458970
    },
    {
      "epoch": 0.9562083333333333,
      "grad_norm": 3.552974224090576,
      "learning_rate": 1.429156511887436e-06,
      "loss": 3.5073,
      "step": 458980
    },
    {
      "epoch": 0.9562291666666667,
      "grad_norm": 2.848931312561035,
      "learning_rate": 1.4277991898185625e-06,
      "loss": 3.4596,
      "step": 458990
    },
    {
      "epoch": 0.95625,
      "grad_norm": 2.686671257019043,
      "learning_rate": 1.4264425095227739e-06,
      "loss": 3.3662,
      "step": 459000
    },
    {
      "epoch": 0.95625,
      "eval_loss": 3.519026517868042,
      "eval_runtime": 6.8788,
      "eval_samples_per_second": 1.454,
      "eval_steps_per_second": 0.436,
      "step": 459000
    },
    {
      "epoch": 0.9562708333333333,
      "grad_norm": 2.5777642726898193,
      "learning_rate": 1.425086471005965e-06,
      "loss": 3.3962,
      "step": 459010
    },
    {
      "epoch": 0.9562916666666667,
      "grad_norm": 3.3021740913391113,
      "learning_rate": 1.4237310742739648e-06,
      "loss": 3.418,
      "step": 459020
    },
    {
      "epoch": 0.9563125,
      "grad_norm": 2.774444818496704,
      "learning_rate": 1.4223763193326354e-06,
      "loss": 3.3053,
      "step": 459030
    },
    {
      "epoch": 0.9563333333333334,
      "grad_norm": 2.839527130126953,
      "learning_rate": 1.4210222061878218e-06,
      "loss": 3.4154,
      "step": 459040
    },
    {
      "epoch": 0.9563541666666666,
      "grad_norm": 3.053201198577881,
      "learning_rate": 1.4196687348454029e-06,
      "loss": 3.461,
      "step": 459050
    },
    {
      "epoch": 0.956375,
      "grad_norm": 4.356485366821289,
      "learning_rate": 1.4183159053111737e-06,
      "loss": 3.4852,
      "step": 459060
    },
    {
      "epoch": 0.9563958333333333,
      "grad_norm": 3.558893918991089,
      "learning_rate": 1.4169637175910299e-06,
      "loss": 3.4813,
      "step": 459070
    },
    {
      "epoch": 0.9564166666666667,
      "grad_norm": 3.2682578563690186,
      "learning_rate": 1.4156121716907832e-06,
      "loss": 3.4159,
      "step": 459080
    },
    {
      "epoch": 0.9564375,
      "grad_norm": 2.458024263381958,
      "learning_rate": 1.4142612676162624e-06,
      "loss": 3.3381,
      "step": 459090
    },
    {
      "epoch": 0.9564583333333333,
      "grad_norm": 2.999809980392456,
      "learning_rate": 1.4129110053733461e-06,
      "loss": 3.3615,
      "step": 459100
    },
    {
      "epoch": 0.9564791666666667,
      "grad_norm": 3.2780213356018066,
      "learning_rate": 1.4115613849678299e-06,
      "loss": 3.3002,
      "step": 459110
    },
    {
      "epoch": 0.9565,
      "grad_norm": 3.224181890487671,
      "learning_rate": 1.4102124064055252e-06,
      "loss": 3.3079,
      "step": 459120
    },
    {
      "epoch": 0.9565208333333334,
      "grad_norm": 3.2579588890075684,
      "learning_rate": 1.408864069692328e-06,
      "loss": 3.3293,
      "step": 459130
    },
    {
      "epoch": 0.9565416666666666,
      "grad_norm": 3.458676338195801,
      "learning_rate": 1.407516374834e-06,
      "loss": 3.4235,
      "step": 459140
    },
    {
      "epoch": 0.9565625,
      "grad_norm": 3.220038890838623,
      "learning_rate": 1.4061693218363868e-06,
      "loss": 3.4687,
      "step": 459150
    },
    {
      "epoch": 0.9565833333333333,
      "grad_norm": 3.6573164463043213,
      "learning_rate": 1.4048229107053e-06,
      "loss": 3.3816,
      "step": 459160
    },
    {
      "epoch": 0.9566041666666667,
      "grad_norm": 3.542116165161133,
      "learning_rate": 1.4034771414465684e-06,
      "loss": 3.4632,
      "step": 459170
    },
    {
      "epoch": 0.956625,
      "grad_norm": 3.679631233215332,
      "learning_rate": 1.4021320140659874e-06,
      "loss": 3.427,
      "step": 459180
    },
    {
      "epoch": 0.9566458333333333,
      "grad_norm": 3.249281644821167,
      "learning_rate": 1.4007875285694025e-06,
      "loss": 3.4808,
      "step": 459190
    },
    {
      "epoch": 0.9566666666666667,
      "grad_norm": 2.9086902141571045,
      "learning_rate": 1.3994436849625756e-06,
      "loss": 3.35,
      "step": 459200
    },
    {
      "epoch": 0.9566875,
      "grad_norm": 2.801828145980835,
      "learning_rate": 1.3981004832513187e-06,
      "loss": 3.5154,
      "step": 459210
    },
    {
      "epoch": 0.9567083333333334,
      "grad_norm": 2.469313621520996,
      "learning_rate": 1.3967579234414772e-06,
      "loss": 3.3582,
      "step": 459220
    },
    {
      "epoch": 0.9567291666666666,
      "grad_norm": 3.6228389739990234,
      "learning_rate": 1.3954160055387963e-06,
      "loss": 3.4245,
      "step": 459230
    },
    {
      "epoch": 0.95675,
      "grad_norm": 3.3945882320404053,
      "learning_rate": 1.394074729549105e-06,
      "loss": 3.3471,
      "step": 459240
    },
    {
      "epoch": 0.9567708333333333,
      "grad_norm": 4.073320388793945,
      "learning_rate": 1.3927340954781985e-06,
      "loss": 3.3198,
      "step": 459250
    },
    {
      "epoch": 0.9567916666666667,
      "grad_norm": 2.6316683292388916,
      "learning_rate": 1.3913941033318387e-06,
      "loss": 3.5551,
      "step": 459260
    },
    {
      "epoch": 0.9568125,
      "grad_norm": 3.1229677200317383,
      "learning_rate": 1.390054753115838e-06,
      "loss": 3.4187,
      "step": 459270
    },
    {
      "epoch": 0.9568333333333333,
      "grad_norm": 3.533247947692871,
      "learning_rate": 1.3887160448359913e-06,
      "loss": 3.357,
      "step": 459280
    },
    {
      "epoch": 0.9568541666666667,
      "grad_norm": 2.804375410079956,
      "learning_rate": 1.3873779784980444e-06,
      "loss": 3.4585,
      "step": 459290
    },
    {
      "epoch": 0.956875,
      "grad_norm": 2.761857032775879,
      "learning_rate": 1.3860405541078257e-06,
      "loss": 3.4634,
      "step": 459300
    },
    {
      "epoch": 0.9568958333333333,
      "grad_norm": 2.4002649784088135,
      "learning_rate": 1.384703771671064e-06,
      "loss": 3.5484,
      "step": 459310
    },
    {
      "epoch": 0.9569166666666666,
      "grad_norm": 4.450811386108398,
      "learning_rate": 1.3833676311935716e-06,
      "loss": 3.2906,
      "step": 459320
    },
    {
      "epoch": 0.9569375,
      "grad_norm": 2.811194896697998,
      "learning_rate": 1.3820321326810934e-06,
      "loss": 3.5085,
      "step": 459330
    },
    {
      "epoch": 0.9569583333333334,
      "grad_norm": 2.538464069366455,
      "learning_rate": 1.3806972761394085e-06,
      "loss": 3.4757,
      "step": 459340
    },
    {
      "epoch": 0.9569791666666667,
      "grad_norm": 2.8767473697662354,
      "learning_rate": 1.3793630615742956e-06,
      "loss": 3.3782,
      "step": 459350
    },
    {
      "epoch": 0.957,
      "grad_norm": 3.417370557785034,
      "learning_rate": 1.3780294889915e-06,
      "loss": 3.5037,
      "step": 459360
    },
    {
      "epoch": 0.9570208333333333,
      "grad_norm": 2.9613637924194336,
      "learning_rate": 1.3766965583967838e-06,
      "loss": 3.2855,
      "step": 459370
    },
    {
      "epoch": 0.9570416666666667,
      "grad_norm": 3.8754234313964844,
      "learning_rate": 1.3753642697959089e-06,
      "loss": 3.4159,
      "step": 459380
    },
    {
      "epoch": 0.9570625,
      "grad_norm": 3.4615137577056885,
      "learning_rate": 1.374032623194654e-06,
      "loss": 3.364,
      "step": 459390
    },
    {
      "epoch": 0.9570833333333333,
      "grad_norm": 4.295597076416016,
      "learning_rate": 1.372701618598715e-06,
      "loss": 3.4633,
      "step": 459400
    },
    {
      "epoch": 0.9571041666666666,
      "grad_norm": 2.977830648422241,
      "learning_rate": 1.3713712560138867e-06,
      "loss": 3.3651,
      "step": 459410
    },
    {
      "epoch": 0.957125,
      "grad_norm": 2.693869113922119,
      "learning_rate": 1.3700415354459148e-06,
      "loss": 3.365,
      "step": 459420
    },
    {
      "epoch": 0.9571458333333334,
      "grad_norm": 3.312753677368164,
      "learning_rate": 1.3687124569005114e-06,
      "loss": 3.4058,
      "step": 459430
    },
    {
      "epoch": 0.9571666666666667,
      "grad_norm": 3.9621658325195312,
      "learning_rate": 1.3673840203834386e-06,
      "loss": 3.4182,
      "step": 459440
    },
    {
      "epoch": 0.9571875,
      "grad_norm": 3.294468641281128,
      "learning_rate": 1.3660562259004581e-06,
      "loss": 3.5666,
      "step": 459450
    },
    {
      "epoch": 0.9572083333333333,
      "grad_norm": 3.0870256423950195,
      "learning_rate": 1.3647290734572658e-06,
      "loss": 3.3767,
      "step": 459460
    },
    {
      "epoch": 0.9572291666666667,
      "grad_norm": 3.4323458671569824,
      "learning_rate": 1.3634025630596068e-06,
      "loss": 3.5017,
      "step": 459470
    },
    {
      "epoch": 0.95725,
      "grad_norm": 3.2170774936676025,
      "learning_rate": 1.3620766947132267e-06,
      "loss": 3.511,
      "step": 459480
    },
    {
      "epoch": 0.9572708333333333,
      "grad_norm": 2.804128885269165,
      "learning_rate": 1.3607514684238209e-06,
      "loss": 3.5097,
      "step": 459490
    },
    {
      "epoch": 0.9572916666666667,
      "grad_norm": 2.6712658405303955,
      "learning_rate": 1.3594268841971511e-06,
      "loss": 3.601,
      "step": 459500
    },
    {
      "epoch": 0.9573125,
      "grad_norm": 3.3830647468566895,
      "learning_rate": 1.3581029420389134e-06,
      "loss": 3.4878,
      "step": 459510
    },
    {
      "epoch": 0.9573333333333334,
      "grad_norm": 4.5052947998046875,
      "learning_rate": 1.3567796419548194e-06,
      "loss": 3.4298,
      "step": 459520
    },
    {
      "epoch": 0.9573541666666666,
      "grad_norm": 2.924243688583374,
      "learning_rate": 1.3554569839506313e-06,
      "loss": 3.3684,
      "step": 459530
    },
    {
      "epoch": 0.957375,
      "grad_norm": 3.1532270908355713,
      "learning_rate": 1.3541349680320114e-06,
      "loss": 3.4023,
      "step": 459540
    },
    {
      "epoch": 0.9573958333333333,
      "grad_norm": 2.874317169189453,
      "learning_rate": 1.3528135942047047e-06,
      "loss": 3.3588,
      "step": 459550
    },
    {
      "epoch": 0.9574166666666667,
      "grad_norm": 3.1927504539489746,
      "learning_rate": 1.3514928624743904e-06,
      "loss": 3.2972,
      "step": 459560
    },
    {
      "epoch": 0.9574375,
      "grad_norm": 2.5941061973571777,
      "learning_rate": 1.350172772846797e-06,
      "loss": 3.475,
      "step": 459570
    },
    {
      "epoch": 0.9574583333333333,
      "grad_norm": 3.1680843830108643,
      "learning_rate": 1.3488533253276034e-06,
      "loss": 3.3393,
      "step": 459580
    },
    {
      "epoch": 0.9574791666666667,
      "grad_norm": 2.9187326431274414,
      "learning_rate": 1.3475345199225385e-06,
      "loss": 3.3636,
      "step": 459590
    },
    {
      "epoch": 0.9575,
      "grad_norm": 3.178650140762329,
      "learning_rate": 1.3462163566372809e-06,
      "loss": 3.4488,
      "step": 459600
    },
    {
      "epoch": 0.9575208333333334,
      "grad_norm": 3.105534315109253,
      "learning_rate": 1.3448988354775093e-06,
      "loss": 3.3878,
      "step": 459610
    },
    {
      "epoch": 0.9575416666666666,
      "grad_norm": 2.966938018798828,
      "learning_rate": 1.3435819564489526e-06,
      "loss": 3.4785,
      "step": 459620
    },
    {
      "epoch": 0.9575625,
      "grad_norm": 3.4294698238372803,
      "learning_rate": 1.3422657195572728e-06,
      "loss": 3.3769,
      "step": 459630
    },
    {
      "epoch": 0.9575833333333333,
      "grad_norm": 3.728679895401001,
      "learning_rate": 1.3409501248081656e-06,
      "loss": 3.5954,
      "step": 459640
    },
    {
      "epoch": 0.9576041666666667,
      "grad_norm": 3.4025278091430664,
      "learning_rate": 1.3396351722073096e-06,
      "loss": 3.3802,
      "step": 459650
    },
    {
      "epoch": 0.957625,
      "grad_norm": 2.786937952041626,
      "learning_rate": 1.3383208617603835e-06,
      "loss": 3.499,
      "step": 459660
    },
    {
      "epoch": 0.9576458333333333,
      "grad_norm": 3.8453385829925537,
      "learning_rate": 1.3370071934730664e-06,
      "loss": 3.3102,
      "step": 459670
    },
    {
      "epoch": 0.9576666666666667,
      "grad_norm": 3.183098793029785,
      "learning_rate": 1.3356941673510368e-06,
      "loss": 3.4191,
      "step": 459680
    },
    {
      "epoch": 0.9576875,
      "grad_norm": 3.085108757019043,
      "learning_rate": 1.3343817833999738e-06,
      "loss": 3.3304,
      "step": 459690
    },
    {
      "epoch": 0.9577083333333334,
      "grad_norm": 3.4258341789245605,
      "learning_rate": 1.3330700416255225e-06,
      "loss": 3.3349,
      "step": 459700
    },
    {
      "epoch": 0.9577291666666666,
      "grad_norm": 3.9226863384246826,
      "learning_rate": 1.331758942033362e-06,
      "loss": 3.3266,
      "step": 459710
    },
    {
      "epoch": 0.95775,
      "grad_norm": 2.6650328636169434,
      "learning_rate": 1.3304484846291542e-06,
      "loss": 3.4172,
      "step": 459720
    },
    {
      "epoch": 0.9577708333333333,
      "grad_norm": 3.9433493614196777,
      "learning_rate": 1.329138669418578e-06,
      "loss": 3.4667,
      "step": 459730
    },
    {
      "epoch": 0.9577916666666667,
      "grad_norm": 3.453667402267456,
      "learning_rate": 1.3278294964072455e-06,
      "loss": 3.3983,
      "step": 459740
    },
    {
      "epoch": 0.9578125,
      "grad_norm": 4.2993927001953125,
      "learning_rate": 1.3265209656008524e-06,
      "loss": 3.3443,
      "step": 459750
    },
    {
      "epoch": 0.9578333333333333,
      "grad_norm": 3.6241068840026855,
      "learning_rate": 1.3252130770050605e-06,
      "loss": 3.4227,
      "step": 459760
    },
    {
      "epoch": 0.9578541666666667,
      "grad_norm": 3.0753791332244873,
      "learning_rate": 1.3239058306254658e-06,
      "loss": 3.5372,
      "step": 459770
    },
    {
      "epoch": 0.957875,
      "grad_norm": 2.8981404304504395,
      "learning_rate": 1.3225992264677631e-06,
      "loss": 3.3366,
      "step": 459780
    },
    {
      "epoch": 0.9578958333333333,
      "grad_norm": 3.413675546646118,
      "learning_rate": 1.3212932645375983e-06,
      "loss": 3.5296,
      "step": 459790
    },
    {
      "epoch": 0.9579166666666666,
      "grad_norm": 2.6620733737945557,
      "learning_rate": 1.319987944840567e-06,
      "loss": 3.4985,
      "step": 459800
    },
    {
      "epoch": 0.9579375,
      "grad_norm": 3.103548526763916,
      "learning_rate": 1.3186832673823476e-06,
      "loss": 3.3939,
      "step": 459810
    },
    {
      "epoch": 0.9579583333333334,
      "grad_norm": 3.4916086196899414,
      "learning_rate": 1.3173792321685862e-06,
      "loss": 3.4643,
      "step": 459820
    },
    {
      "epoch": 0.9579791666666667,
      "grad_norm": 3.440786600112915,
      "learning_rate": 1.316075839204861e-06,
      "loss": 3.4272,
      "step": 459830
    },
    {
      "epoch": 0.958,
      "grad_norm": 2.9940361976623535,
      "learning_rate": 1.314773088496851e-06,
      "loss": 3.43,
      "step": 459840
    },
    {
      "epoch": 0.9580208333333333,
      "grad_norm": 3.0553741455078125,
      "learning_rate": 1.3134709800501687e-06,
      "loss": 3.4548,
      "step": 459850
    },
    {
      "epoch": 0.9580416666666667,
      "grad_norm": 2.7521188259124756,
      "learning_rate": 1.3121695138704258e-06,
      "loss": 3.2982,
      "step": 459860
    },
    {
      "epoch": 0.9580625,
      "grad_norm": 5.4502058029174805,
      "learning_rate": 1.3108686899632681e-06,
      "loss": 3.4016,
      "step": 459870
    },
    {
      "epoch": 0.9580833333333333,
      "grad_norm": 2.8832273483276367,
      "learning_rate": 1.3095685083342911e-06,
      "loss": 3.43,
      "step": 459880
    },
    {
      "epoch": 0.9581041666666666,
      "grad_norm": 3.245562791824341,
      "learning_rate": 1.3082689689891235e-06,
      "loss": 3.3907,
      "step": 459890
    },
    {
      "epoch": 0.958125,
      "grad_norm": 3.372347116470337,
      "learning_rate": 1.3069700719333942e-06,
      "loss": 3.4969,
      "step": 459900
    },
    {
      "epoch": 0.9581458333333334,
      "grad_norm": 2.890562057495117,
      "learning_rate": 1.305671817172682e-06,
      "loss": 3.3643,
      "step": 459910
    },
    {
      "epoch": 0.9581666666666667,
      "grad_norm": 3.336618185043335,
      "learning_rate": 1.304374204712616e-06,
      "loss": 3.1933,
      "step": 459920
    },
    {
      "epoch": 0.9581875,
      "grad_norm": 3.1795341968536377,
      "learning_rate": 1.3030772345587915e-06,
      "loss": 3.4131,
      "step": 459930
    },
    {
      "epoch": 0.9582083333333333,
      "grad_norm": 5.039913177490234,
      "learning_rate": 1.3017809067168206e-06,
      "loss": 3.4728,
      "step": 459940
    },
    {
      "epoch": 0.9582291666666667,
      "grad_norm": 2.9186840057373047,
      "learning_rate": 1.3004852211922824e-06,
      "loss": 3.3785,
      "step": 459950
    },
    {
      "epoch": 0.95825,
      "grad_norm": 3.880772352218628,
      "learning_rate": 1.2991901779908054e-06,
      "loss": 3.3629,
      "step": 459960
    },
    {
      "epoch": 0.9582708333333333,
      "grad_norm": 3.262648344039917,
      "learning_rate": 1.297895777117952e-06,
      "loss": 3.3681,
      "step": 459970
    },
    {
      "epoch": 0.9582916666666667,
      "grad_norm": 3.813486099243164,
      "learning_rate": 1.2966020185793514e-06,
      "loss": 3.4738,
      "step": 459980
    },
    {
      "epoch": 0.9583125,
      "grad_norm": 3.0877902507781982,
      "learning_rate": 1.2953089023805486e-06,
      "loss": 3.3519,
      "step": 459990
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 2.8678886890411377,
      "learning_rate": 1.294016428527156e-06,
      "loss": 3.5145,
      "step": 460000
    },
    {
      "epoch": 0.9583333333333334,
      "eval_loss": 3.5200114250183105,
      "eval_runtime": 6.8383,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 460000
    },
    {
      "epoch": 0.9583541666666666,
      "grad_norm": 3.0787978172302246,
      "learning_rate": 1.2927245970247523e-06,
      "loss": 3.5152,
      "step": 460010
    },
    {
      "epoch": 0.958375,
      "grad_norm": 2.7487375736236572,
      "learning_rate": 1.2914334078789167e-06,
      "loss": 3.2783,
      "step": 460020
    },
    {
      "epoch": 0.9583958333333333,
      "grad_norm": 3.145433187484741,
      "learning_rate": 1.290142861095228e-06,
      "loss": 3.3085,
      "step": 460030
    },
    {
      "epoch": 0.9584166666666667,
      "grad_norm": 3.093564033508301,
      "learning_rate": 1.2888529566792483e-06,
      "loss": 3.4138,
      "step": 460040
    },
    {
      "epoch": 0.9584375,
      "grad_norm": 3.1504414081573486,
      "learning_rate": 1.287563694636573e-06,
      "loss": 3.4066,
      "step": 460050
    },
    {
      "epoch": 0.9584583333333333,
      "grad_norm": 3.009166955947876,
      "learning_rate": 1.286275074972748e-06,
      "loss": 3.4642,
      "step": 460060
    },
    {
      "epoch": 0.9584791666666667,
      "grad_norm": 3.165520668029785,
      "learning_rate": 1.2849870976933518e-06,
      "loss": 3.2597,
      "step": 460070
    },
    {
      "epoch": 0.9585,
      "grad_norm": 3.080268144607544,
      "learning_rate": 1.283699762803947e-06,
      "loss": 3.3876,
      "step": 460080
    },
    {
      "epoch": 0.9585208333333334,
      "grad_norm": 3.1636993885040283,
      "learning_rate": 1.2824130703100953e-06,
      "loss": 3.3752,
      "step": 460090
    },
    {
      "epoch": 0.9585416666666666,
      "grad_norm": 2.953352212905884,
      "learning_rate": 1.2811270202173595e-06,
      "loss": 3.4334,
      "step": 460100
    },
    {
      "epoch": 0.9585625,
      "grad_norm": 2.9262497425079346,
      "learning_rate": 1.2798416125312684e-06,
      "loss": 3.3935,
      "step": 460110
    },
    {
      "epoch": 0.9585833333333333,
      "grad_norm": 3.432074785232544,
      "learning_rate": 1.2785568472574004e-06,
      "loss": 3.3956,
      "step": 460120
    },
    {
      "epoch": 0.9586041666666667,
      "grad_norm": 3.0304365158081055,
      "learning_rate": 1.277272724401318e-06,
      "loss": 3.4534,
      "step": 460130
    },
    {
      "epoch": 0.958625,
      "grad_norm": 2.775498390197754,
      "learning_rate": 1.2759892439685337e-06,
      "loss": 3.487,
      "step": 460140
    },
    {
      "epoch": 0.9586458333333333,
      "grad_norm": 2.5630640983581543,
      "learning_rate": 1.2747064059645927e-06,
      "loss": 3.434,
      "step": 460150
    },
    {
      "epoch": 0.9586666666666667,
      "grad_norm": 2.9614949226379395,
      "learning_rate": 1.2734242103950743e-06,
      "loss": 3.419,
      "step": 460160
    },
    {
      "epoch": 0.9586875,
      "grad_norm": 3.273987293243408,
      "learning_rate": 1.2721426572654903e-06,
      "loss": 3.3211,
      "step": 460170
    },
    {
      "epoch": 0.9587083333333334,
      "grad_norm": 2.5574257373809814,
      "learning_rate": 1.2708617465813697e-06,
      "loss": 3.2822,
      "step": 460180
    },
    {
      "epoch": 0.9587291666666666,
      "grad_norm": 3.659087896347046,
      "learning_rate": 1.2695814783482583e-06,
      "loss": 3.4497,
      "step": 460190
    },
    {
      "epoch": 0.95875,
      "grad_norm": 3.953155994415283,
      "learning_rate": 1.268301852571685e-06,
      "loss": 3.5963,
      "step": 460200
    },
    {
      "epoch": 0.9587708333333333,
      "grad_norm": 3.8773107528686523,
      "learning_rate": 1.2670228692571615e-06,
      "loss": 3.4199,
      "step": 460210
    },
    {
      "epoch": 0.9587916666666667,
      "grad_norm": 2.827160358428955,
      "learning_rate": 1.2657445284102508e-06,
      "loss": 3.4077,
      "step": 460220
    },
    {
      "epoch": 0.9588125,
      "grad_norm": 2.8797709941864014,
      "learning_rate": 1.264466830036448e-06,
      "loss": 3.42,
      "step": 460230
    },
    {
      "epoch": 0.9588333333333333,
      "grad_norm": 2.8103950023651123,
      "learning_rate": 1.2631897741412656e-06,
      "loss": 3.4893,
      "step": 460240
    },
    {
      "epoch": 0.9588541666666667,
      "grad_norm": 2.828226327896118,
      "learning_rate": 1.2619133607302156e-06,
      "loss": 3.4013,
      "step": 460250
    },
    {
      "epoch": 0.958875,
      "grad_norm": 3.3095662593841553,
      "learning_rate": 1.260637589808844e-06,
      "loss": 3.4721,
      "step": 460260
    },
    {
      "epoch": 0.9588958333333333,
      "grad_norm": 3.3685810565948486,
      "learning_rate": 1.259362461382646e-06,
      "loss": 3.4125,
      "step": 460270
    },
    {
      "epoch": 0.9589166666666666,
      "grad_norm": 2.923651933670044,
      "learning_rate": 1.2580879754571172e-06,
      "loss": 3.4627,
      "step": 460280
    },
    {
      "epoch": 0.9589375,
      "grad_norm": 3.4364728927612305,
      "learning_rate": 1.25681413203777e-06,
      "loss": 3.4054,
      "step": 460290
    },
    {
      "epoch": 0.9589583333333334,
      "grad_norm": 2.8701274394989014,
      "learning_rate": 1.2555409311301168e-06,
      "loss": 3.401,
      "step": 460300
    },
    {
      "epoch": 0.9589791666666667,
      "grad_norm": 2.996405601501465,
      "learning_rate": 1.2542683727396364e-06,
      "loss": 3.4377,
      "step": 460310
    },
    {
      "epoch": 0.959,
      "grad_norm": 2.7797672748565674,
      "learning_rate": 1.2529964568718575e-06,
      "loss": 3.2457,
      "step": 460320
    },
    {
      "epoch": 0.9590208333333333,
      "grad_norm": 3.4155967235565186,
      "learning_rate": 1.2517251835322429e-06,
      "loss": 3.3815,
      "step": 460330
    },
    {
      "epoch": 0.9590416666666667,
      "grad_norm": 2.869882106781006,
      "learning_rate": 1.2504545527263043e-06,
      "loss": 3.456,
      "step": 460340
    },
    {
      "epoch": 0.9590625,
      "grad_norm": 3.3529534339904785,
      "learning_rate": 1.249184564459521e-06,
      "loss": 3.4158,
      "step": 460350
    },
    {
      "epoch": 0.9590833333333333,
      "grad_norm": 3.1934854984283447,
      "learning_rate": 1.247915218737372e-06,
      "loss": 3.435,
      "step": 460360
    },
    {
      "epoch": 0.9591041666666666,
      "grad_norm": 3.4954023361206055,
      "learning_rate": 1.2466465155653527e-06,
      "loss": 3.3293,
      "step": 460370
    },
    {
      "epoch": 0.959125,
      "grad_norm": 2.5466036796569824,
      "learning_rate": 1.245378454948942e-06,
      "loss": 3.4372,
      "step": 460380
    },
    {
      "epoch": 0.9591458333333334,
      "grad_norm": 3.844120740890503,
      "learning_rate": 1.2441110368936192e-06,
      "loss": 3.4384,
      "step": 460390
    },
    {
      "epoch": 0.9591666666666666,
      "grad_norm": 4.116599082946777,
      "learning_rate": 1.2428442614048628e-06,
      "loss": 3.4576,
      "step": 460400
    },
    {
      "epoch": 0.9591875,
      "grad_norm": 3.332796573638916,
      "learning_rate": 1.2415781284881188e-06,
      "loss": 3.4392,
      "step": 460410
    },
    {
      "epoch": 0.9592083333333333,
      "grad_norm": 2.963277578353882,
      "learning_rate": 1.2403126381488827e-06,
      "loss": 3.5068,
      "step": 460420
    },
    {
      "epoch": 0.9592291666666667,
      "grad_norm": 3.164846181869507,
      "learning_rate": 1.2390477903926166e-06,
      "loss": 3.4559,
      "step": 460430
    },
    {
      "epoch": 0.95925,
      "grad_norm": 2.966344118118286,
      "learning_rate": 1.2377835852247664e-06,
      "loss": 3.4717,
      "step": 460440
    },
    {
      "epoch": 0.9592708333333333,
      "grad_norm": 3.569803237915039,
      "learning_rate": 1.2365200226508276e-06,
      "loss": 3.4546,
      "step": 460450
    },
    {
      "epoch": 0.9592916666666667,
      "grad_norm": 2.359592914581299,
      "learning_rate": 1.2352571026762293e-06,
      "loss": 3.45,
      "step": 460460
    },
    {
      "epoch": 0.9593125,
      "grad_norm": 3.889310836791992,
      "learning_rate": 1.2339948253064336e-06,
      "loss": 3.3719,
      "step": 460470
    },
    {
      "epoch": 0.9593333333333334,
      "grad_norm": 4.507654666900635,
      "learning_rate": 1.2327331905468862e-06,
      "loss": 3.4037,
      "step": 460480
    },
    {
      "epoch": 0.9593541666666666,
      "grad_norm": 3.569580078125,
      "learning_rate": 1.2314721984030495e-06,
      "loss": 3.4256,
      "step": 460490
    },
    {
      "epoch": 0.959375,
      "grad_norm": 3.6105237007141113,
      "learning_rate": 1.2302118488803858e-06,
      "loss": 3.5606,
      "step": 460500
    },
    {
      "epoch": 0.9593958333333333,
      "grad_norm": 3.4007580280303955,
      "learning_rate": 1.2289521419842908e-06,
      "loss": 3.3871,
      "step": 460510
    },
    {
      "epoch": 0.9594166666666667,
      "grad_norm": 3.656048059463501,
      "learning_rate": 1.2276930777202432e-06,
      "loss": 3.459,
      "step": 460520
    },
    {
      "epoch": 0.9594375,
      "grad_norm": 3.804833173751831,
      "learning_rate": 1.2264346560936888e-06,
      "loss": 3.3595,
      "step": 460530
    },
    {
      "epoch": 0.9594583333333333,
      "grad_norm": 3.138422966003418,
      "learning_rate": 1.2251768771100402e-06,
      "loss": 3.6288,
      "step": 460540
    },
    {
      "epoch": 0.9594791666666667,
      "grad_norm": 3.4633376598358154,
      "learning_rate": 1.2239197407747258e-06,
      "loss": 3.3907,
      "step": 460550
    },
    {
      "epoch": 0.9595,
      "grad_norm": 2.6107869148254395,
      "learning_rate": 1.2226632470932085e-06,
      "loss": 3.3641,
      "step": 460560
    },
    {
      "epoch": 0.9595208333333334,
      "grad_norm": 3.1513564586639404,
      "learning_rate": 1.2214073960708837e-06,
      "loss": 3.264,
      "step": 460570
    },
    {
      "epoch": 0.9595416666666666,
      "grad_norm": 3.796663284301758,
      "learning_rate": 1.2201521877131804e-06,
      "loss": 3.4915,
      "step": 460580
    },
    {
      "epoch": 0.9595625,
      "grad_norm": 3.099910020828247,
      "learning_rate": 1.2188976220255441e-06,
      "loss": 3.3839,
      "step": 460590
    },
    {
      "epoch": 0.9595833333333333,
      "grad_norm": 2.8130874633789062,
      "learning_rate": 1.2176436990133709e-06,
      "loss": 3.397,
      "step": 460600
    },
    {
      "epoch": 0.9596041666666667,
      "grad_norm": 3.4804749488830566,
      "learning_rate": 1.2163904186820895e-06,
      "loss": 3.5132,
      "step": 460610
    },
    {
      "epoch": 0.959625,
      "grad_norm": 4.15377140045166,
      "learning_rate": 1.2151377810370956e-06,
      "loss": 3.3953,
      "step": 460620
    },
    {
      "epoch": 0.9596458333333333,
      "grad_norm": 3.204704761505127,
      "learning_rate": 1.213885786083818e-06,
      "loss": 3.5317,
      "step": 460630
    },
    {
      "epoch": 0.9596666666666667,
      "grad_norm": 2.921363115310669,
      "learning_rate": 1.2126344338276695e-06,
      "loss": 3.3925,
      "step": 460640
    },
    {
      "epoch": 0.9596875,
      "grad_norm": 2.651479482650757,
      "learning_rate": 1.2113837242740454e-06,
      "loss": 3.4163,
      "step": 460650
    },
    {
      "epoch": 0.9597083333333334,
      "grad_norm": 3.825507879257202,
      "learning_rate": 1.2101336574283415e-06,
      "loss": 3.4146,
      "step": 460660
    },
    {
      "epoch": 0.9597291666666666,
      "grad_norm": 2.733672857284546,
      "learning_rate": 1.2088842332959703e-06,
      "loss": 3.4346,
      "step": 460670
    },
    {
      "epoch": 0.95975,
      "grad_norm": 3.493922233581543,
      "learning_rate": 1.2076354518823272e-06,
      "loss": 3.5413,
      "step": 460680
    },
    {
      "epoch": 0.9597708333333334,
      "grad_norm": 3.0273561477661133,
      "learning_rate": 1.2063873131927915e-06,
      "loss": 3.4099,
      "step": 460690
    },
    {
      "epoch": 0.9597916666666667,
      "grad_norm": 2.4423115253448486,
      "learning_rate": 1.2051398172327753e-06,
      "loss": 3.4702,
      "step": 460700
    },
    {
      "epoch": 0.9598125,
      "grad_norm": 2.754631280899048,
      "learning_rate": 1.2038929640076577e-06,
      "loss": 3.5356,
      "step": 460710
    },
    {
      "epoch": 0.9598333333333333,
      "grad_norm": 3.9284801483154297,
      "learning_rate": 1.202646753522818e-06,
      "loss": 3.4427,
      "step": 460720
    },
    {
      "epoch": 0.9598541666666667,
      "grad_norm": 4.28560209274292,
      "learning_rate": 1.2014011857836514e-06,
      "loss": 3.4197,
      "step": 460730
    },
    {
      "epoch": 0.959875,
      "grad_norm": 3.382408380508423,
      "learning_rate": 1.2001562607955373e-06,
      "loss": 3.4127,
      "step": 460740
    },
    {
      "epoch": 0.9598958333333333,
      "grad_norm": 2.8741061687469482,
      "learning_rate": 1.198911978563838e-06,
      "loss": 3.3517,
      "step": 460750
    },
    {
      "epoch": 0.9599166666666666,
      "grad_norm": 3.1585123538970947,
      "learning_rate": 1.197668339093949e-06,
      "loss": 3.6053,
      "step": 460760
    },
    {
      "epoch": 0.9599375,
      "grad_norm": 3.7226572036743164,
      "learning_rate": 1.1964253423912163e-06,
      "loss": 3.4551,
      "step": 460770
    },
    {
      "epoch": 0.9599583333333334,
      "grad_norm": 2.8958427906036377,
      "learning_rate": 1.195182988461052e-06,
      "loss": 3.4774,
      "step": 460780
    },
    {
      "epoch": 0.9599791666666667,
      "grad_norm": 3.5698342323303223,
      "learning_rate": 1.1939412773087853e-06,
      "loss": 3.4415,
      "step": 460790
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.6659343242645264,
      "learning_rate": 1.1927002089397785e-06,
      "loss": 3.4011,
      "step": 460800
    },
    {
      "epoch": 0.9600208333333333,
      "grad_norm": 3.1716856956481934,
      "learning_rate": 1.1914597833594108e-06,
      "loss": 3.2801,
      "step": 460810
    },
    {
      "epoch": 0.9600416666666667,
      "grad_norm": 3.363809585571289,
      "learning_rate": 1.1902200005730444e-06,
      "loss": 3.3353,
      "step": 460820
    },
    {
      "epoch": 0.9600625,
      "grad_norm": 3.768362045288086,
      "learning_rate": 1.1889808605860085e-06,
      "loss": 3.4608,
      "step": 460830
    },
    {
      "epoch": 0.9600833333333333,
      "grad_norm": 4.565870761871338,
      "learning_rate": 1.1877423634036986e-06,
      "loss": 3.5532,
      "step": 460840
    },
    {
      "epoch": 0.9601041666666666,
      "grad_norm": 3.2172181606292725,
      "learning_rate": 1.1865045090314107e-06,
      "loss": 3.4474,
      "step": 460850
    },
    {
      "epoch": 0.960125,
      "grad_norm": 3.157189130783081,
      "learning_rate": 1.1852672974745237e-06,
      "loss": 3.4417,
      "step": 460860
    },
    {
      "epoch": 0.9601458333333334,
      "grad_norm": 3.156104326248169,
      "learning_rate": 1.1840307287383833e-06,
      "loss": 3.4792,
      "step": 460870
    },
    {
      "epoch": 0.9601666666666666,
      "grad_norm": 2.9305732250213623,
      "learning_rate": 1.1827948028283352e-06,
      "loss": 3.3434,
      "step": 460880
    },
    {
      "epoch": 0.9601875,
      "grad_norm": 3.614699125289917,
      "learning_rate": 1.1815595197496752e-06,
      "loss": 3.3558,
      "step": 460890
    },
    {
      "epoch": 0.9602083333333333,
      "grad_norm": 3.8254106044769287,
      "learning_rate": 1.1803248795078158e-06,
      "loss": 3.4598,
      "step": 460900
    },
    {
      "epoch": 0.9602291666666667,
      "grad_norm": 3.460602045059204,
      "learning_rate": 1.1790908821080192e-06,
      "loss": 3.241,
      "step": 460910
    },
    {
      "epoch": 0.96025,
      "grad_norm": 3.521853446960449,
      "learning_rate": 1.1778575275556311e-06,
      "loss": 3.4351,
      "step": 460920
    },
    {
      "epoch": 0.9602708333333333,
      "grad_norm": 2.8221635818481445,
      "learning_rate": 1.1766248158560143e-06,
      "loss": 3.4023,
      "step": 460930
    },
    {
      "epoch": 0.9602916666666667,
      "grad_norm": 3.8592965602874756,
      "learning_rate": 1.1753927470144642e-06,
      "loss": 3.4353,
      "step": 460940
    },
    {
      "epoch": 0.9603125,
      "grad_norm": 3.067751884460449,
      "learning_rate": 1.1741613210362931e-06,
      "loss": 3.3971,
      "step": 460950
    },
    {
      "epoch": 0.9603333333333334,
      "grad_norm": 3.617285966873169,
      "learning_rate": 1.1729305379268471e-06,
      "loss": 3.441,
      "step": 460960
    },
    {
      "epoch": 0.9603541666666666,
      "grad_norm": 3.386057138442993,
      "learning_rate": 1.1717003976914385e-06,
      "loss": 3.4751,
      "step": 460970
    },
    {
      "epoch": 0.960375,
      "grad_norm": 3.6094326972961426,
      "learning_rate": 1.170470900335363e-06,
      "loss": 3.3728,
      "step": 460980
    },
    {
      "epoch": 0.9603958333333333,
      "grad_norm": 3.6032397747039795,
      "learning_rate": 1.1692420458639496e-06,
      "loss": 3.4317,
      "step": 460990
    },
    {
      "epoch": 0.9604166666666667,
      "grad_norm": 2.8521225452423096,
      "learning_rate": 1.168013834282494e-06,
      "loss": 3.429,
      "step": 461000
    },
    {
      "epoch": 0.9604166666666667,
      "eval_loss": 3.5193076133728027,
      "eval_runtime": 7.3342,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 461000
    },
    {
      "epoch": 0.9604375,
      "grad_norm": 3.2105789184570312,
      "learning_rate": 1.166786265596309e-06,
      "loss": 3.5701,
      "step": 461010
    },
    {
      "epoch": 0.9604583333333333,
      "grad_norm": 3.571967601776123,
      "learning_rate": 1.1655593398107066e-06,
      "loss": 3.4405,
      "step": 461020
    },
    {
      "epoch": 0.9604791666666667,
      "grad_norm": 3.1711068153381348,
      "learning_rate": 1.1643330569309494e-06,
      "loss": 3.2341,
      "step": 461030
    },
    {
      "epoch": 0.9605,
      "grad_norm": 3.2731518745422363,
      "learning_rate": 1.1631074169623833e-06,
      "loss": 3.5303,
      "step": 461040
    },
    {
      "epoch": 0.9605208333333334,
      "grad_norm": 3.571124792098999,
      "learning_rate": 1.1618824199102706e-06,
      "loss": 3.3771,
      "step": 461050
    },
    {
      "epoch": 0.9605416666666666,
      "grad_norm": 3.478710174560547,
      "learning_rate": 1.1606580657799068e-06,
      "loss": 3.3961,
      "step": 461060
    },
    {
      "epoch": 0.9605625,
      "grad_norm": 3.1956517696380615,
      "learning_rate": 1.1594343545765882e-06,
      "loss": 3.3084,
      "step": 461070
    },
    {
      "epoch": 0.9605833333333333,
      "grad_norm": 2.767169713973999,
      "learning_rate": 1.1582112863056104e-06,
      "loss": 3.4504,
      "step": 461080
    },
    {
      "epoch": 0.9606041666666667,
      "grad_norm": 3.775545597076416,
      "learning_rate": 1.1569888609722356e-06,
      "loss": 3.4916,
      "step": 461090
    },
    {
      "epoch": 0.960625,
      "grad_norm": 3.015557050704956,
      "learning_rate": 1.1557670785817596e-06,
      "loss": 3.4923,
      "step": 461100
    },
    {
      "epoch": 0.9606458333333333,
      "grad_norm": 3.4653451442718506,
      "learning_rate": 1.1545459391394284e-06,
      "loss": 3.3723,
      "step": 461110
    },
    {
      "epoch": 0.9606666666666667,
      "grad_norm": 2.7937495708465576,
      "learning_rate": 1.1533254426505546e-06,
      "loss": 3.4828,
      "step": 461120
    },
    {
      "epoch": 0.9606875,
      "grad_norm": 3.376401901245117,
      "learning_rate": 1.1521055891204167e-06,
      "loss": 3.4024,
      "step": 461130
    },
    {
      "epoch": 0.9607083333333334,
      "grad_norm": 2.764824867248535,
      "learning_rate": 1.1508863785542276e-06,
      "loss": 3.4293,
      "step": 461140
    },
    {
      "epoch": 0.9607291666666666,
      "grad_norm": 3.328476905822754,
      "learning_rate": 1.1496678109573165e-06,
      "loss": 3.5381,
      "step": 461150
    },
    {
      "epoch": 0.96075,
      "grad_norm": 3.390475273132324,
      "learning_rate": 1.148449886334929e-06,
      "loss": 3.4382,
      "step": 461160
    },
    {
      "epoch": 0.9607708333333334,
      "grad_norm": 2.307084798812866,
      "learning_rate": 1.1472326046922941e-06,
      "loss": 3.4274,
      "step": 461170
    },
    {
      "epoch": 0.9607916666666667,
      "grad_norm": 3.0863683223724365,
      "learning_rate": 1.1460159660347078e-06,
      "loss": 3.4525,
      "step": 461180
    },
    {
      "epoch": 0.9608125,
      "grad_norm": 3.807021141052246,
      "learning_rate": 1.144799970367416e-06,
      "loss": 3.2912,
      "step": 461190
    },
    {
      "epoch": 0.9608333333333333,
      "grad_norm": 4.194028854370117,
      "learning_rate": 1.1435846176956476e-06,
      "loss": 3.5306,
      "step": 461200
    },
    {
      "epoch": 0.9608541666666667,
      "grad_norm": 3.262092113494873,
      "learning_rate": 1.1423699080246984e-06,
      "loss": 3.3867,
      "step": 461210
    },
    {
      "epoch": 0.960875,
      "grad_norm": 3.0361533164978027,
      "learning_rate": 1.141155841359781e-06,
      "loss": 3.3566,
      "step": 461220
    },
    {
      "epoch": 0.9608958333333333,
      "grad_norm": 3.3075368404388428,
      "learning_rate": 1.1399424177061412e-06,
      "loss": 3.3199,
      "step": 461230
    },
    {
      "epoch": 0.9609166666666666,
      "grad_norm": 2.6120595932006836,
      "learning_rate": 1.1387296370690245e-06,
      "loss": 3.4125,
      "step": 461240
    },
    {
      "epoch": 0.9609375,
      "grad_norm": 3.9847750663757324,
      "learning_rate": 1.1375174994536939e-06,
      "loss": 3.3824,
      "step": 461250
    },
    {
      "epoch": 0.9609583333333334,
      "grad_norm": 3.6950364112854004,
      "learning_rate": 1.1363060048653282e-06,
      "loss": 3.3176,
      "step": 461260
    },
    {
      "epoch": 0.9609791666666667,
      "grad_norm": 2.7114319801330566,
      "learning_rate": 1.1350951533092234e-06,
      "loss": 3.3147,
      "step": 461270
    },
    {
      "epoch": 0.961,
      "grad_norm": 2.947828531265259,
      "learning_rate": 1.133884944790575e-06,
      "loss": 3.5779,
      "step": 461280
    },
    {
      "epoch": 0.9610208333333333,
      "grad_norm": 3.1436350345611572,
      "learning_rate": 1.1326753793146125e-06,
      "loss": 3.4215,
      "step": 461290
    },
    {
      "epoch": 0.9610416666666667,
      "grad_norm": 2.8382208347320557,
      "learning_rate": 1.1314664568865817e-06,
      "loss": 3.3949,
      "step": 461300
    },
    {
      "epoch": 0.9610625,
      "grad_norm": 3.1620631217956543,
      "learning_rate": 1.1302581775116782e-06,
      "loss": 3.4041,
      "step": 461310
    },
    {
      "epoch": 0.9610833333333333,
      "grad_norm": 3.3607611656188965,
      "learning_rate": 1.1290505411951312e-06,
      "loss": 3.4692,
      "step": 461320
    },
    {
      "epoch": 0.9611041666666666,
      "grad_norm": 3.521574020385742,
      "learning_rate": 1.12784354794217e-06,
      "loss": 3.5583,
      "step": 461330
    },
    {
      "epoch": 0.961125,
      "grad_norm": 3.957821846008301,
      "learning_rate": 1.1266371977579902e-06,
      "loss": 3.5009,
      "step": 461340
    },
    {
      "epoch": 0.9611458333333334,
      "grad_norm": 3.4795029163360596,
      "learning_rate": 1.1254314906478046e-06,
      "loss": 3.5422,
      "step": 461350
    },
    {
      "epoch": 0.9611666666666666,
      "grad_norm": 3.0444490909576416,
      "learning_rate": 1.1242264266168254e-06,
      "loss": 3.4609,
      "step": 461360
    },
    {
      "epoch": 0.9611875,
      "grad_norm": 3.1629762649536133,
      "learning_rate": 1.1230220056702654e-06,
      "loss": 3.4505,
      "step": 461370
    },
    {
      "epoch": 0.9612083333333333,
      "grad_norm": 2.844841480255127,
      "learning_rate": 1.1218182278133203e-06,
      "loss": 3.4321,
      "step": 461380
    },
    {
      "epoch": 0.9612291666666667,
      "grad_norm": 5.026003360748291,
      "learning_rate": 1.1206150930512026e-06,
      "loss": 3.483,
      "step": 461390
    },
    {
      "epoch": 0.96125,
      "grad_norm": 3.7603602409362793,
      "learning_rate": 1.1194126013890747e-06,
      "loss": 3.241,
      "step": 461400
    },
    {
      "epoch": 0.9612708333333333,
      "grad_norm": 3.2100911140441895,
      "learning_rate": 1.118210752832166e-06,
      "loss": 3.3972,
      "step": 461410
    },
    {
      "epoch": 0.9612916666666667,
      "grad_norm": 2.870965003967285,
      "learning_rate": 1.1170095473856554e-06,
      "loss": 3.3968,
      "step": 461420
    },
    {
      "epoch": 0.9613125,
      "grad_norm": 2.876918077468872,
      "learning_rate": 1.1158089850547224e-06,
      "loss": 3.6276,
      "step": 461430
    },
    {
      "epoch": 0.9613333333333334,
      "grad_norm": 2.512993574142456,
      "learning_rate": 1.1146090658445628e-06,
      "loss": 3.3545,
      "step": 461440
    },
    {
      "epoch": 0.9613541666666666,
      "grad_norm": 4.625603675842285,
      "learning_rate": 1.1134097897603722e-06,
      "loss": 3.3569,
      "step": 461450
    },
    {
      "epoch": 0.961375,
      "grad_norm": 3.251845598220825,
      "learning_rate": 1.1122111568073134e-06,
      "loss": 3.5495,
      "step": 461460
    },
    {
      "epoch": 0.9613958333333333,
      "grad_norm": 3.331822395324707,
      "learning_rate": 1.1110131669905654e-06,
      "loss": 3.344,
      "step": 461470
    },
    {
      "epoch": 0.9614166666666667,
      "grad_norm": 5.134845733642578,
      "learning_rate": 1.1098158203152908e-06,
      "loss": 3.4604,
      "step": 461480
    },
    {
      "epoch": 0.9614375,
      "grad_norm": 3.5920588970184326,
      "learning_rate": 1.108619116786702e-06,
      "loss": 3.3496,
      "step": 461490
    },
    {
      "epoch": 0.9614583333333333,
      "grad_norm": 3.0514297485351562,
      "learning_rate": 1.107423056409945e-06,
      "loss": 3.3597,
      "step": 461500
    },
    {
      "epoch": 0.9614791666666667,
      "grad_norm": 3.848989963531494,
      "learning_rate": 1.106227639190166e-06,
      "loss": 3.4296,
      "step": 461510
    },
    {
      "epoch": 0.9615,
      "grad_norm": 3.1926844120025635,
      "learning_rate": 1.1050328651325436e-06,
      "loss": 3.5405,
      "step": 461520
    },
    {
      "epoch": 0.9615208333333334,
      "grad_norm": 3.4794604778289795,
      "learning_rate": 1.1038387342422572e-06,
      "loss": 3.4927,
      "step": 461530
    },
    {
      "epoch": 0.9615416666666666,
      "grad_norm": 3.293290376663208,
      "learning_rate": 1.1026452465244528e-06,
      "loss": 3.3105,
      "step": 461540
    },
    {
      "epoch": 0.9615625,
      "grad_norm": 2.896547555923462,
      "learning_rate": 1.1014524019842764e-06,
      "loss": 3.5129,
      "step": 461550
    },
    {
      "epoch": 0.9615833333333333,
      "grad_norm": 3.694911479949951,
      "learning_rate": 1.10026020062689e-06,
      "loss": 3.3897,
      "step": 461560
    },
    {
      "epoch": 0.9616041666666667,
      "grad_norm": 3.4812424182891846,
      "learning_rate": 1.0990686424574236e-06,
      "loss": 3.5336,
      "step": 461570
    },
    {
      "epoch": 0.961625,
      "grad_norm": 3.2468159198760986,
      "learning_rate": 1.0978777274810557e-06,
      "loss": 3.441,
      "step": 461580
    },
    {
      "epoch": 0.9616458333333333,
      "grad_norm": 2.8778767585754395,
      "learning_rate": 1.0966874557029327e-06,
      "loss": 3.5079,
      "step": 461590
    },
    {
      "epoch": 0.9616666666666667,
      "grad_norm": 3.8076517581939697,
      "learning_rate": 1.0954978271281501e-06,
      "loss": 3.4428,
      "step": 461600
    },
    {
      "epoch": 0.9616875,
      "grad_norm": 3.3098530769348145,
      "learning_rate": 1.0943088417619038e-06,
      "loss": 3.4469,
      "step": 461610
    },
    {
      "epoch": 0.9617083333333334,
      "grad_norm": 2.5101702213287354,
      "learning_rate": 1.0931204996092902e-06,
      "loss": 3.4398,
      "step": 461620
    },
    {
      "epoch": 0.9617291666666666,
      "grad_norm": 2.5035269260406494,
      "learning_rate": 1.0919328006754546e-06,
      "loss": 3.4875,
      "step": 461630
    },
    {
      "epoch": 0.96175,
      "grad_norm": 2.860787868499756,
      "learning_rate": 1.0907457449655266e-06,
      "loss": 3.5726,
      "step": 461640
    },
    {
      "epoch": 0.9617708333333334,
      "grad_norm": 3.332094430923462,
      "learning_rate": 1.0895593324846352e-06,
      "loss": 3.4578,
      "step": 461650
    },
    {
      "epoch": 0.9617916666666667,
      "grad_norm": 3.406141757965088,
      "learning_rate": 1.08837356323791e-06,
      "loss": 3.4259,
      "step": 461660
    },
    {
      "epoch": 0.9618125,
      "grad_norm": 2.469226837158203,
      "learning_rate": 1.0871884372304461e-06,
      "loss": 3.5275,
      "step": 461670
    },
    {
      "epoch": 0.9618333333333333,
      "grad_norm": 2.9262735843658447,
      "learning_rate": 1.086003954467407e-06,
      "loss": 3.3878,
      "step": 461680
    },
    {
      "epoch": 0.9618541666666667,
      "grad_norm": 3.442458391189575,
      "learning_rate": 1.0848201149538882e-06,
      "loss": 3.3606,
      "step": 461690
    },
    {
      "epoch": 0.961875,
      "grad_norm": 3.5149526596069336,
      "learning_rate": 1.0836369186949856e-06,
      "loss": 3.3832,
      "step": 461700
    },
    {
      "epoch": 0.9618958333333333,
      "grad_norm": 3.67645525932312,
      "learning_rate": 1.0824543656958284e-06,
      "loss": 3.4275,
      "step": 461710
    },
    {
      "epoch": 0.9619166666666666,
      "grad_norm": 3.9065420627593994,
      "learning_rate": 1.0812724559615294e-06,
      "loss": 3.4471,
      "step": 461720
    },
    {
      "epoch": 0.9619375,
      "grad_norm": 7.017683982849121,
      "learning_rate": 1.0800911894971842e-06,
      "loss": 3.5857,
      "step": 461730
    },
    {
      "epoch": 0.9619583333333334,
      "grad_norm": 3.2576396465301514,
      "learning_rate": 1.0789105663079055e-06,
      "loss": 3.3571,
      "step": 461740
    },
    {
      "epoch": 0.9619791666666667,
      "grad_norm": 3.128056764602661,
      "learning_rate": 1.0777305863987895e-06,
      "loss": 3.3424,
      "step": 461750
    },
    {
      "epoch": 0.962,
      "grad_norm": 3.049194097518921,
      "learning_rate": 1.0765512497749152e-06,
      "loss": 3.2452,
      "step": 461760
    },
    {
      "epoch": 0.9620208333333333,
      "grad_norm": 3.2172274589538574,
      "learning_rate": 1.075372556441395e-06,
      "loss": 3.4494,
      "step": 461770
    },
    {
      "epoch": 0.9620416666666667,
      "grad_norm": 3.6507158279418945,
      "learning_rate": 1.0741945064033253e-06,
      "loss": 3.3621,
      "step": 461780
    },
    {
      "epoch": 0.9620625,
      "grad_norm": 3.7009594440460205,
      "learning_rate": 1.0730170996657683e-06,
      "loss": 3.2847,
      "step": 461790
    },
    {
      "epoch": 0.9620833333333333,
      "grad_norm": 4.5371413230896,
      "learning_rate": 1.0718403362338536e-06,
      "loss": 3.4825,
      "step": 461800
    },
    {
      "epoch": 0.9621041666666666,
      "grad_norm": 3.3920023441314697,
      "learning_rate": 1.0706642161126266e-06,
      "loss": 3.4542,
      "step": 461810
    },
    {
      "epoch": 0.962125,
      "grad_norm": 2.6697230339050293,
      "learning_rate": 1.0694887393071672e-06,
      "loss": 3.4165,
      "step": 461820
    },
    {
      "epoch": 0.9621458333333334,
      "grad_norm": 3.298196315765381,
      "learning_rate": 1.0683139058225875e-06,
      "loss": 3.3945,
      "step": 461830
    },
    {
      "epoch": 0.9621666666666666,
      "grad_norm": 3.004140615463257,
      "learning_rate": 1.067139715663934e-06,
      "loss": 3.4287,
      "step": 461840
    },
    {
      "epoch": 0.9621875,
      "grad_norm": 3.1021595001220703,
      "learning_rate": 1.0659661688362686e-06,
      "loss": 3.4568,
      "step": 461850
    },
    {
      "epoch": 0.9622083333333333,
      "grad_norm": 3.695263147354126,
      "learning_rate": 1.0647932653446878e-06,
      "loss": 3.4342,
      "step": 461860
    },
    {
      "epoch": 0.9622291666666667,
      "grad_norm": 2.839472532272339,
      "learning_rate": 1.063621005194254e-06,
      "loss": 3.5495,
      "step": 461870
    },
    {
      "epoch": 0.96225,
      "grad_norm": 2.8995022773742676,
      "learning_rate": 1.0624493883900131e-06,
      "loss": 3.2814,
      "step": 461880
    },
    {
      "epoch": 0.9622708333333333,
      "grad_norm": 2.9604098796844482,
      "learning_rate": 1.0612784149370445e-06,
      "loss": 3.4444,
      "step": 461890
    },
    {
      "epoch": 0.9622916666666667,
      "grad_norm": 3.252084493637085,
      "learning_rate": 1.060108084840411e-06,
      "loss": 3.4309,
      "step": 461900
    },
    {
      "epoch": 0.9623125,
      "grad_norm": 2.8738152980804443,
      "learning_rate": 1.0589383981051414e-06,
      "loss": 3.391,
      "step": 461910
    },
    {
      "epoch": 0.9623333333333334,
      "grad_norm": 3.1388139724731445,
      "learning_rate": 1.0577693547362987e-06,
      "loss": 3.2534,
      "step": 461920
    },
    {
      "epoch": 0.9623541666666666,
      "grad_norm": 2.675006866455078,
      "learning_rate": 1.056600954738962e-06,
      "loss": 3.3716,
      "step": 461930
    },
    {
      "epoch": 0.962375,
      "grad_norm": 3.084810495376587,
      "learning_rate": 1.0554331981181275e-06,
      "loss": 3.3953,
      "step": 461940
    },
    {
      "epoch": 0.9623958333333333,
      "grad_norm": 3.122901201248169,
      "learning_rate": 1.0542660848788575e-06,
      "loss": 3.4539,
      "step": 461950
    },
    {
      "epoch": 0.9624166666666667,
      "grad_norm": 3.8504340648651123,
      "learning_rate": 1.0530996150262317e-06,
      "loss": 3.4967,
      "step": 461960
    },
    {
      "epoch": 0.9624375,
      "grad_norm": 4.987754821777344,
      "learning_rate": 1.0519337885652456e-06,
      "loss": 3.5115,
      "step": 461970
    },
    {
      "epoch": 0.9624583333333333,
      "grad_norm": 3.5045905113220215,
      "learning_rate": 1.0507686055009456e-06,
      "loss": 3.4273,
      "step": 461980
    },
    {
      "epoch": 0.9624791666666667,
      "grad_norm": 3.177461624145508,
      "learning_rate": 1.049604065838361e-06,
      "loss": 3.3603,
      "step": 461990
    },
    {
      "epoch": 0.9625,
      "grad_norm": 2.8947715759277344,
      "learning_rate": 1.0484401695825373e-06,
      "loss": 3.4079,
      "step": 462000
    },
    {
      "epoch": 0.9625,
      "eval_loss": 3.5191502571105957,
      "eval_runtime": 6.8972,
      "eval_samples_per_second": 1.45,
      "eval_steps_per_second": 0.435,
      "step": 462000
    },
    {
      "epoch": 0.9625208333333334,
      "grad_norm": 3.894805669784546,
      "learning_rate": 1.0472769167384876e-06,
      "loss": 3.4288,
      "step": 462010
    },
    {
      "epoch": 0.9625416666666666,
      "grad_norm": 2.951002597808838,
      "learning_rate": 1.046114307311241e-06,
      "loss": 3.4641,
      "step": 462020
    },
    {
      "epoch": 0.9625625,
      "grad_norm": 2.816344738006592,
      "learning_rate": 1.044952341305827e-06,
      "loss": 3.3593,
      "step": 462030
    },
    {
      "epoch": 0.9625833333333333,
      "grad_norm": 3.3235204219818115,
      "learning_rate": 1.043791018727258e-06,
      "loss": 3.2906,
      "step": 462040
    },
    {
      "epoch": 0.9626041666666667,
      "grad_norm": 2.786545753479004,
      "learning_rate": 1.0426303395805469e-06,
      "loss": 3.28,
      "step": 462050
    },
    {
      "epoch": 0.962625,
      "grad_norm": 4.274619102478027,
      "learning_rate": 1.041470303870706e-06,
      "loss": 3.453,
      "step": 462060
    },
    {
      "epoch": 0.9626458333333333,
      "grad_norm": 3.289210319519043,
      "learning_rate": 1.0403109116027653e-06,
      "loss": 3.468,
      "step": 462070
    },
    {
      "epoch": 0.9626666666666667,
      "grad_norm": 3.0938796997070312,
      "learning_rate": 1.0391521627817035e-06,
      "loss": 3.4182,
      "step": 462080
    },
    {
      "epoch": 0.9626875,
      "grad_norm": 3.393181085586548,
      "learning_rate": 1.0379940574125501e-06,
      "loss": 3.271,
      "step": 462090
    },
    {
      "epoch": 0.9627083333333334,
      "grad_norm": 3.689704418182373,
      "learning_rate": 1.0368365955003011e-06,
      "loss": 3.311,
      "step": 462100
    },
    {
      "epoch": 0.9627291666666666,
      "grad_norm": 2.850635051727295,
      "learning_rate": 1.0356797770499526e-06,
      "loss": 3.3119,
      "step": 462110
    },
    {
      "epoch": 0.96275,
      "grad_norm": 3.386624336242676,
      "learning_rate": 1.0345236020665004e-06,
      "loss": 3.4391,
      "step": 462120
    },
    {
      "epoch": 0.9627708333333334,
      "grad_norm": 2.7856860160827637,
      "learning_rate": 1.0333680705549408e-06,
      "loss": 3.3514,
      "step": 462130
    },
    {
      "epoch": 0.9627916666666667,
      "grad_norm": 3.2557480335235596,
      "learning_rate": 1.0322131825202695e-06,
      "loss": 3.3857,
      "step": 462140
    },
    {
      "epoch": 0.9628125,
      "grad_norm": 3.526411533355713,
      "learning_rate": 1.031058937967466e-06,
      "loss": 3.4496,
      "step": 462150
    },
    {
      "epoch": 0.9628333333333333,
      "grad_norm": 3.0348362922668457,
      "learning_rate": 1.0299053369015263e-06,
      "loss": 3.4539,
      "step": 462160
    },
    {
      "epoch": 0.9628541666666667,
      "grad_norm": 3.939336061477661,
      "learning_rate": 1.0287523793274298e-06,
      "loss": 3.4366,
      "step": 462170
    },
    {
      "epoch": 0.962875,
      "grad_norm": 3.374307155609131,
      "learning_rate": 1.027600065250156e-06,
      "loss": 3.4102,
      "step": 462180
    },
    {
      "epoch": 0.9628958333333333,
      "grad_norm": 3.342893600463867,
      "learning_rate": 1.0264483946746838e-06,
      "loss": 3.3807,
      "step": 462190
    },
    {
      "epoch": 0.9629166666666666,
      "grad_norm": 4.067566394805908,
      "learning_rate": 1.0252973676059928e-06,
      "loss": 3.3832,
      "step": 462200
    },
    {
      "epoch": 0.9629375,
      "grad_norm": 3.5809731483459473,
      "learning_rate": 1.0241469840490458e-06,
      "loss": 3.4293,
      "step": 462210
    },
    {
      "epoch": 0.9629583333333334,
      "grad_norm": 3.644773244857788,
      "learning_rate": 1.0229972440088053e-06,
      "loss": 3.3708,
      "step": 462220
    },
    {
      "epoch": 0.9629791666666667,
      "grad_norm": 3.0185885429382324,
      "learning_rate": 1.0218481474902508e-06,
      "loss": 3.4443,
      "step": 462230
    },
    {
      "epoch": 0.963,
      "grad_norm": 3.1136391162872314,
      "learning_rate": 1.0206996944983448e-06,
      "loss": 3.508,
      "step": 462240
    },
    {
      "epoch": 0.9630208333333333,
      "grad_norm": 2.964510202407837,
      "learning_rate": 1.0195518850380502e-06,
      "loss": 3.4494,
      "step": 462250
    },
    {
      "epoch": 0.9630416666666667,
      "grad_norm": 3.8429276943206787,
      "learning_rate": 1.018404719114313e-06,
      "loss": 3.3733,
      "step": 462260
    },
    {
      "epoch": 0.9630625,
      "grad_norm": 2.9765098094940186,
      "learning_rate": 1.0172581967321126e-06,
      "loss": 3.4528,
      "step": 462270
    },
    {
      "epoch": 0.9630833333333333,
      "grad_norm": 3.5220694541931152,
      "learning_rate": 1.0161123178963614e-06,
      "loss": 3.5423,
      "step": 462280
    },
    {
      "epoch": 0.9631041666666667,
      "grad_norm": 3.2634687423706055,
      "learning_rate": 1.0149670826120394e-06,
      "loss": 3.3676,
      "step": 462290
    },
    {
      "epoch": 0.963125,
      "grad_norm": 3.760822296142578,
      "learning_rate": 1.0138224908841086e-06,
      "loss": 3.5385,
      "step": 462300
    },
    {
      "epoch": 0.9631458333333334,
      "grad_norm": 3.1440699100494385,
      "learning_rate": 1.0126785427174654e-06,
      "loss": 3.3493,
      "step": 462310
    },
    {
      "epoch": 0.9631666666666666,
      "grad_norm": 2.6159071922302246,
      "learning_rate": 1.0115352381170893e-06,
      "loss": 3.4745,
      "step": 462320
    },
    {
      "epoch": 0.9631875,
      "grad_norm": 2.5448620319366455,
      "learning_rate": 1.0103925770879095e-06,
      "loss": 3.4809,
      "step": 462330
    },
    {
      "epoch": 0.9632083333333333,
      "grad_norm": 3.0946521759033203,
      "learning_rate": 1.0092505596348556e-06,
      "loss": 3.4502,
      "step": 462340
    },
    {
      "epoch": 0.9632291666666667,
      "grad_norm": 3.483034133911133,
      "learning_rate": 1.0081091857628731e-06,
      "loss": 3.454,
      "step": 462350
    },
    {
      "epoch": 0.96325,
      "grad_norm": 2.614093065261841,
      "learning_rate": 1.0069684554768754e-06,
      "loss": 3.4632,
      "step": 462360
    },
    {
      "epoch": 0.9632708333333333,
      "grad_norm": 2.9426796436309814,
      "learning_rate": 1.0058283687817915e-06,
      "loss": 3.3856,
      "step": 462370
    },
    {
      "epoch": 0.9632916666666667,
      "grad_norm": 3.497220754623413,
      "learning_rate": 1.0046889256825674e-06,
      "loss": 3.4053,
      "step": 462380
    },
    {
      "epoch": 0.9633125,
      "grad_norm": 2.3938324451446533,
      "learning_rate": 1.0035501261840994e-06,
      "loss": 3.4465,
      "step": 462390
    },
    {
      "epoch": 0.9633333333333334,
      "grad_norm": 3.7348508834838867,
      "learning_rate": 1.002411970291317e-06,
      "loss": 3.3922,
      "step": 462400
    },
    {
      "epoch": 0.9633541666666666,
      "grad_norm": 3.1561837196350098,
      "learning_rate": 1.0012744580091492e-06,
      "loss": 3.4401,
      "step": 462410
    },
    {
      "epoch": 0.963375,
      "grad_norm": 2.789938449859619,
      "learning_rate": 1.0001375893424923e-06,
      "loss": 3.3685,
      "step": 462420
    },
    {
      "epoch": 0.9633958333333333,
      "grad_norm": 3.163543939590454,
      "learning_rate": 9.99001364296259e-07,
      "loss": 3.427,
      "step": 462430
    },
    {
      "epoch": 0.9634166666666667,
      "grad_norm": 2.8068816661834717,
      "learning_rate": 9.978657828753621e-07,
      "loss": 3.3452,
      "step": 462440
    },
    {
      "epoch": 0.9634375,
      "grad_norm": 2.7721691131591797,
      "learning_rate": 9.967308450847144e-07,
      "loss": 3.4358,
      "step": 462450
    },
    {
      "epoch": 0.9634583333333333,
      "grad_norm": 2.865920066833496,
      "learning_rate": 9.955965509291952e-07,
      "loss": 3.2725,
      "step": 462460
    },
    {
      "epoch": 0.9634791666666667,
      "grad_norm": 2.7030391693115234,
      "learning_rate": 9.94462900413734e-07,
      "loss": 3.4709,
      "step": 462470
    },
    {
      "epoch": 0.9635,
      "grad_norm": 3.35141921043396,
      "learning_rate": 9.933298935431933e-07,
      "loss": 3.3887,
      "step": 462480
    },
    {
      "epoch": 0.9635208333333334,
      "grad_norm": 3.1148245334625244,
      "learning_rate": 9.921975303225027e-07,
      "loss": 3.2625,
      "step": 462490
    },
    {
      "epoch": 0.9635416666666666,
      "grad_norm": 3.4654691219329834,
      "learning_rate": 9.910658107565417e-07,
      "loss": 3.5887,
      "step": 462500
    },
    {
      "epoch": 0.9635625,
      "grad_norm": 2.9406895637512207,
      "learning_rate": 9.89934734850173e-07,
      "loss": 3.2888,
      "step": 462510
    },
    {
      "epoch": 0.9635833333333333,
      "grad_norm": 3.0228443145751953,
      "learning_rate": 9.888043026083258e-07,
      "loss": 3.3802,
      "step": 462520
    },
    {
      "epoch": 0.9636041666666667,
      "grad_norm": 3.657966375350952,
      "learning_rate": 9.876745140358633e-07,
      "loss": 3.3535,
      "step": 462530
    },
    {
      "epoch": 0.963625,
      "grad_norm": 3.664154052734375,
      "learning_rate": 9.865453691376314e-07,
      "loss": 3.3222,
      "step": 462540
    },
    {
      "epoch": 0.9636458333333333,
      "grad_norm": 4.238694190979004,
      "learning_rate": 9.85416867918576e-07,
      "loss": 3.3609,
      "step": 462550
    },
    {
      "epoch": 0.9636666666666667,
      "grad_norm": 3.524681568145752,
      "learning_rate": 9.842890103835266e-07,
      "loss": 3.4561,
      "step": 462560
    },
    {
      "epoch": 0.9636875,
      "grad_norm": 3.0543973445892334,
      "learning_rate": 9.831617965373461e-07,
      "loss": 3.4283,
      "step": 462570
    },
    {
      "epoch": 0.9637083333333333,
      "grad_norm": 2.9728074073791504,
      "learning_rate": 9.820352263849307e-07,
      "loss": 3.4024,
      "step": 462580
    },
    {
      "epoch": 0.9637291666666666,
      "grad_norm": 2.8518521785736084,
      "learning_rate": 9.809092999311596e-07,
      "loss": 3.4934,
      "step": 462590
    },
    {
      "epoch": 0.96375,
      "grad_norm": 3.227125406265259,
      "learning_rate": 9.797840171808458e-07,
      "loss": 3.3964,
      "step": 462600
    },
    {
      "epoch": 0.9637708333333334,
      "grad_norm": 4.981959342956543,
      "learning_rate": 9.786593781389018e-07,
      "loss": 3.4893,
      "step": 462610
    },
    {
      "epoch": 0.9637916666666667,
      "grad_norm": 2.560046911239624,
      "learning_rate": 9.775353828101406e-07,
      "loss": 3.5698,
      "step": 462620
    },
    {
      "epoch": 0.9638125,
      "grad_norm": 3.3369481563568115,
      "learning_rate": 9.764120311994417e-07,
      "loss": 3.3402,
      "step": 462630
    },
    {
      "epoch": 0.9638333333333333,
      "grad_norm": 3.169818878173828,
      "learning_rate": 9.752893233116676e-07,
      "loss": 3.3845,
      "step": 462640
    },
    {
      "epoch": 0.9638541666666667,
      "grad_norm": 3.0392675399780273,
      "learning_rate": 9.74167259151648e-07,
      "loss": 3.3818,
      "step": 462650
    },
    {
      "epoch": 0.963875,
      "grad_norm": 3.154780864715576,
      "learning_rate": 9.73045838724229e-07,
      "loss": 3.4277,
      "step": 462660
    },
    {
      "epoch": 0.9638958333333333,
      "grad_norm": 3.5917415618896484,
      "learning_rate": 9.7192506203429e-07,
      "loss": 3.3058,
      "step": 462670
    },
    {
      "epoch": 0.9639166666666666,
      "grad_norm": 3.3610496520996094,
      "learning_rate": 9.708049290866272e-07,
      "loss": 3.3848,
      "step": 462680
    },
    {
      "epoch": 0.9639375,
      "grad_norm": 3.1218976974487305,
      "learning_rate": 9.696854398860865e-07,
      "loss": 3.4256,
      "step": 462690
    },
    {
      "epoch": 0.9639583333333334,
      "grad_norm": 4.59529972076416,
      "learning_rate": 9.685665944375477e-07,
      "loss": 3.3811,
      "step": 462700
    },
    {
      "epoch": 0.9639791666666667,
      "grad_norm": 3.7338619232177734,
      "learning_rate": 9.674483927457732e-07,
      "loss": 3.3639,
      "step": 462710
    },
    {
      "epoch": 0.964,
      "grad_norm": 2.936817169189453,
      "learning_rate": 9.66330834815643e-07,
      "loss": 3.5439,
      "step": 462720
    },
    {
      "epoch": 0.9640208333333333,
      "grad_norm": 2.7138166427612305,
      "learning_rate": 9.65213920651986e-07,
      "loss": 3.3241,
      "step": 462730
    },
    {
      "epoch": 0.9640416666666667,
      "grad_norm": 3.140218734741211,
      "learning_rate": 9.640976502595988e-07,
      "loss": 3.3821,
      "step": 462740
    },
    {
      "epoch": 0.9640625,
      "grad_norm": 3.138833999633789,
      "learning_rate": 9.629820236433273e-07,
      "loss": 3.3399,
      "step": 462750
    },
    {
      "epoch": 0.9640833333333333,
      "grad_norm": 3.502267599105835,
      "learning_rate": 9.618670408079677e-07,
      "loss": 3.4152,
      "step": 462760
    },
    {
      "epoch": 0.9641041666666667,
      "grad_norm": 2.986072063446045,
      "learning_rate": 9.60752701758366e-07,
      "loss": 3.5376,
      "step": 462770
    },
    {
      "epoch": 0.964125,
      "grad_norm": 3.6450116634368896,
      "learning_rate": 9.596390064993021e-07,
      "loss": 3.4963,
      "step": 462780
    },
    {
      "epoch": 0.9641458333333334,
      "grad_norm": 3.9113526344299316,
      "learning_rate": 9.58525955035605e-07,
      "loss": 3.3917,
      "step": 462790
    },
    {
      "epoch": 0.9641666666666666,
      "grad_norm": 2.740766763687134,
      "learning_rate": 9.574135473720879e-07,
      "loss": 3.4831,
      "step": 462800
    },
    {
      "epoch": 0.9641875,
      "grad_norm": 3.626566171646118,
      "learning_rate": 9.563017835135466e-07,
      "loss": 3.4079,
      "step": 462810
    },
    {
      "epoch": 0.9642083333333333,
      "grad_norm": 3.36137056350708,
      "learning_rate": 9.551906634647944e-07,
      "loss": 3.3901,
      "step": 462820
    },
    {
      "epoch": 0.9642291666666667,
      "grad_norm": 3.5084023475646973,
      "learning_rate": 9.540801872306104e-07,
      "loss": 3.5414,
      "step": 462830
    },
    {
      "epoch": 0.96425,
      "grad_norm": 3.049300193786621,
      "learning_rate": 9.529703548158241e-07,
      "loss": 3.4378,
      "step": 462840
    },
    {
      "epoch": 0.9642708333333333,
      "grad_norm": 4.076776504516602,
      "learning_rate": 9.518611662251818e-07,
      "loss": 3.3323,
      "step": 462850
    },
    {
      "epoch": 0.9642916666666667,
      "grad_norm": 2.6589229106903076,
      "learning_rate": 9.507526214635131e-07,
      "loss": 3.3947,
      "step": 462860
    },
    {
      "epoch": 0.9643125,
      "grad_norm": 2.8193976879119873,
      "learning_rate": 9.496447205355972e-07,
      "loss": 3.4848,
      "step": 462870
    },
    {
      "epoch": 0.9643333333333334,
      "grad_norm": 3.566331386566162,
      "learning_rate": 9.485374634462139e-07,
      "loss": 3.4841,
      "step": 462880
    },
    {
      "epoch": 0.9643541666666666,
      "grad_norm": 2.8079535961151123,
      "learning_rate": 9.474308502001427e-07,
      "loss": 3.3519,
      "step": 462890
    },
    {
      "epoch": 0.964375,
      "grad_norm": 4.226956844329834,
      "learning_rate": 9.463248808021962e-07,
      "loss": 3.5445,
      "step": 462900
    },
    {
      "epoch": 0.9643958333333333,
      "grad_norm": 3.078807830810547,
      "learning_rate": 9.45219555257104e-07,
      "loss": 3.2958,
      "step": 462910
    },
    {
      "epoch": 0.9644166666666667,
      "grad_norm": 3.0968053340911865,
      "learning_rate": 9.441148735696624e-07,
      "loss": 3.3107,
      "step": 462920
    },
    {
      "epoch": 0.9644375,
      "grad_norm": 3.596590995788574,
      "learning_rate": 9.430108357446675e-07,
      "loss": 3.4999,
      "step": 462930
    },
    {
      "epoch": 0.9644583333333333,
      "grad_norm": 2.6845574378967285,
      "learning_rate": 9.419074417868322e-07,
      "loss": 3.4739,
      "step": 462940
    },
    {
      "epoch": 0.9644791666666667,
      "grad_norm": 2.9591004848480225,
      "learning_rate": 9.408046917009692e-07,
      "loss": 3.4395,
      "step": 462950
    },
    {
      "epoch": 0.9645,
      "grad_norm": 2.9661803245544434,
      "learning_rate": 9.397025854918417e-07,
      "loss": 3.4259,
      "step": 462960
    },
    {
      "epoch": 0.9645208333333334,
      "grad_norm": 7.1624674797058105,
      "learning_rate": 9.386011231641788e-07,
      "loss": 3.5571,
      "step": 462970
    },
    {
      "epoch": 0.9645416666666666,
      "grad_norm": 3.5115621089935303,
      "learning_rate": 9.375003047227769e-07,
      "loss": 3.6319,
      "step": 462980
    },
    {
      "epoch": 0.9645625,
      "grad_norm": 3.2338554859161377,
      "learning_rate": 9.36400130172349e-07,
      "loss": 3.3002,
      "step": 462990
    },
    {
      "epoch": 0.9645833333333333,
      "grad_norm": 2.787890911102295,
      "learning_rate": 9.353005995176744e-07,
      "loss": 3.4249,
      "step": 463000
    },
    {
      "epoch": 0.9645833333333333,
      "eval_loss": 3.5221588611602783,
      "eval_runtime": 7.3737,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 463000
    },
    {
      "epoch": 0.9646041666666667,
      "grad_norm": 3.4104859828948975,
      "learning_rate": 9.34201712763516e-07,
      "loss": 3.5226,
      "step": 463010
    },
    {
      "epoch": 0.964625,
      "grad_norm": 4.346381187438965,
      "learning_rate": 9.331034699145868e-07,
      "loss": 3.3485,
      "step": 463020
    },
    {
      "epoch": 0.9646458333333333,
      "grad_norm": 3.7445051670074463,
      "learning_rate": 9.320058709756328e-07,
      "loss": 3.4598,
      "step": 463030
    },
    {
      "epoch": 0.9646666666666667,
      "grad_norm": 3.1191608905792236,
      "learning_rate": 9.309089159514338e-07,
      "loss": 3.4034,
      "step": 463040
    },
    {
      "epoch": 0.9646875,
      "grad_norm": 2.8307886123657227,
      "learning_rate": 9.298126048466858e-07,
      "loss": 3.4708,
      "step": 463050
    },
    {
      "epoch": 0.9647083333333333,
      "grad_norm": 2.823124885559082,
      "learning_rate": 9.287169376661352e-07,
      "loss": 3.4462,
      "step": 463060
    },
    {
      "epoch": 0.9647291666666666,
      "grad_norm": 4.008615970611572,
      "learning_rate": 9.276219144145447e-07,
      "loss": 3.4904,
      "step": 463070
    },
    {
      "epoch": 0.96475,
      "grad_norm": 2.9422101974487305,
      "learning_rate": 9.265275350966105e-07,
      "loss": 3.3672,
      "step": 463080
    },
    {
      "epoch": 0.9647708333333334,
      "grad_norm": 2.724816083908081,
      "learning_rate": 9.254337997170625e-07,
      "loss": 3.4199,
      "step": 463090
    },
    {
      "epoch": 0.9647916666666667,
      "grad_norm": 3.421055316925049,
      "learning_rate": 9.243407082806298e-07,
      "loss": 3.5213,
      "step": 463100
    },
    {
      "epoch": 0.9648125,
      "grad_norm": 3.309274196624756,
      "learning_rate": 9.232482607920421e-07,
      "loss": 3.4771,
      "step": 463110
    },
    {
      "epoch": 0.9648333333333333,
      "grad_norm": 3.0609190464019775,
      "learning_rate": 9.221564572560291e-07,
      "loss": 3.3027,
      "step": 463120
    },
    {
      "epoch": 0.9648541666666667,
      "grad_norm": 2.9313454627990723,
      "learning_rate": 9.210652976772704e-07,
      "loss": 3.3716,
      "step": 463130
    },
    {
      "epoch": 0.964875,
      "grad_norm": 2.576490640640259,
      "learning_rate": 9.199747820605119e-07,
      "loss": 3.3613,
      "step": 463140
    },
    {
      "epoch": 0.9648958333333333,
      "grad_norm": 4.6260528564453125,
      "learning_rate": 9.188849104104334e-07,
      "loss": 3.5835,
      "step": 463150
    },
    {
      "epoch": 0.9649166666666666,
      "grad_norm": 3.153299331665039,
      "learning_rate": 9.177956827317811e-07,
      "loss": 3.46,
      "step": 463160
    },
    {
      "epoch": 0.9649375,
      "grad_norm": 3.32422137260437,
      "learning_rate": 9.167070990292347e-07,
      "loss": 3.3835,
      "step": 463170
    },
    {
      "epoch": 0.9649583333333334,
      "grad_norm": 3.1516003608703613,
      "learning_rate": 9.156191593075069e-07,
      "loss": 3.4299,
      "step": 463180
    },
    {
      "epoch": 0.9649791666666667,
      "grad_norm": 2.869967460632324,
      "learning_rate": 9.145318635712939e-07,
      "loss": 3.4774,
      "step": 463190
    },
    {
      "epoch": 0.965,
      "grad_norm": 3.510211229324341,
      "learning_rate": 9.134452118252755e-07,
      "loss": 3.3207,
      "step": 463200
    },
    {
      "epoch": 0.9650208333333333,
      "grad_norm": 3.394395589828491,
      "learning_rate": 9.123592040741812e-07,
      "loss": 3.42,
      "step": 463210
    },
    {
      "epoch": 0.9650416666666667,
      "grad_norm": 3.660688638687134,
      "learning_rate": 9.112738403226739e-07,
      "loss": 3.5025,
      "step": 463220
    },
    {
      "epoch": 0.9650625,
      "grad_norm": 2.683490514755249,
      "learning_rate": 9.10189120575433e-07,
      "loss": 3.3656,
      "step": 463230
    },
    {
      "epoch": 0.9650833333333333,
      "grad_norm": 2.874746084213257,
      "learning_rate": 9.091050448371884e-07,
      "loss": 3.3905,
      "step": 463240
    },
    {
      "epoch": 0.9651041666666667,
      "grad_norm": 2.6883811950683594,
      "learning_rate": 9.080216131125861e-07,
      "loss": 3.5404,
      "step": 463250
    },
    {
      "epoch": 0.965125,
      "grad_norm": 3.4538443088531494,
      "learning_rate": 9.069388254063059e-07,
      "loss": 3.3485,
      "step": 463260
    },
    {
      "epoch": 0.9651458333333334,
      "grad_norm": 3.913835048675537,
      "learning_rate": 9.058566817230605e-07,
      "loss": 3.2768,
      "step": 463270
    },
    {
      "epoch": 0.9651666666666666,
      "grad_norm": 3.2088375091552734,
      "learning_rate": 9.047751820674632e-07,
      "loss": 3.5599,
      "step": 463280
    },
    {
      "epoch": 0.9651875,
      "grad_norm": 3.5616602897644043,
      "learning_rate": 9.036943264442431e-07,
      "loss": 3.5072,
      "step": 463290
    },
    {
      "epoch": 0.9652083333333333,
      "grad_norm": 3.01540207862854,
      "learning_rate": 9.026141148580468e-07,
      "loss": 3.4755,
      "step": 463300
    },
    {
      "epoch": 0.9652291666666667,
      "grad_norm": 3.0802972316741943,
      "learning_rate": 9.015345473135371e-07,
      "loss": 3.4069,
      "step": 463310
    },
    {
      "epoch": 0.96525,
      "grad_norm": 3.747323751449585,
      "learning_rate": 9.004556238153771e-07,
      "loss": 3.4489,
      "step": 463320
    },
    {
      "epoch": 0.9652708333333333,
      "grad_norm": 3.045646905899048,
      "learning_rate": 8.993773443682462e-07,
      "loss": 3.4243,
      "step": 463330
    },
    {
      "epoch": 0.9652916666666667,
      "grad_norm": 3.563413381576538,
      "learning_rate": 8.982997089767574e-07,
      "loss": 3.3823,
      "step": 463340
    },
    {
      "epoch": 0.9653125,
      "grad_norm": 3.1721715927124023,
      "learning_rate": 8.972227176456238e-07,
      "loss": 3.6044,
      "step": 463350
    },
    {
      "epoch": 0.9653333333333334,
      "grad_norm": 3.5740885734558105,
      "learning_rate": 8.96146370379458e-07,
      "loss": 3.5696,
      "step": 463360
    },
    {
      "epoch": 0.9653541666666666,
      "grad_norm": 2.40071439743042,
      "learning_rate": 8.950706671829233e-07,
      "loss": 3.4442,
      "step": 463370
    },
    {
      "epoch": 0.965375,
      "grad_norm": 3.2471323013305664,
      "learning_rate": 8.939956080606659e-07,
      "loss": 3.5572,
      "step": 463380
    },
    {
      "epoch": 0.9653958333333333,
      "grad_norm": 3.481539487838745,
      "learning_rate": 8.929211930173152e-07,
      "loss": 3.4257,
      "step": 463390
    },
    {
      "epoch": 0.9654166666666667,
      "grad_norm": 3.778702974319458,
      "learning_rate": 8.918474220575344e-07,
      "loss": 3.4356,
      "step": 463400
    },
    {
      "epoch": 0.9654375,
      "grad_norm": 2.8771157264709473,
      "learning_rate": 8.907742951859531e-07,
      "loss": 3.4004,
      "step": 463410
    },
    {
      "epoch": 0.9654583333333333,
      "grad_norm": 3.5423762798309326,
      "learning_rate": 8.897018124072009e-07,
      "loss": 3.3709,
      "step": 463420
    },
    {
      "epoch": 0.9654791666666667,
      "grad_norm": 3.196880578994751,
      "learning_rate": 8.886299737259073e-07,
      "loss": 3.4307,
      "step": 463430
    },
    {
      "epoch": 0.9655,
      "grad_norm": 2.9982266426086426,
      "learning_rate": 8.875587791467187e-07,
      "loss": 3.1947,
      "step": 463440
    },
    {
      "epoch": 0.9655208333333334,
      "grad_norm": 2.601790428161621,
      "learning_rate": 8.86488228674248e-07,
      "loss": 3.4559,
      "step": 463450
    },
    {
      "epoch": 0.9655416666666666,
      "grad_norm": 3.6968960762023926,
      "learning_rate": 8.854183223131417e-07,
      "loss": 3.3638,
      "step": 463460
    },
    {
      "epoch": 0.9655625,
      "grad_norm": 3.6928787231445312,
      "learning_rate": 8.843490600679959e-07,
      "loss": 3.354,
      "step": 463470
    },
    {
      "epoch": 0.9655833333333333,
      "grad_norm": 2.3838815689086914,
      "learning_rate": 8.832804419434237e-07,
      "loss": 3.4461,
      "step": 463480
    },
    {
      "epoch": 0.9656041666666667,
      "grad_norm": 3.0506608486175537,
      "learning_rate": 8.822124679440712e-07,
      "loss": 3.3446,
      "step": 463490
    },
    {
      "epoch": 0.965625,
      "grad_norm": 3.062316656112671,
      "learning_rate": 8.811451380745349e-07,
      "loss": 3.4335,
      "step": 463500
    },
    {
      "epoch": 0.9656458333333333,
      "grad_norm": 2.7690794467926025,
      "learning_rate": 8.800784523394111e-07,
      "loss": 3.5456,
      "step": 463510
    },
    {
      "epoch": 0.9656666666666667,
      "grad_norm": 2.6076481342315674,
      "learning_rate": 8.79012410743346e-07,
      "loss": 3.4161,
      "step": 463520
    },
    {
      "epoch": 0.9656875,
      "grad_norm": 3.884206771850586,
      "learning_rate": 8.779470132909027e-07,
      "loss": 3.2716,
      "step": 463530
    },
    {
      "epoch": 0.9657083333333333,
      "grad_norm": 3.3347530364990234,
      "learning_rate": 8.768822599867109e-07,
      "loss": 3.3076,
      "step": 463540
    },
    {
      "epoch": 0.9657291666666666,
      "grad_norm": 2.9994521141052246,
      "learning_rate": 8.758181508353502e-07,
      "loss": 3.5426,
      "step": 463550
    },
    {
      "epoch": 0.96575,
      "grad_norm": 3.0764312744140625,
      "learning_rate": 8.747546858414333e-07,
      "loss": 3.3849,
      "step": 463560
    },
    {
      "epoch": 0.9657708333333334,
      "grad_norm": 2.930394172668457,
      "learning_rate": 8.73691865009557e-07,
      "loss": 3.3984,
      "step": 463570
    },
    {
      "epoch": 0.9657916666666667,
      "grad_norm": 3.228076934814453,
      "learning_rate": 8.726296883443007e-07,
      "loss": 3.4136,
      "step": 463580
    },
    {
      "epoch": 0.9658125,
      "grad_norm": 3.1362640857696533,
      "learning_rate": 8.715681558502441e-07,
      "loss": 3.5147,
      "step": 463590
    },
    {
      "epoch": 0.9658333333333333,
      "grad_norm": 3.0768890380859375,
      "learning_rate": 8.705072675320002e-07,
      "loss": 3.4033,
      "step": 463600
    },
    {
      "epoch": 0.9658541666666667,
      "grad_norm": 2.874342679977417,
      "learning_rate": 8.694470233941319e-07,
      "loss": 3.4719,
      "step": 463610
    },
    {
      "epoch": 0.965875,
      "grad_norm": 4.322625160217285,
      "learning_rate": 8.683874234412024e-07,
      "loss": 3.349,
      "step": 463620
    },
    {
      "epoch": 0.9658958333333333,
      "grad_norm": 4.853704929351807,
      "learning_rate": 8.673284676778247e-07,
      "loss": 3.4739,
      "step": 463630
    },
    {
      "epoch": 0.9659166666666666,
      "grad_norm": 3.7660439014434814,
      "learning_rate": 8.662701561085617e-07,
      "loss": 3.4586,
      "step": 463640
    },
    {
      "epoch": 0.9659375,
      "grad_norm": 3.867720365524292,
      "learning_rate": 8.652124887379764e-07,
      "loss": 3.3809,
      "step": 463650
    },
    {
      "epoch": 0.9659583333333334,
      "grad_norm": 2.796919584274292,
      "learning_rate": 8.641554655706317e-07,
      "loss": 3.4793,
      "step": 463660
    },
    {
      "epoch": 0.9659791666666667,
      "grad_norm": 2.6623504161834717,
      "learning_rate": 8.630990866111242e-07,
      "loss": 3.4977,
      "step": 463670
    },
    {
      "epoch": 0.966,
      "grad_norm": 3.029874563217163,
      "learning_rate": 8.620433518639835e-07,
      "loss": 3.3492,
      "step": 463680
    },
    {
      "epoch": 0.9660208333333333,
      "grad_norm": 3.132883071899414,
      "learning_rate": 8.609882613337727e-07,
      "loss": 3.4481,
      "step": 463690
    },
    {
      "epoch": 0.9660416666666667,
      "grad_norm": 2.957582950592041,
      "learning_rate": 8.599338150250712e-07,
      "loss": 3.4121,
      "step": 463700
    },
    {
      "epoch": 0.9660625,
      "grad_norm": 3.5221188068389893,
      "learning_rate": 8.588800129424255e-07,
      "loss": 3.4512,
      "step": 463710
    },
    {
      "epoch": 0.9660833333333333,
      "grad_norm": 3.4143097400665283,
      "learning_rate": 8.578268550903656e-07,
      "loss": 3.5313,
      "step": 463720
    },
    {
      "epoch": 0.9661041666666667,
      "grad_norm": 2.968771457672119,
      "learning_rate": 8.567743414734874e-07,
      "loss": 3.4128,
      "step": 463730
    },
    {
      "epoch": 0.966125,
      "grad_norm": 2.7417709827423096,
      "learning_rate": 8.557224720962874e-07,
      "loss": 3.3572,
      "step": 463740
    },
    {
      "epoch": 0.9661458333333334,
      "grad_norm": 4.2536821365356445,
      "learning_rate": 8.546712469633288e-07,
      "loss": 3.4681,
      "step": 463750
    },
    {
      "epoch": 0.9661666666666666,
      "grad_norm": 2.778048038482666,
      "learning_rate": 8.536206660791745e-07,
      "loss": 3.5126,
      "step": 463760
    },
    {
      "epoch": 0.9661875,
      "grad_norm": 3.4848947525024414,
      "learning_rate": 8.525707294483208e-07,
      "loss": 3.5605,
      "step": 463770
    },
    {
      "epoch": 0.9662083333333333,
      "grad_norm": 3.246234655380249,
      "learning_rate": 8.515214370753476e-07,
      "loss": 3.4876,
      "step": 463780
    },
    {
      "epoch": 0.9662291666666667,
      "grad_norm": 2.971048593521118,
      "learning_rate": 8.504727889647512e-07,
      "loss": 3.4312,
      "step": 463790
    },
    {
      "epoch": 0.96625,
      "grad_norm": 3.22471284866333,
      "learning_rate": 8.494247851210778e-07,
      "loss": 3.4779,
      "step": 463800
    },
    {
      "epoch": 0.9662708333333333,
      "grad_norm": 2.661694288253784,
      "learning_rate": 8.483774255488407e-07,
      "loss": 3.3484,
      "step": 463810
    },
    {
      "epoch": 0.9662916666666667,
      "grad_norm": 5.00119161605835,
      "learning_rate": 8.473307102525861e-07,
      "loss": 3.4193,
      "step": 463820
    },
    {
      "epoch": 0.9663125,
      "grad_norm": 2.9610676765441895,
      "learning_rate": 8.462846392368273e-07,
      "loss": 3.5335,
      "step": 463830
    },
    {
      "epoch": 0.9663333333333334,
      "grad_norm": 3.3966429233551025,
      "learning_rate": 8.452392125060603e-07,
      "loss": 3.4616,
      "step": 463840
    },
    {
      "epoch": 0.9663541666666666,
      "grad_norm": 2.728250741958618,
      "learning_rate": 8.441944300648484e-07,
      "loss": 3.3365,
      "step": 463850
    },
    {
      "epoch": 0.966375,
      "grad_norm": 3.5410566329956055,
      "learning_rate": 8.431502919176547e-07,
      "loss": 3.4478,
      "step": 463860
    },
    {
      "epoch": 0.9663958333333333,
      "grad_norm": 2.577207326889038,
      "learning_rate": 8.421067980690255e-07,
      "loss": 3.4186,
      "step": 463870
    },
    {
      "epoch": 0.9664166666666667,
      "grad_norm": 3.4730470180511475,
      "learning_rate": 8.410639485234405e-07,
      "loss": 3.4716,
      "step": 463880
    },
    {
      "epoch": 0.9664375,
      "grad_norm": 2.793595314025879,
      "learning_rate": 8.400217432854295e-07,
      "loss": 3.328,
      "step": 463890
    },
    {
      "epoch": 0.9664583333333333,
      "grad_norm": 2.582624673843384,
      "learning_rate": 8.389801823594721e-07,
      "loss": 3.5582,
      "step": 463900
    },
    {
      "epoch": 0.9664791666666667,
      "grad_norm": 3.538422107696533,
      "learning_rate": 8.379392657500816e-07,
      "loss": 3.4065,
      "step": 463910
    },
    {
      "epoch": 0.9665,
      "grad_norm": 3.809276580810547,
      "learning_rate": 8.368989934617542e-07,
      "loss": 3.3534,
      "step": 463920
    },
    {
      "epoch": 0.9665208333333334,
      "grad_norm": 2.971433162689209,
      "learning_rate": 8.358593654989865e-07,
      "loss": 3.3406,
      "step": 463930
    },
    {
      "epoch": 0.9665416666666666,
      "grad_norm": 3.0406835079193115,
      "learning_rate": 8.34820381866258e-07,
      "loss": 3.4401,
      "step": 463940
    },
    {
      "epoch": 0.9665625,
      "grad_norm": 2.8929901123046875,
      "learning_rate": 8.337820425680652e-07,
      "loss": 3.3612,
      "step": 463950
    },
    {
      "epoch": 0.9665833333333333,
      "grad_norm": 3.8575387001037598,
      "learning_rate": 8.32744347608888e-07,
      "loss": 3.4477,
      "step": 463960
    },
    {
      "epoch": 0.9666041666666667,
      "grad_norm": 3.1377432346343994,
      "learning_rate": 8.317072969931892e-07,
      "loss": 3.516,
      "step": 463970
    },
    {
      "epoch": 0.966625,
      "grad_norm": 3.09513521194458,
      "learning_rate": 8.306708907254989e-07,
      "loss": 3.4034,
      "step": 463980
    },
    {
      "epoch": 0.9666458333333333,
      "grad_norm": 2.939711093902588,
      "learning_rate": 8.296351288102632e-07,
      "loss": 3.4025,
      "step": 463990
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 2.998565673828125,
      "learning_rate": 8.286000112519453e-07,
      "loss": 3.2522,
      "step": 464000
    },
    {
      "epoch": 0.9666666666666667,
      "eval_loss": 3.5202548503875732,
      "eval_runtime": 7.3024,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.411,
      "step": 464000
    },
    {
      "epoch": 0.9666875,
      "grad_norm": 3.6528656482696533,
      "learning_rate": 8.275655380550416e-07,
      "loss": 3.4322,
      "step": 464010
    },
    {
      "epoch": 0.9667083333333333,
      "grad_norm": 2.8188445568084717,
      "learning_rate": 8.265317092239987e-07,
      "loss": 3.4576,
      "step": 464020
    },
    {
      "epoch": 0.9667291666666666,
      "grad_norm": 3.191528797149658,
      "learning_rate": 8.254985247632795e-07,
      "loss": 3.3344,
      "step": 464030
    },
    {
      "epoch": 0.96675,
      "grad_norm": 3.5084564685821533,
      "learning_rate": 8.244659846773805e-07,
      "loss": 3.4084,
      "step": 464040
    },
    {
      "epoch": 0.9667708333333334,
      "grad_norm": 2.6617841720581055,
      "learning_rate": 8.234340889707313e-07,
      "loss": 3.323,
      "step": 464050
    },
    {
      "epoch": 0.9667916666666667,
      "grad_norm": 3.1512696743011475,
      "learning_rate": 8.224028376477953e-07,
      "loss": 3.34,
      "step": 464060
    },
    {
      "epoch": 0.9668125,
      "grad_norm": 2.7922205924987793,
      "learning_rate": 8.213722307130522e-07,
      "loss": 3.4534,
      "step": 464070
    },
    {
      "epoch": 0.9668333333333333,
      "grad_norm": 3.1389341354370117,
      "learning_rate": 8.203422681709149e-07,
      "loss": 3.5248,
      "step": 464080
    },
    {
      "epoch": 0.9668541666666667,
      "grad_norm": 3.161602020263672,
      "learning_rate": 8.1931295002583e-07,
      "loss": 3.4054,
      "step": 464090
    },
    {
      "epoch": 0.966875,
      "grad_norm": 3.074396848678589,
      "learning_rate": 8.182842762822938e-07,
      "loss": 3.3009,
      "step": 464100
    },
    {
      "epoch": 0.9668958333333333,
      "grad_norm": 2.8816518783569336,
      "learning_rate": 8.172562469447197e-07,
      "loss": 3.3612,
      "step": 464110
    },
    {
      "epoch": 0.9669166666666666,
      "grad_norm": 3.4044294357299805,
      "learning_rate": 8.162288620175372e-07,
      "loss": 3.4115,
      "step": 464120
    },
    {
      "epoch": 0.9669375,
      "grad_norm": 3.1279549598693848,
      "learning_rate": 8.152021215051929e-07,
      "loss": 3.5264,
      "step": 464130
    },
    {
      "epoch": 0.9669583333333334,
      "grad_norm": 3.3294436931610107,
      "learning_rate": 8.141760254121166e-07,
      "loss": 3.4957,
      "step": 464140
    },
    {
      "epoch": 0.9669791666666666,
      "grad_norm": 2.783376455307007,
      "learning_rate": 8.131505737427546e-07,
      "loss": 3.4374,
      "step": 464150
    },
    {
      "epoch": 0.967,
      "grad_norm": 2.89169979095459,
      "learning_rate": 8.121257665015368e-07,
      "loss": 3.4681,
      "step": 464160
    },
    {
      "epoch": 0.9670208333333333,
      "grad_norm": 3.031559944152832,
      "learning_rate": 8.111016036928764e-07,
      "loss": 3.4516,
      "step": 464170
    },
    {
      "epoch": 0.9670416666666667,
      "grad_norm": 2.888627529144287,
      "learning_rate": 8.100780853212197e-07,
      "loss": 3.3714,
      "step": 464180
    },
    {
      "epoch": 0.9670625,
      "grad_norm": 3.125295400619507,
      "learning_rate": 8.090552113909465e-07,
      "loss": 3.447,
      "step": 464190
    },
    {
      "epoch": 0.9670833333333333,
      "grad_norm": 3.190406084060669,
      "learning_rate": 8.080329819065201e-07,
      "loss": 3.4802,
      "step": 464200
    },
    {
      "epoch": 0.9671041666666667,
      "grad_norm": 3.383486270904541,
      "learning_rate": 8.070113968723369e-07,
      "loss": 3.5285,
      "step": 464210
    },
    {
      "epoch": 0.967125,
      "grad_norm": 3.254931926727295,
      "learning_rate": 8.059904562927932e-07,
      "loss": 3.422,
      "step": 464220
    },
    {
      "epoch": 0.9671458333333334,
      "grad_norm": 2.9440431594848633,
      "learning_rate": 8.049701601723357e-07,
      "loss": 3.4086,
      "step": 464230
    },
    {
      "epoch": 0.9671666666666666,
      "grad_norm": 3.0554380416870117,
      "learning_rate": 8.039505085153441e-07,
      "loss": 3.3671,
      "step": 464240
    },
    {
      "epoch": 0.9671875,
      "grad_norm": 3.1451644897460938,
      "learning_rate": 8.029315013262149e-07,
      "loss": 3.2894,
      "step": 464250
    },
    {
      "epoch": 0.9672083333333333,
      "grad_norm": 2.806443452835083,
      "learning_rate": 8.01913138609378e-07,
      "loss": 3.4551,
      "step": 464260
    },
    {
      "epoch": 0.9672291666666667,
      "grad_norm": 3.8213820457458496,
      "learning_rate": 8.008954203692297e-07,
      "loss": 3.476,
      "step": 464270
    },
    {
      "epoch": 0.96725,
      "grad_norm": 3.4346349239349365,
      "learning_rate": 7.998783466101499e-07,
      "loss": 3.4515,
      "step": 464280
    },
    {
      "epoch": 0.9672708333333333,
      "grad_norm": 3.0190374851226807,
      "learning_rate": 7.988619173365352e-07,
      "loss": 3.5218,
      "step": 464290
    },
    {
      "epoch": 0.9672916666666667,
      "grad_norm": 3.6259210109710693,
      "learning_rate": 7.978461325527818e-07,
      "loss": 3.3907,
      "step": 464300
    },
    {
      "epoch": 0.9673125,
      "grad_norm": 4.0345540046691895,
      "learning_rate": 7.968309922632698e-07,
      "loss": 3.4634,
      "step": 464310
    },
    {
      "epoch": 0.9673333333333334,
      "grad_norm": 3.2738378047943115,
      "learning_rate": 7.95816496472379e-07,
      "loss": 3.3344,
      "step": 464320
    },
    {
      "epoch": 0.9673541666666666,
      "grad_norm": 3.6545324325561523,
      "learning_rate": 7.948026451845224e-07,
      "loss": 3.3063,
      "step": 464330
    },
    {
      "epoch": 0.967375,
      "grad_norm": 3.1213440895080566,
      "learning_rate": 7.937894384040466e-07,
      "loss": 3.3871,
      "step": 464340
    },
    {
      "epoch": 0.9673958333333333,
      "grad_norm": 2.859567165374756,
      "learning_rate": 7.927768761353482e-07,
      "loss": 3.3509,
      "step": 464350
    },
    {
      "epoch": 0.9674166666666667,
      "grad_norm": 2.8970556259155273,
      "learning_rate": 7.917649583827901e-07,
      "loss": 3.3799,
      "step": 464360
    },
    {
      "epoch": 0.9674375,
      "grad_norm": 2.8155908584594727,
      "learning_rate": 7.907536851507357e-07,
      "loss": 3.1605,
      "step": 464370
    },
    {
      "epoch": 0.9674583333333333,
      "grad_norm": 4.216780662536621,
      "learning_rate": 7.897430564435814e-07,
      "loss": 3.3116,
      "step": 464380
    },
    {
      "epoch": 0.9674791666666667,
      "grad_norm": 2.7709996700286865,
      "learning_rate": 7.887330722656738e-07,
      "loss": 3.2786,
      "step": 464390
    },
    {
      "epoch": 0.9675,
      "grad_norm": 4.289215564727783,
      "learning_rate": 7.877237326213592e-07,
      "loss": 3.6114,
      "step": 464400
    },
    {
      "epoch": 0.9675208333333334,
      "grad_norm": 4.219727993011475,
      "learning_rate": 7.86715037515051e-07,
      "loss": 3.6187,
      "step": 464410
    },
    {
      "epoch": 0.9675416666666666,
      "grad_norm": 3.2255074977874756,
      "learning_rate": 7.857069869510457e-07,
      "loss": 3.4211,
      "step": 464420
    },
    {
      "epoch": 0.9675625,
      "grad_norm": 3.1837775707244873,
      "learning_rate": 7.846995809337231e-07,
      "loss": 3.4167,
      "step": 464430
    },
    {
      "epoch": 0.9675833333333334,
      "grad_norm": 3.7510390281677246,
      "learning_rate": 7.836928194674296e-07,
      "loss": 3.4748,
      "step": 464440
    },
    {
      "epoch": 0.9676041666666667,
      "grad_norm": 2.928725004196167,
      "learning_rate": 7.826867025565287e-07,
      "loss": 3.4327,
      "step": 464450
    },
    {
      "epoch": 0.967625,
      "grad_norm": 4.308803558349609,
      "learning_rate": 7.816812302053499e-07,
      "loss": 3.4059,
      "step": 464460
    },
    {
      "epoch": 0.9676458333333333,
      "grad_norm": 3.012258529663086,
      "learning_rate": 7.806764024182566e-07,
      "loss": 3.456,
      "step": 464470
    },
    {
      "epoch": 0.9676666666666667,
      "grad_norm": 3.5739948749542236,
      "learning_rate": 7.796722191995786e-07,
      "loss": 3.4303,
      "step": 464480
    },
    {
      "epoch": 0.9676875,
      "grad_norm": 3.1225380897521973,
      "learning_rate": 7.786686805536458e-07,
      "loss": 3.341,
      "step": 464490
    },
    {
      "epoch": 0.9677083333333333,
      "grad_norm": 3.609653949737549,
      "learning_rate": 7.776657864847879e-07,
      "loss": 3.4443,
      "step": 464500
    },
    {
      "epoch": 0.9677291666666666,
      "grad_norm": 3.0236122608184814,
      "learning_rate": 7.766635369973517e-07,
      "loss": 3.3703,
      "step": 464510
    },
    {
      "epoch": 0.96775,
      "grad_norm": 3.1844916343688965,
      "learning_rate": 7.75661932095667e-07,
      "loss": 3.4704,
      "step": 464520
    },
    {
      "epoch": 0.9677708333333334,
      "grad_norm": 2.599163770675659,
      "learning_rate": 7.746609717840469e-07,
      "loss": 3.4767,
      "step": 464530
    },
    {
      "epoch": 0.9677916666666667,
      "grad_norm": 2.7868566513061523,
      "learning_rate": 7.736606560668379e-07,
      "loss": 3.5226,
      "step": 464540
    },
    {
      "epoch": 0.9678125,
      "grad_norm": 3.329549551010132,
      "learning_rate": 7.726609849483368e-07,
      "loss": 3.4562,
      "step": 464550
    },
    {
      "epoch": 0.9678333333333333,
      "grad_norm": 4.273092746734619,
      "learning_rate": 7.716619584328731e-07,
      "loss": 3.4476,
      "step": 464560
    },
    {
      "epoch": 0.9678541666666667,
      "grad_norm": 3.2260289192199707,
      "learning_rate": 7.706635765247604e-07,
      "loss": 3.421,
      "step": 464570
    },
    {
      "epoch": 0.967875,
      "grad_norm": 3.890446901321411,
      "learning_rate": 7.696658392283117e-07,
      "loss": 3.4938,
      "step": 464580
    },
    {
      "epoch": 0.9678958333333333,
      "grad_norm": 2.631477117538452,
      "learning_rate": 7.686687465478402e-07,
      "loss": 3.4572,
      "step": 464590
    },
    {
      "epoch": 0.9679166666666666,
      "grad_norm": 3.1142711639404297,
      "learning_rate": 7.676722984876593e-07,
      "loss": 3.5052,
      "step": 464600
    },
    {
      "epoch": 0.9679375,
      "grad_norm": 2.9279062747955322,
      "learning_rate": 7.666764950520488e-07,
      "loss": 3.5091,
      "step": 464610
    },
    {
      "epoch": 0.9679583333333334,
      "grad_norm": 2.9159507751464844,
      "learning_rate": 7.656813362453218e-07,
      "loss": 3.347,
      "step": 464620
    },
    {
      "epoch": 0.9679791666666666,
      "grad_norm": 4.170006275177002,
      "learning_rate": 7.646868220717917e-07,
      "loss": 3.3628,
      "step": 464630
    },
    {
      "epoch": 0.968,
      "grad_norm": 3.592320203781128,
      "learning_rate": 7.63692952535755e-07,
      "loss": 3.4819,
      "step": 464640
    },
    {
      "epoch": 0.9680208333333333,
      "grad_norm": 2.8545007705688477,
      "learning_rate": 7.626997276414581e-07,
      "loss": 3.1921,
      "step": 464650
    },
    {
      "epoch": 0.9680416666666667,
      "grad_norm": 3.0453968048095703,
      "learning_rate": 7.617071473932479e-07,
      "loss": 3.5584,
      "step": 464660
    },
    {
      "epoch": 0.9680625,
      "grad_norm": 2.5725598335266113,
      "learning_rate": 7.607152117954041e-07,
      "loss": 3.514,
      "step": 464670
    },
    {
      "epoch": 0.9680833333333333,
      "grad_norm": 2.3658981323242188,
      "learning_rate": 7.597239208521732e-07,
      "loss": 3.4322,
      "step": 464680
    },
    {
      "epoch": 0.9681041666666667,
      "grad_norm": 4.027355194091797,
      "learning_rate": 7.587332745678687e-07,
      "loss": 3.3545,
      "step": 464690
    },
    {
      "epoch": 0.968125,
      "grad_norm": 4.0688252449035645,
      "learning_rate": 7.577432729467702e-07,
      "loss": 3.4224,
      "step": 464700
    },
    {
      "epoch": 0.9681458333333334,
      "grad_norm": 3.520226240158081,
      "learning_rate": 7.567539159931413e-07,
      "loss": 3.5379,
      "step": 464710
    },
    {
      "epoch": 0.9681666666666666,
      "grad_norm": 3.7997374534606934,
      "learning_rate": 7.557652037112616e-07,
      "loss": 3.3964,
      "step": 464720
    },
    {
      "epoch": 0.9681875,
      "grad_norm": 4.013772487640381,
      "learning_rate": 7.547771361053944e-07,
      "loss": 3.4078,
      "step": 464730
    },
    {
      "epoch": 0.9682083333333333,
      "grad_norm": 3.1863760948181152,
      "learning_rate": 7.537897131798198e-07,
      "loss": 3.4238,
      "step": 464740
    },
    {
      "epoch": 0.9682291666666667,
      "grad_norm": 3.109053611755371,
      "learning_rate": 7.52802934938801e-07,
      "loss": 3.4501,
      "step": 464750
    },
    {
      "epoch": 0.96825,
      "grad_norm": 3.8499560356140137,
      "learning_rate": 7.518168013866011e-07,
      "loss": 3.4485,
      "step": 464760
    },
    {
      "epoch": 0.9682708333333333,
      "grad_norm": 2.7261788845062256,
      "learning_rate": 7.508313125274501e-07,
      "loss": 3.3829,
      "step": 464770
    },
    {
      "epoch": 0.9682916666666667,
      "grad_norm": 3.4359793663024902,
      "learning_rate": 7.498464683656613e-07,
      "loss": 3.4484,
      "step": 464780
    },
    {
      "epoch": 0.9683125,
      "grad_norm": 3.008261203765869,
      "learning_rate": 7.48862268905448e-07,
      "loss": 3.4248,
      "step": 464790
    },
    {
      "epoch": 0.9683333333333334,
      "grad_norm": 3.3416237831115723,
      "learning_rate": 7.478787141510567e-07,
      "loss": 3.4518,
      "step": 464800
    },
    {
      "epoch": 0.9683541666666666,
      "grad_norm": 3.3050827980041504,
      "learning_rate": 7.468958041067841e-07,
      "loss": 3.4481,
      "step": 464810
    },
    {
      "epoch": 0.968375,
      "grad_norm": 2.7402093410491943,
      "learning_rate": 7.459135387768267e-07,
      "loss": 3.3519,
      "step": 464820
    },
    {
      "epoch": 0.9683958333333333,
      "grad_norm": 3.1607825756073,
      "learning_rate": 7.449319181654312e-07,
      "loss": 3.5312,
      "step": 464830
    },
    {
      "epoch": 0.9684166666666667,
      "grad_norm": 3.2862377166748047,
      "learning_rate": 7.439509422768608e-07,
      "loss": 3.5665,
      "step": 464840
    },
    {
      "epoch": 0.9684375,
      "grad_norm": 2.779818534851074,
      "learning_rate": 7.429706111153455e-07,
      "loss": 3.4523,
      "step": 464850
    },
    {
      "epoch": 0.9684583333333333,
      "grad_norm": 3.0234687328338623,
      "learning_rate": 7.419909246851152e-07,
      "loss": 3.4219,
      "step": 464860
    },
    {
      "epoch": 0.9684791666666667,
      "grad_norm": 2.8326852321624756,
      "learning_rate": 7.410118829903999e-07,
      "loss": 3.6045,
      "step": 464870
    },
    {
      "epoch": 0.9685,
      "grad_norm": 3.1927270889282227,
      "learning_rate": 7.400334860354462e-07,
      "loss": 3.4302,
      "step": 464880
    },
    {
      "epoch": 0.9685208333333334,
      "grad_norm": 3.056354522705078,
      "learning_rate": 7.390557338244507e-07,
      "loss": 3.4116,
      "step": 464890
    },
    {
      "epoch": 0.9685416666666666,
      "grad_norm": 3.0142769813537598,
      "learning_rate": 7.3807862636166e-07,
      "loss": 3.4318,
      "step": 464900
    },
    {
      "epoch": 0.9685625,
      "grad_norm": 4.7099223136901855,
      "learning_rate": 7.371021636512875e-07,
      "loss": 3.3903,
      "step": 464910
    },
    {
      "epoch": 0.9685833333333334,
      "grad_norm": 3.5076935291290283,
      "learning_rate": 7.361263456975463e-07,
      "loss": 3.4486,
      "step": 464920
    },
    {
      "epoch": 0.9686041666666667,
      "grad_norm": 2.6938605308532715,
      "learning_rate": 7.351511725046665e-07,
      "loss": 3.5821,
      "step": 464930
    },
    {
      "epoch": 0.968625,
      "grad_norm": 2.994600296020508,
      "learning_rate": 7.341766440768448e-07,
      "loss": 3.3164,
      "step": 464940
    },
    {
      "epoch": 0.9686458333333333,
      "grad_norm": 3.0499825477600098,
      "learning_rate": 7.332027604182944e-07,
      "loss": 3.3915,
      "step": 464950
    },
    {
      "epoch": 0.9686666666666667,
      "grad_norm": 3.1850836277008057,
      "learning_rate": 7.322295215332285e-07,
      "loss": 3.3481,
      "step": 464960
    },
    {
      "epoch": 0.9686875,
      "grad_norm": 2.9794976711273193,
      "learning_rate": 7.312569274258439e-07,
      "loss": 3.3963,
      "step": 464970
    },
    {
      "epoch": 0.9687083333333333,
      "grad_norm": 3.1392252445220947,
      "learning_rate": 7.302849781003373e-07,
      "loss": 3.4737,
      "step": 464980
    },
    {
      "epoch": 0.9687291666666666,
      "grad_norm": 2.721435546875,
      "learning_rate": 7.293136735609217e-07,
      "loss": 3.5144,
      "step": 464990
    },
    {
      "epoch": 0.96875,
      "grad_norm": 3.680893659591675,
      "learning_rate": 7.283430138117941e-07,
      "loss": 3.392,
      "step": 465000
    },
    {
      "epoch": 0.96875,
      "eval_loss": 3.518214464187622,
      "eval_runtime": 7.373,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.407,
      "step": 465000
    },
    {
      "epoch": 0.9687708333333334,
      "grad_norm": 2.9890525341033936,
      "learning_rate": 7.273729988571341e-07,
      "loss": 3.3879,
      "step": 465010
    },
    {
      "epoch": 0.9687916666666667,
      "grad_norm": 2.694317102432251,
      "learning_rate": 7.264036287011221e-07,
      "loss": 3.4927,
      "step": 465020
    },
    {
      "epoch": 0.9688125,
      "grad_norm": 3.4282608032226562,
      "learning_rate": 7.254349033479711e-07,
      "loss": 3.3747,
      "step": 465030
    },
    {
      "epoch": 0.9688333333333333,
      "grad_norm": 3.140634059906006,
      "learning_rate": 7.244668228018613e-07,
      "loss": 3.4616,
      "step": 465040
    },
    {
      "epoch": 0.9688541666666667,
      "grad_norm": 3.049221992492676,
      "learning_rate": 7.234993870669559e-07,
      "loss": 3.4041,
      "step": 465050
    },
    {
      "epoch": 0.968875,
      "grad_norm": 3.2491824626922607,
      "learning_rate": 7.225325961474515e-07,
      "loss": 3.3213,
      "step": 465060
    },
    {
      "epoch": 0.9688958333333333,
      "grad_norm": 3.506993055343628,
      "learning_rate": 7.215664500475115e-07,
      "loss": 3.4692,
      "step": 465070
    },
    {
      "epoch": 0.9689166666666666,
      "grad_norm": 3.477607011795044,
      "learning_rate": 7.20600948771316e-07,
      "loss": 3.5891,
      "step": 465080
    },
    {
      "epoch": 0.9689375,
      "grad_norm": 2.719423770904541,
      "learning_rate": 7.196360923230448e-07,
      "loss": 3.4717,
      "step": 465090
    },
    {
      "epoch": 0.9689583333333334,
      "grad_norm": 2.6605868339538574,
      "learning_rate": 7.186718807068614e-07,
      "loss": 3.3274,
      "step": 465100
    },
    {
      "epoch": 0.9689791666666666,
      "grad_norm": 3.4726974964141846,
      "learning_rate": 7.177083139269124e-07,
      "loss": 3.5189,
      "step": 465110
    },
    {
      "epoch": 0.969,
      "grad_norm": 3.187931776046753,
      "learning_rate": 7.167453919873778e-07,
      "loss": 3.4044,
      "step": 465120
    },
    {
      "epoch": 0.9690208333333333,
      "grad_norm": 3.2029426097869873,
      "learning_rate": 7.157831148924209e-07,
      "loss": 3.5065,
      "step": 465130
    },
    {
      "epoch": 0.9690416666666667,
      "grad_norm": 3.180344820022583,
      "learning_rate": 7.148214826461718e-07,
      "loss": 3.4281,
      "step": 465140
    },
    {
      "epoch": 0.9690625,
      "grad_norm": 3.003689765930176,
      "learning_rate": 7.138604952528104e-07,
      "loss": 3.3421,
      "step": 465150
    },
    {
      "epoch": 0.9690833333333333,
      "grad_norm": 3.166368246078491,
      "learning_rate": 7.129001527164835e-07,
      "loss": 3.4502,
      "step": 465160
    },
    {
      "epoch": 0.9691041666666667,
      "grad_norm": 3.534857749938965,
      "learning_rate": 7.119404550413377e-07,
      "loss": 3.3987,
      "step": 465170
    },
    {
      "epoch": 0.969125,
      "grad_norm": 4.684010028839111,
      "learning_rate": 7.109814022315197e-07,
      "loss": 3.3778,
      "step": 465180
    },
    {
      "epoch": 0.9691458333333334,
      "grad_norm": 3.1134896278381348,
      "learning_rate": 7.100229942911595e-07,
      "loss": 3.2848,
      "step": 465190
    },
    {
      "epoch": 0.9691666666666666,
      "grad_norm": 3.917908191680908,
      "learning_rate": 7.090652312244038e-07,
      "loss": 3.4096,
      "step": 465200
    },
    {
      "epoch": 0.9691875,
      "grad_norm": 3.022739887237549,
      "learning_rate": 7.081081130353993e-07,
      "loss": 3.3824,
      "step": 465210
    },
    {
      "epoch": 0.9692083333333333,
      "grad_norm": 2.7227773666381836,
      "learning_rate": 7.071516397282762e-07,
      "loss": 3.3243,
      "step": 465220
    },
    {
      "epoch": 0.9692291666666667,
      "grad_norm": 3.4808504581451416,
      "learning_rate": 7.061958113071642e-07,
      "loss": 3.368,
      "step": 465230
    },
    {
      "epoch": 0.96925,
      "grad_norm": 3.182356119155884,
      "learning_rate": 7.052406277761935e-07,
      "loss": 3.4589,
      "step": 465240
    },
    {
      "epoch": 0.9692708333333333,
      "grad_norm": 2.8888070583343506,
      "learning_rate": 7.042860891394774e-07,
      "loss": 3.4895,
      "step": 465250
    },
    {
      "epoch": 0.9692916666666667,
      "grad_norm": 3.898280143737793,
      "learning_rate": 7.033321954011629e-07,
      "loss": 3.3755,
      "step": 465260
    },
    {
      "epoch": 0.9693125,
      "grad_norm": 3.761178493499756,
      "learning_rate": 7.023789465653462e-07,
      "loss": 3.3187,
      "step": 465270
    },
    {
      "epoch": 0.9693333333333334,
      "grad_norm": 3.117823600769043,
      "learning_rate": 7.014263426361744e-07,
      "loss": 3.498,
      "step": 465280
    },
    {
      "epoch": 0.9693541666666666,
      "grad_norm": 3.1076252460479736,
      "learning_rate": 7.004743836177273e-07,
      "loss": 3.4413,
      "step": 465290
    },
    {
      "epoch": 0.969375,
      "grad_norm": 4.352157115936279,
      "learning_rate": 6.995230695141352e-07,
      "loss": 3.3953,
      "step": 465300
    },
    {
      "epoch": 0.9693958333333333,
      "grad_norm": 3.1021292209625244,
      "learning_rate": 6.985724003295112e-07,
      "loss": 3.4154,
      "step": 465310
    },
    {
      "epoch": 0.9694166666666667,
      "grad_norm": 2.6430187225341797,
      "learning_rate": 6.976223760679522e-07,
      "loss": 3.4286,
      "step": 465320
    },
    {
      "epoch": 0.9694375,
      "grad_norm": 3.7663371562957764,
      "learning_rate": 6.966729967335715e-07,
      "loss": 3.5385,
      "step": 465330
    },
    {
      "epoch": 0.9694583333333333,
      "grad_norm": 4.1782660484313965,
      "learning_rate": 6.95724262330466e-07,
      "loss": 3.4284,
      "step": 465340
    },
    {
      "epoch": 0.9694791666666667,
      "grad_norm": 2.8839526176452637,
      "learning_rate": 6.947761728627321e-07,
      "loss": 3.4388,
      "step": 465350
    },
    {
      "epoch": 0.9695,
      "grad_norm": 3.5062882900238037,
      "learning_rate": 6.938287283344668e-07,
      "loss": 3.348,
      "step": 465360
    },
    {
      "epoch": 0.9695208333333334,
      "grad_norm": 2.7611100673675537,
      "learning_rate": 6.9288192874975e-07,
      "loss": 3.4075,
      "step": 465370
    },
    {
      "epoch": 0.9695416666666666,
      "grad_norm": 3.3187732696533203,
      "learning_rate": 6.919357741126951e-07,
      "loss": 3.4892,
      "step": 465380
    },
    {
      "epoch": 0.9695625,
      "grad_norm": 3.1207430362701416,
      "learning_rate": 6.909902644273657e-07,
      "loss": 3.3875,
      "step": 465390
    },
    {
      "epoch": 0.9695833333333334,
      "grad_norm": 3.0450401306152344,
      "learning_rate": 6.90045399697875e-07,
      "loss": 3.4291,
      "step": 465400
    },
    {
      "epoch": 0.9696041666666667,
      "grad_norm": 3.4454848766326904,
      "learning_rate": 6.891011799282864e-07,
      "loss": 3.4631,
      "step": 465410
    },
    {
      "epoch": 0.969625,
      "grad_norm": 3.142641544342041,
      "learning_rate": 6.881576051226634e-07,
      "loss": 3.3497,
      "step": 465420
    },
    {
      "epoch": 0.9696458333333333,
      "grad_norm": 4.082344055175781,
      "learning_rate": 6.872146752851026e-07,
      "loss": 3.3684,
      "step": 465430
    },
    {
      "epoch": 0.9696666666666667,
      "grad_norm": 3.873591423034668,
      "learning_rate": 6.862723904196843e-07,
      "loss": 3.4145,
      "step": 465440
    },
    {
      "epoch": 0.9696875,
      "grad_norm": 3.071716547012329,
      "learning_rate": 6.853307505304551e-07,
      "loss": 3.4967,
      "step": 465450
    },
    {
      "epoch": 0.9697083333333333,
      "grad_norm": 2.6740331649780273,
      "learning_rate": 6.84389755621495e-07,
      "loss": 3.27,
      "step": 465460
    },
    {
      "epoch": 0.9697291666666666,
      "grad_norm": 2.484346389770508,
      "learning_rate": 6.834494056968842e-07,
      "loss": 3.2764,
      "step": 465470
    },
    {
      "epoch": 0.96975,
      "grad_norm": 4.273232936859131,
      "learning_rate": 6.825097007606528e-07,
      "loss": 3.3686,
      "step": 465480
    },
    {
      "epoch": 0.9697708333333334,
      "grad_norm": 2.6951382160186768,
      "learning_rate": 6.815706408168809e-07,
      "loss": 3.3363,
      "step": 465490
    },
    {
      "epoch": 0.9697916666666667,
      "grad_norm": 2.9233572483062744,
      "learning_rate": 6.806322258696151e-07,
      "loss": 3.3831,
      "step": 465500
    },
    {
      "epoch": 0.9698125,
      "grad_norm": 2.8714749813079834,
      "learning_rate": 6.796944559229023e-07,
      "loss": 3.4794,
      "step": 465510
    },
    {
      "epoch": 0.9698333333333333,
      "grad_norm": 2.732354164123535,
      "learning_rate": 6.787573309808225e-07,
      "loss": 3.3817,
      "step": 465520
    },
    {
      "epoch": 0.9698541666666667,
      "grad_norm": 2.7361879348754883,
      "learning_rate": 6.778208510474059e-07,
      "loss": 3.4384,
      "step": 465530
    },
    {
      "epoch": 0.969875,
      "grad_norm": 3.203540802001953,
      "learning_rate": 6.768850161266826e-07,
      "loss": 3.4255,
      "step": 465540
    },
    {
      "epoch": 0.9698958333333333,
      "grad_norm": 3.4662153720855713,
      "learning_rate": 6.759498262227158e-07,
      "loss": 3.4458,
      "step": 465550
    },
    {
      "epoch": 0.9699166666666666,
      "grad_norm": 3.09295654296875,
      "learning_rate": 6.750152813395526e-07,
      "loss": 3.4313,
      "step": 465560
    },
    {
      "epoch": 0.9699375,
      "grad_norm": 3.023993492126465,
      "learning_rate": 6.740813814812062e-07,
      "loss": 3.5313,
      "step": 465570
    },
    {
      "epoch": 0.9699583333333334,
      "grad_norm": 3.610961675643921,
      "learning_rate": 6.731481266517069e-07,
      "loss": 3.5694,
      "step": 465580
    },
    {
      "epoch": 0.9699791666666666,
      "grad_norm": 3.5280654430389404,
      "learning_rate": 6.722155168551179e-07,
      "loss": 3.3109,
      "step": 465590
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.7852158546447754,
      "learning_rate": 6.71283552095453e-07,
      "loss": 3.4193,
      "step": 465600
    },
    {
      "epoch": 0.9700208333333333,
      "grad_norm": 2.8721418380737305,
      "learning_rate": 6.703522323767252e-07,
      "loss": 3.3409,
      "step": 465610
    },
    {
      "epoch": 0.9700416666666667,
      "grad_norm": 2.7160701751708984,
      "learning_rate": 6.694215577029649e-07,
      "loss": 3.3705,
      "step": 465620
    },
    {
      "epoch": 0.9700625,
      "grad_norm": 3.5579075813293457,
      "learning_rate": 6.684915280782021e-07,
      "loss": 3.4638,
      "step": 465630
    },
    {
      "epoch": 0.9700833333333333,
      "grad_norm": 3.163710832595825,
      "learning_rate": 6.675621435064338e-07,
      "loss": 3.3139,
      "step": 465640
    },
    {
      "epoch": 0.9701041666666667,
      "grad_norm": 2.5384268760681152,
      "learning_rate": 6.666334039917065e-07,
      "loss": 3.475,
      "step": 465650
    },
    {
      "epoch": 0.970125,
      "grad_norm": 2.767130136489868,
      "learning_rate": 6.657053095380005e-07,
      "loss": 3.4396,
      "step": 465660
    },
    {
      "epoch": 0.9701458333333334,
      "grad_norm": 2.891505241394043,
      "learning_rate": 6.647778601493292e-07,
      "loss": 3.5419,
      "step": 465670
    },
    {
      "epoch": 0.9701666666666666,
      "grad_norm": 3.196777820587158,
      "learning_rate": 6.638510558297228e-07,
      "loss": 3.4254,
      "step": 465680
    },
    {
      "epoch": 0.9701875,
      "grad_norm": 2.8826184272766113,
      "learning_rate": 6.629248965831613e-07,
      "loss": 3.3064,
      "step": 465690
    },
    {
      "epoch": 0.9702083333333333,
      "grad_norm": 2.7629055976867676,
      "learning_rate": 6.619993824136582e-07,
      "loss": 3.3503,
      "step": 465700
    },
    {
      "epoch": 0.9702291666666667,
      "grad_norm": 2.4855563640594482,
      "learning_rate": 6.610745133251938e-07,
      "loss": 3.4177,
      "step": 465710
    },
    {
      "epoch": 0.97025,
      "grad_norm": 3.0384135246276855,
      "learning_rate": 6.601502893217814e-07,
      "loss": 3.4608,
      "step": 465720
    },
    {
      "epoch": 0.9702708333333333,
      "grad_norm": 2.658942937850952,
      "learning_rate": 6.592267104074179e-07,
      "loss": 3.3263,
      "step": 465730
    },
    {
      "epoch": 0.9702916666666667,
      "grad_norm": 4.141005992889404,
      "learning_rate": 6.583037765860666e-07,
      "loss": 3.556,
      "step": 465740
    },
    {
      "epoch": 0.9703125,
      "grad_norm": 3.7357406616210938,
      "learning_rate": 6.573814878617412e-07,
      "loss": 3.5372,
      "step": 465750
    },
    {
      "epoch": 0.9703333333333334,
      "grad_norm": 2.7829761505126953,
      "learning_rate": 6.56459844238405e-07,
      "loss": 3.3537,
      "step": 465760
    },
    {
      "epoch": 0.9703541666666666,
      "grad_norm": 4.1983489990234375,
      "learning_rate": 6.555388457200384e-07,
      "loss": 3.3579,
      "step": 465770
    },
    {
      "epoch": 0.970375,
      "grad_norm": 3.17160701751709,
      "learning_rate": 6.546184923106545e-07,
      "loss": 3.4179,
      "step": 465780
    },
    {
      "epoch": 0.9703958333333333,
      "grad_norm": 3.650059938430786,
      "learning_rate": 6.536987840141839e-07,
      "loss": 3.4565,
      "step": 465790
    },
    {
      "epoch": 0.9704166666666667,
      "grad_norm": 3.042938470840454,
      "learning_rate": 6.52779720834623e-07,
      "loss": 3.3191,
      "step": 465800
    },
    {
      "epoch": 0.9704375,
      "grad_norm": 4.560420036315918,
      "learning_rate": 6.518613027759356e-07,
      "loss": 3.4661,
      "step": 465810
    },
    {
      "epoch": 0.9704583333333333,
      "grad_norm": 2.974721908569336,
      "learning_rate": 6.509435298421018e-07,
      "loss": 3.4304,
      "step": 465820
    },
    {
      "epoch": 0.9704791666666667,
      "grad_norm": 3.62557315826416,
      "learning_rate": 6.500264020370683e-07,
      "loss": 3.4684,
      "step": 465830
    },
    {
      "epoch": 0.9705,
      "grad_norm": 3.416468381881714,
      "learning_rate": 6.491099193647986e-07,
      "loss": 3.3342,
      "step": 465840
    },
    {
      "epoch": 0.9705208333333334,
      "grad_norm": 2.748383045196533,
      "learning_rate": 6.48194081829273e-07,
      "loss": 3.5204,
      "step": 465850
    },
    {
      "epoch": 0.9705416666666666,
      "grad_norm": 4.40674352645874,
      "learning_rate": 6.472788894344216e-07,
      "loss": 3.3793,
      "step": 465860
    },
    {
      "epoch": 0.9705625,
      "grad_norm": 4.715787410736084,
      "learning_rate": 6.46364342184208e-07,
      "loss": 3.3711,
      "step": 465870
    },
    {
      "epoch": 0.9705833333333334,
      "grad_norm": 2.887852907180786,
      "learning_rate": 6.454504400825788e-07,
      "loss": 3.2778,
      "step": 465880
    },
    {
      "epoch": 0.9706041666666667,
      "grad_norm": 2.867304563522339,
      "learning_rate": 6.445371831334811e-07,
      "loss": 3.3596,
      "step": 465890
    },
    {
      "epoch": 0.970625,
      "grad_norm": 3.557532787322998,
      "learning_rate": 6.436245713408783e-07,
      "loss": 3.3201,
      "step": 465900
    },
    {
      "epoch": 0.9706458333333333,
      "grad_norm": 2.446805953979492,
      "learning_rate": 6.427126047086839e-07,
      "loss": 3.3857,
      "step": 465910
    },
    {
      "epoch": 0.9706666666666667,
      "grad_norm": 4.445476055145264,
      "learning_rate": 6.418012832408615e-07,
      "loss": 3.4407,
      "step": 465920
    },
    {
      "epoch": 0.9706875,
      "grad_norm": 2.5528788566589355,
      "learning_rate": 6.408906069413411e-07,
      "loss": 3.4808,
      "step": 465930
    },
    {
      "epoch": 0.9707083333333333,
      "grad_norm": 3.088794708251953,
      "learning_rate": 6.399805758140364e-07,
      "loss": 3.6802,
      "step": 465940
    },
    {
      "epoch": 0.9707291666666666,
      "grad_norm": 3.363662004470825,
      "learning_rate": 6.390711898629108e-07,
      "loss": 3.3916,
      "step": 465950
    },
    {
      "epoch": 0.97075,
      "grad_norm": 3.717561960220337,
      "learning_rate": 6.381624490918613e-07,
      "loss": 3.4427,
      "step": 465960
    },
    {
      "epoch": 0.9707708333333334,
      "grad_norm": 3.3868536949157715,
      "learning_rate": 6.372543535048346e-07,
      "loss": 3.2951,
      "step": 465970
    },
    {
      "epoch": 0.9707916666666667,
      "grad_norm": 3.205226421356201,
      "learning_rate": 6.363469031057611e-07,
      "loss": 3.4759,
      "step": 465980
    },
    {
      "epoch": 0.9708125,
      "grad_norm": 3.1097629070281982,
      "learning_rate": 6.354400978985208e-07,
      "loss": 3.319,
      "step": 465990
    },
    {
      "epoch": 0.9708333333333333,
      "grad_norm": 3.554473638534546,
      "learning_rate": 6.345339378870773e-07,
      "loss": 3.3134,
      "step": 466000
    },
    {
      "epoch": 0.9708333333333333,
      "eval_loss": 3.520212173461914,
      "eval_runtime": 7.3653,
      "eval_samples_per_second": 1.358,
      "eval_steps_per_second": 0.407,
      "step": 466000
    },
    {
      "epoch": 0.9708541666666667,
      "grad_norm": 3.075092077255249,
      "learning_rate": 6.336284230753108e-07,
      "loss": 3.4749,
      "step": 466010
    },
    {
      "epoch": 0.970875,
      "grad_norm": 3.7813682556152344,
      "learning_rate": 6.327235534671682e-07,
      "loss": 3.485,
      "step": 466020
    },
    {
      "epoch": 0.9708958333333333,
      "grad_norm": 3.1090574264526367,
      "learning_rate": 6.31819329066513e-07,
      "loss": 3.3968,
      "step": 466030
    },
    {
      "epoch": 0.9709166666666667,
      "grad_norm": 2.8506157398223877,
      "learning_rate": 6.309157498772921e-07,
      "loss": 3.4918,
      "step": 466040
    },
    {
      "epoch": 0.9709375,
      "grad_norm": 3.4610660076141357,
      "learning_rate": 6.30012815903369e-07,
      "loss": 3.5024,
      "step": 466050
    },
    {
      "epoch": 0.9709583333333334,
      "grad_norm": 2.818958282470703,
      "learning_rate": 6.291105271486741e-07,
      "loss": 3.3962,
      "step": 466060
    },
    {
      "epoch": 0.9709791666666666,
      "grad_norm": 3.6473326683044434,
      "learning_rate": 6.282088836171206e-07,
      "loss": 3.3423,
      "step": 466070
    },
    {
      "epoch": 0.971,
      "grad_norm": 2.633143901824951,
      "learning_rate": 6.273078853125391e-07,
      "loss": 3.4116,
      "step": 466080
    },
    {
      "epoch": 0.9710208333333333,
      "grad_norm": 3.6061089038848877,
      "learning_rate": 6.264075322388929e-07,
      "loss": 3.3148,
      "step": 466090
    },
    {
      "epoch": 0.9710416666666667,
      "grad_norm": 3.199115514755249,
      "learning_rate": 6.255078244000289e-07,
      "loss": 3.3402,
      "step": 466100
    },
    {
      "epoch": 0.9710625,
      "grad_norm": 2.9256789684295654,
      "learning_rate": 6.246087617998441e-07,
      "loss": 3.4817,
      "step": 466110
    },
    {
      "epoch": 0.9710833333333333,
      "grad_norm": 2.9337868690490723,
      "learning_rate": 6.237103444422186e-07,
      "loss": 3.3565,
      "step": 466120
    },
    {
      "epoch": 0.9711041666666667,
      "grad_norm": 2.65592360496521,
      "learning_rate": 6.228125723310496e-07,
      "loss": 3.4071,
      "step": 466130
    },
    {
      "epoch": 0.971125,
      "grad_norm": 2.9179530143737793,
      "learning_rate": 6.219154454701836e-07,
      "loss": 3.4445,
      "step": 466140
    },
    {
      "epoch": 0.9711458333333334,
      "grad_norm": 3.4547483921051025,
      "learning_rate": 6.210189638635343e-07,
      "loss": 3.4375,
      "step": 466150
    },
    {
      "epoch": 0.9711666666666666,
      "grad_norm": 3.1209335327148438,
      "learning_rate": 6.201231275149487e-07,
      "loss": 3.3599,
      "step": 466160
    },
    {
      "epoch": 0.9711875,
      "grad_norm": 3.0070836544036865,
      "learning_rate": 6.192279364282904e-07,
      "loss": 3.5478,
      "step": 466170
    },
    {
      "epoch": 0.9712083333333333,
      "grad_norm": 3.8527023792266846,
      "learning_rate": 6.183333906074561e-07,
      "loss": 3.4214,
      "step": 466180
    },
    {
      "epoch": 0.9712291666666667,
      "grad_norm": 2.9992780685424805,
      "learning_rate": 6.174394900562762e-07,
      "loss": 3.45,
      "step": 466190
    },
    {
      "epoch": 0.97125,
      "grad_norm": 2.8191542625427246,
      "learning_rate": 6.16546234778631e-07,
      "loss": 3.4774,
      "step": 466200
    },
    {
      "epoch": 0.9712708333333333,
      "grad_norm": 3.009938955307007,
      "learning_rate": 6.156536247784005e-07,
      "loss": 3.2862,
      "step": 466210
    },
    {
      "epoch": 0.9712916666666667,
      "grad_norm": 2.8168864250183105,
      "learning_rate": 6.147616600593818e-07,
      "loss": 3.5279,
      "step": 466220
    },
    {
      "epoch": 0.9713125,
      "grad_norm": 3.7551629543304443,
      "learning_rate": 6.138703406254886e-07,
      "loss": 3.4078,
      "step": 466230
    },
    {
      "epoch": 0.9713333333333334,
      "grad_norm": 3.5313124656677246,
      "learning_rate": 6.129796664805342e-07,
      "loss": 3.4125,
      "step": 466240
    },
    {
      "epoch": 0.9713541666666666,
      "grad_norm": 3.938403606414795,
      "learning_rate": 6.120896376283657e-07,
      "loss": 3.4919,
      "step": 466250
    },
    {
      "epoch": 0.971375,
      "grad_norm": 3.6529552936553955,
      "learning_rate": 6.112002540728467e-07,
      "loss": 3.3841,
      "step": 466260
    },
    {
      "epoch": 0.9713958333333333,
      "grad_norm": 3.0842251777648926,
      "learning_rate": 6.103115158178073e-07,
      "loss": 3.378,
      "step": 466270
    },
    {
      "epoch": 0.9714166666666667,
      "grad_norm": 2.8443682193756104,
      "learning_rate": 6.094234228670947e-07,
      "loss": 3.2448,
      "step": 466280
    },
    {
      "epoch": 0.9714375,
      "grad_norm": 3.1055996417999268,
      "learning_rate": 6.085359752245389e-07,
      "loss": 3.4325,
      "step": 466290
    },
    {
      "epoch": 0.9714583333333333,
      "grad_norm": 3.4843976497650146,
      "learning_rate": 6.076491728939703e-07,
      "loss": 3.4461,
      "step": 466300
    },
    {
      "epoch": 0.9714791666666667,
      "grad_norm": 3.3906126022338867,
      "learning_rate": 6.067630158792358e-07,
      "loss": 3.4344,
      "step": 466310
    },
    {
      "epoch": 0.9715,
      "grad_norm": 2.6633427143096924,
      "learning_rate": 6.058775041841324e-07,
      "loss": 3.3948,
      "step": 466320
    },
    {
      "epoch": 0.9715208333333333,
      "grad_norm": 2.796480178833008,
      "learning_rate": 6.049926378125236e-07,
      "loss": 3.4078,
      "step": 466330
    },
    {
      "epoch": 0.9715416666666666,
      "grad_norm": 3.902151584625244,
      "learning_rate": 6.041084167682065e-07,
      "loss": 3.3767,
      "step": 466340
    },
    {
      "epoch": 0.9715625,
      "grad_norm": 2.900487184524536,
      "learning_rate": 6.032248410549945e-07,
      "loss": 3.4915,
      "step": 466350
    },
    {
      "epoch": 0.9715833333333334,
      "grad_norm": 3.1498847007751465,
      "learning_rate": 6.02341910676718e-07,
      "loss": 3.3845,
      "step": 466360
    },
    {
      "epoch": 0.9716041666666667,
      "grad_norm": 3.484755277633667,
      "learning_rate": 6.014596256372073e-07,
      "loss": 3.7446,
      "step": 466370
    },
    {
      "epoch": 0.971625,
      "grad_norm": 3.0738141536712646,
      "learning_rate": 6.005779859402427e-07,
      "loss": 3.4364,
      "step": 466380
    },
    {
      "epoch": 0.9716458333333333,
      "grad_norm": 3.2720391750335693,
      "learning_rate": 5.996969915896377e-07,
      "loss": 3.2664,
      "step": 466390
    },
    {
      "epoch": 0.9716666666666667,
      "grad_norm": 3.852283477783203,
      "learning_rate": 5.988166425892061e-07,
      "loss": 3.4223,
      "step": 466400
    },
    {
      "epoch": 0.9716875,
      "grad_norm": 3.7690532207489014,
      "learning_rate": 5.979369389427613e-07,
      "loss": 3.4353,
      "step": 466410
    },
    {
      "epoch": 0.9717083333333333,
      "grad_norm": 2.5256640911102295,
      "learning_rate": 5.970578806540838e-07,
      "loss": 3.4115,
      "step": 466420
    },
    {
      "epoch": 0.9717291666666666,
      "grad_norm": 4.085345268249512,
      "learning_rate": 5.961794677269704e-07,
      "loss": 3.3237,
      "step": 466430
    },
    {
      "epoch": 0.97175,
      "grad_norm": 3.3778343200683594,
      "learning_rate": 5.953017001652349e-07,
      "loss": 3.5317,
      "step": 466440
    },
    {
      "epoch": 0.9717708333333334,
      "grad_norm": 3.2103540897369385,
      "learning_rate": 5.944245779726575e-07,
      "loss": 3.2723,
      "step": 466450
    },
    {
      "epoch": 0.9717916666666667,
      "grad_norm": 2.773069381713867,
      "learning_rate": 5.935481011530185e-07,
      "loss": 3.4102,
      "step": 466460
    },
    {
      "epoch": 0.9718125,
      "grad_norm": 2.92726731300354,
      "learning_rate": 5.926722697101316e-07,
      "loss": 3.3702,
      "step": 466470
    },
    {
      "epoch": 0.9718333333333333,
      "grad_norm": 2.6324968338012695,
      "learning_rate": 5.917970836477437e-07,
      "loss": 3.5285,
      "step": 466480
    },
    {
      "epoch": 0.9718541666666667,
      "grad_norm": 3.1141343116760254,
      "learning_rate": 5.909225429696518e-07,
      "loss": 3.3678,
      "step": 466490
    },
    {
      "epoch": 0.971875,
      "grad_norm": 3.695911169052124,
      "learning_rate": 5.900486476796529e-07,
      "loss": 3.5112,
      "step": 466500
    },
    {
      "epoch": 0.9718958333333333,
      "grad_norm": 4.041777610778809,
      "learning_rate": 5.891753977814773e-07,
      "loss": 3.3299,
      "step": 466510
    },
    {
      "epoch": 0.9719166666666667,
      "grad_norm": 3.3888556957244873,
      "learning_rate": 5.883027932789386e-07,
      "loss": 3.3428,
      "step": 466520
    },
    {
      "epoch": 0.9719375,
      "grad_norm": 3.5329532623291016,
      "learning_rate": 5.874308341757838e-07,
      "loss": 3.3608,
      "step": 466530
    },
    {
      "epoch": 0.9719583333333334,
      "grad_norm": 3.9055957794189453,
      "learning_rate": 5.865595204757934e-07,
      "loss": 3.4729,
      "step": 466540
    },
    {
      "epoch": 0.9719791666666666,
      "grad_norm": 2.8093225955963135,
      "learning_rate": 5.856888521827141e-07,
      "loss": 3.2896,
      "step": 466550
    },
    {
      "epoch": 0.972,
      "grad_norm": 3.0370378494262695,
      "learning_rate": 5.848188293003264e-07,
      "loss": 3.2827,
      "step": 466560
    },
    {
      "epoch": 0.9720208333333333,
      "grad_norm": 4.592392444610596,
      "learning_rate": 5.839494518323773e-07,
      "loss": 3.3763,
      "step": 466570
    },
    {
      "epoch": 0.9720416666666667,
      "grad_norm": 3.3467400074005127,
      "learning_rate": 5.830807197826304e-07,
      "loss": 3.3507,
      "step": 466580
    },
    {
      "epoch": 0.9720625,
      "grad_norm": 2.9945387840270996,
      "learning_rate": 5.82212633154816e-07,
      "loss": 3.3662,
      "step": 466590
    },
    {
      "epoch": 0.9720833333333333,
      "grad_norm": 4.127248764038086,
      "learning_rate": 5.81345191952698e-07,
      "loss": 3.4394,
      "step": 466600
    },
    {
      "epoch": 0.9721041666666667,
      "grad_norm": 3.072824239730835,
      "learning_rate": 5.804783961800397e-07,
      "loss": 3.4647,
      "step": 466610
    },
    {
      "epoch": 0.972125,
      "grad_norm": 2.9460861682891846,
      "learning_rate": 5.796122458405717e-07,
      "loss": 3.39,
      "step": 466620
    },
    {
      "epoch": 0.9721458333333334,
      "grad_norm": 3.6833062171936035,
      "learning_rate": 5.787467409380242e-07,
      "loss": 3.4738,
      "step": 466630
    },
    {
      "epoch": 0.9721666666666666,
      "grad_norm": 3.0882749557495117,
      "learning_rate": 5.778818814761444e-07,
      "loss": 3.4877,
      "step": 466640
    },
    {
      "epoch": 0.9721875,
      "grad_norm": 3.735733985900879,
      "learning_rate": 5.770176674586624e-07,
      "loss": 3.3925,
      "step": 466650
    },
    {
      "epoch": 0.9722083333333333,
      "grad_norm": 3.029423475265503,
      "learning_rate": 5.761540988893421e-07,
      "loss": 3.5337,
      "step": 466660
    },
    {
      "epoch": 0.9722291666666667,
      "grad_norm": 3.035191774368286,
      "learning_rate": 5.752911757718636e-07,
      "loss": 3.3918,
      "step": 466670
    },
    {
      "epoch": 0.97225,
      "grad_norm": 3.1206209659576416,
      "learning_rate": 5.744288981099909e-07,
      "loss": 3.4649,
      "step": 466680
    },
    {
      "epoch": 0.9722708333333333,
      "grad_norm": 3.0435750484466553,
      "learning_rate": 5.735672659074542e-07,
      "loss": 3.5427,
      "step": 466690
    },
    {
      "epoch": 0.9722916666666667,
      "grad_norm": 2.774925947189331,
      "learning_rate": 5.727062791679338e-07,
      "loss": 3.3437,
      "step": 466700
    },
    {
      "epoch": 0.9723125,
      "grad_norm": 3.5422251224517822,
      "learning_rate": 5.718459378951934e-07,
      "loss": 3.3472,
      "step": 466710
    },
    {
      "epoch": 0.9723333333333334,
      "grad_norm": 3.2816028594970703,
      "learning_rate": 5.709862420929301e-07,
      "loss": 3.5649,
      "step": 466720
    },
    {
      "epoch": 0.9723541666666666,
      "grad_norm": 2.8255906105041504,
      "learning_rate": 5.701271917648575e-07,
      "loss": 3.3481,
      "step": 466730
    },
    {
      "epoch": 0.972375,
      "grad_norm": 3.111131191253662,
      "learning_rate": 5.692687869146728e-07,
      "loss": 3.484,
      "step": 466740
    },
    {
      "epoch": 0.9723958333333333,
      "grad_norm": 3.6663601398468018,
      "learning_rate": 5.684110275461229e-07,
      "loss": 3.456,
      "step": 466750
    },
    {
      "epoch": 0.9724166666666667,
      "grad_norm": 2.829592704772949,
      "learning_rate": 5.675539136628548e-07,
      "loss": 3.4015,
      "step": 466760
    },
    {
      "epoch": 0.9724375,
      "grad_norm": 3.1269991397857666,
      "learning_rate": 5.666974452686323e-07,
      "loss": 3.3901,
      "step": 466770
    },
    {
      "epoch": 0.9724583333333333,
      "grad_norm": 3.8565289974212646,
      "learning_rate": 5.658416223671192e-07,
      "loss": 3.3215,
      "step": 466780
    },
    {
      "epoch": 0.9724791666666667,
      "grad_norm": 2.4696226119995117,
      "learning_rate": 5.649864449620123e-07,
      "loss": 3.356,
      "step": 466790
    },
    {
      "epoch": 0.9725,
      "grad_norm": 3.544156312942505,
      "learning_rate": 5.641319130570254e-07,
      "loss": 3.358,
      "step": 466800
    },
    {
      "epoch": 0.9725208333333333,
      "grad_norm": 3.1309332847595215,
      "learning_rate": 5.63278026655839e-07,
      "loss": 3.2492,
      "step": 466810
    },
    {
      "epoch": 0.9725416666666666,
      "grad_norm": 2.7890162467956543,
      "learning_rate": 5.624247857621166e-07,
      "loss": 3.4139,
      "step": 466820
    },
    {
      "epoch": 0.9725625,
      "grad_norm": 2.87408185005188,
      "learning_rate": 5.615721903795889e-07,
      "loss": 3.4814,
      "step": 466830
    },
    {
      "epoch": 0.9725833333333334,
      "grad_norm": 2.820340871810913,
      "learning_rate": 5.607202405119193e-07,
      "loss": 3.3641,
      "step": 466840
    },
    {
      "epoch": 0.9726041666666667,
      "grad_norm": 3.1911909580230713,
      "learning_rate": 5.598689361627718e-07,
      "loss": 3.4282,
      "step": 466850
    },
    {
      "epoch": 0.972625,
      "grad_norm": 2.9520857334136963,
      "learning_rate": 5.590182773358598e-07,
      "loss": 3.5304,
      "step": 466860
    },
    {
      "epoch": 0.9726458333333333,
      "grad_norm": 2.941620349884033,
      "learning_rate": 5.58168264034814e-07,
      "loss": 3.4814,
      "step": 466870
    },
    {
      "epoch": 0.9726666666666667,
      "grad_norm": 2.647883176803589,
      "learning_rate": 5.573188962633313e-07,
      "loss": 3.4037,
      "step": 466880
    },
    {
      "epoch": 0.9726875,
      "grad_norm": 3.1878604888916016,
      "learning_rate": 5.564701740250921e-07,
      "loss": 3.4336,
      "step": 466890
    },
    {
      "epoch": 0.9727083333333333,
      "grad_norm": 3.0669054985046387,
      "learning_rate": 5.556220973237435e-07,
      "loss": 3.3673,
      "step": 466900
    },
    {
      "epoch": 0.9727291666666666,
      "grad_norm": 2.639867067337036,
      "learning_rate": 5.547746661629493e-07,
      "loss": 3.3777,
      "step": 466910
    },
    {
      "epoch": 0.97275,
      "grad_norm": 3.5898609161376953,
      "learning_rate": 5.539278805463731e-07,
      "loss": 3.4947,
      "step": 466920
    },
    {
      "epoch": 0.9727708333333334,
      "grad_norm": 2.9030144214630127,
      "learning_rate": 5.530817404776622e-07,
      "loss": 3.3586,
      "step": 466930
    },
    {
      "epoch": 0.9727916666666667,
      "grad_norm": 3.6443605422973633,
      "learning_rate": 5.522362459604968e-07,
      "loss": 3.3941,
      "step": 466940
    },
    {
      "epoch": 0.9728125,
      "grad_norm": 3.2608096599578857,
      "learning_rate": 5.513913969985074e-07,
      "loss": 3.4765,
      "step": 466950
    },
    {
      "epoch": 0.9728333333333333,
      "grad_norm": 3.211916923522949,
      "learning_rate": 5.505471935953576e-07,
      "loss": 3.3438,
      "step": 466960
    },
    {
      "epoch": 0.9728541666666667,
      "grad_norm": 3.165775775909424,
      "learning_rate": 5.497036357546947e-07,
      "loss": 3.4537,
      "step": 466970
    },
    {
      "epoch": 0.972875,
      "grad_norm": 2.489712715148926,
      "learning_rate": 5.48860723480149e-07,
      "loss": 3.3146,
      "step": 466980
    },
    {
      "epoch": 0.9728958333333333,
      "grad_norm": 3.4632647037506104,
      "learning_rate": 5.480184567753676e-07,
      "loss": 3.3303,
      "step": 466990
    },
    {
      "epoch": 0.9729166666666667,
      "grad_norm": 4.07011079788208,
      "learning_rate": 5.47176835643981e-07,
      "loss": 3.4052,
      "step": 467000
    },
    {
      "epoch": 0.9729166666666667,
      "eval_loss": 3.5208382606506348,
      "eval_runtime": 7.2838,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.412,
      "step": 467000
    },
    {
      "epoch": 0.9729375,
      "grad_norm": 3.491337299346924,
      "learning_rate": 5.463358600896361e-07,
      "loss": 3.3706,
      "step": 467010
    },
    {
      "epoch": 0.9729583333333334,
      "grad_norm": 3.3105125427246094,
      "learning_rate": 5.454955301159802e-07,
      "loss": 3.4477,
      "step": 467020
    },
    {
      "epoch": 0.9729791666666666,
      "grad_norm": 3.534893035888672,
      "learning_rate": 5.446558457266103e-07,
      "loss": 3.511,
      "step": 467030
    },
    {
      "epoch": 0.973,
      "grad_norm": 2.896636486053467,
      "learning_rate": 5.43816806925157e-07,
      "loss": 3.4113,
      "step": 467040
    },
    {
      "epoch": 0.9730208333333333,
      "grad_norm": 2.3893537521362305,
      "learning_rate": 5.429784137152837e-07,
      "loss": 3.4008,
      "step": 467050
    },
    {
      "epoch": 0.9730416666666667,
      "grad_norm": 3.184344530105591,
      "learning_rate": 5.421406661005712e-07,
      "loss": 3.2514,
      "step": 467060
    },
    {
      "epoch": 0.9730625,
      "grad_norm": 3.360003709793091,
      "learning_rate": 5.413035640846497e-07,
      "loss": 3.3639,
      "step": 467070
    },
    {
      "epoch": 0.9730833333333333,
      "grad_norm": 2.5073041915893555,
      "learning_rate": 5.404671076711331e-07,
      "loss": 3.3551,
      "step": 467080
    },
    {
      "epoch": 0.9731041666666667,
      "grad_norm": 2.792067766189575,
      "learning_rate": 5.396312968636351e-07,
      "loss": 3.3491,
      "step": 467090
    },
    {
      "epoch": 0.973125,
      "grad_norm": 2.7537806034088135,
      "learning_rate": 5.387961316657863e-07,
      "loss": 3.4105,
      "step": 467100
    },
    {
      "epoch": 0.9731458333333334,
      "grad_norm": 3.1539487838745117,
      "learning_rate": 5.37961612081167e-07,
      "loss": 3.3955,
      "step": 467110
    },
    {
      "epoch": 0.9731666666666666,
      "grad_norm": 2.9150102138519287,
      "learning_rate": 5.37127738113391e-07,
      "loss": 3.372,
      "step": 467120
    },
    {
      "epoch": 0.9731875,
      "grad_norm": 3.42156720161438,
      "learning_rate": 5.362945097660554e-07,
      "loss": 3.4238,
      "step": 467130
    },
    {
      "epoch": 0.9732083333333333,
      "grad_norm": 2.87503719329834,
      "learning_rate": 5.354619270427907e-07,
      "loss": 3.4452,
      "step": 467140
    },
    {
      "epoch": 0.9732291666666667,
      "grad_norm": 2.9469027519226074,
      "learning_rate": 5.34629989947144e-07,
      "loss": 3.4632,
      "step": 467150
    },
    {
      "epoch": 0.97325,
      "grad_norm": 3.208467483520508,
      "learning_rate": 5.337986984827458e-07,
      "loss": 3.4933,
      "step": 467160
    },
    {
      "epoch": 0.9732708333333333,
      "grad_norm": 2.8060617446899414,
      "learning_rate": 5.329680526531599e-07,
      "loss": 3.4274,
      "step": 467170
    },
    {
      "epoch": 0.9732916666666667,
      "grad_norm": 3.574789047241211,
      "learning_rate": 5.321380524620167e-07,
      "loss": 3.2272,
      "step": 467180
    },
    {
      "epoch": 0.9733125,
      "grad_norm": 3.317375659942627,
      "learning_rate": 5.313086979128467e-07,
      "loss": 3.3862,
      "step": 467190
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 3.1341278553009033,
      "learning_rate": 5.304799890092637e-07,
      "loss": 3.4676,
      "step": 467200
    },
    {
      "epoch": 0.9733541666666666,
      "grad_norm": 3.1959104537963867,
      "learning_rate": 5.296519257548482e-07,
      "loss": 3.4624,
      "step": 467210
    },
    {
      "epoch": 0.973375,
      "grad_norm": 3.157676935195923,
      "learning_rate": 5.288245081531806e-07,
      "loss": 3.35,
      "step": 467220
    },
    {
      "epoch": 0.9733958333333333,
      "grad_norm": 3.8311574459075928,
      "learning_rate": 5.27997736207808e-07,
      "loss": 3.3449,
      "step": 467230
    },
    {
      "epoch": 0.9734166666666667,
      "grad_norm": 3.0927956104278564,
      "learning_rate": 5.271716099223278e-07,
      "loss": 3.5026,
      "step": 467240
    },
    {
      "epoch": 0.9734375,
      "grad_norm": 3.0083508491516113,
      "learning_rate": 5.263461293003036e-07,
      "loss": 3.322,
      "step": 467250
    },
    {
      "epoch": 0.9734583333333333,
      "grad_norm": 3.198800802230835,
      "learning_rate": 5.255212943452991e-07,
      "loss": 3.4309,
      "step": 467260
    },
    {
      "epoch": 0.9734791666666667,
      "grad_norm": 3.283287525177002,
      "learning_rate": 5.246971050608784e-07,
      "loss": 3.5105,
      "step": 467270
    },
    {
      "epoch": 0.9735,
      "grad_norm": 2.6523022651672363,
      "learning_rate": 5.238735614505885e-07,
      "loss": 3.381,
      "step": 467280
    },
    {
      "epoch": 0.9735208333333333,
      "grad_norm": 3.094632387161255,
      "learning_rate": 5.230506635180099e-07,
      "loss": 3.4007,
      "step": 467290
    },
    {
      "epoch": 0.9735416666666666,
      "grad_norm": 2.9728922843933105,
      "learning_rate": 5.222284112666897e-07,
      "loss": 3.3624,
      "step": 467300
    },
    {
      "epoch": 0.9735625,
      "grad_norm": 3.0210232734680176,
      "learning_rate": 5.214068047001585e-07,
      "loss": 3.5188,
      "step": 467310
    },
    {
      "epoch": 0.9735833333333334,
      "grad_norm": 2.65614914894104,
      "learning_rate": 5.205858438219967e-07,
      "loss": 3.3817,
      "step": 467320
    },
    {
      "epoch": 0.9736041666666667,
      "grad_norm": 4.16534423828125,
      "learning_rate": 5.197655286357183e-07,
      "loss": 3.2946,
      "step": 467330
    },
    {
      "epoch": 0.973625,
      "grad_norm": 2.9596307277679443,
      "learning_rate": 5.189458591449037e-07,
      "loss": 3.3359,
      "step": 467340
    },
    {
      "epoch": 0.9736458333333333,
      "grad_norm": 2.9166340827941895,
      "learning_rate": 5.181268353530665e-07,
      "loss": 3.4881,
      "step": 467350
    },
    {
      "epoch": 0.9736666666666667,
      "grad_norm": 2.8110244274139404,
      "learning_rate": 5.173084572637543e-07,
      "loss": 3.2557,
      "step": 467360
    },
    {
      "epoch": 0.9736875,
      "grad_norm": 2.863068103790283,
      "learning_rate": 5.164907248804973e-07,
      "loss": 3.3606,
      "step": 467370
    },
    {
      "epoch": 0.9737083333333333,
      "grad_norm": 3.6209561824798584,
      "learning_rate": 5.15673638206826e-07,
      "loss": 3.5262,
      "step": 467380
    },
    {
      "epoch": 0.9737291666666666,
      "grad_norm": 2.7436907291412354,
      "learning_rate": 5.148571972462878e-07,
      "loss": 3.3436,
      "step": 467390
    },
    {
      "epoch": 0.97375,
      "grad_norm": 4.436029434204102,
      "learning_rate": 5.140414020023798e-07,
      "loss": 3.3236,
      "step": 467400
    },
    {
      "epoch": 0.9737708333333334,
      "grad_norm": 3.9046378135681152,
      "learning_rate": 5.132262524786491e-07,
      "loss": 3.4317,
      "step": 467410
    },
    {
      "epoch": 0.9737916666666667,
      "grad_norm": 3.52410626411438,
      "learning_rate": 5.124117486786095e-07,
      "loss": 3.3254,
      "step": 467420
    },
    {
      "epoch": 0.9738125,
      "grad_norm": 4.110893249511719,
      "learning_rate": 5.115978906057916e-07,
      "loss": 3.3776,
      "step": 467430
    },
    {
      "epoch": 0.9738333333333333,
      "grad_norm": 3.977519989013672,
      "learning_rate": 5.107846782636926e-07,
      "loss": 3.4613,
      "step": 467440
    },
    {
      "epoch": 0.9738541666666667,
      "grad_norm": 2.6104817390441895,
      "learning_rate": 5.099721116558264e-07,
      "loss": 3.4014,
      "step": 467450
    },
    {
      "epoch": 0.973875,
      "grad_norm": 2.886284351348877,
      "learning_rate": 5.091601907857069e-07,
      "loss": 3.4209,
      "step": 467460
    },
    {
      "epoch": 0.9738958333333333,
      "grad_norm": 2.957608699798584,
      "learning_rate": 5.083489156568476e-07,
      "loss": 3.4151,
      "step": 467470
    },
    {
      "epoch": 0.9739166666666667,
      "grad_norm": 3.786294937133789,
      "learning_rate": 5.075382862727462e-07,
      "loss": 3.502,
      "step": 467480
    },
    {
      "epoch": 0.9739375,
      "grad_norm": 4.128654956817627,
      "learning_rate": 5.067283026369162e-07,
      "loss": 3.3846,
      "step": 467490
    },
    {
      "epoch": 0.9739583333333334,
      "grad_norm": 2.8634018898010254,
      "learning_rate": 5.059189647528383e-07,
      "loss": 3.3901,
      "step": 467500
    },
    {
      "epoch": 0.9739791666666666,
      "grad_norm": 3.971630334854126,
      "learning_rate": 5.051102726240097e-07,
      "loss": 3.4389,
      "step": 467510
    },
    {
      "epoch": 0.974,
      "grad_norm": 3.2784204483032227,
      "learning_rate": 5.043022262539442e-07,
      "loss": 3.4986,
      "step": 467520
    },
    {
      "epoch": 0.9740208333333333,
      "grad_norm": 3.3527843952178955,
      "learning_rate": 5.034948256461058e-07,
      "loss": 3.3794,
      "step": 467530
    },
    {
      "epoch": 0.9740416666666667,
      "grad_norm": 3.1616101264953613,
      "learning_rate": 5.026880708039915e-07,
      "loss": 3.3825,
      "step": 467540
    },
    {
      "epoch": 0.9740625,
      "grad_norm": 3.9953556060791016,
      "learning_rate": 5.018819617310987e-07,
      "loss": 3.4016,
      "step": 467550
    },
    {
      "epoch": 0.9740833333333333,
      "grad_norm": 3.6784863471984863,
      "learning_rate": 5.010764984309079e-07,
      "loss": 3.4083,
      "step": 467560
    },
    {
      "epoch": 0.9741041666666667,
      "grad_norm": 2.729416608810425,
      "learning_rate": 5.002716809068663e-07,
      "loss": 3.4239,
      "step": 467570
    },
    {
      "epoch": 0.974125,
      "grad_norm": 3.556218385696411,
      "learning_rate": 4.994675091625045e-07,
      "loss": 3.322,
      "step": 467580
    },
    {
      "epoch": 0.9741458333333334,
      "grad_norm": 3.7959132194519043,
      "learning_rate": 4.986639832012529e-07,
      "loss": 3.315,
      "step": 467590
    },
    {
      "epoch": 0.9741666666666666,
      "grad_norm": 4.017722129821777,
      "learning_rate": 4.978611030265922e-07,
      "loss": 3.4166,
      "step": 467600
    },
    {
      "epoch": 0.9741875,
      "grad_norm": 2.7322187423706055,
      "learning_rate": 4.97058868642003e-07,
      "loss": 3.3192,
      "step": 467610
    },
    {
      "epoch": 0.9742083333333333,
      "grad_norm": 2.548245906829834,
      "learning_rate": 4.962572800509324e-07,
      "loss": 3.492,
      "step": 467620
    },
    {
      "epoch": 0.9742291666666667,
      "grad_norm": 3.64807391166687,
      "learning_rate": 4.954563372568609e-07,
      "loss": 3.2736,
      "step": 467630
    },
    {
      "epoch": 0.97425,
      "grad_norm": 3.1379449367523193,
      "learning_rate": 4.94656040263236e-07,
      "loss": 3.2956,
      "step": 467640
    },
    {
      "epoch": 0.9742708333333333,
      "grad_norm": 2.8401808738708496,
      "learning_rate": 4.938563890735214e-07,
      "loss": 3.444,
      "step": 467650
    },
    {
      "epoch": 0.9742916666666667,
      "grad_norm": 4.122003555297852,
      "learning_rate": 4.930573836911645e-07,
      "loss": 3.371,
      "step": 467660
    },
    {
      "epoch": 0.9743125,
      "grad_norm": 3.9168055057525635,
      "learning_rate": 4.922590241196289e-07,
      "loss": 3.3832,
      "step": 467670
    },
    {
      "epoch": 0.9743333333333334,
      "grad_norm": 3.5887105464935303,
      "learning_rate": 4.914613103623455e-07,
      "loss": 3.4317,
      "step": 467680
    },
    {
      "epoch": 0.9743541666666666,
      "grad_norm": 3.08154296875,
      "learning_rate": 4.90664242422778e-07,
      "loss": 3.4147,
      "step": 467690
    },
    {
      "epoch": 0.974375,
      "grad_norm": 3.375725746154785,
      "learning_rate": 4.898678203043572e-07,
      "loss": 3.4866,
      "step": 467700
    },
    {
      "epoch": 0.9743958333333333,
      "grad_norm": 2.7937846183776855,
      "learning_rate": 4.8907204401053e-07,
      "loss": 3.3153,
      "step": 467710
    },
    {
      "epoch": 0.9744166666666667,
      "grad_norm": 3.6185686588287354,
      "learning_rate": 4.882769135447273e-07,
      "loss": 3.4536,
      "step": 467720
    },
    {
      "epoch": 0.9744375,
      "grad_norm": 2.6379191875457764,
      "learning_rate": 4.874824289103796e-07,
      "loss": 3.3598,
      "step": 467730
    },
    {
      "epoch": 0.9744583333333333,
      "grad_norm": 3.1920104026794434,
      "learning_rate": 4.86688590110934e-07,
      "loss": 3.5,
      "step": 467740
    },
    {
      "epoch": 0.9744791666666667,
      "grad_norm": 2.958437919616699,
      "learning_rate": 4.858953971498214e-07,
      "loss": 3.2425,
      "step": 467750
    },
    {
      "epoch": 0.9745,
      "grad_norm": 4.0640764236450195,
      "learning_rate": 4.851028500304555e-07,
      "loss": 3.4654,
      "step": 467760
    },
    {
      "epoch": 0.9745208333333333,
      "grad_norm": 2.8014607429504395,
      "learning_rate": 4.843109487562503e-07,
      "loss": 3.4079,
      "step": 467770
    },
    {
      "epoch": 0.9745416666666666,
      "grad_norm": 2.9140686988830566,
      "learning_rate": 4.835196933306528e-07,
      "loss": 3.4951,
      "step": 467780
    },
    {
      "epoch": 0.9745625,
      "grad_norm": 2.5228586196899414,
      "learning_rate": 4.827290837570608e-07,
      "loss": 3.5231,
      "step": 467790
    },
    {
      "epoch": 0.9745833333333334,
      "grad_norm": 4.3354034423828125,
      "learning_rate": 4.819391200389045e-07,
      "loss": 3.396,
      "step": 467800
    },
    {
      "epoch": 0.9746041666666667,
      "grad_norm": 3.4853532314300537,
      "learning_rate": 4.811498021795812e-07,
      "loss": 3.4585,
      "step": 467810
    },
    {
      "epoch": 0.974625,
      "grad_norm": 2.680997371673584,
      "learning_rate": 4.80361130182505e-07,
      "loss": 3.3643,
      "step": 467820
    },
    {
      "epoch": 0.9746458333333333,
      "grad_norm": 3.660341262817383,
      "learning_rate": 4.795731040510897e-07,
      "loss": 3.4188,
      "step": 467830
    },
    {
      "epoch": 0.9746666666666667,
      "grad_norm": 3.1373512744903564,
      "learning_rate": 4.787857237887327e-07,
      "loss": 3.392,
      "step": 467840
    },
    {
      "epoch": 0.9746875,
      "grad_norm": 3.418881893157959,
      "learning_rate": 4.779989893988312e-07,
      "loss": 3.4888,
      "step": 467850
    },
    {
      "epoch": 0.9747083333333333,
      "grad_norm": 2.965067148208618,
      "learning_rate": 4.772129008847991e-07,
      "loss": 3.4707,
      "step": 467860
    },
    {
      "epoch": 0.9747291666666666,
      "grad_norm": 2.9500138759613037,
      "learning_rate": 4.7642745825001716e-07,
      "loss": 3.3891,
      "step": 467870
    },
    {
      "epoch": 0.97475,
      "grad_norm": 4.939417362213135,
      "learning_rate": 4.756426614978659e-07,
      "loss": 3.3874,
      "step": 467880
    },
    {
      "epoch": 0.9747708333333334,
      "grad_norm": 3.043896198272705,
      "learning_rate": 4.7485851063177593e-07,
      "loss": 3.4209,
      "step": 467890
    },
    {
      "epoch": 0.9747916666666666,
      "grad_norm": 2.9394729137420654,
      "learning_rate": 4.740750056551113e-07,
      "loss": 3.4374,
      "step": 467900
    },
    {
      "epoch": 0.9748125,
      "grad_norm": 3.346203565597534,
      "learning_rate": 4.732921465712358e-07,
      "loss": 3.4319,
      "step": 467910
    },
    {
      "epoch": 0.9748333333333333,
      "grad_norm": 2.836407423019409,
      "learning_rate": 4.725099333835636e-07,
      "loss": 3.4158,
      "step": 467920
    },
    {
      "epoch": 0.9748541666666667,
      "grad_norm": 2.6832833290100098,
      "learning_rate": 4.717283660954752e-07,
      "loss": 3.2559,
      "step": 467930
    },
    {
      "epoch": 0.974875,
      "grad_norm": 3.0427989959716797,
      "learning_rate": 4.709474447103012e-07,
      "loss": 3.4429,
      "step": 467940
    },
    {
      "epoch": 0.9748958333333333,
      "grad_norm": 3.0554184913635254,
      "learning_rate": 4.7016716923147233e-07,
      "loss": 3.4553,
      "step": 467950
    },
    {
      "epoch": 0.9749166666666667,
      "grad_norm": 2.9121291637420654,
      "learning_rate": 4.693875396623359e-07,
      "loss": 3.3832,
      "step": 467960
    },
    {
      "epoch": 0.9749375,
      "grad_norm": 3.335225820541382,
      "learning_rate": 4.6860855600623915e-07,
      "loss": 3.3875,
      "step": 467970
    },
    {
      "epoch": 0.9749583333333334,
      "grad_norm": 4.425565719604492,
      "learning_rate": 4.678302182665794e-07,
      "loss": 3.4379,
      "step": 467980
    },
    {
      "epoch": 0.9749791666666666,
      "grad_norm": 2.8223214149475098,
      "learning_rate": 4.670525264466873e-07,
      "loss": 3.3707,
      "step": 467990
    },
    {
      "epoch": 0.975,
      "grad_norm": 3.517019271850586,
      "learning_rate": 4.662754805499602e-07,
      "loss": 3.5185,
      "step": 468000
    },
    {
      "epoch": 0.975,
      "eval_loss": 3.5200839042663574,
      "eval_runtime": 7.3469,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 468000
    },
    {
      "epoch": 0.9750208333333333,
      "grad_norm": 3.2826778888702393,
      "learning_rate": 4.654990805797121e-07,
      "loss": 3.5173,
      "step": 468010
    },
    {
      "epoch": 0.9750416666666667,
      "grad_norm": 3.5992345809936523,
      "learning_rate": 4.6472332653934017e-07,
      "loss": 3.4495,
      "step": 468020
    },
    {
      "epoch": 0.9750625,
      "grad_norm": 4.398700714111328,
      "learning_rate": 4.6394821843215856e-07,
      "loss": 3.5483,
      "step": 468030
    },
    {
      "epoch": 0.9750833333333333,
      "grad_norm": 3.549330949783325,
      "learning_rate": 4.6317375626153117e-07,
      "loss": 3.3229,
      "step": 468040
    },
    {
      "epoch": 0.9751041666666667,
      "grad_norm": 2.7945656776428223,
      "learning_rate": 4.623999400308054e-07,
      "loss": 3.3096,
      "step": 468050
    },
    {
      "epoch": 0.975125,
      "grad_norm": 3.0831921100616455,
      "learning_rate": 4.616267697433118e-07,
      "loss": 3.38,
      "step": 468060
    },
    {
      "epoch": 0.9751458333333334,
      "grad_norm": 3.3628506660461426,
      "learning_rate": 4.6085424540241444e-07,
      "loss": 3.383,
      "step": 468070
    },
    {
      "epoch": 0.9751666666666666,
      "grad_norm": 3.8131842613220215,
      "learning_rate": 4.600823670114273e-07,
      "loss": 3.4078,
      "step": 468080
    },
    {
      "epoch": 0.9751875,
      "grad_norm": 2.924727201461792,
      "learning_rate": 4.5931113457369773e-07,
      "loss": 3.5104,
      "step": 468090
    },
    {
      "epoch": 0.9752083333333333,
      "grad_norm": 3.962581157684326,
      "learning_rate": 4.5854054809253973e-07,
      "loss": 3.3531,
      "step": 468100
    },
    {
      "epoch": 0.9752291666666667,
      "grad_norm": 2.658967971801758,
      "learning_rate": 4.5777060757130057e-07,
      "loss": 3.3687,
      "step": 468110
    },
    {
      "epoch": 0.97525,
      "grad_norm": 2.7605535984039307,
      "learning_rate": 4.57001313013311e-07,
      "loss": 3.4174,
      "step": 468120
    },
    {
      "epoch": 0.9752708333333333,
      "grad_norm": 2.938929319381714,
      "learning_rate": 4.5623266442186834e-07,
      "loss": 3.4361,
      "step": 468130
    },
    {
      "epoch": 0.9752916666666667,
      "grad_norm": 3.0624239444732666,
      "learning_rate": 4.554646618003033e-07,
      "loss": 3.5507,
      "step": 468140
    },
    {
      "epoch": 0.9753125,
      "grad_norm": 3.0527286529541016,
      "learning_rate": 4.5469730515194647e-07,
      "loss": 3.2647,
      "step": 468150
    },
    {
      "epoch": 0.9753333333333334,
      "grad_norm": 3.6524863243103027,
      "learning_rate": 4.539305944800953e-07,
      "loss": 3.472,
      "step": 468160
    },
    {
      "epoch": 0.9753541666666666,
      "grad_norm": 2.533339500427246,
      "learning_rate": 4.531645297880804e-07,
      "loss": 3.4347,
      "step": 468170
    },
    {
      "epoch": 0.975375,
      "grad_norm": 3.209317922592163,
      "learning_rate": 4.523991110791991e-07,
      "loss": 3.5766,
      "step": 468180
    },
    {
      "epoch": 0.9753958333333334,
      "grad_norm": 2.694671154022217,
      "learning_rate": 4.516343383567489e-07,
      "loss": 3.4726,
      "step": 468190
    },
    {
      "epoch": 0.9754166666666667,
      "grad_norm": 3.064110040664673,
      "learning_rate": 4.5087021162404367e-07,
      "loss": 3.4521,
      "step": 468200
    },
    {
      "epoch": 0.9754375,
      "grad_norm": 3.6093051433563232,
      "learning_rate": 4.501067308843975e-07,
      "loss": 3.5195,
      "step": 468210
    },
    {
      "epoch": 0.9754583333333333,
      "grad_norm": 3.451634407043457,
      "learning_rate": 4.4934389614107447e-07,
      "loss": 3.4131,
      "step": 468220
    },
    {
      "epoch": 0.9754791666666667,
      "grad_norm": 3.7157726287841797,
      "learning_rate": 4.4858170739740516e-07,
      "loss": 3.4204,
      "step": 468230
    },
    {
      "epoch": 0.9755,
      "grad_norm": 2.9945144653320312,
      "learning_rate": 4.4782016465667035e-07,
      "loss": 3.4739,
      "step": 468240
    },
    {
      "epoch": 0.9755208333333333,
      "grad_norm": 4.071244239807129,
      "learning_rate": 4.470592679221341e-07,
      "loss": 3.4168,
      "step": 468250
    },
    {
      "epoch": 0.9755416666666666,
      "grad_norm": 3.1749069690704346,
      "learning_rate": 4.46299017197127e-07,
      "loss": 3.4745,
      "step": 468260
    },
    {
      "epoch": 0.9755625,
      "grad_norm": 3.0281643867492676,
      "learning_rate": 4.4553941248489655e-07,
      "loss": 3.3497,
      "step": 468270
    },
    {
      "epoch": 0.9755833333333334,
      "grad_norm": 2.5963966846466064,
      "learning_rate": 4.447804537887401e-07,
      "loss": 3.3652,
      "step": 468280
    },
    {
      "epoch": 0.9756041666666667,
      "grad_norm": 4.789345741271973,
      "learning_rate": 4.440221411119382e-07,
      "loss": 3.3334,
      "step": 468290
    },
    {
      "epoch": 0.975625,
      "grad_norm": 3.3676953315734863,
      "learning_rate": 4.432644744577551e-07,
      "loss": 3.5109,
      "step": 468300
    },
    {
      "epoch": 0.9756458333333333,
      "grad_norm": 2.8538296222686768,
      "learning_rate": 4.425074538294715e-07,
      "loss": 3.2668,
      "step": 468310
    },
    {
      "epoch": 0.9756666666666667,
      "grad_norm": 3.0893197059631348,
      "learning_rate": 4.41751079230368e-07,
      "loss": 3.4911,
      "step": 468320
    },
    {
      "epoch": 0.9756875,
      "grad_norm": 3.334787368774414,
      "learning_rate": 4.409953506636921e-07,
      "loss": 3.3267,
      "step": 468330
    },
    {
      "epoch": 0.9757083333333333,
      "grad_norm": 3.448488235473633,
      "learning_rate": 4.402402681327077e-07,
      "loss": 3.5277,
      "step": 468340
    },
    {
      "epoch": 0.9757291666666666,
      "grad_norm": 4.609407901763916,
      "learning_rate": 4.394858316407124e-07,
      "loss": 3.3904,
      "step": 468350
    },
    {
      "epoch": 0.97575,
      "grad_norm": 2.3903276920318604,
      "learning_rate": 4.3873204119092007e-07,
      "loss": 3.5698,
      "step": 468360
    },
    {
      "epoch": 0.9757708333333334,
      "grad_norm": 3.3100461959838867,
      "learning_rate": 4.3797889678661157e-07,
      "loss": 3.2827,
      "step": 468370
    },
    {
      "epoch": 0.9757916666666666,
      "grad_norm": 2.9194693565368652,
      "learning_rate": 4.372263984310176e-07,
      "loss": 3.4384,
      "step": 468380
    },
    {
      "epoch": 0.9758125,
      "grad_norm": 3.907540798187256,
      "learning_rate": 4.364745461274188e-07,
      "loss": 3.3179,
      "step": 468390
    },
    {
      "epoch": 0.9758333333333333,
      "grad_norm": 2.639103651046753,
      "learning_rate": 4.3572333987904606e-07,
      "loss": 3.3843,
      "step": 468400
    },
    {
      "epoch": 0.9758541666666667,
      "grad_norm": 3.654555082321167,
      "learning_rate": 4.349727796891467e-07,
      "loss": 3.4927,
      "step": 468410
    },
    {
      "epoch": 0.975875,
      "grad_norm": 3.964416265487671,
      "learning_rate": 4.3422286556095143e-07,
      "loss": 3.3981,
      "step": 468420
    },
    {
      "epoch": 0.9758958333333333,
      "grad_norm": 4.1094770431518555,
      "learning_rate": 4.3347359749772434e-07,
      "loss": 3.5228,
      "step": 468430
    },
    {
      "epoch": 0.9759166666666667,
      "grad_norm": 3.0666463375091553,
      "learning_rate": 4.3272497550269623e-07,
      "loss": 3.4036,
      "step": 468440
    },
    {
      "epoch": 0.9759375,
      "grad_norm": 2.7899813652038574,
      "learning_rate": 4.3197699957908117e-07,
      "loss": 3.3981,
      "step": 468450
    },
    {
      "epoch": 0.9759583333333334,
      "grad_norm": 3.151448965072632,
      "learning_rate": 4.312296697301265e-07,
      "loss": 3.2553,
      "step": 468460
    },
    {
      "epoch": 0.9759791666666666,
      "grad_norm": 3.2511885166168213,
      "learning_rate": 4.304829859590464e-07,
      "loss": 3.4452,
      "step": 468470
    },
    {
      "epoch": 0.976,
      "grad_norm": 3.0519540309906006,
      "learning_rate": 4.297369482690882e-07,
      "loss": 3.294,
      "step": 468480
    },
    {
      "epoch": 0.9760208333333333,
      "grad_norm": 3.3137028217315674,
      "learning_rate": 4.289915566634661e-07,
      "loss": 3.3227,
      "step": 468490
    },
    {
      "epoch": 0.9760416666666667,
      "grad_norm": 2.981682062149048,
      "learning_rate": 4.282468111453774e-07,
      "loss": 3.4914,
      "step": 468500
    },
    {
      "epoch": 0.9760625,
      "grad_norm": 3.6330440044403076,
      "learning_rate": 4.275027117180696e-07,
      "loss": 3.4559,
      "step": 468510
    },
    {
      "epoch": 0.9760833333333333,
      "grad_norm": 2.815105438232422,
      "learning_rate": 4.267592583847568e-07,
      "loss": 3.3746,
      "step": 468520
    },
    {
      "epoch": 0.9761041666666667,
      "grad_norm": 3.4530670642852783,
      "learning_rate": 4.260164511486197e-07,
      "loss": 3.4231,
      "step": 468530
    },
    {
      "epoch": 0.976125,
      "grad_norm": 3.2565042972564697,
      "learning_rate": 4.2527429001288914e-07,
      "loss": 3.4916,
      "step": 468540
    },
    {
      "epoch": 0.9761458333333334,
      "grad_norm": 3.7354631423950195,
      "learning_rate": 4.245327749807792e-07,
      "loss": 3.4665,
      "step": 468550
    },
    {
      "epoch": 0.9761666666666666,
      "grad_norm": 3.244729518890381,
      "learning_rate": 4.2379190605547064e-07,
      "loss": 3.4483,
      "step": 468560
    },
    {
      "epoch": 0.9761875,
      "grad_norm": 3.780158519744873,
      "learning_rate": 4.2305168324017755e-07,
      "loss": 3.3889,
      "step": 468570
    },
    {
      "epoch": 0.9762083333333333,
      "grad_norm": 2.979424238204956,
      "learning_rate": 4.223121065380974e-07,
      "loss": 3.4607,
      "step": 468580
    },
    {
      "epoch": 0.9762291666666667,
      "grad_norm": 3.730027437210083,
      "learning_rate": 4.21573175952411e-07,
      "loss": 3.4662,
      "step": 468590
    },
    {
      "epoch": 0.97625,
      "grad_norm": 3.3436224460601807,
      "learning_rate": 4.2083489148633243e-07,
      "loss": 3.4435,
      "step": 468600
    },
    {
      "epoch": 0.9762708333333333,
      "grad_norm": 2.8485779762268066,
      "learning_rate": 4.200972531430424e-07,
      "loss": 3.3781,
      "step": 468610
    },
    {
      "epoch": 0.9762916666666667,
      "grad_norm": 3.828094005584717,
      "learning_rate": 4.1936026092570516e-07,
      "loss": 3.4409,
      "step": 468620
    },
    {
      "epoch": 0.9763125,
      "grad_norm": 3.040958881378174,
      "learning_rate": 4.186239148375514e-07,
      "loss": 3.4352,
      "step": 468630
    },
    {
      "epoch": 0.9763333333333334,
      "grad_norm": 2.646854877471924,
      "learning_rate": 4.17888214881712e-07,
      "loss": 3.2946,
      "step": 468640
    },
    {
      "epoch": 0.9763541666666666,
      "grad_norm": 3.394421100616455,
      "learning_rate": 4.171531610613843e-07,
      "loss": 3.4007,
      "step": 468650
    },
    {
      "epoch": 0.976375,
      "grad_norm": 2.823927164077759,
      "learning_rate": 4.1641875337976584e-07,
      "loss": 3.4058,
      "step": 468660
    },
    {
      "epoch": 0.9763958333333334,
      "grad_norm": 3.0592916011810303,
      "learning_rate": 4.1568499184000403e-07,
      "loss": 3.3989,
      "step": 468670
    },
    {
      "epoch": 0.9764166666666667,
      "grad_norm": 3.1409966945648193,
      "learning_rate": 4.1495187644526306e-07,
      "loss": 3.3551,
      "step": 468680
    },
    {
      "epoch": 0.9764375,
      "grad_norm": 3.3936290740966797,
      "learning_rate": 4.142194071987237e-07,
      "loss": 3.4744,
      "step": 468690
    },
    {
      "epoch": 0.9764583333333333,
      "grad_norm": 4.381843566894531,
      "learning_rate": 4.134875841035501e-07,
      "loss": 3.2901,
      "step": 468700
    },
    {
      "epoch": 0.9764791666666667,
      "grad_norm": 3.1951847076416016,
      "learning_rate": 4.127564071628897e-07,
      "loss": 3.4455,
      "step": 468710
    },
    {
      "epoch": 0.9765,
      "grad_norm": 3.035306692123413,
      "learning_rate": 4.1202587637992333e-07,
      "loss": 3.411,
      "step": 468720
    },
    {
      "epoch": 0.9765208333333333,
      "grad_norm": 2.705775260925293,
      "learning_rate": 4.112959917577985e-07,
      "loss": 3.2788,
      "step": 468730
    },
    {
      "epoch": 0.9765416666666666,
      "grad_norm": 2.6715171337127686,
      "learning_rate": 4.1056675329964593e-07,
      "loss": 3.4052,
      "step": 468740
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 3.480339765548706,
      "learning_rate": 4.0983816100864653e-07,
      "loss": 3.4328,
      "step": 468750
    },
    {
      "epoch": 0.9765833333333334,
      "grad_norm": 3.5286028385162354,
      "learning_rate": 4.0911021488793106e-07,
      "loss": 3.3067,
      "step": 468760
    },
    {
      "epoch": 0.9766041666666667,
      "grad_norm": 3.0606882572174072,
      "learning_rate": 4.08382914940647e-07,
      "loss": 3.4274,
      "step": 468770
    },
    {
      "epoch": 0.976625,
      "grad_norm": 3.2798120975494385,
      "learning_rate": 4.076562611699419e-07,
      "loss": 3.58,
      "step": 468780
    },
    {
      "epoch": 0.9766458333333333,
      "grad_norm": 3.068321466445923,
      "learning_rate": 4.0693025357892984e-07,
      "loss": 3.4721,
      "step": 468790
    },
    {
      "epoch": 0.9766666666666667,
      "grad_norm": 4.52750825881958,
      "learning_rate": 4.062048921707917e-07,
      "loss": 3.3892,
      "step": 468800
    },
    {
      "epoch": 0.9766875,
      "grad_norm": 3.273050308227539,
      "learning_rate": 4.0548017694860824e-07,
      "loss": 3.4141,
      "step": 468810
    },
    {
      "epoch": 0.9767083333333333,
      "grad_norm": 3.0710928440093994,
      "learning_rate": 4.0475610791556034e-07,
      "loss": 3.4267,
      "step": 468820
    },
    {
      "epoch": 0.9767291666666666,
      "grad_norm": 2.851545572280884,
      "learning_rate": 4.040326850747455e-07,
      "loss": 3.3818,
      "step": 468830
    },
    {
      "epoch": 0.97675,
      "grad_norm": 3.4501984119415283,
      "learning_rate": 4.033099084292946e-07,
      "loss": 3.3826,
      "step": 468840
    },
    {
      "epoch": 0.9767708333333334,
      "grad_norm": 2.8233885765075684,
      "learning_rate": 4.025877779823217e-07,
      "loss": 3.4542,
      "step": 468850
    },
    {
      "epoch": 0.9767916666666666,
      "grad_norm": 3.5849502086639404,
      "learning_rate": 4.0186629373695766e-07,
      "loss": 3.4249,
      "step": 468860
    },
    {
      "epoch": 0.9768125,
      "grad_norm": 3.0318150520324707,
      "learning_rate": 4.011454556963167e-07,
      "loss": 3.3522,
      "step": 468870
    },
    {
      "epoch": 0.9768333333333333,
      "grad_norm": 4.135766983032227,
      "learning_rate": 4.0042526386351305e-07,
      "loss": 3.4957,
      "step": 468880
    },
    {
      "epoch": 0.9768541666666667,
      "grad_norm": 2.9239485263824463,
      "learning_rate": 3.997057182416774e-07,
      "loss": 3.4928,
      "step": 468890
    },
    {
      "epoch": 0.976875,
      "grad_norm": 3.219040632247925,
      "learning_rate": 3.989868188338741e-07,
      "loss": 3.4852,
      "step": 468900
    },
    {
      "epoch": 0.9768958333333333,
      "grad_norm": 3.762498140335083,
      "learning_rate": 3.982685656432338e-07,
      "loss": 3.3168,
      "step": 468910
    },
    {
      "epoch": 0.9769166666666667,
      "grad_norm": 4.271807670593262,
      "learning_rate": 3.9755095867285427e-07,
      "loss": 3.454,
      "step": 468920
    },
    {
      "epoch": 0.9769375,
      "grad_norm": 2.8989055156707764,
      "learning_rate": 3.9683399792584945e-07,
      "loss": 3.3123,
      "step": 468930
    },
    {
      "epoch": 0.9769583333333334,
      "grad_norm": 3.1647911071777344,
      "learning_rate": 3.961176834053004e-07,
      "loss": 3.3363,
      "step": 468940
    },
    {
      "epoch": 0.9769791666666666,
      "grad_norm": 3.214555025100708,
      "learning_rate": 3.9540201511430446e-07,
      "loss": 3.4325,
      "step": 468950
    },
    {
      "epoch": 0.977,
      "grad_norm": 3.7712371349334717,
      "learning_rate": 3.9468699305594266e-07,
      "loss": 3.4706,
      "step": 468960
    },
    {
      "epoch": 0.9770208333333333,
      "grad_norm": 2.7917606830596924,
      "learning_rate": 3.939726172333291e-07,
      "loss": 3.3724,
      "step": 468970
    },
    {
      "epoch": 0.9770416666666667,
      "grad_norm": 3.1910839080810547,
      "learning_rate": 3.9325888764952795e-07,
      "loss": 3.6157,
      "step": 468980
    },
    {
      "epoch": 0.9770625,
      "grad_norm": 3.2980897426605225,
      "learning_rate": 3.9254580430763684e-07,
      "loss": 3.5073,
      "step": 468990
    },
    {
      "epoch": 0.9770833333333333,
      "grad_norm": 3.8112471103668213,
      "learning_rate": 3.918333672107365e-07,
      "loss": 3.3033,
      "step": 469000
    },
    {
      "epoch": 0.9770833333333333,
      "eval_loss": 3.5206093788146973,
      "eval_runtime": 7.2893,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.412,
      "step": 469000
    },
    {
      "epoch": 0.9771041666666667,
      "grad_norm": 2.658447504043579,
      "learning_rate": 3.911215763618747e-07,
      "loss": 3.3351,
      "step": 469010
    },
    {
      "epoch": 0.977125,
      "grad_norm": 3.055267095565796,
      "learning_rate": 3.904104317641654e-07,
      "loss": 3.4322,
      "step": 469020
    },
    {
      "epoch": 0.9771458333333334,
      "grad_norm": 2.658048391342163,
      "learning_rate": 3.8969993342065633e-07,
      "loss": 3.4164,
      "step": 469030
    },
    {
      "epoch": 0.9771666666666666,
      "grad_norm": 2.8392112255096436,
      "learning_rate": 3.889900813344282e-07,
      "loss": 3.3513,
      "step": 469040
    },
    {
      "epoch": 0.9771875,
      "grad_norm": 2.7442209720611572,
      "learning_rate": 3.882808755085454e-07,
      "loss": 3.5037,
      "step": 469050
    },
    {
      "epoch": 0.9772083333333333,
      "grad_norm": 3.18281888961792,
      "learning_rate": 3.8757231594605534e-07,
      "loss": 3.5196,
      "step": 469060
    },
    {
      "epoch": 0.9772291666666667,
      "grad_norm": 2.977102041244507,
      "learning_rate": 3.868644026500389e-07,
      "loss": 3.4043,
      "step": 469070
    },
    {
      "epoch": 0.97725,
      "grad_norm": 2.9695451259613037,
      "learning_rate": 3.8615713562356045e-07,
      "loss": 3.2953,
      "step": 469080
    },
    {
      "epoch": 0.9772708333333333,
      "grad_norm": 3.2440199851989746,
      "learning_rate": 3.8545051486965075e-07,
      "loss": 3.3801,
      "step": 469090
    },
    {
      "epoch": 0.9772916666666667,
      "grad_norm": 3.7140820026397705,
      "learning_rate": 3.847445403913574e-07,
      "loss": 3.4658,
      "step": 469100
    },
    {
      "epoch": 0.9773125,
      "grad_norm": 3.8925299644470215,
      "learning_rate": 3.8403921219176126e-07,
      "loss": 3.5002,
      "step": 469110
    },
    {
      "epoch": 0.9773333333333334,
      "grad_norm": 3.2770392894744873,
      "learning_rate": 3.833345302739099e-07,
      "loss": 3.3784,
      "step": 469120
    },
    {
      "epoch": 0.9773541666666666,
      "grad_norm": 3.2926318645477295,
      "learning_rate": 3.82630494640801e-07,
      "loss": 3.3803,
      "step": 469130
    },
    {
      "epoch": 0.977375,
      "grad_norm": 3.035787582397461,
      "learning_rate": 3.819271052955319e-07,
      "loss": 3.4371,
      "step": 469140
    },
    {
      "epoch": 0.9773958333333334,
      "grad_norm": 3.698368787765503,
      "learning_rate": 3.8122436224110043e-07,
      "loss": 3.4607,
      "step": 469150
    },
    {
      "epoch": 0.9774166666666667,
      "grad_norm": 3.0250766277313232,
      "learning_rate": 3.8052226548055396e-07,
      "loss": 3.362,
      "step": 469160
    },
    {
      "epoch": 0.9774375,
      "grad_norm": 2.8900115489959717,
      "learning_rate": 3.798208150169235e-07,
      "loss": 3.3181,
      "step": 469170
    },
    {
      "epoch": 0.9774583333333333,
      "grad_norm": 3.611483573913574,
      "learning_rate": 3.791200108532566e-07,
      "loss": 3.3796,
      "step": 469180
    },
    {
      "epoch": 0.9774791666666667,
      "grad_norm": 3.6713685989379883,
      "learning_rate": 3.784198529925675e-07,
      "loss": 3.4175,
      "step": 469190
    },
    {
      "epoch": 0.9775,
      "grad_norm": 2.8391051292419434,
      "learning_rate": 3.7772034143787044e-07,
      "loss": 3.3582,
      "step": 469200
    },
    {
      "epoch": 0.9775208333333333,
      "grad_norm": 2.6965646743774414,
      "learning_rate": 3.7702147619221304e-07,
      "loss": 3.3596,
      "step": 469210
    },
    {
      "epoch": 0.9775416666666666,
      "grad_norm": 3.3995304107666016,
      "learning_rate": 3.7632325725857616e-07,
      "loss": 3.5279,
      "step": 469220
    },
    {
      "epoch": 0.9775625,
      "grad_norm": 3.1963605880737305,
      "learning_rate": 3.756256846400241e-07,
      "loss": 3.373,
      "step": 469230
    },
    {
      "epoch": 0.9775833333333334,
      "grad_norm": 2.935859203338623,
      "learning_rate": 3.7492875833952106e-07,
      "loss": 3.484,
      "step": 469240
    },
    {
      "epoch": 0.9776041666666667,
      "grad_norm": 2.9056413173675537,
      "learning_rate": 3.742324783600981e-07,
      "loss": 3.3475,
      "step": 469250
    },
    {
      "epoch": 0.977625,
      "grad_norm": 3.939676523208618,
      "learning_rate": 3.73536844704786e-07,
      "loss": 3.5267,
      "step": 469260
    },
    {
      "epoch": 0.9776458333333333,
      "grad_norm": 2.902773857116699,
      "learning_rate": 3.7284185737654903e-07,
      "loss": 3.4814,
      "step": 469270
    },
    {
      "epoch": 0.9776666666666667,
      "grad_norm": 3.8659708499908447,
      "learning_rate": 3.721475163784182e-07,
      "loss": 3.2727,
      "step": 469280
    },
    {
      "epoch": 0.9776875,
      "grad_norm": 2.8493988513946533,
      "learning_rate": 3.714538217133745e-07,
      "loss": 3.4358,
      "step": 469290
    },
    {
      "epoch": 0.9777083333333333,
      "grad_norm": 3.469855546951294,
      "learning_rate": 3.70760773384432e-07,
      "loss": 3.4962,
      "step": 469300
    },
    {
      "epoch": 0.9777291666666666,
      "grad_norm": 4.488167762756348,
      "learning_rate": 3.700683713945718e-07,
      "loss": 3.386,
      "step": 469310
    },
    {
      "epoch": 0.97775,
      "grad_norm": 3.2349348068237305,
      "learning_rate": 3.6937661574679146e-07,
      "loss": 3.4351,
      "step": 469320
    },
    {
      "epoch": 0.9777708333333334,
      "grad_norm": 3.0830507278442383,
      "learning_rate": 3.686855064440719e-07,
      "loss": 3.3853,
      "step": 469330
    },
    {
      "epoch": 0.9777916666666666,
      "grad_norm": 4.839798927307129,
      "learning_rate": 3.679950434894108e-07,
      "loss": 3.3481,
      "step": 469340
    },
    {
      "epoch": 0.9778125,
      "grad_norm": 3.657893419265747,
      "learning_rate": 3.6730522688577233e-07,
      "loss": 3.2808,
      "step": 469350
    },
    {
      "epoch": 0.9778333333333333,
      "grad_norm": 3.4255211353302,
      "learning_rate": 3.666160566361542e-07,
      "loss": 3.3488,
      "step": 469360
    },
    {
      "epoch": 0.9778541666666667,
      "grad_norm": 3.055631399154663,
      "learning_rate": 3.659275327435207e-07,
      "loss": 3.3634,
      "step": 469370
    },
    {
      "epoch": 0.977875,
      "grad_norm": 2.568951368331909,
      "learning_rate": 3.6523965521085273e-07,
      "loss": 3.3841,
      "step": 469380
    },
    {
      "epoch": 0.9778958333333333,
      "grad_norm": 3.8757529258728027,
      "learning_rate": 3.6455242404113126e-07,
      "loss": 3.4258,
      "step": 469390
    },
    {
      "epoch": 0.9779166666666667,
      "grad_norm": 3.015305280685425,
      "learning_rate": 3.6386583923730394e-07,
      "loss": 3.2979,
      "step": 469400
    },
    {
      "epoch": 0.9779375,
      "grad_norm": 3.3775596618652344,
      "learning_rate": 3.631799008023351e-07,
      "loss": 3.2999,
      "step": 469410
    },
    {
      "epoch": 0.9779583333333334,
      "grad_norm": 3.073486089706421,
      "learning_rate": 3.6249460873920555e-07,
      "loss": 3.3858,
      "step": 469420
    },
    {
      "epoch": 0.9779791666666666,
      "grad_norm": 2.7691903114318848,
      "learning_rate": 3.6180996305087974e-07,
      "loss": 3.3708,
      "step": 469430
    },
    {
      "epoch": 0.978,
      "grad_norm": 2.6366400718688965,
      "learning_rate": 3.6112596374028856e-07,
      "loss": 3.3933,
      "step": 469440
    },
    {
      "epoch": 0.9780208333333333,
      "grad_norm": 2.485584020614624,
      "learning_rate": 3.60442610810413e-07,
      "loss": 3.3952,
      "step": 469450
    },
    {
      "epoch": 0.9780416666666667,
      "grad_norm": 2.62050461769104,
      "learning_rate": 3.5975990426420076e-07,
      "loss": 3.4838,
      "step": 469460
    },
    {
      "epoch": 0.9780625,
      "grad_norm": 3.393165349960327,
      "learning_rate": 3.5907784410458276e-07,
      "loss": 3.4669,
      "step": 469470
    },
    {
      "epoch": 0.9780833333333333,
      "grad_norm": 2.7201311588287354,
      "learning_rate": 3.583964303345066e-07,
      "loss": 3.4394,
      "step": 469480
    },
    {
      "epoch": 0.9781041666666667,
      "grad_norm": 3.7122151851654053,
      "learning_rate": 3.577156629569367e-07,
      "loss": 3.4292,
      "step": 469490
    },
    {
      "epoch": 0.978125,
      "grad_norm": 3.5768558979034424,
      "learning_rate": 3.570355419748039e-07,
      "loss": 3.3161,
      "step": 469500
    },
    {
      "epoch": 0.9781458333333334,
      "grad_norm": 3.178027629852295,
      "learning_rate": 3.563560673910393e-07,
      "loss": 3.392,
      "step": 469510
    },
    {
      "epoch": 0.9781666666666666,
      "grad_norm": 3.6970324516296387,
      "learning_rate": 3.556772392085905e-07,
      "loss": 3.4267,
      "step": 469520
    },
    {
      "epoch": 0.9781875,
      "grad_norm": 3.907021999359131,
      "learning_rate": 3.5499905743038846e-07,
      "loss": 3.3765,
      "step": 469530
    },
    {
      "epoch": 0.9782083333333333,
      "grad_norm": 3.0285439491271973,
      "learning_rate": 3.543215220593476e-07,
      "loss": 3.3926,
      "step": 469540
    },
    {
      "epoch": 0.9782291666666667,
      "grad_norm": 2.697502851486206,
      "learning_rate": 3.5364463309839887e-07,
      "loss": 3.4722,
      "step": 469550
    },
    {
      "epoch": 0.97825,
      "grad_norm": 2.9724247455596924,
      "learning_rate": 3.529683905504732e-07,
      "loss": 3.3212,
      "step": 469560
    },
    {
      "epoch": 0.9782708333333333,
      "grad_norm": 4.179593563079834,
      "learning_rate": 3.522927944185017e-07,
      "loss": 3.3854,
      "step": 469570
    },
    {
      "epoch": 0.9782916666666667,
      "grad_norm": 2.843395709991455,
      "learning_rate": 3.516178447053819e-07,
      "loss": 3.5791,
      "step": 469580
    },
    {
      "epoch": 0.9783125,
      "grad_norm": 3.003873825073242,
      "learning_rate": 3.5094354141402825e-07,
      "loss": 3.3777,
      "step": 469590
    },
    {
      "epoch": 0.9783333333333334,
      "grad_norm": 3.130815029144287,
      "learning_rate": 3.502698845473717e-07,
      "loss": 3.4392,
      "step": 469600
    },
    {
      "epoch": 0.9783541666666666,
      "grad_norm": 3.555662155151367,
      "learning_rate": 3.495968741083266e-07,
      "loss": 3.3867,
      "step": 469610
    },
    {
      "epoch": 0.978375,
      "grad_norm": 3.2538628578186035,
      "learning_rate": 3.4892451009977395e-07,
      "loss": 3.5542,
      "step": 469620
    },
    {
      "epoch": 0.9783958333333334,
      "grad_norm": 2.7276852130889893,
      "learning_rate": 3.482527925246281e-07,
      "loss": 3.3993,
      "step": 469630
    },
    {
      "epoch": 0.9784166666666667,
      "grad_norm": 2.9536657333374023,
      "learning_rate": 3.4758172138580343e-07,
      "loss": 3.3591,
      "step": 469640
    },
    {
      "epoch": 0.9784375,
      "grad_norm": 2.761103868484497,
      "learning_rate": 3.469112966861809e-07,
      "loss": 3.3338,
      "step": 469650
    },
    {
      "epoch": 0.9784583333333333,
      "grad_norm": 2.814060688018799,
      "learning_rate": 3.4624151842867486e-07,
      "loss": 3.4698,
      "step": 469660
    },
    {
      "epoch": 0.9784791666666667,
      "grad_norm": 4.032703399658203,
      "learning_rate": 3.4557238661616635e-07,
      "loss": 3.3274,
      "step": 469670
    },
    {
      "epoch": 0.9785,
      "grad_norm": 2.4367129802703857,
      "learning_rate": 3.4490390125153643e-07,
      "loss": 3.4121,
      "step": 469680
    },
    {
      "epoch": 0.9785208333333333,
      "grad_norm": 2.891935110092163,
      "learning_rate": 3.442360623376994e-07,
      "loss": 3.4251,
      "step": 469690
    },
    {
      "epoch": 0.9785416666666666,
      "grad_norm": 2.7724666595458984,
      "learning_rate": 3.4356886987750297e-07,
      "loss": 3.498,
      "step": 469700
    },
    {
      "epoch": 0.9785625,
      "grad_norm": 3.029869556427002,
      "learning_rate": 3.4290232387386154e-07,
      "loss": 3.4331,
      "step": 469710
    },
    {
      "epoch": 0.9785833333333334,
      "grad_norm": 2.7552566528320312,
      "learning_rate": 3.4223642432965604e-07,
      "loss": 3.4542,
      "step": 469720
    },
    {
      "epoch": 0.9786041666666667,
      "grad_norm": 3.5566554069519043,
      "learning_rate": 3.4157117124773423e-07,
      "loss": 3.5756,
      "step": 469730
    },
    {
      "epoch": 0.978625,
      "grad_norm": 2.8960423469543457,
      "learning_rate": 3.4090656463099384e-07,
      "loss": 3.4293,
      "step": 469740
    },
    {
      "epoch": 0.9786458333333333,
      "grad_norm": 3.5335614681243896,
      "learning_rate": 3.4024260448229924e-07,
      "loss": 3.4364,
      "step": 469750
    },
    {
      "epoch": 0.9786666666666667,
      "grad_norm": 3.193182945251465,
      "learning_rate": 3.3957929080451474e-07,
      "loss": 3.6701,
      "step": 469760
    },
    {
      "epoch": 0.9786875,
      "grad_norm": 2.8433024883270264,
      "learning_rate": 3.389166236005214e-07,
      "loss": 3.3992,
      "step": 469770
    },
    {
      "epoch": 0.9787083333333333,
      "grad_norm": 3.061332941055298,
      "learning_rate": 3.3825460287315033e-07,
      "loss": 3.3722,
      "step": 469780
    },
    {
      "epoch": 0.9787291666666667,
      "grad_norm": 2.394712209701538,
      "learning_rate": 3.375932286252825e-07,
      "loss": 3.4297,
      "step": 469790
    },
    {
      "epoch": 0.97875,
      "grad_norm": 2.760246515274048,
      "learning_rate": 3.3693250085976566e-07,
      "loss": 3.4052,
      "step": 469800
    },
    {
      "epoch": 0.9787708333333334,
      "grad_norm": 3.4267258644104004,
      "learning_rate": 3.3627241957946415e-07,
      "loss": 3.3221,
      "step": 469810
    },
    {
      "epoch": 0.9787916666666666,
      "grad_norm": 3.1025640964508057,
      "learning_rate": 3.356129847872424e-07,
      "loss": 3.491,
      "step": 469820
    },
    {
      "epoch": 0.9788125,
      "grad_norm": 2.728320837020874,
      "learning_rate": 3.3495419648591484e-07,
      "loss": 3.4981,
      "step": 469830
    },
    {
      "epoch": 0.9788333333333333,
      "grad_norm": 2.870950222015381,
      "learning_rate": 3.3429605467834576e-07,
      "loss": 3.4483,
      "step": 469840
    },
    {
      "epoch": 0.9788541666666667,
      "grad_norm": 3.1893186569213867,
      "learning_rate": 3.3363855936736626e-07,
      "loss": 3.376,
      "step": 469850
    },
    {
      "epoch": 0.978875,
      "grad_norm": 2.7067525386810303,
      "learning_rate": 3.3298171055584077e-07,
      "loss": 3.4187,
      "step": 469860
    },
    {
      "epoch": 0.9788958333333333,
      "grad_norm": 4.543607711791992,
      "learning_rate": 3.3232550824658365e-07,
      "loss": 3.4907,
      "step": 469870
    },
    {
      "epoch": 0.9789166666666667,
      "grad_norm": 3.4309675693511963,
      "learning_rate": 3.3166995244244267e-07,
      "loss": 3.3392,
      "step": 469880
    },
    {
      "epoch": 0.9789375,
      "grad_norm": 3.417494297027588,
      "learning_rate": 3.3101504314624884e-07,
      "loss": 3.3812,
      "step": 469890
    },
    {
      "epoch": 0.9789583333333334,
      "grad_norm": 4.31828498840332,
      "learning_rate": 3.303607803608166e-07,
      "loss": 3.3326,
      "step": 469900
    },
    {
      "epoch": 0.9789791666666666,
      "grad_norm": 3.279282331466675,
      "learning_rate": 3.2970716408897704e-07,
      "loss": 3.3568,
      "step": 469910
    },
    {
      "epoch": 0.979,
      "grad_norm": 3.449354648590088,
      "learning_rate": 3.2905419433357785e-07,
      "loss": 3.5143,
      "step": 469920
    },
    {
      "epoch": 0.9790208333333333,
      "grad_norm": 2.5242066383361816,
      "learning_rate": 3.284018710974001e-07,
      "loss": 3.5539,
      "step": 469930
    },
    {
      "epoch": 0.9790416666666667,
      "grad_norm": 2.5526962280273438,
      "learning_rate": 3.2775019438329164e-07,
      "loss": 3.226,
      "step": 469940
    },
    {
      "epoch": 0.9790625,
      "grad_norm": 3.250420331954956,
      "learning_rate": 3.270991641940668e-07,
      "loss": 3.4328,
      "step": 469950
    },
    {
      "epoch": 0.9790833333333333,
      "grad_norm": 3.3090343475341797,
      "learning_rate": 3.2644878053252335e-07,
      "loss": 3.4244,
      "step": 469960
    },
    {
      "epoch": 0.9791041666666667,
      "grad_norm": 2.829517364501953,
      "learning_rate": 3.2579904340147566e-07,
      "loss": 3.4972,
      "step": 469970
    },
    {
      "epoch": 0.979125,
      "grad_norm": 3.5273334980010986,
      "learning_rate": 3.2514995280373824e-07,
      "loss": 3.442,
      "step": 469980
    },
    {
      "epoch": 0.9791458333333334,
      "grad_norm": 2.841543674468994,
      "learning_rate": 3.245015087420921e-07,
      "loss": 3.3275,
      "step": 469990
    },
    {
      "epoch": 0.9791666666666666,
      "grad_norm": 3.5118134021759033,
      "learning_rate": 3.2385371121936845e-07,
      "loss": 3.3354,
      "step": 470000
    },
    {
      "epoch": 0.9791666666666666,
      "eval_loss": 3.518723964691162,
      "eval_runtime": 6.9271,
      "eval_samples_per_second": 1.444,
      "eval_steps_per_second": 0.433,
      "step": 470000
    },
    {
      "epoch": 0.9791875,
      "grad_norm": 3.10420560836792,
      "learning_rate": 3.232065602383316e-07,
      "loss": 3.5451,
      "step": 470010
    },
    {
      "epoch": 0.9792083333333333,
      "grad_norm": 2.583733320236206,
      "learning_rate": 3.2256005580181265e-07,
      "loss": 3.2842,
      "step": 470020
    },
    {
      "epoch": 0.9792291666666667,
      "grad_norm": 3.024470090866089,
      "learning_rate": 3.219141979125761e-07,
      "loss": 3.3427,
      "step": 470030
    },
    {
      "epoch": 0.97925,
      "grad_norm": 3.739478349685669,
      "learning_rate": 3.212689865734364e-07,
      "loss": 3.6376,
      "step": 470040
    },
    {
      "epoch": 0.9792708333333333,
      "grad_norm": 2.7743072509765625,
      "learning_rate": 3.2062442178715785e-07,
      "loss": 3.4054,
      "step": 470050
    },
    {
      "epoch": 0.9792916666666667,
      "grad_norm": 2.8497931957244873,
      "learning_rate": 3.1998050355653835e-07,
      "loss": 3.4364,
      "step": 470060
    },
    {
      "epoch": 0.9793125,
      "grad_norm": 3.337908983230591,
      "learning_rate": 3.19337231884359e-07,
      "loss": 3.5064,
      "step": 470070
    },
    {
      "epoch": 0.9793333333333333,
      "grad_norm": 2.968850612640381,
      "learning_rate": 3.186946067733842e-07,
      "loss": 3.5126,
      "step": 470080
    },
    {
      "epoch": 0.9793541666666666,
      "grad_norm": 2.7208919525146484,
      "learning_rate": 3.1805262822641177e-07,
      "loss": 3.3625,
      "step": 470090
    },
    {
      "epoch": 0.979375,
      "grad_norm": 3.1418874263763428,
      "learning_rate": 3.174112962462061e-07,
      "loss": 3.4861,
      "step": 470100
    },
    {
      "epoch": 0.9793958333333334,
      "grad_norm": 3.109858989715576,
      "learning_rate": 3.1677061083551503e-07,
      "loss": 3.2855,
      "step": 470110
    },
    {
      "epoch": 0.9794166666666667,
      "grad_norm": 3.2449822425842285,
      "learning_rate": 3.16130571997153e-07,
      "loss": 3.618,
      "step": 470120
    },
    {
      "epoch": 0.9794375,
      "grad_norm": 2.9216830730438232,
      "learning_rate": 3.154911797338511e-07,
      "loss": 3.3354,
      "step": 470130
    },
    {
      "epoch": 0.9794583333333333,
      "grad_norm": 3.9582409858703613,
      "learning_rate": 3.1485243404837377e-07,
      "loss": 3.3067,
      "step": 470140
    },
    {
      "epoch": 0.9794791666666667,
      "grad_norm": 3.4029664993286133,
      "learning_rate": 3.142143349434689e-07,
      "loss": 3.5433,
      "step": 470150
    },
    {
      "epoch": 0.9795,
      "grad_norm": 3.4739229679107666,
      "learning_rate": 3.135768824219342e-07,
      "loss": 3.4455,
      "step": 470160
    },
    {
      "epoch": 0.9795208333333333,
      "grad_norm": 3.6624157428741455,
      "learning_rate": 3.129400764864842e-07,
      "loss": 3.5054,
      "step": 470170
    },
    {
      "epoch": 0.9795416666666666,
      "grad_norm": 3.088388204574585,
      "learning_rate": 3.1230391713988334e-07,
      "loss": 3.406,
      "step": 470180
    },
    {
      "epoch": 0.9795625,
      "grad_norm": 2.9138875007629395,
      "learning_rate": 3.116684043848794e-07,
      "loss": 3.463,
      "step": 470190
    },
    {
      "epoch": 0.9795833333333334,
      "grad_norm": 3.1064553260803223,
      "learning_rate": 3.110335382242202e-07,
      "loss": 3.4247,
      "step": 470200
    },
    {
      "epoch": 0.9796041666666667,
      "grad_norm": 3.117514133453369,
      "learning_rate": 3.103993186606368e-07,
      "loss": 3.4869,
      "step": 470210
    },
    {
      "epoch": 0.979625,
      "grad_norm": 3.4485998153686523,
      "learning_rate": 3.0976574569687716e-07,
      "loss": 3.2958,
      "step": 470220
    },
    {
      "epoch": 0.9796458333333333,
      "grad_norm": 3.3771369457244873,
      "learning_rate": 3.0913281933568903e-07,
      "loss": 3.2659,
      "step": 470230
    },
    {
      "epoch": 0.9796666666666667,
      "grad_norm": 3.5700483322143555,
      "learning_rate": 3.0850053957978684e-07,
      "loss": 3.4891,
      "step": 470240
    },
    {
      "epoch": 0.9796875,
      "grad_norm": 2.6794934272766113,
      "learning_rate": 3.078689064319184e-07,
      "loss": 3.2891,
      "step": 470250
    },
    {
      "epoch": 0.9797083333333333,
      "grad_norm": 3.7782065868377686,
      "learning_rate": 3.072379198947983e-07,
      "loss": 3.3958,
      "step": 470260
    },
    {
      "epoch": 0.9797291666666667,
      "grad_norm": 3.638101100921631,
      "learning_rate": 3.066075799711576e-07,
      "loss": 3.4457,
      "step": 470270
    },
    {
      "epoch": 0.97975,
      "grad_norm": 3.019510507583618,
      "learning_rate": 3.0597788666372745e-07,
      "loss": 3.4311,
      "step": 470280
    },
    {
      "epoch": 0.9797708333333334,
      "grad_norm": 3.0811705589294434,
      "learning_rate": 3.0534883997520575e-07,
      "loss": 3.52,
      "step": 470290
    },
    {
      "epoch": 0.9797916666666666,
      "grad_norm": 3.2210631370544434,
      "learning_rate": 3.047204399083403e-07,
      "loss": 3.4241,
      "step": 470300
    },
    {
      "epoch": 0.9798125,
      "grad_norm": 2.5433647632598877,
      "learning_rate": 3.040926864658122e-07,
      "loss": 3.4913,
      "step": 470310
    },
    {
      "epoch": 0.9798333333333333,
      "grad_norm": 2.6856439113616943,
      "learning_rate": 3.034655796503693e-07,
      "loss": 3.5018,
      "step": 470320
    },
    {
      "epoch": 0.9798541666666667,
      "grad_norm": 2.9047484397888184,
      "learning_rate": 3.028391194646762e-07,
      "loss": 3.4011,
      "step": 470330
    },
    {
      "epoch": 0.979875,
      "grad_norm": 3.100090742111206,
      "learning_rate": 3.0221330591148064e-07,
      "loss": 3.3978,
      "step": 470340
    },
    {
      "epoch": 0.9798958333333333,
      "grad_norm": 2.5648996829986572,
      "learning_rate": 3.015881389934638e-07,
      "loss": 3.3941,
      "step": 470350
    },
    {
      "epoch": 0.9799166666666667,
      "grad_norm": 2.6478054523468018,
      "learning_rate": 3.009636187133402e-07,
      "loss": 3.4609,
      "step": 470360
    },
    {
      "epoch": 0.9799375,
      "grad_norm": 3.345398426055908,
      "learning_rate": 3.00339745073791e-07,
      "loss": 3.3898,
      "step": 470370
    },
    {
      "epoch": 0.9799583333333334,
      "grad_norm": 3.0364081859588623,
      "learning_rate": 2.9971651807751406e-07,
      "loss": 3.3663,
      "step": 470380
    },
    {
      "epoch": 0.9799791666666666,
      "grad_norm": 3.0140535831451416,
      "learning_rate": 2.990939377272072e-07,
      "loss": 3.3628,
      "step": 470390
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.173088788986206,
      "learning_rate": 2.984720040255684e-07,
      "loss": 3.3173,
      "step": 470400
    },
    {
      "epoch": 0.9800208333333333,
      "grad_norm": 2.980372190475464,
      "learning_rate": 2.9785071697527865e-07,
      "loss": 3.4529,
      "step": 470410
    },
    {
      "epoch": 0.9800416666666667,
      "grad_norm": 2.7421319484710693,
      "learning_rate": 2.9723007657900253e-07,
      "loss": 3.2245,
      "step": 470420
    },
    {
      "epoch": 0.9800625,
      "grad_norm": 3.1231794357299805,
      "learning_rate": 2.96610082839438e-07,
      "loss": 3.5319,
      "step": 470430
    },
    {
      "epoch": 0.9800833333333333,
      "grad_norm": 3.5167200565338135,
      "learning_rate": 2.959907357592661e-07,
      "loss": 3.4612,
      "step": 470440
    },
    {
      "epoch": 0.9801041666666667,
      "grad_norm": 3.079197645187378,
      "learning_rate": 2.953720353411515e-07,
      "loss": 3.3424,
      "step": 470450
    },
    {
      "epoch": 0.980125,
      "grad_norm": 3.168992519378662,
      "learning_rate": 2.947539815877753e-07,
      "loss": 3.4591,
      "step": 470460
    },
    {
      "epoch": 0.9801458333333334,
      "grad_norm": 3.826885223388672,
      "learning_rate": 2.941365745018187e-07,
      "loss": 3.3922,
      "step": 470470
    },
    {
      "epoch": 0.9801666666666666,
      "grad_norm": 2.893481969833374,
      "learning_rate": 2.93519814085913e-07,
      "loss": 3.4602,
      "step": 470480
    },
    {
      "epoch": 0.9801875,
      "grad_norm": 2.917243242263794,
      "learning_rate": 2.929037003427559e-07,
      "loss": 3.4413,
      "step": 470490
    },
    {
      "epoch": 0.9802083333333333,
      "grad_norm": 4.800398349761963,
      "learning_rate": 2.922882332749954e-07,
      "loss": 3.4557,
      "step": 470500
    },
    {
      "epoch": 0.9802291666666667,
      "grad_norm": 2.8000521659851074,
      "learning_rate": 2.9167341288529597e-07,
      "loss": 3.4768,
      "step": 470510
    },
    {
      "epoch": 0.98025,
      "grad_norm": 3.0057334899902344,
      "learning_rate": 2.9105923917628895e-07,
      "loss": 3.4259,
      "step": 470520
    },
    {
      "epoch": 0.9802708333333333,
      "grad_norm": 3.5282278060913086,
      "learning_rate": 2.9044571215067204e-07,
      "loss": 3.4145,
      "step": 470530
    },
    {
      "epoch": 0.9802916666666667,
      "grad_norm": 2.852001905441284,
      "learning_rate": 2.898328318110599e-07,
      "loss": 3.4143,
      "step": 470540
    },
    {
      "epoch": 0.9803125,
      "grad_norm": 2.9524528980255127,
      "learning_rate": 2.8922059816010033e-07,
      "loss": 3.3231,
      "step": 470550
    },
    {
      "epoch": 0.9803333333333333,
      "grad_norm": 3.390321969985962,
      "learning_rate": 2.8860901120045797e-07,
      "loss": 3.4307,
      "step": 470560
    },
    {
      "epoch": 0.9803541666666666,
      "grad_norm": 2.987678050994873,
      "learning_rate": 2.8799807093476404e-07,
      "loss": 3.3666,
      "step": 470570
    },
    {
      "epoch": 0.980375,
      "grad_norm": 3.5005242824554443,
      "learning_rate": 2.873877773656663e-07,
      "loss": 3.4182,
      "step": 470580
    },
    {
      "epoch": 0.9803958333333334,
      "grad_norm": 3.8431811332702637,
      "learning_rate": 2.8677813049577947e-07,
      "loss": 3.5051,
      "step": 470590
    },
    {
      "epoch": 0.9804166666666667,
      "grad_norm": 2.7380411624908447,
      "learning_rate": 2.86169130327768e-07,
      "loss": 3.458,
      "step": 470600
    },
    {
      "epoch": 0.9804375,
      "grad_norm": 3.2960174083709717,
      "learning_rate": 2.855607768642132e-07,
      "loss": 3.4074,
      "step": 470610
    },
    {
      "epoch": 0.9804583333333333,
      "grad_norm": 3.364231586456299,
      "learning_rate": 2.849530701077962e-07,
      "loss": 3.5621,
      "step": 470620
    },
    {
      "epoch": 0.9804791666666667,
      "grad_norm": 3.6335315704345703,
      "learning_rate": 2.8434601006113165e-07,
      "loss": 3.376,
      "step": 470630
    },
    {
      "epoch": 0.9805,
      "grad_norm": 3.3447437286376953,
      "learning_rate": 2.8373959672681747e-07,
      "loss": 3.4474,
      "step": 470640
    },
    {
      "epoch": 0.9805208333333333,
      "grad_norm": 2.8375320434570312,
      "learning_rate": 2.831338301074848e-07,
      "loss": 3.3824,
      "step": 470650
    },
    {
      "epoch": 0.9805416666666666,
      "grad_norm": 2.7536427974700928,
      "learning_rate": 2.825287102057483e-07,
      "loss": 3.4833,
      "step": 470660
    },
    {
      "epoch": 0.9805625,
      "grad_norm": 3.4275076389312744,
      "learning_rate": 2.8192423702423916e-07,
      "loss": 3.4827,
      "step": 470670
    },
    {
      "epoch": 0.9805833333333334,
      "grad_norm": 2.8180792331695557,
      "learning_rate": 2.813204105655387e-07,
      "loss": 3.4142,
      "step": 470680
    },
    {
      "epoch": 0.9806041666666667,
      "grad_norm": 3.5027637481689453,
      "learning_rate": 2.807172308322947e-07,
      "loss": 3.4206,
      "step": 470690
    },
    {
      "epoch": 0.980625,
      "grad_norm": 2.8123717308044434,
      "learning_rate": 2.801146978270552e-07,
      "loss": 3.4702,
      "step": 470700
    },
    {
      "epoch": 0.9806458333333333,
      "grad_norm": 3.040714740753174,
      "learning_rate": 2.7951281155248473e-07,
      "loss": 3.4792,
      "step": 470710
    },
    {
      "epoch": 0.9806666666666667,
      "grad_norm": 2.874101161956787,
      "learning_rate": 2.789115720111479e-07,
      "loss": 3.4167,
      "step": 470720
    },
    {
      "epoch": 0.9806875,
      "grad_norm": 3.30216121673584,
      "learning_rate": 2.783109792056426e-07,
      "loss": 3.4427,
      "step": 470730
    },
    {
      "epoch": 0.9807083333333333,
      "grad_norm": 3.3665196895599365,
      "learning_rate": 2.7771103313858344e-07,
      "loss": 3.3748,
      "step": 470740
    },
    {
      "epoch": 0.9807291666666667,
      "grad_norm": 2.669735908508301,
      "learning_rate": 2.7711173381253505e-07,
      "loss": 3.403,
      "step": 470750
    },
    {
      "epoch": 0.98075,
      "grad_norm": 3.8986830711364746,
      "learning_rate": 2.7651308123011194e-07,
      "loss": 3.3586,
      "step": 470760
    },
    {
      "epoch": 0.9807708333333334,
      "grad_norm": 3.36588716506958,
      "learning_rate": 2.759150753938788e-07,
      "loss": 3.5436,
      "step": 470770
    },
    {
      "epoch": 0.9807916666666666,
      "grad_norm": 4.614895343780518,
      "learning_rate": 2.753177163064335e-07,
      "loss": 3.3539,
      "step": 470780
    },
    {
      "epoch": 0.9808125,
      "grad_norm": 3.400738000869751,
      "learning_rate": 2.7472100397034067e-07,
      "loss": 3.5996,
      "step": 470790
    },
    {
      "epoch": 0.9808333333333333,
      "grad_norm": 3.041247844696045,
      "learning_rate": 2.7412493838819826e-07,
      "loss": 3.3968,
      "step": 470800
    },
    {
      "epoch": 0.9808541666666667,
      "grad_norm": 3.2480154037475586,
      "learning_rate": 2.7352951956257085e-07,
      "loss": 3.4282,
      "step": 470810
    },
    {
      "epoch": 0.980875,
      "grad_norm": 2.8244874477386475,
      "learning_rate": 2.729347474960231e-07,
      "loss": 3.5076,
      "step": 470820
    },
    {
      "epoch": 0.9808958333333333,
      "grad_norm": 4.302458763122559,
      "learning_rate": 2.7234062219111953e-07,
      "loss": 3.3955,
      "step": 470830
    },
    {
      "epoch": 0.9809166666666667,
      "grad_norm": 2.9268546104431152,
      "learning_rate": 2.7174714365045814e-07,
      "loss": 3.5228,
      "step": 470840
    },
    {
      "epoch": 0.9809375,
      "grad_norm": 3.1108310222625732,
      "learning_rate": 2.711543118765702e-07,
      "loss": 3.4442,
      "step": 470850
    },
    {
      "epoch": 0.9809583333333334,
      "grad_norm": 3.52490496635437,
      "learning_rate": 2.7056212687203703e-07,
      "loss": 3.4753,
      "step": 470860
    },
    {
      "epoch": 0.9809791666666666,
      "grad_norm": 2.9097237586975098,
      "learning_rate": 2.699705886394066e-07,
      "loss": 3.388,
      "step": 470870
    },
    {
      "epoch": 0.981,
      "grad_norm": 3.032665967941284,
      "learning_rate": 2.693796971812434e-07,
      "loss": 3.3863,
      "step": 470880
    },
    {
      "epoch": 0.9810208333333333,
      "grad_norm": 2.7055437564849854,
      "learning_rate": 2.6878945250007887e-07,
      "loss": 3.4034,
      "step": 470890
    },
    {
      "epoch": 0.9810416666666667,
      "grad_norm": 3.223179817199707,
      "learning_rate": 2.6819985459847757e-07,
      "loss": 3.5688,
      "step": 470900
    },
    {
      "epoch": 0.9810625,
      "grad_norm": 3.1068179607391357,
      "learning_rate": 2.6761090347900416e-07,
      "loss": 3.4413,
      "step": 470910
    },
    {
      "epoch": 0.9810833333333333,
      "grad_norm": 2.689976692199707,
      "learning_rate": 2.6702259914415656e-07,
      "loss": 3.349,
      "step": 470920
    },
    {
      "epoch": 0.9811041666666667,
      "grad_norm": 4.273670196533203,
      "learning_rate": 2.6643494159651614e-07,
      "loss": 3.4722,
      "step": 470930
    },
    {
      "epoch": 0.981125,
      "grad_norm": 2.973975419998169,
      "learning_rate": 2.658479308386141e-07,
      "loss": 3.4946,
      "step": 470940
    },
    {
      "epoch": 0.9811458333333334,
      "grad_norm": 3.9505720138549805,
      "learning_rate": 2.652615668729652e-07,
      "loss": 3.4335,
      "step": 470950
    },
    {
      "epoch": 0.9811666666666666,
      "grad_norm": 2.6873419284820557,
      "learning_rate": 2.64675849702134e-07,
      "loss": 3.3521,
      "step": 470960
    },
    {
      "epoch": 0.9811875,
      "grad_norm": 3.881103038787842,
      "learning_rate": 2.6409077932861845e-07,
      "loss": 3.4775,
      "step": 470970
    },
    {
      "epoch": 0.9812083333333333,
      "grad_norm": 2.5986859798431396,
      "learning_rate": 2.635063557549666e-07,
      "loss": 3.3657,
      "step": 470980
    },
    {
      "epoch": 0.9812291666666667,
      "grad_norm": 2.658243179321289,
      "learning_rate": 2.6292257898369304e-07,
      "loss": 3.3807,
      "step": 470990
    },
    {
      "epoch": 0.98125,
      "grad_norm": 3.1991260051727295,
      "learning_rate": 2.623394490173458e-07,
      "loss": 3.271,
      "step": 471000
    },
    {
      "epoch": 0.98125,
      "eval_loss": 3.5208442211151123,
      "eval_runtime": 7.3451,
      "eval_samples_per_second": 1.361,
      "eval_steps_per_second": 0.408,
      "step": 471000
    },
    {
      "epoch": 0.9812708333333333,
      "grad_norm": 2.8067126274108887,
      "learning_rate": 2.617569658583896e-07,
      "loss": 3.3772,
      "step": 471010
    },
    {
      "epoch": 0.9812916666666667,
      "grad_norm": 3.2555227279663086,
      "learning_rate": 2.611751295093889e-07,
      "loss": 3.6239,
      "step": 471020
    },
    {
      "epoch": 0.9813125,
      "grad_norm": 3.9672746658325195,
      "learning_rate": 2.605939399728418e-07,
      "loss": 3.4509,
      "step": 471030
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 2.6445682048797607,
      "learning_rate": 2.60013397251263e-07,
      "loss": 3.5294,
      "step": 471040
    },
    {
      "epoch": 0.9813541666666666,
      "grad_norm": 3.35125732421875,
      "learning_rate": 2.5943350134715045e-07,
      "loss": 3.5156,
      "step": 471050
    },
    {
      "epoch": 0.981375,
      "grad_norm": 2.9253244400024414,
      "learning_rate": 2.588542522630022e-07,
      "loss": 3.3824,
      "step": 471060
    },
    {
      "epoch": 0.9813958333333334,
      "grad_norm": 3.2847185134887695,
      "learning_rate": 2.5827565000134943e-07,
      "loss": 3.3191,
      "step": 471070
    },
    {
      "epoch": 0.9814166666666667,
      "grad_norm": 3.1690104007720947,
      "learning_rate": 2.576976945646569e-07,
      "loss": 3.4475,
      "step": 471080
    },
    {
      "epoch": 0.9814375,
      "grad_norm": 2.8614816665649414,
      "learning_rate": 2.57120385955456e-07,
      "loss": 3.3923,
      "step": 471090
    },
    {
      "epoch": 0.9814583333333333,
      "grad_norm": 2.904177665710449,
      "learning_rate": 2.565437241762114e-07,
      "loss": 3.3943,
      "step": 471100
    },
    {
      "epoch": 0.9814791666666667,
      "grad_norm": 3.0870704650878906,
      "learning_rate": 2.5596770922942103e-07,
      "loss": 3.4094,
      "step": 471110
    },
    {
      "epoch": 0.9815,
      "grad_norm": 3.4336657524108887,
      "learning_rate": 2.5539234111759955e-07,
      "loss": 3.521,
      "step": 471120
    },
    {
      "epoch": 0.9815208333333333,
      "grad_norm": 3.38925838470459,
      "learning_rate": 2.5481761984319503e-07,
      "loss": 3.4037,
      "step": 471130
    },
    {
      "epoch": 0.9815416666666666,
      "grad_norm": 3.3139312267303467,
      "learning_rate": 2.542435454087055e-07,
      "loss": 3.4781,
      "step": 471140
    },
    {
      "epoch": 0.9815625,
      "grad_norm": 3.4712107181549072,
      "learning_rate": 2.5367011781659563e-07,
      "loss": 3.3513,
      "step": 471150
    },
    {
      "epoch": 0.9815833333333334,
      "grad_norm": 3.1754589080810547,
      "learning_rate": 2.530973370693801e-07,
      "loss": 3.3186,
      "step": 471160
    },
    {
      "epoch": 0.9816041666666667,
      "grad_norm": 2.9967892169952393,
      "learning_rate": 2.5252520316950687e-07,
      "loss": 3.4444,
      "step": 471170
    },
    {
      "epoch": 0.981625,
      "grad_norm": 3.8834803104400635,
      "learning_rate": 2.519537161194407e-07,
      "loss": 3.4239,
      "step": 471180
    },
    {
      "epoch": 0.9816458333333333,
      "grad_norm": 2.8085756301879883,
      "learning_rate": 2.51382875921663e-07,
      "loss": 3.3968,
      "step": 471190
    },
    {
      "epoch": 0.9816666666666667,
      "grad_norm": 3.6956231594085693,
      "learning_rate": 2.5081268257863827e-07,
      "loss": 3.3165,
      "step": 471200
    },
    {
      "epoch": 0.9816875,
      "grad_norm": 2.876406669616699,
      "learning_rate": 2.502431360928314e-07,
      "loss": 3.4641,
      "step": 471210
    },
    {
      "epoch": 0.9817083333333333,
      "grad_norm": 3.0044167041778564,
      "learning_rate": 2.496742364666904e-07,
      "loss": 3.4489,
      "step": 471220
    },
    {
      "epoch": 0.9817291666666667,
      "grad_norm": 3.112663745880127,
      "learning_rate": 2.4910598370267987e-07,
      "loss": 3.4817,
      "step": 471230
    },
    {
      "epoch": 0.98175,
      "grad_norm": 3.426727533340454,
      "learning_rate": 2.485383778032646e-07,
      "loss": 3.4374,
      "step": 471240
    },
    {
      "epoch": 0.9817708333333334,
      "grad_norm": 3.0907111167907715,
      "learning_rate": 2.4797141877089255e-07,
      "loss": 3.4438,
      "step": 471250
    },
    {
      "epoch": 0.9817916666666666,
      "grad_norm": 3.8841726779937744,
      "learning_rate": 2.4740510660799517e-07,
      "loss": 3.4469,
      "step": 471260
    },
    {
      "epoch": 0.9818125,
      "grad_norm": 3.0486888885498047,
      "learning_rate": 2.4683944131703717e-07,
      "loss": 3.5689,
      "step": 471270
    },
    {
      "epoch": 0.9818333333333333,
      "grad_norm": 3.3358569145202637,
      "learning_rate": 2.462744229004665e-07,
      "loss": 3.2481,
      "step": 471280
    },
    {
      "epoch": 0.9818541666666667,
      "grad_norm": 3.0759363174438477,
      "learning_rate": 2.45710051360698e-07,
      "loss": 3.3287,
      "step": 471290
    },
    {
      "epoch": 0.981875,
      "grad_norm": 3.8389854431152344,
      "learning_rate": 2.451463267001963e-07,
      "loss": 3.4844,
      "step": 471300
    },
    {
      "epoch": 0.9818958333333333,
      "grad_norm": 3.3092164993286133,
      "learning_rate": 2.4458324892137614e-07,
      "loss": 3.3505,
      "step": 471310
    },
    {
      "epoch": 0.9819166666666667,
      "grad_norm": 3.080700635910034,
      "learning_rate": 2.440208180266856e-07,
      "loss": 3.4634,
      "step": 471320
    },
    {
      "epoch": 0.9819375,
      "grad_norm": 3.4637951850891113,
      "learning_rate": 2.434590340185394e-07,
      "loss": 3.532,
      "step": 471330
    },
    {
      "epoch": 0.9819583333333334,
      "grad_norm": 3.336343765258789,
      "learning_rate": 2.4289789689938554e-07,
      "loss": 3.4902,
      "step": 471340
    },
    {
      "epoch": 0.9819791666666666,
      "grad_norm": 3.072239637374878,
      "learning_rate": 2.4233740667162216e-07,
      "loss": 3.6679,
      "step": 471350
    },
    {
      "epoch": 0.982,
      "grad_norm": 2.710082769393921,
      "learning_rate": 2.4177756333769725e-07,
      "loss": 3.5629,
      "step": 471360
    },
    {
      "epoch": 0.9820208333333333,
      "grad_norm": 4.717621803283691,
      "learning_rate": 2.4121836690000897e-07,
      "loss": 3.3909,
      "step": 471370
    },
    {
      "epoch": 0.9820416666666667,
      "grad_norm": 3.1096229553222656,
      "learning_rate": 2.4065981736097194e-07,
      "loss": 3.5363,
      "step": 471380
    },
    {
      "epoch": 0.9820625,
      "grad_norm": 3.7415454387664795,
      "learning_rate": 2.40101914723001e-07,
      "loss": 3.5207,
      "step": 471390
    },
    {
      "epoch": 0.9820833333333333,
      "grad_norm": 3.127112865447998,
      "learning_rate": 2.3954465898852747e-07,
      "loss": 3.7186,
      "step": 471400
    },
    {
      "epoch": 0.9821041666666667,
      "grad_norm": 3.7190191745758057,
      "learning_rate": 2.389880501599328e-07,
      "loss": 3.4278,
      "step": 471410
    },
    {
      "epoch": 0.982125,
      "grad_norm": 4.2837748527526855,
      "learning_rate": 2.3843208823963176e-07,
      "loss": 3.4639,
      "step": 471420
    },
    {
      "epoch": 0.9821458333333334,
      "grad_norm": 2.8616626262664795,
      "learning_rate": 2.3787677323002241e-07,
      "loss": 3.4519,
      "step": 471430
    },
    {
      "epoch": 0.9821666666666666,
      "grad_norm": 2.545140504837036,
      "learning_rate": 2.373221051335028e-07,
      "loss": 3.3536,
      "step": 471440
    },
    {
      "epoch": 0.9821875,
      "grad_norm": 3.0301764011383057,
      "learning_rate": 2.3676808395247106e-07,
      "loss": 3.4845,
      "step": 471450
    },
    {
      "epoch": 0.9822083333333333,
      "grad_norm": 4.215879917144775,
      "learning_rate": 2.362147096893252e-07,
      "loss": 3.3326,
      "step": 471460
    },
    {
      "epoch": 0.9822291666666667,
      "grad_norm": 3.6812589168548584,
      "learning_rate": 2.356619823464634e-07,
      "loss": 3.3368,
      "step": 471470
    },
    {
      "epoch": 0.98225,
      "grad_norm": 2.6960408687591553,
      "learning_rate": 2.3510990192623368e-07,
      "loss": 3.2393,
      "step": 471480
    },
    {
      "epoch": 0.9822708333333333,
      "grad_norm": 4.083303451538086,
      "learning_rate": 2.345584684310675e-07,
      "loss": 3.3565,
      "step": 471490
    },
    {
      "epoch": 0.9822916666666667,
      "grad_norm": 3.841693162918091,
      "learning_rate": 2.3400768186332964e-07,
      "loss": 3.4923,
      "step": 471500
    },
    {
      "epoch": 0.9823125,
      "grad_norm": 3.6000888347625732,
      "learning_rate": 2.3345754222538483e-07,
      "loss": 3.3543,
      "step": 471510
    },
    {
      "epoch": 0.9823333333333333,
      "grad_norm": 2.805203437805176,
      "learning_rate": 2.3290804951963116e-07,
      "loss": 3.4525,
      "step": 471520
    },
    {
      "epoch": 0.9823541666666666,
      "grad_norm": 3.1872873306274414,
      "learning_rate": 2.3235920374843343e-07,
      "loss": 3.4727,
      "step": 471530
    },
    {
      "epoch": 0.982375,
      "grad_norm": 3.3631017208099365,
      "learning_rate": 2.318110049141564e-07,
      "loss": 3.3782,
      "step": 471540
    },
    {
      "epoch": 0.9823958333333334,
      "grad_norm": 2.6664369106292725,
      "learning_rate": 2.3126345301916483e-07,
      "loss": 3.5127,
      "step": 471550
    },
    {
      "epoch": 0.9824166666666667,
      "grad_norm": 3.0686635971069336,
      "learning_rate": 2.3071654806584018e-07,
      "loss": 3.3902,
      "step": 471560
    },
    {
      "epoch": 0.9824375,
      "grad_norm": 2.845203399658203,
      "learning_rate": 2.301702900565472e-07,
      "loss": 3.4034,
      "step": 471570
    },
    {
      "epoch": 0.9824583333333333,
      "grad_norm": 2.9163331985473633,
      "learning_rate": 2.2962467899361736e-07,
      "loss": 3.3814,
      "step": 471580
    },
    {
      "epoch": 0.9824791666666667,
      "grad_norm": 2.935807466506958,
      "learning_rate": 2.2907971487944877e-07,
      "loss": 3.3489,
      "step": 471590
    },
    {
      "epoch": 0.9825,
      "grad_norm": 3.624289035797119,
      "learning_rate": 2.285353977163562e-07,
      "loss": 3.6303,
      "step": 471600
    },
    {
      "epoch": 0.9825208333333333,
      "grad_norm": 2.7544660568237305,
      "learning_rate": 2.2799172750670446e-07,
      "loss": 3.5147,
      "step": 471610
    },
    {
      "epoch": 0.9825416666666666,
      "grad_norm": 3.3388421535491943,
      "learning_rate": 2.2744870425285834e-07,
      "loss": 3.4086,
      "step": 471620
    },
    {
      "epoch": 0.9825625,
      "grad_norm": 3.0209884643554688,
      "learning_rate": 2.269063279571326e-07,
      "loss": 3.5166,
      "step": 471630
    },
    {
      "epoch": 0.9825833333333334,
      "grad_norm": 4.001662731170654,
      "learning_rate": 2.2636459862189204e-07,
      "loss": 3.3668,
      "step": 471640
    },
    {
      "epoch": 0.9826041666666666,
      "grad_norm": 2.6974785327911377,
      "learning_rate": 2.258235162494848e-07,
      "loss": 3.3081,
      "step": 471650
    },
    {
      "epoch": 0.982625,
      "grad_norm": 3.3848206996917725,
      "learning_rate": 2.2528308084222568e-07,
      "loss": 3.4609,
      "step": 471660
    },
    {
      "epoch": 0.9826458333333333,
      "grad_norm": 4.5162811279296875,
      "learning_rate": 2.247432924024628e-07,
      "loss": 3.3813,
      "step": 471670
    },
    {
      "epoch": 0.9826666666666667,
      "grad_norm": 3.0177690982818604,
      "learning_rate": 2.24204150932511e-07,
      "loss": 3.265,
      "step": 471680
    },
    {
      "epoch": 0.9826875,
      "grad_norm": 4.1508469581604,
      "learning_rate": 2.2366565643473498e-07,
      "loss": 3.5159,
      "step": 471690
    },
    {
      "epoch": 0.9827083333333333,
      "grad_norm": 2.4853053092956543,
      "learning_rate": 2.2312780891141635e-07,
      "loss": 3.4569,
      "step": 471700
    },
    {
      "epoch": 0.9827291666666667,
      "grad_norm": 3.535033941268921,
      "learning_rate": 2.2259060836490316e-07,
      "loss": 3.5098,
      "step": 471710
    },
    {
      "epoch": 0.98275,
      "grad_norm": 3.466360330581665,
      "learning_rate": 2.220540547975269e-07,
      "loss": 3.3609,
      "step": 471720
    },
    {
      "epoch": 0.9827708333333334,
      "grad_norm": 3.0513949394226074,
      "learning_rate": 2.215181482115691e-07,
      "loss": 3.4944,
      "step": 471730
    },
    {
      "epoch": 0.9827916666666666,
      "grad_norm": 2.6995933055877686,
      "learning_rate": 2.2098288860937785e-07,
      "loss": 3.5025,
      "step": 471740
    },
    {
      "epoch": 0.9828125,
      "grad_norm": 3.0467936992645264,
      "learning_rate": 2.2044827599326798e-07,
      "loss": 3.3472,
      "step": 471750
    },
    {
      "epoch": 0.9828333333333333,
      "grad_norm": 3.905675172805786,
      "learning_rate": 2.1991431036550433e-07,
      "loss": 3.4819,
      "step": 471760
    },
    {
      "epoch": 0.9828541666666667,
      "grad_norm": 2.5808565616607666,
      "learning_rate": 2.193809917284517e-07,
      "loss": 3.4132,
      "step": 471770
    },
    {
      "epoch": 0.982875,
      "grad_norm": 2.554155111312866,
      "learning_rate": 2.188483200843749e-07,
      "loss": 3.3943,
      "step": 471780
    },
    {
      "epoch": 0.9828958333333333,
      "grad_norm": 3.6179778575897217,
      "learning_rate": 2.1831629543558883e-07,
      "loss": 3.4287,
      "step": 471790
    },
    {
      "epoch": 0.9829166666666667,
      "grad_norm": 2.87906813621521,
      "learning_rate": 2.177849177843749e-07,
      "loss": 3.4458,
      "step": 471800
    },
    {
      "epoch": 0.9829375,
      "grad_norm": 2.809328317642212,
      "learning_rate": 2.1725418713306465e-07,
      "loss": 3.4077,
      "step": 471810
    },
    {
      "epoch": 0.9829583333333334,
      "grad_norm": 2.8316538333892822,
      "learning_rate": 2.1672410348390622e-07,
      "loss": 3.336,
      "step": 471820
    },
    {
      "epoch": 0.9829791666666666,
      "grad_norm": 2.70676589012146,
      "learning_rate": 2.1619466683923116e-07,
      "loss": 3.4984,
      "step": 471830
    },
    {
      "epoch": 0.983,
      "grad_norm": 2.784794569015503,
      "learning_rate": 2.1566587720128758e-07,
      "loss": 3.3846,
      "step": 471840
    },
    {
      "epoch": 0.9830208333333333,
      "grad_norm": 2.6319162845611572,
      "learning_rate": 2.1513773457239037e-07,
      "loss": 3.355,
      "step": 471850
    },
    {
      "epoch": 0.9830416666666667,
      "grad_norm": 3.1362712383270264,
      "learning_rate": 2.1461023895480434e-07,
      "loss": 3.4977,
      "step": 471860
    },
    {
      "epoch": 0.9830625,
      "grad_norm": 4.72995662689209,
      "learning_rate": 2.1408339035081101e-07,
      "loss": 3.3839,
      "step": 471870
    },
    {
      "epoch": 0.9830833333333333,
      "grad_norm": 4.315140247344971,
      "learning_rate": 2.1355718876270855e-07,
      "loss": 3.3525,
      "step": 471880
    },
    {
      "epoch": 0.9831041666666667,
      "grad_norm": 3.08573055267334,
      "learning_rate": 2.130316341927285e-07,
      "loss": 3.4148,
      "step": 471890
    },
    {
      "epoch": 0.983125,
      "grad_norm": 3.95651912689209,
      "learning_rate": 2.1250672664316903e-07,
      "loss": 3.4604,
      "step": 471900
    },
    {
      "epoch": 0.9831458333333334,
      "grad_norm": 2.8364367485046387,
      "learning_rate": 2.1198246611627835e-07,
      "loss": 3.3218,
      "step": 471910
    },
    {
      "epoch": 0.9831666666666666,
      "grad_norm": 3.281344413757324,
      "learning_rate": 2.114588526143546e-07,
      "loss": 3.5487,
      "step": 471920
    },
    {
      "epoch": 0.9831875,
      "grad_norm": 3.0293128490448,
      "learning_rate": 2.1093588613961264e-07,
      "loss": 3.5505,
      "step": 471930
    },
    {
      "epoch": 0.9832083333333334,
      "grad_norm": 2.9682092666625977,
      "learning_rate": 2.1041356669435071e-07,
      "loss": 3.4522,
      "step": 471940
    },
    {
      "epoch": 0.9832291666666667,
      "grad_norm": 2.8351664543151855,
      "learning_rate": 2.09891894280817e-07,
      "loss": 3.3048,
      "step": 471950
    },
    {
      "epoch": 0.98325,
      "grad_norm": 3.1691341400146484,
      "learning_rate": 2.0937086890125965e-07,
      "loss": 3.6441,
      "step": 471960
    },
    {
      "epoch": 0.9832708333333333,
      "grad_norm": 3.5314924716949463,
      "learning_rate": 2.0885049055791027e-07,
      "loss": 3.615,
      "step": 471970
    },
    {
      "epoch": 0.9832916666666667,
      "grad_norm": 2.7485716342926025,
      "learning_rate": 2.083307592530503e-07,
      "loss": 3.3915,
      "step": 471980
    },
    {
      "epoch": 0.9833125,
      "grad_norm": 2.5426175594329834,
      "learning_rate": 2.0781167498891138e-07,
      "loss": 3.4439,
      "step": 471990
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 3.7046566009521484,
      "learning_rate": 2.0729323776774165e-07,
      "loss": 3.4455,
      "step": 472000
    },
    {
      "epoch": 0.9833333333333333,
      "eval_loss": 3.5191962718963623,
      "eval_runtime": 7.267,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.413,
      "step": 472000
    },
    {
      "epoch": 0.9833541666666666,
      "grad_norm": 2.6000072956085205,
      "learning_rate": 2.0677544759175601e-07,
      "loss": 3.4859,
      "step": 472010
    },
    {
      "epoch": 0.983375,
      "grad_norm": 2.822003126144409,
      "learning_rate": 2.0625830446320268e-07,
      "loss": 3.5178,
      "step": 472020
    },
    {
      "epoch": 0.9833958333333334,
      "grad_norm": 3.4837071895599365,
      "learning_rate": 2.057418083843465e-07,
      "loss": 3.3289,
      "step": 472030
    },
    {
      "epoch": 0.9834166666666667,
      "grad_norm": 3.067039966583252,
      "learning_rate": 2.0522595935736907e-07,
      "loss": 3.3589,
      "step": 472040
    },
    {
      "epoch": 0.9834375,
      "grad_norm": 3.1833722591400146,
      "learning_rate": 2.0471075738453523e-07,
      "loss": 3.5041,
      "step": 472050
    },
    {
      "epoch": 0.9834583333333333,
      "grad_norm": 3.022974967956543,
      "learning_rate": 2.041962024680599e-07,
      "loss": 3.2431,
      "step": 472060
    },
    {
      "epoch": 0.9834791666666667,
      "grad_norm": 3.093903064727783,
      "learning_rate": 2.0368229461015795e-07,
      "loss": 3.2938,
      "step": 472070
    },
    {
      "epoch": 0.9835,
      "grad_norm": 4.1514105796813965,
      "learning_rate": 2.031690338130443e-07,
      "loss": 3.3589,
      "step": 472080
    },
    {
      "epoch": 0.9835208333333333,
      "grad_norm": 2.8488540649414062,
      "learning_rate": 2.026564200789671e-07,
      "loss": 3.4062,
      "step": 472090
    },
    {
      "epoch": 0.9835416666666666,
      "grad_norm": 2.8497557640075684,
      "learning_rate": 2.0214445341010798e-07,
      "loss": 3.4564,
      "step": 472100
    },
    {
      "epoch": 0.9835625,
      "grad_norm": 3.1352603435516357,
      "learning_rate": 2.016331338086985e-07,
      "loss": 3.4127,
      "step": 472110
    },
    {
      "epoch": 0.9835833333333334,
      "grad_norm": 4.103313446044922,
      "learning_rate": 2.0112246127693686e-07,
      "loss": 3.407,
      "step": 472120
    },
    {
      "epoch": 0.9836041666666666,
      "grad_norm": 3.155792713165283,
      "learning_rate": 2.0061243581702137e-07,
      "loss": 3.4075,
      "step": 472130
    },
    {
      "epoch": 0.983625,
      "grad_norm": 3.252498149871826,
      "learning_rate": 2.001030574311835e-07,
      "loss": 3.4077,
      "step": 472140
    },
    {
      "epoch": 0.9836458333333333,
      "grad_norm": 3.547168254852295,
      "learning_rate": 1.9959432612158822e-07,
      "loss": 3.4215,
      "step": 472150
    },
    {
      "epoch": 0.9836666666666667,
      "grad_norm": 3.206141948699951,
      "learning_rate": 1.9908624189046706e-07,
      "loss": 3.366,
      "step": 472160
    },
    {
      "epoch": 0.9836875,
      "grad_norm": 3.2407398223876953,
      "learning_rate": 1.98578804739985e-07,
      "loss": 3.4246,
      "step": 472170
    },
    {
      "epoch": 0.9837083333333333,
      "grad_norm": 3.4460957050323486,
      "learning_rate": 1.9807201467235689e-07,
      "loss": 3.4392,
      "step": 472180
    },
    {
      "epoch": 0.9837291666666667,
      "grad_norm": 3.756291151046753,
      "learning_rate": 1.9756587168974768e-07,
      "loss": 3.4262,
      "step": 472190
    },
    {
      "epoch": 0.98375,
      "grad_norm": 3.055098533630371,
      "learning_rate": 1.9706037579437228e-07,
      "loss": 3.4888,
      "step": 472200
    },
    {
      "epoch": 0.9837708333333334,
      "grad_norm": 2.5449817180633545,
      "learning_rate": 1.965555269883956e-07,
      "loss": 3.3281,
      "step": 472210
    },
    {
      "epoch": 0.9837916666666666,
      "grad_norm": 3.055565357208252,
      "learning_rate": 1.9605132527399925e-07,
      "loss": 3.4804,
      "step": 472220
    },
    {
      "epoch": 0.9838125,
      "grad_norm": 3.0457794666290283,
      "learning_rate": 1.955477706533648e-07,
      "loss": 3.3189,
      "step": 472230
    },
    {
      "epoch": 0.9838333333333333,
      "grad_norm": 3.3354005813598633,
      "learning_rate": 1.9504486312867385e-07,
      "loss": 3.4764,
      "step": 472240
    },
    {
      "epoch": 0.9838541666666667,
      "grad_norm": 2.8253273963928223,
      "learning_rate": 1.9454260270209133e-07,
      "loss": 3.2559,
      "step": 472250
    },
    {
      "epoch": 0.983875,
      "grad_norm": 2.8068253993988037,
      "learning_rate": 1.9404098937578217e-07,
      "loss": 3.2933,
      "step": 472260
    },
    {
      "epoch": 0.9838958333333333,
      "grad_norm": 3.925295352935791,
      "learning_rate": 1.935400231519113e-07,
      "loss": 3.464,
      "step": 472270
    },
    {
      "epoch": 0.9839166666666667,
      "grad_norm": 3.2599217891693115,
      "learning_rate": 1.9303970403266034e-07,
      "loss": 3.3991,
      "step": 472280
    },
    {
      "epoch": 0.9839375,
      "grad_norm": 3.2723209857940674,
      "learning_rate": 1.9254003202017753e-07,
      "loss": 3.4416,
      "step": 472290
    },
    {
      "epoch": 0.9839583333333334,
      "grad_norm": 2.963961362838745,
      "learning_rate": 1.9204100711662785e-07,
      "loss": 3.4049,
      "step": 472300
    },
    {
      "epoch": 0.9839791666666666,
      "grad_norm": 2.666858673095703,
      "learning_rate": 1.9154262932415952e-07,
      "loss": 3.5247,
      "step": 472310
    },
    {
      "epoch": 0.984,
      "grad_norm": 4.1451826095581055,
      "learning_rate": 1.9104489864493756e-07,
      "loss": 3.3753,
      "step": 472320
    },
    {
      "epoch": 0.9840208333333333,
      "grad_norm": 4.4880499839782715,
      "learning_rate": 1.9054781508109352e-07,
      "loss": 3.5417,
      "step": 472330
    },
    {
      "epoch": 0.9840416666666667,
      "grad_norm": 2.8560755252838135,
      "learning_rate": 1.900513786347757e-07,
      "loss": 3.3303,
      "step": 472340
    },
    {
      "epoch": 0.9840625,
      "grad_norm": 4.3764448165893555,
      "learning_rate": 1.8955558930814908e-07,
      "loss": 3.3607,
      "step": 472350
    },
    {
      "epoch": 0.9840833333333333,
      "grad_norm": 2.750802993774414,
      "learning_rate": 1.8906044710334523e-07,
      "loss": 3.3724,
      "step": 472360
    },
    {
      "epoch": 0.9841041666666667,
      "grad_norm": 4.028873443603516,
      "learning_rate": 1.885659520224958e-07,
      "loss": 3.5182,
      "step": 472370
    },
    {
      "epoch": 0.984125,
      "grad_norm": 2.944949150085449,
      "learning_rate": 1.8807210406774908e-07,
      "loss": 3.4573,
      "step": 472380
    },
    {
      "epoch": 0.9841458333333334,
      "grad_norm": 2.7002220153808594,
      "learning_rate": 1.8757890324122004e-07,
      "loss": 3.3686,
      "step": 472390
    },
    {
      "epoch": 0.9841666666666666,
      "grad_norm": 4.116512298583984,
      "learning_rate": 1.8708634954505697e-07,
      "loss": 3.4118,
      "step": 472400
    },
    {
      "epoch": 0.9841875,
      "grad_norm": 3.026702404022217,
      "learning_rate": 1.8659444298137483e-07,
      "loss": 3.4867,
      "step": 472410
    },
    {
      "epoch": 0.9842083333333334,
      "grad_norm": 3.1054439544677734,
      "learning_rate": 1.8610318355230525e-07,
      "loss": 3.4532,
      "step": 472420
    },
    {
      "epoch": 0.9842291666666667,
      "grad_norm": 3.1839845180511475,
      "learning_rate": 1.8561257125997986e-07,
      "loss": 3.3902,
      "step": 472430
    },
    {
      "epoch": 0.98425,
      "grad_norm": 3.252927780151367,
      "learning_rate": 1.8512260610649699e-07,
      "loss": 3.4578,
      "step": 472440
    },
    {
      "epoch": 0.9842708333333333,
      "grad_norm": 2.8428924083709717,
      "learning_rate": 1.8463328809398825e-07,
      "loss": 3.4781,
      "step": 472450
    },
    {
      "epoch": 0.9842916666666667,
      "grad_norm": 3.3009655475616455,
      "learning_rate": 1.8414461722456863e-07,
      "loss": 3.4433,
      "step": 472460
    },
    {
      "epoch": 0.9843125,
      "grad_norm": 5.227733612060547,
      "learning_rate": 1.8365659350033645e-07,
      "loss": 3.4219,
      "step": 472470
    },
    {
      "epoch": 0.9843333333333333,
      "grad_norm": 3.1952261924743652,
      "learning_rate": 1.8316921692340669e-07,
      "loss": 3.4458,
      "step": 472480
    },
    {
      "epoch": 0.9843541666666666,
      "grad_norm": 3.0829477310180664,
      "learning_rate": 1.8268248749587767e-07,
      "loss": 3.4238,
      "step": 472490
    },
    {
      "epoch": 0.984375,
      "grad_norm": 2.704543352127075,
      "learning_rate": 1.8219640521986433e-07,
      "loss": 3.3415,
      "step": 472500
    },
    {
      "epoch": 0.9843958333333334,
      "grad_norm": 3.8118815422058105,
      "learning_rate": 1.8171097009746504e-07,
      "loss": 3.3956,
      "step": 472510
    },
    {
      "epoch": 0.9844166666666667,
      "grad_norm": 2.9136767387390137,
      "learning_rate": 1.8122618213076146e-07,
      "loss": 3.3937,
      "step": 472520
    },
    {
      "epoch": 0.9844375,
      "grad_norm": 2.690906524658203,
      "learning_rate": 1.8074204132186853e-07,
      "loss": 3.3585,
      "step": 472530
    },
    {
      "epoch": 0.9844583333333333,
      "grad_norm": 3.118971109390259,
      "learning_rate": 1.8025854767286796e-07,
      "loss": 3.4368,
      "step": 472540
    },
    {
      "epoch": 0.9844791666666667,
      "grad_norm": 3.1939072608947754,
      "learning_rate": 1.797757011858414e-07,
      "loss": 3.2657,
      "step": 472550
    },
    {
      "epoch": 0.9845,
      "grad_norm": 2.9149816036224365,
      "learning_rate": 1.7929350186288716e-07,
      "loss": 3.4306,
      "step": 472560
    },
    {
      "epoch": 0.9845208333333333,
      "grad_norm": 3.736509323120117,
      "learning_rate": 1.7881194970607028e-07,
      "loss": 3.3585,
      "step": 472570
    },
    {
      "epoch": 0.9845416666666666,
      "grad_norm": 3.457087755203247,
      "learning_rate": 1.7833104471748904e-07,
      "loss": 3.5152,
      "step": 472580
    },
    {
      "epoch": 0.9845625,
      "grad_norm": 3.3604421615600586,
      "learning_rate": 1.778507868992085e-07,
      "loss": 3.4354,
      "step": 472590
    },
    {
      "epoch": 0.9845833333333334,
      "grad_norm": 2.984673023223877,
      "learning_rate": 1.7737117625332697e-07,
      "loss": 3.4095,
      "step": 472600
    },
    {
      "epoch": 0.9846041666666666,
      "grad_norm": 3.2887284755706787,
      "learning_rate": 1.7689221278187615e-07,
      "loss": 3.364,
      "step": 472610
    },
    {
      "epoch": 0.984625,
      "grad_norm": 3.3798696994781494,
      "learning_rate": 1.7641389648695437e-07,
      "loss": 3.384,
      "step": 472620
    },
    {
      "epoch": 0.9846458333333333,
      "grad_norm": 3.2263734340667725,
      "learning_rate": 1.7593622737062662e-07,
      "loss": 3.3529,
      "step": 472630
    },
    {
      "epoch": 0.9846666666666667,
      "grad_norm": 3.182178497314453,
      "learning_rate": 1.754592054349413e-07,
      "loss": 3.3693,
      "step": 472640
    },
    {
      "epoch": 0.9846875,
      "grad_norm": 4.03463888168335,
      "learning_rate": 1.7498283068198005e-07,
      "loss": 3.5068,
      "step": 472650
    },
    {
      "epoch": 0.9847083333333333,
      "grad_norm": 3.3800415992736816,
      "learning_rate": 1.7450710311377457e-07,
      "loss": 3.3205,
      "step": 472660
    },
    {
      "epoch": 0.9847291666666667,
      "grad_norm": 3.541452646255493,
      "learning_rate": 1.7403202273240658e-07,
      "loss": 3.3985,
      "step": 472670
    },
    {
      "epoch": 0.98475,
      "grad_norm": 3.228527069091797,
      "learning_rate": 1.7355758953990774e-07,
      "loss": 3.4102,
      "step": 472680
    },
    {
      "epoch": 0.9847708333333334,
      "grad_norm": 3.1638102531433105,
      "learning_rate": 1.730838035383264e-07,
      "loss": 3.4471,
      "step": 472690
    },
    {
      "epoch": 0.9847916666666666,
      "grad_norm": 2.8294425010681152,
      "learning_rate": 1.7261066472972763e-07,
      "loss": 3.3847,
      "step": 472700
    },
    {
      "epoch": 0.9848125,
      "grad_norm": 3.254960775375366,
      "learning_rate": 1.721381731161431e-07,
      "loss": 3.3362,
      "step": 472710
    },
    {
      "epoch": 0.9848333333333333,
      "grad_norm": 2.7970380783081055,
      "learning_rate": 1.7166632869962115e-07,
      "loss": 3.2695,
      "step": 472720
    },
    {
      "epoch": 0.9848541666666667,
      "grad_norm": 4.064774513244629,
      "learning_rate": 1.7119513148219356e-07,
      "loss": 3.4526,
      "step": 472730
    },
    {
      "epoch": 0.984875,
      "grad_norm": 3.248351812362671,
      "learning_rate": 1.7072458146589197e-07,
      "loss": 3.2929,
      "step": 472740
    },
    {
      "epoch": 0.9848958333333333,
      "grad_norm": 3.114621639251709,
      "learning_rate": 1.702546786527481e-07,
      "loss": 3.5688,
      "step": 472750
    },
    {
      "epoch": 0.9849166666666667,
      "grad_norm": 3.808177947998047,
      "learning_rate": 1.697854230447937e-07,
      "loss": 3.404,
      "step": 472760
    },
    {
      "epoch": 0.9849375,
      "grad_norm": 3.397169589996338,
      "learning_rate": 1.693168146440771e-07,
      "loss": 3.5393,
      "step": 472770
    },
    {
      "epoch": 0.9849583333333334,
      "grad_norm": 3.1014697551727295,
      "learning_rate": 1.6884885345259668e-07,
      "loss": 3.3171,
      "step": 472780
    },
    {
      "epoch": 0.9849791666666666,
      "grad_norm": 3.01189923286438,
      "learning_rate": 1.683815394723842e-07,
      "loss": 3.3609,
      "step": 472790
    },
    {
      "epoch": 0.985,
      "grad_norm": 3.6029868125915527,
      "learning_rate": 1.6791487270545466e-07,
      "loss": 3.5393,
      "step": 472800
    },
    {
      "epoch": 0.9850208333333333,
      "grad_norm": 3.644044876098633,
      "learning_rate": 1.6744885315382317e-07,
      "loss": 3.5071,
      "step": 472810
    },
    {
      "epoch": 0.9850416666666667,
      "grad_norm": 2.9168970584869385,
      "learning_rate": 1.6698348081950475e-07,
      "loss": 3.4966,
      "step": 472820
    },
    {
      "epoch": 0.9850625,
      "grad_norm": 2.957581043243408,
      "learning_rate": 1.6651875570451446e-07,
      "loss": 3.342,
      "step": 472830
    },
    {
      "epoch": 0.9850833333333333,
      "grad_norm": 2.8968605995178223,
      "learning_rate": 1.6605467781083405e-07,
      "loss": 3.4545,
      "step": 472840
    },
    {
      "epoch": 0.9851041666666667,
      "grad_norm": 3.0103542804718018,
      "learning_rate": 1.6559124714051187e-07,
      "loss": 3.3844,
      "step": 472850
    },
    {
      "epoch": 0.985125,
      "grad_norm": 3.8085508346557617,
      "learning_rate": 1.6512846369552968e-07,
      "loss": 3.3523,
      "step": 472860
    },
    {
      "epoch": 0.9851458333333334,
      "grad_norm": 3.5226821899414062,
      "learning_rate": 1.6466632747786922e-07,
      "loss": 3.2739,
      "step": 472870
    },
    {
      "epoch": 0.9851666666666666,
      "grad_norm": 3.2398757934570312,
      "learning_rate": 1.6420483848954558e-07,
      "loss": 3.2609,
      "step": 472880
    },
    {
      "epoch": 0.9851875,
      "grad_norm": 3.3500938415527344,
      "learning_rate": 1.6374399673254046e-07,
      "loss": 3.5157,
      "step": 472890
    },
    {
      "epoch": 0.9852083333333334,
      "grad_norm": 2.3677315711975098,
      "learning_rate": 1.6328380220886895e-07,
      "loss": 3.4721,
      "step": 472900
    },
    {
      "epoch": 0.9852291666666667,
      "grad_norm": 3.176790475845337,
      "learning_rate": 1.628242549204961e-07,
      "loss": 3.6065,
      "step": 472910
    },
    {
      "epoch": 0.98525,
      "grad_norm": 3.1424553394317627,
      "learning_rate": 1.6236535486940372e-07,
      "loss": 3.333,
      "step": 472920
    },
    {
      "epoch": 0.9852708333333333,
      "grad_norm": 3.108147382736206,
      "learning_rate": 1.6190710205759016e-07,
      "loss": 3.274,
      "step": 472930
    },
    {
      "epoch": 0.9852916666666667,
      "grad_norm": 3.194990634918213,
      "learning_rate": 1.614494964870372e-07,
      "loss": 3.2836,
      "step": 472940
    },
    {
      "epoch": 0.9853125,
      "grad_norm": 2.6492550373077393,
      "learning_rate": 1.6099253815969327e-07,
      "loss": 3.4048,
      "step": 472950
    },
    {
      "epoch": 0.9853333333333333,
      "grad_norm": 2.9944870471954346,
      "learning_rate": 1.6053622707755675e-07,
      "loss": 3.5349,
      "step": 472960
    },
    {
      "epoch": 0.9853541666666666,
      "grad_norm": 3.200077533721924,
      "learning_rate": 1.6008056324260942e-07,
      "loss": 3.351,
      "step": 472970
    },
    {
      "epoch": 0.985375,
      "grad_norm": 3.37455415725708,
      "learning_rate": 1.5962554665678307e-07,
      "loss": 3.347,
      "step": 472980
    },
    {
      "epoch": 0.9853958333333334,
      "grad_norm": 3.1030166149139404,
      "learning_rate": 1.5917117732207607e-07,
      "loss": 3.4752,
      "step": 472990
    },
    {
      "epoch": 0.9854166666666667,
      "grad_norm": 3.61905837059021,
      "learning_rate": 1.5871745524043688e-07,
      "loss": 3.4137,
      "step": 473000
    },
    {
      "epoch": 0.9854166666666667,
      "eval_loss": 3.520467758178711,
      "eval_runtime": 6.8432,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.438,
      "step": 473000
    },
    {
      "epoch": 0.9854375,
      "grad_norm": 3.4496593475341797,
      "learning_rate": 1.5826438041381395e-07,
      "loss": 3.3387,
      "step": 473010
    },
    {
      "epoch": 0.9854583333333333,
      "grad_norm": 2.9664363861083984,
      "learning_rate": 1.57811952844189e-07,
      "loss": 3.4745,
      "step": 473020
    },
    {
      "epoch": 0.9854791666666667,
      "grad_norm": 3.559756278991699,
      "learning_rate": 1.5736017253351052e-07,
      "loss": 3.4212,
      "step": 473030
    },
    {
      "epoch": 0.9855,
      "grad_norm": 2.753004312515259,
      "learning_rate": 1.5690903948371026e-07,
      "loss": 3.3925,
      "step": 473040
    },
    {
      "epoch": 0.9855208333333333,
      "grad_norm": 2.76837420463562,
      "learning_rate": 1.5645855369675332e-07,
      "loss": 3.3888,
      "step": 473050
    },
    {
      "epoch": 0.9855416666666666,
      "grad_norm": 3.1029927730560303,
      "learning_rate": 1.5600871517458813e-07,
      "loss": 3.5143,
      "step": 473060
    },
    {
      "epoch": 0.9855625,
      "grad_norm": 3.4049601554870605,
      "learning_rate": 1.555595239191465e-07,
      "loss": 3.2969,
      "step": 473070
    },
    {
      "epoch": 0.9855833333333334,
      "grad_norm": 2.70151686668396,
      "learning_rate": 1.551109799323935e-07,
      "loss": 3.467,
      "step": 473080
    },
    {
      "epoch": 0.9856041666666666,
      "grad_norm": 2.9158811569213867,
      "learning_rate": 1.5466308321622766e-07,
      "loss": 3.4607,
      "step": 473090
    },
    {
      "epoch": 0.985625,
      "grad_norm": 3.796727418899536,
      "learning_rate": 1.5421583377261405e-07,
      "loss": 3.3707,
      "step": 473100
    },
    {
      "epoch": 0.9856458333333333,
      "grad_norm": 3.4499261379241943,
      "learning_rate": 1.5376923160346777e-07,
      "loss": 3.4745,
      "step": 473110
    },
    {
      "epoch": 0.9856666666666667,
      "grad_norm": 3.4609203338623047,
      "learning_rate": 1.533232767107373e-07,
      "loss": 3.3959,
      "step": 473120
    },
    {
      "epoch": 0.9856875,
      "grad_norm": 3.0650458335876465,
      "learning_rate": 1.5287796909632111e-07,
      "loss": 3.2838,
      "step": 473130
    },
    {
      "epoch": 0.9857083333333333,
      "grad_norm": 3.6311306953430176,
      "learning_rate": 1.5243330876218429e-07,
      "loss": 3.4654,
      "step": 473140
    },
    {
      "epoch": 0.9857291666666667,
      "grad_norm": 3.4030659198760986,
      "learning_rate": 1.5198929571019203e-07,
      "loss": 3.2876,
      "step": 473150
    },
    {
      "epoch": 0.98575,
      "grad_norm": 3.9211719036102295,
      "learning_rate": 1.5154592994230942e-07,
      "loss": 3.4065,
      "step": 473160
    },
    {
      "epoch": 0.9857708333333334,
      "grad_norm": 3.1407217979431152,
      "learning_rate": 1.511032114604349e-07,
      "loss": 3.3513,
      "step": 473170
    },
    {
      "epoch": 0.9857916666666666,
      "grad_norm": 3.109302043914795,
      "learning_rate": 1.5066114026646702e-07,
      "loss": 3.4353,
      "step": 473180
    },
    {
      "epoch": 0.9858125,
      "grad_norm": 2.936049699783325,
      "learning_rate": 1.5021971636233754e-07,
      "loss": 3.5215,
      "step": 473190
    },
    {
      "epoch": 0.9858333333333333,
      "grad_norm": 2.6607601642608643,
      "learning_rate": 1.4977893974994492e-07,
      "loss": 3.3209,
      "step": 473200
    },
    {
      "epoch": 0.9858541666666667,
      "grad_norm": 3.6378324031829834,
      "learning_rate": 1.4933881043118766e-07,
      "loss": 3.4117,
      "step": 473210
    },
    {
      "epoch": 0.985875,
      "grad_norm": 2.7311344146728516,
      "learning_rate": 1.4889932840798092e-07,
      "loss": 3.3251,
      "step": 473220
    },
    {
      "epoch": 0.9858958333333333,
      "grad_norm": 2.71142315864563,
      "learning_rate": 1.4846049368220646e-07,
      "loss": 3.4757,
      "step": 473230
    },
    {
      "epoch": 0.9859166666666667,
      "grad_norm": 3.481524705886841,
      "learning_rate": 1.4802230625576284e-07,
      "loss": 3.4897,
      "step": 473240
    },
    {
      "epoch": 0.9859375,
      "grad_norm": 2.9302122592926025,
      "learning_rate": 1.4758476613056513e-07,
      "loss": 3.3411,
      "step": 473250
    },
    {
      "epoch": 0.9859583333333334,
      "grad_norm": 2.9927027225494385,
      "learning_rate": 1.471478733084619e-07,
      "loss": 3.3424,
      "step": 473260
    },
    {
      "epoch": 0.9859791666666666,
      "grad_norm": 2.928576707839966,
      "learning_rate": 1.467116277913849e-07,
      "loss": 3.4116,
      "step": 473270
    },
    {
      "epoch": 0.986,
      "grad_norm": 3.536069393157959,
      "learning_rate": 1.4627602958118266e-07,
      "loss": 3.4532,
      "step": 473280
    },
    {
      "epoch": 0.9860208333333333,
      "grad_norm": 3.1754233837127686,
      "learning_rate": 1.458410786797537e-07,
      "loss": 3.5043,
      "step": 473290
    },
    {
      "epoch": 0.9860416666666667,
      "grad_norm": 2.841273307800293,
      "learning_rate": 1.454067750889798e-07,
      "loss": 3.3729,
      "step": 473300
    },
    {
      "epoch": 0.9860625,
      "grad_norm": 3.032630443572998,
      "learning_rate": 1.4497311881072614e-07,
      "loss": 3.4622,
      "step": 473310
    },
    {
      "epoch": 0.9860833333333333,
      "grad_norm": 3.7639377117156982,
      "learning_rate": 1.4454010984689125e-07,
      "loss": 3.5042,
      "step": 473320
    },
    {
      "epoch": 0.9861041666666667,
      "grad_norm": 3.785301446914673,
      "learning_rate": 1.4410774819930693e-07,
      "loss": 3.4008,
      "step": 473330
    },
    {
      "epoch": 0.986125,
      "grad_norm": 3.3770318031311035,
      "learning_rate": 1.4367603386985504e-07,
      "loss": 3.5403,
      "step": 473340
    },
    {
      "epoch": 0.9861458333333334,
      "grad_norm": 3.0183002948760986,
      "learning_rate": 1.432449668604174e-07,
      "loss": 3.4874,
      "step": 473350
    },
    {
      "epoch": 0.9861666666666666,
      "grad_norm": 3.256866455078125,
      "learning_rate": 1.4281454717284258e-07,
      "loss": 3.4091,
      "step": 473360
    },
    {
      "epoch": 0.9861875,
      "grad_norm": 3.4785985946655273,
      "learning_rate": 1.4238477480899568e-07,
      "loss": 3.4982,
      "step": 473370
    },
    {
      "epoch": 0.9862083333333334,
      "grad_norm": 3.60014271736145,
      "learning_rate": 1.4195564977072526e-07,
      "loss": 3.2861,
      "step": 473380
    },
    {
      "epoch": 0.9862291666666667,
      "grad_norm": 3.116743803024292,
      "learning_rate": 1.4152717205987984e-07,
      "loss": 3.3474,
      "step": 473390
    },
    {
      "epoch": 0.98625,
      "grad_norm": 3.3848419189453125,
      "learning_rate": 1.410993416783246e-07,
      "loss": 3.5323,
      "step": 473400
    },
    {
      "epoch": 0.9862708333333333,
      "grad_norm": 3.559494972229004,
      "learning_rate": 1.4067215862790803e-07,
      "loss": 3.2803,
      "step": 473410
    },
    {
      "epoch": 0.9862916666666667,
      "grad_norm": 2.964297294616699,
      "learning_rate": 1.4024562291046203e-07,
      "loss": 3.4294,
      "step": 473420
    },
    {
      "epoch": 0.9863125,
      "grad_norm": 2.8794686794281006,
      "learning_rate": 1.3981973452785177e-07,
      "loss": 3.2241,
      "step": 473430
    },
    {
      "epoch": 0.9863333333333333,
      "grad_norm": 2.5249595642089844,
      "learning_rate": 1.3939449348187583e-07,
      "loss": 3.2459,
      "step": 473440
    },
    {
      "epoch": 0.9863541666666666,
      "grad_norm": 3.1979925632476807,
      "learning_rate": 1.3896989977441598e-07,
      "loss": 3.4443,
      "step": 473450
    },
    {
      "epoch": 0.986375,
      "grad_norm": 2.8592071533203125,
      "learning_rate": 1.3854595340727082e-07,
      "loss": 3.5523,
      "step": 473460
    },
    {
      "epoch": 0.9863958333333334,
      "grad_norm": 3.1729586124420166,
      "learning_rate": 1.3812265438230553e-07,
      "loss": 3.5083,
      "step": 473470
    },
    {
      "epoch": 0.9864166666666667,
      "grad_norm": 2.3073136806488037,
      "learning_rate": 1.3770000270131864e-07,
      "loss": 3.4201,
      "step": 473480
    },
    {
      "epoch": 0.9864375,
      "grad_norm": 3.7356624603271484,
      "learning_rate": 1.3727799836615872e-07,
      "loss": 3.3813,
      "step": 473490
    },
    {
      "epoch": 0.9864583333333333,
      "grad_norm": 3.001027822494507,
      "learning_rate": 1.368566413786243e-07,
      "loss": 3.3757,
      "step": 473500
    },
    {
      "epoch": 0.9864791666666667,
      "grad_norm": 2.7936418056488037,
      "learning_rate": 1.3643593174056388e-07,
      "loss": 3.3736,
      "step": 473510
    },
    {
      "epoch": 0.9865,
      "grad_norm": 3.6208465099334717,
      "learning_rate": 1.3601586945377608e-07,
      "loss": 3.4366,
      "step": 473520
    },
    {
      "epoch": 0.9865208333333333,
      "grad_norm": 3.0041282176971436,
      "learning_rate": 1.3559645452007606e-07,
      "loss": 3.2727,
      "step": 473530
    },
    {
      "epoch": 0.9865416666666667,
      "grad_norm": 4.431339263916016,
      "learning_rate": 1.3517768694127907e-07,
      "loss": 3.4212,
      "step": 473540
    },
    {
      "epoch": 0.9865625,
      "grad_norm": 3.334693670272827,
      "learning_rate": 1.3475956671918363e-07,
      "loss": 3.4534,
      "step": 473550
    },
    {
      "epoch": 0.9865833333333334,
      "grad_norm": 3.7919392585754395,
      "learning_rate": 1.3434209385562167e-07,
      "loss": 3.2902,
      "step": 473560
    },
    {
      "epoch": 0.9866041666666666,
      "grad_norm": 2.488903760910034,
      "learning_rate": 1.3392526835237505e-07,
      "loss": 3.5591,
      "step": 473570
    },
    {
      "epoch": 0.986625,
      "grad_norm": 2.9632809162139893,
      "learning_rate": 1.3350909021124233e-07,
      "loss": 3.5174,
      "step": 473580
    },
    {
      "epoch": 0.9866458333333333,
      "grad_norm": 4.283491611480713,
      "learning_rate": 1.3309355943403877e-07,
      "loss": 3.4613,
      "step": 473590
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 2.5390236377716064,
      "learning_rate": 1.3267867602256288e-07,
      "loss": 3.3544,
      "step": 473600
    },
    {
      "epoch": 0.9866875,
      "grad_norm": 3.110679864883423,
      "learning_rate": 1.322644399785633e-07,
      "loss": 3.4501,
      "step": 473610
    },
    {
      "epoch": 0.9867083333333333,
      "grad_norm": 3.4396519660949707,
      "learning_rate": 1.318508513038885e-07,
      "loss": 3.5467,
      "step": 473620
    },
    {
      "epoch": 0.9867291666666667,
      "grad_norm": 3.0215904712677,
      "learning_rate": 1.3143791000027047e-07,
      "loss": 3.4779,
      "step": 473630
    },
    {
      "epoch": 0.98675,
      "grad_norm": 3.013092517852783,
      "learning_rate": 1.310256160695411e-07,
      "loss": 3.5045,
      "step": 473640
    },
    {
      "epoch": 0.9867708333333334,
      "grad_norm": 3.5031354427337646,
      "learning_rate": 1.3061396951344893e-07,
      "loss": 3.4792,
      "step": 473650
    },
    {
      "epoch": 0.9867916666666666,
      "grad_norm": 2.917194128036499,
      "learning_rate": 1.3020297033377592e-07,
      "loss": 3.3737,
      "step": 473660
    },
    {
      "epoch": 0.9868125,
      "grad_norm": 2.6403770446777344,
      "learning_rate": 1.2979261853230393e-07,
      "loss": 3.3753,
      "step": 473670
    },
    {
      "epoch": 0.9868333333333333,
      "grad_norm": 3.6858036518096924,
      "learning_rate": 1.293829141108149e-07,
      "loss": 3.4324,
      "step": 473680
    },
    {
      "epoch": 0.9868541666666667,
      "grad_norm": 2.5824227333068848,
      "learning_rate": 1.289738570710741e-07,
      "loss": 3.3544,
      "step": 473690
    },
    {
      "epoch": 0.986875,
      "grad_norm": 2.9485597610473633,
      "learning_rate": 1.285654474148301e-07,
      "loss": 3.4709,
      "step": 473700
    },
    {
      "epoch": 0.9868958333333333,
      "grad_norm": 2.4187400341033936,
      "learning_rate": 1.281576851438648e-07,
      "loss": 3.4372,
      "step": 473710
    },
    {
      "epoch": 0.9869166666666667,
      "grad_norm": 3.1964681148529053,
      "learning_rate": 1.2775057025992685e-07,
      "loss": 3.4999,
      "step": 473720
    },
    {
      "epoch": 0.9869375,
      "grad_norm": 2.9911234378814697,
      "learning_rate": 1.2734410276479812e-07,
      "loss": 3.3596,
      "step": 473730
    },
    {
      "epoch": 0.9869583333333334,
      "grad_norm": 3.0942912101745605,
      "learning_rate": 1.2693828266021055e-07,
      "loss": 3.4405,
      "step": 473740
    },
    {
      "epoch": 0.9869791666666666,
      "grad_norm": 2.851306915283203,
      "learning_rate": 1.2653310994791278e-07,
      "loss": 3.3968,
      "step": 473750
    },
    {
      "epoch": 0.987,
      "grad_norm": 2.9931514263153076,
      "learning_rate": 1.2612858462968668e-07,
      "loss": 3.4255,
      "step": 473760
    },
    {
      "epoch": 0.9870208333333333,
      "grad_norm": 3.185734510421753,
      "learning_rate": 1.257247067072642e-07,
      "loss": 3.4008,
      "step": 473770
    },
    {
      "epoch": 0.9870416666666667,
      "grad_norm": 3.1043288707733154,
      "learning_rate": 1.2532147618236066e-07,
      "loss": 3.373,
      "step": 473780
    },
    {
      "epoch": 0.9870625,
      "grad_norm": 2.961341619491577,
      "learning_rate": 1.249188930567746e-07,
      "loss": 3.3682,
      "step": 473790
    },
    {
      "epoch": 0.9870833333333333,
      "grad_norm": 3.3763325214385986,
      "learning_rate": 1.2451695733218804e-07,
      "loss": 3.4298,
      "step": 473800
    },
    {
      "epoch": 0.9871041666666667,
      "grad_norm": 3.798238515853882,
      "learning_rate": 1.2411566901038284e-07,
      "loss": 3.5289,
      "step": 473810
    },
    {
      "epoch": 0.987125,
      "grad_norm": 3.6922614574432373,
      "learning_rate": 1.2371502809305768e-07,
      "loss": 3.3985,
      "step": 473820
    },
    {
      "epoch": 0.9871458333333333,
      "grad_norm": 3.6627418994903564,
      "learning_rate": 1.233150345819778e-07,
      "loss": 3.4268,
      "step": 473830
    },
    {
      "epoch": 0.9871666666666666,
      "grad_norm": 3.1428098678588867,
      "learning_rate": 1.229156884788418e-07,
      "loss": 3.3378,
      "step": 473840
    },
    {
      "epoch": 0.9871875,
      "grad_norm": 2.9814867973327637,
      "learning_rate": 1.225169897853817e-07,
      "loss": 3.3598,
      "step": 473850
    },
    {
      "epoch": 0.9872083333333334,
      "grad_norm": 2.8896963596343994,
      "learning_rate": 1.2211893850331277e-07,
      "loss": 3.4309,
      "step": 473860
    },
    {
      "epoch": 0.9872291666666667,
      "grad_norm": 3.3626625537872314,
      "learning_rate": 1.2172153463438362e-07,
      "loss": 3.4171,
      "step": 473870
    },
    {
      "epoch": 0.98725,
      "grad_norm": 4.477023601531982,
      "learning_rate": 1.213247781802762e-07,
      "loss": 3.4648,
      "step": 473880
    },
    {
      "epoch": 0.9872708333333333,
      "grad_norm": 2.9953694343566895,
      "learning_rate": 1.2092866914273913e-07,
      "loss": 3.3063,
      "step": 473890
    },
    {
      "epoch": 0.9872916666666667,
      "grad_norm": 3.0413169860839844,
      "learning_rate": 1.2053320752343777e-07,
      "loss": 3.3415,
      "step": 473900
    },
    {
      "epoch": 0.9873125,
      "grad_norm": 3.28115177154541,
      "learning_rate": 1.201383933241207e-07,
      "loss": 3.4365,
      "step": 473910
    },
    {
      "epoch": 0.9873333333333333,
      "grad_norm": 3.1012930870056152,
      "learning_rate": 1.197442265464865e-07,
      "loss": 3.5745,
      "step": 473920
    },
    {
      "epoch": 0.9873541666666666,
      "grad_norm": 3.7102432250976562,
      "learning_rate": 1.1935070719221728e-07,
      "loss": 3.3768,
      "step": 473930
    },
    {
      "epoch": 0.987375,
      "grad_norm": 3.2117717266082764,
      "learning_rate": 1.1895783526304493e-07,
      "loss": 3.3642,
      "step": 473940
    },
    {
      "epoch": 0.9873958333333334,
      "grad_norm": 3.6442978382110596,
      "learning_rate": 1.1856561076063476e-07,
      "loss": 3.4156,
      "step": 473950
    },
    {
      "epoch": 0.9874166666666667,
      "grad_norm": 3.40081524848938,
      "learning_rate": 1.1817403368668544e-07,
      "loss": 3.476,
      "step": 473960
    },
    {
      "epoch": 0.9874375,
      "grad_norm": 2.7447798252105713,
      "learning_rate": 1.1778310404291225e-07,
      "loss": 3.4794,
      "step": 473970
    },
    {
      "epoch": 0.9874583333333333,
      "grad_norm": 3.703004837036133,
      "learning_rate": 1.1739282183098053e-07,
      "loss": 3.3554,
      "step": 473980
    },
    {
      "epoch": 0.9874791666666667,
      "grad_norm": 3.6807587146759033,
      "learning_rate": 1.1700318705257227e-07,
      "loss": 3.483,
      "step": 473990
    },
    {
      "epoch": 0.9875,
      "grad_norm": 3.8360178470611572,
      "learning_rate": 1.1661419970940278e-07,
      "loss": 3.3195,
      "step": 474000
    },
    {
      "epoch": 0.9875,
      "eval_loss": 3.5221309661865234,
      "eval_runtime": 7.323,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 474000
    },
    {
      "epoch": 0.9875208333333333,
      "grad_norm": 2.9595000743865967,
      "learning_rate": 1.1622585980312071e-07,
      "loss": 3.3594,
      "step": 474010
    },
    {
      "epoch": 0.9875416666666667,
      "grad_norm": 3.7711312770843506,
      "learning_rate": 1.1583816733542472e-07,
      "loss": 3.4512,
      "step": 474020
    },
    {
      "epoch": 0.9875625,
      "grad_norm": 3.1044983863830566,
      "learning_rate": 1.154511223079635e-07,
      "loss": 3.4305,
      "step": 474030
    },
    {
      "epoch": 0.9875833333333334,
      "grad_norm": 3.041660785675049,
      "learning_rate": 1.1506472472243567e-07,
      "loss": 3.367,
      "step": 474040
    },
    {
      "epoch": 0.9876041666666666,
      "grad_norm": 3.363900661468506,
      "learning_rate": 1.1467897458050657e-07,
      "loss": 3.3459,
      "step": 474050
    },
    {
      "epoch": 0.987625,
      "grad_norm": 2.8946924209594727,
      "learning_rate": 1.1429387188382488e-07,
      "loss": 3.2734,
      "step": 474060
    },
    {
      "epoch": 0.9876458333333333,
      "grad_norm": 2.6351654529571533,
      "learning_rate": 1.139094166340726e-07,
      "loss": 3.3999,
      "step": 474070
    },
    {
      "epoch": 0.9876666666666667,
      "grad_norm": 3.17010498046875,
      "learning_rate": 1.135256088328984e-07,
      "loss": 3.4156,
      "step": 474080
    },
    {
      "epoch": 0.9876875,
      "grad_norm": 3.2818422317504883,
      "learning_rate": 1.1314244848196763e-07,
      "loss": 3.3414,
      "step": 474090
    },
    {
      "epoch": 0.9877083333333333,
      "grad_norm": 2.9943530559539795,
      "learning_rate": 1.1275993558292895e-07,
      "loss": 3.5179,
      "step": 474100
    },
    {
      "epoch": 0.9877291666666667,
      "grad_norm": 3.015204906463623,
      "learning_rate": 1.1237807013743105e-07,
      "loss": 3.4115,
      "step": 474110
    },
    {
      "epoch": 0.98775,
      "grad_norm": 2.8581693172454834,
      "learning_rate": 1.1199685214713927e-07,
      "loss": 3.4962,
      "step": 474120
    },
    {
      "epoch": 0.9877708333333334,
      "grad_norm": 3.3055365085601807,
      "learning_rate": 1.1161628161368563e-07,
      "loss": 3.5325,
      "step": 474130
    },
    {
      "epoch": 0.9877916666666666,
      "grad_norm": 4.435428142547607,
      "learning_rate": 1.1123635853871882e-07,
      "loss": 3.4757,
      "step": 474140
    },
    {
      "epoch": 0.9878125,
      "grad_norm": 3.128734588623047,
      "learning_rate": 1.1085708292388751e-07,
      "loss": 3.3102,
      "step": 474150
    },
    {
      "epoch": 0.9878333333333333,
      "grad_norm": 3.4066712856292725,
      "learning_rate": 1.1047845477082374e-07,
      "loss": 3.2935,
      "step": 474160
    },
    {
      "epoch": 0.9878541666666667,
      "grad_norm": 2.7971205711364746,
      "learning_rate": 1.1010047408115952e-07,
      "loss": 3.5064,
      "step": 474170
    },
    {
      "epoch": 0.987875,
      "grad_norm": 3.43477725982666,
      "learning_rate": 1.0972314085652689e-07,
      "loss": 3.5025,
      "step": 474180
    },
    {
      "epoch": 0.9878958333333333,
      "grad_norm": 3.2992560863494873,
      "learning_rate": 1.0934645509855788e-07,
      "loss": 3.4264,
      "step": 474190
    },
    {
      "epoch": 0.9879166666666667,
      "grad_norm": 4.271649360656738,
      "learning_rate": 1.0897041680890117e-07,
      "loss": 3.3939,
      "step": 474200
    },
    {
      "epoch": 0.9879375,
      "grad_norm": 3.3432438373565674,
      "learning_rate": 1.0859502598913883e-07,
      "loss": 3.2655,
      "step": 474210
    },
    {
      "epoch": 0.9879583333333334,
      "grad_norm": 2.7946724891662598,
      "learning_rate": 1.0822028264091953e-07,
      "loss": 3.4011,
      "step": 474220
    },
    {
      "epoch": 0.9879791666666666,
      "grad_norm": 3.074068069458008,
      "learning_rate": 1.0784618676585865e-07,
      "loss": 3.3837,
      "step": 474230
    },
    {
      "epoch": 0.988,
      "grad_norm": 3.472764015197754,
      "learning_rate": 1.0747273836557157e-07,
      "loss": 3.2889,
      "step": 474240
    },
    {
      "epoch": 0.9880208333333333,
      "grad_norm": 4.258024215698242,
      "learning_rate": 1.0709993744167367e-07,
      "loss": 3.3473,
      "step": 474250
    },
    {
      "epoch": 0.9880416666666667,
      "grad_norm": 3.415114402770996,
      "learning_rate": 1.067277839957803e-07,
      "loss": 3.5017,
      "step": 474260
    },
    {
      "epoch": 0.9880625,
      "grad_norm": 3.8864781856536865,
      "learning_rate": 1.0635627802947355e-07,
      "loss": 3.4225,
      "step": 474270
    },
    {
      "epoch": 0.9880833333333333,
      "grad_norm": 3.4797921180725098,
      "learning_rate": 1.0598541954438545e-07,
      "loss": 3.5377,
      "step": 474280
    },
    {
      "epoch": 0.9881041666666667,
      "grad_norm": 3.8263254165649414,
      "learning_rate": 1.0561520854211469e-07,
      "loss": 3.3761,
      "step": 474290
    },
    {
      "epoch": 0.988125,
      "grad_norm": 3.072732925415039,
      "learning_rate": 1.0524564502424338e-07,
      "loss": 3.4551,
      "step": 474300
    },
    {
      "epoch": 0.9881458333333333,
      "grad_norm": 3.1957130432128906,
      "learning_rate": 1.0487672899237021e-07,
      "loss": 3.3802,
      "step": 474310
    },
    {
      "epoch": 0.9881666666666666,
      "grad_norm": 3.0559515953063965,
      "learning_rate": 1.0450846044811056e-07,
      "loss": 3.4975,
      "step": 474320
    },
    {
      "epoch": 0.9881875,
      "grad_norm": 3.3313846588134766,
      "learning_rate": 1.0414083939304652e-07,
      "loss": 3.3338,
      "step": 474330
    },
    {
      "epoch": 0.9882083333333334,
      "grad_norm": 2.6492388248443604,
      "learning_rate": 1.0377386582874347e-07,
      "loss": 3.4498,
      "step": 474340
    },
    {
      "epoch": 0.9882291666666667,
      "grad_norm": 3.290731191635132,
      "learning_rate": 1.0340753975681681e-07,
      "loss": 3.3891,
      "step": 474350
    },
    {
      "epoch": 0.98825,
      "grad_norm": 2.603597402572632,
      "learning_rate": 1.0304186117883195e-07,
      "loss": 3.4142,
      "step": 474360
    },
    {
      "epoch": 0.9882708333333333,
      "grad_norm": 2.907064199447632,
      "learning_rate": 1.0267683009637095e-07,
      "loss": 3.486,
      "step": 474370
    },
    {
      "epoch": 0.9882916666666667,
      "grad_norm": 4.028051376342773,
      "learning_rate": 1.0231244651101589e-07,
      "loss": 3.357,
      "step": 474380
    },
    {
      "epoch": 0.9883125,
      "grad_norm": 3.4301578998565674,
      "learning_rate": 1.0194871042434882e-07,
      "loss": 3.4426,
      "step": 474390
    },
    {
      "epoch": 0.9883333333333333,
      "grad_norm": 3.655113697052002,
      "learning_rate": 1.0158562183791852e-07,
      "loss": 3.501,
      "step": 474400
    },
    {
      "epoch": 0.9883541666666666,
      "grad_norm": 3.340099334716797,
      "learning_rate": 1.0122318075329039e-07,
      "loss": 3.6082,
      "step": 474410
    },
    {
      "epoch": 0.988375,
      "grad_norm": 2.591369390487671,
      "learning_rate": 1.0086138717206316e-07,
      "loss": 3.4462,
      "step": 474420
    },
    {
      "epoch": 0.9883958333333334,
      "grad_norm": 3.231560468673706,
      "learning_rate": 1.0050024109576893e-07,
      "loss": 3.4444,
      "step": 474430
    },
    {
      "epoch": 0.9884166666666667,
      "grad_norm": 2.7259361743927,
      "learning_rate": 1.0013974252598978e-07,
      "loss": 3.6074,
      "step": 474440
    },
    {
      "epoch": 0.9884375,
      "grad_norm": 3.038010835647583,
      "learning_rate": 9.977989146427445e-08,
      "loss": 3.354,
      "step": 474450
    },
    {
      "epoch": 0.9884583333333333,
      "grad_norm": 3.5602481365203857,
      "learning_rate": 9.942068791217173e-08,
      "loss": 3.5258,
      "step": 474460
    },
    {
      "epoch": 0.9884791666666667,
      "grad_norm": 3.2491185665130615,
      "learning_rate": 9.906213187123035e-08,
      "loss": 3.3165,
      "step": 474470
    },
    {
      "epoch": 0.9885,
      "grad_norm": 2.5925960540771484,
      "learning_rate": 9.87042233429991e-08,
      "loss": 3.5208,
      "step": 474480
    },
    {
      "epoch": 0.9885208333333333,
      "grad_norm": 3.1161670684814453,
      "learning_rate": 9.834696232904338e-08,
      "loss": 3.4166,
      "step": 474490
    },
    {
      "epoch": 0.9885416666666667,
      "grad_norm": 3.6707396507263184,
      "learning_rate": 9.79903488308953e-08,
      "loss": 3.4885,
      "step": 474500
    },
    {
      "epoch": 0.9885625,
      "grad_norm": 4.869986057281494,
      "learning_rate": 9.763438285008696e-08,
      "loss": 3.3523,
      "step": 474510
    },
    {
      "epoch": 0.9885833333333334,
      "grad_norm": 2.834803819656372,
      "learning_rate": 9.727906438816713e-08,
      "loss": 3.3999,
      "step": 474520
    },
    {
      "epoch": 0.9886041666666666,
      "grad_norm": 3.0887138843536377,
      "learning_rate": 9.692439344666792e-08,
      "loss": 3.3989,
      "step": 474530
    },
    {
      "epoch": 0.988625,
      "grad_norm": 3.1965553760528564,
      "learning_rate": 9.657037002712143e-08,
      "loss": 3.5669,
      "step": 474540
    },
    {
      "epoch": 0.9886458333333333,
      "grad_norm": 3.4031567573547363,
      "learning_rate": 9.621699413104312e-08,
      "loss": 3.4135,
      "step": 474550
    },
    {
      "epoch": 0.9886666666666667,
      "grad_norm": 4.040335655212402,
      "learning_rate": 9.586426575998174e-08,
      "loss": 3.4989,
      "step": 474560
    },
    {
      "epoch": 0.9886875,
      "grad_norm": 4.088019847869873,
      "learning_rate": 9.55121849154361e-08,
      "loss": 3.4442,
      "step": 474570
    },
    {
      "epoch": 0.9887083333333333,
      "grad_norm": 3.412479877471924,
      "learning_rate": 9.516075159895498e-08,
      "loss": 3.4302,
      "step": 474580
    },
    {
      "epoch": 0.9887291666666667,
      "grad_norm": 2.4846136569976807,
      "learning_rate": 9.480996581203715e-08,
      "loss": 3.46,
      "step": 474590
    },
    {
      "epoch": 0.98875,
      "grad_norm": 3.4162395000457764,
      "learning_rate": 9.445982755621473e-08,
      "loss": 3.4444,
      "step": 474600
    },
    {
      "epoch": 0.9887708333333334,
      "grad_norm": 4.7589874267578125,
      "learning_rate": 9.411033683296987e-08,
      "loss": 3.3167,
      "step": 474610
    },
    {
      "epoch": 0.9887916666666666,
      "grad_norm": 3.5230345726013184,
      "learning_rate": 9.376149364385133e-08,
      "loss": 3.3662,
      "step": 474620
    },
    {
      "epoch": 0.9888125,
      "grad_norm": 4.001697540283203,
      "learning_rate": 9.341329799034126e-08,
      "loss": 3.4427,
      "step": 474630
    },
    {
      "epoch": 0.9888333333333333,
      "grad_norm": 3.607424736022949,
      "learning_rate": 9.306574987393844e-08,
      "loss": 3.3021,
      "step": 474640
    },
    {
      "epoch": 0.9888541666666667,
      "grad_norm": 3.863245725631714,
      "learning_rate": 9.271884929615837e-08,
      "loss": 3.4173,
      "step": 474650
    },
    {
      "epoch": 0.988875,
      "grad_norm": 4.242050647735596,
      "learning_rate": 9.23725962584998e-08,
      "loss": 3.3485,
      "step": 474660
    },
    {
      "epoch": 0.9888958333333333,
      "grad_norm": 3.2029082775115967,
      "learning_rate": 9.202699076244491e-08,
      "loss": 3.3538,
      "step": 474670
    },
    {
      "epoch": 0.9889166666666667,
      "grad_norm": 3.184687614440918,
      "learning_rate": 9.168203280950915e-08,
      "loss": 3.4158,
      "step": 474680
    },
    {
      "epoch": 0.9889375,
      "grad_norm": 3.1508524417877197,
      "learning_rate": 9.1337722401158e-08,
      "loss": 3.5067,
      "step": 474690
    },
    {
      "epoch": 0.9889583333333334,
      "grad_norm": 3.3149826526641846,
      "learning_rate": 9.099405953889028e-08,
      "loss": 3.3633,
      "step": 474700
    },
    {
      "epoch": 0.9889791666666666,
      "grad_norm": 4.535069465637207,
      "learning_rate": 9.065104422420477e-08,
      "loss": 3.44,
      "step": 474710
    },
    {
      "epoch": 0.989,
      "grad_norm": 2.95859694480896,
      "learning_rate": 9.030867645855033e-08,
      "loss": 3.4429,
      "step": 474720
    },
    {
      "epoch": 0.9890208333333333,
      "grad_norm": 3.0553557872772217,
      "learning_rate": 8.996695624344242e-08,
      "loss": 3.3349,
      "step": 474730
    },
    {
      "epoch": 0.9890416666666667,
      "grad_norm": 2.9235310554504395,
      "learning_rate": 8.96258835803132e-08,
      "loss": 3.4277,
      "step": 474740
    },
    {
      "epoch": 0.9890625,
      "grad_norm": 3.584866523742676,
      "learning_rate": 8.928545847067815e-08,
      "loss": 3.5344,
      "step": 474750
    },
    {
      "epoch": 0.9890833333333333,
      "grad_norm": 2.4255878925323486,
      "learning_rate": 8.894568091598609e-08,
      "loss": 3.2884,
      "step": 474760
    },
    {
      "epoch": 0.9891041666666667,
      "grad_norm": 3.1288070678710938,
      "learning_rate": 8.860655091771917e-08,
      "loss": 3.4495,
      "step": 474770
    },
    {
      "epoch": 0.989125,
      "grad_norm": 3.1281673908233643,
      "learning_rate": 8.826806847732626e-08,
      "loss": 3.4519,
      "step": 474780
    },
    {
      "epoch": 0.9891458333333333,
      "grad_norm": 3.2399916648864746,
      "learning_rate": 8.793023359627282e-08,
      "loss": 3.4823,
      "step": 474790
    },
    {
      "epoch": 0.9891666666666666,
      "grad_norm": 2.912675380706787,
      "learning_rate": 8.759304627602436e-08,
      "loss": 3.3222,
      "step": 474800
    },
    {
      "epoch": 0.9891875,
      "grad_norm": 3.4652838706970215,
      "learning_rate": 8.725650651804639e-08,
      "loss": 3.4476,
      "step": 474810
    },
    {
      "epoch": 0.9892083333333334,
      "grad_norm": 3.160552740097046,
      "learning_rate": 8.692061432377107e-08,
      "loss": 3.3809,
      "step": 474820
    },
    {
      "epoch": 0.9892291666666667,
      "grad_norm": 3.160301923751831,
      "learning_rate": 8.658536969464724e-08,
      "loss": 3.2625,
      "step": 474830
    },
    {
      "epoch": 0.98925,
      "grad_norm": 3.2453830242156982,
      "learning_rate": 8.625077263215708e-08,
      "loss": 3.3839,
      "step": 474840
    },
    {
      "epoch": 0.9892708333333333,
      "grad_norm": 2.5721499919891357,
      "learning_rate": 8.591682313769943e-08,
      "loss": 3.3295,
      "step": 474850
    },
    {
      "epoch": 0.9892916666666667,
      "grad_norm": 2.6042561531066895,
      "learning_rate": 8.558352121275647e-08,
      "loss": 3.4689,
      "step": 474860
    },
    {
      "epoch": 0.9893125,
      "grad_norm": 3.0841469764709473,
      "learning_rate": 8.525086685874371e-08,
      "loss": 3.3368,
      "step": 474870
    },
    {
      "epoch": 0.9893333333333333,
      "grad_norm": 3.4707117080688477,
      "learning_rate": 8.491886007712667e-08,
      "loss": 3.405,
      "step": 474880
    },
    {
      "epoch": 0.9893541666666666,
      "grad_norm": 2.9582555294036865,
      "learning_rate": 8.458750086930421e-08,
      "loss": 3.2524,
      "step": 474890
    },
    {
      "epoch": 0.989375,
      "grad_norm": 3.174020290374756,
      "learning_rate": 8.425678923672518e-08,
      "loss": 3.5229,
      "step": 474900
    },
    {
      "epoch": 0.9893958333333334,
      "grad_norm": 3.8184046745300293,
      "learning_rate": 8.392672518080511e-08,
      "loss": 3.2116,
      "step": 474910
    },
    {
      "epoch": 0.9894166666666667,
      "grad_norm": 3.60037899017334,
      "learning_rate": 8.359730870299286e-08,
      "loss": 3.3613,
      "step": 474920
    },
    {
      "epoch": 0.9894375,
      "grad_norm": 4.607880592346191,
      "learning_rate": 8.326853980470394e-08,
      "loss": 3.4589,
      "step": 474930
    },
    {
      "epoch": 0.9894583333333333,
      "grad_norm": 4.270871639251709,
      "learning_rate": 8.294041848733724e-08,
      "loss": 3.3604,
      "step": 474940
    },
    {
      "epoch": 0.9894791666666667,
      "grad_norm": 3.2288289070129395,
      "learning_rate": 8.26129447523416e-08,
      "loss": 3.3373,
      "step": 474950
    },
    {
      "epoch": 0.9895,
      "grad_norm": 3.0251221656799316,
      "learning_rate": 8.228611860109924e-08,
      "loss": 3.4214,
      "step": 474960
    },
    {
      "epoch": 0.9895208333333333,
      "grad_norm": 2.9107818603515625,
      "learning_rate": 8.195994003505902e-08,
      "loss": 3.4757,
      "step": 474970
    },
    {
      "epoch": 0.9895416666666667,
      "grad_norm": 3.056117534637451,
      "learning_rate": 8.163440905560315e-08,
      "loss": 3.4517,
      "step": 474980
    },
    {
      "epoch": 0.9895625,
      "grad_norm": 3.0480539798736572,
      "learning_rate": 8.130952566414717e-08,
      "loss": 3.3616,
      "step": 474990
    },
    {
      "epoch": 0.9895833333333334,
      "grad_norm": 3.933028221130371,
      "learning_rate": 8.098528986208996e-08,
      "loss": 3.3774,
      "step": 475000
    },
    {
      "epoch": 0.9895833333333334,
      "eval_loss": 3.5211281776428223,
      "eval_runtime": 7.3343,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.409,
      "step": 475000
    },
    {
      "epoch": 0.9896041666666666,
      "grad_norm": 3.373110294342041,
      "learning_rate": 8.066170165083042e-08,
      "loss": 3.3942,
      "step": 475010
    },
    {
      "epoch": 0.989625,
      "grad_norm": 3.361510753631592,
      "learning_rate": 8.03387610317674e-08,
      "loss": 3.5662,
      "step": 475020
    },
    {
      "epoch": 0.9896458333333333,
      "grad_norm": 2.867263078689575,
      "learning_rate": 8.001646800631645e-08,
      "loss": 3.3993,
      "step": 475030
    },
    {
      "epoch": 0.9896666666666667,
      "grad_norm": 3.131887435913086,
      "learning_rate": 7.969482257582649e-08,
      "loss": 3.5171,
      "step": 475040
    },
    {
      "epoch": 0.9896875,
      "grad_norm": 3.672156810760498,
      "learning_rate": 7.937382474172971e-08,
      "loss": 3.3997,
      "step": 475050
    },
    {
      "epoch": 0.9897083333333333,
      "grad_norm": 3.112804889678955,
      "learning_rate": 7.905347450539168e-08,
      "loss": 3.4533,
      "step": 475060
    },
    {
      "epoch": 0.9897291666666667,
      "grad_norm": 3.424731731414795,
      "learning_rate": 7.873377186819463e-08,
      "loss": 3.3377,
      "step": 475070
    },
    {
      "epoch": 0.98975,
      "grad_norm": 3.231001615524292,
      "learning_rate": 7.841471683153744e-08,
      "loss": 3.2969,
      "step": 475080
    },
    {
      "epoch": 0.9897708333333334,
      "grad_norm": 3.275862455368042,
      "learning_rate": 7.809630939676904e-08,
      "loss": 3.3945,
      "step": 475090
    },
    {
      "epoch": 0.9897916666666666,
      "grad_norm": 3.033407211303711,
      "learning_rate": 7.777854956528829e-08,
      "loss": 3.4851,
      "step": 475100
    },
    {
      "epoch": 0.9898125,
      "grad_norm": 3.2446627616882324,
      "learning_rate": 7.746143733847743e-08,
      "loss": 3.3146,
      "step": 475110
    },
    {
      "epoch": 0.9898333333333333,
      "grad_norm": 3.2939610481262207,
      "learning_rate": 7.714497271766873e-08,
      "loss": 3.3433,
      "step": 475120
    },
    {
      "epoch": 0.9898541666666667,
      "grad_norm": 3.8569416999816895,
      "learning_rate": 7.682915570426107e-08,
      "loss": 3.3933,
      "step": 475130
    },
    {
      "epoch": 0.989875,
      "grad_norm": 2.987191915512085,
      "learning_rate": 7.651398629960337e-08,
      "loss": 3.4846,
      "step": 475140
    },
    {
      "epoch": 0.9898958333333333,
      "grad_norm": 3.8034110069274902,
      "learning_rate": 7.61994645050612e-08,
      "loss": 3.4533,
      "step": 475150
    },
    {
      "epoch": 0.9899166666666667,
      "grad_norm": 3.372776746749878,
      "learning_rate": 7.588559032198348e-08,
      "loss": 3.4134,
      "step": 475160
    },
    {
      "epoch": 0.9899375,
      "grad_norm": 3.042982578277588,
      "learning_rate": 7.557236375175246e-08,
      "loss": 3.536,
      "step": 475170
    },
    {
      "epoch": 0.9899583333333334,
      "grad_norm": 3.196490526199341,
      "learning_rate": 7.525978479568373e-08,
      "loss": 3.4549,
      "step": 475180
    },
    {
      "epoch": 0.9899791666666666,
      "grad_norm": 2.882167100906372,
      "learning_rate": 7.494785345517618e-08,
      "loss": 3.357,
      "step": 475190
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.144940137863159,
      "learning_rate": 7.463656973152876e-08,
      "loss": 3.4449,
      "step": 475200
    },
    {
      "epoch": 0.9900208333333333,
      "grad_norm": 3.3322677612304688,
      "learning_rate": 7.432593362610706e-08,
      "loss": 3.5057,
      "step": 475210
    },
    {
      "epoch": 0.9900416666666667,
      "grad_norm": 3.116966724395752,
      "learning_rate": 7.401594514025999e-08,
      "loss": 3.4868,
      "step": 475220
    },
    {
      "epoch": 0.9900625,
      "grad_norm": 3.0506672859191895,
      "learning_rate": 7.370660427531982e-08,
      "loss": 3.4406,
      "step": 475230
    },
    {
      "epoch": 0.9900833333333333,
      "grad_norm": 3.318967342376709,
      "learning_rate": 7.339791103261883e-08,
      "loss": 3.5067,
      "step": 475240
    },
    {
      "epoch": 0.9901041666666667,
      "grad_norm": 2.801508665084839,
      "learning_rate": 7.308986541350592e-08,
      "loss": 3.4268,
      "step": 475250
    },
    {
      "epoch": 0.990125,
      "grad_norm": 3.755431890487671,
      "learning_rate": 7.278246741928006e-08,
      "loss": 3.4388,
      "step": 475260
    },
    {
      "epoch": 0.9901458333333333,
      "grad_norm": 3.5290310382843018,
      "learning_rate": 7.247571705130684e-08,
      "loss": 3.5599,
      "step": 475270
    },
    {
      "epoch": 0.9901666666666666,
      "grad_norm": 3.529778003692627,
      "learning_rate": 7.21696143108852e-08,
      "loss": 3.5698,
      "step": 475280
    },
    {
      "epoch": 0.9901875,
      "grad_norm": 3.3813202381134033,
      "learning_rate": 7.18641591993474e-08,
      "loss": 3.3494,
      "step": 475290
    },
    {
      "epoch": 0.9902083333333334,
      "grad_norm": 4.091805934906006,
      "learning_rate": 7.155935171799243e-08,
      "loss": 3.4964,
      "step": 475300
    },
    {
      "epoch": 0.9902291666666667,
      "grad_norm": 3.25980544090271,
      "learning_rate": 7.125519186818585e-08,
      "loss": 3.417,
      "step": 475310
    },
    {
      "epoch": 0.99025,
      "grad_norm": 3.733304500579834,
      "learning_rate": 7.09516796511933e-08,
      "loss": 3.2369,
      "step": 475320
    },
    {
      "epoch": 0.9902708333333333,
      "grad_norm": 2.5682239532470703,
      "learning_rate": 7.064881506834708e-08,
      "loss": 3.413,
      "step": 475330
    },
    {
      "epoch": 0.9902916666666667,
      "grad_norm": 3.2501678466796875,
      "learning_rate": 7.034659812094611e-08,
      "loss": 3.4839,
      "step": 475340
    },
    {
      "epoch": 0.9903125,
      "grad_norm": 3.145040988922119,
      "learning_rate": 7.004502881030605e-08,
      "loss": 3.437,
      "step": 475350
    },
    {
      "epoch": 0.9903333333333333,
      "grad_norm": 3.409505844116211,
      "learning_rate": 6.974410713772582e-08,
      "loss": 3.3438,
      "step": 475360
    },
    {
      "epoch": 0.9903541666666666,
      "grad_norm": 2.9417104721069336,
      "learning_rate": 6.944383310450441e-08,
      "loss": 3.2773,
      "step": 475370
    },
    {
      "epoch": 0.990375,
      "grad_norm": 3.211527109146118,
      "learning_rate": 6.914420671194077e-08,
      "loss": 3.4678,
      "step": 475380
    },
    {
      "epoch": 0.9903958333333334,
      "grad_norm": 4.313897132873535,
      "learning_rate": 6.88452279613172e-08,
      "loss": 3.3996,
      "step": 475390
    },
    {
      "epoch": 0.9904166666666666,
      "grad_norm": 3.598329544067383,
      "learning_rate": 6.854689685394932e-08,
      "loss": 3.3738,
      "step": 475400
    },
    {
      "epoch": 0.9904375,
      "grad_norm": 3.94114089012146,
      "learning_rate": 6.824921339110278e-08,
      "loss": 3.4223,
      "step": 475410
    },
    {
      "epoch": 0.9904583333333333,
      "grad_norm": 2.9919075965881348,
      "learning_rate": 6.795217757407656e-08,
      "loss": 3.243,
      "step": 475420
    },
    {
      "epoch": 0.9904791666666667,
      "grad_norm": 3.32499361038208,
      "learning_rate": 6.765578940413629e-08,
      "loss": 3.4415,
      "step": 475430
    },
    {
      "epoch": 0.9905,
      "grad_norm": 3.591599941253662,
      "learning_rate": 6.73600488825976e-08,
      "loss": 3.3146,
      "step": 475440
    },
    {
      "epoch": 0.9905208333333333,
      "grad_norm": 4.005548477172852,
      "learning_rate": 6.706495601070949e-08,
      "loss": 3.4889,
      "step": 475450
    },
    {
      "epoch": 0.9905416666666667,
      "grad_norm": 3.1557095050811768,
      "learning_rate": 6.67705107897376e-08,
      "loss": 3.3731,
      "step": 475460
    },
    {
      "epoch": 0.9905625,
      "grad_norm": 3.1381688117980957,
      "learning_rate": 6.647671322098091e-08,
      "loss": 3.338,
      "step": 475470
    },
    {
      "epoch": 0.9905833333333334,
      "grad_norm": 2.7228620052337646,
      "learning_rate": 6.618356330570507e-08,
      "loss": 3.6095,
      "step": 475480
    },
    {
      "epoch": 0.9906041666666666,
      "grad_norm": 3.043954610824585,
      "learning_rate": 6.589106104515907e-08,
      "loss": 3.4303,
      "step": 475490
    },
    {
      "epoch": 0.990625,
      "grad_norm": 3.0623393058776855,
      "learning_rate": 6.559920644062521e-08,
      "loss": 3.4705,
      "step": 475500
    },
    {
      "epoch": 0.9906458333333333,
      "grad_norm": 3.3211941719055176,
      "learning_rate": 6.530799949333587e-08,
      "loss": 3.3524,
      "step": 475510
    },
    {
      "epoch": 0.9906666666666667,
      "grad_norm": 2.5409560203552246,
      "learning_rate": 6.501744020458998e-08,
      "loss": 3.4725,
      "step": 475520
    },
    {
      "epoch": 0.9906875,
      "grad_norm": 3.297710418701172,
      "learning_rate": 6.472752857560326e-08,
      "loss": 3.5079,
      "step": 475530
    },
    {
      "epoch": 0.9907083333333333,
      "grad_norm": 3.0259525775909424,
      "learning_rate": 6.4438264607658e-08,
      "loss": 3.4089,
      "step": 475540
    },
    {
      "epoch": 0.9907291666666667,
      "grad_norm": 2.8241138458251953,
      "learning_rate": 6.414964830196989e-08,
      "loss": 3.5134,
      "step": 475550
    },
    {
      "epoch": 0.99075,
      "grad_norm": 2.6994290351867676,
      "learning_rate": 6.386167965982126e-08,
      "loss": 3.4104,
      "step": 475560
    },
    {
      "epoch": 0.9907708333333334,
      "grad_norm": 2.9256088733673096,
      "learning_rate": 6.357435868244443e-08,
      "loss": 3.5426,
      "step": 475570
    },
    {
      "epoch": 0.9907916666666666,
      "grad_norm": 2.79045033454895,
      "learning_rate": 6.328768537107177e-08,
      "loss": 3.3717,
      "step": 475580
    },
    {
      "epoch": 0.9908125,
      "grad_norm": 2.9300625324249268,
      "learning_rate": 6.300165972695225e-08,
      "loss": 3.3823,
      "step": 475590
    },
    {
      "epoch": 0.9908333333333333,
      "grad_norm": 3.288151979446411,
      "learning_rate": 6.271628175131827e-08,
      "loss": 3.5072,
      "step": 475600
    },
    {
      "epoch": 0.9908541666666667,
      "grad_norm": 2.6838388442993164,
      "learning_rate": 6.243155144538547e-08,
      "loss": 3.374,
      "step": 475610
    },
    {
      "epoch": 0.990875,
      "grad_norm": 2.713487386703491,
      "learning_rate": 6.214746881041955e-08,
      "loss": 3.6379,
      "step": 475620
    },
    {
      "epoch": 0.9908958333333333,
      "grad_norm": 3.1670854091644287,
      "learning_rate": 6.186403384761951e-08,
      "loss": 3.5402,
      "step": 475630
    },
    {
      "epoch": 0.9909166666666667,
      "grad_norm": 2.6072287559509277,
      "learning_rate": 6.158124655820107e-08,
      "loss": 3.3324,
      "step": 475640
    },
    {
      "epoch": 0.9909375,
      "grad_norm": 2.6430351734161377,
      "learning_rate": 6.129910694342988e-08,
      "loss": 3.4555,
      "step": 475650
    },
    {
      "epoch": 0.9909583333333334,
      "grad_norm": 2.5872325897216797,
      "learning_rate": 6.101761500447166e-08,
      "loss": 3.4304,
      "step": 475660
    },
    {
      "epoch": 0.9909791666666666,
      "grad_norm": 2.7309272289276123,
      "learning_rate": 6.073677074257544e-08,
      "loss": 3.4022,
      "step": 475670
    },
    {
      "epoch": 0.991,
      "grad_norm": 2.866811513900757,
      "learning_rate": 6.045657415895689e-08,
      "loss": 3.4974,
      "step": 475680
    },
    {
      "epoch": 0.9910208333333334,
      "grad_norm": 2.6963233947753906,
      "learning_rate": 6.01770252547984e-08,
      "loss": 3.362,
      "step": 475690
    },
    {
      "epoch": 0.9910416666666667,
      "grad_norm": 3.7163965702056885,
      "learning_rate": 5.989812403133232e-08,
      "loss": 3.3967,
      "step": 475700
    },
    {
      "epoch": 0.9910625,
      "grad_norm": 3.7639639377593994,
      "learning_rate": 5.96198704897577e-08,
      "loss": 3.4348,
      "step": 475710
    },
    {
      "epoch": 0.9910833333333333,
      "grad_norm": 2.9923529624938965,
      "learning_rate": 5.934226463127356e-08,
      "loss": 3.4335,
      "step": 475720
    },
    {
      "epoch": 0.9911041666666667,
      "grad_norm": 2.851914167404175,
      "learning_rate": 5.906530645707897e-08,
      "loss": 3.4204,
      "step": 475730
    },
    {
      "epoch": 0.991125,
      "grad_norm": 4.614445686340332,
      "learning_rate": 5.8788995968389594e-08,
      "loss": 3.315,
      "step": 475740
    },
    {
      "epoch": 0.9911458333333333,
      "grad_norm": 2.610640048980713,
      "learning_rate": 5.851333316635454e-08,
      "loss": 3.4009,
      "step": 475750
    },
    {
      "epoch": 0.9911666666666666,
      "grad_norm": 3.574125289916992,
      "learning_rate": 5.823831805220613e-08,
      "loss": 3.3359,
      "step": 475760
    },
    {
      "epoch": 0.9911875,
      "grad_norm": 4.143659591674805,
      "learning_rate": 5.796395062711012e-08,
      "loss": 3.4566,
      "step": 475770
    },
    {
      "epoch": 0.9912083333333334,
      "grad_norm": 4.1249098777771,
      "learning_rate": 5.769023089226554e-08,
      "loss": 3.4795,
      "step": 475780
    },
    {
      "epoch": 0.9912291666666667,
      "grad_norm": 5.149118423461914,
      "learning_rate": 5.741715884883813e-08,
      "loss": 3.4169,
      "step": 475790
    },
    {
      "epoch": 0.99125,
      "grad_norm": 3.112161636352539,
      "learning_rate": 5.7144734498026926e-08,
      "loss": 3.188,
      "step": 475800
    },
    {
      "epoch": 0.9912708333333333,
      "grad_norm": 3.0802104473114014,
      "learning_rate": 5.687295784099766e-08,
      "loss": 3.2659,
      "step": 475810
    },
    {
      "epoch": 0.9912916666666667,
      "grad_norm": 2.9514012336730957,
      "learning_rate": 5.6601828878916066e-08,
      "loss": 3.3875,
      "step": 475820
    },
    {
      "epoch": 0.9913125,
      "grad_norm": 3.1280181407928467,
      "learning_rate": 5.633134761296454e-08,
      "loss": 3.3841,
      "step": 475830
    },
    {
      "epoch": 0.9913333333333333,
      "grad_norm": 4.435992240905762,
      "learning_rate": 5.606151404432546e-08,
      "loss": 3.533,
      "step": 475840
    },
    {
      "epoch": 0.9913541666666666,
      "grad_norm": 2.5229668617248535,
      "learning_rate": 5.579232817413126e-08,
      "loss": 3.5083,
      "step": 475850
    },
    {
      "epoch": 0.991375,
      "grad_norm": 4.470440864562988,
      "learning_rate": 5.552379000356433e-08,
      "loss": 3.4021,
      "step": 475860
    },
    {
      "epoch": 0.9913958333333334,
      "grad_norm": 3.3709895610809326,
      "learning_rate": 5.5255899533790396e-08,
      "loss": 3.3969,
      "step": 475870
    },
    {
      "epoch": 0.9914166666666666,
      "grad_norm": 3.334826707839966,
      "learning_rate": 5.498865676595854e-08,
      "loss": 3.4607,
      "step": 475880
    },
    {
      "epoch": 0.9914375,
      "grad_norm": 2.6637163162231445,
      "learning_rate": 5.472206170121785e-08,
      "loss": 3.3864,
      "step": 475890
    },
    {
      "epoch": 0.9914583333333333,
      "grad_norm": 2.857536792755127,
      "learning_rate": 5.445611434071739e-08,
      "loss": 3.416,
      "step": 475900
    },
    {
      "epoch": 0.9914791666666667,
      "grad_norm": 3.303692102432251,
      "learning_rate": 5.419081468563957e-08,
      "loss": 3.3945,
      "step": 475910
    },
    {
      "epoch": 0.9915,
      "grad_norm": 3.617755174636841,
      "learning_rate": 5.39261627370835e-08,
      "loss": 3.4505,
      "step": 475920
    },
    {
      "epoch": 0.9915208333333333,
      "grad_norm": 2.6783995628356934,
      "learning_rate": 5.3662158496214914e-08,
      "loss": 3.4128,
      "step": 475930
    },
    {
      "epoch": 0.9915416666666667,
      "grad_norm": 3.2245941162109375,
      "learning_rate": 5.339880196418289e-08,
      "loss": 3.417,
      "step": 475940
    },
    {
      "epoch": 0.9915625,
      "grad_norm": 3.5124082565307617,
      "learning_rate": 5.313609314210321e-08,
      "loss": 3.3598,
      "step": 475950
    },
    {
      "epoch": 0.9915833333333334,
      "grad_norm": 3.8899011611938477,
      "learning_rate": 5.2874032031124945e-08,
      "loss": 3.4256,
      "step": 475960
    },
    {
      "epoch": 0.9916041666666666,
      "grad_norm": 3.4030227661132812,
      "learning_rate": 5.261261863238053e-08,
      "loss": 3.4024,
      "step": 475970
    },
    {
      "epoch": 0.991625,
      "grad_norm": 2.505875587463379,
      "learning_rate": 5.235185294700239e-08,
      "loss": 3.4335,
      "step": 475980
    },
    {
      "epoch": 0.9916458333333333,
      "grad_norm": 3.390435218811035,
      "learning_rate": 5.2091734976106305e-08,
      "loss": 3.3734,
      "step": 475990
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 2.8737399578094482,
      "learning_rate": 5.183226472082469e-08,
      "loss": 3.412,
      "step": 476000
    },
    {
      "epoch": 0.9916666666666667,
      "eval_loss": 3.5207724571228027,
      "eval_runtime": 6.8408,
      "eval_samples_per_second": 1.462,
      "eval_steps_per_second": 0.439,
      "step": 476000
    },
    {
      "epoch": 0.9916875,
      "grad_norm": 2.7512295246124268,
      "learning_rate": 5.157344218225667e-08,
      "loss": 3.4684,
      "step": 476010
    },
    {
      "epoch": 0.9917083333333333,
      "grad_norm": 3.1967051029205322,
      "learning_rate": 5.131526736155134e-08,
      "loss": 3.4038,
      "step": 476020
    },
    {
      "epoch": 0.9917291666666667,
      "grad_norm": 4.2493672370910645,
      "learning_rate": 5.1057740259824454e-08,
      "loss": 3.3391,
      "step": 476030
    },
    {
      "epoch": 0.99175,
      "grad_norm": 3.2974462509155273,
      "learning_rate": 5.080086087815849e-08,
      "loss": 3.4079,
      "step": 476040
    },
    {
      "epoch": 0.9917708333333334,
      "grad_norm": 2.9372448921203613,
      "learning_rate": 5.054462921766922e-08,
      "loss": 3.5671,
      "step": 476050
    },
    {
      "epoch": 0.9917916666666666,
      "grad_norm": 2.6461386680603027,
      "learning_rate": 5.028904527948907e-08,
      "loss": 3.4228,
      "step": 476060
    },
    {
      "epoch": 0.9918125,
      "grad_norm": 2.9929144382476807,
      "learning_rate": 5.0034109064700514e-08,
      "loss": 3.4747,
      "step": 476070
    },
    {
      "epoch": 0.9918333333333333,
      "grad_norm": 5.28477144241333,
      "learning_rate": 4.977982057440266e-08,
      "loss": 3.3786,
      "step": 476080
    },
    {
      "epoch": 0.9918541666666667,
      "grad_norm": 2.5152790546417236,
      "learning_rate": 4.9526179809711296e-08,
      "loss": 3.4532,
      "step": 476090
    },
    {
      "epoch": 0.991875,
      "grad_norm": 3.92724347114563,
      "learning_rate": 4.927318677170888e-08,
      "loss": 3.3647,
      "step": 476100
    },
    {
      "epoch": 0.9918958333333333,
      "grad_norm": 2.909799098968506,
      "learning_rate": 4.9020841461494544e-08,
      "loss": 3.3979,
      "step": 476110
    },
    {
      "epoch": 0.9919166666666667,
      "grad_norm": 3.021088123321533,
      "learning_rate": 4.876914388015074e-08,
      "loss": 3.4337,
      "step": 476120
    },
    {
      "epoch": 0.9919375,
      "grad_norm": 2.609170436859131,
      "learning_rate": 4.85180940287766e-08,
      "loss": 3.2567,
      "step": 476130
    },
    {
      "epoch": 0.9919583333333334,
      "grad_norm": 2.9683666229248047,
      "learning_rate": 4.8267691908437936e-08,
      "loss": 3.4712,
      "step": 476140
    },
    {
      "epoch": 0.9919791666666666,
      "grad_norm": 4.026656150817871,
      "learning_rate": 4.801793752023386e-08,
      "loss": 3.4721,
      "step": 476150
    },
    {
      "epoch": 0.992,
      "grad_norm": 3.8514792919158936,
      "learning_rate": 4.776883086524686e-08,
      "loss": 3.4689,
      "step": 476160
    },
    {
      "epoch": 0.9920208333333334,
      "grad_norm": 3.089247465133667,
      "learning_rate": 4.752037194452607e-08,
      "loss": 3.442,
      "step": 476170
    },
    {
      "epoch": 0.9920416666666667,
      "grad_norm": 4.501426696777344,
      "learning_rate": 4.727256075917063e-08,
      "loss": 3.3365,
      "step": 476180
    },
    {
      "epoch": 0.9920625,
      "grad_norm": 3.511888027191162,
      "learning_rate": 4.702539731024635e-08,
      "loss": 3.4538,
      "step": 476190
    },
    {
      "epoch": 0.9920833333333333,
      "grad_norm": 2.6150496006011963,
      "learning_rate": 4.677888159880239e-08,
      "loss": 3.5298,
      "step": 476200
    },
    {
      "epoch": 0.9921041666666667,
      "grad_norm": 4.74737548828125,
      "learning_rate": 4.6533013625937864e-08,
      "loss": 3.3582,
      "step": 476210
    },
    {
      "epoch": 0.992125,
      "grad_norm": 3.9423108100891113,
      "learning_rate": 4.628779339268529e-08,
      "loss": 3.3818,
      "step": 476220
    },
    {
      "epoch": 0.9921458333333333,
      "grad_norm": 2.9453320503234863,
      "learning_rate": 4.6043220900110475e-08,
      "loss": 3.4098,
      "step": 476230
    },
    {
      "epoch": 0.9921666666666666,
      "grad_norm": 3.1328749656677246,
      "learning_rate": 4.579929614927924e-08,
      "loss": 3.374,
      "step": 476240
    },
    {
      "epoch": 0.9921875,
      "grad_norm": 2.893573045730591,
      "learning_rate": 4.555601914124074e-08,
      "loss": 3.3628,
      "step": 476250
    },
    {
      "epoch": 0.9922083333333334,
      "grad_norm": 3.712275981903076,
      "learning_rate": 4.531338987702748e-08,
      "loss": 3.3056,
      "step": 476260
    },
    {
      "epoch": 0.9922291666666667,
      "grad_norm": 3.2073845863342285,
      "learning_rate": 4.507140835772194e-08,
      "loss": 3.5945,
      "step": 476270
    },
    {
      "epoch": 0.99225,
      "grad_norm": 3.968010187149048,
      "learning_rate": 4.483007458433996e-08,
      "loss": 3.4782,
      "step": 476280
    },
    {
      "epoch": 0.9922708333333333,
      "grad_norm": 3.336012601852417,
      "learning_rate": 4.458938855794736e-08,
      "loss": 3.4472,
      "step": 476290
    },
    {
      "epoch": 0.9922916666666667,
      "grad_norm": 3.3185601234436035,
      "learning_rate": 4.434935027955999e-08,
      "loss": 3.3753,
      "step": 476300
    },
    {
      "epoch": 0.9923125,
      "grad_norm": 3.957047939300537,
      "learning_rate": 4.4109959750243676e-08,
      "loss": 3.4498,
      "step": 476310
    },
    {
      "epoch": 0.9923333333333333,
      "grad_norm": 4.3170247077941895,
      "learning_rate": 4.38712169709976e-08,
      "loss": 3.2801,
      "step": 476320
    },
    {
      "epoch": 0.9923541666666666,
      "grad_norm": 2.8735570907592773,
      "learning_rate": 4.363312194287094e-08,
      "loss": 3.3044,
      "step": 476330
    },
    {
      "epoch": 0.992375,
      "grad_norm": 3.306666612625122,
      "learning_rate": 4.339567466691285e-08,
      "loss": 3.3874,
      "step": 476340
    },
    {
      "epoch": 0.9923958333333334,
      "grad_norm": 2.7348763942718506,
      "learning_rate": 4.3158875144105874e-08,
      "loss": 3.4396,
      "step": 476350
    },
    {
      "epoch": 0.9924166666666666,
      "grad_norm": 2.5419981479644775,
      "learning_rate": 4.292272337551583e-08,
      "loss": 3.4607,
      "step": 476360
    },
    {
      "epoch": 0.9924375,
      "grad_norm": 2.9341843128204346,
      "learning_rate": 4.268721936212527e-08,
      "loss": 3.5099,
      "step": 476370
    },
    {
      "epoch": 0.9924583333333333,
      "grad_norm": 3.378889799118042,
      "learning_rate": 4.245236310498334e-08,
      "loss": 3.383,
      "step": 476380
    },
    {
      "epoch": 0.9924791666666667,
      "grad_norm": 3.3758599758148193,
      "learning_rate": 4.221815460507261e-08,
      "loss": 3.3337,
      "step": 476390
    },
    {
      "epoch": 0.9925,
      "grad_norm": 3.222493886947632,
      "learning_rate": 4.198459386344222e-08,
      "loss": 3.4839,
      "step": 476400
    },
    {
      "epoch": 0.9925208333333333,
      "grad_norm": 3.4269917011260986,
      "learning_rate": 4.175168088105807e-08,
      "loss": 3.4043,
      "step": 476410
    },
    {
      "epoch": 0.9925416666666667,
      "grad_norm": 3.114947557449341,
      "learning_rate": 4.1519415658969325e-08,
      "loss": 3.4478,
      "step": 476420
    },
    {
      "epoch": 0.9925625,
      "grad_norm": 2.730132818222046,
      "learning_rate": 4.128779819814187e-08,
      "loss": 3.3825,
      "step": 476430
    },
    {
      "epoch": 0.9925833333333334,
      "grad_norm": 2.803683280944824,
      "learning_rate": 4.105682849960823e-08,
      "loss": 3.3959,
      "step": 476440
    },
    {
      "epoch": 0.9926041666666666,
      "grad_norm": 3.228576421737671,
      "learning_rate": 4.0826506564350935e-08,
      "loss": 3.3138,
      "step": 476450
    },
    {
      "epoch": 0.992625,
      "grad_norm": 3.936796188354492,
      "learning_rate": 4.059683239335254e-08,
      "loss": 3.42,
      "step": 476460
    },
    {
      "epoch": 0.9926458333333333,
      "grad_norm": 3.094817876815796,
      "learning_rate": 4.03678059876289e-08,
      "loss": 3.3283,
      "step": 476470
    },
    {
      "epoch": 0.9926666666666667,
      "grad_norm": 3.1046102046966553,
      "learning_rate": 4.01394273481459e-08,
      "loss": 3.453,
      "step": 476480
    },
    {
      "epoch": 0.9926875,
      "grad_norm": 2.4720473289489746,
      "learning_rate": 3.991169647591941e-08,
      "loss": 3.3727,
      "step": 476490
    },
    {
      "epoch": 0.9927083333333333,
      "grad_norm": 3.399367570877075,
      "learning_rate": 3.9684613371898656e-08,
      "loss": 3.3234,
      "step": 476500
    },
    {
      "epoch": 0.9927291666666667,
      "grad_norm": 3.322035312652588,
      "learning_rate": 3.94581780370995e-08,
      "loss": 3.4241,
      "step": 476510
    },
    {
      "epoch": 0.99275,
      "grad_norm": 3.4030394554138184,
      "learning_rate": 3.9232390472471175e-08,
      "loss": 3.5373,
      "step": 476520
    },
    {
      "epoch": 0.9927708333333334,
      "grad_norm": 4.00921106338501,
      "learning_rate": 3.9007250678996235e-08,
      "loss": 3.4299,
      "step": 476530
    },
    {
      "epoch": 0.9927916666666666,
      "grad_norm": 3.160386562347412,
      "learning_rate": 3.878275865765723e-08,
      "loss": 3.4621,
      "step": 476540
    },
    {
      "epoch": 0.9928125,
      "grad_norm": 2.7180168628692627,
      "learning_rate": 3.855891440942005e-08,
      "loss": 3.4729,
      "step": 476550
    },
    {
      "epoch": 0.9928333333333333,
      "grad_norm": 2.696333885192871,
      "learning_rate": 3.833571793525059e-08,
      "loss": 3.4195,
      "step": 476560
    },
    {
      "epoch": 0.9928541666666667,
      "grad_norm": 4.7309722900390625,
      "learning_rate": 3.811316923611474e-08,
      "loss": 3.4415,
      "step": 476570
    },
    {
      "epoch": 0.992875,
      "grad_norm": 3.627161979675293,
      "learning_rate": 3.7891268312961744e-08,
      "loss": 3.4251,
      "step": 476580
    },
    {
      "epoch": 0.9928958333333333,
      "grad_norm": 3.5112454891204834,
      "learning_rate": 3.7670015166757495e-08,
      "loss": 3.4096,
      "step": 476590
    },
    {
      "epoch": 0.9929166666666667,
      "grad_norm": 3.3762803077697754,
      "learning_rate": 3.744940979846789e-08,
      "loss": 3.4106,
      "step": 476600
    },
    {
      "epoch": 0.9929375,
      "grad_norm": 3.0109102725982666,
      "learning_rate": 3.722945220902551e-08,
      "loss": 3.3938,
      "step": 476610
    },
    {
      "epoch": 0.9929583333333334,
      "grad_norm": 3.323668956756592,
      "learning_rate": 3.701014239941291e-08,
      "loss": 3.4387,
      "step": 476620
    },
    {
      "epoch": 0.9929791666666666,
      "grad_norm": 2.8562140464782715,
      "learning_rate": 3.679148037054602e-08,
      "loss": 3.4235,
      "step": 476630
    },
    {
      "epoch": 0.993,
      "grad_norm": 4.278975963592529,
      "learning_rate": 3.657346612337408e-08,
      "loss": 3.4775,
      "step": 476640
    },
    {
      "epoch": 0.9930208333333334,
      "grad_norm": 4.103091716766357,
      "learning_rate": 3.635609965884634e-08,
      "loss": 3.4841,
      "step": 476650
    },
    {
      "epoch": 0.9930416666666667,
      "grad_norm": 3.176619052886963,
      "learning_rate": 3.6139380977912024e-08,
      "loss": 3.3186,
      "step": 476660
    },
    {
      "epoch": 0.9930625,
      "grad_norm": 3.4786033630371094,
      "learning_rate": 3.592331008148708e-08,
      "loss": 3.5039,
      "step": 476670
    },
    {
      "epoch": 0.9930833333333333,
      "grad_norm": 2.5842645168304443,
      "learning_rate": 3.570788697052074e-08,
      "loss": 3.457,
      "step": 476680
    },
    {
      "epoch": 0.9931041666666667,
      "grad_norm": 2.792902946472168,
      "learning_rate": 3.549311164592894e-08,
      "loss": 3.4959,
      "step": 476690
    },
    {
      "epoch": 0.993125,
      "grad_norm": 3.7082958221435547,
      "learning_rate": 3.5278984108644273e-08,
      "loss": 3.4562,
      "step": 476700
    },
    {
      "epoch": 0.9931458333333333,
      "grad_norm": 3.7656190395355225,
      "learning_rate": 3.506550435959932e-08,
      "loss": 3.3763,
      "step": 476710
    },
    {
      "epoch": 0.9931666666666666,
      "grad_norm": 2.9784224033355713,
      "learning_rate": 3.485267239971001e-08,
      "loss": 3.3866,
      "step": 476720
    },
    {
      "epoch": 0.9931875,
      "grad_norm": 3.307061195373535,
      "learning_rate": 3.464048822990895e-08,
      "loss": 3.3286,
      "step": 476730
    },
    {
      "epoch": 0.9932083333333334,
      "grad_norm": 3.1171650886535645,
      "learning_rate": 3.4428951851078745e-08,
      "loss": 3.507,
      "step": 476740
    },
    {
      "epoch": 0.9932291666666667,
      "grad_norm": 2.7742538452148438,
      "learning_rate": 3.421806326416865e-08,
      "loss": 3.6192,
      "step": 476750
    },
    {
      "epoch": 0.99325,
      "grad_norm": 3.00156569480896,
      "learning_rate": 3.400782247007794e-08,
      "loss": 3.4107,
      "step": 476760
    },
    {
      "epoch": 0.9932708333333333,
      "grad_norm": 2.704547643661499,
      "learning_rate": 3.3798229469705894e-08,
      "loss": 3.4295,
      "step": 476770
    },
    {
      "epoch": 0.9932916666666667,
      "grad_norm": 3.4116766452789307,
      "learning_rate": 3.358928426396845e-08,
      "loss": 3.3795,
      "step": 476780
    },
    {
      "epoch": 0.9933125,
      "grad_norm": 2.7539615631103516,
      "learning_rate": 3.338098685376489e-08,
      "loss": 3.2513,
      "step": 476790
    },
    {
      "epoch": 0.9933333333333333,
      "grad_norm": 3.956639289855957,
      "learning_rate": 3.3173337239977834e-08,
      "loss": 3.2663,
      "step": 476800
    },
    {
      "epoch": 0.9933541666666666,
      "grad_norm": 3.715336799621582,
      "learning_rate": 3.296633542353988e-08,
      "loss": 3.3349,
      "step": 476810
    },
    {
      "epoch": 0.993375,
      "grad_norm": 2.933316230773926,
      "learning_rate": 3.275998140531699e-08,
      "loss": 3.5103,
      "step": 476820
    },
    {
      "epoch": 0.9933958333333334,
      "grad_norm": 3.8771252632141113,
      "learning_rate": 3.255427518622511e-08,
      "loss": 3.4267,
      "step": 476830
    },
    {
      "epoch": 0.9934166666666666,
      "grad_norm": 3.612002372741699,
      "learning_rate": 3.23492167671302e-08,
      "loss": 3.5362,
      "step": 476840
    },
    {
      "epoch": 0.9934375,
      "grad_norm": 2.8134474754333496,
      "learning_rate": 3.21448061489149e-08,
      "loss": 3.358,
      "step": 476850
    },
    {
      "epoch": 0.9934583333333333,
      "grad_norm": 3.007688283920288,
      "learning_rate": 3.194104333247849e-08,
      "loss": 3.3774,
      "step": 476860
    },
    {
      "epoch": 0.9934791666666667,
      "grad_norm": 2.551295280456543,
      "learning_rate": 3.1737928318703584e-08,
      "loss": 3.4778,
      "step": 476870
    },
    {
      "epoch": 0.9935,
      "grad_norm": 4.702167510986328,
      "learning_rate": 3.153546110843952e-08,
      "loss": 3.4384,
      "step": 476880
    },
    {
      "epoch": 0.9935208333333333,
      "grad_norm": 2.8200016021728516,
      "learning_rate": 3.133364170260222e-08,
      "loss": 3.3454,
      "step": 476890
    },
    {
      "epoch": 0.9935416666666667,
      "grad_norm": 3.6643929481506348,
      "learning_rate": 3.113247010202435e-08,
      "loss": 3.3198,
      "step": 476900
    },
    {
      "epoch": 0.9935625,
      "grad_norm": 3.2697267532348633,
      "learning_rate": 3.093194630760521e-08,
      "loss": 3.5315,
      "step": 476910
    },
    {
      "epoch": 0.9935833333333334,
      "grad_norm": 3.120215654373169,
      "learning_rate": 3.0732070320194094e-08,
      "loss": 3.5384,
      "step": 476920
    },
    {
      "epoch": 0.9936041666666666,
      "grad_norm": 2.9161429405212402,
      "learning_rate": 3.053284214065699e-08,
      "loss": 3.4398,
      "step": 476930
    },
    {
      "epoch": 0.993625,
      "grad_norm": 3.9106109142303467,
      "learning_rate": 3.033426176985987e-08,
      "loss": 3.3079,
      "step": 476940
    },
    {
      "epoch": 0.9936458333333333,
      "grad_norm": 2.9802350997924805,
      "learning_rate": 3.0136329208652056e-08,
      "loss": 3.3969,
      "step": 476950
    },
    {
      "epoch": 0.9936666666666667,
      "grad_norm": 3.348910093307495,
      "learning_rate": 2.993904445789952e-08,
      "loss": 3.3869,
      "step": 476960
    },
    {
      "epoch": 0.9936875,
      "grad_norm": 3.6285154819488525,
      "learning_rate": 2.9742407518451582e-08,
      "loss": 3.4872,
      "step": 476970
    },
    {
      "epoch": 0.9937083333333333,
      "grad_norm": 3.0017991065979004,
      "learning_rate": 2.9546418391140915e-08,
      "loss": 3.3928,
      "step": 476980
    },
    {
      "epoch": 0.9937291666666667,
      "grad_norm": 3.2821412086486816,
      "learning_rate": 2.9351077076833486e-08,
      "loss": 3.4805,
      "step": 476990
    },
    {
      "epoch": 0.99375,
      "grad_norm": 3.0630462169647217,
      "learning_rate": 2.9156383576361964e-08,
      "loss": 3.4131,
      "step": 477000
    },
    {
      "epoch": 0.99375,
      "eval_loss": 3.520411968231201,
      "eval_runtime": 6.9432,
      "eval_samples_per_second": 1.44,
      "eval_steps_per_second": 0.432,
      "step": 477000
    },
    {
      "epoch": 0.9937708333333334,
      "grad_norm": 2.9540302753448486,
      "learning_rate": 2.896233789057567e-08,
      "loss": 3.2577,
      "step": 477010
    },
    {
      "epoch": 0.9937916666666666,
      "grad_norm": 3.9864633083343506,
      "learning_rate": 2.8768940020307273e-08,
      "loss": 3.4228,
      "step": 477020
    },
    {
      "epoch": 0.9938125,
      "grad_norm": 3.73228120803833,
      "learning_rate": 2.8576189966406093e-08,
      "loss": 3.3287,
      "step": 477030
    },
    {
      "epoch": 0.9938333333333333,
      "grad_norm": 2.690558671951294,
      "learning_rate": 2.838408772967149e-08,
      "loss": 3.4567,
      "step": 477040
    },
    {
      "epoch": 0.9938541666666667,
      "grad_norm": 3.3480429649353027,
      "learning_rate": 2.8192633310969438e-08,
      "loss": 3.3954,
      "step": 477050
    },
    {
      "epoch": 0.993875,
      "grad_norm": 3.0977439880371094,
      "learning_rate": 2.800182671111595e-08,
      "loss": 3.3811,
      "step": 477060
    },
    {
      "epoch": 0.9938958333333333,
      "grad_norm": 2.6759657859802246,
      "learning_rate": 2.781166793092704e-08,
      "loss": 3.5338,
      "step": 477070
    },
    {
      "epoch": 0.9939166666666667,
      "grad_norm": 2.8437769412994385,
      "learning_rate": 2.762215697121872e-08,
      "loss": 3.6836,
      "step": 477080
    },
    {
      "epoch": 0.9939375,
      "grad_norm": 3.4890289306640625,
      "learning_rate": 2.743329383284032e-08,
      "loss": 3.3855,
      "step": 477090
    },
    {
      "epoch": 0.9939583333333334,
      "grad_norm": 2.833286762237549,
      "learning_rate": 2.7245078516574536e-08,
      "loss": 3.3741,
      "step": 477100
    },
    {
      "epoch": 0.9939791666666666,
      "grad_norm": 3.8869338035583496,
      "learning_rate": 2.705751102323739e-08,
      "loss": 3.4182,
      "step": 477110
    },
    {
      "epoch": 0.994,
      "grad_norm": 3.9039714336395264,
      "learning_rate": 2.6870591353661542e-08,
      "loss": 3.3252,
      "step": 477120
    },
    {
      "epoch": 0.9940208333333334,
      "grad_norm": 3.232941150665283,
      "learning_rate": 2.6684319508629704e-08,
      "loss": 3.4708,
      "step": 477130
    },
    {
      "epoch": 0.9940416666666667,
      "grad_norm": 3.1743319034576416,
      "learning_rate": 2.649869548897454e-08,
      "loss": 3.336,
      "step": 477140
    },
    {
      "epoch": 0.9940625,
      "grad_norm": 2.833648681640625,
      "learning_rate": 2.6313719295462112e-08,
      "loss": 3.2534,
      "step": 477150
    },
    {
      "epoch": 0.9940833333333333,
      "grad_norm": 3.4540441036224365,
      "learning_rate": 2.6129390928925076e-08,
      "loss": 3.5227,
      "step": 477160
    },
    {
      "epoch": 0.9941041666666667,
      "grad_norm": 3.8949320316314697,
      "learning_rate": 2.5945710390146145e-08,
      "loss": 3.6554,
      "step": 477170
    },
    {
      "epoch": 0.994125,
      "grad_norm": 2.8905906677246094,
      "learning_rate": 2.576267767990803e-08,
      "loss": 3.3775,
      "step": 477180
    },
    {
      "epoch": 0.9941458333333333,
      "grad_norm": 4.386362075805664,
      "learning_rate": 2.5580292799026735e-08,
      "loss": 3.4503,
      "step": 477190
    },
    {
      "epoch": 0.9941666666666666,
      "grad_norm": 4.131737232208252,
      "learning_rate": 2.539855574825167e-08,
      "loss": 3.518,
      "step": 477200
    },
    {
      "epoch": 0.9941875,
      "grad_norm": 2.9130115509033203,
      "learning_rate": 2.52174665284155e-08,
      "loss": 3.3708,
      "step": 477210
    },
    {
      "epoch": 0.9942083333333334,
      "grad_norm": 3.8143205642700195,
      "learning_rate": 2.5037025140250967e-08,
      "loss": 3.4803,
      "step": 477220
    },
    {
      "epoch": 0.9942291666666667,
      "grad_norm": 3.4112980365753174,
      "learning_rate": 2.4857231584574087e-08,
      "loss": 3.3424,
      "step": 477230
    },
    {
      "epoch": 0.99425,
      "grad_norm": 3.6505751609802246,
      "learning_rate": 2.467808586215092e-08,
      "loss": 3.4683,
      "step": 477240
    },
    {
      "epoch": 0.9942708333333333,
      "grad_norm": 4.692997455596924,
      "learning_rate": 2.449958797376417e-08,
      "loss": 3.5382,
      "step": 477250
    },
    {
      "epoch": 0.9942916666666667,
      "grad_norm": 2.903456449508667,
      "learning_rate": 2.432173792016323e-08,
      "loss": 3.5891,
      "step": 477260
    },
    {
      "epoch": 0.9943125,
      "grad_norm": 3.19478178024292,
      "learning_rate": 2.414453570213082e-08,
      "loss": 3.3896,
      "step": 477270
    },
    {
      "epoch": 0.9943333333333333,
      "grad_norm": 3.4841301441192627,
      "learning_rate": 2.396798132041633e-08,
      "loss": 3.5634,
      "step": 477280
    },
    {
      "epoch": 0.9943541666666667,
      "grad_norm": 2.834646463394165,
      "learning_rate": 2.3792074775819125e-08,
      "loss": 3.3867,
      "step": 477290
    },
    {
      "epoch": 0.994375,
      "grad_norm": 3.928971529006958,
      "learning_rate": 2.36168160690553e-08,
      "loss": 3.3591,
      "step": 477300
    },
    {
      "epoch": 0.9943958333333334,
      "grad_norm": 2.843933582305908,
      "learning_rate": 2.344220520090756e-08,
      "loss": 3.437,
      "step": 477310
    },
    {
      "epoch": 0.9944166666666666,
      "grad_norm": 3.530906915664673,
      "learning_rate": 2.3268242172125305e-08,
      "loss": 3.3898,
      "step": 477320
    },
    {
      "epoch": 0.9944375,
      "grad_norm": 3.23738694190979,
      "learning_rate": 2.309492698345794e-08,
      "loss": 3.2702,
      "step": 477330
    },
    {
      "epoch": 0.9944583333333333,
      "grad_norm": 3.0090174674987793,
      "learning_rate": 2.2922259635671514e-08,
      "loss": 3.3806,
      "step": 477340
    },
    {
      "epoch": 0.9944791666666667,
      "grad_norm": 3.0565826892852783,
      "learning_rate": 2.2750240129482124e-08,
      "loss": 3.4623,
      "step": 477350
    },
    {
      "epoch": 0.9945,
      "grad_norm": 2.9418652057647705,
      "learning_rate": 2.2578868465639165e-08,
      "loss": 3.5086,
      "step": 477360
    },
    {
      "epoch": 0.9945208333333333,
      "grad_norm": 3.2618002891540527,
      "learning_rate": 2.24081446449087e-08,
      "loss": 3.4435,
      "step": 477370
    },
    {
      "epoch": 0.9945416666666667,
      "grad_norm": 2.9850101470947266,
      "learning_rate": 2.2238068667990162e-08,
      "loss": 3.3009,
      "step": 477380
    },
    {
      "epoch": 0.9945625,
      "grad_norm": 3.254467487335205,
      "learning_rate": 2.2068640535649605e-08,
      "loss": 3.3347,
      "step": 477390
    },
    {
      "epoch": 0.9945833333333334,
      "grad_norm": 2.9850268363952637,
      "learning_rate": 2.189986024860313e-08,
      "loss": 3.3809,
      "step": 477400
    },
    {
      "epoch": 0.9946041666666666,
      "grad_norm": 3.4379653930664062,
      "learning_rate": 2.1731727807583478e-08,
      "loss": 3.4671,
      "step": 477410
    },
    {
      "epoch": 0.994625,
      "grad_norm": 3.024763822555542,
      "learning_rate": 2.1564243213323397e-08,
      "loss": 3.3505,
      "step": 477420
    },
    {
      "epoch": 0.9946458333333333,
      "grad_norm": 3.013770341873169,
      "learning_rate": 2.139740646653898e-08,
      "loss": 3.4422,
      "step": 477430
    },
    {
      "epoch": 0.9946666666666667,
      "grad_norm": 3.9579286575317383,
      "learning_rate": 2.1231217567946324e-08,
      "loss": 3.4847,
      "step": 477440
    },
    {
      "epoch": 0.9946875,
      "grad_norm": 2.5502002239227295,
      "learning_rate": 2.1065676518278173e-08,
      "loss": 3.4473,
      "step": 477450
    },
    {
      "epoch": 0.9947083333333333,
      "grad_norm": 3.0059990882873535,
      "learning_rate": 2.090078331823397e-08,
      "loss": 3.3194,
      "step": 477460
    },
    {
      "epoch": 0.9947291666666667,
      "grad_norm": 4.23344087600708,
      "learning_rate": 2.073653796852981e-08,
      "loss": 3.2775,
      "step": 477470
    },
    {
      "epoch": 0.99475,
      "grad_norm": 2.880671977996826,
      "learning_rate": 2.0572940469881782e-08,
      "loss": 3.4277,
      "step": 477480
    },
    {
      "epoch": 0.9947708333333334,
      "grad_norm": 3.757187843322754,
      "learning_rate": 2.040999082298933e-08,
      "loss": 3.4256,
      "step": 477490
    },
    {
      "epoch": 0.9947916666666666,
      "grad_norm": 3.677987813949585,
      "learning_rate": 2.0247689028551893e-08,
      "loss": 3.3918,
      "step": 477500
    },
    {
      "epoch": 0.9948125,
      "grad_norm": 2.6669352054595947,
      "learning_rate": 2.008603508730222e-08,
      "loss": 3.4651,
      "step": 477510
    },
    {
      "epoch": 0.9948333333333333,
      "grad_norm": 3.291708469390869,
      "learning_rate": 1.992502899988979e-08,
      "loss": 3.5756,
      "step": 477520
    },
    {
      "epoch": 0.9948541666666667,
      "grad_norm": 3.3112525939941406,
      "learning_rate": 1.9764670767047354e-08,
      "loss": 3.466,
      "step": 477530
    },
    {
      "epoch": 0.994875,
      "grad_norm": 3.779439687728882,
      "learning_rate": 1.9604960389457692e-08,
      "loss": 3.5638,
      "step": 477540
    },
    {
      "epoch": 0.9948958333333333,
      "grad_norm": 2.603309392929077,
      "learning_rate": 1.9445897867803596e-08,
      "loss": 3.395,
      "step": 477550
    },
    {
      "epoch": 0.9949166666666667,
      "grad_norm": 3.1832470893859863,
      "learning_rate": 1.9287483202784503e-08,
      "loss": 3.3996,
      "step": 477560
    },
    {
      "epoch": 0.9949375,
      "grad_norm": 2.8474209308624268,
      "learning_rate": 1.912971639506655e-08,
      "loss": 3.4582,
      "step": 477570
    },
    {
      "epoch": 0.9949583333333333,
      "grad_norm": 2.861602306365967,
      "learning_rate": 1.897259744534918e-08,
      "loss": 3.2801,
      "step": 477580
    },
    {
      "epoch": 0.9949791666666666,
      "grad_norm": 2.7984461784362793,
      "learning_rate": 1.881612635429852e-08,
      "loss": 3.5017,
      "step": 477590
    },
    {
      "epoch": 0.995,
      "grad_norm": 2.7704832553863525,
      "learning_rate": 1.8660303122597365e-08,
      "loss": 3.4277,
      "step": 477600
    },
    {
      "epoch": 0.9950208333333334,
      "grad_norm": 2.275458335876465,
      "learning_rate": 1.850512775091184e-08,
      "loss": 3.4725,
      "step": 477610
    },
    {
      "epoch": 0.9950416666666667,
      "grad_norm": 3.5798070430755615,
      "learning_rate": 1.835060023992474e-08,
      "loss": 3.4857,
      "step": 477620
    },
    {
      "epoch": 0.9950625,
      "grad_norm": 3.331871271133423,
      "learning_rate": 1.8196720590285542e-08,
      "loss": 3.3089,
      "step": 477630
    },
    {
      "epoch": 0.9950833333333333,
      "grad_norm": 4.727273941040039,
      "learning_rate": 1.804348880267703e-08,
      "loss": 3.4835,
      "step": 477640
    },
    {
      "epoch": 0.9951041666666667,
      "grad_norm": 3.3245983123779297,
      "learning_rate": 1.7890904877765344e-08,
      "loss": 3.541,
      "step": 477650
    },
    {
      "epoch": 0.995125,
      "grad_norm": 2.7821922302246094,
      "learning_rate": 1.7738968816183306e-08,
      "loss": 3.5151,
      "step": 477660
    },
    {
      "epoch": 0.9951458333333333,
      "grad_norm": 3.620448350906372,
      "learning_rate": 1.7587680618597054e-08,
      "loss": 3.3924,
      "step": 477670
    },
    {
      "epoch": 0.9951666666666666,
      "grad_norm": 3.4231350421905518,
      "learning_rate": 1.743704028567272e-08,
      "loss": 3.416,
      "step": 477680
    },
    {
      "epoch": 0.9951875,
      "grad_norm": 2.665968894958496,
      "learning_rate": 1.7287047818059785e-08,
      "loss": 3.3646,
      "step": 477690
    },
    {
      "epoch": 0.9952083333333334,
      "grad_norm": 3.324958562850952,
      "learning_rate": 1.7137703216391076e-08,
      "loss": 3.3178,
      "step": 477700
    },
    {
      "epoch": 0.9952291666666667,
      "grad_norm": 2.965649366378784,
      "learning_rate": 1.698900648131607e-08,
      "loss": 3.4503,
      "step": 477710
    },
    {
      "epoch": 0.99525,
      "grad_norm": 3.183473825454712,
      "learning_rate": 1.6840957613500906e-08,
      "loss": 3.4755,
      "step": 477720
    },
    {
      "epoch": 0.9952708333333333,
      "grad_norm": 3.425790548324585,
      "learning_rate": 1.66935566135451e-08,
      "loss": 3.3349,
      "step": 477730
    },
    {
      "epoch": 0.9952916666666667,
      "grad_norm": 3.140929698944092,
      "learning_rate": 1.654680348211479e-08,
      "loss": 3.3784,
      "step": 477740
    },
    {
      "epoch": 0.9953125,
      "grad_norm": 2.6709201335906982,
      "learning_rate": 1.6400698219826148e-08,
      "loss": 3.4592,
      "step": 477750
    },
    {
      "epoch": 0.9953333333333333,
      "grad_norm": 3.1188559532165527,
      "learning_rate": 1.6255240827328654e-08,
      "loss": 3.5467,
      "step": 477760
    },
    {
      "epoch": 0.9953541666666667,
      "grad_norm": 3.8483972549438477,
      "learning_rate": 1.611043130523848e-08,
      "loss": 3.4904,
      "step": 477770
    },
    {
      "epoch": 0.995375,
      "grad_norm": 3.785390615463257,
      "learning_rate": 1.5966269654171802e-08,
      "loss": 3.5907,
      "step": 477780
    },
    {
      "epoch": 0.9953958333333334,
      "grad_norm": 3.2972116470336914,
      "learning_rate": 1.5822755874778104e-08,
      "loss": 3.3769,
      "step": 477790
    },
    {
      "epoch": 0.9954166666666666,
      "grad_norm": 3.084913492202759,
      "learning_rate": 1.56798899676569e-08,
      "loss": 3.3317,
      "step": 477800
    },
    {
      "epoch": 0.9954375,
      "grad_norm": 2.699141025543213,
      "learning_rate": 1.553767193344102e-08,
      "loss": 3.51,
      "step": 477810
    },
    {
      "epoch": 0.9954583333333333,
      "grad_norm": 2.587515354156494,
      "learning_rate": 1.539610177271333e-08,
      "loss": 3.2843,
      "step": 477820
    },
    {
      "epoch": 0.9954791666666667,
      "grad_norm": 2.76125431060791,
      "learning_rate": 1.5255179486123313e-08,
      "loss": 3.3424,
      "step": 477830
    },
    {
      "epoch": 0.9955,
      "grad_norm": 2.825374126434326,
      "learning_rate": 1.5114905074253836e-08,
      "loss": 3.4843,
      "step": 477840
    },
    {
      "epoch": 0.9955208333333333,
      "grad_norm": 2.6431970596313477,
      "learning_rate": 1.4975278537721068e-08,
      "loss": 3.3664,
      "step": 477850
    },
    {
      "epoch": 0.9955416666666667,
      "grad_norm": 5.08916711807251,
      "learning_rate": 1.4836299877141189e-08,
      "loss": 3.5931,
      "step": 477860
    },
    {
      "epoch": 0.9955625,
      "grad_norm": 4.219432353973389,
      "learning_rate": 1.4697969093080408e-08,
      "loss": 3.3207,
      "step": 477870
    },
    {
      "epoch": 0.9955833333333334,
      "grad_norm": 2.85573673248291,
      "learning_rate": 1.4560286186171555e-08,
      "loss": 3.5828,
      "step": 477880
    },
    {
      "epoch": 0.9956041666666666,
      "grad_norm": 2.9348971843719482,
      "learning_rate": 1.4423251156980841e-08,
      "loss": 3.5134,
      "step": 477890
    },
    {
      "epoch": 0.995625,
      "grad_norm": 3.109602212905884,
      "learning_rate": 1.4286864006124444e-08,
      "loss": 3.4216,
      "step": 477900
    },
    {
      "epoch": 0.9956458333333333,
      "grad_norm": 3.431793689727783,
      "learning_rate": 1.4151124734168573e-08,
      "loss": 3.4284,
      "step": 477910
    },
    {
      "epoch": 0.9956666666666667,
      "grad_norm": 2.5117015838623047,
      "learning_rate": 1.4016033341712752e-08,
      "loss": 3.4518,
      "step": 477920
    },
    {
      "epoch": 0.9956875,
      "grad_norm": 3.520472526550293,
      "learning_rate": 1.3881589829339845e-08,
      "loss": 3.3564,
      "step": 477930
    },
    {
      "epoch": 0.9957083333333333,
      "grad_norm": 3.1908442974090576,
      "learning_rate": 1.3747794197632722e-08,
      "loss": 3.4555,
      "step": 477940
    },
    {
      "epoch": 0.9957291666666667,
      "grad_norm": 2.8057749271392822,
      "learning_rate": 1.3614646447174249e-08,
      "loss": 3.3361,
      "step": 477950
    },
    {
      "epoch": 0.99575,
      "grad_norm": 2.6781165599823,
      "learning_rate": 1.348214657853064e-08,
      "loss": 3.4227,
      "step": 477960
    },
    {
      "epoch": 0.9957708333333334,
      "grad_norm": 3.3059346675872803,
      "learning_rate": 1.3350294592268106e-08,
      "loss": 3.3777,
      "step": 477970
    },
    {
      "epoch": 0.9957916666666666,
      "grad_norm": 2.944143056869507,
      "learning_rate": 1.3219090488952865e-08,
      "loss": 3.3453,
      "step": 477980
    },
    {
      "epoch": 0.9958125,
      "grad_norm": 3.0127151012420654,
      "learning_rate": 1.3088534269184436e-08,
      "loss": 3.4141,
      "step": 477990
    },
    {
      "epoch": 0.9958333333333333,
      "grad_norm": 3.126192569732666,
      "learning_rate": 1.2958625933495725e-08,
      "loss": 3.4231,
      "step": 478000
    },
    {
      "epoch": 0.9958333333333333,
      "eval_loss": 3.5190043449401855,
      "eval_runtime": 7.5085,
      "eval_samples_per_second": 1.332,
      "eval_steps_per_second": 0.4,
      "step": 478000
    },
    {
      "epoch": 0.9958541666666667,
      "grad_norm": 2.461317300796509,
      "learning_rate": 1.2829365482452947e-08,
      "loss": 3.453,
      "step": 478010
    },
    {
      "epoch": 0.995875,
      "grad_norm": 2.6607065200805664,
      "learning_rate": 1.2700752916622315e-08,
      "loss": 3.3447,
      "step": 478020
    },
    {
      "epoch": 0.9958958333333333,
      "grad_norm": 3.251326560974121,
      "learning_rate": 1.2572788236553389e-08,
      "loss": 3.4352,
      "step": 478030
    },
    {
      "epoch": 0.9959166666666667,
      "grad_norm": 2.9053072929382324,
      "learning_rate": 1.2445471442795729e-08,
      "loss": 3.4278,
      "step": 478040
    },
    {
      "epoch": 0.9959375,
      "grad_norm": 2.439873218536377,
      "learning_rate": 1.2318802535915551e-08,
      "loss": 3.4644,
      "step": 478050
    },
    {
      "epoch": 0.9959583333333333,
      "grad_norm": 3.954118013381958,
      "learning_rate": 1.219278151644576e-08,
      "loss": 3.4201,
      "step": 478060
    },
    {
      "epoch": 0.9959791666666666,
      "grad_norm": 5.195261478424072,
      "learning_rate": 1.2067408384919264e-08,
      "loss": 3.4994,
      "step": 478070
    },
    {
      "epoch": 0.996,
      "grad_norm": 2.9152727127075195,
      "learning_rate": 1.1942683141918929e-08,
      "loss": 3.3486,
      "step": 478080
    },
    {
      "epoch": 0.9960208333333334,
      "grad_norm": 2.7818055152893066,
      "learning_rate": 1.1818605787944357e-08,
      "loss": 3.5085,
      "step": 478090
    },
    {
      "epoch": 0.9960416666666667,
      "grad_norm": 2.5178890228271484,
      "learning_rate": 1.1695176323528454e-08,
      "loss": 3.4983,
      "step": 478100
    },
    {
      "epoch": 0.9960625,
      "grad_norm": 3.0822694301605225,
      "learning_rate": 1.1572394749237434e-08,
      "loss": 3.3745,
      "step": 478110
    },
    {
      "epoch": 0.9960833333333333,
      "grad_norm": 3.119964599609375,
      "learning_rate": 1.1450261065587552e-08,
      "loss": 3.4029,
      "step": 478120
    },
    {
      "epoch": 0.9961041666666667,
      "grad_norm": 3.049872875213623,
      "learning_rate": 1.1328775273095058e-08,
      "loss": 3.2945,
      "step": 478130
    },
    {
      "epoch": 0.996125,
      "grad_norm": 3.3920388221740723,
      "learning_rate": 1.1207937372292864e-08,
      "loss": 3.3619,
      "step": 478140
    },
    {
      "epoch": 0.9961458333333333,
      "grad_norm": 3.101367950439453,
      "learning_rate": 1.1087747363697219e-08,
      "loss": 3.341,
      "step": 478150
    },
    {
      "epoch": 0.9961666666666666,
      "grad_norm": 3.0229408740997314,
      "learning_rate": 1.0968205247841033e-08,
      "loss": 3.6354,
      "step": 478160
    },
    {
      "epoch": 0.9961875,
      "grad_norm": 3.46323823928833,
      "learning_rate": 1.0849311025223905e-08,
      "loss": 3.3449,
      "step": 478170
    },
    {
      "epoch": 0.9962083333333334,
      "grad_norm": 3.837244749069214,
      "learning_rate": 1.0731064696378743e-08,
      "loss": 3.4333,
      "step": 478180
    },
    {
      "epoch": 0.9962291666666667,
      "grad_norm": 2.7274816036224365,
      "learning_rate": 1.0613466261805149e-08,
      "loss": 3.2576,
      "step": 478190
    },
    {
      "epoch": 0.99625,
      "grad_norm": 2.9424872398376465,
      "learning_rate": 1.0496515722002719e-08,
      "loss": 3.4828,
      "step": 478200
    },
    {
      "epoch": 0.9962708333333333,
      "grad_norm": 2.880828619003296,
      "learning_rate": 1.0380213077487708e-08,
      "loss": 3.4548,
      "step": 478210
    },
    {
      "epoch": 0.9962916666666667,
      "grad_norm": 3.6314425468444824,
      "learning_rate": 1.026455832875972e-08,
      "loss": 3.3772,
      "step": 478220
    },
    {
      "epoch": 0.9963125,
      "grad_norm": 3.36161208152771,
      "learning_rate": 1.0149551476318351e-08,
      "loss": 3.3644,
      "step": 478230
    },
    {
      "epoch": 0.9963333333333333,
      "grad_norm": 4.1172356605529785,
      "learning_rate": 1.0035192520663204e-08,
      "loss": 3.5048,
      "step": 478240
    },
    {
      "epoch": 0.9963541666666667,
      "grad_norm": 3.1583738327026367,
      "learning_rate": 9.921481462293878e-09,
      "loss": 3.3318,
      "step": 478250
    },
    {
      "epoch": 0.996375,
      "grad_norm": 4.092766761779785,
      "learning_rate": 9.808418301676669e-09,
      "loss": 3.4206,
      "step": 478260
    },
    {
      "epoch": 0.9963958333333334,
      "grad_norm": 3.064027786254883,
      "learning_rate": 9.696003039327826e-09,
      "loss": 3.3777,
      "step": 478270
    },
    {
      "epoch": 0.9964166666666666,
      "grad_norm": 3.104381799697876,
      "learning_rate": 9.584235675730301e-09,
      "loss": 3.456,
      "step": 478280
    },
    {
      "epoch": 0.9964375,
      "grad_norm": 2.58062481880188,
      "learning_rate": 9.473116211350384e-09,
      "loss": 3.4264,
      "step": 478290
    },
    {
      "epoch": 0.9964583333333333,
      "grad_norm": 3.8028359413146973,
      "learning_rate": 9.362644646671024e-09,
      "loss": 3.3844,
      "step": 478300
    },
    {
      "epoch": 0.9964791666666667,
      "grad_norm": 3.249762773513794,
      "learning_rate": 9.252820982175169e-09,
      "loss": 3.4092,
      "step": 478310
    },
    {
      "epoch": 0.9965,
      "grad_norm": 3.1171207427978516,
      "learning_rate": 9.14364521832911e-09,
      "loss": 3.5711,
      "step": 478320
    },
    {
      "epoch": 0.9965208333333333,
      "grad_norm": 3.1853713989257812,
      "learning_rate": 9.035117355632448e-09,
      "loss": 3.4812,
      "step": 478330
    },
    {
      "epoch": 0.9965416666666667,
      "grad_norm": 2.78515887260437,
      "learning_rate": 8.927237394518172e-09,
      "loss": 3.3963,
      "step": 478340
    },
    {
      "epoch": 0.9965625,
      "grad_norm": 3.165477991104126,
      "learning_rate": 8.820005335469227e-09,
      "loss": 3.425,
      "step": 478350
    },
    {
      "epoch": 0.9965833333333334,
      "grad_norm": 2.923661708831787,
      "learning_rate": 8.713421178951907e-09,
      "loss": 3.4321,
      "step": 478360
    },
    {
      "epoch": 0.9966041666666666,
      "grad_norm": 3.0698230266571045,
      "learning_rate": 8.607484925432506e-09,
      "loss": 3.3764,
      "step": 478370
    },
    {
      "epoch": 0.996625,
      "grad_norm": 2.966824531555176,
      "learning_rate": 8.502196575344011e-09,
      "loss": 3.4092,
      "step": 478380
    },
    {
      "epoch": 0.9966458333333333,
      "grad_norm": 3.272350788116455,
      "learning_rate": 8.397556129152716e-09,
      "loss": 3.3931,
      "step": 478390
    },
    {
      "epoch": 0.9966666666666667,
      "grad_norm": 3.8977770805358887,
      "learning_rate": 8.293563587324914e-09,
      "loss": 3.4087,
      "step": 478400
    },
    {
      "epoch": 0.9966875,
      "grad_norm": 2.812962055206299,
      "learning_rate": 8.190218950293592e-09,
      "loss": 3.4932,
      "step": 478410
    },
    {
      "epoch": 0.9967083333333333,
      "grad_norm": 3.302805185317993,
      "learning_rate": 8.087522218491738e-09,
      "loss": 3.4861,
      "step": 478420
    },
    {
      "epoch": 0.9967291666666667,
      "grad_norm": 4.707805156707764,
      "learning_rate": 7.985473392402297e-09,
      "loss": 3.5057,
      "step": 478430
    },
    {
      "epoch": 0.99675,
      "grad_norm": 3.307880163192749,
      "learning_rate": 7.884072472441606e-09,
      "loss": 3.5723,
      "step": 478440
    },
    {
      "epoch": 0.9967708333333334,
      "grad_norm": 2.542855739593506,
      "learning_rate": 7.783319459042647e-09,
      "loss": 3.4112,
      "step": 478450
    },
    {
      "epoch": 0.9967916666666666,
      "grad_norm": 4.220841884613037,
      "learning_rate": 7.683214352655064e-09,
      "loss": 3.441,
      "step": 478460
    },
    {
      "epoch": 0.9968125,
      "grad_norm": 2.586538076400757,
      "learning_rate": 7.583757153711845e-09,
      "loss": 3.3984,
      "step": 478470
    },
    {
      "epoch": 0.9968333333333333,
      "grad_norm": 2.508984088897705,
      "learning_rate": 7.48494786262932e-09,
      "loss": 3.4792,
      "step": 478480
    },
    {
      "epoch": 0.9968541666666667,
      "grad_norm": 3.490543842315674,
      "learning_rate": 7.3867864798404786e-09,
      "loss": 3.5672,
      "step": 478490
    },
    {
      "epoch": 0.996875,
      "grad_norm": 2.8803601264953613,
      "learning_rate": 7.289273005761653e-09,
      "loss": 3.4093,
      "step": 478500
    },
    {
      "epoch": 0.9968958333333333,
      "grad_norm": 3.509904146194458,
      "learning_rate": 7.192407440825832e-09,
      "loss": 3.362,
      "step": 478510
    },
    {
      "epoch": 0.9969166666666667,
      "grad_norm": 2.7284631729125977,
      "learning_rate": 7.096189785449347e-09,
      "loss": 3.3017,
      "step": 478520
    },
    {
      "epoch": 0.9969375,
      "grad_norm": 2.743712902069092,
      "learning_rate": 7.000620040048532e-09,
      "loss": 3.4644,
      "step": 478530
    },
    {
      "epoch": 0.9969583333333333,
      "grad_norm": 2.8990020751953125,
      "learning_rate": 6.9056982050397225e-09,
      "loss": 3.4937,
      "step": 478540
    },
    {
      "epoch": 0.9969791666666666,
      "grad_norm": 3.7374343872070312,
      "learning_rate": 6.811424280805944e-09,
      "loss": 3.2845,
      "step": 478550
    },
    {
      "epoch": 0.997,
      "grad_norm": 4.119631290435791,
      "learning_rate": 6.717798267796837e-09,
      "loss": 3.4002,
      "step": 478560
    },
    {
      "epoch": 0.9970208333333334,
      "grad_norm": 3.059279680252075,
      "learning_rate": 6.6248201663787745e-09,
      "loss": 3.4732,
      "step": 478570
    },
    {
      "epoch": 0.9970416666666667,
      "grad_norm": 4.210354328155518,
      "learning_rate": 6.532489976984745e-09,
      "loss": 3.3625,
      "step": 478580
    },
    {
      "epoch": 0.9970625,
      "grad_norm": 3.0077478885650635,
      "learning_rate": 6.440807699997774e-09,
      "loss": 3.3707,
      "step": 478590
    },
    {
      "epoch": 0.9970833333333333,
      "grad_norm": 2.9620702266693115,
      "learning_rate": 6.349773335800889e-09,
      "loss": 3.3569,
      "step": 478600
    },
    {
      "epoch": 0.9971041666666667,
      "grad_norm": 2.666781187057495,
      "learning_rate": 6.259386884810425e-09,
      "loss": 3.3741,
      "step": 478610
    },
    {
      "epoch": 0.997125,
      "grad_norm": 2.9635117053985596,
      "learning_rate": 6.169648347409406e-09,
      "loss": 3.4204,
      "step": 478620
    },
    {
      "epoch": 0.9971458333333333,
      "grad_norm": 3.073556900024414,
      "learning_rate": 6.080557723980861e-09,
      "loss": 3.5248,
      "step": 478630
    },
    {
      "epoch": 0.9971666666666666,
      "grad_norm": 2.843658685684204,
      "learning_rate": 5.9921150149078165e-09,
      "loss": 3.3373,
      "step": 478640
    },
    {
      "epoch": 0.9971875,
      "grad_norm": 3.7967312335968018,
      "learning_rate": 5.904320220589953e-09,
      "loss": 3.4449,
      "step": 478650
    },
    {
      "epoch": 0.9972083333333334,
      "grad_norm": 4.679145336151123,
      "learning_rate": 5.81717334137699e-09,
      "loss": 3.4868,
      "step": 478660
    },
    {
      "epoch": 0.9972291666666667,
      "grad_norm": 3.2824831008911133,
      "learning_rate": 5.7306743776852625e-09,
      "loss": 3.4958,
      "step": 478670
    },
    {
      "epoch": 0.99725,
      "grad_norm": 3.1871190071105957,
      "learning_rate": 5.6448233298478365e-09,
      "loss": 3.5352,
      "step": 478680
    },
    {
      "epoch": 0.9972708333333333,
      "grad_norm": 3.123314619064331,
      "learning_rate": 5.559620198247738e-09,
      "loss": 3.5147,
      "step": 478690
    },
    {
      "epoch": 0.9972916666666667,
      "grad_norm": 3.1984612941741943,
      "learning_rate": 5.475064983267996e-09,
      "loss": 3.5607,
      "step": 478700
    },
    {
      "epoch": 0.9973125,
      "grad_norm": 2.9574544429779053,
      "learning_rate": 5.391157685274983e-09,
      "loss": 3.3354,
      "step": 478710
    },
    {
      "epoch": 0.9973333333333333,
      "grad_norm": 3.467195987701416,
      "learning_rate": 5.3078983046017655e-09,
      "loss": 3.4659,
      "step": 478720
    },
    {
      "epoch": 0.9973541666666667,
      "grad_norm": 2.8974010944366455,
      "learning_rate": 5.225286841631371e-09,
      "loss": 3.4285,
      "step": 478730
    },
    {
      "epoch": 0.997375,
      "grad_norm": 3.355100393295288,
      "learning_rate": 5.143323296713519e-09,
      "loss": 3.3441,
      "step": 478740
    },
    {
      "epoch": 0.9973958333333334,
      "grad_norm": 2.8230035305023193,
      "learning_rate": 5.062007670214585e-09,
      "loss": 3.3797,
      "step": 478750
    },
    {
      "epoch": 0.9974166666666666,
      "grad_norm": 3.52813720703125,
      "learning_rate": 4.981339962467634e-09,
      "loss": 3.4293,
      "step": 478760
    },
    {
      "epoch": 0.9974375,
      "grad_norm": 3.1728034019470215,
      "learning_rate": 4.901320173822387e-09,
      "loss": 3.4678,
      "step": 478770
    },
    {
      "epoch": 0.9974583333333333,
      "grad_norm": 3.0865478515625,
      "learning_rate": 4.821948304645218e-09,
      "loss": 3.5513,
      "step": 478780
    },
    {
      "epoch": 0.9974791666666667,
      "grad_norm": 4.121547698974609,
      "learning_rate": 4.743224355252539e-09,
      "loss": 3.4705,
      "step": 478790
    },
    {
      "epoch": 0.9975,
      "grad_norm": 3.1003832817077637,
      "learning_rate": 4.665148326010726e-09,
      "loss": 3.5081,
      "step": 478800
    },
    {
      "epoch": 0.9975208333333333,
      "grad_norm": 2.925041437149048,
      "learning_rate": 4.58772021723619e-09,
      "loss": 3.3849,
      "step": 478810
    },
    {
      "epoch": 0.9975416666666667,
      "grad_norm": 3.1805572509765625,
      "learning_rate": 4.510940029278654e-09,
      "loss": 3.3599,
      "step": 478820
    },
    {
      "epoch": 0.9975625,
      "grad_norm": 3.492648124694824,
      "learning_rate": 4.434807762437875e-09,
      "loss": 3.567,
      "step": 478830
    },
    {
      "epoch": 0.9975833333333334,
      "grad_norm": 2.755221366882324,
      "learning_rate": 4.359323417080229e-09,
      "loss": 3.3269,
      "step": 478840
    },
    {
      "epoch": 0.9976041666666666,
      "grad_norm": 3.265240430831909,
      "learning_rate": 4.28448699352213e-09,
      "loss": 3.5287,
      "step": 478850
    },
    {
      "epoch": 0.997625,
      "grad_norm": 2.8420965671539307,
      "learning_rate": 4.210298492079989e-09,
      "loss": 3.3509,
      "step": 478860
    },
    {
      "epoch": 0.9976458333333333,
      "grad_norm": 3.0154495239257812,
      "learning_rate": 4.136757913086875e-09,
      "loss": 3.4245,
      "step": 478870
    },
    {
      "epoch": 0.9976666666666667,
      "grad_norm": 2.7053260803222656,
      "learning_rate": 4.0638652568425465e-09,
      "loss": 3.4759,
      "step": 478880
    },
    {
      "epoch": 0.9976875,
      "grad_norm": 2.9849884510040283,
      "learning_rate": 3.991620523663419e-09,
      "loss": 3.4375,
      "step": 478890
    },
    {
      "epoch": 0.9977083333333333,
      "grad_norm": 3.285386085510254,
      "learning_rate": 3.920023713865905e-09,
      "loss": 3.3419,
      "step": 478900
    },
    {
      "epoch": 0.9977291666666667,
      "grad_norm": 4.289951801300049,
      "learning_rate": 3.849074827766418e-09,
      "loss": 3.5132,
      "step": 478910
    },
    {
      "epoch": 0.99775,
      "grad_norm": 3.3576242923736572,
      "learning_rate": 3.778773865664719e-09,
      "loss": 3.4184,
      "step": 478920
    },
    {
      "epoch": 0.9977708333333334,
      "grad_norm": 3.4536242485046387,
      "learning_rate": 3.709120827877221e-09,
      "loss": 3.4462,
      "step": 478930
    },
    {
      "epoch": 0.9977916666666666,
      "grad_norm": 2.5950660705566406,
      "learning_rate": 3.640115714687031e-09,
      "loss": 3.4915,
      "step": 478940
    },
    {
      "epoch": 0.9978125,
      "grad_norm": 3.7814443111419678,
      "learning_rate": 3.5717585263939085e-09,
      "loss": 3.4277,
      "step": 478950
    },
    {
      "epoch": 0.9978333333333333,
      "grad_norm": 2.6360881328582764,
      "learning_rate": 3.5040492632976148e-09,
      "loss": 3.4904,
      "step": 478960
    },
    {
      "epoch": 0.9978541666666667,
      "grad_norm": 2.9501023292541504,
      "learning_rate": 3.4369879256979095e-09,
      "loss": 3.2895,
      "step": 478970
    },
    {
      "epoch": 0.997875,
      "grad_norm": 3.645644426345825,
      "learning_rate": 3.3705745138778995e-09,
      "loss": 3.4158,
      "step": 478980
    },
    {
      "epoch": 0.9978958333333333,
      "grad_norm": 2.956810474395752,
      "learning_rate": 3.304809028120692e-09,
      "loss": 3.4884,
      "step": 478990
    },
    {
      "epoch": 0.9979166666666667,
      "grad_norm": 3.1190216541290283,
      "learning_rate": 3.2396914687093932e-09,
      "loss": 3.399,
      "step": 479000
    },
    {
      "epoch": 0.9979166666666667,
      "eval_loss": 3.5210461616516113,
      "eval_runtime": 7.3196,
      "eval_samples_per_second": 1.366,
      "eval_steps_per_second": 0.41,
      "step": 479000
    },
    {
      "epoch": 0.9979375,
      "grad_norm": 5.11289644241333,
      "learning_rate": 3.1752218359271108e-09,
      "loss": 3.5503,
      "step": 479010
    },
    {
      "epoch": 0.9979583333333333,
      "grad_norm": 3.1984734535217285,
      "learning_rate": 3.111400130073605e-09,
      "loss": 3.4464,
      "step": 479020
    },
    {
      "epoch": 0.9979791666666666,
      "grad_norm": 3.8153655529022217,
      "learning_rate": 3.0482263513820215e-09,
      "loss": 3.2336,
      "step": 479030
    },
    {
      "epoch": 0.998,
      "grad_norm": 3.3158681392669678,
      "learning_rate": 2.985700500168775e-09,
      "loss": 3.5733,
      "step": 479040
    },
    {
      "epoch": 0.9980208333333334,
      "grad_norm": 3.7514002323150635,
      "learning_rate": 2.9238225766836653e-09,
      "loss": 3.3769,
      "step": 479050
    },
    {
      "epoch": 0.9980416666666667,
      "grad_norm": 3.8006739616394043,
      "learning_rate": 2.862592581176493e-09,
      "loss": 3.4039,
      "step": 479060
    },
    {
      "epoch": 0.9980625,
      "grad_norm": 3.330549955368042,
      "learning_rate": 2.802010513947017e-09,
      "loss": 3.4769,
      "step": 479070
    },
    {
      "epoch": 0.9980833333333333,
      "grad_norm": 4.638750076293945,
      "learning_rate": 2.742076375228386e-09,
      "loss": 3.5582,
      "step": 479080
    },
    {
      "epoch": 0.9981041666666667,
      "grad_norm": 2.458138942718506,
      "learning_rate": 2.6827901653037054e-09,
      "loss": 3.4738,
      "step": 479090
    },
    {
      "epoch": 0.998125,
      "grad_norm": 3.1000216007232666,
      "learning_rate": 2.6241518844061227e-09,
      "loss": 3.3851,
      "step": 479100
    },
    {
      "epoch": 0.9981458333333333,
      "grad_norm": 2.977972984313965,
      "learning_rate": 2.5661615328020914e-09,
      "loss": 3.4259,
      "step": 479110
    },
    {
      "epoch": 0.9981666666666666,
      "grad_norm": 3.966275215148926,
      "learning_rate": 2.5088191107414115e-09,
      "loss": 3.4403,
      "step": 479120
    },
    {
      "epoch": 0.9981875,
      "grad_norm": 2.8815107345581055,
      "learning_rate": 2.452124618473883e-09,
      "loss": 3.4003,
      "step": 479130
    },
    {
      "epoch": 0.9982083333333334,
      "grad_norm": 3.781083106994629,
      "learning_rate": 2.396078056232653e-09,
      "loss": 3.4217,
      "step": 479140
    },
    {
      "epoch": 0.9982291666666666,
      "grad_norm": 3.1068904399871826,
      "learning_rate": 2.340679424267522e-09,
      "loss": 3.2308,
      "step": 479150
    },
    {
      "epoch": 0.99825,
      "grad_norm": 4.109986305236816,
      "learning_rate": 2.2859287228116364e-09,
      "loss": 3.4409,
      "step": 479160
    },
    {
      "epoch": 0.9982708333333333,
      "grad_norm": 2.7756879329681396,
      "learning_rate": 2.2318259521147965e-09,
      "loss": 3.3681,
      "step": 479170
    },
    {
      "epoch": 0.9982916666666667,
      "grad_norm": 2.921111583709717,
      "learning_rate": 2.1783711124101487e-09,
      "loss": 3.564,
      "step": 479180
    },
    {
      "epoch": 0.9983125,
      "grad_norm": 2.7787561416625977,
      "learning_rate": 2.125564203914187e-09,
      "loss": 3.467,
      "step": 479190
    },
    {
      "epoch": 0.9983333333333333,
      "grad_norm": 3.688859701156616,
      "learning_rate": 2.0734052268600586e-09,
      "loss": 3.5481,
      "step": 479200
    },
    {
      "epoch": 0.9983541666666667,
      "grad_norm": 2.727980136871338,
      "learning_rate": 2.0218941814809097e-09,
      "loss": 3.2742,
      "step": 479210
    },
    {
      "epoch": 0.998375,
      "grad_norm": 3.9371256828308105,
      "learning_rate": 1.9710310679932338e-09,
      "loss": 3.4505,
      "step": 479220
    },
    {
      "epoch": 0.9983958333333334,
      "grad_norm": 3.2611935138702393,
      "learning_rate": 1.9208158866135247e-09,
      "loss": 3.3889,
      "step": 479230
    },
    {
      "epoch": 0.9984166666666666,
      "grad_norm": 2.9131510257720947,
      "learning_rate": 1.8712486375582756e-09,
      "loss": 3.3463,
      "step": 479240
    },
    {
      "epoch": 0.9984375,
      "grad_norm": 2.80600905418396,
      "learning_rate": 1.8223293210606339e-09,
      "loss": 3.4523,
      "step": 479250
    },
    {
      "epoch": 0.9984583333333333,
      "grad_norm": 3.004953384399414,
      "learning_rate": 1.7740579373037855e-09,
      "loss": 3.2958,
      "step": 479260
    },
    {
      "epoch": 0.9984791666666667,
      "grad_norm": 3.724362850189209,
      "learning_rate": 1.7264344865042245e-09,
      "loss": 3.4846,
      "step": 479270
    },
    {
      "epoch": 0.9985,
      "grad_norm": 3.473878860473633,
      "learning_rate": 1.6794589688950977e-09,
      "loss": 3.4994,
      "step": 479280
    },
    {
      "epoch": 0.9985208333333333,
      "grad_norm": 3.3290343284606934,
      "learning_rate": 1.6331313846429384e-09,
      "loss": 3.2931,
      "step": 479290
    },
    {
      "epoch": 0.9985416666666667,
      "grad_norm": 2.8246047496795654,
      "learning_rate": 1.5874517339642401e-09,
      "loss": 3.4195,
      "step": 479300
    },
    {
      "epoch": 0.9985625,
      "grad_norm": 3.721012592315674,
      "learning_rate": 1.542420017058843e-09,
      "loss": 3.4198,
      "step": 479310
    },
    {
      "epoch": 0.9985833333333334,
      "grad_norm": 4.143434047698975,
      "learning_rate": 1.4980362341099338e-09,
      "loss": 3.5616,
      "step": 479320
    },
    {
      "epoch": 0.9986041666666666,
      "grad_norm": 2.8424744606018066,
      "learning_rate": 1.454300385317353e-09,
      "loss": 3.3907,
      "step": 479330
    },
    {
      "epoch": 0.998625,
      "grad_norm": 3.6297543048858643,
      "learning_rate": 1.4112124708642869e-09,
      "loss": 3.5712,
      "step": 479340
    },
    {
      "epoch": 0.9986458333333333,
      "grad_norm": 3.9164857864379883,
      "learning_rate": 1.368772490950576e-09,
      "loss": 3.4219,
      "step": 479350
    },
    {
      "epoch": 0.9986666666666667,
      "grad_norm": 2.8947694301605225,
      "learning_rate": 1.3269804457427535e-09,
      "loss": 3.3507,
      "step": 479360
    },
    {
      "epoch": 0.9986875,
      "grad_norm": 3.6597349643707275,
      "learning_rate": 1.2858363354240065e-09,
      "loss": 3.5067,
      "step": 479370
    },
    {
      "epoch": 0.9987083333333333,
      "grad_norm": 3.713857650756836,
      "learning_rate": 1.245340160194175e-09,
      "loss": 3.4102,
      "step": 479380
    },
    {
      "epoch": 0.9987291666666667,
      "grad_norm": 3.3153305053710938,
      "learning_rate": 1.2054919202031388e-09,
      "loss": 3.4562,
      "step": 479390
    },
    {
      "epoch": 0.99875,
      "grad_norm": 2.890157699584961,
      "learning_rate": 1.1662916156174318e-09,
      "loss": 3.4928,
      "step": 479400
    },
    {
      "epoch": 0.9987708333333334,
      "grad_norm": 3.36185359954834,
      "learning_rate": 1.127739246636894e-09,
      "loss": 3.3522,
      "step": 479410
    },
    {
      "epoch": 0.9987916666666666,
      "grad_norm": 3.1505138874053955,
      "learning_rate": 1.0898348134114054e-09,
      "loss": 3.3818,
      "step": 479420
    },
    {
      "epoch": 0.9988125,
      "grad_norm": 2.991726875305176,
      "learning_rate": 1.0525783160908462e-09,
      "loss": 3.4356,
      "step": 479430
    },
    {
      "epoch": 0.9988333333333334,
      "grad_norm": 2.7157418727874756,
      "learning_rate": 1.0159697548584034e-09,
      "loss": 3.3856,
      "step": 479440
    },
    {
      "epoch": 0.9988541666666667,
      "grad_norm": 3.0383636951446533,
      "learning_rate": 9.800091298639568e-10,
      "loss": 3.4633,
      "step": 479450
    },
    {
      "epoch": 0.998875,
      "grad_norm": 2.5194199085235596,
      "learning_rate": 9.446964412573866e-10,
      "loss": 3.4952,
      "step": 479460
    },
    {
      "epoch": 0.9988958333333333,
      "grad_norm": 3.4200704097747803,
      "learning_rate": 9.100316891885728e-10,
      "loss": 3.4505,
      "step": 479470
    },
    {
      "epoch": 0.9989166666666667,
      "grad_norm": 2.9714903831481934,
      "learning_rate": 8.760148738240491e-10,
      "loss": 3.4343,
      "step": 479480
    },
    {
      "epoch": 0.9989375,
      "grad_norm": 2.773484945297241,
      "learning_rate": 8.426459953136955e-10,
      "loss": 3.3759,
      "step": 479490
    },
    {
      "epoch": 0.9989583333333333,
      "grad_norm": 3.8248703479766846,
      "learning_rate": 8.099250537740854e-10,
      "loss": 3.3699,
      "step": 479500
    },
    {
      "epoch": 0.9989791666666666,
      "grad_norm": 2.9130992889404297,
      "learning_rate": 7.778520493717522e-10,
      "loss": 3.3124,
      "step": 479510
    },
    {
      "epoch": 0.999,
      "grad_norm": 3.6524596214294434,
      "learning_rate": 7.464269822232693e-10,
      "loss": 3.5535,
      "step": 479520
    },
    {
      "epoch": 0.9990208333333334,
      "grad_norm": 2.9043996334075928,
      "learning_rate": 7.15649852478517e-10,
      "loss": 3.5113,
      "step": 479530
    },
    {
      "epoch": 0.9990416666666667,
      "grad_norm": 2.8553736209869385,
      "learning_rate": 6.855206602707219e-10,
      "loss": 3.3853,
      "step": 479540
    },
    {
      "epoch": 0.9990625,
      "grad_norm": 4.731873989105225,
      "learning_rate": 6.560394057331108e-10,
      "loss": 3.5011,
      "step": 479550
    },
    {
      "epoch": 0.9990833333333333,
      "grad_norm": 3.1759700775146484,
      "learning_rate": 6.272060889822572e-10,
      "loss": 3.4581,
      "step": 479560
    },
    {
      "epoch": 0.9991041666666667,
      "grad_norm": 2.9193334579467773,
      "learning_rate": 5.990207101513877e-10,
      "loss": 3.4785,
      "step": 479570
    },
    {
      "epoch": 0.999125,
      "grad_norm": 2.875472068786621,
      "learning_rate": 5.714832693404226e-10,
      "loss": 3.4644,
      "step": 479580
    },
    {
      "epoch": 0.9991458333333333,
      "grad_norm": 3.1330718994140625,
      "learning_rate": 5.445937667158951e-10,
      "loss": 3.4907,
      "step": 479590
    },
    {
      "epoch": 0.9991666666666666,
      "grad_norm": 2.8716697692871094,
      "learning_rate": 5.183522023444186e-10,
      "loss": 3.4507,
      "step": 479600
    },
    {
      "epoch": 0.9991875,
      "grad_norm": 2.6383090019226074,
      "learning_rate": 4.927585763592201e-10,
      "loss": 3.4144,
      "step": 479610
    },
    {
      "epoch": 0.9992083333333334,
      "grad_norm": 3.0703794956207275,
      "learning_rate": 4.678128888935262e-10,
      "loss": 3.3371,
      "step": 479620
    },
    {
      "epoch": 0.9992291666666666,
      "grad_norm": 2.896855354309082,
      "learning_rate": 4.435151400139503e-10,
      "loss": 3.4436,
      "step": 479630
    },
    {
      "epoch": 0.99925,
      "grad_norm": 3.451195240020752,
      "learning_rate": 4.198653298537191e-10,
      "loss": 3.3756,
      "step": 479640
    },
    {
      "epoch": 0.9992708333333333,
      "grad_norm": 3.219341993331909,
      "learning_rate": 3.968634584960995e-10,
      "loss": 3.4497,
      "step": 479650
    },
    {
      "epoch": 0.9992916666666667,
      "grad_norm": 2.7667667865753174,
      "learning_rate": 3.745095260576647e-10,
      "loss": 3.4759,
      "step": 479660
    },
    {
      "epoch": 0.9993125,
      "grad_norm": 3.060039758682251,
      "learning_rate": 3.528035326216816e-10,
      "loss": 3.4921,
      "step": 479670
    },
    {
      "epoch": 0.9993333333333333,
      "grad_norm": 3.9061739444732666,
      "learning_rate": 3.317454782880702e-10,
      "loss": 3.4276,
      "step": 479680
    },
    {
      "epoch": 0.9993541666666667,
      "grad_norm": 3.2059483528137207,
      "learning_rate": 3.1133536314009723e-10,
      "loss": 3.4725,
      "step": 479690
    },
    {
      "epoch": 0.999375,
      "grad_norm": 3.958127975463867,
      "learning_rate": 2.915731872943361e-10,
      "loss": 3.3967,
      "step": 479700
    },
    {
      "epoch": 0.9993958333333334,
      "grad_norm": 4.974502086639404,
      "learning_rate": 2.7245895080074685e-10,
      "loss": 3.5539,
      "step": 479710
    },
    {
      "epoch": 0.9994166666666666,
      "grad_norm": 3.314887523651123,
      "learning_rate": 2.539926537592496e-10,
      "loss": 3.3998,
      "step": 479720
    },
    {
      "epoch": 0.9994375,
      "grad_norm": 3.068861484527588,
      "learning_rate": 2.3617429623645766e-10,
      "loss": 3.3907,
      "step": 479730
    },
    {
      "epoch": 0.9994583333333333,
      "grad_norm": 3.226309299468994,
      "learning_rate": 2.1900387833229117e-10,
      "loss": 3.4032,
      "step": 479740
    },
    {
      "epoch": 0.9994791666666667,
      "grad_norm": 3.187727212905884,
      "learning_rate": 2.0248140011336344e-10,
      "loss": 3.378,
      "step": 479750
    },
    {
      "epoch": 0.9995,
      "grad_norm": 2.696068048477173,
      "learning_rate": 1.8660686162963456e-10,
      "loss": 3.2585,
      "step": 479760
    },
    {
      "epoch": 0.9995208333333333,
      "grad_norm": 3.834055185317993,
      "learning_rate": 1.7138026296437125e-10,
      "loss": 3.4197,
      "step": 479770
    },
    {
      "epoch": 0.9995416666666667,
      "grad_norm": 3.387816905975342,
      "learning_rate": 1.5680160420084021e-10,
      "loss": 3.6292,
      "step": 479780
    },
    {
      "epoch": 0.9995625,
      "grad_norm": 3.396559000015259,
      "learning_rate": 1.4287088537234815e-10,
      "loss": 3.4162,
      "step": 479790
    },
    {
      "epoch": 0.9995833333333334,
      "grad_norm": 2.9758498668670654,
      "learning_rate": 1.2958810656216179e-10,
      "loss": 3.3769,
      "step": 479800
    },
    {
      "epoch": 0.9996041666666666,
      "grad_norm": 3.101616859436035,
      "learning_rate": 1.1695326782024116e-10,
      "loss": 3.3809,
      "step": 479810
    },
    {
      "epoch": 0.999625,
      "grad_norm": 3.497098445892334,
      "learning_rate": 1.0496636917989298e-10,
      "loss": 3.4001,
      "step": 479820
    },
    {
      "epoch": 0.9996458333333333,
      "grad_norm": 2.905669689178467,
      "learning_rate": 9.36274107410373e-11,
      "loss": 3.3897,
      "step": 479830
    },
    {
      "epoch": 0.9996666666666667,
      "grad_norm": 2.862032890319824,
      "learning_rate": 8.293639250367412e-11,
      "loss": 3.3906,
      "step": 479840
    },
    {
      "epoch": 0.9996875,
      "grad_norm": 3.1485140323638916,
      "learning_rate": 7.289331453441683e-11,
      "loss": 3.3488,
      "step": 479850
    },
    {
      "epoch": 0.9997083333333333,
      "grad_norm": 3.0136024951934814,
      "learning_rate": 6.349817688322545e-11,
      "loss": 3.3977,
      "step": 479860
    },
    {
      "epoch": 0.9997291666666667,
      "grad_norm": 2.9896860122680664,
      "learning_rate": 5.475097958340669e-11,
      "loss": 3.3933,
      "step": 479870
    },
    {
      "epoch": 0.99975,
      "grad_norm": 3.8173623085021973,
      "learning_rate": 4.6651722668267223e-11,
      "loss": 3.5749,
      "step": 479880
    },
    {
      "epoch": 0.9997708333333334,
      "grad_norm": 3.8440330028533936,
      "learning_rate": 3.9200406171113754e-11,
      "loss": 3.4787,
      "step": 479890
    },
    {
      "epoch": 0.9997916666666666,
      "grad_norm": 3.460869550704956,
      "learning_rate": 3.239703014190631e-11,
      "loss": 3.3558,
      "step": 479900
    },
    {
      "epoch": 0.9998125,
      "grad_norm": 3.1225874423980713,
      "learning_rate": 2.6241594597298245e-11,
      "loss": 3.5286,
      "step": 479910
    },
    {
      "epoch": 0.9998333333333334,
      "grad_norm": 4.605504989624023,
      "learning_rate": 2.0734099553942894e-11,
      "loss": 3.295,
      "step": 479920
    },
    {
      "epoch": 0.9998541666666667,
      "grad_norm": 3.4713470935821533,
      "learning_rate": 1.5874545061800304e-11,
      "loss": 3.3484,
      "step": 479930
    },
    {
      "epoch": 0.999875,
      "grad_norm": 3.0024023056030273,
      "learning_rate": 1.1662931120870467e-11,
      "loss": 3.4915,
      "step": 479940
    },
    {
      "epoch": 0.9998958333333333,
      "grad_norm": 3.4036877155303955,
      "learning_rate": 8.099257747806732e-12,
      "loss": 3.4167,
      "step": 479950
    },
    {
      "epoch": 0.9999166666666667,
      "grad_norm": 3.2132532596588135,
      "learning_rate": 5.183524975915787e-12,
      "loss": 3.4523,
      "step": 479960
    },
    {
      "epoch": 0.9999375,
      "grad_norm": 3.7980763912200928,
      "learning_rate": 2.9157328051976348e-12,
      "loss": 3.434,
      "step": 479970
    },
    {
      "epoch": 0.9999583333333333,
      "grad_norm": 2.8276402950286865,
      "learning_rate": 1.2958812523056194e-12,
      "loss": 3.536,
      "step": 479980
    },
    {
      "epoch": 0.9999791666666666,
      "grad_norm": 3.245421886444092,
      "learning_rate": 3.239703172397412e-13,
      "loss": 3.3282,
      "step": 479990
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.247441053390503,
      "learning_rate": 0.0,
      "loss": 3.4902,
      "step": 480000
    },
    {
      "epoch": 1.0,
      "eval_loss": 3.519840955734253,
      "eval_runtime": 7.3336,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.409,
      "step": 480000
    },
    {
      "epoch": 1.0,
      "step": 480000,
      "total_flos": 5.9174692061184e+17,
      "train_loss": 3.8328423178553583,
      "train_runtime": 75170.0745,
      "train_samples_per_second": 25.542,
      "train_steps_per_second": 6.386
    }
  ],
  "logging_steps": 10,
  "max_steps": 480000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 120000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.9174692061184e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}